CN108897778B

CN108897778B - 一种基于多源大数据分析的图像标注方法

Info

Publication number: CN108897778B
Application number: CN201810564329.9A
Authority: CN
Inventors: 花福军
Original assignee: Creative Information Technology Co ltd
Current assignee: Creative Information Technology Co ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2021-12-31
Anticipated expiration: 2038-06-04
Also published as: CN108897778A

Abstract

本文公开了一种基于多源大数据分析的图像标注方法，包括图像多源数据采集、图像数据预处理、图像相似度分析、图像标注；所述图像多源数据采集是相似度分析是利用网络爬虫工具获取图像的相关多源信息；所述图像数据预处理是针对获取到的数据进行数据清洗和存储；所述图像相似度分析是对图像各个来源数据进行相应的相似度分析并且融合计算图像总相似度；所述图像标注是通过相似图像的标注词对图像进行标注。本发明是针对互联网图像的一种标注方法，能够解决目前互联网图像标注不充分的问题。

Description

一种基于多源大数据分析的图像标注方法

技术领域

本发明涉及图像标注技术领域，尤其涉及一种基于多源大数据分析的图像标注方法。

背景技术

图像标注技术多种多样，从早期的人工标注到现在主流的自动标注技术，期间产生了许多图像标注方法。图像自动标注方法是通过已标记的图像样本训练机器学习算法，建立图像低层特征和语义的映射关系，一旦训练好，便可以运用训练好的模型对图像进行语义标签的自动标注。图像自动标注方法根据其适用场景可以分为两种类型：第一种类型是使用机器学习算法,该方法严重依赖于训练集，因此不能实用于互联网图像这一数据集。另一种类型是根据互联网图像周围的文本信息，利用文本提取技术自动提取图像的标注。

使用机器算法对图像进行标注的主要思想是：利用图像特征提取算法提取图像低级特征，将这些特征直接送入分类器（支持向量机、人工神经网络、贝叶斯网络等）中，分类器的输出是图像的类别。支持向量机针对高维数据具有高效率的分类效果，特别是当训练数据集很小时。SVM优于其他分类器的优点是它通过找到最大值来达到最佳的类之间的距离。它已成功应用于一些分类问题，如语音识别，对象检测和图像注释。Chapelle等人针对14个图像概念分别训练1个SVM分类器。Shi等人一开始先使用k-means对图像做聚类处理，然后将相同类别的图像分割，最后训练23个SVM分类器来学习23个分割区域的概念。Frate等人使用4层ANN识别卫星图像中包含的四种地域：植被、沥青、建筑物和土壤。Kim等人使用3层ANN将图像分类为目标和无目标图像。Park等人首先使用分割算法来分割图像，选择图像中心的最大区域作为图像的特征。

基于互联网的图像标注方法不需要大量的训练集，Wang X J.提出了一种针对互联网数据集的图像标注方法，该方法主要是通过分析待标注的图像，寻找与它相似的图像，从相似图像的标注中学习出标注词。Rui X等提出了使用搜索工具先找到与关键词语义相关的标注词，然后检索含有这些标注词的图像作为结果返回给用户的互联网图像标注框架。

传统的基于互联网的图像标注技术过多依赖于图像当前页面的相关信息，从中提取图像的标注。但是当图像当前页面图像信息匮乏和错误的情况时，这种标注方法会将错误的标注或不能标注图像

发明内容

本发明的目的在于克服现有的技术不足，提供一种基于多源大数据分析的图像标注方法，能够解决当前图像标注技术存在标注不全和标注缺失的问题。

本发明的目的是通过以下技术方案来实现的：一种基于多源大数据的图像标注方法，其特征在于：包括以下步骤：

S1. 互联网图像多源数据采集：利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中，所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据；

S2. 图像数据预处理：对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理，存入数据库中；其中，一个图像信息用一个三元组I={Tw,Tm,L}来表示，Tw表示图像的文本信息，Tm表示图像的发布时间，L表示图像的发布位置信息；一个图像发布者信息用一个三元组U={P,T,F}来表示，P表示用户的位置信息，T表示用户的描述信息，F表示用户的社交信息；

S3. 图像相似度分析：通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法，通过融合图像各个源头的数据相似度，求得最终的图像相似度；

S4. 图像标注：通过计算图像在数据库中的相似度，得到图像的相似图像集，获取图像标注集，对标注集进行除噪生成图像的标注。

优选地，步骤S1包括下列子步骤：

S11. 爬虫程序根据种子URL获取网页资源，从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件，引擎解析URL后将其封装成一个Request请求，发送给下载器组件下载网页资源，将下载好的网页资源封装成Response发送给爬虫解析器组件，解析器组件通过Beautiful Soup模块进行网页的解析，通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息等信息，同时如果解析到URL则将URL存入待抓取URL列表，等待调度器读取；

S12. 赋予每个图像一个唯一标识ID，将图像、图像相关文本和图像属性存储在图像表中，赋予每个图像发布者一个唯一标识ID，将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。

优选地，步骤S2包括下列子步骤：

S21. 去除与图像不相关的符号和文本；

S22. 使用分布式中文分词算法将文本分为词汇；

S23. 去除指定的停用词；

S24. 统一图像属性中的时间和位置属性的格式，采集到的时间数据转换为时间类型YYYY-MM-DD HH:MM:SS，位置数据转换为：省，市，地点。

优选地，步骤S3包括下列子步骤：

S31. 构建图像和属性集二部图网络，属性集定义为{类别，地点，时间}，当满足下列三个条件时则建立图像与属性集之间的连接边：1.微博图片所属的类别中含有属性集中的类别；2.微博图片的发布地点属性与属性集中的地点属性的省份相同；3.微博图片的发布时间与属性集中的时间差距在一周；图像与属性集之间边的权重采用公式

计算，其中时间权重

，式中，

为微博发布时间，

为属性集中节点的时间分量，

为权重值，

；位置权重

根据下列规则方法来计算：相同的市则

=1，不同的市

=0.6；通过公式

分析二部图网络中图像之间的相似度，计算出图像a和图像b的图像属性相似度

，其中a，b表示图像节点，C为衰减因子，I(a)、I(b)分别为节点a、b的入边邻节点集合，I_i (a)、I_k(a)分别为节点a入边邻节点集合中第i个、第k个节点，

表示节点a的入边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度；

S32. 使用文本编辑距离建立词汇相似度模型，使用公式

计算图像标签文本相似度，式中，DIS(

)表示文本

的编辑距离，使用公式

计算图像相似度，其中

表示图像a，b节点的图像相似度，

表示图像a，b的文本内容，

表示权重值，

=1；

S33. 分别计算图像发布者标签、位置和社交相似度；图像发布者标签相似度通过统计各标签用户发送的相似图像信息来度量各个标签之间的相似度，通过公式

计算标签

的相似度，其中

分别表示标签为

的图像发布者发表的图像数量，

分别表示

中标签分别为

的图像数量；位置属性相似度

根据下列规则计算：相同省不同市其相似度为 0.4，相同省相同市其相似度为0.8，不同省市其相似度为0.2；用户社交信息相似度使用公式

计算，式中，

表示用户

关注的用户数；最后通过公式

拟合各相似度得到图像发布者相似度

，式中，

表示位置属性的相似度，

为图像发布者标签文本的相似度，

分别为用户u、v的标签，

是用户社交信息相似度，

表示权重值，

；

S34. 使用公式

拟合图像相似度和图像发布者相似度得到图像总的相似度，

表示图像相似度，

表示图像发布者相似度，

表示权重值，

。

优选地，步骤S4包括下列子步骤：

S41. 利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度，筛选图像集中与待标注图像之间相似度大于阀值

的图像，再使用步骤S34得到图像间总的相似度，选择相似度大于

的所有图像作为待标注图像的相似图像集，进而获取图像标注集；

S42. 对图像标注集进行过滤处理，过滤算法通过公式

计算标注的值，去除低于阀值

的标注，得到准确的图像标注词，将图像标注词存入图像表中，式中，T_i表示标注词，N_i表示标注词T_i在所有相似标注词中出现的次数，N表示所有相似图像的标注词总和，D_i表示标注词T_i在基于微博语料库中的逆文档频率，

表示标注词T_i的词频逆文件频率。

优选地，爬虫程序是采用分布式爬虫，图像内容单独用一个列簇存储，图像的其他属性分别存放在其他列簇上。

本发明的有益效果在于：为现有的图像检索提供一种有效的、丰富的图像标注方法，该方法克服了传统方法依赖单一网页信息对图像标注不足的问题。

附图说明

图1为本发明提出的一种基于多源大数据分析的图像标注方法的流程示意图。

图2为本发明提出的一种基于多源大数据分析的图像标注方法中互联网图像多源数据采集步骤的流程示意图。

图3为本发明提出的一种基于多源大数据分析的图像标注方法中图像数据预处理步骤的流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本发明提出的一种基于多源大数据的图像标注方法实施例包括以下步骤：

本发明提出的一种基于多源大数据分析的图像标注方法的流程示意图如图1所示。

作为一种优选实施例，步骤S1包括下列子步骤：

互联网图像多源数据采集步骤的流程示意如图2所示。

作为一种优选实施例，步骤S2包括下列子步骤：

S21. 去除与图像不相关的符号和文本；

S22. 使用分布式中文分词算法将文本分为词汇，去除指定的停用词；

S23. 统一图像属性中的时间和位置属性的格式，采集到的时间数据转换为时间类型YYYY-MM-DD HH:MM:SS，位置数据转换为：省，市，地点。

图像数据预处理步骤的流程示意图如图3所示。

作为一种优选实施例，步骤S3包括下列子步骤：

计算，其中时间权重

，式中，

为微博发布时间，

为属性集中节点的时间分量，

为权重值，

；位置权重

根据下列规则方法来计算：相同的市则

=1，不同的市

=0.6；通过公式

，其中a，b表示图像节点，C为衰减因子，I(a), I(b)分别为节点a，b的入边邻节点集合，I_i (a), I_k(a)分别为节点a入边邻节点集合中第i个，第k个节点，

S32. 使用文本编辑距离建立词汇相似度模型，使用公式

计算图像标签文本相似度，式中，DIS(

)表示文本

的编辑距离，使用公式

计算图像相似度，其中

表示图像a，b节点的图像相似度，

表示图像a，b的文本内容，

表示权重值，

=1；

计算标签

的相似度，其中

分别表示标签为

的图像发布者发表的图像数量，

分别表示

中标签分别为

的图像数量；位置属性相似度

计算，式中，

表示用户

关注的用户数；最后通过公式

拟合各相似度得到图像发布者相似度

，式中，

表示位置属性的相似度，

为图像发布者标签文本的相似度，

分别为用户u、v的标签，

是用户社交信息相似度，

表示权重值，

；

S34. 使用公式

拟合图像相似度和图像发布者相似度得到图像总的相似度，

表示图像相似度，

表示图像发布者相似度，

表示权重值，

。

作为一种优选实施例，步骤S4包括下列子步骤：

S42. 对图像标注集进行过滤处理，过滤算法通过公式

计算标注的值，去除低于阀值

表示标注词T_i的词频逆文件频率。

作为一种优选实施例，爬虫程序是采用分布式爬虫，图像内容单独用一个列簇存储，图像的其他属性分别存放在其他列簇上。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于多源大数据的图像标注方法，其特征在于：包括以下步骤：

S1.互联网图像多源数据采集：利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中，所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据；

S2.图像数据预处理：对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理，存入数据库中；其中，一个图像信息用一个三元组I＝{Tw，Tm，L}来表示，Tw表示图像的文本信息，Tm表示图像的发布时间，L表示图像的发布位置信息；一个图像发布者信息用一个三元组U＝{P，T，F}来表示，P表示用户的位置信息，T表示用户的描述信息，F表示用户的社交信息；

S3.图像相似度分析：通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法，通过融合图像各个源头的数据相似度，求得最终的图像相似度；

步骤S3包括下列子步骤：

S31.构建图像和属性集二部图网络，属性集定义为{类别，地点，时间}，当满足下列三个条件时则建立图像与属性集之间的连接边：1.微博图片所属的类别中含有属性集中的类别；2.微博图片的发布地点属性与属性集中的地点属性的省份相同；3.微博图片的发布时间与属性集中的时间差距在一周；图像与属性集之间边的权重采用公式W＝w₁W_T+w₂W_L计算，其中时间权重

式中，time为微博发布时间，date为属性集中节点的时间分量，w₁，w₂为权重值，w₁+w₂＝1；位置权重W_L根据下列规则方法来计算：相同的市则W_L＝1，不同的市W_L＝0.6；通过公式

分析二部图网络中图像之间的相似度，计算出图像a和图像b的图像属性相似度S_P，其中a，b表示图像节点，C为衰减因子，I(a)、I(b)分别为节点a、b的入边邻节点集合，I_i(a)、I_k(a)分别为节点a入边邻节点集合中第i个、第k个节点，s(I_i(a)，I_j(b))表示节点a的入边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度；

S32.使用文本编辑距离建立词汇相似度模型，使用公式

计算图像标签文本相似度，式中，DIS(T₁，T₂)表示文本T₁，T₂的编辑距离，使用公式S_I(a，b)＝w₃S_P(a，b)+w₄S_T(T₁，T₂)计算图像相似度，其中S_I(a，b)表示图像a、b节点的图像相似度，T₁，T₂表示图像a、b的文本内容，w₃，w₄表示权重值，w₃+w₄＝1；

S33.分别计算图像发布者标签、位置和社交相似度；图像发布者标签相似度通过统计各标签用户发送的相似图像信息来度量各个标签之间的相似度，通过公式

计算标签Ta1和Ta2的相似度，其中N_u1、N_u2分别表示标签为Ta1、Ta2的图像发布者发表的图像数量，N_Ta1、N_Ta2分别表示N_u1和N_u2中标签分别为Ta1、Ta2的图像数量；位置属性相似度S_L根据下列规则计算：相同省不同市其相似度为0.4，相同省相同市其相似度为0.8，不同省市其相似度为0.2；用户社交信息相似度使用公式

计算，式中，F(u)表示用户u关注的用户数；最后通过公式S_U(u，v)＝w₅S_L(u，v)+w₆S_UT(Ta1，Ta2)+w₇S_F(u，v)拟合各相似度得到图像发布者相似度S_U(u，v)，式中，S_L(u，v)表示位置属性的相似度，S_UT(Ta1，Ta2)为图像发布者标签文本的相似度，Ta1，Ta2分别为用户u、v的标签，S_F(u，v)是用户社交信息相似度，w₅，w₆，w₇表示权重值，w₅+w₆+w₇＝1；

S34.使用公式S(u，v)＝w₈S_I(u，v)+w₉S_U(u，v)拟合图像相似度和图像发布者相似度得到图像总的相似度，S_I(u，v)表示图像相似度，S_U(u，v)表示图像发布者相似度，w₈，w₉表示权重值，w₈+w₉＝1；

S4.图像标注：通过计算图像在数据库中的相似度，得到图像的相似图像集，获取图像标注集，对标注集进行除噪生成图像的标注。

2.根据权利要求1所述的一种基于多源大数据的图像标注方法，其特征在于：步骤S1包括下列子步骤：

S11.爬虫程序根据种子URL获取网页资源，从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件，引擎解析URL后将其封装成一个Request请求，发送给下载器组件下载网页资源，将下载好的网页资源封装成Response发送给爬虫解析器组件，解析器组件通过Beautiful Soup模块进行网页的解析，通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息，同时如果解析到URL则将URL存入待抓取URL列表，等待调度器读取；

S12.赋予每个图像一个唯一标识ID，将图像、图像相关文本和图像属性存储在图像表中，赋予每个图像发布者一个唯一标识ID，将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。

3.根据权利要求1所述的一种基于多源大数据的图像标注方法，其特征在于：步骤S2包括下列子步骤：

S21.去除与图像不相关的符号和文本；

S22.使用分布式中文分词算法将文本分为词汇；

S23.去除指定的停用词；

S24.统一图像属性中的时间和位置属性的格式，采集到的时间数据转换为时间类型YYYY-MM-DD HH：MM：SS，位置数据转换为：省，市，地点。

4.根据权利要求1所述的一种基于多源大数据的图像标注方法，其特征在于：步骤S4包括下列子步骤：

S41.利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度，筛选图像集中与待标注图像之间相似度大于阀值ε的图像，再使用步骤S34得到图像间总的相似度，选择相似度大于θ的所有图像作为待标注图像的相似图像集，进而获取图像标注集；

S42.对图像标注集进行过滤处理，过滤算法通过公式

计算标注的值，去除低于阀值δ的标注，得到准确的图像标注词，将图像标注词存入图像表中，式中，T_i表示标注词，N_i表示标注词T_i在所有相似标注词中出现的次数，N表示所有相似图像的标注词总和，D_i表示标注词T_i在基于微博语料库中的逆文档频率，TF-IDF(T_i)表示标注词T_i的词频逆文件频率。

5.根据权利要求2所述的一种基于多源大数据的图像标注方法，其特征在于：爬虫程序是采用分布式爬虫，图像内容单独用一个列簇存储，图像的其他属性分别存放在其他列簇上。