CN108897778B - 一种基于多源大数据分析的图像标注方法 - Google Patents

一种基于多源大数据分析的图像标注方法 Download PDF

Info

Publication number
CN108897778B
CN108897778B CN201810564329.9A CN201810564329A CN108897778B CN 108897778 B CN108897778 B CN 108897778B CN 201810564329 A CN201810564329 A CN 201810564329A CN 108897778 B CN108897778 B CN 108897778B
Authority
CN
China
Prior art keywords
image
similarity
publisher
annotation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810564329.9A
Other languages
English (en)
Other versions
CN108897778A (zh
Inventor
花福军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Information Technology Co ltd
Original Assignee
Creative Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Information Technology Co ltd filed Critical Creative Information Technology Co ltd
Priority to CN201810564329.9A priority Critical patent/CN108897778B/zh
Publication of CN108897778A publication Critical patent/CN108897778A/zh
Application granted granted Critical
Publication of CN108897778B publication Critical patent/CN108897778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开了一种基于多源大数据分析的图像标注方法,包括图像多源数据采集、图像数据预处理、图像相似度分析、图像标注;所述图像多源数据采集是相似度分析是利用网络爬虫工具获取图像的相关多源信息;所述图像数据预处理是针对获取到的数据进行数据清洗和存储;所述图像相似度分析是对图像各个来源数据进行相应的相似度分析并且融合计算图像总相似度;所述图像标注是通过相似图像的标注词对图像进行标注。本发明是针对互联网图像的一种标注方法,能够解决目前互联网图像标注不充分的问题。

Description

一种基于多源大数据分析的图像标注方法
技术领域
本发明涉及图像标注技术领域,尤其涉及一种基于多源大数据分析的图像标注方法。
背景技术
图像标注技术多种多样,从早期的人工标注到现在主流的自动标注技术,期间产生了许多图像标注方法。图像自动标注方法是通过已标记的图像样本训练机器学习算法,建立图像低层特征和语义的映射关系,一旦训练好,便可以运用训练好的模型对图像进行语义标签的自动标注。图像自动标注方法根据其适用场景可以分为两种类型:第一种类型是使用机器学习算法,该方法严重依赖于训练集,因此不能实用于互联网图像这一数据集。另一种类型是根据互联网图像周围的文本信息,利用文本提取技术自动提取图像的标注。
使用机器算法对图像进行标注的主要思想是:利用图像特征提取算法提取图像低级特征,将这些特征直接送入分类器(支持向量机、人工神经网络、贝叶斯网络等)中,分类器的输出是图像的类别。支持向量机针对高维数据具有高效率的分类效果,特别是当训练数据集很小时。SVM优于其他分类器的优点是它通过找到最大值来达到最佳的类之间的距离。它已成功应用于一些分类问题,如语音识别,对象检测和图像注释。Chapelle等人针对14个图像概念分别训练1个SVM分类器。Shi等人一开始先使用k-means对图像做聚类处理,然后将相同类别的图像分割,最后训练23个SVM分类器来学习23个分割区域的概念。Frate等人使用4层ANN识别卫星图像中包含的四种地域:植被、沥青、建筑物和土壤。Kim等人使用3层ANN将图像分类为目标和无目标图像。Park等人首先使用分割算法来分割图像,选择图像中心的最大区域作为图像的特征。
基于互联网的图像标注方法不需要大量的训练集,Wang X J.提出了一种针对互联网数据集的图像标注方法,该方法主要是通过分析待标注的图像,寻找与它相似的图像,从相似图像的标注中学习出标注词。Rui X等提出了使用搜索工具先找到与关键词语义相关的标注词,然后检索含有这些标注词的图像作为结果返回给用户的互联网图像标注框架。
传统的基于互联网的图像标注技术过多依赖于图像当前页面的相关信息,从中提取图像的标注。但是当图像当前页面图像信息匮乏和错误的情况时,这种标注方法会将错误的标注或不能标注图像
发明内容
本发明的目的在于克服现有的技术不足,提供一种基于多源大数据分析的图像标注方法,能够解决当前图像标注技术存在标注不全和标注缺失的问题。
本发明的目的是通过以下技术方案来实现的:一种基于多源大数据的图像标注方法,其特征在于:包括以下步骤:
S1. 互联网图像多源数据采集:利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中,所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据;
S2. 图像数据预处理:对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理,存入数据库中;其中,一个图像信息用一个三元组I={Tw,Tm,L}来表示,Tw表示图像的文本信息,Tm表示图像的发布时间,L表示图像的发布位置信息;一个图像发布者信息用一个三元组U={P,T,F}来表示,P表示用户的位置信息,T表示用户的描述信息,F表示用户的社交信息;
S3. 图像相似度分析:通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法,通过融合图像各个源头的数据相似度,求得最终的图像相似度;
S4. 图像标注:通过计算图像在数据库中的相似度,得到图像的相似图像集,获取图像标注集,对标注集进行除噪生成图像的标注。
优选地,步骤S1包括下列子步骤:
S11. 爬虫程序根据种子URL获取网页资源,从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件,引擎解析URL后将其封装成一个Request请求,发送给下载器组件下载网页资源,将下载好的网页资源封装成Response发送给爬虫解析器组件,解析器组件通过Beautiful Soup模块进行网页的解析,通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息等信息,同时如果解析到URL则将URL存入待抓取URL列表,等待调度器读取;
S12. 赋予每个图像一个唯一标识ID,将图像、图像相关文本和图像属性存储在图像表中,赋予每个图像发布者一个唯一标识ID,将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。
优选地,步骤S2包括下列子步骤:
S21. 去除与图像不相关的符号和文本;
S22. 使用分布式中文分词算法将文本分为词汇;
S23. 去除指定的停用词;
S24. 统一图像属性中的时间和位置属性的格式,采集到的时间数据转换为时间类型YYYY-MM-DD HH:MM:SS,位置数据转换为:省,市,地点。
优选地,步骤S3包括下列子步骤:
S31. 构建图像和属性集二部图网络,属性集定义为{类别,地点,时间},当满足下 列三个条件时则建立图像与属性集之间的连接边:1.微博图片所属的类别中含有属性集中 的类别;2.微博图片的发布地点属性与属性集中的地点属性的省份相同;3.微博图片的发 布时间与属性集中的时间差距在一周;图像与属性集之间边的权重采用公式
Figure DEST_PATH_IMAGE001
计算,其中时间权重
Figure DEST_PATH_IMAGE002
,式中,
Figure DEST_PATH_IMAGE003
为微博发布时间,
Figure DEST_PATH_IMAGE004
为属性集中节点的时间分量,
Figure DEST_PATH_IMAGE005
为权重值,
Figure DEST_PATH_IMAGE006
;位置权重
Figure DEST_PATH_IMAGE007
根据下列 规则方法来计算:相同的市则
Figure 576229DEST_PATH_IMAGE007
=1,不同的市
Figure 555687DEST_PATH_IMAGE007
=0.6;通过公式
Figure DEST_PATH_IMAGE008
分析二部图网络中图像之间的相似度,计算出图像a和图像b的图像属性相似度
Figure DEST_PATH_IMAGE009
,其中a,b表示图像节点,C为衰减因子,I(a)、I(b)分别为节点a、b的入边邻节点集合,Ii (a)、Ik(a)分别为节点a入边邻节点集合中第i个、第k个节点,
Figure DEST_PATH_IMAGE010
表示节点a的入 边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度;
S32. 使用文本编辑距离建立词汇相似度模型,使用公式
Figure DEST_PATH_IMAGE011
计算图像标签文本相似度,式中,DIS(
Figure DEST_PATH_IMAGE012
)表示文本
Figure DEST_PATH_IMAGE013
的编辑距离,使用公式
Figure DEST_PATH_IMAGE014
计算图像相似度,其中
Figure DEST_PATH_IMAGE015
表示图像a,b节点的图像相似度,
Figure 893346DEST_PATH_IMAGE012
表示图像a,b的文本内容,
Figure DEST_PATH_IMAGE016
表示权重 值,
Figure DEST_PATH_IMAGE017
=1;
S33. 分别计算图像发布者标签、位置和社交相似度;图像发布者标签相似度通过 统计各标签用户发送的相似图像信息来度量各个标签之间的相似度,通过公式
Figure DEST_PATH_IMAGE018
计算标签
Figure DEST_PATH_IMAGE019
的相似度,其中
Figure DEST_PATH_IMAGE020
分别表示标签为
Figure DEST_PATH_IMAGE021
的图像发布者发表的图像数量,
Figure DEST_PATH_IMAGE022
分别表示
Figure DEST_PATH_IMAGE023
中标签分别为
Figure 914654DEST_PATH_IMAGE021
的图像数量;位置属性相似度
Figure DEST_PATH_IMAGE024
根据下列规则计算:相同省不同市其相似度为 0.4,相同省相同市其相似度为0.8,不同省市其相似度为0.2;用户社交信息相似度使用公 式
Figure DEST_PATH_IMAGE025
计算,式中,
Figure DEST_PATH_IMAGE026
表示用户
Figure DEST_PATH_IMAGE027
关注的用户数;最后通过公式
Figure DEST_PATH_IMAGE028
拟合各相似度得到图像发布者相似度
Figure DEST_PATH_IMAGE029
,式中,
Figure DEST_PATH_IMAGE030
表示位置属性的相似度,
Figure DEST_PATH_IMAGE031
为图像发布者标签文本的相似 度,
Figure DEST_PATH_IMAGE032
分别为用户u、v的标签,
Figure DEST_PATH_IMAGE033
是用户社交信息相似度,
Figure DEST_PATH_IMAGE034
表示权重 值,
Figure DEST_PATH_IMAGE035
S34. 使用公式
Figure DEST_PATH_IMAGE036
拟合图像相似度和图像发布者 相似度得到图像总的相似度,
Figure DEST_PATH_IMAGE037
表示图像相似度,
Figure DEST_PATH_IMAGE038
表示图像发布者相似度,
Figure DEST_PATH_IMAGE039
表示权重值,
Figure DEST_PATH_IMAGE040
优选地,步骤S4包括下列子步骤:
S41. 利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度,筛选图 像集中与待标注图像之间相似度大于阀值
Figure DEST_PATH_IMAGE041
的图像,再使用步骤S34得到图像间总的相似 度,选择相似度大于
Figure DEST_PATH_IMAGE042
的所有图像作为待标注图像的相似图像集,进而获取图像标注集;
S42. 对图像标注集进行过滤处理,过滤算法通过公式
Figure DEST_PATH_IMAGE043
计 算标注的值,去除低于阀值
Figure DEST_PATH_IMAGE044
的标注,得到准确的图像标注词,将图像标注词存入图像表中, 式中,Ti表示标注词,Ni表示标注词Ti在所有相似标注词中出现的次数,N表示所有相似图像 的标注词总和,Di表示标注词Ti在基于微博语料库中的逆文档频率,
Figure DEST_PATH_IMAGE045
表示标注 词Ti的词频逆文件频率。
优选地,爬虫程序是采用分布式爬虫,图像内容单独用一个列簇存储,图像的其他属性分别存放在其他列簇上。
本发明的有益效果在于:为现有的图像检索提供一种有效的、丰富的图像标注方法,该方法克服了传统方法依赖单一网页信息对图像标注不足的问题。
附图说明
图1为本发明提出的一种基于多源大数据分析的图像标注方法的流程示意图。
图2为本发明提出的一种基于多源大数据分析的图像标注方法中互联网图像多源数据采集步骤的流程示意图。
图3为本发明提出的一种基于多源大数据分析的图像标注方法中图像数据预处理步骤的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本发明提出的一种基于多源大数据的图像标注方法实施例包括以下步骤:
S1. 互联网图像多源数据采集:利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中,所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据;
S2. 图像数据预处理:对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理,存入数据库中;其中,一个图像信息用一个三元组I={Tw,Tm,L}来表示,Tw表示图像的文本信息,Tm表示图像的发布时间,L表示图像的发布位置信息;一个图像发布者信息用一个三元组U={P,T,F}来表示,P表示用户的位置信息,T表示用户的描述信息,F表示用户的社交信息;
S3. 图像相似度分析:通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法,通过融合图像各个源头的数据相似度,求得最终的图像相似度;
S4. 图像标注:通过计算图像在数据库中的相似度,得到图像的相似图像集,获取图像标注集,对标注集进行除噪生成图像的标注。
本发明提出的一种基于多源大数据分析的图像标注方法的流程示意图如图1所示。
作为一种优选实施例,步骤S1包括下列子步骤:
S11. 爬虫程序根据种子URL获取网页资源,从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件,引擎解析URL后将其封装成一个Request请求,发送给下载器组件下载网页资源,将下载好的网页资源封装成Response发送给爬虫解析器组件,解析器组件通过Beautiful Soup模块进行网页的解析,通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息等信息,同时如果解析到URL则将URL存入待抓取URL列表,等待调度器读取;
S12. 赋予每个图像一个唯一标识ID,将图像、图像相关文本和图像属性存储在图像表中,赋予每个图像发布者一个唯一标识ID,将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。
互联网图像多源数据采集步骤的流程示意如图2所示。
作为一种优选实施例,步骤S2包括下列子步骤:
S21. 去除与图像不相关的符号和文本;
S22. 使用分布式中文分词算法将文本分为词汇,去除指定的停用词;
S23. 统一图像属性中的时间和位置属性的格式,采集到的时间数据转换为时间类型YYYY-MM-DD HH:MM:SS,位置数据转换为:省,市,地点。
图像数据预处理步骤的流程示意图如图3所示。
作为一种优选实施例,步骤S3包括下列子步骤:
S31. 构建图像和属性集二部图网络,属性集定义为{类别,地点,时间},当满足下 列三个条件时则建立图像与属性集之间的连接边:1.微博图片所属的类别中含有属性集中 的类别;2.微博图片的发布地点属性与属性集中的地点属性的省份相同;3.微博图片的发 布时间与属性集中的时间差距在一周;图像与属性集之间边的权重采用公式
Figure 726097DEST_PATH_IMAGE001
计算,其中时间权重
Figure 610876DEST_PATH_IMAGE002
,式中,
Figure 877909DEST_PATH_IMAGE003
为微博发布时间,
Figure 889859DEST_PATH_IMAGE004
为属性集中节点的时间分量,
Figure 621054DEST_PATH_IMAGE005
为权重值,
Figure 614418DEST_PATH_IMAGE006
;位置权重
Figure 181797DEST_PATH_IMAGE007
根据下列 规则方法来计算:相同的市则
Figure 981126DEST_PATH_IMAGE007
=1,不同的市
Figure 504511DEST_PATH_IMAGE007
=0.6;通过公式
Figure 747404DEST_PATH_IMAGE008
分析二部图网络中图像之间的相似度,计算出图像a和图像b的图像属性相似度
Figure 989030DEST_PATH_IMAGE009
,其中a,b表示图像节点,C为衰减因子,I(a), I(b)分别为节点a,b的入边邻节点集合,Ii (a), Ik(a)分别为节点a入边邻节点集合中第i个,第k个节点,
Figure 326470DEST_PATH_IMAGE010
表示节点a的入 边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度;
S32. 使用文本编辑距离建立词汇相似度模型,使用公式
Figure 777131DEST_PATH_IMAGE011
计算图像标签文本相似度,式中,DIS(
Figure 112298DEST_PATH_IMAGE012
)表示文本
Figure 903536DEST_PATH_IMAGE013
的编辑距离,使用公式
Figure 795400DEST_PATH_IMAGE014
计算图像相似度,其中
Figure 293377DEST_PATH_IMAGE015
表示图像a,b节点的图像相似度,
Figure 127341DEST_PATH_IMAGE012
表示图像a,b的文本内容,
Figure 891029DEST_PATH_IMAGE016
表示权重 值,
Figure 773534DEST_PATH_IMAGE017
=1;
S33. 分别计算图像发布者标签、位置和社交相似度;图像发布者标签相似度通过 统计各标签用户发送的相似图像信息来度量各个标签之间的相似度,通过公式
Figure 188335DEST_PATH_IMAGE018
计算标签
Figure 943933DEST_PATH_IMAGE019
的相似度,其中
Figure 381867DEST_PATH_IMAGE020
分别表示标签为
Figure 864801DEST_PATH_IMAGE021
的图像发布者发表的图像数量,
Figure 150420DEST_PATH_IMAGE022
分别表示
Figure 263870DEST_PATH_IMAGE023
中标签分别为
Figure 251417DEST_PATH_IMAGE021
的图像数量;位置属性相似度
Figure 288774DEST_PATH_IMAGE024
根据下列规则计算:相同省不同市其相似度为 0.4,相同省相同市其相似度为0.8,不同省市其相似度为0.2;用户社交信息相似度使用公 式
Figure 350271DEST_PATH_IMAGE025
计算,式中,
Figure 509988DEST_PATH_IMAGE026
表示用户
Figure 984832DEST_PATH_IMAGE027
关注的用户数;最后通过公式
Figure 12831DEST_PATH_IMAGE028
拟合各相似度得到图像发布者相似度
Figure 7463DEST_PATH_IMAGE029
,式中,
Figure 259453DEST_PATH_IMAGE030
表示位置属性的相似度,
Figure 989903DEST_PATH_IMAGE031
为图像发布者标签文本的相似 度,
Figure 556014DEST_PATH_IMAGE032
分别为用户u、v的标签,
Figure 919999DEST_PATH_IMAGE033
是用户社交信息相似度,
Figure 93622DEST_PATH_IMAGE034
表示权重 值,
Figure 480741DEST_PATH_IMAGE035
S34. 使用公式
Figure 912860DEST_PATH_IMAGE036
拟合图像相似度和图像发布者 相似度得到图像总的相似度,
Figure 616505DEST_PATH_IMAGE037
表示图像相似度,
Figure 413559DEST_PATH_IMAGE038
表示图像发布者相似度,
Figure 84712DEST_PATH_IMAGE039
表示权重值,
Figure 258204DEST_PATH_IMAGE040
作为一种优选实施例,步骤S4包括下列子步骤:
S41. 利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度,筛选图 像集中与待标注图像之间相似度大于阀值
Figure DEST_PATH_IMAGE046
的图像,再使用步骤S34得到图像间总的相似 度,选择相似度大于
Figure 144252DEST_PATH_IMAGE042
的所有图像作为待标注图像的相似图像集,进而获取图像标注集;
S42. 对图像标注集进行过滤处理,过滤算法通过公式
Figure 112208DEST_PATH_IMAGE043
计 算标注的值,去除低于阀值
Figure 21389DEST_PATH_IMAGE044
的标注,得到准确的图像标注词,将图像标注词存入图像表中, 式中,Ti表示标注词,Ni表示标注词Ti在所有相似标注词中出现的次数,N表示所有相似图像 的标注词总和,Di表示标注词Ti在基于微博语料库中的逆文档频率,
Figure 732993DEST_PATH_IMAGE045
表示标注 词Ti的词频逆文件频率。
作为一种优选实施例,爬虫程序是采用分布式爬虫,图像内容单独用一个列簇存储,图像的其他属性分别存放在其他列簇上。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (5)

1.一种基于多源大数据的图像标注方法,其特征在于:包括以下步骤:
S1.互联网图像多源数据采集:利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中,所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据;
S2.图像数据预处理:对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理,存入数据库中;其中,一个图像信息用一个三元组I={Tw,Tm,L}来表示,Tw表示图像的文本信息,Tm表示图像的发布时间,L表示图像的发布位置信息;一个图像发布者信息用一个三元组U={P,T,F}来表示,P表示用户的位置信息,T表示用户的描述信息,F表示用户的社交信息;
S3.图像相似度分析:通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法,通过融合图像各个源头的数据相似度,求得最终的图像相似度;
步骤S3包括下列子步骤:
S31.构建图像和属性集二部图网络,属性集定义为{类别,地点,时间},当满足下列三个条件时则建立图像与属性集之间的连接边:1.微博图片所属的类别中含有属性集中的类别;2.微博图片的发布地点属性与属性集中的地点属性的省份相同;3.微博图片的发布时间与属性集中的时间差距在一周;图像与属性集之间边的权重采用公式W=w1WT+w2WL计算,其中时间权重
Figure FDA0003264054800000011
式中,time为微博发布时间,date为属性集中节点的时间分量,w1,w2为权重值,w1+w2=1;位置权重WL根据下列规则方法来计算:相同的市则WL=1,不同的市WL=0.6;通过公式
Figure FDA0003264054800000012
分析二部图网络中图像之间的相似度,计算出图像a和图像b的图像属性相似度SP,其中a,b表示图像节点,C为衰减因子,I(a)、I(b)分别为节点a、b的入边邻节点集合,Ii(a)、Ik(a)分别为节点a入边邻节点集合中第i个、第k个节点,s(Ii(a),Ij(b))表示节点a的入边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度;
S32.使用文本编辑距离建立词汇相似度模型,使用公式
Figure FDA0003264054800000013
计算图像标签文本相似度,式中,DIS(T1,T2)表示文本T1,T2的编辑距离,使用公式SI(a,b)=w3SP(a,b)+w4ST(T1,T2)计算图像相似度,其中SI(a,b)表示图像a、b节点的图像相似度,T1,T2表示图像a、b的文本内容,w3,w4表示权重值,w3+w4=1;
S33.分别计算图像发布者标签、位置和社交相似度;图像发布者标签相似度通过统计各标签用户发送的相似图像信息来度量各个标签之间的相似度,通过公式
Figure FDA0003264054800000021
计算标签Ta1和Ta2的相似度,其中Nu1、Nu2分别表示标签为Ta1、Ta2的图像发布者发表的图像数量,NTa1、NTa2分别表示Nu1和Nu2中标签分别为Ta1、Ta2的图像数量;位置属性相似度SL根据下列规则计算:相同省不同市其相似度为0.4,相同省相同市其相似度为0.8,不同省市其相似度为0.2;用户社交信息相似度使用公式
Figure FDA0003264054800000022
计算,式中,F(u)表示用户u关注的用户数;最后通过公式SU(u,v)=w5SL(u,v)+w6SUT(Ta1,Ta2)+w7SF(u,v)拟合各相似度得到图像发布者相似度SU(u,v),式中,SL(u,v)表示位置属性的相似度,SUT(Ta1,Ta2)为图像发布者标签文本的相似度,Ta1,Ta2分别为用户u、v的标签,SF(u,v)是用户社交信息相似度,w5,w6,w7表示权重值,w5+w6+w7=1;
S34.使用公式S(u,v)=w8SI(u,v)+w9SU(u,v)拟合图像相似度和图像发布者相似度得到图像总的相似度,SI(u,v)表示图像相似度,SU(u,v)表示图像发布者相似度,w8,w9表示权重值,w8+w9=1;
S4.图像标注:通过计算图像在数据库中的相似度,得到图像的相似图像集,获取图像标注集,对标注集进行除噪生成图像的标注。
2.根据权利要求1所述的一种基于多源大数据的图像标注方法,其特征在于:步骤S1包括下列子步骤:
S11.爬虫程序根据种子URL获取网页资源,从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件,引擎解析URL后将其封装成一个Request请求,发送给下载器组件下载网页资源,将下载好的网页资源封装成Response发送给爬虫解析器组件,解析器组件通过Beautiful Soup模块进行网页的解析,通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息,同时如果解析到URL则将URL存入待抓取URL列表,等待调度器读取;
S12.赋予每个图像一个唯一标识ID,将图像、图像相关文本和图像属性存储在图像表中,赋予每个图像发布者一个唯一标识ID,将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。
3.根据权利要求1所述的一种基于多源大数据的图像标注方法,其特征在于:步骤S2包括下列子步骤:
S21.去除与图像不相关的符号和文本;
S22.使用分布式中文分词算法将文本分为词汇;
S23.去除指定的停用词;
S24.统一图像属性中的时间和位置属性的格式,采集到的时间数据转换为时间类型YYYY-MM-DD HH:MM:SS,位置数据转换为:省,市,地点。
4.根据权利要求1所述的一种基于多源大数据的图像标注方法,其特征在于:步骤S4包括下列子步骤:
S41.利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度,筛选图像集中与待标注图像之间相似度大于阀值ε的图像,再使用步骤S34得到图像间总的相似度,选择相似度大于θ的所有图像作为待标注图像的相似图像集,进而获取图像标注集;
S42.对图像标注集进行过滤处理,过滤算法通过公式
Figure FDA0003264054800000031
计算标注的值,去除低于阀值δ的标注,得到准确的图像标注词,将图像标注词存入图像表中,式中,Ti表示标注词,Ni表示标注词Ti在所有相似标注词中出现的次数,N表示所有相似图像的标注词总和,Di表示标注词Ti在基于微博语料库中的逆文档频率,TF-IDF(Ti)表示标注词Ti的词频逆文件频率。
5.根据权利要求2所述的一种基于多源大数据的图像标注方法,其特征在于:爬虫程序是采用分布式爬虫,图像内容单独用一个列簇存储,图像的其他属性分别存放在其他列簇上。
CN201810564329.9A 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法 Active CN108897778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564329.9A CN108897778B (zh) 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564329.9A CN108897778B (zh) 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法

Publications (2)

Publication Number Publication Date
CN108897778A CN108897778A (zh) 2018-11-27
CN108897778B true CN108897778B (zh) 2021-12-31

Family

ID=64344249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564329.9A Active CN108897778B (zh) 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法

Country Status (1)

Country Link
CN (1) CN108897778B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008999B (zh) * 2019-03-07 2021-07-27 腾讯科技(深圳)有限公司 目标帐号的确定方法、装置、存储介质及电子装置
WO2020191706A1 (zh) * 2019-03-28 2020-10-01 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法
CN111753861B (zh) * 2019-03-28 2024-04-30 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法
CN110533066B (zh) * 2019-07-19 2021-12-17 浙江工业大学 一种基于深度神经网络的图像数据集自动构建方法
CN111241080A (zh) * 2020-01-08 2020-06-05 山东省计量科学研究院 一种采集、处理和上传企业能源计量数据的方法
CN111291816B (zh) * 2020-02-17 2021-08-06 支付宝(杭州)信息技术有限公司 针对用户分类模型进行特征处理的方法及装置
CN115311657B (zh) * 2022-09-02 2024-01-05 澳门科技大学 多源藻类图像目标检测方法、系统、电子设备及存储介质
CN116595043A (zh) * 2023-04-28 2023-08-15 南京司泰克智能科技有限公司 一种大数据检索方法及装置
CN116343049B (zh) * 2023-05-24 2023-08-15 四川创意科技有限公司 海上目标异常行为监控方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270241A (zh) * 2011-08-16 2011-12-07 浙江大学 基于稀疏非负矩阵分解的图像检索方法
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN106446294A (zh) * 2016-11-24 2017-02-22 太极计算机股份有限公司 基于场景模式的图像多维度标注模型的社区图像推荐方法
CN106919652A (zh) * 2017-01-20 2017-07-04 东北石油大学 基于多源多视角直推式学习的短视频自动标注方法与系统
CN107562828A (zh) * 2017-08-22 2018-01-09 武汉理工大学 多源海事信息搜索与冲突处理系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101865710B1 (ko) * 2010-05-06 2018-06-11 순 텍크 프레데릭 노엘 리아우 소셜 네트워킹 엔진의 사용자들에게 콘텐츠를 다이렉팅하는 시스템 및 방법
WO2012154216A1 (en) * 2011-05-06 2012-11-15 Sti Medical Systems, Llc Diagnosis support system providing guidance to a user by automated retrieval of similar cancer images with user feedback
US10062083B2 (en) * 2013-03-08 2018-08-28 Curalate, Inc. Method and system for clustering and classifying online visual information
CN103544242B (zh) * 2013-09-29 2017-02-15 广东工业大学 面向微博的情感实体搜索系统
CN104199834B (zh) * 2014-08-04 2018-11-27 徐�明 从信息载体表面交互式获取远程资源并输出的方法及系统
CN106600482A (zh) * 2016-12-30 2017-04-26 西北工业大学 多源社交数据融合的多角度旅游信息感知与智能推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270241A (zh) * 2011-08-16 2011-12-07 浙江大学 基于稀疏非负矩阵分解的图像检索方法
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN106446294A (zh) * 2016-11-24 2017-02-22 太极计算机股份有限公司 基于场景模式的图像多维度标注模型的社区图像推荐方法
CN106919652A (zh) * 2017-01-20 2017-07-04 东北石油大学 基于多源多视角直推式学习的短视频自动标注方法与系统
CN107562828A (zh) * 2017-08-22 2018-01-09 武汉理工大学 多源海事信息搜索与冲突处理系统及方法

Also Published As

Publication number Publication date
CN108897778A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN108897778B (zh) 一种基于多源大数据分析的图像标注方法
Rao et al. Learning multi-level deep representations for image emotion classification
CN109635171B (zh) 一种新闻节目智能标签的融合推理系统和方法
Kumar et al. Sentiment analysis of multimodal twitter data
CN107205016B (zh) 物联网设备的检索方法
CN110750656A (zh) 一种基于知识图谱的多媒体检测方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
Patil et al. Automatic text categorization: Marathi documents
US11366989B2 (en) Negative sampling algorithm for enhanced image classification
CN108509521A (zh) 一种自动生成文本索引的图像检索方法
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
Zhao et al. Butterfly recognition based on faster R-CNN
Zhang et al. Structural image retrieval using automatic image annotation and region based inverted file
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
WO2023178802A1 (zh) 命名实体识别方法、装置、设备和计算机可读存储介质
Juyal et al. Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset
Nguyen et al. Manga-mmtl: Multimodal multitask transfer learning for manga character analysis
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN110377790B (zh) 一种基于多模态私有特征的视频自动标注方法
Papapanagiotou et al. Improving concept-based image retrieval with training weights computed from tags
Wu et al. Weakly supervised interaction discovery network for image sentiment analysis
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
Sindu et al. Recurrent neural network for content based image retrieval using image captioning model
Lu et al. Mining latent attributes from click-through logs for image recognition
Berg et al. Do you see what I see? Measuring the semantic differences in image‐recognition services' outputs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 7-9, Liyang Tianxia, 99 Wanhe Road, Qingyang District, Chengdu, Sichuan 610000

Applicant after: Creative Information Technology Co.,Ltd.

Address before: Room 7-9, Liyang Tianxia, 99 Wanhe Road, Qingyang District, Chengdu, Sichuan 610000

Applicant before: SICHUAN TROY INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant