CN108897778A - 一种基于多源大数据分析的图像标注方法 - Google Patents

一种基于多源大数据分析的图像标注方法 Download PDF

Info

Publication number
CN108897778A
CN108897778A CN201810564329.9A CN201810564329A CN108897778A CN 108897778 A CN108897778 A CN 108897778A CN 201810564329 A CN201810564329 A CN 201810564329A CN 108897778 A CN108897778 A CN 108897778A
Authority
CN
China
Prior art keywords
image
similarity
indicate
information
publisher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810564329.9A
Other languages
English (en)
Other versions
CN108897778B (zh
Inventor
花福军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Original Assignee
SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN TROY INFORMATION TECHNOLOGY CO LTD filed Critical SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Priority to CN201810564329.9A priority Critical patent/CN108897778B/zh
Publication of CN108897778A publication Critical patent/CN108897778A/zh
Application granted granted Critical
Publication of CN108897778B publication Critical patent/CN108897778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本文公开了一种基于多源大数据分析的图像标注方法,包括图像多源数据采集、图像数据预处理、图像相似度分析、图像标注;所述图像多源数据采集是相似度分析是利用网络爬虫工具获取图像的相关多源信息;所述图像数据预处理是针对获取到的数据进行数据清洗和存储;所述图像相似度分析是对图像各个来源数据进行相应的相似度分析并且融合计算图像总相似度;所述图像标注是通过相似图像的标注词对图像进行标注。本发明是针对互联网图像的一种标注方法,能够解决目前互联网图像标注不充分的问题。

Description

一种基于多源大数据分析的图像标注方法
技术领域
本发明涉及图像标注技术领域,尤其涉及一种基于多源大数据分析的图像标注方法。
背景技术
图像标注技术多种多样,从早期的人工标注到现在主流的自动标注技术,期间产生了许多图像标注方法。图像自动标注方法是通过已标记的图像样本训练机器学习算法,建立图像低层特征和语义的映射关系,一旦训练好,便可以运用训练好的模型对图像进行语义标签的自动标注。图像自动标注方法根据其适用场景可以分为两种类型:第一种类型是使用机器学习算法,该方法严重依赖于训练集,因此不能实用于互联网图像这一数据集。另一种类型是根据互联网图像周围的文本信息,利用文本提取技术自动提取图像的标注。
使用机器算法对图像进行标注的主要思想是:利用图像特征提取算法提取图像低级特征,将这些特征直接送入分类器(支持向量机、人工神经网络、贝叶斯网络等)中,分类器的输出是图像的类别。支持向量机针对高维数据具有高效率的分类效果,特别是当训练数据集很小时。SVM优于其他分类器的优点是它通过找到最大值来达到最佳的类之间的距离。它已成功应用于一些分类问题,如语音识别,对象检测和图像注释。Chapelle等人针对14个图像概念分别训练1个SVM分类器。Shi等人一开始先使用k-means对图像做聚类处理,然后将相同类别的图像分割,最后训练23个SVM分类器来学习23个分割区域的概念。Frate等人使用4层ANN识别卫星图像中包含的四种地域:植被、沥青、建筑物和土壤。Kim等人使用3 层ANN将图像分类为目标和无目标图像。Park等人首先使用分割算法来分割图像,选择图像中心的最大区域作为图像的特征。
基于互联网的图像标注方法不需要大量的训练集,Wang X J.提出了一种针对互联网数据集的图像标注方法,该方法主要是通过分析待标注的图像,寻找与它相似的图像,从相似图像的标注中学习出标注词。Rui X等提出了使用搜索工具先找到与关键词语义相关的标注词,然后检索含有这些标注词的图像作为结果返回给用户的互联网图像标注框架。
传统的基于互联网的图像标注技术过多依赖于图像当前页面的相关信息,从中提取图像的标注。但是当图像当前页面图像信息匮乏和错误的情况时,这种标注方法会将错误的标注或不能标注图像
发明内容
本发明的目的在于克服现有的技术不足,提供一种基于多源大数据分析的图像标注方法,能够解决当前图像标注技术存在标注不全和标注缺失的问题。
本发明的目的是通过以下技术方案来实现的:一种基于多源大数据的图像标注方法,其特征在于:包括以下步骤:
S1.互联网图像多源数据采集:利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中,所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据;
S2.图像数据预处理:对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理,存入数据库中;其中,一个图像信息用一个三元组I={Tw,Tm,L}来表示, Tw表示图像的文本信息,Tm表示图像的发布时间,L表示图像的发布位置信息;一个图像发布者信息用一个三元组U={P,T,F}来表示,P表示用户的位置信息,T表示用户的描述信息,F表示用户的社交信息;
S3.图像相似度分析:通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法,通过融合图像各个源头的数据相似度,求得最终的图像相似度;
S4.图像标注:通过计算图像在数据库中的相似度,得到图像的相似图像集,获取图像标注集,对标注集进行除噪生成图像的标注。
优选地,步骤S1包括下列子步骤:
S11.爬虫程序根据种子URL获取网页资源,从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件,引擎解析URL后将其封装成一个Request请求,发送给下载器组件下载网页资源,将下载好的网页资源封装成Response发送给爬虫解析器组件,解析器组件通过Beautiful Soup模块进行网页的解析,通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息等信息,同时如果解析到URL 则将URL存入待抓取URL列表,等待调度器读取;
S12.赋予每个图像一个唯一标识ID,将图像、图像相关文本和图像属性存储在图像表中,赋予每个图像发布者一个唯一标识ID,将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。
优选地,步骤S2包括下列子步骤:
S21.去除与图像不相关的符号和文本;
S22.使用分布式中文分词算法将文本分为词汇;
S23.去除指定的停用词;
S24.统一图像属性中的时间和位置属性的格式,采集到的时间数据转换为时间类型 YYYY-MM-DD HH:MM:SS,位置数据转换为:省,市,地点。
优选地,步骤S3包括下列子步骤:
S31.构建图像和属性集二部图网络,属性集定义为{类别,地点,时间},当满足下列三个条件时则建立图像与属性集之间的连接边:1.微博图片所属的类别中含有属性集中的类别; 2.微博图片的发布地点属性与属性集中的地点属性的省份相同;3.微博图片的发布时间与属性集中的时间差距在一周;图像与属性集之间边的权重采用公式W=w1WT+w2WL计算,其中时间权重式中,time为微博发布时间,date为属性集中节点的时间分量,w1,w2为权重值,w1+w2=1;位置权重WL根据下列规则方法来计算:相同的市则WL=1,不同的市WL=0.6;通过公式
分析二部图网络中图像之间的相似度,计算出图像a和图像b的图像属性相似度SP,其中a,b表示图像节点,C为衰减因子,I(a)、I(b)分别为节点a、b的入边邻节点集合,Ii(a)、 Ik(a)分别为节点a入边邻节点集合中第i个、第k个节点,S(Ii(a),Ij(b))表示节点a的入边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度;
S32.使用文本编辑距离建立词汇相似度模型,使用公式计算图像标签文本相似度,式中,DIS(T1,T2)表示文本TT,T2的编辑距离,使用公式SI(a,b)= w3SP(a,b)+w4ST(T1,T2)计算图像相似度,其中SI(a,b)表示图像a,b节点的图像相似度,T1,T2表示图像a,b的文本内容,w3,w4表示权重值,w3+w4=1;
S33.分别计算图像发布者标签、位置和社交相似度;图像发布者标签相似度通过统计各标签用户发送的相似图像信息来度量各个标签之间的相似度,通过公式计算标签Ta1和Ta2的相似度,其中Nu1、Nu2分别表示标签为Ta1、Ta2的图像发布者发表的图像数量,NTa1、NTa2分别表示Nu1和Nu2中标签分别为Ta1、Ta2的图像数量;位置属性相似度SL根据下列规则计算:相同省不同市其相似度为0.4,相同省相同市其相似度为0.8,不同省市其相似度为0.2;用户社交信息相似度使用公式计算,式中,F(u)表示用户u关注的用户数;最后通过公式SU(u,v)=w5SL(u,v)+w6SUT(Ta1,Ta2)+w7SF(u,v)拟合各相似度得到图像发布者相似度SU(u,v),式中,SL(u,v)表示位置属性的相似度,SUT(Ta1,Ta2)为图像发布者标签文本的相似度,Ta1,Ta2分别为用户u、v的标签,SF(u,v)是用户社交信息相似度,w5,w6,w7表示权重值,w5+w6+w7=1;
S34.使用公式S(u,v)=w8SI(u,v)+w9SU(u,v)拟合图像相似度和图像发布者相似度得到图像总的相似度,SI(u,v)表示图像相似度,SU(u,v)表示图像发布者相似度,w8,w9表示权重值,w8+w9=1。
优选地,步骤S4包括下列子步骤:
S41.利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度,筛选图像集中与待标注图像之间相似度大于阀值ε的图像,再使用步骤S34得到图像间总的相似度,选择相似度大于θ的所有图像作为待标注图像的相似图像集,进而获取图像标注集;
S42.对图像标注集进行过滤处理,过滤算法通过公式计算标注的值,去除低于阀值δ的标注,得到准确的图像标注词,将图像标注词存入图像表中,式中,Ti表示标注词,Ni表示标注词Ti在所有相似标注词中出现的次数,N表示所有相似图像的标注词总和,Di表示标注词Ti在基于微博语料库中的逆文档频率,TF-IDF(Ti)表示标注词Ti的词频逆文件频率。
优选地,爬虫程序是采用分布式爬虫,图像内容单独用一个列簇存储,图像的其他属性分别存放在其他列簇上。
本发明的有益效果在于:为现有的图像检索提供一种有效的、丰富的图像标注方法,该方法克服了传统方法依赖单一网页信息对图像标注不足的问题。
附图说明
图1为本发明提出的一种基于多源大数据分析的图像标注方法的流程示意图。
图2为本发明提出的一种基于多源大数据分析的图像标注方法中互联网图像多源数据采集步骤的流程示意图。
图3为本发明提出的一种基于多源大数据分析的图像标注方法中图像数据预处理步骤的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本发明提出的一种基于多源大数据的图像标注方法实施例包括以下步骤:
S1.互联网图像多源数据采集:利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中,所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据;
S2.图像数据预处理:对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理,存入数据库中;其中,一个图像信息用一个三元组I={Tw,Tm,L}来表示, Tw表示图像的文本信息,Tm表示图像的发布时间,L表示图像的发布位置信息;一个图像发布者信息用一个三元组U={P,T,F}来表示,P表示用户的位置信息,T表示用户的描述信息,F表示用户的社交信息;
S3.图像相似度分析:通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法,通过融合图像各个源头的数据相似度,求得最终的图像相似度;
S4.图像标注:通过计算图像在数据库中的相似度,得到图像的相似图像集,获取图像标注集,对标注集进行除噪生成图像的标注。
本发明提出的一种基于多源大数据分析的图像标注方法的流程示意图如图1所示。
作为一种优选实施例,步骤S1包括下列子步骤:
S11.爬虫程序根据种子URL获取网页资源,从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件,引擎解析URL后将其封装成一个Request请求,发送给下载器组件下载网页资源,将下载好的网页资源封装成Response发送给爬虫解析器组件,解析器组件通过Beautiful Soup模块进行网页的解析,通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息等信息,同时如果解析到URL 则将URL存入待抓取URL列表,等待调度器读取;
S12.赋予每个图像一个唯一标识ID,将图像、图像相关文本和图像属性存储在图像表中,赋予每个图像发布者一个唯一标识ID,将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。
互联网图像多源数据采集步骤的流程示意如图2所示。
作为一种优选实施例,步骤S2包括下列子步骤:
S21.去除与图像不相关的符号和文本;
S22.使用分布式中文分词算法将文本分为词汇,去除指定的停用词;
S23.统一图像属性中的时间和位置属性的格式,采集到的时间数据转换为时间类型 YYYY-MM-DD HH:MM:SS,位置数据转换为:省,市,地点。
图像数据预处理步骤的流程示意图如图3所示。
作为一种优选实施例,步骤S3包括下列子步骤:
S31.构建图像和属性集二部图网络,属性集定义为{类别,地点,时间},当满足下列三个条件时则建立图像与属性集之间的连接边:1.微博图片所属的类别中含有属性集中的类别; 2.微博图片的发布地点属性与属性集中的地点属性的省份相同;3.微博图片的发布时间与属性集中的时间差距在一周;图像与属性集之间边的权重采用公式W=w1WT+w2WL计算,其中时间权重式中,time为微博发布时间,date为属性集中节点的时间分量,w1,w2为权重值,W1+w2=1;位置权重WL根据下列规则方法来计算:相同的市则WL=1,不同的市WL=0.6;通过公式
分析二部图网络中图像之间的相似度,计算出图像a和图像b的图像属性相似度SP,其中a,b表示图像节点,C为衰减因子,I(a),I(b)分别为节点a,b的入边邻节点集合,Ii(a),Ik(a) 分别为节点a入边邻节点集合中第i个,第k个节点,S(Ii(a),Ij(b))表示节点a的入边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度;
S32.使用文本编辑距离建立词汇相似度模型,使用公式计算图像标签文本相似度,式中,DIS(T1,T2)表示文本T1,T2的编辑距离,使用公式SI(a,b)= w3SP(a,b)+w4ST(T1,T2)计算图像相似度,其中SI(a,b)表示图像a,b节点的图像相似度,T1,T2表示图像a,b的文本内容,w3,w4表示权重值,w3+w4=1;
S33.分别计算图像发布者标签、位置和社交相似度;图像发布者标签相似度通过统计各标签用户发送的相似图像信息来度量各个标签之间的相似度,通过公式计算标签Ta1和Ta2的相似度,其中Nu1、Nu2分别表示标签为Ta1、Ta2的图像发布者发表的图像数量,NTa1、NTa2分别表示Nu1和Nu2中标签分别为Ta1、Ta2的图像数量;位置属性相似度SL根据下列规则计算:相同省不同市其相似度为0.4,相同省相同市其相似度为0.8,不同省市其相似度为0.2;用户社交信息相似度使用公式计算,式中,F(u)表示用户u关注的用户数;最后通过公式SU(u,v)=w5SL(u,v)+w6SUT(Ta1,Ta2)+w7SF(u,v)拟合各相似度得到图像发布者相似度SU(u,v),式中,SL(u,v)表示位置属性的相似度,SUT(Ta1,Ta2)为图像发布者标签文本的相似度,Ta1,Ta2分别为用户u、v的标签,SF(u,v)是用户社交信息相似度,w5,w6,w7表示权重值,w5+w6+w7=1;
S34.使用公式S(u,v)=w8SI(u,v)+w9SU(u,v)拟合图像相似度和图像发布者相似度得到图像总的相似度,SI(u,v)表示图像相似度,SU(u,v)表示图像发布者相似度,w8,w9表示权重值,w8+w9=1。
作为一种优选实施例,步骤S4包括下列子步骤:
S41.利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度,筛选图像集中与待标注图像之间相似度大于阀值ε的图像,再使用步骤S34得到图像间总的相似度,选择相似度大于θ的所有图像作为待标注图像的相似图像集,进而获取图像标注集;
S42.对图像标注集进行过滤处理,过滤算法通过公式计算标注的值,去除低于阀值δ的标注,得到准确的图像标注词,将图像标注词存入图像表中,式中,Ti表示标注词,Ni表示标注词Ti在所有相似标注词中出现的次数,N表示所有相似图像的标注词总和,Di表示标注词Ti在基于微博语料库中的逆文档频率,TF-IDF(Ti)表示标注词Ti的词频逆文件频率。
作为一种优选实施例,爬虫程序是采用分布式爬虫,图像内容单独用一个列簇存储,图像的其他属性分别存放在其他列簇上。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、 ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种基于多源大数据的图像标注方法,其特征在于:包括以下步骤:
S1.互联网图像多源数据采集:利用爬虫工具获取互联网图像多源数据并存储在分布式数据库中,所述互联网图像多源数据包括图像文本数据、图像属性数据、图像发布者数据、图像发布者社交关系数据;
S2.图像数据预处理:对互联网图像多源数据进行除噪、中文分词、去停用词、统一规格和数据规约处理,存入数据库中;其中,一个图像信息用一个三元组I={Tw,Tm,L}来表示,Tw表示图像的文本信息,Tm表示图像的发布时间,L表示图像的发布位置信息;一个图像发布者信息用一个三元组U={P,T,F}来表示,P表示用户的位置信息,T表示用户的描述信息,F表示用户的社交信息;
S3.图像相似度分析:通过分别指定图像属性信息、图像文本信息、图像发布者信息、图像发布者社交信息相似度的计算方法,通过融合图像各个源头的数据相似度,求得最终的图像相似度;
S4.图像标注:通过计算图像在数据库中的相似度,得到图像的相似图像集,获取图像标注集,对标注集进行除噪生成图像的标注。
2.根据权利要求1所述的一种基于多源大数据的图像标注方法,其特征在于:步骤S1包括下列子步骤:
S11.爬虫程序根据种子URL获取网页资源,从一部分精心挑选的种子URL列表中取出一条待抓取的URL发给爬虫引擎组件,引擎解析URL后将其封装成一个Request请求,发送给下载器组件下载网页资源,将下载好的网页资源封装成Response发送给爬虫解析器组件,解析器组件通过Beautiful Soup模块进行网页的解析,通过解析器找到微博内容中的图像、图像相关文本、图像属性、图像发布者信息、图像发布者社交信息等信息,同时如果解析到URL则将URL存入待抓取URL列表,等待调度器读取;
S12.赋予每个图像一个唯一标识ID,将图像、图像相关文本和图像属性存储在图像表中,赋予每个图像发布者一个唯一标识ID,将图像发布者、图像发布者社交信息和图像ID存储在图像发布者表中。
3.根据权利要求1所述的一种基于多源大数据的图像标注方法,其特征在于:步骤S2包括下列子步骤:
S21.去除与图像不相关的符号和文本;
S22.使用分布式中文分词算法将文本分为词汇;
S23.去除指定的停用词;
S24.统一图像属性中的时间和位置属性的格式,采集到的时间数据转换为时间类型YYYY-MM-DD HH:MM:SS,位置数据转换为:省,市,地点。
4.根据权利要求1所述的一种基于多源大数据的图像标注方法,其特征在于:步骤S3包括下列子步骤:
S31.构建图像和属性集二部图网络,属性集定义为{类别,地点,时间},当满足下列三个条件时则建立图像与属性集之间的连接边:1.微博图片所属的类别中含有属性集中的类别;2.微博图片的发布地点属性与属性集中的地点属性的省份相同;3.微博图片的发布时间与属性集中的时间差距在一周;图像与属性集之间边的权重采用公式W=w1WT+w2WL计算,其中时间权重式中,time为微博发布时间,date为属性集中节点的时间分量,w1,w2为权重值,w1+w2=1;位置权重WL根据下列规则方法来计算:相同的市则WL=1,不同的市WL=0.6;通过公式
分析二部图网络中图像之间的相似度,计算出图像a和图像b的图像属性相似度SP,其中a,b表示图像节点,C为衰减因子,I(a)、I(b)分别为节点a、b的入边邻节点集合,Ii(a)、Ik(a)分别为节点a入边邻节点集合中第i个、第k个节点,S(Ii(a),Ij(b))表示节点a的入边邻节点集合中第i个节点和节点b的入边邻节点集合中第j个节点的相似度;
S32.使用文本编辑距离建立词汇相似度模型,使用公式计算图像标签文本相似度,式中,DIS(T1,T2)表示文本T1,T2的编辑距离,使用公式SI(a,b)=w3SP(a,b)+w4ST(T1,T2)计算图像相似度,其中SI(a,b)表示图像a、b节点的图像相似度,T1,T2表示图像a、b的文本内容,w3,w4表示权重值,w3+w4=1;
S33.分别计算图像发布者标签、位置和社交相似度;图像发布者标签相似度通过统计各标签用户发送的相似图像信息来度量各个标签之间的相似度,通过公式计算标签Ta1和Ta2的相似度,其中Nu1、Nu2分别表示标签为Ta1、Ta2的图像发布者发表的图像数量,NTa1、NTa2分别表示Nu1和Nu2中标签分别为Ta1、Ta2的图像数量;位置属性相似度SL根据下列规则计算:相同省不同市其相似度为0.4,相同省相同市其相似度为0.8,不同省市其相似度为0.2;用户社交信息相似度使用公式计算,式中,F(u)表示用户u关注的用户数;最后通过公式SU(u,v)=w5SL(u,v)+w6SUT(Ta1,Ta2)+w7SF(u,v)拟合各相似度得到图像发布者相似度SU(u,v),式中,SL(u,v)表示位置属性的相似度,SUT(Ta1,Ta2)为图像发布者标签文本的相似度,Ta1,Ta2分别为用户u、v的标签,SF(u,v)是用户社交信息相似度,w5,w6,w7表示权重值,w5+w6+w7=1;
S34.使用公式S(u,v)=w8SI(u,v)+w9SU(u,v)拟合图像相似度和图像发布者相似度得到图像总的相似度,SI(u,v)表示图像相似度,SU(u,v)表示图像发布者相似度,w8,w9表示权重值,w8+w9=1。
5.根据权利要求4所述的一种基于多源大数据的图像标注方法,其特征在于:步骤S4包括下列子步骤:
S41.利用步骤S3中的子步骤S31计算的二部图网络中图像之间的相似度,筛选图像集中与待标注图像之间相似度大于阀值ε的图像,再使用步骤S34得到图像间总的相似度,选择相似度大于θ的所有图像作为待标注图像的相似图像集,进而获取图像标注集;
S42.对图像标注集进行过滤处理,过滤算法通过公式计算标注的值,去除低于阀值δ的标注,得到准确的图像标注词,将图像标注词存入图像表中,式中,Ti表示标注词,Ni表示标注词Ti在所有相似标注词中出现的次数,N表示所有相似图像的标注词总和,Di表示标注词Ti在基于微博语料库中的逆文档频率,TF-IDF(Ti)表示标注词Ti的词频逆文件频率。
6.根据权利要求2所述的一种基于多源大数据的图像标注方法,其特征在于:爬虫程序是采用分布式爬虫,图像内容单独用一个列簇存储,图像的其他属性分别存放在其他列簇上。
CN201810564329.9A 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法 Active CN108897778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564329.9A CN108897778B (zh) 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564329.9A CN108897778B (zh) 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法

Publications (2)

Publication Number Publication Date
CN108897778A true CN108897778A (zh) 2018-11-27
CN108897778B CN108897778B (zh) 2021-12-31

Family

ID=64344249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564329.9A Active CN108897778B (zh) 2018-06-04 2018-06-04 一种基于多源大数据分析的图像标注方法

Country Status (1)

Country Link
CN (1) CN108897778B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008999A (zh) * 2019-03-07 2019-07-12 腾讯科技(深圳)有限公司 目标帐号的确定方法、装置、存储介质及电子装置
CN110533066A (zh) * 2019-07-19 2019-12-03 浙江工业大学 一种基于深度神经网络的图像数据集自动构建方法
CN111241080A (zh) * 2020-01-08 2020-06-05 山东省计量科学研究院 一种采集、处理和上传企业能源计量数据的方法
WO2020191706A1 (zh) * 2019-03-28 2020-10-01 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法
CN111753861A (zh) * 2019-03-28 2020-10-09 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法
WO2021164382A1 (zh) * 2020-02-17 2021-08-26 支付宝(杭州)信息技术有限公司 针对用户分类模型进行特征处理的方法及装置
CN115311657A (zh) * 2022-09-02 2022-11-08 澳门科技大学 多源藻类图像目标检测方法、系统、电子设备及存储介质
CN116343049A (zh) * 2023-05-24 2023-06-27 四川创意科技有限公司 海上目标异常行为监控方法、装置、设备及存储介质
CN116595043A (zh) * 2023-04-28 2023-08-15 南京司泰克智能科技有限公司 一种大数据检索方法及装置
CN111753861B (zh) * 2019-03-28 2024-04-30 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270241A (zh) * 2011-08-16 2011-12-07 浙江大学 基于稀疏非负矩阵分解的图像检索方法
US20120283574A1 (en) * 2011-05-06 2012-11-08 Park Sun Young Diagnosis Support System Providing Guidance to a User by Automated Retrieval of Similar Cancer Images with User Feedback
US20130124499A1 (en) * 2010-05-06 2013-05-16 Soon Teck Frederick Noel Liau System and method for directing content to users of a social networking engine
CN104199834A (zh) * 2014-08-04 2014-12-10 徐�明 从信息载体表面交互式获取远程资源并输出的方法及系统
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索系统
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
US20160048849A1 (en) * 2013-03-08 2016-02-18 Curalate, Inc. Method and system for clustering and classifying online visual information
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN106446294A (zh) * 2016-11-24 2017-02-22 太极计算机股份有限公司 基于场景模式的图像多维度标注模型的社区图像推荐方法
CN106600482A (zh) * 2016-12-30 2017-04-26 西北工业大学 多源社交数据融合的多角度旅游信息感知与智能推荐方法
CN106919652A (zh) * 2017-01-20 2017-07-04 东北石油大学 基于多源多视角直推式学习的短视频自动标注方法与系统
CN107562828A (zh) * 2017-08-22 2018-01-09 武汉理工大学 多源海事信息搜索与冲突处理系统及方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124499A1 (en) * 2010-05-06 2013-05-16 Soon Teck Frederick Noel Liau System and method for directing content to users of a social networking engine
US20120283574A1 (en) * 2011-05-06 2012-11-08 Park Sun Young Diagnosis Support System Providing Guidance to a User by Automated Retrieval of Similar Cancer Images with User Feedback
CN102270241A (zh) * 2011-08-16 2011-12-07 浙江大学 基于稀疏非负矩阵分解的图像检索方法
US20160048849A1 (en) * 2013-03-08 2016-02-18 Curalate, Inc. Method and system for clustering and classifying online visual information
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索系统
CN104199834A (zh) * 2014-08-04 2014-12-10 徐�明 从信息载体表面交互式获取远程资源并输出的方法及系统
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN106446294A (zh) * 2016-11-24 2017-02-22 太极计算机股份有限公司 基于场景模式的图像多维度标注模型的社区图像推荐方法
CN106600482A (zh) * 2016-12-30 2017-04-26 西北工业大学 多源社交数据融合的多角度旅游信息感知与智能推荐方法
CN106919652A (zh) * 2017-01-20 2017-07-04 东北石油大学 基于多源多视角直推式学习的短视频自动标注方法与系统
CN107562828A (zh) * 2017-08-22 2018-01-09 武汉理工大学 多源海事信息搜索与冲突处理系统及方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008999A (zh) * 2019-03-07 2019-07-12 腾讯科技(深圳)有限公司 目标帐号的确定方法、装置、存储介质及电子装置
CN111753861A (zh) * 2019-03-28 2020-10-09 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法
CN111753861B (zh) * 2019-03-28 2024-04-30 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法
WO2020191706A1 (zh) * 2019-03-28 2020-10-01 香港纺织及成衣研发中心有限公司 主动学习自动图像标注系统及方法
CN110533066B (zh) * 2019-07-19 2021-12-17 浙江工业大学 一种基于深度神经网络的图像数据集自动构建方法
CN110533066A (zh) * 2019-07-19 2019-12-03 浙江工业大学 一种基于深度神经网络的图像数据集自动构建方法
CN111241080A (zh) * 2020-01-08 2020-06-05 山东省计量科学研究院 一种采集、处理和上传企业能源计量数据的方法
WO2021164382A1 (zh) * 2020-02-17 2021-08-26 支付宝(杭州)信息技术有限公司 针对用户分类模型进行特征处理的方法及装置
CN115311657A (zh) * 2022-09-02 2022-11-08 澳门科技大学 多源藻类图像目标检测方法、系统、电子设备及存储介质
CN115311657B (zh) * 2022-09-02 2024-01-05 澳门科技大学 多源藻类图像目标检测方法、系统、电子设备及存储介质
CN116595043A (zh) * 2023-04-28 2023-08-15 南京司泰克智能科技有限公司 一种大数据检索方法及装置
CN116343049A (zh) * 2023-05-24 2023-06-27 四川创意科技有限公司 海上目标异常行为监控方法、装置、设备及存储介质
CN116343049B (zh) * 2023-05-24 2023-08-15 四川创意科技有限公司 海上目标异常行为监控方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108897778B (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN108897778A (zh) 一种基于多源大数据分析的图像标注方法
Wang et al. Learning to combine: Knowledge aggregation for multi-source domain adaptation
Yang et al. Visual sentiment prediction based on automatic discovery of affective regions
CN107748754B (zh) 一种知识图谱完善方法和装置
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
Zhou et al. Conceptlearner: Discovering visual concepts from weakly labeled image collections
CN108427714A (zh) 基于机器学习的房源重复记录识别方法及系统
Bianco et al. Predicting image aesthetics with deep learning
CN110399895A (zh) 图像识别的方法和装置
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN106919652A (zh) 基于多源多视角直推式学习的短视频自动标注方法与系统
Zhang et al. Unsupervised segmentation of greenhouse plant images based on statistical method
Rustia et al. Online semi-supervised learning applied to an automated insect pest monitoring system
Gunawardena et al. Real-time automated video highlight generation with dual-stream hierarchical growing self-organizing maps
Zhang et al. Semantically modeling of object and context for categorization
CN104331717B (zh) 一种整合特征字典结构与视觉特征编码的图像分类方法
Gao et al. An improved XGBoost based on weighted column subsampling for object classification
Wang et al. Deepbag: Recognizing handbag models
Weng et al. Traffic scene perception based on joint object detection and semantic segmentation
Wang et al. Crop pest detection by three-scale convolutional neural network with attention
Zhang et al. Associating spatially-consistent grouping with text-supervised semantic segmentation
Kang et al. Recognising informative Web page blocks using visual segmentation for efficient information extraction.
Li et al. Affective image classification via semi-supervised learning from web images
Barsellotti et al. Enhancing Open-Vocabulary Semantic Segmentation with Prototype Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 7-9, Liyang Tianxia, 99 Wanhe Road, Qingyang District, Chengdu, Sichuan 610000

Applicant after: Creative Information Technology Co.,Ltd.

Address before: Room 7-9, Liyang Tianxia, 99 Wanhe Road, Qingyang District, Chengdu, Sichuan 610000

Applicant before: SICHUAN TROY INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant