CN108829652B - 一种基于众包的图片标注系统 - Google Patents
一种基于众包的图片标注系统 Download PDFInfo
- Publication number
- CN108829652B CN108829652B CN201810400584.XA CN201810400584A CN108829652B CN 108829652 B CN108829652 B CN 108829652B CN 201810400584 A CN201810400584 A CN 201810400584A CN 108829652 B CN108829652 B CN 108829652B
- Authority
- CN
- China
- Prior art keywords
- picture
- module
- crowdsourcing
- tag
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于众包的图片标注系统,包括图片发布者WEB模块、服务器模块、志愿者APP模块;其中,图片发布者WEB模块包括图片发布模块、图片管理模块、标注结果导出模块;服务器模块包括图片初始标注模块、图片推荐模块、图片标注完成判定模块、用户积分及恶意标注判定模块;志愿者APP模块包括个人信息管理模块、历史标注模块、图片搜索模块、今日推荐模块、图片标注模块。图片发布者通过WEB平台发布待标注图片,服务器模块首先通过图片初始标注模块对图片进行自动化的初始标注,之后采用基于协同过滤的推荐算法,将需要进行标注的图片推送到有对应兴趣或专业知识背景的众包志愿者的标注APP中进行标注,从而实现对大量图片进行快速准确标注的效果。
Description
技术领域
本发明涉及一种图片标注系统,具体涉及一种基于众包的图片标注系统,属于图片标注技术领域。
背景技术
机器视觉系统在训练过程中,需要通过识别已经标注好的样本来逐步提高机器视觉系统识别图片的准确性。这样就需要提前准备海量已经标注好的训练样本图片。传统的制作训练样本的方法是集中一部分人,以人工方式对图片标签化,这种方式不仅效率低,而且因为每个人具备的专业知识不一样,导致标注的质量参差不齐。现有的图片标注系统如LabelImg、BBox-Label-Tool等仅支持单个用户对图片进行标注,但不能根据用户的专业知识背景对图片进行分发,我们需要一个智能系统能够让大量的图片得到快速、准确的标注。
随着互联网的高速发展,众包模式逐渐深入我们的生活:更多的企业利用互联网将工作分配出去、发现创意或解决技术问题;更多的用户愿意利用自己的闲散时间做一些力所能及的事,收取小额报酬或者不计报酬。在诸如维基百科或是YouTube这样的UGC网站中,企业、组织的核心价值几乎完全来自用户进行的价值创造,而且不产生任何直接成本。越来越多的传统企业在互联网上运用这种模式,并取得了成功。发展至今,众包模式已经在各个行业中有成型的移动端或网页端产品,所涉及的行业包括非政府组织、地图、天气预报、设计、图片、输入法、主题、用车、生活服务、餐饮、快递、医疗、家政等。
在这样的背景下,采用众包的方式可以解决海量图片标注过程中效率、标注准确度差等问题,从而提升图片标注的速度和准确度。
发明内容
本发明所要解决的技术问题是:提供一种基于众包的图片标注系统,采用众包的方式,让有专业知识背景或对应兴趣的用户对图片进行标注,从而使图片得到快速、准确的标注。
本发明为解决上述技术问题采用以下技术方案:
一种基于众包的图片标注系统,包括图片发布者WEB模块、服务器模块、志愿者APP模块;其中,图片发布者WEB模块包括图片发布模块、图片管理模块、标注结果导出模块;服务器模块包括图片初始标注模块、图片推荐模块、图片标注完成判定模块、用户积分及恶意标注判定模块;志愿者APP模块包括个人信息管理模块、历史标注模块、图片搜索模块、今日推荐模块、图片标注模块;
所述图片发布模块用于图片发布者向图片初始标注模块批量发布待标注图片以及待标注图片的标注需求;图片管理模块用于图片发布者查看待标注图片的标注进度,以及对图片进行管理;标注结果导出模块用于在图片标注完成判定模块判定图片标注完成后,图片发布者对标注完成的图片进行批量导出;
所述图片初始标注模块用于对图片发布模块发布的待标注图片进行自动识别并初始标注;图片推荐模块用于将经图片初始标注模块初始标注过的图片有针对性的推送给具有专业背景或对应兴趣的众包志愿者;图片标注完成判定模块用于判定待标注图片是否标注完成并确定图片最终标注;用户积分及恶意判定模块用于计算众包志愿者的积分及判定众包志愿者是否进行恶意标注,并对恶意标注进行判罚;
所述个人信息管理模块用于管理众包志愿者的基本信息、专业背景和兴趣;历史标注模块用于众包志愿者查看、删除、修改尚未被采纳的标签;图片搜索模块用于对待标注图片进行搜索,为当前众包志愿者提供符合要求的待标注图片;今日推荐模块用于众包志愿者查看图片推荐模块为其推荐的待标注图片;图片标注模块用于众包志愿者对待标注图片进行标注。
作为本发明的一种优选方案,所述图片推荐模块的具体工作过程如下:
(1)获取所有众包志愿者的信息构成集合personList={person1,person2,…,personn},personi表示第i个众包志愿者的信息,包括众包志愿者的专业、兴趣、信用值、积分、打过标签图片信息、历史标签信息,i=1,…,n,n为众包志愿者的数量;
(2)获取经图片初始标注模块初始标注过的所有图片的信息构成集合pictureList={picture1,picture2,…,picturem},pictureu表示第u张图片的信息,包括图片路径、图片已有初始标签信息,u=1,…,m,m为待标注图片的数量;
(3)对于personList中的每一个众包志愿者,进行基于众包志愿者的协同过滤,具体操作如下:
A)判断当前众包志愿者是否具有专业背景或对应兴趣,若无则转(5),否则转B);
B)根据专业、兴趣计算当前众包志愿者与personList中其他各众包志愿者的相似度,计算公式如下:
其中,j=1,…,n,i≠j,Wij为当前第i个众包志愿者与第j个众包志愿者之间的相似度,β为专业相似度权重,N(·)为众包志愿者的专业集合,M(·)为众包志愿者的兴趣集合,crditj为第j个众包志愿者的积分;
C)对B)得到的所有相似度从大到小进行排序,将相似度高的前s个众包志愿者打过标签的图片进行初步保留,形成中间结果集temp-result;
(4)对中间结果集temp-result进行扩充,使中间结果集的数量达到值leastTempNum,按打过标签的图片进行优先扩充;
(5)判断当前众包志愿者是否打过标签,若无则转(7),否则转(6)进行基于图片的协同过滤;
(6)将当前众包志愿者打过的标签集合与中间结果集temp-result中各图片已被打上的标签集合进行相似度计算,对所有得到的相似度进行排序,将相似度高于预设阈值的图片保留下来作为最终结果集final-set进行推荐;所述相似度计算公式如下:
其中,Sia为当前第i个众包志愿者与中间结果集temp-result中第a张图片的相似度,L(i)为当前第i个众包志愿者打过的标签集合,L(a)为第a张图片已被打上的标签集合,num(x)为标签x在L(a)中的出现次数;
(7)对最终结果集final-set进行扩充,对于没有专业背景或相应兴趣也没有标注记录的众包志愿者随机添加图片进行扩充,使最终结果集final-set的数量达到值leastFinalNum;
(8)将最终得到的对每个众包志愿者推荐的最终结果集final-set,保存到数据库中,并记录要推荐的图片路径;
(9)当志愿者APP模块请求每日推荐的图片时,服务器模块通过查找数据库将相应的图片路径反馈给今日推荐模块。
作为本发明的一种优选方案,所述图片标注完成判定模块包括标签语义处理模块、智能化标签判定模块、智能化标签推荐模块;所述标签语义处理模块用于采用NLPIR汉语分词系统以及同义词词林,对众包志愿者标注的标签进行词性分析、词性标注、近义词归类,得到最终的标签结果;智能化标签判定模块用于对经过标签语义处理模块处理好的标签进行判定,从而判断图片是否标注完成;智能化标签推荐模块用于结合标签语义处理模块处理好的标签以及众包志愿者经常使用的标签,对众包志愿者标注的每张图片进行标签推荐。
作为本发明的一种优选方案,所述标签语义处理模块的具体工作过程如下:
(1)对于所有待标注图片,获取每张待标注图片经图片标注模块后,得到的所有标签信息并构成标签集tagList;
(2)对于每张待标注图片的标签集tagList,进行以下操作:
A)对标签集tagList中的每个标签使用汉语分词系统进行分词、词性标注,删去副词、动词、形容词,得到初步处理的标签集tagList_temp;
B)对初步处理的标签集tagList_temp使用同义词词林进行标签相似度计算,将相似度高于一定阈值的标签归为一类,得到最终的标签集tagList_final;
(3)将最终的标签集tagList_final保存到数据库中,作为智能化标签判定模块及智能化标签推荐模块的依据。
作为本发明的一种优选方案,所述智能化标签判定模块的具体工作过程如下:
获取经标签语义处理模块处理好的标签集picture_tagList,统计标签集picture_tagList中每类标签的数量,当存在某类标签的数量达到图片发布者设定值leastTagNum时,该标签判定为有效,当有效标签的数量达到图片发布者设定值leastClassNum时,判断图片被标注完成。
作为本发明的一种优选方案,所述智能化标签推荐模块的具体工作过程如下:
(1)对每一个众包志愿者,构建其使用过标签的集合person_tagList,集合person_tagList包括标签及该众包志愿者使用该标签的次数;
(2)对每一张待标注图片,构建其已有的标签集合picture_tagList,集合picture_tagList包括该图片已有标签及该已有标签被标注的次数;
(3)对person_tagList中所有标签以及picture_tagList上已有标签进行分值计算,公式如下:
其中,grade(tag)表示标签tag的分值,weighttag表示标签tag的使用次数或被标注的次数,maxperson_tagList表示集合person_tagList中使用最多的标签的使用次数,maxpicture_tagList表示集合picture_tagList中被标注最多的标签的标注次数,α表示标签推荐偏好调节系数;
根据分值对标签从大到小进行排序,取前六个分值最大的标签作为该众包志愿者当前需要标注的图片的推荐标签。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明针对传统图片标注系统仅支持单个用户进行标注,无法让有专业知识背景或对应兴趣的用户进行标注的问题,采用众包的方式来解决海量图片标注过程中效率、标注准确度差等问题,通过推荐系统将图片分发给有专业知识背景或对应兴趣的众包志愿者进行标注,从而提升图片标注的速度和准确度。
附图说明
图1是本发明一种基于众包的图片标注系统的结构框图。
图2是本发明系统中图片发布者WEB模块的逻辑架构图。
图3是本发明系统中标注结果导出模块的标注结果导出流程图。
图4是本发明系统中服务器模块的逻辑架构图。
图5是本发明系统中图片推荐模块的流程图。
图6是本发明系统中标签语义处理模块的流程图。
图7是本发明系统中智能化标签推荐模块的流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,为本发明基于众包的图片标注系统结构框图。该系统包括以下三个模块:图片发布者WEB模块、服务器模块、志愿者APP模块。图片发布者通过WEB平台发布待标注图片,服务器模块首先通过初始标注模块对图片进行自动化的初始标注,之后采用基于协同过滤的推荐算法,将需要进行标注的图片推送到有对应兴趣或专业知识背景的众包志愿者的标注APP中进行标注,从而实现对大量图片进行快速准确标注的效果。
1、图片发布者WEB模块,其逻辑架构如图2所示,可以为图片发布者提供图片批量上传、发布标注需求、查看图片标注进度、导出完成标注图片等功能,为图片发布者快速获取海量图片的准确标签结果提供方便。包括图片发布模块、图片管理模块、标注结果导出模块。
1.1 图片发布模块:用于图片发布者批量发布待标注图片,以及发布图片的标注需求。其中图片标注需求包括标签采纳采信度、图片期望标注数量,当标签采信度达到发布者设定值时标签判定采纳,当图片被采纳的标签数量达到发布者期望值时图片判定标注完成。
1.2 图片管理模块:用于支持图片发布者查看图片的标注进度,以及对图片进行管理。管理员可以通过创建图片集的形式来实现图片等分组管理,管理员对图片集具有操作权限即增、删、改。图片集的在数据库中以图片集表来储存图片集信息。
1.3 标注结果导出模块:用于图片发布者对标注完成的图片进行批量的导出。管理员可以导出已经被系统判定为完成的图片,本系统支持批量以图片集为单位进行图片的批量的导出,导出结果以JSON格式进行保存。管理员可以在图片集页面实时查看自己发布的图片等标注进度和完成情况,其主要流程如图3所示。
2、服务器模块,用于为图片发布者WEB模块、众包志愿者APP模块提供应用服务,包括图片的初始标注、图片的推荐、图片和标签的判定、用户积分计算及恶意标注判定工作,是将图片发布者WEB模块和志愿者APP模块连接在一起的核心模块,具体而言服务器模块逻辑架构如图4所示。包括图片初始标注模块、图片推荐模块、图片标注完成判定模块、用户积分及恶意标注判定模块。
2.1 图片初始标注模块:用于对新发布的没有标注的图片自动识别并标注。开始上传的图片没有标注,无法快速准确的分发给有专业背景和对应兴趣的志愿者进行图片标注。标签范围涵盖上百种热词,囊括了社交生活、人物、风景、建筑、常见生活物品等大类,较全面的支持了不同维度层次的图片语义信息提取,具有高准确率、高扩展性、服务接口响应快、识别准确率高、标签体系覆盖面广等特点,可以为图片提供快速准确的初始标注,从而快速准确的将图片推荐给有专业背景和对应兴趣的志愿者完成图片标注。此外,初始自动标注还能够为系统提供大量优质的标注,从而提高标注的速度和准确度。
2.2 图片推荐模块:用于将初始标注过的图片有针对性的推送给具有专业背景或对应兴趣的众包志愿者。根据图片的标注信息和用户信息将待标注的图片推荐给有专业背景和对应兴趣的众包志愿者,推荐流程图如图5所示,具体步骤如下:
(1)设共有n位志愿者,获得所有志愿者信息personList={person1,person2,…,personn},对于任意一位志愿者personi包括志愿者专业、兴趣、信用值、积分、打过标签图片信息、历史标签信息等;
(2)设共有m张图片,获得服务器上所有图片信息pictureList={picture1,picture2,…,picturem},对于任意一张图片pictureu包括图片路径、图片已有标签信息等;
(3)对于personList中的每一位志愿者person,进行基于用户的协同过滤,具体操作如下:
A)判断当前person是否有专业及兴趣信息,若无则转(5),否则转B);
B)根据专业、兴趣计算当前person和personList中其他志愿者的相似度,计算公式如下:
其中,Wij为志愿者i、j之间的相似度,i为当前person,β为专业相似度权重,N(·)为众包志愿者的专业集合,M(·)为众包志愿者的兴趣集合,crditj为众包志愿者j的积分,此处作为权值;
C)根据当前person与personList中其他所有用户的相似度进行排序,将分数高的前s个用户(也就是与当前person最相似的s个用户)打过标签的图片(且当前用户没有打过标签的图片)进行初步保留,形成中间结果集temp-result;
(4)对中间结果集temp-result进行适当扩充,使得中间结果集数目达到一定值leastTempNum,扩充过程优先添加有标注的图片;
(5)判断当前用户person是否打过标签,若无转(7),否则转(6):基于图片的协同过滤;
(6)根据当前用户person的标签集和中间结果集temp-result中picture的标签集进行相似度对比,结果按相似度排序,将相似度高的图片进行保留作为最终的图片集final-set进行推送。在该步骤中,我们主要考虑到了用户以往打过标签反应用户意愿的事实,将具有类似标签的图片推送给当前用户,当前用户往往会有极大的兴趣去完成。
志愿者—图片相似度计算公式如下:
其中,Sia为众包志愿者i与图片a之间的相似度,L(i)为众包志愿者i打过的标签集合,L(a)为图片a已被打上的标签集合,log(1+num(x))惩罚了志愿者i和图片a共同标签中热门标签对其相似度的影响,num(x)为标签x在L(a)中的出现次数即标签热门程度;
(7)对最终的图片集final-set进行适当扩充,对于没有专业兴趣也没有标注记录的用户随机添加图片进行扩充,使得最终推送的数目达到一定值leastFinalNum;
(8)将最终得到的对每位用户的推送图片集,保存到数据库相应表中,记录要推送的图片的路径;
(9)当志愿者APP模块请求每日推送的图片时,服务端通过查找数据库将相应的图片路径反馈给志愿者APP模块。
2.3 图片标注完成判定模块,用于判定图片是否标注完成并确定图片最终标注,首先对每张图片的所有标注进行分词、近义词归类,之后对每类标注进行统计,当一个标注种类的数量达到leastTagNum时判定该类标注有效,当有效的种类达到leastClassNum时判定图片标注完成。图片标注完成判定模块通过定时器定时执行,每天定时执行一次。由标签语义处理模块、智能化标签推荐模块、智能化标签判定模块构成。
2.3.1 标签语义处理模块:主要完成如何自动对同一张图片的标签集进行整理和归类,确保每张图片的标签准确,当多个用户对同一张图片产生分歧时采用怎样的规则进行处理。使用NLPIR汉语分词系统以及哈工大同义词词林,对用户标注的标签进行词性分析,词性标注,近义词归类,使得每张图片的标签尽可能的准确。如图6所示,标签语义处理算法具体流程如下:
1)设有m张图片,获得所有图片信息pictureList={picture1,picture2,…,picturem},对于任意一张图片pictureu设其有k个标签,获取其所有标签信息的标签集tagList={tag1,tag2,…,tagk};
2)对于图片集中每一张图片picture,进行以下操作:
A)对标签集tagList中的每个标签使用汉语分词系统进行分词、词性标注,删去副词、动词、形容词等不重要的词性词汇,得到初步处理的标签集tagList_temp;
B)对处理好的标签集tagList_temp使用同义词词林进行词语相似度计算,对相似度较高的标签进行归类,得到最终的标签集tagList_final,其中每个元素为<tag,weight>,tag为标签,weight表示该tag出现的次数;
3)将语义处理后的图片标签进行数据库保存,作为标签判定及用户标签推荐依据。
2.3.2 智能化标签推荐模块:主要完成对于特定的志愿者和特定的图片,根据志愿者的标签记录和该图片已有的标签,对用户进行标签推荐。标签推荐的目的有主要有以下三点:A)方便志愿者打标签;B)将语义处理后的标签推荐给用户,便于提高标签的准确性和质量,以及提高标签语义处理效果;C)加快图片打标签迭代速度,使得图片能够在较为合理的时间中得到收敛。流程图如图7所示:
1)构建每个志愿者使用过标签的person_tagList集,其中每个元素表示为<tag,weight>,tag为标签,weight表示用户使用该标签tag的次数;
2)构建每张图片已有标签集picture_tagList,其中每个元素表示为<tag,weight>,tag为标签,weight表示该图片上tag被标注的次数;
3)对于每个用户person,对于该person的每一张图片picture进行以下操作:
对于用person_tagList中所有标签以及picture_tagList上标签进行分值计算,计算公式如下:
weighttag表示tag的使用次数,maxperson_tagList表示person_tagList集合中使用最多的tag的使用次数,maxpicture_tagList表示picture_tagList中被标注最多的tag的标注次数,α为标签推荐偏好调节系数,该公式的含义是选取用户常用的标签以及该图片热门标签进行线性加权进行打分,从而得到每个标签的分值。
对标签根据分值进行排序,取前六个作为推荐标签。
2.3.3 智能化标签判定模块:用于对于经过语义处理后的标签进行判定,从而判断图片是否标注完成。模块首先获取图片经过语义处理后的标签集picture_tagList,并统计其中权值大于leastTagNum的标签数量,若标签大于leastTagNum该标签判定为有效,若有效标签数量大于leastClassNum该图片被判定为标注完成。
2.4 用户积分及恶意标注判定模块:用于计算用户积分及判定用户是否进行恶意标注,并对恶意标注进行判罚。根据用户标注的采纳情况、信息的完善情况进行积分的计算,用户的标注每被系统采纳一个积分crdit加1,完善个人信息积分crdit加5。此外本系统还引入了恶意标注惩罚机制,如用户进行的标注连续20个以上未被采纳即判定该用户为恶意标注,恶意标注的用户会有24小时禁止标注惩罚。
3、志愿者APP模块:是基于移动端的APP,众包志愿者可以通过APP模块查看今日推荐、完成图片标注、完善个人信息兴趣及专业背景、修改历史标注等。通过志愿者APP模块,志愿者可以利用闲暇时间对其感兴趣或对应专业的图片进行快速便捷的标注。包括个人信息管理模块、历史标注模块、图片搜索模块、今日推荐模块、图片标注模块。
3.1 今日推荐模块:用于查看系统为志愿者推荐的图片。志愿者用来查看系统今日根据用户个人信息、专业背景、标注历史给用户推荐的图片,用户可以在该模块浏览所有推荐图片,也可以点击推荐图片进入图片标注模块对图片进行标注。
3.2 图片标注模块:用于对待标注的图片进行标注,系统在推荐图片的同时也会推荐该图片的热门的标签,志愿者可以直接选择这些标签完成标注,也可以自行创建新的标签。用户在APP上查看图片,并按照管理员需求(默认为标注图片中物体)对图片进行标注。在标注界面,可以看到之前用户和图片识别系统对这张图片的历史标注结果,用户可以选择历史标注结果也可以自行添加新的标签,当用户选择提交标注时会向服务器提交选择的标注和自行添加的标注结果。若用户对这张图片不感兴趣可以选择跳过该张图片。
3.3 个人信息管理模块:用于管理志愿者的基本信息和专业兴趣背景。用户可以在登陆之后对用户的个人信息(如密码、兴趣、用户名)进行增、删、改、查,对用户进行个人兴趣以及专业知识管理,用户可以实时进行修改,这一信息将作为服务器推送有关图片的重要依据之一。
3.4 历史标注模块:用于查看、删除、修改尚未被采纳的标签。志愿者可以查看历史标注记录,在历史标注界面里,如果历史标注的图片已经被系统判定为完成标注则可以查看自己标注的接受情况,如果图片尚未被判定为标注完成,则可以修改自己的标注。
3.5 图片搜索模块:用于对图片进行快速搜索,系统将根据目前所掌握的图片信息为用户快速提供符合要求的图片。用户可以跳过系统推送的图片,选择自己感兴趣的图片进行打标签,根据想要查询的图片内容,系统将根据目前所掌握的图片信息为用户快速提供符合要求的图片。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (5)
1.一种基于众包的图片标注系统,其特征在于,包括图片发布者WEB模块、服务器模块、志愿者APP模块;其中,图片发布者WEB模块包括图片发布模块、图片管理模块、标注结果导出模块;服务器模块包括图片初始标注模块、图片推荐模块、图片标注完成判定模块、用户积分及恶意标注判定模块;志愿者APP模块包括个人信息管理模块、历史标注模块、图片搜索模块、今日推荐模块、图片标注模块;
所述图片发布模块用于图片发布者向图片初始标注模块批量发布待标注图片以及待标注图片的标注需求;图片管理模块用于图片发布者查看待标注图片的标注进度,以及对图片进行管理;标注结果导出模块用于在图片标注完成判定模块判定图片标注完成后,图片发布者对标注完成的图片进行批量导出;
所述图片初始标注模块用于对图片发布模块发布的待标注图片进行自动识别并初始标注;图片推荐模块用于将经图片初始标注模块初始标注过的图片有针对性的推送给具有专业背景或对应兴趣的众包志愿者;图片标注完成判定模块用于判定待标注图片是否标注完成并确定图片最终标注;用户积分及恶意标注判定模块用于计算众包志愿者的积分及判定众包志愿者是否进行恶意标注,并对恶意标注进行判罚;
所述个人信息管理模块用于管理众包志愿者的基本信息、专业背景和兴趣;历史标注模块用于众包志愿者查看、删除、修改尚未被采纳的标签;图片搜索模块用于对待标注图片进行搜索,为当前众包志愿者提供符合要求的待标注图片;今日推荐模块用于众包志愿者查看图片推荐模块为其推荐的待标注图片;图片标注模块用于众包志愿者对待标注图片进行标注;
所述图片推荐模块的具体工作过程如下:
(1)获取所有众包志愿者的信息构成集合personList={person1,person2,…,personn},personi表示第i个众包志愿者的信息,包括众包志愿者的专业、兴趣、信用值、积分、打过标签图片信息、历史标签信息,i=1,…,n,其中n为众包志愿者的数量;
(2)获取经图片初始标注模块初始标注过的所有图片的信息构成集合pictureList={picture1,picture2,…,picturem},pictureu表示第u张图片的信息,包括图片路径、图片已有初始标签信息,u=1,…,m,其中m为待标注图片的数量;
(3)对于personList中的每一个众包志愿者,进行基于众包志愿者的协同过滤,具体操作如下:
A)判断当前众包志愿者是否具有专业背景或对应兴趣,若无则转(5),否则转B);
B)根据专业、兴趣计算当前众包志愿者与personList中其他各众包志愿者的相似度,计算公式如下:
其中,j=1,…,n,i≠j,Wij为当前第i个众包志愿者与第j个众包志愿者之间的相似度,β为专业相似度权重,N(·)为众包志愿者的专业集合,M(·)为众包志愿者的兴趣集合,crditj为第j个众包志愿者的积分;
C)对B)得到的所有相似度从大到小进行排序,将相似度高的前s个众包志愿者打过标签的图片进行初步保留,形成中间结果集temp-result;
(4)对中间结果集temp-result进行扩充,使中间结果集的数量达到值leastTempNum,按打过标签的图片进行优先扩充;
(5)判断当前众包志愿者是否打过标签,若无则转(7),否则转(6)进行基于图片的协同过滤;
(6)将当前众包志愿者打过的标签集合与中间结果集temp-result中各图片已被打上的标签集合进行相似度计算,对所有得到的相似度进行排序,将相似度高于预设阈值的图片保留下来作为最终结果集final-set进行推荐;所述相似度计算公式如下:
其中,Sia为当前第i个众包志愿者与中间结果集temp-result中第a张图片的相似度,L(i)为当前第i个众包志愿者打过的标签集合,L(a)为第a张图片已被打上的标签集合,num(x)为标签x在L(a)中的出现次数;
(7)对最终结果集final-set进行扩充,对于没有专业背景或相应兴趣也没有标注记录的众包志愿者随机添加图片进行扩充,使最终结果集final-set的数量达到值leastFinalNum;
(8)将最终得到的对每个众包志愿者推荐的最终结果集final-set,保存到数据库中,并记录要推荐的图片路径;
(9)当志愿者APP模块请求每日推荐的图片时,服务器模块通过查找数据库将相应的图片路径反馈给今日推荐模块。
2.根据权利要求1所述基于众包的图片标注系统,其特征在于,所述图片标注完成判定模块包括标签语义处理模块、智能化标签判定模块、智能化标签推荐模块;所述标签语义处理模块用于采用NLPIR汉语分词系统以及同义词词林,对众包志愿者标注的标签进行词性分析、词性标注、近义词归类,得到最终的标签结果;智能化标签判定模块用于对经过标签语义处理模块处理好的标签进行判定,从而判断图片是否标注完成;智能化标签推荐模块用于结合标签语义处理模块处理好的标签以及众包志愿者经常使用的标签,对众包志愿者标注的每张图片进行标签推荐。
3.根据权利要求2所述基于众包的图片标注系统,其特征在于,所述标签语义处理模块的具体工作过程如下:
(1)对于所有待标注图片,获取每张待标注图片经图片标注模块后,得到的所有标签信息并构成标签集tagList;
(2)对于每张待标注图片的标签集tagList,进行以下操作:
A)对标签集tagList中的每个标签使用汉语分词系统进行分词、词性标注,删去副词、动词、形容词,得到初步处理的标签集tagList_temp;
B)对初步处理的标签集tagList_temp使用同义词词林进行标签相似度计算,将相似度高于一定阈值的标签归为一类,得到最终的标签集tagList_final;
(3)将最终的标签集tagList_final保存到数据库中,作为智能化标签判定模块及智能化标签推荐模块的依据。
4.根据权利要求2所述基于众包的图片标注系统,其特征在于,所述智能化标签判定模块的具体工作过程如下:
获取经标签语义处理模块处理好的标签集picture_tagList,统计标签集picture_tagList中每类标签的数量,当存在某类标签的数量达到图片发布者设定值leastTagNum时,该标签判定为有效,当有效标签的数量达到图片发布者设定值leastClassNum时,判断图片被标注完成。
5.根据权利要求2所述基于众包的图片标注系统,其特征在于,所述智能化标签推荐模块的具体工作过程如下:
(1)对每一个众包志愿者,构建其使用过标签的集合person_tagList,集合person_tagList包括标签及该众包志愿者使用该标签的次数;
(2)对每一张待标注图片,构建其已有的标签集合picture_tagList,集合picture_tagList包括该图片已有标签及该已有标签被标注的次数;
(3)对person_tagList中所有标签以及picture_tagList上已有标签进行分值计算,公式如下:
其中,grade(tag)表示标签tag的分值,weighttag表示标签tag的使用次数或被标注的次数,maxperson_tagList表示集合person_tagList中使用最多的标签的使用次数,maxpicture_tagList表示集合picture_tagList中被标注最多的标签的标注次数,α表示标签推荐偏好调节系数;
根据分值对标签从大到小进行排序,取前六个分值最大的标签作为该众包志愿者当前需要标注的图片的推荐标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810400584.XA CN108829652B (zh) | 2018-04-28 | 2018-04-28 | 一种基于众包的图片标注系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810400584.XA CN108829652B (zh) | 2018-04-28 | 2018-04-28 | 一种基于众包的图片标注系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108829652A CN108829652A (zh) | 2018-11-16 |
CN108829652B true CN108829652B (zh) | 2021-06-08 |
Family
ID=64154217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810400584.XA Active CN108829652B (zh) | 2018-04-28 | 2018-04-28 | 一种基于众包的图片标注系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829652B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886725A (zh) * | 2018-12-29 | 2019-06-14 | 深圳云天励飞技术有限公司 | 事件处理方法及相关装置 |
CN111435455A (zh) * | 2019-01-14 | 2020-07-21 | 珠海格力电器股份有限公司 | 图片的处理方法和装置 |
CN111753139A (zh) * | 2019-03-29 | 2020-10-09 | 中共中央办公厅电子科技学院(北京电子科技学院) | 一种基于众包思想的图像属性评价数据集标注系统 |
CN110135409B (zh) * | 2019-04-04 | 2023-11-03 | 平安科技(深圳)有限公司 | 识别模型的优化方法和装置 |
CN110209849B (zh) * | 2019-06-04 | 2022-03-25 | 北京字节跳动网络技术有限公司 | 用于标注关键点的方法和装置 |
CN112990625A (zh) * | 2019-12-13 | 2021-06-18 | 北京金山云网络技术有限公司 | 标注任务的分配方法、装置及服务器 |
CN111310866B (zh) * | 2020-05-09 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 数据标注方法、装置、系统和终端设备 |
CN112148986B (zh) * | 2020-10-09 | 2022-09-30 | 安徽大学 | 一种基于众包的top-N服务再推荐方法及系统 |
CN114969315B (zh) * | 2022-08-01 | 2022-11-01 | 翼方健数(北京)信息科技有限公司 | 一种专业领域智能化众包标注方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140289246A1 (en) * | 2012-05-18 | 2014-09-25 | California Institute Of Technology | Systems and Methods for the Distributed Categorization of Source Data |
CN106489149A (zh) * | 2016-06-29 | 2017-03-08 | 深圳狗尾草智能科技有限公司 | 一种基于数据挖掘和众包的数据标注方法及系统 |
CN107273492A (zh) * | 2017-06-15 | 2017-10-20 | 复旦大学 | 一种基于众包平台处理图像标注任务的交互方法 |
-
2018
- 2018-04-28 CN CN201810400584.XA patent/CN108829652B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140289246A1 (en) * | 2012-05-18 | 2014-09-25 | California Institute Of Technology | Systems and Methods for the Distributed Categorization of Source Data |
CN106489149A (zh) * | 2016-06-29 | 2017-03-08 | 深圳狗尾草智能科技有限公司 | 一种基于数据挖掘和众包的数据标注方法及系统 |
CN107273492A (zh) * | 2017-06-15 | 2017-10-20 | 复旦大学 | 一种基于众包平台处理图像标注任务的交互方法 |
Non-Patent Citations (2)
Title |
---|
Inferring Restaurant Styles by Mining Crowd Sourced Photos from User-Review Websites;Haofu Liao et al.;《2016 IEEE International Conference on Big Data》;20161205;第937-944页 * |
百度众测——用户标注系统的设计与实现;韦泽;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20130815(第8期);正文第3页,第16页,第27页,第36页,第56页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108829652A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829652B (zh) | 一种基于众包的图片标注系统 | |
US11238310B2 (en) | Training data acquisition method and device, server and storage medium | |
CN112214670B (zh) | 一种在线课程推荐方法、装置、电子设备及存储介质 | |
US9195910B2 (en) | System and method for classification with effective use of manual data input and crowdsourcing | |
Chen et al. | Sheepdog: group and tag recommendation for flickr photos by automatic search-based learning | |
US8612428B2 (en) | Image ranking based on popularity of associated metadata | |
CN111177538B (zh) | 一种基于无监督权值计算的用户兴趣标签构建方法 | |
CN103064903B (zh) | 图片检索方法和装置 | |
CN104281622A (zh) | 一种社交媒体中的信息推荐方法和装置 | |
JP2013517563A (ja) | ユーザ通信の解析システムおよび方法 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN109729348B (zh) | 一种确定视频质量的方法、装置及设备 | |
CN109492168B (zh) | 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法 | |
US11537558B2 (en) | File management systems and methods | |
CN103577534A (zh) | 搜索方法和搜索引擎 | |
US20220083617A1 (en) | Systems and methods for enhanced online research | |
CN116955833B (zh) | 一种用户行为分析系统及方法 | |
CN111143689A (zh) | 根据用户需求和用户画像构建推荐引擎的方法 | |
CN110958472A (zh) | 视频点击量评级预测方法、装置、电子设备及存储介质 | |
CN110209916B (zh) | 一种兴趣点图像推荐方法及装置 | |
CN117235362A (zh) | 一种基于智慧文旅大数据的分析系统 | |
CN111143688B (zh) | 一种基于移动新闻客户端的评估方法及其系统 | |
CN112002184A (zh) | 一种基于学习记录的辅助学习方法及系统 | |
US11379430B2 (en) | File management systems and methods | |
JP7266838B2 (ja) | 情報分析装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |