CN108764279B - 一种基于众包的图片分组采集系统 - Google Patents
一种基于众包的图片分组采集系统 Download PDFInfo
- Publication number
- CN108764279B CN108764279B CN201810343483.3A CN201810343483A CN108764279B CN 108764279 B CN108764279 B CN 108764279B CN 201810343483 A CN201810343483 A CN 201810343483A CN 108764279 B CN108764279 B CN 108764279B
- Authority
- CN
- China
- Prior art keywords
- user
- grouping
- pictures
- module
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于众包的图片分组采集系统,包括:登录注册修改设置模块,用于用户需经过注册、登录,系统通过数据库修改和保存用户信息;随机读取图片模块,根据用户选择的任务中每组图像的数目N从图库中随机选取待分组图片和提示;交互界面设计模块,通过分组的方式用户将图片分别归入不同的组别;用户操作记录保存模块,用于对用户的一些操作记录进行保存;众包结果评估模块,用于通过矩阵的方式来表示标签之间的关系,通过计算得到用户分组的准确度;展示和导出模块,用于对聚类结果进行展示并可导出为不同格式的文件;数据库设计模块,用于设计类,分别储存用户信息、图片信息、聚类任务信息和包任务信息。本发明提升面向聚类的辅助信息的有效性。
Description
技术领域
本发明涉及机器学习和图像识别领域,更进一步涉及一种基于众包的图片分组采集系统。
背景技术
在很多半监督图像聚类方法中,都要用到某种表示的辅助信息来辅助聚类,比如带有类别标签的图像或者两个图像之间的约束关系,即两个图像是否属于同一个类。众包提供了一种相对廉价的获取人工给出的辅助信息的技术,已经被学术界和商业界成功应用。由于聚类分析一般用于探索性数据分析,即聚类前并不清楚有多少个类以及每个类的信息分别是什么,在实际应用中就不能定义类别的标签。两两约束关系虽然在大多数聚类问题中都适用,但是由于每个约束只涉及两个图像,需要大量约束才能使得聚类效果得到明显改善。因此,定义新的更加有效的辅助信息类型并且通过众包来获取对开发更加高效、廉价的半监督聚类方法具有重要意义。
发明内容
为了克服已有技术面向聚类的辅助信息的有效性较差的不足,本发明提供了一种提升面向聚类的辅助信息的有效性的基于众包的图片分组采集系统,通过众包平台让参与者对从目标图像库中抽取的若干个图像进行分组从而采集多个图像子集的分组结果。
本发明解决其技术问题所采用的技术方案是:
一种基于众包的图片分组采集系统,所述系统包括:
登录注册修改设置模块,用于用户需经过注册、登录,系统通过数据库修改和保存用户信息;
随机读取图片模块,根据用户选择的任务中每组图像的数目N从图库中随机选取待分组图片和提示;
交互界面设计模块,通过分组的方式用户将图片分别归入不同的组别,若没有所需组别可新增分组;每个组别能够添加新标签,在分组完成或者需要休息时点击提交将已经分组的数据提交给数据库进行储存;
用户操作记录保存模块,用于对用户的一些操作记录进行保存,包括完成任务需要的时间,任务个数,以及完成分组的图片数目。
众包结果评估模块,用于通过矩阵的方式来表示标签之间的关系,通过计算得到用户分组的准确度;
展示和导出模块,用于对聚类结果进行展示,分组展示和列表展示,并可导出为不同格式的文件;
数据库设计模块,用于设计4个类,分别储存用户信息、图片信息、聚类任务信息和包任务信息。
进一步,所述随机读取图片模块中;设数据库中有X0张未分组的图片,以及l个已分组的图片子集库L;根据用户选择的任务中每组图片的数目N(N≥10)以及所需要的示例数,从L随机抽取k+k′(k≥1,k′≥0)个已分组的图片子集,其中k个分组共包含P(P<N)张图片的分组结果被隐藏只用于最后的评估,k′个分组结果向用户展示作为提示;从X0抽取N-P张未分组的图片构成N张待分组的图片。
再进一步,所述众包结果评估模块中,把对P张隐藏标签的图片的分组结果转换成图片之间的两两关系,如果两张图片被分组同一个组,则它们之间的两两关系为1,否则为-1;比较专家分组和用户分组得到的维度为P×P的两两关系矩阵,并计算用户分组结果的准确度Accuracy,具体步骤为:先计算E=R–R1,其中R为专家分组对应的两两关系矩阵,R1为用户分组对应的两两关系矩阵;再用以下公式计算得到准确度其中Eij为矩阵E中第i行第j列的元素。该公式保证准确度的值在[0,1]范围内;如果全对,则Accuracy=1,全错则Accuracy=0。
更进一步,所述展示和导出模块中,通过数据库查询,以列表的方式展示出用户已接受的聚类任务,显示任务的ID、完成情况、提交情况、众包结果评估信息;在开始时选择任务类型,是查询包任务还是聚类任务,之后选择任务数量,若选择单个即读取单个任务信息,若选择所有即读取所有任务信息;点击表格展示可切换到表格形式展现在该任务中已经分类的图片;点击导出,可以把结果和历史记录等信息保存到文件。
所述登录注册修改设置模中,首先输入邮箱,会实时与后台进行交互,检测邮箱是否已经注册,如果已注册则会进行提示;接着输入用户名和密码;输入完成后进行前台校验,如果未通过将不会跟后台进行交互;如果前台校验通过后则向后台传输数据,因为前端校验不是可靠的,所以后台再次进行一次校验;通过校验后,用sha1加密算法生成用户的独立盐,然后对用户的密码进行加密;然后向用户输入的邮箱发送一封激活邮件,发送成功后提醒用户进入邮箱激活,最后将用户的数据全部写入数据库;
登录时首先需要用户输入邮箱和密码,系统将账号密码传输给后台后,通过邮箱查询出对应的用户,如果没有经过激活,则提示登录失败并提示用户去邮箱激活;如果已经激活,则将输入的密码加入用户中的盐进行加密操作,再将加密后的结果和查询出的加密密码进行比较,如果相同,则登陆成功,不相同则提示用户邮箱或密码不正确,需要重新登录。
本发明的技术构思为:两两约束虽然对于半监督聚类问题普遍适应,单个约束本身包含的信息并不多。本发明提出的对多个图像的分组结果更加接近聚类的最终目的,即对整个数据集分组。比起两两约束,子集分组明显包含了很多可以帮助聚类的信息。
本发明的有益效果主要表现在:提升面向聚类的辅助信息的有效性。
附图说明
图1是基于众包的图片分组采集系统的示意图。
图2是登录注册修改设置模块示意图。
图3是随机读取图片模块中图片储存示意图。
图4是交互式界面模块示意图。
图5是展示和导出模块示意图。
图6是Collection的用户信息的示意图。
图7是Collection的图片信息的示意图。
图8是Collection的任务信息的示意图。
图9是Collection的包任务信息的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图9,一种基于众包的图片分组采集系统,包括:
登录注册修改设置模块S1,用于通过点击注册按钮即可跳转到注册页面;首先输入邮箱,会实时与后台进行交互,检测邮箱是否已经注册,如果已注册则会进行提示;接着输入用户名和密码,其他用户信息等;输入完成后进行前台校验,如果未通过将不会跟后台进行交互;如果前台校验通过后则向后台传输数据,因为前端校验不是可靠的,所以后台再次进行一次校验;通过校验后,用sha1加密算法生成用户的独立盐,然后对用户的密码进行加密;然后向用户输入的邮箱发送一封激活邮件,发送成功后提醒用户进入邮箱激活,最后将用户的数据全部写入数据库;
登录时首先需要用户输入邮箱和密码,系统将账号密码传输给后台后,通过邮箱查询出对应的用户,如果没有经过激活,则提示登录失败并提示用户去邮箱激活;如果已经激活,则将输入的密码加入用户中的盐进行加密操作,再将加密后的结果和查询出的加密密码进行比较,如果相同,则登陆成功,不相同则提示用户邮箱或密码不正确,需要重新登录。
随机读取图片模块S2,用于通过使用npm上的随机读取数据的mongoose-simple-random库随机读取图片,并且还可以指定查询条件和数量。将图片以图3的形式进行储存,分为“专家已分组的图片库”和需要用户进行分组的“待分组图片库”。在该实施例中,用户输入目标图片数目30(N=30),提示0个(k′=0),默认隐藏子集分组k′=1。从“专家已分组的图片组库”随机选取1个有分组结果的子集,设包含7张图片(P=7),从“待分组图片库”随机选取N-P=23张图片,把23张待分组的图片和7张被隐藏分组信息的图片混合在一起呈现给用户进行分组。
交互界面设计模块S3,用于通过分组的方式用户将图片分别归入不同的组别,若没有所需组别可新增分组;每个组别可以添加新标签。在分组完成或者需要休息时可以点击提交将已经分组的数据提交给数据库进行储存。
如图4设计,上方是提示,左下方是所需分类的图片,右侧是所分的组,可以点击下方“新建”按钮新建组,也可以给每个组添加标签。完成后点击下方“提交”按钮进行提交保存。
用户操作记录保存模块S4,用于对用户的一些操作记录进行保存,包括完成任务需要的时间,任务个数,以及完成分组的图片数目。
利用MongoDB库mongoose的预处理功能,在每次用户储存聚类任务结果时,自动更新当时时间,储存用户聚类的数量和当天使用的时间。
众包结果评估模块S5,用于采用矩阵来表示标签之间的关系,因为矩阵可以很好地表示两两之间的关系,最后通过矩阵计算有效地评估用户的准确度。具体算法如下:
在该实施例中有7张隐藏标签的图片(P=7)参与用户分组,图片的编号为I1,I2,I3,I4,I5,I6,I7,若专家把这7张图片分成以下3组:{I1,I7},{I2,I3},{I4,I5,I6}。按照IiIj在一组,则IiIj为1,反之为-1的方法,相应得到专家分组的两两关系矩阵R如下表1:
表1
若用户把这7张图片分成两组{I1,I6,I7},{I2,I3,I4,I5},则得到对应的两两关系矩阵R1如下表2:
表2
E=R-R1,则根据以下公式计算得到该用户此次任务的准确率为
展示和导出模块S6,聚类结果可进行展示,可以分组展示和列表展示,并可导出为不同格式的文件。具体为:通过数据库查询,以列表的方式展示出用户已接受的聚类任务,显示任务的ID、完成情况、提交情况、众包结果评估等信息。在开始时选择任务类型,是查询包任务还是聚类任务,之后选择任务数量,若选择单个即读取单个任务信息,若选择所有即读取所有任务信息。点击表格展示可切换到表格形式展现在该任务中已经分类的图片。最终用导出函数将内容导出到excel和txt格式。
数据库设计模块S7,设计了4个类,分别储存用户信息、图片信息、聚类任务信息和包任务信息。
使用MongoDB作为数据库。建立user,dog,task,cluster四个collection。user存储的是用户的信息,dog存储的是图片信息,task存储的聚类任务的信息,cluster存储的是包任务的信息。在实际操作过程中,为了方便操作数据库,使用了Robomongo这款工具来管理数据库。每个Collection表示如图6~图9。
Claims (4)
1.一种基于众包的图片分组采集系统,其特征在于,所述系统包括:
登录注册修改设置模块,用于用户需经过注册、登录,系统通过数据库修改和保存用户信息;
随机读取图片模块,根据用户选择的任务中每组图像的数目N从图库中随机选取待分组图片和提示;
交互界面设计模块,通过分组的方式用户将图片分别归入不同的组别,若没有所需组别可新增分组;每个组别能够添加新标签,在分组完成或者需要休息时点击提交将已经分组的数据提交给数据库进行储存;
用户操作记录保存模块,用于对用户的一些操作记录进行保存,包括完成任务需要的时间,任务个数,以及完成分组的图片数目;
众包结果评估模块,用于通过矩阵的方式来表示标签之间的关系,通过计算得到用户分组的准确度;
展示和导出模块,用于对聚类结果进行展示,分组展示和列表展示,并可导出为不同格式的文件;
数据库设计模块,用于设计4个类,分别储存用户信息、图片信息、聚类任务信息和包任务信息;
2.如权利要求1所述的一种基于众包的图片分组采集系统,其特征在于,所述随机读取图片模块中;设数据库中有x0张未分组的图片,以及l个已分组的图片子集库L;根据用户选择的任务中每组图片的数目N以及所需要的示例数,N≥10,从L随机抽取k+k′个已分组的图片子集,k≥1,k′≥0,其中k个分组共包含P张图片的分组结果被隐藏只用于最后的评估,P<N,k′个分组结果向用户展示作为提示;从x0抽取N-P张未分组的图片构成N张待分组的图片。
3.如权利要求1或2所述的一种基于众包的图片分组采集系统,其特征在于,所述展示和导出模块中,通过数据库查询,以列表的方式展示出用户已接受的聚类任务,显示任务的ID、完成情况、提交情况、众包结果评估信息;在开始时选择任务类型,是查询包任务还是聚类任务,之后选择任务数量,若选择单个即读取单个任务信息,若选择所有即读取所有任务信息;点击表格展示可切换到表格形式展现在该任务中已经分类的图片;点击导出,可以把结果和历史记录等信息保存到文件。
4.如权利要求1或2所述的一种基于众包的图片分组采集系统,其特征在于,所述登录注册修改设置模中,首先输入邮箱,会实时与后台进行交互,检测邮箱是否已经注册,如果已注册则会进行提示;接着输入用户名和密码;输入完成后进行前台校验,如果未通过将不会跟后台进行交互;如果前台校验通过后则向后台传输数据,因为前端校验不是可靠的,所以后台再次进行一次校验;通过校验后,用sha1加密算法生成用户的独立盐,然后对用户的密码进行加密;然后向用户输入的邮箱发送一封激活邮件,发送成功后提醒用户进入邮箱激活,最后将用户的数据全部写入数据库;
登录时首先需要用户输入邮箱和密码,系统将账号密码传输给后台后,通过邮箱查询出对应的用户,如果没有经过激活,则提示登录失败并提示用户去邮箱激活;如果已经激活,则将输入的密码加入用户中的盐进行加密操作,再将加密后的结果和查询出的加密密码进行比较,如果相同,则登陆成功,不相同则提示用户邮箱或密码不正确,需要重新登录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810343483.3A CN108764279B (zh) | 2018-04-17 | 2018-04-17 | 一种基于众包的图片分组采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810343483.3A CN108764279B (zh) | 2018-04-17 | 2018-04-17 | 一种基于众包的图片分组采集系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108764279A CN108764279A (zh) | 2018-11-06 |
CN108764279B true CN108764279B (zh) | 2021-10-15 |
Family
ID=64010623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810343483.3A Active CN108764279B (zh) | 2018-04-17 | 2018-04-17 | 一种基于众包的图片分组采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764279B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753139A (zh) * | 2019-03-29 | 2020-10-09 | 中共中央办公厅电子科技学院(北京电子科技学院) | 一种基于众包思想的图像属性评价数据集标注系统 |
CN110298386B (zh) * | 2019-06-10 | 2023-07-28 | 成都积微物联集团股份有限公司 | 一种基于图像内容的标签自动化定义方法 |
CN112732825A (zh) * | 2021-01-22 | 2021-04-30 | 中国人民解放军31644部队 | 一种装备展示系统、方法、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205503A (zh) * | 2015-08-28 | 2015-12-30 | 重庆恢恢信息技术有限公司 | 基于众包主动学习用于检测异常图片的方法 |
CN107529655A (zh) * | 2017-08-29 | 2018-01-02 | 武汉大学 | 基于众包的航天任务交易方法、系统及航天众包服务器 |
-
2018
- 2018-04-17 CN CN201810343483.3A patent/CN108764279B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205503A (zh) * | 2015-08-28 | 2015-12-30 | 重庆恢恢信息技术有限公司 | 基于众包主动学习用于检测异常图片的方法 |
CN107529655A (zh) * | 2017-08-29 | 2018-01-02 | 武汉大学 | 基于众包的航天任务交易方法、系统及航天众包服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN108764279A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565498B1 (en) | Deep neural network-based relationship analysis with multi-feature token model | |
CN107967575B (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN112417096B (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
CN108764279B (zh) | 一种基于众包的图片分组采集系统 | |
US10963692B1 (en) | Deep learning based document image embeddings for layout classification and retrieval | |
CN107085585A (zh) | 用于图像搜索的准确的标签相关性预测 | |
JP2017224184A (ja) | 機械学習装置 | |
CN111831636A (zh) | 一种数据处理方法、装置、计算机系统及可读存储介质 | |
US11620558B1 (en) | Iterative machine learning based techniques for value-based defect analysis in large data sets | |
CN115146865A (zh) | 基于人工智能的任务优化方法及相关设备 | |
CN112288337B (zh) | 行为推荐方法、装置、设备及介质 | |
CN113946690A (zh) | 潜在客户挖掘方法、装置、电子设备及存储介质 | |
US11550884B2 (en) | Systems and methods for providing user validation | |
WO2021189908A1 (zh) | 基于深度学习的图像分类方法、装置、服务器及介质 | |
CN116702891A (zh) | 一种基于汽车制造业的故障溯源方法及终端 | |
CN112598089B (zh) | 图像样本的筛选方法、装置、设备及介质 | |
CN107704529A (zh) | 信息唯一性识别方法、应用服务器、系统及存储介质 | |
CN113255879B (zh) | 一种深度学习标注方法、系统、计算机设备和存储介质 | |
US20160063394A1 (en) | Computing Device Classifier Improvement Through N-Dimensional Stratified Input Sampling | |
CN116738493A (zh) | 一种基于分类类别的数据加密存储方法及装置 | |
CN113297419B (zh) | 视频知识点确定方法、装置、电子设备和存储介质 | |
CN112182413B (zh) | 一种基于教学大数据的智能推荐方法及服务器 | |
CN114048825A (zh) | 基于对比学习的聚类方法、系统、设备及存储介质 | |
CN113420821A (zh) | 一种基于标记和特征局部相关性的多标记学习方法 | |
Teofili et al. | CERTEM: explaining and debugging black-box entity resolution systems with CERTA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |