CN111368929B - 一种图片的标注方法 - Google Patents

一种图片的标注方法 Download PDF

Info

Publication number
CN111368929B
CN111368929B CN202010155431.0A CN202010155431A CN111368929B CN 111368929 B CN111368929 B CN 111368929B CN 202010155431 A CN202010155431 A CN 202010155431A CN 111368929 B CN111368929 B CN 111368929B
Authority
CN
China
Prior art keywords
pictures
picture
labeling
audited
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010155431.0A
Other languages
English (en)
Other versions
CN111368929A (zh
Inventor
何镇安
何诗銘
王晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Zhongke Changqing Medical Technology Research Institute Co ltd
Original Assignee
Xi'an Zhongke Changqing Medical Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Zhongke Changqing Medical Technology Research Institute Co ltd filed Critical Xi'an Zhongke Changqing Medical Technology Research Institute Co ltd
Priority to CN202010155431.0A priority Critical patent/CN111368929B/zh
Publication of CN111368929A publication Critical patent/CN111368929A/zh
Application granted granted Critical
Publication of CN111368929B publication Critical patent/CN111368929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图片的标注方法,包括如下步骤:S1,对用户进行账号分配,给帐号分配项目和角色,角色包括标注者和审核者,用户通过账号进行登陆;S2,将待标注的图片分配给多个标注者进行分别标注,对多个标注者所标注的图片的标注内容进行两两对比得出相似度,将多个标注者所标注的图片按相似度进行排序后作为待审核图片;S3,将待审核图片分配给多个审核者进行分别审核,对所有审核者审核后的审核图片的标注内容进行对比,若所有审核者的审核图片的相似度达到设定阈值,则下载该审核图片,用于图片训练;否则进入步骤S4;S4,召集多个审核者对相似度未达到设定阈值的审核图片进行讨论修正,并对修正后的审核图片进行下载,用于图片训练。

Description

一种图片的标注方法
技术领域
本发明属于人工智能医疗领域,具体地涉及一种图片的标注方法。
背景技术
语音和图像识别技术已达到商业化水平,深度学习在图像的分类与识别上已经取得了非常大的进展,在医疗影像领域目前对某些病理图片的识别准确率已超过90%,可以用于辅助医生诊断,提高诊断效果,减少医生工作量。
在进行图片识别训练时,需要采用标注图片进行训练。目前图片的标注方法主要有:目标定位标注、描点标注、语音分割标注、OCR标注、分类标注、轮廓标注等等,现有的图片标注方法往往只是关注标注功能的本身,却没有去关注标注数据的准确性,导致标注图片的质量不够高,这样对于后期的数据训练比较难以达到好的效果,往往会产生如下的问题:图片标注不准确,出现很多无用的数据;产生的结果,在后期训练,由于标注数据质量不高,导致训练得不到收敛。
发明内容
本发明的目的在于提供一种标注数据准确度高的图片的标注方法用以解决上述存在的技术问题。
为实现上述目的,本发明采用的技术方案为:一种图片的标注方法,包括如下步骤:
S1,对用户进行账号分配,给帐号分配项目和角色,其中,角色包括标注者和审核者,用户通过账号进行登陆;
S2,将待标注的图片分配给多个标注者进行分别标注,对多个标注者所标注的图片的标注内容进行两两对比得出相似度,将多个标注者所标注的图片按相似度进行排序后作为待审核图片;
S3,将待审核图片分配给多个审核者进行分别审核,对所有审核者审核后的审核图片的标注内容进行对比,若所有审核者的审核图片的相似度达到设定阈值,则下载该审核图片,用于图片训练;否则进入步骤S4;
S4,召集多个审核者对相似度未达到设定阈值的审核图片进行讨论修正,并对修正后的审核图片进行下载,用于图片训练。
进一步的,步骤S1中,所述项目为待标注的图片的类别。
更进一步的,所述标注者只能对自己标注的图片进行标注和修改;所述审核者可以对所有的图片进行标注和修改。
进一步的,步骤S2中,根据登陆进来的账号所对应的项目为用户分配待标注的图片。
进一步的,步骤S2中,对多个标注者所标注的图片的标注内容进行两两对比具体为:从位置坐标和标签类别进行对比。
进一步的,步骤S2中,将多个标注者所标注的图片按相似度进行排序后作为待审核图片具体为:将多个标注者所标注的图片按相似度从高到低进行排序后作为待审核图片。
更进一步的,相似度相同的图片则按标注时间顺序排序。
进一步的,步骤S3中,对所有审核者审核后的审核图片的标注内容进行对比具体为:从位置坐标和标签类别进行对比。
进一步的,还包括步骤S5,将相似度达到设定阈值的审核图片或修正后的审核图片呈现给标注者。
本发明的有益技术效果:
采用本发明,提高了图片标注数据的准确率,从而提高了标注图片的质量,使得后期的数据训练可以达到较好的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明具体实施例的方法流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。
如图1所示,一种图片的标注方法,包括如下步骤:
S1,对用户进行账号分配,给帐号分配项目和角色,其中,角色包括标注者和审核者,用户通过账号进行登陆。
具体的,项目是待标注的图片的类别,如甲状腺结节项目、甲状腺肿瘤项目或肠道肿瘤项目等等,分配项目是为了控制账号只能标注其拥有项目的图片,以提高标注的准确性。
标注者只能对自己所分配的图片进行标注和修改;审核者可以对所有的图片进行标注和修改,从而提高最终标注内容的准确性,提高标注图片的质量。
S2,将待标注的图片分配给多个标注者进行分别标注,对多个标注者所标注的图片的标注内容进行两两对比得出相似度,将多个标注者所标注的图片按相似度进行排序后作为待审核图片。
采用多个标注者来对同一张待标注的图片进行分别标注后,再比较标注结果,可以提高标注的准确度,从而提高最终标注图片的质量。
具体的,根据登陆进来的账号所对应的项目为用户分配相对应的待标注的图片,如果是标注者,则给其分配所拥有的项目的待标注图片,如果是审核者,则根据项目分配待审核图片。
将同一张待标注的图片分配给多个标注者进行分别标注,并且记录。
本具体实施例中,待标注的图片的分配规则为:首先标注者会先随机获取到一张待标注的图片,当标注完成后,可以通过“下一张”,获取下一张的待标注的图片,当然可以通过“上一张”,对已标注的图片进行修改,但并不限于此。
当一张待标注的图片分配给多个标注者以后,那么其他的标注者就不能获得该张图片。
当图片审核后,那么该图片对标注者来不能进行修改只能查看。
对每张待标注的图片经多个标注者标注后的图片的标注内容进行两两对比得出相似度,将多个标注者所标注的图片按相似度进行排序后作为待审核图片。
具体的,对标注内容进行两两对比是从标注内容的位置坐标和标签类别(如对于甲状腺结节项目,标签类别包括成分、回声、形状等)进行对比,如果位置坐标数据相似度较大且标签类别相同,则相似度较高,说明标注内容的准确率比较大,在展现给审核者他们将放在前面,即将多个标注者所标注的图片按相似度从高到低进行排序后作为待审核图片,便于提高审核效率,但并不限于此。
如果几张标注的图片的相似度相同,那么将按标注时间顺序展现给审核者,但并不限于此。
S3,将待审核图片分配给多个审核者进行分别审核,对所有审核者审核后的审核图片的标注内容进行对比,若所有审核者的审核图片的相似度达到设定阈值,则下载该审核图片,用于图片训练;否则进入步骤S4。
具体的,将每张待审核图片分配给具有相对应项目的多个审核者,并且记录。
审核者登陆后,查看待审核图片的数量是否与步骤S2的标注者的数量相同,且是否预先排序过,如果没有达到条件,将提示审核者没有待审核的图片。
本具体实施例中,待审核图片的分配规则为:首先待审核者会先随机获取到一张待审核图片,当审核完成后,可以通过“下一张”,获取下一张的待审核图片,当然可以通过“上一张”,对已审核图片进行修改;但并不以此危险。
当一张图片分配给多个审核者以后,那么其他的审核者就不能获得该张待审核图片。
当待审核图片都被审核完成后,对所有审核者审核后的审核图片的标注内容进行对比,具体的,从位置坐标和标签类别进行对比,当标签类别相同且位置坐标达到阈值时,即相似度达到设定阈值,可认为审核结果一致,标注内容的准确度符合要求,则下载该审核图片,用于图片训练。阈值的大小可以根据实际需要进行设定,阈值越高,则标注的图片质量越好。
当审核者对某张图片进行审核后,如果只是对某张图片的一个标注结果进行审核,那么修改的结果为正确结果且为所有标注结果的标准,可以不审核其他图片,如果每一个标注结果进行审核,那么每个标注结果都有对应的正确审核结果。
当审核者发现某张图片的标注数据的审核结果为正确,那么该结果为其他标注结果的正确的审核结果。
对于每张图片的多个正确标注结果,在下载训练的时候将对标注结果进行融合,输出为一个标注结果。
S4,召集多个审核者对相似度未达到设定阈值的审核图片进行讨论修正,并对修正后的审核图片进行下载,用于图片训练。
具体的,对于审核结果有异议的那些审核图片,召集几个审核者进行统一讨论,然后产生正确的最终结果,并根据最终结果对审核图片进行修正,然后对修正后的审核图片进行下载,用于图片训练,从而提高标注内容的准确度,提升最终的标注图片的质量。
S5,将相似度达到设定阈值的审核图片或修正后的审核图片呈现给标注者,便于标注者将其与自己的标注内容进行对比,来提高自己的标注能力。
具体的,当待审核图片审核完成后,标注者可以查看审核后的自己标注的图片,优选的,在一个画布上的左右两半部分显示该标注者的原始标注图片和审核后的标注图片,这样可以便于标注者进行对比,发现错误的标注内容,从而来提高自己的标注能力,但并不限于此。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (9)

1.一种图片的标注方法,其特征在于,包括如下步骤:
S1,对用户进行账号分配,给帐号分配项目和角色,其中,角色包括标注者和审核者,用户通过账号进行登陆;
S2,将待标注的图片分配给多个标注者进行分别标注,对多个标注者所标注的图片的标注内容进行两两对比得出相似度,将多个标注者所标注的图片按相似度进行排序后作为待审核图片;
S3,将待审核图片分配给多个审核者进行分别审核,对所有审核者审核后的审核图片的标注内容进行对比,若所有审核者的审核图片的相似度达到设定阈值,则下载该审核图片,用于图片训练;否则进入步骤S4;
S4,召集多个审核者对相似度未达到设定阈值的审核图片进行讨论修正,并对修正后的审核图片进行下载,用于图片训练。
2.根据权利要求1所述的图片的标注方法,其特征在于:步骤S1中,所述项目为待标注的图片的类别。
3.根据权利要求2所述的图片的标注方法,其特征在于:所述标注者只能对自己标注的图片进行标注和修改;所述审核者可以对所有的图片进行标注和修改。
4.根据权利要求1所述的图片的标注方法,其特征在于:步骤S2中,根据登陆进来的账号所对应的项目为用户分配待标注的图片。
5.根据权利要求1所述的图片的标注方法,其特征在于,步骤S2中,对多个标注者所标注的图片的标注内容进行两两对比具体为:从位置坐标和标签类别进行对比。
6.根据权利要求1所述的图片的标注方法,其特征在于,步骤S2中,将多个标注者所标注的图片按相似度进行排序后作为待审核图片具体为:将多个标注者所标注的图片按相似度从高到低进行排序后作为待审核图片。
7.根据权利要求6所述的图片的标注方法,其特征在于:相似度相同的图片则按标注时间顺序排序。
8.根据权利要求1所述的图片的标注方法,其特征在于:步骤S3中,对所有审核者审核后的审核图片的标注内容进行对比具体为:从位置坐标和标签类别进行对比。
9.根据权利要求1所述的图片的标注方法,其特征在于,还包括步骤S5,将相似度达到设定阈值的审核图片或修正后的审核图片呈现给标注者。
CN202010155431.0A 2020-03-09 2020-03-09 一种图片的标注方法 Active CN111368929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010155431.0A CN111368929B (zh) 2020-03-09 2020-03-09 一种图片的标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010155431.0A CN111368929B (zh) 2020-03-09 2020-03-09 一种图片的标注方法

Publications (2)

Publication Number Publication Date
CN111368929A CN111368929A (zh) 2020-07-03
CN111368929B true CN111368929B (zh) 2023-05-02

Family

ID=71206594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010155431.0A Active CN111368929B (zh) 2020-03-09 2020-03-09 一种图片的标注方法

Country Status (1)

Country Link
CN (1) CN111368929B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860416A (zh) * 2021-04-25 2021-05-28 城云科技(中国)有限公司 标注任务分派策略方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000269A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN110825914A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种资源的标注管理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000269A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN110825914A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种资源的标注管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘喆琼;龙正雄;胡瑞瑞;毛倩倩.基于图像识别的业务智能化审核技术研究.科学技术创新.2020,(05),全文. *

Also Published As

Publication number Publication date
CN111368929A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
US11508251B2 (en) Method and system for intelligent identification and correction of questions
CN108416403A (zh) 商品与标签的自动关联方法、系统、设备及存储介质
TWI731397B (zh) 驗證訓練資料的方法、訓練系統以及電腦程式產品
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN108829815B (zh) 一种医学影像图像筛选方法
CN110796185B (zh) 一种图像标注结果的检测方法和装置
US11551146B2 (en) Automated non-native table representation annotation for machine-learning models
CN111368929B (zh) 一种图片的标注方法
CN111444339B (zh) 文本题目难度标注方法、装置及计算机可读存储介质
CN108920661A (zh) 国际疾病分类标记方法、装置、计算机设备及存储介质
CN113597614A (zh) 图像处理方法和装置、电子设备及存储介质
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
Henderson et al. Automatic detection and classification of multiple catheters in neonatal radiographs with deep learning
CN112948619B (zh) 基于深度学习的手写棋谱辅助录入方法及装置
CN112861750B (zh) 基于拐点检测的视频提取方法、装置、设备及介质
WO2022247007A1 (zh) 医学图像分级方法、装置、电子设备及可读存储介质
JP2008003739A (ja) 入力修正方法、追記情報処理方法、追記情報処理装置、およびプログラム
CN112308048A (zh) 基于少量标注数据的病历完整性判别的方法、装置及系统
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质
CN111783697A (zh) 一种基于卷积神经网络的错题检测及靶向推荐系统和方法
CN115100103A (zh) 基于细菌数据的肿瘤预测方法及装置
CN114882420A (zh) 接待人数统计方法、装置、电子设备及可读存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113569112A (zh) 基于题目的辅导策略提供方法、系统、装置及介质
CN113392844A (zh) 一种基于深度学习的医用胶片上文字信息的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant