CN116825212A - 一种基于生物医学众包平台的数据收集标注方法及系统 - Google Patents

一种基于生物医学众包平台的数据收集标注方法及系统 Download PDF

Info

Publication number
CN116825212A
CN116825212A CN202311090898.1A CN202311090898A CN116825212A CN 116825212 A CN116825212 A CN 116825212A CN 202311090898 A CN202311090898 A CN 202311090898A CN 116825212 A CN116825212 A CN 116825212A
Authority
CN
China
Prior art keywords
crowdsourcing
task
project
quality control
worker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311090898.1A
Other languages
English (en)
Other versions
CN116825212B (zh
Inventor
余国先
陈博文
王峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202311090898.1A priority Critical patent/CN116825212B/zh
Publication of CN116825212A publication Critical patent/CN116825212A/zh
Application granted granted Critical
Publication of CN116825212B publication Critical patent/CN116825212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于生物医学众包平台的数据收集标注方法及系统,涉及生物信息学、众智科学领域,接受任务发布者的项目创建需求,创建数据收集标注的众包项目;根据设置的众包任务类型分拣项目,展示给可参与项目的工人;接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果;当项目达到既定的结束条件,完成该项目的众包;本发明针对模态多样的生物医学数据,设计统一的众包任务处理管线,配备众包任务处理接口,并为不同类型任务提供不同的任务处理框架,能够更加全面化、系统化、高效化处理生物医学数据采集工程提出的挑战与需求。

Description

一种基于生物医学众包平台的数据收集标注方法及系统
技术领域
本发明属于生物信息学、众智科学领域,尤其涉及一种基于生物医学众包平台的数据收集标注方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在大数据和人工智能与生物信息学结合的背景下,众多项目、模型的训练与测试需要海量高质量的生物医学数据,传统的专家标注模式耗时长、费用高,难以应付当今日益增长的生物医学数据需求;如何更快、更准确地收集并标注数据,为数据多样化的生物信息学研究提供优质、廉价的数据集,是当前该领域的主要难点。
目前众包中主要有以下几种任务形式:1)选择题式的将待标注样本映射至有限集的离散型分类问题,如手写数字识别、新闻内容分类等;2)数值填充式的将待标注样本映射至空间的连续型标注问题,如命名实体标注、骨骼框架标注等;3)填空式的将标注样本映射至无穷维空间的收集型标注问题,如蛋白质转录组特征标注、自然语言语义标注等。传统的众包领域标注较多局限于对第一种有限离散可选标注集的数据标定,对于其他任务的研究较少;目前市面上一些应用,如百度众测、医学文本标注工具等,在新兴领域的质量控制仍依赖于工人自觉而非科学有效的真值推理。最近,一些研究人员提出基于层次认知理论面向新兴任务的推理方式,通过挖掘工人之间的认知差异一定程度上提高了众包质量。但由于生物医学数据的模态多样性,以传统的众包工作方式难以直接应对任务多样、属性繁杂的现实问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于生物医学众包平台的数据收集标注方法及系统,针对模态多样的生物医学数据,设计统一的众包任务处理管线,配备众包任务处理接口,并为不同类型任务提供不同的任务处理框架,能够更加全面化、系统化、高效化处理生物医学数据采集工程提出的挑战与需求。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了一种基于生物医学众包平台的数据收集标注方法。
一种基于生物医学众包平台的数据收集标注方法,在生物医学众包平台上执行以下步骤:
接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包;
其中,所述生物医学众包平台采用三层架构:
众包任务处理管线,其被配置为:接受并处理工人参与项目的请求,聚合并返回众包项目质量控制的结果;
众包任务处理接口,其被配置为:整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;
不同任务的处理框架,其被配置为:具备多种不同众包任务类型的处理框架,支持所述众包任务处理管线及众包任务处理接口的运行。
进一步的,所述任务分配,具体为:
通过允入检验判断是否允许工人参与项目,允入检验包含但不限于是否满足工人质量条件、是否允许参与项目多个阶段;
检查尚未完成任务队列是否为空,构建尚未完成任务列表和任务分配列表,通过两个列表取交集的方式,构建任务队列;
发布任务队列的第一个任务给工人;
其中,任务分配列表,是根据众包质量控制算法中的任务分配算法,选取最不确定的任务组成列表,最不确定的任务使用包含但不限于信息熵、KL散度指标进行衡量。
进一步的,所述工人作答,具体为:
工人在收集标注页面,完成指定的任务作答;
服务器获取工人提交的收集或标注信息并数据持久化。
进一步的,所述真值推理,具体为:
利用众包质量控制算法中的真知推理算法,对项目当前的信息进行挖掘和推理,分析出包括标签边缘概率、工人混淆矩阵、工人质量、任务真值的真值推理结果。
进一步的,所述激励分配,具体为:
根据众包质量控制算法中的激励分配算法,对每个工人计算对项目做出的贡献,并根据结果发放奖励。
进一步的,所述结束条件,具体为:
根据众包各任务完成度信息,判断项目是否满足以下条件:达到收集要求、任务分配为空、达到修订要求。
进一步的,所述众包任务处理管线,包括:
任务分配接口模块,其被配置为:基于众包质量控制算法中的任务分配算法接口方法,针对不同的众包任务,读取当前项目数据信息,为任务分配算法提供项目推理信息;
工人作答接口模块,其被配置为:基于任务分配模块分配的任务,收集并处理工人针对该任务修订的数据信息;将工人回答数据持久化存储,便于后续众包质量控制;
真值推理接口模块,其被配置为:基于众包质量控制算法中的真值推理算法接口方法,针对不同的众包任务,读取当前项目数据信息,为真值推理算法提供项目推理信息;
激励分配接口模块,其被配置为:在项目结束时,基于众包质量控制算法中的激励分配算法接口方法,汇总工人回答的真值推理结果,根据激励分配算法基于工人的质量和回答情况提供激励回馈。
进一步的,所说众包任务处理接口,包括:
众包质量控制算法模块:基于统一范式实现传统众包质量算法,囊括多种真值推理算法、任务分配策略、激励分配策略具体算法,提供众包任务处理接口的算法支持;
众包质量控制算法路由模块:针对不同的众包任务类型以及任务发布者设置的众包质量控制算法,为众包质量控制算法模块提供指定的算法方法函数;为不同的众包任务类型,提供相应的众包任务处理页面及数据收集与持久化方法。
进一步的,所述不同任务的处理框架,包括:
收集型处理框架:基于众包任务处理接口,向工人收集数据文件、文件所包含的可选标签类别、文件的评论;
标注型处理框架:基于众包任务处理接口,收集工人选定的标签、标注实体、评论,聚合收集的数据并返回真值推理结果。
文本修订型处理框架:基于众包任务处理接口,采用一种改进的FF-V文本修订框架进行包含Find-Fix与Verify两个阶段的众包质量控制,聚合并返回推理得到的文本修订信息。
本发明第二方面提供了一种基于生物医学众包平台的数据收集标注系统。
一种基于生物医学众包平台的数据收集标注系统,基于生物医学众包平台构建,包括项目创建模块、项目分拣模块、众包控制模块和结果返回模块:
项目创建模块,被配置为:接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
项目分拣模块,被配置为:根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
众包控制模块,被配置为:接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
结果返回模块,被配置为:当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包;
其中,所述生物医学众包平台采用三层架构:
众包任务处理管线,其被配置为:接受并处理工人参与项目的请求,聚合并返回众包项目质量控制的结果;
众包任务处理接口,其被配置为:整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;
不同任务的处理框架,其被配置为:具备多种不同众包任务的处理框架,支持所述众包任务处理管线及众包任务处理接口的正确运行。
以上一个或多个技术方案存在以下有益效果:
本发明为生物医学数据众包提供了统一的众包任务处理管线,为不同众包任务基于统一的众包任务处理管线设计了众包任务处理接口,并为不同类型任务提供了不同的任务处理框架,能够更加全面化、系统化、高效化处理生物医学数据采集工程提出的挑战与需求;
本发明创新性地将所有类型的质量控制方案化归至传统已经长时间迭代的众包质量控制体系中去,调用已有先进的推理方式解决新型问题,保证了生物医学数据众包平台的可靠性;本发明针对连续型问题以及文本修订任务,提出了不同于市面上传统基于工人自觉的解决方案,使得众包平台在更多新型任务上能够保证推理质量;
此外,针对众包的任务类型分类,本发明提出并实践了该分类准则,能够覆盖几乎所有的众包问题领域。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
图2为第一个实施例生物医学数据众包平台的整体结构图。
图3为第一个实施例统一的众包任务处理管线流程图。
图4为第一个实施例众包任务处理接口示意图。
图5为第一个实施例不同任务的处理框架泳道图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于生物医学众包平台的数据收集标注方法,如图1所示,在生物医学众包平台上执行以下步骤:
步骤S1:接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
步骤S2:根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
步骤S3:接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
步骤S4:当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包。
下面对本实施例的生物医学众包平台进行详细说明。
图2是生物医学众包平台的整体结构图,如图2所示,采用三层架构:统一的众包任务处理管线、众包任务处理接口和不同任务的处理框架。
一、统一的众包任务处理管线
众包任务处理管线,针对不同任务、针对不同任务框架提供的接口,能够良好地兼容多种任务的处理过程,图3是统一的众包任务处理管线的流程图,如图3所示,统一的众包任务处理管线包括:
S101、任务分配接口模块
任务分配接口模块在经过允入判定后,为互联网工人分配任务列表,具体实现方式如下:
S1011、通过允入检验判断是否允许工人参与项目
允入检验包含但不限于是否满足工人质量条件、是否允许参与项目多个阶段等一种或多种可选设定条件;当不满足时会返回相应的异常响应窗口,不予参与。
S1012、检查尚未完成任务队列是否为空
当工人被允许加入项目后,系统会优先调用该工人该项目上的已有任务队列作为任务列表,跳转至步骤S1014;若没有尚未完成的任务记录,调用任务分配接口进行任务分配。
S1013、通过尚未完成任务列表和任务分配列表分配任务的交集,构建任务队列
其中,尚未完成任务列表,是指:该工人尚未进行收集或标注的任务所组成的集合,已经完成的任务不再重复发布给该工人。
其中,任务分配列表,是指:由任务分配模块接口基于当前项目情况提供的仍需收集或标注的任务列表,该部分任务亟需工人完成;该部分由众包质量控制算法路由模块提供指定的任务分配算法,并进行任务分配。
通过取交集的方式,获取同时满足两者条件的任务列表,存储入该工人在该项目的任务队列,为工人分配相应的任务。
S1014、发布任务队列的第一个任务给工人
获取任务队列的第一个任务,并根据其任务类型调用相应众包任务框架中的准备展示功能;通过GET请求发送给用户相应的响应界面。
S102、工人作答接口模块
工人在收到服务器传来的任务后,提供合适的数据文件并标注正确的标签,服务器在收到工人上传的数据后,予以处理并持久化至数据库,并返回成功的响应,具体实现方式如下:
S1021、工人完成指定的任务作答
模块通过设计注释、新手教程等引导,基于方便简练的工人收集或标注页面,帮助工人更好地规范地完成指定任务。
S1022、服务器收集并持久化工人完成的作答
模块通过POST方法获取工人提交的收集或标注信息,并将其按照数据库数据表的格式存储至对应项目中,并返回成功的响应。
S103、真值推理接口模块
模块读取项目当前的信息,调用众包质量控制算法路由模块获取真值推理方法,进行推理并更新数据库项目的答案聚合结果,判断并标注该项目该阶段是否已经完成,具体实现方式如下:
S1031,读取项目当前的信息
从数据库读取该项目所有数据,并按照众包处理管线接口实现模块所提供的方法为众包质量控制算法路由模块的真值推理方法提供参数。
S1032、经由众包质量控制算法路由模块获取真知推理算法
在众包质量控制算法路由模块中,根据项目指定的算法获取与其对应的方法函数。
S1033、根据真值推理算法推理项目并持久化答案聚合结果
基于统一范式实现传统众包质量算法具有相同的数据参数与返回类型,调用方法推理项目,并根据众包任务处理框架持久化数据。
S1034、判断并标注该项目该阶段是否已经完成
读取当前所显示的众包各任务完成度信息,判断项目当前阶段是否完成;若已完成,执行析构操作,进入项目的下一阶段。
其中,析构操作是指:项目该阶段完成的后处理,该过程调用众包任务处理框架设定的析构函数。
其中,析构函数包含但不限于以下步骤:清空该阶段该项目的所有任务队列;将项目状态调整到下一阶段;为下一阶段整理本阶段的结果数据作为下一阶段的输入数据。
S104、激励分配接口模块
具体地,当且仅当项目跳转至结束状态时,即当完成了项目所有任务时,此模块才会被调用;项目进入不可进入状态,由众包质量控制算法模块调用激励分配算法,为工人分配奖励。
本部分展示了基于统一的众包任务处理管线的简单实现。首先,在互联网工人在经过任务分配接口模块允入判定后,众包平台为其分配任务列表,之后平台调用工人作答接口模块分发并收集工人作答,整理并持久化入数据库中,然后调用众包质量控制算法路由模块获取真值推理方法,进行推理并更新数据库项目的答案聚合结果,最后根据项目实际推理结果判断是否阶段完成、项目完成,并进行相应的后续处理。本案例展示了众包任务处理管线的针对不同任务统一性,以及针对不同任务框架提供的接口,能够良好的兼容多种任务的处理过程。
二、众包任务处理接口
整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;图4是众包任务处理接口的示意图,如图4所示,众包任务处理接口包括:
S201、众包质量控制算法路由模块
针对不同的任务类型以及任务发布者的项目设定,为众包处理管线接口实现模块提供指定的算法方法函数;为不同的任务类型,提供相应的众包任务处理页面及数据收集与持久化方法,具体实现方式如下:
S2011、为统一的众包任务处理管线提供相应的算法
提供相应的质量控制算法,在本实施例中,包括任务分配算法、真值推理算法、激励分配算法;本步骤将为管线提供算法的方法函数。
S2012、提供相应的众包任务处理页面及数据收集与持久化方法
众包任务处理页面是指:根据项目类型,在统一的众包任务处理管线中,由步骤S1014向互联网工人提供的任务处理页面。
数据收集与持久化方法是指:根据项目类型,在统一的众包任务处理管线由步骤S1021与S1022的收集处理方法。
S202、众包质量控制算法模块
本模块提供了真值推理、任务分配、激励分配的算法接口以及一些基础的实现实例,具体实现方式如下:
S2021、真值推理算法接口及其实现
真值推理算法接口包含初始化方法、推理算法在内的算法接口。
初始化方法是指:接受当前项目数据矩阵,其中每一元素表示第/>对象对/>各任务标注为/>标签,可选值为1/0,分别表示工人标注与否(1/0分别表示是与否,下同)。
推理算法是指:用户指定的推理算法,其对数据进行挖掘,从而分析出标签边缘概率、工人混淆矩阵,工人质量,任务真值一种或多种真值推理结果。
以简单的算法为例,本实施例搭载了基础的David&Skene算法(1979),即DS算法;算法通过M-step获取当前任务下的真值标签,再由E-step使用极大似然估计估测工人质量和混淆矩阵,以此反复进行M-Step、E-Step直至收敛,可以推测出众包项目的标签边缘概率、工人混淆矩阵、工人质量、任务真值信息。
本实施例接口支持众多真值推理算法,像多数投票算法、EM算法等,以及众多更先进的真值推理算法,无法做到一一枚举,使用者或二次开发者可根据实际需求上传或更新指定方法。
S2022、任务分配接口及其实现
任务分配算法接口是指:包含初始化方法、任务分配算法在内的算法接口。
初始化方法是指:接受数据库读取的各任务真值、该阶段工人质量/>、项目数据矩阵/>,其中/>表示第/>个任务以当前推理结果是否具有/>标签,/>表示第/>个工人的质量,/>
任务分配算法是指:分析当前最应分配给工人的任务,并返回至多前10个可能的任务列表;其中,最应分配给工人的任务是指:根据任务分配算法,选取最不确定的任务组成列表;最不确定的任务可以使用信息熵、KL散度等信息衡量。
以简单的算法为例,本实施例搭载了基础的multi-choose算法,即多项选择算法;通过计算每一任务中,在各自工人质量下,以其提交的众包标记分布逼近真值的难度(即工人标注分布与推理结果的KL散度),按难度从大到小排列,返还未达到收敛阈值的众包任务列表。
本实施例接口支持众多任务分配算法,像随机选择算法等,无法做到一一枚举,使用者或二次开发者可根据实际需求上传或更新指定方法。
S2023、激励分配算法接口及其实现
激励分配算法接口包含初始化方法、激励分配算法在内的算法接口。
初始化方法是指:接受数据库读取的所有阶段工人质量、工人阶段完成任务数/>以及按照相应的任务处理框架规定项目阶段的分配比例/>;其中,工人质量/>表示工人/>在第/>阶段中的质量,参与阶段/>表示工人/>参与了第/>阶段完成的任务数,/>表示第/>阶段的激励比重,主要用于均衡不同阶段取得相同质量的难易程度,比重越高表示难度越大,应给予更多奖励。
激励分配算法是指:根据用户指定的激励分配算法,对每个人计算对项目做出的贡献,并根据结果发放奖励。
以一种基于均衡分配的简单激励分配策略为例,获取工人的众包质量及其完成的任务数,根据其质量和完成的任务数获取其贡献比例,对于所有工人,按照贡献占比分配该阶段所有奖励,各阶段的奖励由任务发布者指定;以下为一种可能的实现方式:
其中,表示第i个工人的工人质量,/>表示第i个工人所完成的任务数,/>为该工人的最终的贡献系数;下式给出了由贡献系数百分比计算工人实际获得的激励数额的实现方式:
其中,表示参与项目的工人总数,/>表示项目预算,由任务发布者在项目的基础信息中设置,/>表示第i个工人实际的获取的激励数额。
案例接口支持众多激励分配算法,无法做到一一枚举,使用者或二次开发者可根据实际需求上传或更新指定方法。
本部分展示了众包任务处理接口的简单实现。通过定义任务分配算法接口、真值推理算法接口、激励分配策略接口,实现了多种众包质量控制算法的规范化统一化。统一的众包任务处理管线通过调用相应的接口,由众包质量控制算法路由模块获取对应算法的方法函数,即可通过方法调用完成相应的众包功能。通过众包任务处理接口的配置,生物数据众包平台系统得以支持多种质量空算法的搭载,便于任务发布者基于需求设置相应的众包质量控制方法。
三、不同任务的处理框架
具备多种不同众包任务类型的处理框架,支持所述众包任务处理管线及众包任务处理接口的运行;所有任务处理框架可追溯继承自同一处理框架接口,其包括若干抽象方法:任务分配抽象方法、真值推理抽象方法、激励分配抽象方法、工人回答处理抽象方法、析构抽象方法、结束判断抽象方法、结果展示方法和允入方法。
图5是不同任务的处理框架泳道图,如图5所示,不同的任务处理框架包括:
S301、收集型处理框架
收集型处理框架包含统一的若干抽象方法的重写实现方法,具体实现方式如下:
S3011、允入方法
设置为:允许所有用户参与项目
S3012、任务分配方法
设置为:获取并返回达到收集需求进度百分比最少的任务集合。
S3013、工人回答处理方法
设置为:收集工人上传的文件以及给文件的标注和评论,存写入数据库。
S3014、真值推理方法
设置为:空,即不进行推理。
S3015、结束判断方法
设置为:是否所有任务达到收集需求。
S3016、析构方法
设置为:清空各个用户在该项目该阶段所有的任务队列,将该项目状态切换到下一状态。
S3017、激励分配方法
设置为:为每个工人按照众包任务处理接口中激励分配算法提供相应的报酬。
S3018、结果展示方法
设置为:展示参与的工人列表,并提供参与工人所上传的数据文件以及相应的下载链接。
S302、标注型处理框架
包含统一的若干抽象方法的重写实现方法,具体实现方式如下:
S3021、允入方法
设置为:允许所有用户参与项目
S3022、任务分配方法
设置为:根据众包质量控制算法路由模块提供的任务分配策略获取任务分配方法,分配并返回任务集合。
S3023、工人回答处理方法
设置为:收集工人的分类结果、标注结果、评论结果,并将其存入数据库;特别地,对于标注结果如命名实体标注结果,应当保留其命名实体类别、框选左上角顶点像素坐标、框选宽高、旋转角等特征信息。
S3024、真值推理方法
设置为:读取数据库中各个工人的分类结果、标注结果、评论结果;首先根据分类结果,生成当前项目数据矩阵,根据众包质量控制算法路由模块提供的任务分配策略获取任务分配方法,进行真值推理,并存储结果至数据库;具体地,存储的结果包括:任务推理真值、工人质量、工人混淆矩阵、各个标签边缘概率分布。
S3025、结束判断方法
设置为:任务分配方法是否返回空列表
S3026、析构方法
设置为:清空各个用户在该项目该阶段所有的任务队列,将该项目状态切换到下一状态;根据真值推理结果,推测命名实体位置,并存储推测结果以及工人质量。
其中,推测命名实体位置具体包括:读取每一众包任务中包含于推理结果的命名实体标注,记为数据点(根据S3023中存储的方式,每个工人可能会标注多个相同类别的数据点)。之后将每一个任务中的数据点进行分层聚类并作高斯平均,得到命名实体标注的推理结果,具体包括如下策略:
S30261、分层聚类
在单一任务中,针对单一推理结果类别,以所有数据点的中心点位置为参考聚类,使用轮廓系数法获取聚类个数,合并过于接近的聚类簇(设置为0.1个单位宽高,以图片宽高为单位1),生成聚类中心/>并完成聚类。
S30262、高斯平均
在单一任务中,针对单一推理结果类别,计算数据点距离各自聚类中心的欧几里得距离,并根据高斯函数计算权重/>,其计算公式如下:
根据距离,依次推断出宽高属性,对于宽高属性向量,其推测结果应当为:
同样的方法可以以中心点坐标与宽高组成四维向量,推测旋转角等其他属性,不再一一赘述。
其中,工人质量的计算方式,可以计算其标注与推理标注/>的距离设定;具体的,计算工人标注与推定标注高斯权重/>,以此设计函数可以评价工人的质量,以下给出一例:
其中,分母表示所有点的高斯权重,分子表示该工人该标注的高斯权重;表示该工人标注的第/>个数据点。
S3027、激励分配方法
设置为:为每个工人按照众包任务处理接口中激励分配算法提供相应的报酬。
S3028、结果展示方法
设置为:展示每一任务的标注结果,并展示其分类类别,提供下载。
S303、文本修订处理框架Find-Fix过程
文本修订包括Find-Fix和Verify两个过程,本部分讲述本实施例中的Find-Fix过程,Verify过程在S304中展示。
S3031、允入方法
设置为:允许所有用户参与项目
S3032、任务分配方法
设置为:获取并返回达到修订进度百分比最少的任务集合。
S3033、工人回答处理方法
设置为:收集工人的修订结果,存写入数据库;具体的,每一众包工人须针对最小修订子句进行修订,存储工人、修订位置(第几段,第几句)、修订内容等修订信息;其中最小修订子句为语段中以句号、问号、感叹号等分隔的语句。
S3034、真值推理方法
设置为:空,即不进行推理。
S3035、结束判断方法
设置为:是否所有任务达到修订需求。
S3036、析构方法
设置为:清空各个用户在该项目该阶段所有的任务队列,将该项目状态切换到下一状态,然后整理Find-Fix工人的修订结果;具体的,获取所有修订过的最小修订子句,依据位置信息从小到大排序生成Verify任务标号,Verify过程将对这些任务集合进行验证。
S3037、激励分配方法
设置为:空,项目未完成暂不分配
S3038、结果展示方法
设置为:空,项目未完成暂不展示
S304、文本修订处理框架Verify过程
该部分基于上述Find-Fix过程进行验证,对已做出的修订进行验证,具体包括以下方法步骤:
S3041、允入方法
设置为:允许未参与过Find-Fix工人参与项目。
S3042、任务分配方法
设置为:根据众包质量控制算法路由模块提供的任务分配策略获取任务分配方法,分配并返回任务集合。
S3043、工人回答处理方法
设置为:收集并存储工人选择的针对Verify任务标号选择的最合适修订方案;具体地,存储工人选择的修订方案,若提出了新的修订方案,则额外地将该工人针对该任务标号的修订结果存入Find-Fix步骤中的存储表中。
S3044、真值推理方法
设置为:读取数据库中各个工人的验证结果,额外读取在Verify过程中提出新修订的方案,生成当前项目数据矩阵;根据众包质量控制算法路由模块提供的任务分配策略获取任务分配方法,推理并存储结果至数据库;具体的,存储的结果包括任务推理真值、工人质量、各个标签边缘概率分布。
S3045、结束判断方法
设置为:任务分配方法是否返回空列表。
S3046、析构方法
设置为:清空各个用户在该项目该阶段所有的任务队列,将该项目状态切换到下一状态,将真值推理结果中的工人质量以及部分提出的新修订思路的标签概率确定为Verify工人质量;将标签概率确定为Find-Fix工人质量,拼接修订结果。
S3047、激励分配方法
设置为:为每个工人按照众包任务处理接口中激励分配算法提供相应的报酬。
S3048、结果展示方法
设置为:展示文本修订结果,并提供工人质量,提供数据下载。
本部分展示了不同的任务处理框架的简单实现。生物医学数据众包平台系统包括收集型处理框架、收集型处理框架、文本修订型处理框架,通过框架组合能够处理该领域的大部分任务。如:转录任务(如描述CT影像的诊断结果),可以采用收集任务确定模板,再使用文本修订任务完成语义确定;医学实体标注任务(如为NLP项目标注医学实体),可以使用某一规范对原文进行标注,其标注的过程本质上也是文本修订的一种呈现方式(如“糖尿病”关键词可以标注为[糖尿病]dis),使用文本修订框架亦可完成指定工作等等。本部分能够很好地契合统一的众包任务处理管线和众包任务处理接口,构成一个有机整体,组成了能够支持多种数据、搭载多种算法模型、高效统一的生物医学数据众包平台系统。
实施例二
在一个或多个实施例中,公开了一种基于生物医学众包平台的数据收集标注系统,基于生物医学众包平台构建,包括项目创建模块、项目分拣模块、众包控制模块和结果返回模块:
项目创建模块,被配置为:接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
项目分拣模块,被配置为:根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
众包控制模块,被配置为:接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
结果返回模块,被配置为:当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包;
其中,所述生物医学众包平台采用三层架构:
众包任务处理管线,其被配置为:接受并处理工人参与项目的请求,聚合并返回众包项目质量控制的结果;
众包任务处理接口,其被配置为:整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;
不同任务的处理框架,其被配置为:具备多种不同众包任务的处理框架,支持所述众包任务处理管线及众包任务处理接口的正确运行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于生物医学众包平台的数据收集标注方法,其特征在于,在生物医学众包平台上执行以下步骤:
接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包;
其中,所述生物医学众包平台采用三层架构:
众包任务处理管线,其被配置为:接受并处理工人参与项目的请求,聚合并返回众包项目质量控制的结果;
众包任务处理接口,其被配置为:整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;
不同任务的处理框架,其被配置为:具备多种不同众包任务类型的处理框架,支持所述众包任务处理管线及众包任务处理接口的运行。
2.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所述任务分配,具体为:
通过允入检验判断是否允许工人参与项目,允入检验包含但不限于是否满足工人质量条件、是否允许参与项目多个阶段;
检查尚未完成任务队列是否为空,构建尚未完成任务列表和任务分配列表,通过两个列表取交集的方式,构建任务队列;
发布任务队列的第一个任务给工人;
其中,任务分配列表,是根据众包质量控制算法中的任务分配算法,选取最不确定的任务组成列表,最不确定的任务使用包括但不限于信息熵、KL散度指标进行衡量。
3.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所述工人作答,具体为:
工人在收集标注页面,完成指定的任务作答;
服务器获取工人提交的收集或标注信息并数据持久化。
4.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所述真值推理,具体为:
利用众包质量控制算法中的真知推理算法,对项目当前的信息进行挖掘和推理,分析出包括标签边缘概率、工人混淆矩阵、工人质量、任务真值的真值推理结果。
5.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所述激励分配,具体为:
根据众包质量控制算法中的激励分配算法,对每个工人计算对项目做出的贡献,并根据结果发放奖励。
6.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所述结束条件,具体为:
根据众包各任务完成度信息,判断项目是否满足以下条件:达到收集要求、任务分配为空、达到修订要求。
7.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所述众包任务处理管线,包括:
任务分配接口模块,其被配置为:基于众包质量控制算法中的任务分配算法接口方法,针对不同的众包任务,读取当前项目数据信息,为任务分配算法提供项目推理信息;
工人作答接口模块,其被配置为:基于任务分配模块分配的任务,收集并处理工人针对该任务修订的数据信息;将工人回答数据持久化存储,便于后续众包质量控制;
真值推理接口模块,其被配置为:基于众包质量控制算法中的真值推理算法接口方法,针对不同的众包任务,读取当前项目数据信息,为真值推理算法提供项目推理信息;
激励分配接口模块,其被配置为:在项目结束时,基于众包质量控制算法中的激励分配算法接口方法,汇总工人回答的真值推理结果,根据激励分配算法基于工人的质量和回答情况提供激励回馈。
8.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所说众包任务处理接口,包括:
众包质量控制算法模块:基于统一范式实现传统众包质量算法,囊括多种真值推理算法、任务分配策略、激励分配策略具体算法,提供众包任务处理接口的算法支持;
众包质量控制算法路由模块:针对不同的众包任务类型以及任务发布者设置的众包质量控制算法,为众包质量控制算法模块提供指定的算法方法函数;为不同的众包任务类型,提供相应的众包任务处理页面及数据收集与持久化方法。
9.如权利要求1所述的一种基于生物医学众包平台的数据收集标注方法,其特征在于,所述不同任务的处理框架,包括:
收集型处理框架:基于众包任务处理接口,向工人收集数据文件、文件所包含的可选标签类别、文件的评论;
标注型处理框架:基于众包任务处理接口,收集工人选定的标签、标注实体、评论,聚合收集的数据并返回真值推理结果;
文本修订型处理框架:基于众包任务处理接口,采用一种改进的FF-V文本修订框架进行包含Find-Fix与Verify两个阶段的众包质量控制,聚合并返回推理得到的文本修订信息。
10.一种基于生物医学众包平台的数据收集标注系统,其特征在于,基于生物医学众包平台构建,包括项目创建模块、项目分拣模块、众包控制模块和结果返回模块:
项目创建模块,被配置为:接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
项目分拣模块,被配置为:根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
众包控制模块,被配置为:接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
结果返回模块,被配置为:当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包;
其中,所述生物医学众包平台采用三层架构:
众包任务处理管线,其被配置为:接受并处理工人参与项目的请求,聚合并返回众包项目质量控制的结果;
众包任务处理接口,其被配置为:整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;
不同任务的处理框架,其被配置为:具备多种不同众包任务的处理框架,支持所述众包任务处理管线及众包任务处理接口的正确运行。
CN202311090898.1A 2023-08-29 2023-08-29 一种基于生物医学众包平台的数据收集标注方法及系统 Active CN116825212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311090898.1A CN116825212B (zh) 2023-08-29 2023-08-29 一种基于生物医学众包平台的数据收集标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311090898.1A CN116825212B (zh) 2023-08-29 2023-08-29 一种基于生物医学众包平台的数据收集标注方法及系统

Publications (2)

Publication Number Publication Date
CN116825212A true CN116825212A (zh) 2023-09-29
CN116825212B CN116825212B (zh) 2023-11-28

Family

ID=88139504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311090898.1A Active CN116825212B (zh) 2023-08-29 2023-08-29 一种基于生物医学众包平台的数据收集标注方法及系统

Country Status (1)

Country Link
CN (1) CN116825212B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
WO2018000269A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
KR102156584B1 (ko) * 2020-04-08 2020-09-17 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트를 활용한 작업 보상형 광고 제공 방법
CN112148986A (zh) * 2020-10-09 2020-12-29 安徽大学 一种基于众包的top-N服务再推荐方法及系统
KR20210058127A (ko) * 2019-11-13 2021-05-24 김은수 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템
CN113947270A (zh) * 2020-07-17 2022-01-18 深圳莫比嗨客树莓派智能机器人有限公司 一种用于提高众包任务标注质量的方法
CN115130888A (zh) * 2022-07-11 2022-09-30 山东大学 一种基于自步学习的众包任务分配方法及系统
CN115983606A (zh) * 2023-02-13 2023-04-18 网易(杭州)网络有限公司 众包任务库的更新方法、系统及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
WO2018000269A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
KR20210058127A (ko) * 2019-11-13 2021-05-24 김은수 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템
KR102156584B1 (ko) * 2020-04-08 2020-09-17 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트를 활용한 작업 보상형 광고 제공 방법
CN113947270A (zh) * 2020-07-17 2022-01-18 深圳莫比嗨客树莓派智能机器人有限公司 一种用于提高众包任务标注质量的方法
CN112148986A (zh) * 2020-10-09 2020-12-29 安徽大学 一种基于众包的top-N服务再推荐方法及系统
CN115130888A (zh) * 2022-07-11 2022-09-30 山东大学 一种基于自步学习的众包任务分配方法及系统
CN115983606A (zh) * 2023-02-13 2023-04-18 网易(杭州)网络有限公司 众包任务库的更新方法、系统及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIANGPING KANG,GUOXIAN YU, ET AL: "Crowdsourcing with Self-paced Workers", 《2021 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》, pages 280 - 289 *
刘文卓: "众包文本标注系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2023, no. 01, pages 138 - 3465 *
李贞 等: "基于众包模式的数据采集和标注系统研究", 《大众科技》, vol. 2021, no. 10, pages 15 - 18 *
郑文婕;张敬谊;李静;佘盼;: "医疗语义众包标注平台设计和应用研究", 医学信息学杂志, vol. 41, no. 07, pages 49 - 52 *

Also Published As

Publication number Publication date
CN116825212B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
Saelens et al. A comparison of single-cell trajectory inference methods
Depaoli et al. Just another Gibbs sampler (JAGS) flexible software for MCMC implementation
CN110070391B (zh) 数据处理方法、装置、计算机可读介质及电子设备
US20150324548A1 (en) Medication delivery system
US10885448B2 (en) Usability data analysis platform
US20140108103A1 (en) Systems and methods to control work progress for content transformation based on natural language processing and/or machine learning
KR20200126103A (ko) 온라인 글쓰기 교육을 위한 빅데이터 구축 방법
Lu et al. A survey of group decision making methods in Healthcare Industry 4.0: bibliometrics, applications, and directions
Buriboev et al. Application of fuzzy logic for problems of evaluating states of a computing system
Nazarian-Jashnabadi et al. A dynamic expert system to increase patient satisfaction with an integrated approach of system dynamics, ISM, and ANP methods
Amin A systematic approach for selecting lean strategies and assessing leanness in manufacturing organizations
Naik et al. Will the future of knowledge work automation transform personalized medicine?
Kaliisa et al. Teachers’ perspectives on the promises, needs and challenges of learning analytics dashboards: Insights from institutions offering blended and distance learning
CN116825212B (zh) 一种基于生物医学众包平台的数据收集标注方法及系统
Matentzoglu et al. Phenotype Ontologies Traversing All The Organisms (POTATO) workshop aims to reconcile logical definitions across species. Workshop Report
Micić et al. Knowledge acquisition in information technology and software engineering towards excellence of information systems based on the standardisation platform
Paton Managing and sharing experimental data: standards, tools and pitfalls
Vila et al. Effect of visualization on the decision maker when using analytic hierarchy process
CN115759862A (zh) 预约揽件服务考核方法、装置、设备及存储介质
AbuSalim et al. Analyzing the impact of assessing requirements specifications on the software development life cycle
Farshadi et al. A FRAMEWORK FOR RANKING CRITICAL SUCCESS FACTORS OF BUSINESS INTELLIGENCE BASED ON ENTERPRISE ARCHITECTURE AND MATURITY MODEL.
Allioui et al. The Financial Sphere in the Era of Covid-19: Trends and Perspectives of Artificial Intelligence
Odeh et al. Prioritizing Use Cases: A Systematic Literature Review
Ahmad et al. Requirements framework for engineering human-centered artificial intelligence-based software systems
Öhlund Interoperability Capability to interoperate in a shared work practice using information infrastructures: studies in ePrescribing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant