CN117763349A - 基于机器学习与区块链的大规模数据智能标注系统 - Google Patents
基于机器学习与区块链的大规模数据智能标注系统 Download PDFInfo
- Publication number
- CN117763349A CN117763349A CN202311673625.XA CN202311673625A CN117763349A CN 117763349 A CN117763349 A CN 117763349A CN 202311673625 A CN202311673625 A CN 202311673625A CN 117763349 A CN117763349 A CN 117763349A
- Authority
- CN
- China
- Prior art keywords
- labeling
- data
- module
- model
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 268
- 238000010801 machine learning Methods 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 37
- 238000007689 inspection Methods 0.000 claims abstract description 31
- 230000003993 interaction Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 45
- 238000010276 construction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 210000001503 joint Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012827 research and development Methods 0.000 abstract description 3
- 239000012634 fragment Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于机器学习与区块链的大规模数据智能标注系统,包括客户端模块、标注端模块、评估端模块、安全端模块、绩效管理模块、数据获取模块、质检审核模块、类别标注模块、特征标注模块、人工数据标注结果输出模块、交互模块和任务分发模块。本发明通过智能标注方式进行大规模数据集标注,同时利用智能合约确保数据安全和参与各方互信,以此快速满足人工智能企业对大量高精度数据的需求,在保证数据精度情况下,最大限度减少数据标注时间,为人工智能企业缩短研发周期,建造以图像、音频为主的无监督学习平台,促进无人驾驶、智能安防、智能家居等领域人工智能产品的落地。
Description
技术领域
本发明涉及数据智能标注技术领域,具体为基于机器学习与区块链的大规模数据智能标注系统。
背景技术
人工智能的三大支柱:算法、算力、数据,数据作为人工智能企业的核心要素之一,保障数据安全是首位,通过第三方数字证书认证中心为参与众包任务的每一个参与者提供唯一的身份证书,只有持有数字证书的人才能接触到所对应的数据,最大程度保障数据不泄露。
企业发出的数据需求往往庞大而且复杂,涉及多个数据类型,因此不仅需要对项目进行拆分,还需要匹配到对应能力的人,通过智能管理,不仅能将庞大的需求量快速消化,而且能精准匹配参与者,实现任务高效、高标准完成。
对此,本发明旨在提供一种在保证数据精度情况下,最大限度减少数据标注时间,为人工智能企业缩短研发周期的大规模数据智能标注系统。
发明内容
本发明目的是提供基于机器学习与区块链的大规模数据智能标注系统,以解决上述背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:基于机器学习与区块链的大规模数据智能标注系统,包括客户端模块、标注端模块、评估端模块、安全端模块、绩效管理模块、数据获取模块、质检审核模块、类别标注模块、特征标注模块、人工数据标注结果输出模块、交互模块和任务分发模块;
所述客户端模块包括任务收发系统,用于发布标注任务和接受标注完成后的数据;
所述标注端模块包括标注和质检系统,用于接受客户端发出的任务,并进行数据标注和数据质检;
所述评估端模块包括标注评估系统,用于评估众包标注质量,反馈评估报告给客户端和标注端;
所述安全端模块包括身份注册和认证系统,用于人员身份注册和第三方CA数字认证中心对接,进行相应的人员认证和安全保障;
所述数据获取模块用于获取所述输入图像、和/或所述模型辅助数据标记结果;
所述特征标注模块连接数据获取模块,用于将所述输入图像、和/或模型辅助数据标记结果通过一人机交互界面提供给所述标注人员,并提示标注人员在输入数据、和/或模型辅助数据标记结果中以特征标注方式标注出关联于待标注对象的多个特征,得到特征标注结果并存储;
所述类别标注模块连接特征标注模块,用于提供给标注人员对各特征进行对应的类别标注,得到一类别标注结果;
所述人工数据标注结果输出模块分别连接特征标注模块、类别标注模块、任务分发模块和质检审核模块,用于将特征标注结果、和/或类别标注结果、和/或纠正标注结果、和/或质检审核结果作为人工数据标注结果并输出;
所述交互模块分别连接数据获取模块、特征标注模块、类别标注模块、任务分发模块、质检审核模块和人工数据标注结果输出模块,用于实现人工标注子系统与标注人员以及与质检审核人员的人机交互;
所述绩效管理模块分别连接特征标注模块、类别标注模块、任务分发模块和质检审核模块,用于对各标注人员和各质检审核人员进行工作绩效管理;
所述质检审核模块用于对标注进行质检;
所述任务分发模块分别连接客户端模块和标注端模块,用于将客户端模块的任务分发至标注端模块。
优选的,所述大规模数据智能标注系统的逻辑架构构建方法如下:
S1,利用云端中心区块链基础设施资源,形成P2P共识网络;
S2,在P2P共识网络中选出管理节点、背书节点和记账节点,并由第三方数字书认证中心发放数字证书,实现节点间的互信;
S3,数据标注任务发布者、数据标注机构、数据标注员、数据标注质检员或机器质检员在云端中心进行注册,提交其基本信息;
S4,云端中心进行审核,审核通过后由三方数字证书认证中心发放的数字证书,并进行相应的代币发放;
S5,数据标注需求方通过数据标注任务平台,发布数据标注任务,其中包含对于数据标注的存储位置、鉴权方式、标注数据数量、标注内容以及计费标准,同时发布数据标注任务智能合约,将任务记录到区块链中;
S6,数据标注任务平台动态分配数据标注任务,由数据标注员接收任务并产生数据标注子任务智能合约;
S7,数据标注员根据标注要求,下载数据;
S8,标注人员对模型辅助标注结果进行进一步的人工标注,得到人工数据标注结果;
S9,数据标注员将标注后数据上传,触发数据标注子任务智能合约的进行;
S10,智能标注系统根据标注数据结果,产生众包标注评估任务及相应的智能合约;
S11,智能标注系统随机的将评估任务进行分发,由人工质检员进行评估;
S12,机器质检员将利用其模型标注差异点,进行质量打分;
S13,质检员将打分结果反馈给智能标注系统;
S14,云端中心选择最典型的样本重新标注,同时完成任务的评估;
S15,智能合约将在区块链基础设施P2P网络中广播,自动检查代币余额,余额不足则终止合约;
S16,智能合约将自动根据合约内容执行,背书节点收集到足够的背书交由记账节点达成共识,生成新区块,按照预先设定的计费规则完成代币扣款;
S17,区块链参与节点通过P2P共识网络获取最新区块链数据,更新各自本地账本记录;
S18,数据标注任务发布方获得标注结果,用于其模型的训练。
优选的,所述大规模数据智能标注系统的技术架构是基于机器学习与区块链的模型辅助和智能分配数据标注任务系统,用于对输入图像、音频数据进行数据标注。
优选的,所述技术架构通过海量标注数据进行深度学习训练,针对业务领域形成预测模型,并且提供数据标注任务平台,实现任务的分配和管理,同时提供区块链服务,在一个P2P共识网络中建立区块链基础设施,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;
同时利用模型辅助标注子系统,用于基于训练形成的辅助标注模型自动对输入数据进行数据标注,并得到模型辅助数据标注结果并存储,模型辅助标注子系统还用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果为训练样本,训练得到辅助标注模型。
优选的,所述技术架构还通过第三方数字证书认证中心为参与众包任务的各个参与方提供身份证书及通信安全认证服务。
优选的,所述智能标注系统将图像和音频数据标注进行结合,通过采用不同的模型辅助子系统实现对图像和音频数据的高效、准确标注,所述模型辅助子系统的构建系统包括超参策略选择模块、网络架构选择模块、模型训练模块、模型评价模块、模型推理模块和模型辅助数据标注模块。
优选的,所述超参策略选择模块,用于提供给一模型训练模块选择训练辅助标注模型所需的超参数;
所述网络架构选择模块,用于提供给模型训练模块选择训练辅助标注模型所需的网络架构;
所述模型训练模块,分别连接超参策略选择模块和网络架构选择模块,用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果作为训练样本,并基于所选的各超参数和对应的网络架构,训练得到多个辅助标注模型;
所述模型评价模块,连接模型训练模块,用于对各辅助标注模型进行模型评价,最终确定用于对输入图像进行数据标注的最优的辅助标注模型;
所述模型推理模块,连接模型评价模块,用于将最优的辅助标注模块推送给模型辅助数据标注模块;
所述模型辅助数据标注模块,连接模型推理模块,用于基于最优的辅助标注模型自动对输入数据进行数据标注,并得到模型辅助数据标注结果并存储。
本发明至少具备以下有益效果:
本发明提供的基于机器学习与区块链的大规模数据智能标注系统,通过智能标注方式进行大规模数据集标注,同时利用智能合约确保数据安全和参与各方互信,以此快速满足人工智能企业对大量高精度数据的需求,在保证数据精度情况下,最大限度减少数据标注时间,为人工智能企业缩短研发周期,建造以图像、音频为主的无监督学习平台,促进无人驾驶、智能安防、智能家居等领域人工智能产品的落地。
附图说明
图1为本发明的大规模数据智能标注系统模块图;
图2为本发明大规模数据智能标注系统的逻辑架构构建方法流程图;
图3为本发明的技术架构图;
图4为本发明中模型辅助子系统的构建系统模块图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
如图1所示,基于机器学习与区块链的大规模数据智能标注系统,包括客户端模块、标注端模块、评估端模块、安全端模块、绩效管理模块、数据获取模块、质检审核模块、类别标注模块、特征标注模块、人工数据标注结果输出模块、交互模块和任务分发模块;
客户端模块包括任务收发系统,用于发布标注任务和接受标注完成后的数据;
标注端模块包括标注和质检系统,用于接受客户端发出的任务,并进行数据标注和数据质检;
评估端模块包括标注评估系统,用于评估众包标注质量,反馈评估报告给客户端和标注端;
安全端模块包括身份注册和认证系统,用于人员身份注册和第三方CA数字认证中心对接,进行相应的人员认证和安全保障;
数据获取模块用于获取所述输入图像、和/或所述模型辅助数据标记结果;
特征标注模块连接数据获取模块,用于将所述输入图像、和/或模型辅助数据标记结果通过一人机交互界面提供给所述标注人员,并提示标注人员在输入数据、和/或模型辅助数据标记结果中以特征标注方式标注出关联于待标注对象的多个特征,得到特征标注结果并存储;
类别标注模块连接特征标注模块,用于提供给标注人员对各特征进行对应的类别标注,得到一类别标注结果;
人工数据标注结果输出模块分别连接特征标注模块、类别标注模块、任务分发模块和质检审核模块,用于将特征标注结果、和/或类别标注结果、和/或纠正标注结果、和/或质检审核结果作为人工数据标注结果并输出;
交互模块分别连接数据获取模块、特征标注模块、类别标注模块、任务分发模块、质检审核模块和人工数据标注结果输出模块,用于实现人工标注子系统与标注人员以及与质检审核人员的人机交互;
绩效管理模块分别连接特征标注模块、类别标注模块、任务分发模块和质检审核模块,用于对各标注人员和各质检审核人员进行工作绩效管理;
质检审核模块用于对标注进行质检;
任务分发模块分别连接客户端模块和标注端模块,用于将客户端模块的任务分发至标注端模块。
智能标注系统将图像和音频数据标注进行结合,通过采用不同的模型辅助子系统实现对图像和音频数据的高效、准确标注:
①、图像标注:用基于辅助标注模型自动对输入图像进行数据标注,并得到模型辅助数据标注结果并存储;图像标注包括人工标注子系统和模型辅助标注子系统,人工标注子系统连接模型辅助标注子系统,用于将输入图像提供给标注人员进行人工数据标注,并得到第一人工数据标注结果并存储,同时人工标注子系统还用于将模型辅助标注子系统标注的模型辅助数据标注结果提供给第二标注人员,以此对模型辅助数据标注结果进行进一步的人工标注校正,得到第二人工数据标注结果并存储,通过模型辅助数据子系统和人工数据标注结合起来,并根据人工数据标记结果迭代更新辅助标注模型,不仅提高了系统数据标注的效率和准确度,同时还提高了图像识别模型的精度,为实现无监督学习提供有效的助力。
通过模型辅助数据子系统和人工数据标注结合起来,并根据人工数据标记结果迭代更新辅助标注模型,不仅提高了系统数据标注的效率和准确度,同时还提高了图像识别模型的精度,为实现无监督学习提供有效的助力。
②、音频标注:接收待标注的音频数据,获取待标注的音频数据的音频片段,确定音频片段的分类标签,采用预训练的至少一个训练模型对音频片段进行分析,获取每个分类标签对应的多个待训练的音频数据的音频片段,并提取音频片段的特征向量;对至少一个分类标签对应的多个音频片段的特征向量进行训练,得到至少一个分类标签对应的至少一个训练模型,为音频片段对应的待标注的音频数据标注分类标签,通过获取待标注音频数据的音频片段,并经训练模型对音频片段进行分析,并为音频片段对应的待标注的音频数据进行分类标签的标注,实现了音频数据的自动化标注,提高了音频数据标注的效率和准确率。
通过获取待标注音频数据的音频片段,并经训练模型对音频片段进行分析,并为音频片段对应的待标注的音频数据进行分类标签的标注,实现了音频数据的自动化标注,提高了音频数据标注的效率和准确率。
如图4所示,模型辅助子系统的构建系统包括超参策略选择模块、网络架构选择模块、模型训练模块、模型评价模块、模型推理模块和模型辅助数据标注模块:
超参策略选择模块,用于提供给一模型训练模块选择训练辅助标注模型所需的超参数;
网络架构选择模块,用于提供给模型训练模块选择训练辅助标注模型所需的网络架构;
模型训练模块,分别连接超参策略选择模块和网络架构选择模块,用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果作为训练样本,并基于所选的各超参数和对应的网络架构,训练得到多个辅助标注模型;
模型评价模块,连接模型训练模块,用于对各辅助标注模型进行模型评价,最终确定用于对输入图像进行数据标注的最优的辅助标注模型;
模型推理模块,连接模型评价模块,用于将最优的辅助标注模块推送给模型辅助数据标注模块;
模型辅助数据标注模块,连接模型推理模块,用于基于最优的辅助标注模型自动对输入数据进行数据标注,并得到模型辅助数据标注结果并存储。
如图2所示,大规模数据智能标注系统的逻辑架构构建方法如下:
S1,利用云端中心区块链基础设施资源,形成P2P共识网络;
S2,在P2P共识网络中选出管理节点、背书节点和记账节点,并由第三方数字书认证中心发放数字证书,实现节点间的互信;
S3,数据标注任务发布者、数据标注机构、数据标注员、数据标注质检员或机器质检员在云端中心进行注册,提交其基本信息;
S4,云端中心进行审核,审核通过后由三方数字证书认证中心发放的数字证书,并进行相应的代币发放;
S5,数据标注需求方通过数据标注任务平台,发布数据标注任务,其中包含对于数据标注的存储位置、鉴权方式、标注数据数量、标注内容以及计费标准,同时发布数据标注任务智能合约,将任务记录到区块链中;
S6,数据标注任务平台动态分配数据标注任务,由数据标注员接收任务并产生数据标注子任务智能合约;
S7,数据标注员根据标注要求,下载数据;
S8,标注人员对模型辅助标注结果进行进一步的人工标注,得到人工数据标注结果;
S9,数据标注员将标注后数据上传,触发数据标注子任务智能合约的进行;
S10,智能标注系统根据标注数据结果,产生众包标注评估任务及相应的智能合约;
S11,智能标注系统随机的将评估任务进行分发,由人工质检员进行评估;
S12,机器质检员将利用其模型标注差异点,进行质量打分;
S13,质检员将打分结果反馈给智能标注系统;
S14,云端中心选择最典型的样本重新标注,同时完成任务的评估;
S15,智能合约将在区块链基础设施P2P网络中广播,自动检查代币余额,余额不足则终止合约;
S16,智能合约将自动根据合约内容执行,背书节点收集到足够的背书交由记账节点达成共识,生成新区块,按照预先设定的计费规则完成代币扣款;
S17,区块链参与节点通过P2P共识网络获取最新区块链数据,更新各自本地账本记录;
S18,数据标注任务发布方获得标注结果,用于其模型的训练。
如图3所示,本项目是基于机器学习与区块链的模型辅助和智能分配数据标注任务系统,用于对输入图像、音频数据进行数据标注。
通过海量标注数据进行深度学习训练,针对业务领域形成预测模型,并且提供数据标注任务平台,实现任务的分配和管理,同时提供区块链服务,在一个P2P共识网络中建立区块链基础设施,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成。同时利用模型辅助标注子系统,用于基于训练形成的辅助标注模型自动对输入数据进行数据标注,并得到模型辅助数据标注结果并存储,模型辅助标注子系统还用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果为训练样本,训练得到辅助标注模型。
另外,通过第三方数字证书认证中心为参与众包任务的各个参与方提供身份证书及通信安全认证服务。
数据标注任务的整个过程都将以智能合约的形式,利用区块链基础设施写入到区块链中,相较于传统的方式,通过统一的、去中心化的方式,标注任务的支付通过智能合约实现代币自动扣款,减少了人为的干预,有效地解决了任务参与各方的互信问题,保障了行为的完整性和不可篡改性。
以上实施例的前端技术选型如下表所示:
以上实施例的后端技术选型如下表所示:
以上显示和描述了本发明的基本原理、主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.基于机器学习与区块链的大规模数据智能标注系统,其特征在于,包括客户端模块、标注端模块、评估端模块、安全端模块、绩效管理模块、数据获取模块、质检审核模块、类别标注模块、特征标注模块、人工数据标注结果输出模块、交互模块和任务分发模块;
所述客户端模块包括任务收发系统,用于发布标注任务和接受标注完成后的数据;
所述标注端模块包括标注和质检系统,用于接受客户端发出的任务,并进行数据标注和数据质检;
所述评估端模块包括标注评估系统,用于评估众包标注质量,反馈评估报告给客户端和标注端;
所述安全端模块包括身份注册和认证系统,用于人员身份注册和第三方CA数字认证中心对接,进行相应的人员认证和安全保障;
所述数据获取模块用于获取所述输入图像、和/或所述模型辅助数据标记结果;
所述特征标注模块连接数据获取模块,用于将所述输入图像、和/或模型辅助数据标记结果通过一人机交互界面提供给所述标注人员,并提示标注人员在输入数据、和/或模型辅助数据标记结果中以特征标注方式标注出关联于待标注对象的多个特征,得到特征标注结果并存储;
所述类别标注模块连接特征标注模块,用于提供给标注人员对各特征进行对应的类别标注,得到一类别标注结果;
所述人工数据标注结果输出模块分别连接特征标注模块、类别标注模块、任务分发模块和质检审核模块,用于将特征标注结果、和/或类别标注结果、和/或纠正标注结果、和/或质检审核结果作为人工数据标注结果并输出;
所述交互模块分别连接数据获取模块、特征标注模块、类别标注模块、任务分发模块、质检审核模块和人工数据标注结果输出模块,用于实现人工标注子系统与标注人员以及与质检审核人员的人机交互;
所述绩效管理模块分别连接特征标注模块、类别标注模块、任务分发模块和质检审核模块,用于对各标注人员和各质检审核人员进行工作绩效管理;
所述质检审核模块用于对标注进行质检;
所述任务分发模块分别连接客户端模块和标注端模块,用于将客户端模块的任务分发至标注端模块。
2.根据权利要求1所述的基于机器学习与区块链的大规模数据智能标注系统,其特征在于,所述大规模数据智能标注系统的逻辑架构构建方法如下:
S1,利用云端中心区块链基础设施资源,形成P2P共识网络;
S2,在P2P共识网络中选出管理节点、背书节点和记账节点,并由第三方数字书认证中心发放数字证书,实现节点间的互信;
S3,数据标注任务发布者、数据标注机构、数据标注员、数据标注质检员或机器质检员在云端中心进行注册,提交其基本信息;
S4,云端中心进行审核,审核通过后由三方数字证书认证中心发放的数字证书,并进行相应的代币发放;
S5,数据标注需求方通过数据标注任务平台,发布数据标注任务,其中包含对于数据标注的存储位置、鉴权方式、标注数据数量、标注内容以及计费标准,同时发布数据标注任务智能合约,将任务记录到区块链中;
S6,数据标注任务平台动态分配数据标注任务,由数据标注员接收任务并产生数据标注子任务智能合约;
S7,数据标注员根据标注要求,下载数据;
S8,标注人员对模型辅助标注结果进行进一步的人工标注,得到人工数据标注结果;
S9,数据标注员将标注后数据上传,触发数据标注子任务智能合约的进行;
S10,智能标注系统根据标注数据结果,产生众包标注评估任务及相应的智能合约;
S11,智能标注系统随机的将评估任务进行分发,由人工质检员进行评估;
S12,机器质检员将利用其模型标注差异点,进行质量打分;
S13,质检员将打分结果反馈给智能标注系统;
S14,云端中心选择最典型的样本重新标注,同时完成任务的评估;
S15,智能合约将在区块链基础设施P2P网络中广播,自动检查代币余额,余额不足则终止合约;
S16,智能合约将自动根据合约内容执行,背书节点收集到足够的背书交由记账节点达成共识,生成新区块,按照预先设定的计费规则完成代币扣款;
S17,区块链参与节点通过P2P共识网络获取最新区块链数据,更新各自本地账本记录;
S18,数据标注任务发布方获得标注结果,用于其模型的训练。
3.根据权利要求1所述的基于机器学习与区块链的大规模数据智能标注系统,其特征在于,所述大规模数据智能标注系统的技术架构是基于机器学习与区块链的模型辅助和智能分配数据标注任务系统,用于对输入图像、音频数据进行数据标注。
4.根据权利要求3所述的基于机器学习与区块链的大规模数据智能标注系统,其特征在于,所述技术架构通过海量标注数据进行深度学习训练,针对业务领域形成预测模型,并且提供数据标注任务平台,实现任务的分配和管理,同时提供区块链服务,在一个P2P共识网络中建立区块链基础设施,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;
同时利用模型辅助标注子系统,用于基于训练形成的辅助标注模型自动对输入数据进行数据标注,并得到模型辅助数据标注结果并存储,模型辅助标注子系统还用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果为训练样本,训练得到辅助标注模型。
5.根据权利要求4所述的基于机器学习与区块链的大规模数据智能标注系统,其特征在于,所述技术架构还通过第三方数字证书认证中心为参与众包任务的各个参与方提供身份证书及通信安全认证服务。
6.根据权利要求1所述的基于机器学习与区块链的大规模数据智能标注系统,其特征在于,所述智能标注系统将图像和音频数据标注进行结合,通过采用不同的模型辅助子系统实现对图像和音频数据的高效、准确标注,所述模型辅助子系统的构建系统包括超参策略选择模块、网络架构选择模块、模型训练模块、模型评价模块、模型推理模块和模型辅助数据标注模块。
7.根据权利要求6所述的基于机器学习与区块链的大规模数据智能标注系统,其特征在于,所述超参策略选择模块,用于提供给一模型训练模块选择训练辅助标注模型所需的超参数;
所述网络架构选择模块,用于提供给模型训练模块选择训练辅助标注模型所需的网络架构;
所述模型训练模块,分别连接超参策略选择模块和网络架构选择模块,用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果作为训练样本,并基于所选的各超参数和对应的网络架构,训练得到多个辅助标注模型;
所述模型评价模块,连接模型训练模块,用于对各辅助标注模型进行模型评价,最终确定用于对输入图像进行数据标注的最优的辅助标注模型;
所述模型推理模块,连接模型评价模块,用于将最优的辅助标注模块推送给模型辅助数据标注模块;
所述模型辅助数据标注模块,连接模型推理模块,用于基于最优的辅助标注模型自动对输入数据进行数据标注,并得到模型辅助数据标注结果并存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311673625.XA CN117763349A (zh) | 2023-12-07 | 2023-12-07 | 基于机器学习与区块链的大规模数据智能标注系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311673625.XA CN117763349A (zh) | 2023-12-07 | 2023-12-07 | 基于机器学习与区块链的大规模数据智能标注系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117763349A true CN117763349A (zh) | 2024-03-26 |
Family
ID=90311476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311673625.XA Pending CN117763349A (zh) | 2023-12-07 | 2023-12-07 | 基于机器学习与区块链的大规模数据智能标注系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117763349A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109445948A (zh) * | 2018-11-15 | 2019-03-08 | 济南浪潮高新科技投资发展有限公司 | 一种基于智能合约的数据标注众包平台系统及众包数据标注方法 |
CN109740622A (zh) * | 2018-11-20 | 2019-05-10 | 众安信息技术服务有限公司 | 基于区块链通证奖励方式的图像标注任务众包方法及系统 |
CN110880021A (zh) * | 2019-11-06 | 2020-03-13 | 创新奇智(北京)科技有限公司 | 模型辅助式数据标注系统及标注方法 |
-
2023
- 2023-12-07 CN CN202311673625.XA patent/CN117763349A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109445948A (zh) * | 2018-11-15 | 2019-03-08 | 济南浪潮高新科技投资发展有限公司 | 一种基于智能合约的数据标注众包平台系统及众包数据标注方法 |
CN109740622A (zh) * | 2018-11-20 | 2019-05-10 | 众安信息技术服务有限公司 | 基于区块链通证奖励方式的图像标注任务众包方法及系统 |
CN110880021A (zh) * | 2019-11-06 | 2020-03-13 | 创新奇智(北京)科技有限公司 | 模型辅助式数据标注系统及标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109445948A (zh) | 一种基于智能合约的数据标注众包平台系统及众包数据标注方法 | |
Pambudi et al. | The digital revolution of startup matchmaking: Ai and computer science synergies | |
CN109740622A (zh) | 基于区块链通证奖励方式的图像标注任务众包方法及系统 | |
CN110889291B (zh) | 一种基于深度学习和区块链的研报评价方法 | |
JP6426821B2 (ja) | 着想から出版後まで研究論文活動の進行を実行するシステムおよび方法 | |
US20210365867A1 (en) | Method, device and program for controlling specialist platform | |
CN112598547B (zh) | 基于自动生产线的教育题目生成方法、装置和电子设备 | |
CN111949643A (zh) | 基于业务建模的数据处理方法及系统 | |
CN109376167A (zh) | 专家选取方法、装置和服务器 | |
CN113204795A (zh) | 基于联邦数据及联邦服务的数据共享方法及装置 | |
CN108984768A (zh) | 分布链式数据资源目录和索引管理方法 | |
KR20100008387A (ko) | 온라인을 이용한 컨설팅 서비스 제공 방법 | |
CN117763349A (zh) | 基于机器学习与区块链的大规模数据智能标注系统 | |
CN110246063A (zh) | 一种指引案件审理的方法及装置 | |
CN111400529A (zh) | 数据处理方法以及装置 | |
CN116228137A (zh) | 网络核查公司信息方法、装置、电子设备及存储介质 | |
CN110955835A (zh) | 一种基于大数据技术的共享平台信息发布系统 | |
CN115496601A (zh) | 基于区块链的碳中和碳排放量记录的贷款系统及方法 | |
CN112804274B (zh) | 一种财务共享系统及方法 | |
CN111985900B (zh) | 信息处理方法及装置 | |
CN111612321B (zh) | 员工工作配置方法及装置 | |
CN114417859A (zh) | 一种基于云化区块链技术的数据标准化方法及系统 | |
da Silva et al. | A framework for governance of sustainability indicator systems in strategic environmental assessment processes | |
Jomehpour | Identifying strategic priorities for the sustainable development of rural areas based on local community planning | |
Terrance | Assessing the e-readiness of e-government Implementation in South African Municipalities. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |