CN116894986B - 自动化标注方法、系统以及计算机设备 - Google Patents
自动化标注方法、系统以及计算机设备 Download PDFInfo
- Publication number
- CN116894986B CN116894986B CN202311160259.8A CN202311160259A CN116894986B CN 116894986 B CN116894986 B CN 116894986B CN 202311160259 A CN202311160259 A CN 202311160259A CN 116894986 B CN116894986 B CN 116894986B
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- labeling
- initial
- encrypted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 74
- 239000000969 carrier Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据标注的技术领域,提供了一种自动化标注方法、系统以及计算机设备,包括:获取未标注的数据集;将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;进而,获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端。本发明中通过训练完成的自动化标注模型对未标注的数据集进行自动化标注,提升标注效率、标注准确度,并且降低了标注成本;同时还可以对标注后的数据进行加密,避免数据泄露。
Description
技术领域
本发明涉及数据标注的技术领域,特别涉及一种自动化标注方法、系统以及计算机设备。
背景技术
在许多领域,如计算机视觉、图像处理和机器学习等,数据标注是一个重要的任务。数据标注是指为数据集中的样本赋予相应的标签或注释,以便进行模型训练、算法评估或应用开发等工作。然而,传统的数据标注方法通常需要人工参与,其过程耗时且容易出现人为错误;而且存在着标注结果不准确、标注效率低下等问题。
同时,由于数据经过标注之后,标注数据属于企业的私有数据,为了保护企业对数据的标注成果,还应当注意数据的私密性,避免数据泄露。
发明内容
本发明的主要目的为提供一种自动化标注方法、系统以及计算机设备,旨在克服传统标注方法的标注结果不准确、标注效率低下以及标注后的数据容易泄露的缺陷。
为实现上述目的,本发明提供了一种自动化标注方法,包括以下步骤:
获取未标注的数据集;
将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;
获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;
基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端;
生成一个标注已完成的指令,并将所述指令发送至管理终端,以指示所述管理终端上的管理用户停止数据标注。
进一步地,所述基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端的步骤,包括:
基于所述标注状态参数,确定对应的加密密码;
基于所述加密密码对所述带有标注的数据集进行加密,得到加密的数据集;
基于所述标注状态参数,确定接收所述数据集的指定终端;
将所述加密的数据集传输至所述指定终端。
进一步地,所述标注状态参数为标注数据量;所述基于所述标注状态参数,确定接收所述数据集的指定终端的步骤,包括:
获取所述标注数据量所处的数据区间;
对所述数据区间进行哈希运算,得到对应的区间哈希值;
在数据库匹配与所述区间哈希值对应的指定终端;其中,数据库中存储有区间哈希值与指定终端的映射关系。
进一步地,所述将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集的步骤,包括:
将所述未标注的数据集输入至所述初始模型集中,基于各个所述初始模型输出对应的初始结果;其中,所述初始结果包括未标注的数据集对应为各个种类的物体的概率;
将所述未标注的数据集对应为各个种类的物体的概率输入至对应的目标分类器中进行分类得到数据集的标注结果;其中,所述目标分类器只用于该分类器对应种类的物体的概率进行分类。
进一步地,所述初始模型集中包括ViT模型、BiT模型、DETR模型、ConvNext模型、YOLO模型中的多种。
进一步地,所述数据集的标注结果包括所述数据集中包括的物体类别以及对应类别的概率。
进一步地,所述自动化标注模型的训练过程包括:
获取训练集,将训练集中的训练图片输入至初始模型集中,得到各个初始模型分别输出的训练初始结果;所述训练初始结果包括所述训练图片对应为各个种类的概率;
针对各个分类器,将各个初始模型分别输出的训练初始结果中与该分类器对应的物体的概率作为输入点特征,与所述训练图片对应的真实标签组成一个对应所述分类器的数据点;
基于各个所述数据点,对对应的各个分类器中进行训练,得到预训练分类器;其中,所述初始模型集以及所述预训练分类器构成所述自动化标注模型。
进一步地,还包括:对所述自动化标注模型中的一个或多个分类器进行升级。
本发明还提供了一种自动化标注系统,包括:
获取单元,用于获取未标注的数据集;
标注单元,用于将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;
参数获取单元,用于获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;
加密单元,用于基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端;
指示单元,用于生成一个标注已完成的指令,并将所述指令发送至管理终端,以指示所述管理终端上的管理用户停止数据标注。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明提供的自动化标注方法、系统以及计算机设备,包括:获取未标注的数据集;将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;进而,获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端。本发明中通过训练完成的自动化标注模型对未标注的数据集进行自动化标注,提升标注效率、标注准确度,并且降低了标注成本;同时还可以对标注后的数据进行加密,避免数据泄露。
附图说明
图1是本发明一实施例中自动化标注方法步骤示意图;
图2是本发明一实施例中自动化标注模型的原理示意图;
图3是本发明一实施例中自动化标注系统的结构框图;
图4是本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1以及图2,本发明一实施例中提供了一种自动化标注方法,包括以下步骤:
步骤S1,获取未标注的数据集;
步骤S2,将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;
步骤S3,获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;
步骤S4,基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端;
步骤S5,生成一个标注已完成的指令,并将所述指令发送至管理终端,以指示所述管理终端上的管理用户停止数据标注。
在本实施例中,自动化标注的目的是通过算法,对输入的数据集进行自动化标注标签。标签包含两部分信息,目标类别,目标类别的概率。自动化标注,可以减少手动标注,降低手动标注成本,大幅提高标注速度。因此,可以预先训练深度学习模型(自动化标注模型),基于训练完成的深度学习模型则可以自动化对数据进行标注。
具体地,如上述步骤S1所述的,上述未标注的数据集是需要进行标注的数据集,这些数据是尚未进行分类或标记的原始数据。其可以是图片等数据,为了对图片中的物体进行分类,则需要对其进行类别识别,进而添加对应的标注。
如上述步骤S2所述的,使用训练完成的自动化标注模型来自动标注这些未标注的数据集。本实施例中的自动化标注模型由初始模型集和多个分类器组成。初始模型集包括多个初始模型,每个模型输出的结果将输入到对应的分类器中进行物体分类,从而得到数据集的标注结果。具体来说,本实施例中的自动化标注模型利用了初始模型集和多个分类器,每个分类器仅用于一种种类的物体的分类,以实现自动化标注的目的。其中分类器可以设置为多个(例如80个,可根据实际需要进行调整),而每一个分类可以针对性对某一种种类的物体进行分类识别,这可以提高各个分类器的识别准确性以及识别效率。
如上述步骤S3-S5所述的,自动化标注模型应用于未标注数据集,自动标注其中的样本,并生成标注状态参数,用于表示数据集标注的进度和准确性等信息。上述标注状态参数还可以是标注时长、标注数据量、标注进度等各种参数,在此不进行赘述。基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端:在此步骤中,对所述带有标注的数据集将进行加密处理,以保护数据集的安全性和机密性。可以采用加密算法(如对称加密、非对称加密等)对数据集进行加密,并生成加密密钥用于加密和解密操作。加密后的数据集将通过安全通道或协议进行传输,以确保数据在传输过程中不会被非法访问或篡改,避免数据泄露。
进一步地,将生成一个指令,指示管理终端上的管理用户停止数据标注操作。这个指令表示数据集的标注已经完成,无需进一步的操作。可以通过生成一个包含停止标注指令的消息或命令,并将其发送至管理终端。接收到指令后,管理终端上的用户将知道他们可以停止对数据集进行标注,并继续执行其他任务,提升生产效率。
在本实施例中,上述自动化标注方法是一种利用机器学习算法实现数据集标注的方法,可以大大减少人工标注的工作量和时间成本,提高标注的效率和准确性。该方法通过训练自动化标注模型来实现自动化输出带有标注的数据集,其中初始模型集和分类器的设计使得该方法适用于多种物体分类。
在一个实施例中,所述基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端的步骤,包括:
基于所述标注状态参数,确定对应的加密密码;此步骤涉及基于标注状态参数来确定与之相关的加密密码。标注状态参数可能包括数据集的标注进度、标注时长、更新时间、加密算法选择等信息。根据这些参数,可以确定适当的加密密码或密钥,并确保该密码仅限于特定数据集的加密和解密操作。
基于所述加密密码对所述带有标注的数据集进行加密,得到加密的数据集;在此步骤中,所述加密密码将应用于带有标注的数据集,以执行加密操作。可能采用对称加密算法(如AES)或非对称加密算法(如RSA)等来实施加密过程。通过将加密密码应用于数据集,可以将数据转换为不可读的密文形式,以保证数据的安全性和机密性。
基于所述标注状态参数,确定接收所述数据集的指定终端;在此步骤中,需要根据标注状态参数来确定接收加密数据集的指定终端。根据标注状态参数可以确定指定终端的标识符、网络地址或其他信息。根据这些参数,可以确定数据集应该传输到哪个特定终端,以便后续的解密和处理操作。
将所述加密的数据集传输至所述指定终端。在此步骤中,加密的数据集将通过安全通道或协议进行传输,以确保数据的安全性和完整性。可以采用加密传输协议(如HTTPS)或安全文件传输方法(如SSH)等进行数据的传输。一旦加密数据集到达指定终端,接收方将使用适当的密钥对数据进行解密,并恢复原始的带有标注的数据集。
在一实施例中,所述标注状态参数为标注数据量;所述基于所述标注状态参数,确定接收所述数据集的指定终端的步骤,包括:
获取所述标注数据量所处的数据区间;在此步骤中,将获取标注数据量所处的数据区间。标注数据量表示已标注数据的数据量,通过获取该数据量所处的数据区间。
对所述数据区间进行哈希运算,得到对应的区间哈希值;在此步骤中,将执行哈希运算操作,将每个数据区间转换为对应的哈希值。可以采用哈希函数(如MD5、SHA-256等)对数据区间进行哈希运算,将其转换为固定长度的哈希值。通过哈希运算,可以将数据区间映射到唯一的哈希值,以便后续的数据库匹配。
在数据库匹配与所述区间哈希值对应的指定终端;其中,数据库中存储有区间哈希值与指定终端的映射关系。在此步骤中,将在数据库中进行匹配操作,以找到与所述区间哈希值对应的指定终端。数据库中存储了区间哈希值与指定终端的映射关系,其中每个区间哈希值对应一个特定的指定终端。通过在数据库中进行匹配,可以获取与当前区间哈希值相匹配的指定终端信息。以上步骤构成了基于标注状态参数确定接收数据集的指定终端的关键步骤,其中包括获取标注数据量、哈希运算和数据库匹配等操作。这些步骤的组合可以确保将加密的数据集传输至正确的指定终端,以便进行解密和后续处理。
在一实施例中,所述将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集的步骤,包括:
将所述未标注的数据集输入至所述初始模型集中,基于各个所述初始模型输出对应的初始结果;其中,所述初始结果包括未标注的数据集对应为各个种类的物体的概率;在这一步骤中,需要使用多个不同的初始模型,以获得更加全面和准确的初始结果。这些初始模型可以是基于不同算法或架构的深度学习模型,也可以是基于传统机器学习算法的模型;在一具体实施例中,所述初始模型集中包括ViT模型、BiT模型、DETR模型、ConvNext模型、YOLO模型中的多种。
将所述未标注的数据集对应为各个种类的物体的概率输入至对应的目标分类器中进行分类得到数据集的标注结果;其中,所述目标分类器只用于该分类器对应种类的物体的概率进行分类。
在本实施例中,在获得初始结果之后,需要将未标注的数据集对应为各个种类的物体的概率输入到对应的目标分类器中进行分类。在这一步骤中,预先为每个物体类别训练得到有对应的目标分类器,该分类器只用于该分类器对应种类的物体的概率进行分类。例如,需要对80个类别的物体进行分类,则可以预先训练80个分类器,其中每一个分类器用于对一种物体进行分类识别。在得到数据集的标注结果之后,将预测的数据集的标注结果输出作为该数据集的标注标签。
在一实施例中,所述数据集的标注结果包括所述数据集中包括的物体类别以及对应类别的概率。
训练时,需要用到大量的标注过的数据集,标注就是把输入数据标记为一个准确的目标信息,便于深度学习模型校验预测值和真实值(groundtruth)之前的差距,方便进一步更新参数,学习更好的特征,提高预测精度。比如:在图像分类任务中,标注就是把不同的图片,打上一个目标分类的标签。在检测识别任务中,标注需要把图片中的目标的位置和分类同时标注出来。
具体地,结合参照图2,在一具体实施例中,所述自动化标注模型的训练过程包括:
获取训练集,将训练集中的训练图片输入至初始模型集中,得到各个初始模型分别输出的训练初始结果;所述训练初始结果包括所述训练图片对应为各个种类的概率;
针对各个分类器,将各个初始模型分别输出的训练初始结果中与该分类器对应的物体的概率作为输入点特征,与所述训练图片对应的真实标签组成一个对应所述分类器的数据点;
基于各个所述数据点,对对应的各个分类器中进行训练,得到预训练分类器;其中,所述初始模型集以及所述预训练分类器构成所述自动化标注模型。
在一实施例中,所述基于各个所述数据点,对对应的各个分类器中进行训练,得到预训练分类器的步骤之后,还包括:
获取验证集,将验证集中的验证图片输入至所述初始模型集中,得到各个初始模型分别输出的验证初始结果;所述验证初始结果包括所述验证图片对应为各个种类的概率;
针对各个预训练分类器,将各个初始模型分别输出的验证初始结果中与该分类器对应的物体的概率输入至预训练分类器中进行预测标签;
将预测标签与验证集中的验证图片的真实标签进行对比,得到准确率;重复训练以及验证的步骤,当准确率达到阈值时,训练完成,得到最终训练完成的分类器。
在本实施例中,首先,需要准备一个包含各种类别图片的训练集。上述训练集可以从公开数据集中获取,也可以自己手动搜集。进而,使用已有的初始模型集,将训练图片输入至初始模型集中并得到训练初始结果,得到每个初始模型输出的对应该张图片的预测结果。这些预测结果可以包括每个图片属于不同类别的概率值。
对于每个分类器,将其对应初始结果中的预测概率作为输入点特征,与训练图片对应的真实标签组成一个对应该分类器的数据点。重复该过程,构建出所有分类器对应的数据点集合,即分类器的训练集。
利用构建好的数据点集合,对每个分类器进行训练,得到预训练分类器。
为了验证模型训练效果,还需要获取一个包含各种类别图片的验证集,上述验证集同样可以从公开数据集中获取或自行手动搜集。使用已有的初始模型集,将验证集中的每张图片输入至初始模型中,得到每个初始模型输出的对应该张图片的预测结果。这些预测结果可以包括该图片属于不同类别的概率值。
对于每个预训练分类器,将其对应初始结果中的预测概率作为输入,预测验证集中每张图片的标签,并与真实标签进行对比,计算准确率。如果准确率未达到阈值,则重复训练和验证步骤直到达到要求。当所有预训练分类器的准确率都达到了要求,即可得到最终训练完成的分类器。
在一实施例中,所述将预测标签与验证集中的验证图片的真实标签进行对比,得到准确率的步骤之后,还包括:
当准确率未达到阈值时,根据预测标签与真实标签计算损失函数的损失值和梯度,并基于反向传播算法,调整分类器的模型参数。
在本实施例中,所述训练集以及所述验证集均为公开数据集,例如coco2017,imagenet等公开数据集。
在一实施例中,还包括:对所述自动化标注模型中的一个或多个分类器进行升级。上述自动化标注模型中的一个或多个分类器均可以进行升级,上述升级指的是,在实际的数据标注过程中,随着数据的不断迭代变化,上述分类器需要进行适应性的更新模型参数,以使得升级后的分类器在进行数据标注时的准确度得到提高,标注结果更加准确。
在一实施例中,标注状态参数为进行自动化标注的总时长;上述基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端的步骤,包括:
获取一个数据载体序列;其中,所述数据载体序列中包括依次排序的多个数据载体,且每个数据载体中的数据为空;
对所述总时长进行哈希计算,得到对应的哈希值,按照预设的编码方式对所述哈希值进行编码,得到对应的编码值,将所述编码值作为加密密码,对所述带有标注的数据集进行加密,得到加密数据集;
随机生成预设个数的干扰数据集,并针对每个干扰数据集随机生成一个加密密码进行加密,得到干扰加密数据;采用干扰数据集可以避免真实的带有标注的数据集被轻易破解。
将所述干扰加密数据以及加密数据集进行随机排列之后,依次从所述数据载体序列的头部添加至数据载体中;其中,每个数据载体中只添加一个加密后的数据;
获取各个所述干扰加密数据以及加密数据集分别在数据载体序列中的序号;例如,各个干扰加密数据的序号依次为1、2、3、4、6;加密数据集的序号为5;
基于各个所述干扰加密数据在数据载体序列中的序号,生成一个序号加密密码,基于所述序号加密密码对所述总时长进行加密得到加密时长数据;通过对总时长进行加密,避免数据泄露。
将所述加密时长数据存储至所述数据载体序列中,并位于所述干扰加密数据以及加密数据集之后的第一个空的数据载体中;
基于所述加密数据集在数据载体序列中的序号,对所述数据载体序列的长度进行调整,得到目标数据载体序列;其中,所述目标数据载体序列中,在所述加密时长数据之后具有多个空的数据载体,且所述空的数据载体的数量与所述加密数据集在数据载体序列中的序号对应的数值相同;
将所述目标数据载体序列发送至应用端;其中,所述应用端用于对目标数据载体序列进行解析,并获取出带有标注的数据集进行应用。
基于上述方案,可以保障上述数据在传输过程的安全性,同时无需记录加密密码,基于上述目标数据载体序列的特性便可以生成对应的解密密码,其它非法用户则无法获取到对应的密码。
具体地,应用端在接收到上述目标数据载体序列之后,从中识别出空的的数据载体的数量;其中,可通过识别数据载体中是否加密来判定,未进行加密的数据载体为空的数据载体;
根据空的的数据载体的数量,从所述目标数据载体序列中,确定出所述加密数据集在数据载体序列中的序号;确定出干扰加密数据以及加密时长数据在数据载体序列中的序号;可以理解的是,其中,加密时长数据位于第一个空的数据载体之前的数据载体中;干扰加密数据位于除所述加密时长数据、空的数据载体、加密数据集之外的数据载体中;
基于各个所述干扰加密数据在数据载体序列中的序号,生成一个序号解密密码,基于所述序号解密密码对所述加密时长数据进行解密得到总时长;
对所述总时长进行哈希计算,得到对应的哈希值,按照预设的编码方式对所述哈希值进行编码,得到对应的编码值,将所述编码值作为解密密码,对所述加密数据集进行解密,得到带有标注的数据集。
参照图3,本发明一实施例中还提供了一种自动化标注系统,包括:
获取单元,用于获取未标注的数据集;
标注单元,用于将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;
参数获取单元,用于获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;
加密单元,用于基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端;
指示单元,用于生成一个标注已完成的指令,并将所述指令发送至管理终端,以指示所述管理终端上的管理用户停止数据标注。
在一实施例中,所述自动化标注模型的训练过程包括:
获取训练集,将训练集中的训练图片输入至初始模型集中,得到各个初始模型分别输出的训练初始结果;所述训练初始结果包括所述训练图片对应为各个种类的概率;
针对各个分类器,将各个初始模型分别输出的训练初始结果中与该分类器对应的物体的概率作为输入点特征,与所述训练图片对应的真实标签组成一个对应所述分类器的数据点;
基于各个所述数据点,对对应的各个分类器中进行训练,得到预训练分类器;
获取验证集,将验证集中的验证图片输入至所述初始模型集中,得到各个初始模型分别输出的验证初始结果;所述验证初始结果包括所述验证图片对应为各个种类的概率;
针对各个预训练分类器,将各个初始模型分别输出的验证初始结果中与该分类器对应的物体的概率输入至预训练分类器中进行预测标签;
将预测标签与验证集中的验证图片的真实标签进行对比,得到准确率;重复训练以及验证的步骤,当准确率达到阈值时,训练完成,得到最终训练完成的分类器。
在一实施例中,上述标注状态参数为进行自动化标注的总时长,所述加密单元具体用于:
获取一个数据载体序列;其中,所述数据载体序列中包括依次排序的多个数据载体,且每个数据载体中的数据为空;
对所述总时长进行哈希计算,得到对应的哈希值,按照预设的编码方式对所述哈希值进行编码,得到对应的编码值,将所述编码值作为加密密码,对所述带有标注的数据集进行加密,得到加密数据集;
随机生成预设个数的干扰数据集,并针对每个干扰数据集随机生成一个加密密码进行加密,得到干扰加密数据;
将所述干扰加密数据以及加密数据集进行随机排列之后,依次从所述数据载体序列的头部添加至数据载体中;其中,每个数据载体中只添加一个加密后的数据;
获取各个所述干扰加密数据以及加密数据集分别在数据载体序列中的序号;
基于各个所述干扰加密数据在数据载体序列中的序号,生成一个序号加密密码,基于所述序号加密密码对所述总时长进行加密得到加密时长数据;
将所述加密时长数据存储至所述数据载体序列中,并位于所述干扰加密数据以及加密数据集之后的第一个空的数据载体中;
基于所述加密数据集在数据载体序列中的序号,对所述数据载体序列的长度进行调整,得到目标数据载体序列;其中,所述目标数据载体序列中,在所述加密时长数据之后具有多个空的数据载体,且所述空的数据载体的数量与所述加密数据集在数据载体序列中的序号对应的数值相同;
将所述目标数据载体序列发送至应用端;其中,所述应用端用于对目标数据载体序列进行解析,并获取出带有标注的数据集进行应用。
在本实施例中,上述系统实施例中的各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图4,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、显示屏、输入装置、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储本实施例中对应的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述自动化标注方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述自动化标注方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本发明实施例中提供的自动化标注方法、系统以及计算机设备,包括:获取未标注的数据集;将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;进而,获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端。本发明中通过训练完成的自动化标注模型对未标注的数据集进行自动化标注,提升标注效率、标注准确度,并且降低了标注成本;同时还可以对标注后的数据进行加密,避免数据泄露。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种自动化标注方法,其特征在于,包括以下步骤:
获取未标注的数据集;
将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;
获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;
基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端;
生成一个标注已完成的指令,并将所述指令发送至管理终端,以指示所述管理终端上的管理用户停止数据标注;
标注状态参数为进行自动化标注的总时长;所述基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端的步骤,包括:
获取一个数据载体序列;其中,所述数据载体序列中包括依次排序的多个数据载体,且每个数据载体中的数据为空;
对所述总时长进行哈希计算,得到对应的哈希值,按照预设的编码方式对所述哈希值进行编码,得到对应的编码值,将所述编码值作为加密密码,对所述带有标注的数据集进行加密,得到加密数据集;
随机生成预设个数的干扰数据集,并针对每个干扰数据集随机生成一个加密密码进行加密,得到干扰加密数据;
将所述干扰加密数据以及加密数据集进行随机排列之后,依次从所述数据载体序列的头部添加至数据载体中;其中,每个数据载体中只添加一个加密后的数据;
获取各个所述干扰加密数据以及加密数据集分别在数据载体序列中的序号;
基于各个所述干扰加密数据在数据载体序列中的序号,生成一个序号加密密码,基于所述序号加密密码对所述总时长进行加密得到加密时长数据;
将所述加密时长数据存储至所述数据载体序列中,并位于所述干扰加密数据以及加密数据集之后的第一个空的数据载体中;
基于所述加密数据集在数据载体序列中的序号,对所述数据载体序列的长度进行调整,得到目标数据载体序列;其中,所述目标数据载体序列中,在所述加密时长数据之后具有多个空的数据载体,且所述空的数据载体的数量与所述加密数据集在数据载体序列中的序号对应的数值相同;
将所述目标数据载体序列发送至应用端;其中,所述应用端用于对目标数据载体序列进行解析,并获取出带有标注的数据集进行应用。
2.根据权利要求1所述的自动化标注方法,其特征在于,所述基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端的步骤,包括:
基于所述标注状态参数,确定对应的加密密码;
基于所述加密密码对所述带有标注的数据集进行加密,得到加密的数据集;
基于所述标注状态参数,确定接收所述数据集的指定终端;
将所述加密的数据集传输至所述指定终端。
3.根据权利要求2所述的自动化标注方法,其特征在于,所述标注状态参数为标注数据量;所述基于所述标注状态参数,确定接收所述数据集的指定终端的步骤,包括:
获取所述标注数据量所处的数据区间;
对所述数据区间进行哈希运算,得到对应的区间哈希值;
在数据库匹配与所述区间哈希值对应的指定终端;其中,数据库中存储有区间哈希值与指定终端的映射关系。
4.根据权利要求1所述的自动化标注方法,其特征在于,所述将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集的步骤,包括:
将所述未标注的数据集输入至所述初始模型集中,基于各个所述初始模型输出对应的初始结果;其中,所述初始结果包括未标注的数据集对应为各个种类的物体的概率;
将所述未标注的数据集对应为各个种类的物体的概率输入至对应的目标分类器中进行分类得到数据集的标注结果;其中,所述目标分类器只用于该分类器对应种类的物体的概率进行分类。
5.根据权利要求1所述的自动化标注方法,其特征在于,所述初始模型集中包括ViT模型、BiT模型、DETR模型、ConvNext模型、YOLO模型中的多种。
6.根据权利要求1所述的自动化标注方法,其特征在于,所述数据集的标注结果包括所述数据集中包括的物体类别以及对应类别的概率。
7.根据权利要求1所述的自动化标注方法,其特征在于,所述自动化标注模型的训练过程包括:
获取训练集,将训练集中的训练图片输入至初始模型集中,得到各个初始模型分别输出的训练初始结果;所述训练初始结果包括所述训练图片对应为各个种类的概率;
针对各个分类器,将各个初始模型分别输出的训练初始结果中与该分类器对应的物体的概率作为输入点特征,与所述训练图片对应的真实标签组成一个对应所述分类器的数据点;
基于各个所述数据点,对对应的各个分类器中进行训练,得到预训练分类器;其中,所述初始模型集以及所述预训练分类器构成所述自动化标注模型。
8.根据权利要求1所述的自动化标注方法,其特征在于,还包括:对所述自动化标注模型中的一个或多个分类器进行升级。
9.一种自动化标注系统,其特征在于,包括:
获取单元,用于获取未标注的数据集;
标注单元,用于将所述未标注的数据集输入至训练完成的自动化标注模型中,自动化输出带有标注的数据集;其中,所述自动化标注模型包括初始模型集以及多个分类器,每个所述分类器用于一种种类的物体的分类;所述初始模型集包括多个初始模型,各所述初始模型输出的初始结果用于输入至对应的分类器中进行分类得到数据集的标注结果;
参数获取单元,用于获取所述自动化标注模型对所述未标注的数据集进行自动化标注时的标注状态参数;
加密单元,用于基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端;
指示单元,用于生成一个标注已完成的指令,并将所述指令发送至管理终端,以指示所述管理终端上的管理用户停止数据标注;
标注状态参数为进行自动化标注的总时长;所述加密单元基于所述标注状态参数对所述带有标注的数据集进行加密处理,并加密传输至指定终端,包括:
获取一个数据载体序列;其中,所述数据载体序列中包括依次排序的多个数据载体,且每个数据载体中的数据为空;
对所述总时长进行哈希计算,得到对应的哈希值,按照预设的编码方式对所述哈希值进行编码,得到对应的编码值,将所述编码值作为加密密码,对所述带有标注的数据集进行加密,得到加密数据集;
随机生成预设个数的干扰数据集,并针对每个干扰数据集随机生成一个加密密码进行加密,得到干扰加密数据;
将所述干扰加密数据以及加密数据集进行随机排列之后,依次从所述数据载体序列的头部添加至数据载体中;其中,每个数据载体中只添加一个加密后的数据;
获取各个所述干扰加密数据以及加密数据集分别在数据载体序列中的序号;
基于各个所述干扰加密数据在数据载体序列中的序号,生成一个序号加密密码,基于所述序号加密密码对所述总时长进行加密得到加密时长数据;
将所述加密时长数据存储至所述数据载体序列中,并位于所述干扰加密数据以及加密数据集之后的第一个空的数据载体中;
基于所述加密数据集在数据载体序列中的序号,对所述数据载体序列的长度进行调整,得到目标数据载体序列;其中,所述目标数据载体序列中,在所述加密时长数据之后具有多个空的数据载体,且所述空的数据载体的数量与所述加密数据集在数据载体序列中的序号对应的数值相同;
将所述目标数据载体序列发送至应用端;其中,所述应用端用于对目标数据载体序列进行解析,并获取出带有标注的数据集进行应用。
10.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311160259.8A CN116894986B (zh) | 2023-09-11 | 2023-09-11 | 自动化标注方法、系统以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311160259.8A CN116894986B (zh) | 2023-09-11 | 2023-09-11 | 自动化标注方法、系统以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116894986A CN116894986A (zh) | 2023-10-17 |
CN116894986B true CN116894986B (zh) | 2023-11-24 |
Family
ID=88312423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311160259.8A Active CN116894986B (zh) | 2023-09-11 | 2023-09-11 | 自动化标注方法、系统以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894986B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051918A1 (zh) * | 2019-09-17 | 2021-03-25 | 华为技术有限公司 | 提供ai模型的方法、ai平台、计算设备及存储介质 |
CN113392331A (zh) * | 2021-01-27 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法及设备 |
CN116012903A (zh) * | 2022-05-23 | 2023-04-25 | 安徽建筑大学 | 一种人脸表情自动标注的方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562252B2 (en) * | 2020-06-22 | 2023-01-24 | Capital One Services, Llc | Systems and methods for expanding data classification using synthetic data generation in machine learning models |
CN113836345A (zh) * | 2020-06-23 | 2021-12-24 | 索尼公司 | 信息处理设备、信息处理方法以及计算机可读存储介质 |
-
2023
- 2023-09-11 CN CN202311160259.8A patent/CN116894986B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051918A1 (zh) * | 2019-09-17 | 2021-03-25 | 华为技术有限公司 | 提供ai模型的方法、ai平台、计算设备及存储介质 |
CN113392331A (zh) * | 2021-01-27 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法及设备 |
CN116012903A (zh) * | 2022-05-23 | 2023-04-25 | 安徽建筑大学 | 一种人脸表情自动标注的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116894986A (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017140248A1 (zh) | 数据交换方法、数据交换装置及计算装置 | |
CN110245510B (zh) | 用于预测信息的方法和装置 | |
US11632238B2 (en) | Traceability of edits to digital documents via distributed ledgers | |
US20220083690A1 (en) | Obtaining jointly trained model based on privacy protection | |
CN111695613B (zh) | 数据标注系统、计算机可读存储介质及电子设备 | |
US20200311646A1 (en) | Blockchain-based system for analyzing and tracking work performance | |
WO2021012571A9 (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
WO2021003977A1 (zh) | 违约信息查询方法、装置、计算机设备和存储介质 | |
CN112488713A (zh) | 基于区块链大数据的安全识别方法、系统及云服务平台 | |
CN111651731A (zh) | 将实体产品转化为数字资产并存储在区块链上的方法 | |
US11652804B2 (en) | Data privacy system | |
CN111124421B (zh) | 区块链智能合约的异常合约数据检测方法和装置 | |
CN111079153B (zh) | 安全建模方法、装置、电子设备及存储介质 | |
CN114386058A (zh) | 一种模型文件加密与解密方法及装置 | |
CN116894986B (zh) | 自动化标注方法、系统以及计算机设备 | |
CN112734050A (zh) | 文本模型的训练方法、识别方法、装置、设备及存储介质 | |
CN114925337B (zh) | 数据的标注方法、装置和电子设备 | |
CN116070185A (zh) | 用生物测定数据匹配处理数据主体权限请求的系统和方法 | |
TW201939932A (zh) | Url異常定位方法、裝置、伺服器及儲存媒體 | |
CN113901502A (zh) | 一种数据处理方法、装置、电子设备以及存储介质 | |
WO2022216894A2 (en) | Method and system for performing cell operations using a verifiable data structure | |
CN114741728A (zh) | 保护隐私数据的第三方识别类别的方法和装置 | |
CN114564323A (zh) | 数据污染检测方法、检测设备、云服务器及终端设备 | |
CN111897991A (zh) | 一种图像标注方法及设备 | |
CN112667661B (zh) | 一种溯源信息关联查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |