CN115982272A - 一种城市大数据管理的数据标注方法、装置及计算机存储介质 - Google Patents
一种城市大数据管理的数据标注方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN115982272A CN115982272A CN202211488843.1A CN202211488843A CN115982272A CN 115982272 A CN115982272 A CN 115982272A CN 202211488843 A CN202211488843 A CN 202211488843A CN 115982272 A CN115982272 A CN 115982272A
- Authority
- CN
- China
- Prior art keywords
- data
- labeling
- revision
- quality inspection
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种城市大数据管理的数据标注方法、装置及计算机存储介质,用于提高数据标注的精度。本申请方法包括:获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;将所述第一数据及所述预标注标签上传至区块链平台;通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;将所述修订结果上传至所述区块链平台;通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种城市大数据管理的数据标注方法、装置及计算机存储介质。
背景技术
数据标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,转换为机器可识别的信息的过程。数据标注包括很多方面,例如图片类型分类、文本语法校验、图片相关性评估等。随着深度学习的法身,基于神经网络技术的深度学习算法模型广泛应用于各行各业,训练一个可用的深度学习算法模型,往往需要海量的数据标注,并且,当深度学习算法模型精度要求较高时,往往需要高精度的数据标注。
在现有技术中,通过数据标注模型对数据进行数据标注后,往往需要人工审查数据标注的结果,并对有问题的数据标注进行编辑和修正,但是,由于参与数据标注修订的修订人员数量众多,专业背景和工作能力参差不齐,由人工编辑和修正后的数据标注的质量无法保证,质量不高的数据标注,会导致模型的训练无法达到预期效果。
如何提高数据标注的精度以及如何进行数据标注修订错误的责任认定是当前需要解决的问题。
发明内容
本申请提供了一种城市大数据管理的数据标注方法、装置及计算机存储介质,用于提高数据标注的精度。
本申请第一方面提供了一种城市大数据管理的数据标注方法,包括:
获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;
将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;
将所述第一数据及所述预标注标签上传至区块链平台;
通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;
将所述修订结果上传至所述区块链平台;
通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
可选地,所述目标数据标注模型的训练方法如下;
获取有标签的第二数据集,并将所述第二数据集拆分为第二训练数据集及第二测试数据集;
基于所述第二训练数据集训练初始数据标注模型,通过所述初始数据标注模型的损失函数计算损失值;
判断所述初始标注模型的损失值是否大于预设损失值;
若所述损失值大于所述预设损失值,则根据所述损失值更新所述初始数据标注模型的参数,并通过所述第二训练数据集再次训练所述初始数据标注模型;
若所述损失值不大于预设损失值,则获取目标初始数据标注模型,并将所述第二测试数据集输入所述目标初始数据标注模型,并判断所述目标初始数据标注模型的精度是否大于预设精度;
若是,则确定所述目标初始数据标注模型为目标数据标注模型。
可选地,所述将所述第一数据及所述预标注标签上传至区块链平台之后,所述数据标注方法还包括:
根据所述第一数据、所述预标注标签及修订业务标准生成第一链码,并将所述第一链码部署于第一区块链节点上,所述第一链码包含至少一个第一智能合约;
所述通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果包括:
通过所述区块链平台向所述数据标注修订端发送所述第一智能合约,以使得所述数据标注修订端根据所述第一智能合约修订错误的预标注标签,并生成修订结果。
可选地,所述将所述修订结果上传至所述区块链平台之后,所述数据标注方法还包括:
根据所述修订结果及质检业务标准生成第二链码,并将所述第二链码部署于第二区块链节点上,所述第二链码包含至少一个第二智能合约;
所述通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性包括:
通过所述区块链平台向所述所述数据标注质检端发送第二智能合约,以使得所述数据标注质检端根据所述第二智能合约质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
可选地,在所述根据所述第一数据、所述预标注标签及修订业务标准生成第一链码,并将所述第一链码部署于第一区块链节点上,所述第一链码包含至少一个第一智能合约之后,所述数据标注方法还包括:
生成所述第一智能合约的第一哈希值,并将所述第一哈希值上传至所述区块链平台上,以使得所述第一智能合约在所述区块链平台上安全可控。
可选地,在所述根据所述修订结果及质检业务标准生成第二链码,并将所述第二链码部署于第二区块链平台节点上,所述第二链码包含至少一个第二智能合约之后,所述数据标注方法还包括:
生成所述第二智能合约的第二哈希值,并将所述第二哈希值上传至区块链平台上,以使得所述第二智能合约在所述区块链平台上安全可控。
本申请第二方面提供了一种城市大数据管理的数据标注装置,包括:
获取单元,用于获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;
输入单元,用于将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;
第一上传单元,用于将所述第一数据及所述预标注标签上传至区块链平台;
第一发送单元,用于通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;
第二上传单元,用于将所述修订结果上传至所述区块链平台;
第二发送单元,用于通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
可选地,所述输入单元具体用于:
获取有标签的第二数据集,并将所述第二数据集拆分为第二训练数据集及第二测试数据集;
基于所述第二训练数据集训练初始数据标注模型,通过所述初始数据标注模型的损失函数计算损失值;
判断所述初始标注模型的损失值是否大于预设损失值;
若所述损失值大于所述预设损失值,则根据所述损失值更新所述初始数据标注模型的参数,并通过所述第二训练数据集再次训练所述初始数据标注模型;
若所述损失值不大于预设损失值,则获取目标初始数据标注模型,并将所述第二测试数据集输入所述目标初始数据标注模型,并判断所述目标初始数据标注模型的精度是否大于预设精度;
若是,则确定所述目标初始数据标注模型为目标数据标注模型。
可选地,所述数据标注装置还包括:
第一生成单元,用于根据所述第一数据、所述预标注标签及修订业务标准生成第一链码,并将所述第一链码部署于第一区块链节点上,所述第一链码包含至少一个第一智能合约;
所述第一发送单元具体用于:
通过所述区块链平台向所述数据标注修订端发送所述第一智能合约,以使得所述数据标注修订端根据所述第一智能合约修订错误的预标注标签,并生成修订结果。
可选地,所述数据标注装置还包括:
第二生成单元,用于根据所述修订结果及质检业务标准生成第二链码,并将所述第二链码部署于第二区块链节点上,所述第二链码包含至少一个第二智能合约;
所述第二发送单元具体用于:
通过所述区块链平台向所述所述数据标注质检端发送第二智能合约,以使得所述数据标注质检端根据所述第二智能合约质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
可选地,所述数据标注装置还包括:
第三生成单元,用于生成所述第一智能合约的第一哈希值,并将所述第一哈希值上传至所述区块链平台上,以使得所述第一智能合约在所述区块链平台上安全可控。
可选地,所述数据标注装置还包括:
第四生成单元,用于生成所述第二智能合约的第二哈希值,并将所述第二哈希值上传至区块链平台上,以使得所述第二智能合约在所述区块链平台上安全可控。
本申请第三方面提供了一种城市大数据管理的数据标注装置,所述数据标注装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的城市大数据管理的数据标注方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的城市大数据管理的数据标注方法。
从以上技术方案可以看出,本申请具有以下优点:本申请方案引入数据标注修订端,用于修订第一文本的错误的预标注标签,提高了数据标注的精度,并且本申请将修订结果上传至区块链平台,从而使得修订结果可查,从而可以溯源修订过程及修订人员,本申请方案还引入了数据标注质检端,用于质检修订结果的准确性,并生成质检报告,从而进一步提高了数据标注的精度,并实现了对数据修订错误的责任认定。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种城市大数据管理的数据标注方法一个实施例流程示意图;
图2为本申请提供的一种城市大数据管理的数据标注方法另一个实施例流程示意图;
图3为本申请提供的一种城市大数据管理的数据标注装置一个实施例结构示意图;
图4为本申请提供的一种城市大数据管理的数据标注装置另一个实施例结构示意图;
图5为本申请提供的一种城市大数据管理的数据标注装置一个实施例结构示意图。
具体实施方式
本申请提供了一种城市大数据管理的数据标注方法、装置及计算机存储介质,用于提高数据标注的准确度。
需要说明的是,本申请提供的一种城市大数据管理的数据标注方法,可以应用于终端,还可以应用于服务器上,例如终端可以是智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述,本申请中以终端为执行主体进行举例说明。
请参阅图1,图1为本申请提供的一种城市大数据管理的数据标注方法的一个实施例,该数据标注方法包括:
101、终端获取待标注的第一数据集,第一数据集为城市大数据管理数据库中需要进行标注的大数据;
在本实施例中,终端获取代标注的第一数据集,该第一数据集包括至少两个待标注的第一数据,该第一数据集为城市大数据管理数据库中需要进行标注的大数据。
102、终端将第一数据集输入目标数据标注模型,以使得目标数据标注模型生成第一数据集中的第一数据的预标注标签;
在本实施例中,终端将第一数据集输入目标数据标注模型,该目标数据标注模型用于对第一数据集中的第一数据进行标注,生成第一数据对应的预标注标签。
103、终端将第一数据及预标注标签上传至区块链平台;
在本实施例中,终端将第一数据及预标注标签上传至区块链平台,区块链具有公开、透明、不可篡改的特性,使得第一数据及预标注标签在区块链平台上可追溯。
104、终端通过区块链平台向数据标注修订端发送第一数据及预标注标签,以使得数据标注修订端修订错误的预标注标签,并生成修订结果;
在本实施例中,终端通过区块链平台向数据标注修订端发送第一数据及第一数据对应的预标注标签,以使得数据标注修订端将第一数据及预标注标签下发至修订员的终端,修订员人工修订错标或漏标的第一数据,并生成修订结果;虽然目标数据标注模型具有较高的准确性,但是,也存在一定的错误率,通过修订员对第一数据的预标注标签进行进一步的修订,提高了数据标注的准确性。
105、终端将修订结果上传至区块链平台;
在本实施例中,终端将修订结果上传至区块链平台,从而可以在区块链平台上通过修订结果溯源修订人员及修订人员的修订操作。
106、终端通过区块链平台向数据标注质检端发送修订结果,以使得数据标注质检端质检修订结果的准确性,并生成质检报告上传至区块链平台;
在本实施例中,终端通过区块链平台向数据标注质检端发送修订结果,以使得数据标注质检端的质检员质检修订结果的准确性,并生成质检报告上传至区块链平台,修订员对第一数据的预标注标签进行了进一步的修订,虽然提高了数据标注的准确性,但是由于参与数据标注修订的修订人员数量众多,专业背景和工作能力参差不齐,也会存在修订错误的情况,通过引入质检端的质检员质检修订结果的准确性,进一步提高了数据标注的准确性,并且,当质检员发现修订错误时,可以通过区块链平台溯源修订员及修订操作,并将修订员、修订操作及修订错误打包放入质检报告中,从而可以实现对错误修订的责任认定。
在本实施例中,引入数据标注修订端,用于修订第一文本的错误的预标注标签,提高了数据标注的精度,并且本申请将修订结果上传至区块链平台,从而使得修订结果可查,从而可以溯源修订过程及修订人员,本申请方案还引入了数据标注质检端,用于质检修订结果的准确性,并生成质检报告,从而进一步提高了数据标注的精度,并实现了对数据修订错误的责任认定。
请参阅图2,图2为本申请提供的一种城市大数据管理的数据标注方法的另一个实施例,该数据标注方法包括:
201、终端获取待标注的第一数据集,第一数据集为城市大数据管理数据库中需要进行标注的大数据;
本实施例中的步骤201与前述图1实施例中的步骤101类似,具体此处不再赘述。
202、终端将第一数据集输入目标数据标注模型,以使得目标数据标注模型生成第一数据集中的第一数据的预标注标签;
在本实施例中,目标数据标注模型的训练过程如下:获取有标签的第二数据集,并将第二数据集拆分为第二训练数据集及第二测试数据集;基于第二训练数据集训练初始数据标注模型,通过初始数据标注模型的损失函数计算损失值;判断初始标注模型的损失值是否大于预设损失值;若损失值大于预设损失值,则根据损失值更新初始数据标注模型的参数,并通过第二训练数据集再次训练初始数据标注模型;若损失值不大于预设损失值,则获取目标初始数据标注模型,并将第二测试数据集输入目标初始数据标注模型,并判断目标初始数据标注模型的精度是否大于预设精度;若是,则确定目标初始数据标注模型为目标数据标注模型。
在本实施例中,损失函数如下:其中,LOSS为损失值,C的参数含义是总样本的数量,yi为第i个训练样本的目标预测值,Pi为输出的概率值集合;将第二测试数据集输入目标初始数据标注模型,并通过精度公式判断目标初始数据标注模型的精度是否大于预设精度,精度公式如下:Precision=(2*x*y)/(x+y);其中,Precision为精度值,x=正确预测框的个数/需预测框的总数;y=正确预测框的个数/标注检测框的个数。
203、终端将第一数据及预标注标签上传至区块链平台;
本实施例中的步骤203与前述图1实施例中的步骤103类似,具体此处不再赘述。
204、终端根据第一数据、预标注标签及修订业务标准生成第一链码,并将第一链码部署于第一区块链节点上,第一链码包括至少一个第一智能合约;
在本实施例中,第一区块链节点可以为第一服务器,在第一服务器中存储关键的数据,并执行特定的程序,存储的关键数据包括账本、第一链码(第一智能合约),执行的程序主要包括背书以及第一链码的执行,所有账本查询及修改必修通过第一链码来操作,第一链码上包括至少一个第一智能合约,第一智能合约中定义了修订业务标准、修订流程及待修订数据及修订规则。
205、终端生成第一智能合约的第一哈希值,并将第一哈希值上传至区块链平台上,以使得第一智能合约在区块链平台上安全可控;
在本实施例中,终端生成第一智能合约的第一哈希值,并将第一哈希值上传至区块链平台上,以使得区块链平台根据第一哈希值判断第一智能合约是否被篡改,以使得第一智能合约在区块链平台上安全可控。例如,第一智能合约有N页,当用户签订第一智能合约时,会在每一页上都盖上一个数字章,若每一个数字章是前一页加本页文本内容一起使用哈希算法生成哈希值,即即N页的数字章=HASH(N-1的数字章+N页内容),若对第一页的内容篡改,那么本页的哈希值肯定与本页的数字章不再相符合,于是便可以通过第一哈希值的变化知道第一智能合约的信息是否被篡改,并且还能定位到第一智能合约在哪一页被篡改。
206、终端通过区块链平台向数据标注修订端发送第一智能合约,以使得数据标注修订端根据第一智能合约修订错误的预标注标签,并生成修订结果;
在本实施例中,第一智能合约中定义了修订业务标准、修订流程、待修订数据及修订规则,通过第一智能合约,规范了数据标注修订端的修订员修订错误的预标注标签的过程,从而使得修订过程标准化、流程化,从而降低了修订结果出现错误的概率,进一步提高了数据标注的准确性。
207、终端将修订结果上传至区块链平台;
本实施例中步骤207与前述图1实施例中的步骤105类似,具体此处不再赘述。
208、终端根据修订结果及质检业务标准生成第二链码,并将第二链码部署于第二区块链节点上,第二链码包含至少一个第二智能合约;
在本实施例中,第二区块链节点可以为第二服务器,在第二服务器中存储关键的数据,并执行特定的程序,存储的关键数据包括账本、第二链码(第二智能合约),执行的程序主要包括背书以及第二链码的执行,所有账本查询及修改必修通过第二链码来操作,第二链码上包括至少一个第二智能合约,第二智能合约中定义了质检业务标准、质检流程及待质检数据及质检规则。
209、终端生成第二智能合约的第二哈希值,并将第二哈希值上传至区块链平台上,以使得第二智能合约在区块链平台上安全可控;
在本实施例中,终端生成第二智能合约的第二哈希值,并将第二哈希值上传至区块链平台上,以使得区块链平台根据第二哈希值判断第二智能合约是否被篡改,以使得第二智能合约在区块链平台上安全可控。例如,第二智能合约有N页,当用户签订第二智能合约时,会在每一页上都盖上一个数字章,若每一个数字章是前一页加本页文本内容一起使用哈希算法生成哈希值,即即N页的数字章=HASH(N-1的数字章+N页内容),若对第一页的内容篡改,那么本页的哈希值肯定与本页的数字章不再相符合,于是便可以通过第二哈希值的变化知道第二智能合约的信息是否被篡改,并且还能定位到第二智能合约在哪一页被篡改。
210、终端通过区块链平台向数据标注质检端发送第二智能合约,以使得数据标注质检端根据第二智能合约质检修订结果的准确性,并生成质检报告上传至区块链平台;
在本实施例中,第二智能合约定义了质检业务标准、质检流程、待质检数据及质检规则,通过第二智能合约,规范了数据标注质检端的质检员质检修订结果的过程,从而使得质检过程标准化、流程化,从而降低质检报告出现错误的概率,进一步提高了数据标注的准确性。
请参阅图3,图3为本申请提供的一种城市大数据管理的数据标注装置一个实施例,该数据标注装置包括:
获取单元301,用于获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;
输入单元302,用于将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;
第一上传单元303,用于将所述第一数据及所述预标注标签上传至区块链平台;
第一发送单元304,用于通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;
第二上传单元305,用于将所述修订结果上传至所述区块链平台;
第二发送单元306,用于通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
下面对本申请提供的一种城市大数据管理的数据标注装置进行详细说明,请参阅图4,图4为本申请提供的一种城市大数据管理的数据标注装置另一个实施例,该数据标注装置包括:
获取单元401,用于获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;
输入单元402,用于将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;
第一上传单元403,用于将所述第一数据及所述预标注标签上传至区块链平台;
第一发送单元404,用于通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;
第二上传单元405,用于将所述修订结果上传至所述区块链平台;
第二发送单元406,用于通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
可选地,所述输入单元402具体用于:
获取有标签的第二数据集,并将所述第二数据集拆分为第二训练数据集及第二测试数据集;
基于所述第二训练数据集训练初始数据标注模型,通过所述初始数据标注模型的损失函数计算损失值;
判断所述初始标注模型的损失值是否大于预设损失值;
若所述损失值大于所述预设损失值,则根据所述损失值更新所述初始数据标注模型的参数,并通过所述第二训练数据集再次训练所述初始数据标注模型;
若所述损失值不大于预设损失值,则获取目标初始数据标注模型,并将所述第二测试数据集输入所述目标初始数据标注模型,并判断所述目标初始数据标注模型的精度是否大于预设精度;
若是,则确定所述目标初始数据标注模型为目标数据标注模型。
可选地,所述数据标注装置还包括:
第一生成单元407,用于根据所述第一数据、所述预标注标签及修订业务标准生成第一链码,并将所述第一链码部署于第一区块链节点上,所述第一链码包含至少一个第一智能合约;
所述第一发送单元404具体用于:
通过所述区块链平台向所述数据标注修订端发送所述第一智能合约,以使得所述数据标注修订端根据所述第一智能合约修订错误的预标注标签,并生成修订结果。
可选地,所述数据标注装置还包括:
第二生成单元408,用于根据所述修订结果及质检业务标准生成第二链码,并将所述第二链码部署于第二区块链节点上,所述第二链码包含至少一个第二智能合约;
所述第二发送单元406具体用于:
通过所述区块链平台向所述所述数据标注质检端发送第二智能合约,以使得所述数据标注质检端根据所述第二智能合约质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
可选地,所述数据标注装置还包括:
第三生成单元409,用于生成所述第一智能合约的第一哈希值,并将所述第一哈希值上传至所述区块链平台上,以使得所述第一智能合约在所述区块链平台上安全可控。
可选地,所述数据标注装置还包括:
第四生成单元410,用于生成所述第二智能合约的第二哈希值,并将所述第二哈希值上传至区块链平台上,以使得所述第二智能合约在所述区块链平台上安全可控。
本实施例系统中,各单元的功能与前述图2所示方法实施例中的步骤对应,此处不再赘述。
本申请还提供了一种城市大数据管理的数据标注装置,请参阅图5,图5为本申请提供的一种城市大数据管理的数据标注装置一个实施例,该装置包括:
处理器501、存储器502、输入输出单元503、总线504;
处理器501与存储器502、输入输出单元503以及总线504相连;
存储器502保存有程序,处理器501调用程序以执行如上任一一种城市大数据管理的数据标注方法。
本申请还涉及一种计算机可读存储介质,计算机可读存储介质上保存有程序,当程序在计算机上运行时,使得计算机执行如上任一一种城市大数据管理的数据标注方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种城市大数据管理的数据标注方法,其特征在于,所述数据标注方法包括:
获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;
将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;
将所述第一数据及所述预标注标签上传至区块链平台;
通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;
将所述修订结果上传至所述区块链平台;
通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
2.根据权利要求1所述的城市大数据管理的数据标注方法,其特征在于,所述目标数据标注模型的训练方法如下;
获取有标签的第二数据集,并将所述第二数据集拆分为第二训练数据集及第二测试数据集;
基于所述第二训练数据集训练初始数据标注模型,通过所述初始数据标注模型的损失函数计算损失值;
判断所述初始标注模型的损失值是否大于预设损失值;
若所述损失值大于所述预设损失值,则根据所述损失值更新所述初始数据标注模型的参数,并通过所述第二训练数据集再次训练所述初始数据标注模型;
若所述损失值不大于预设损失值,则获取目标初始数据标注模型,并将所述第二测试数据集输入所述目标初始数据标注模型,并判断所述目标初始数据标注模型的精度是否大于预设精度;
若是,则确定所述目标初始数据标注模型为目标数据标注模型。
3.根据权利要求1所述的数据标注方法,其特征在于,所述将所述第一数据及所述预标注标签上传至区块链平台之后,所述数据标注方法还包括:
根据所述第一数据、所述预标注标签及修订业务标准生成第一链码,并将所述第一链码部署于第一区块链节点上,所述第一链码包含至少一个第一智能合约;
所述通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果包括:
通过所述区块链平台向所述数据标注修订端发送所述第一智能合约,以使得所述数据标注修订端根据所述第一智能合约修订错误的预标注标签,并生成修订结果。
4.根据权利要求3所述的数据标注方法,其特征在于,所述将所述修订结果上传至所述区块链平台之后,所述数据标注方法还包括:
根据所述修订结果及质检业务标准生成第二链码,并将所述第二链码部署于第二区块链节点上,所述第二链码包含至少一个第二智能合约;
所述通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性包括:
通过所述区块链平台向所述所述数据标注质检端发送第二智能合约,以使得所述数据标注质检端根据所述第二智能合约质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
5.根据权利要求4所述的数据标注方法,其特征在于,在所述根据所述第一数据、所述预标注标签及修订业务标准生成第一链码,并将所述第一链码部署于第一区块链节点上,所述第一链码包含至少一个第一智能合约之后,所述数据标注方法还包括:
生成所述第一智能合约的第一哈希值,并将所述第一哈希值上传至所述区块链平台上,以使得所述第一智能合约在所述区块链平台上安全可控。
6.根据权利要求4所述的数据标注方法,其特征在于,在所述根据所述修订结果及质检业务标准生成第二链码,并将所述第二链码部署于第二区块链平台节点上,所述第二链码包含至少一个第二智能合约之后,所述数据标注方法还包括:
生成所述第二智能合约的第二哈希值,并将所述第二哈希值上传至区块链平台上,以使得所述第二智能合约在所述区块链平台上安全可控。
7.一种城市大数据管理的数据标注装置,其特征在于,所述数据标注装置包括:
获取单元,用于获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;
输入单元,用于将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;
第一上传单元,用于将所述第一数据及所述预标注标签上传至区块链平台;
第一发送单元,用于通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;
第二上传单元,用于将所述修订结果上传至所述区块链平台;
第二发送单元,用于通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
8.根据权利要求7所述的数据标注装置,其特征在于,所述输入单元具体用于:
获取有标签的第二数据集,并将所述第二数据集拆分为第二训练数据集及第二测试数据集;
基于所述第二训练数据集训练初始数据标注模型,通过所述初始数据标注模型的损失函数计算损失值;
判断所述初始标注模型的损失值是否大于预设损失值;
若所述损失值大于所述预设损失值,则根据所述损失值更新所述初始数据标注模型的参数,并通过所述第二训练数据集再次训练所述初始数据标注模型;
若所述损失值不大于预设损失值,则获取目标初始数据标注模型,并将所述第二测试数据集输入所述目标初始数据标注模型,并判断所述目标初始数据标注模型的精度是否大于预设精度;
若是,则确定所述目标初始数据标注模型为目标数据标注模型。
9.一种城市大数据管理的数据标注装置,其特征在于,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至6中任一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至6中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488843.1A CN115982272A (zh) | 2022-11-25 | 2022-11-25 | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488843.1A CN115982272A (zh) | 2022-11-25 | 2022-11-25 | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982272A true CN115982272A (zh) | 2023-04-18 |
Family
ID=85956944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211488843.1A Pending CN115982272A (zh) | 2022-11-25 | 2022-11-25 | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982272A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860979A (zh) * | 2023-09-04 | 2023-10-10 | 上海柯林布瑞信息技术有限公司 | 基于标签知识库的医疗文本标注方法及装置 |
-
2022
- 2022-11-25 CN CN202211488843.1A patent/CN115982272A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860979A (zh) * | 2023-09-04 | 2023-10-10 | 上海柯林布瑞信息技术有限公司 | 基于标签知识库的医疗文本标注方法及装置 |
CN116860979B (zh) * | 2023-09-04 | 2023-12-08 | 上海柯林布瑞信息技术有限公司 | 基于标签知识库的医疗文本标注方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650231B2 (en) | Method, device and server for recognizing characters of claim document, and storage medium | |
CN109977014B (zh) | 基于区块链的代码错误识别方法、装置、设备及存储介质 | |
CN111144079B (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
KR20210090576A (ko) | 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램 | |
CN110955608B (zh) | 测试数据处理方法、装置、计算机设备和存储介质 | |
US20220335335A1 (en) | Method and system for identifying mislabeled data samples using adversarial attacks | |
CN115982272A (zh) | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
CN110716804A (zh) | 无用资源的自动删除方法、装置、存储介质及电子设备 | |
CN111858236B (zh) | 知识图谱监控方法、装置、计算机设备及存储介质 | |
CN116453125A (zh) | 基于人工智能的数据录入方法、装置、设备及存储介质 | |
TWM590730U (zh) | 基於人工智慧之文件管理系統 | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN115758011A (zh) | 数据转存方法、数据展示方法、装置、设备及存储介质 | |
CN112733509B (zh) | 精算报告生成方法、装置、设备及介质 | |
CN111667214B (zh) | 基于二维码的货物信息获取方法、装置及电子设备 | |
CN113961672A (zh) | 信息标注方法、装置、电子设备和存储介质 | |
CN113868419B (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN112232320B (zh) | 印刷品文字的校对方法及相关设备 | |
US20220237364A1 (en) | Click to document | |
CN112232352B (zh) | 一种智能识别pcb图纸自动计价系统和方法 | |
CN117235260A (zh) | 基于人工智能的文本标注方法、装置、设备及存储介质 | |
CN115617951A (zh) | 合同信息提取方法、装置、计算机设备、介质和程序产品 | |
CN113127635A (zh) | 数据处理方法、装置及系统,存储介质和电子设备 | |
CN117632869A (zh) | 文档处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |