CN117424906A - 一种基于区块链的数据处理激励方法及相关设备 - Google Patents
一种基于区块链的数据处理激励方法及相关设备 Download PDFInfo
- Publication number
- CN117424906A CN117424906A CN202311322490.2A CN202311322490A CN117424906A CN 117424906 A CN117424906 A CN 117424906A CN 202311322490 A CN202311322490 A CN 202311322490A CN 117424906 A CN117424906 A CN 117424906A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- block
- task
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 477
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000005284 excitation Effects 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000000875 corresponding effect Effects 0.000 claims description 77
- 238000007781 pre-processing Methods 0.000 claims description 29
- 230000002596 correlated effect Effects 0.000 claims description 9
- 238000013496 data integrity verification Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1074—Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
- H04L67/1078—Resource delivery mechanisms
- H04L67/1082—Resource delivery mechanisms involving incentive schemes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于区块链的数据处理激励方法及相关设备,应用于由多个区块数据处理节点所构成的区块链系统中,通过上述本申请提供的基于区块链的数据处理激励方法,能够基于多个区块数据处理节点所各自对应的处理评分来进行数据获取任务的派发,处理评分越高的数据处理节点能够得到更多数据获取任务的分配。并接收与数据获取请求指令所对应的第一处理数据,从而完成对于自然语言模型训练数据集的供应。同时确定与第一处理数据相对应的区块数据处理节点和数据提供者并对其发放数字化激励,从而有效促进数据的更新以及训练数据集的供应,有效解决了现有技术中供给自然语言模型的训练数据集来源枯竭的问题。
Description
技术领域
本申请涉及区块链技术领域,特别是涉及一种基于区块链的数据处理激励方法及相关设备。
背景技术
自然语言处理技术是研究如何让计算机能够理解和处理自然语言的学科技术,其涉及到从文本中提取信息、语义理解、文本生成和机器翻译等方面的技术和算法。近年来,随着自然语言处理技术的飞速发展,自然语言模型应运而生。其能够自动生成连贯且语义合理的文本,同时具备一定的语义理解能力,这使得自然语言模型在自然语言处理任务中的表现尤为出色,在各种文本生成和理解的任务中得到了广泛应用。
自然语言模型强大的语言处理能力使其需要依靠大量的数据来进行模型训练,目前对于自然语言模型训练的数据主要通过互联网的数据爬虫所获取。然而,随着自然语言模型的大规模普及,用户获取信息的方式更加倾向于直接通过自然语言模型来进行信息获取,对于互联网本身的搜索引擎、问答网站、论坛等信息获取媒介的使用频率逐渐降低,互联网中能够用于对语言模型进行训练的数据逐渐减少,能够供给自然语言模型训练进行训练的数据集逐渐枯竭。
因此,如何解决现有技术中可供自然语言模型训练的数据来源枯竭的问题,成为本领域技术人员急需解决的技术问题。
发明内容
基于上述问题,为了解决现有技术中可供自然语言模型训练的数据来源枯竭的问题,本申请提供了一种基于区块链的数据处理激励方法及相关设备。
本申请实施例公开了如下技术方案:
第一方面,本申请公开了一种基于区块链的数据处理激励方法,应用于由多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据;所述方法,包括:
根据所述多个区块数据处理节点的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据获取任务用于表示所述目标获取任务,且所述数据获取任务基于数据获取请求指令派发;
获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据;
基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者;
向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
可选的,所述处理评分的确定方法,具体包括:
确定所述区块数据处理节点在所述预设时间段内的任务完成率和任务处理准确率;所述任务完成率基于所述区块数据处理节点得到所述数据获取任务的数量以及完成所述数据获取任务的数量得到;所述任务处理准确率基于所述区块数据处理节点完成所述数据获取任务的数量以及被获取的所述处理数据的数量得到;
获取所述区块数据处理节点在所述预设时间段内对于多个所述数据获取任务的平均处理时间;
根据所述区块数据处理节点在所述预设时间段内的所述任务完成率、所述任务处理准确率以及所述平均处理时间,确定所述区块数据处理节点的处理评分。
可选的,所述获取与所述数据获取请求指令对应的第一处理数据之前,还包括:
获取多个与所述数据获取请求指令对应的处理数据;
对所述多个与所述数据获取请求指令对应的处理数据进行数据完整性验证,得到多个所述处理数据所各自对应的数据完整性评分;
将多个所述数据完整性评分中评分最高的处理数据确定为所述第一处理数据。
可选的,所述第一处理数据包括:数字签名标识;所述数字签名标识用于标记与所述第一处理数据关联的区块数据处理节点和数据提供者;所述基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者,具体包括:
根据所述数字签名标识,与所述第一处理数据关联的区块数据处理节点和数据提供者。
可选的,所述获取与所述数据获取请求指令对应的第一处理数据之后,还包括:
将所述第一处理数据确定为自然语言模型的训练数据。
第二方面,本申请公开了一种基于区块链的数据处理激励装置,应用于由多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据;所述装置,包括:
任务派发模块,用于根据所述多个区块数据处理节点的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据获取任务用于表示所述目标获取任务,且所述数据获取任务基于数据获取请求指令派发;
第一获取模块,用于获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据;
第一确定模块,用于基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者;
激励发放模块,用于向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
可选的,所述处理评分的确定方法,具体包括:
确定所述区块数据处理节点在所述预设时间段内的任务完成率和任务处理准确率;所述任务完成率基于所述区块数据处理节点得到所述数据获取任务的数量以及完成所述数据获取任务的数量得到;所述任务处理准确率基于所述区块数据处理节点完成所述数据获取任务的数量以及被获取的所述处理数据的数量得到;
获取所述区块数据处理节点在所述预设时间段内对于多个所述数据获取任务的平均处理时间;
根据所述区块数据处理节点在所述预设时间段内的所述任务完成率、所述任务处理准确率以及所述平均处理时间,确定所述区块数据处理节点的处理评分。
可选的,所述基于区块链的数据处理激励装置,还包括,完整性评分模块;所述完整性评分模块,具体用于:
获取多个与所述数据获取请求指令对应的处理数据;
对所述多个与所述数据获取请求指令对应的处理数据进行数据完整性验证,得到多个所述处理数据所各自对应的数据完整性评分;
将多个所述数据完整性评分中评分最高的处理数据确定为所述第一处理数据。
第三方面,本申请公开了一种电子设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行所述的基于区块链的数据处理激励方法。
第四方面,本申请公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的基于区块链的数据处理激励方法。
相较于现有技术,本申请具有以下有益效果:本申请提供了一种基于区块链的数据处理激励方法及相关设备,应用于由多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据。在本申请所提供的方法中,首先会根据所述多个区块数据处理节点在预设时间段内的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据处理任务基于数据获取请求指令派发。然后获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据。并基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者。最后向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
通过上述本申请提供的方法,能够基于多个区块数据处理节点所各自对应的处理评分来进行数据获取任务的派发,处理评分越高的数据处理节点能够得到更多数据获取任务的分配。并接收与数据获取请求指令所对应的第一处理数据,从而完成对于自然语言模型训练数据集的供应。同时确定与第一处理数据相对应的区块数据处理节点和数据提供者并对其发放数字化激励,从而有效促进数据的更新以及训练数据集的供应,有效解决了现有技术中供给自然语言模型的训练数据集来源枯竭的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于区块链的数据处理激励方法的流程示意图;
图2为本申请实施例提供的一种基于区块链的数据处理激励装置的结构示意图;
图3为本申请实施例提供的一种基于区块链的数据处理激励电子设备的结构示意图。
具体实施方式
正如前文描述,目前的自然语言模型强大的语言处理能力使其需要依靠大量的数据来进行模型训练,目前对于自然语言模型训练的数据主要通过互联网的数据爬虫所获取。然而,随着自然语言模型的大规模普及,用户获取信息的方式更加倾向于直接通过自然语言模型来进行信息获取,对于互联网本身的搜索引擎、问答网站、论坛等信息获取媒介的使用频率逐渐降低,互联网中能够用于对语言模型进行训练的数据逐渐减少,能够供给自然语言模型训练进行训练的数据集逐渐枯竭。
因此,如何解决现有技术中可供自然语言模型训练的数据来源枯竭的问题,成为本领域技术人员急需解决的技术问题。
为了解决上述问题,本申请提供了一种基于区块链的数据处理激励方法及相关设备,应用于多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据。在本申请所提供的方法中,首先会根据所述多个区块数据处理节点的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据处理任务基于数据获取请求指令派发。然后获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据。并基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者。最后向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
通过上述本申请提供的方法,能够基于多个区块数据处理节点所各自对应的处理评分来进行数据获取任务的派发,处理评分越高的数据处理节点能够得到更多数据获取任务的分配。并接收与数据获取请求指令所对应的第一处理数据,从而完成对于自然语言模型训练数据集的供应。同时确定与第一处理数据相对应的区块数据处理节点和数据提供者并对其发放数字化激励,从而实现在促进数据更新和供应的同时有效保障训练数据集的质量,有效解决了现有技术中供给自然语言模型的训练数据集来源枯竭的问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请所提供的基于区块链的数据处理激励方法应用于由多个区块数据处理节点所构成的区块链系统中。其中,每个区块数据处理节点用于接收由数据提供者所提供的目标获取数据,数据提供者可以通过区块处理节点了解到区块链系统需要的目标获取数据,并将目标获取数据上传到区块链系统中,以用于自然语言模型的模型训练。区块数据处理节点在接收到数据提供者上传的目标获取数据时会对得到的目标获取数据进行数据预处理,并得到与其相对应的处理数据。
在实际的应用场景中,自然语言模型所需要的训练数据由整个区块链系统所提供,每个区块数据节点都存储有一部分的数据,且都具有对目标获取数据进行数据预处理的能力。当区块数据处理节点接收到目标获取数据时,会对其进行数据清洗、数据去重、数据标准化等数据预处理操作,从而提升数据的质量。得到的处理数据会用于对自然语言模型的训练。
参见图1,该图为本申请实施例提供的一种基于区块链的数据处理激励方法的流程示意图,具体包括以下步骤:
S101:根据所述多个区块数据处理节点的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据获取任务用于表示所述目标获取任务,且所述数据获取任务基于数据获取请求指令派发。
在对区块链系统中的多个区块数据处理节点进行数据获取任务派发时,会基于各个区块数据处理节点在预设时间段内所各自对应的处理评分来进行任务派发。
其中,处理评分用于表示区块处理节点在预设时间段内的数据处理效率以及处理准确度,因此,处理节点的处理评分的高低决定了其相应节点所能够接收到的数据获取任务的数量,因而区块数据处理节点得到的数据获取任务的数量与处理评分呈正相关的关系。
在实际的应用场景中,数据获取任务会基于数据获取请求指令进行派发,数据获取请求指令会通过模型与用户的交互或是模型内部设定的自训练环节来生成。当用户与自然语言模型交互时,模型会基于与用户的语言交互来确定需要获取的数据,从而生成数据获取请求指令。亦或是当模型进行自训练的过程时,为了获取足够的训练数据,也会生成相同的数据获取请求指令。数据获取请求指令中包括有需要的目标获取任务的数据标识,数据提供者可以通过区块数据处理节点接收数据获取请求指令,从而根据其中的数据标识来确定需要上传的目标获取数据。
S102:获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据。
在进行完数据获取任务的派发后,区块数据处理节点会根据数据获取请求指令中指示的目标获取数据,向外界的互联网关于目标获取数据的获取需求,其获取需求包含了对于目标获取数据的数据要求、标注指示以及相应的激励等等。
当区块数据处理节点接收到由外界的数据提供者所提供的目标获取数据时,会对其进行数据预处理来得到相应的处理数据,而与数据获取请求指令相对应的处理数据即为第一处理数据。
S103:基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者。
在得到由区块数据处理节点反馈的第一处理数据后,此第一处理数据会作为语言模型训练所使用的数据,因此,需要确定与第一处理数据相关联的区块数据处理节点和数据提供者,以为其提供一定的激励奖励。
具体的,在基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者的过程中,具体可以通过以下步骤来完成:
步骤一、根据所述数字签名标识,与所述第一处理数据关联的区块数据处理节点和数据提供者。
在区块处理节点所返回的第一处理数据中,包含有用于表示相应区块数据处理节点和数据提供者的数字签名标识。通过此数字签名标识,可以确定与第一处理数据相对应的处理节点和数据提供者。其数字签名标识信息包括有签名者的公钥、签名者的表示信息以及相关的数字证书信息。通过其第一处理数据的数字签名标识,可以在确定关联区块数据处理节点以及数据提供者的基础上,验证签名者的身份以及签名的有效性,可以使用数字签名标识中的公钥来验证签名的真实性,并通过相关身份信息来识别签名者。这有助于确保数据的完整性和不可篡改性,并为数据交换和身份认证提供了一定的保护和信任机制。
S104:向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
在确定与第一处理数据相对应的区块数据处理节点和数据提供者后,对其发放数字化激励。其中,数字化激励可以通过以ERC-20协议为标准的数字积分来作为激励。ERC-20协议是一种基于以太坊区块链的智能合约标准,用于创建和交互积分代币。它定义了一组规则和标准,使得积分代币可以在以太坊网络上统一操作和交互操作。通过ERC-20协议创建的积分代币可以在以太坊生态系统内互相兼容和交互。这种互操作性使得该积分代币可以适用于众多以太坊钱包、交易所和智能合约平台,方便用户进行代币的存储、交易和使用。
接下来对区块数据处理节点的处理评分的确定方式,即处理评分的评分规则进行详细介绍,所述处理评分的确定方式,具体通过以下三个步骤来完成,具体如下:
步骤一、确定所述区块数据处理节点在所述预设时间段内的任务完成率和任务处理准确率;所述任务完成率基于所述区块数据处理节点得到所述数据获取任务的数量以及完成所述数据获取任务的数量得到;所述任务处理准确率基于所述区块数据处理节点完成所述数据获取任务的数量以及被获取的所述处理数据的数量得到。
在计算区块数据处理节点的处理评分的过程中,首先需要确定处理节点在预设时间段内的任务完成率以及任务处理准确率。其中,处理节点的任务完成率基于节点在预设时间段内被分配到的任务数量,以及处理节点在此时间段内所处理的任务数量来计算得到。将节点所处理的任务数量与其所接收到的任务的总数进行除法运算,即可得到节点在预设时间段内的任务完成率。
处理节点对于数据获取任务的任务处理准确率基于其处理完成的任务的数量以及总共被获取的处理数据的数量来确定。在实际的应用场景中,在进行数据获取任务派发时所发出的数据获取请求指令往往会被多个区块数据处理节点所接收,因而针对于同一个数据获取任务,可能有多个区块数据处理节点上传了相应的处理数据。此时可以基于多个处理节点的处理评分的高低来决定获取其中哪个节点的处理数据,也可以根据得到的处理数据的数据完善度来决定使用哪个处理数据。
因此,当某一区块数据处理节点所上传的处理数据被获取时,则表明此区块数据处理节点所处理的数据的数据质量要优于其他处理节点所处理的数据。因而将处理节点在预设时间段内被获取的处理数据的数量与其所总共处理完成的数据获取任务的数量进行除法运算,即可得到相应区块数据处理节点在预设时间段内的任务处理准确率。
步骤二、获取所述区块数据处理节点在所述预设时间段内对于多个所述数据获取任务的平均处理时间。
在确定区块数据处理节点在预设时间段内的任务完成率和任务处理准确率后,需要进一步获取其处理节点在此时间段内对于多个数据获取任务的平均数据处理时间。具体的平均处理时间可以以秒、分钟、小时等时间刻度作为单位,平均数据处理时间具体的单位由所处理的数据的规模大小来决定。当所处理的数据普遍规模较大时,节点对于数据的处理时间往往需要数个小时,此时平均处理时间可以以小时为单位。而当所处理的数据普遍规模较小时,相应的平均处理时间的单位可以调换为秒或分钟,具体可以按需设定,本实施对此不作限定。
步骤三、根据所述区块数据处理节点在所述预设时间段内的所述任务完成率、所述任务处理准确率以及所述平均处理时间,确定所述区块数据处理节点的处理评分。
在得到区块数据处理节点在预设时间段内的任务完成率、任务处理准确率以及平均处理时间后,会基于得到的上述三个参数来计算区块数据处理节点的处理评分。具体的计算过程主要通过以下公式来实现:
其中S表示处理评分,A表示区块数据处理节点在预设时间段内所分配得到的数据获取任务的数量,C表示区块数据处理节点所处理的任务数量,F表示处理节点被获取的处理数据的数量,T表示处理节点的平均处理时间。
通过上述公式,可以确定区块数据处理节点在预设时间段内的处理评分,基于处理评分与得到的数据获取任务的正相关关系,越高的处理评分能够让处理节点得到更多的数据获取任务,从而提供更多的处理数据以获取数字化激励,在保障了对于数据提供者和处理节点正向循环激励的同时又能够有效促进数据流的更新和训练数据的供应,有效缓解了现阶段对于自然语言模型训练数据匮乏的问题。
作为一种可选的实施方式,在步骤S102之前,还包括以下三个步骤:
步骤一、获取多个与所述数据获取请求指令对应的处理数据;
步骤二、对所述多个与所述数据获取请求指令对应的处理数据进行数据完整性验证,得到多个所述处理数据所各自对应的数据完整性评分;
步骤三、将多个所述数据完整性评分中评分最高的处理数据确定为所述第一处理数据。
在上文的叙述中已有提及,在进行数据获取任务派发时所发出的数据获取请求指令会被多个区块数据存储节点所接收,针对于同一个数据获取任务,往往会有多个处理节点同时对其进行处理,因而会得到多个与数据获取请求指令所对应的处理数据。为了确定所使用的处理数据,在得到与指令相对应的多个处理数据后,可以对其进行数据完整性验证,以得到每个处理数据所实际对应的数据完整性评分。
在进行数据完整性验证的过程中,可以基于预先设定的用于衡量数据完整性的指标以及相应的权重来进行验证。例如,衡量数据完整性的指标可以是字段是否有缺失值、数据是否符合特定的数据类型或是字段描述是否符合特定的逻辑规则等。不同的指标具有相应不同的权重值,从而具备不同的考虑优先级。基于各个用于衡量数据完整性的指标以及权重,可以计算出每个指标的得分,通过加权平均等计算方式来计算处理数据整体的得分,即可得到处理数据的数据完整性评分。
重复上述对于处理数据的数据完整性评分的计算过程,得到与数据获取请求指令所对应的全部处理数据的数据完整性评分,对多个评分进行排序,将其中评分最高的处理数据确定为第一处理数据。此第一数据将作为后续为自然语言模型进行训练的训练数据,通过数据完整性评分的方式来确定表述多个处理数据的数据质量,并以此选择质量最有的数据作为第一处理数据,可以有效保证处理数据的数据可用性以及自然语言模型训练数据的数据质量。
作为一种可选的实施方式,在步骤S102之后,还包括以下步骤:
步骤一、将所述第一处理数据确定为自然语言模型的训练数据。
在获取到经由区块数据处理节点处理完成的处理数据后,可以将处理数据确定为自然语言模型的训练数据。其中,作为训练数据的第一处理数据可以是语料库、对话数据集以及开放式数据源等多种数据集。
其中,语料库是指包含大量文本的数据集,可以来自各种文本来源,如书籍、新闻文章、网页内容、社交媒体帖子等。语料库应该具备多样性,涵盖不同的主题、语言风格和文体。对话数据集可以是互联网用户与模型之间的对话数据,也可以是网络用户之间的聊天记录、问答数据等等。开放式数据源则是网络搜索引擎上可以搜索到的公共数据集,例如维基百科等。这样的数据集包含了大量结构化和非结构化的文本数据。
本实施例提供了一种基于区块链的数据处理激励方法,应用于多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据。在本申请所提供的方法中,首先会根据所述多个区块数据处理节点在预设时间段内的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据处理任务基于数据获取请求指令派发。然后获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据。并基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者。最后向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
通过上述本申请提供的方法,能够基于多个区块数据处理节点所各自对应的处理评分来进行数据获取任务的派发,处理评分越高的数据处理节点能够得到更多数据获取任务的分配。并接收与数据获取请求指令所对应的第一处理数据,从而完成对于自然语言模型训练数据集的供应。同时确定与第一处理数据相对应的区块数据处理节点和数据提供者并对其发放数字化激励,从而实现在促进数据更新和供应的同时有效保障训练数据集的质量,有效解决了现有技术中供给自然语言模型的训练数据集来源枯竭的问题。
下面对本申请实施例提供的一种基于区块链的数据处理激励装置进行介绍,下文描述的一种基于区块链的数据处理激励装置与上文描述的一种基于区块链的数据处理激励方法可相互对应参照。
本实施所提供的基于区块链的数据处理激励装置,应用于由多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据;
参见图2,该图为本申请实施例提供的一种基于区块链的数据处理激励装置的结构示意图,具体包括以下模块:
任务派发模块100,用于根据所述多个区块数据处理节点的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据获取任务用于表示所述目标获取任务,且所述数据获取任务基于数据获取请求指令派发;
第一获取模块200,用于获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据;
第一确定模块300,用于基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者;
激励发放模块400,用于向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
可选的,所述处理评分的确定方法,具体包括:
确定所述区块数据处理节点在所述预设时间段内的任务完成率和任务处理准确率;所述任务完成率基于所述区块数据处理节点得到所述数据获取任务的数量以及完成所述数据获取任务的数量得到;所述任务处理准确率基于所述区块数据处理节点完成所述数据获取任务的数量以及被获取的所述处理数据的数量得到;
获取所述区块数据处理节点在所述预设时间段内对于多个所述数据获取任务的平均处理时间;
根据所述区块数据处理节点在所述预设时间段内的所述任务完成率、所述任务处理准确率以及所述平均处理时间,确定所述区块数据处理节点的处理评分。
可选的,所述基于区块链的数据处理激励装置,还包括,完整性评分模块;所述完整性评分模块,具体用于:
获取多个与所述数据获取请求指令对应的处理数据;
对所述多个与所述数据获取请求指令对应的处理数据进行数据完整性验证,得到多个所述处理数据所各自对应的数据完整性评分;
将多个所述数据完整性评分中评分最高的处理数据确定为所述第一处理数据。
可选的,所述第一处理数据包括:数字签名标识;所述数字签名标识用于标记与所述第一处理数据关联的区块数据处理节点和数据提供者;所述第一确定模块,具体用于:
根据所述数字签名标识,与所述第一处理数据关联的区块数据处理节点和数据提供者。
可选的,所述基于区块链的数据处理激励装置,还包括:第二确定模块;
所述第二确定模块,用于将所述第一处理数据确定为自然语言模型的训练数据。
参见图3,该图为本申请实施例提供的基于区块链的数据处理激励电子设备的结构示意图,包括:
存储器11,用于存储计算机程序;
处理器12,用于执行所述计算机程序时实现上述任意方法实施例所述的基于区块链的数据处理激励方法的步骤。
在本实施例中,设备可以是车载电脑、PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器11、处理器12和总线13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据,例如执行故障预测方法的程序代码等,还可以用于暂时地存储已经输出或者将要输出的数据。处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)。
处理器12在一些实施例中可以是一中央处理器(Central Processing unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行故障预测方法的程序代码等。
该总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口15,用户接口15可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口15还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-EmittingDiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有组件11-15的设备,本领域技术人员可以理解的是,图3示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法装置、电子设备及车辆而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法装置、电子设备及车辆仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于区块链的数据处理激励方法,其特征在于,应用于由多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据;所述方法,包括:
根据所述多个区块数据处理节点的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据获取任务用于表示所述目标获取任务,且所述数据获取任务基于数据获取请求指令派发;
获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据;
基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者;
向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
2.根据权利要求1所述的方法,其特征在于,所述处理评分的确定方法,具体包括:
确定所述区块数据处理节点在所述预设时间段内的任务完成率和任务处理准确率;所述任务完成率基于所述区块数据处理节点得到所述数据获取任务的数量以及完成所述数据获取任务的数量得到;所述任务处理准确率基于所述区块数据处理节点完成所述数据获取任务的数量以及被获取的所述处理数据的数量得到;
获取所述区块数据处理节点在所述预设时间段内对于多个所述数据获取任务的平均处理时间;
根据所述区块数据处理节点在所述预设时间段内的所述任务完成率、所述任务处理准确率以及所述平均处理时间,确定所述区块数据处理节点的处理评分。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述数据获取请求指令对应的第一处理数据之前,还包括:
获取多个与所述数据获取请求指令对应的处理数据;
对所述多个与所述数据获取请求指令对应的处理数据进行数据完整性验证,得到多个所述处理数据所各自对应的数据完整性评分;
将多个所述数据完整性评分中评分最高的处理数据确定为所述第一处理数据。
4.根据权利要求1所述的方法,其特征在于,所述第一处理数据包括:数字签名标识;所述数字签名标识用于标记与所述第一处理数据关联的区块数据处理节点和数据提供者;所述基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者,具体包括:
根据所述数字签名标识,与所述第一处理数据关联的区块数据处理节点和数据提供者。
5.根据权利要求1所述的方法,其特征在于,所述获取与所述数据获取请求指令对应的第一处理数据之后,还包括:
将所述第一处理数据确定为自然语言模型的训练数据。
6.一种基于区块链的数据处理激励装置,其特征在于,应用于由多个区块数据处理节点所构成的区块链系统中,所述区块数据处理节点用于接收目标获取数据,并对所述目标获取数据进行数据预处理,得到处理数据;所述目标获取数据基于数据提供者得到,所述处理数据表示经过所述数据预处理后的目标获取数据;所述装置,包括:
任务派发模块,用于根据所述多个区块数据处理节点的处理评分,进行数据获取任务派发;所述处理评分用于表示所述区块数据处理节点在预设时间段内的数据处理效率及处理准确度,且所述区块数据处理节点得到的数据获取任务的数量与所述处理评分呈正相关;所述数据获取任务用于表示所述目标获取任务,且所述数据获取任务基于数据获取请求指令派发;
第一获取模块,用于获取与所述数据获取请求指令对应的第一处理数据;所述第一处理数据表示与所述数据获取请求指令对应且经过所述数据预处理后的目标获取数据;
第一确定模块,用于基于所述第一处理数据,确定与所述第一处理数据对应的区块数据处理节点和数据提供者;
激励发放模块,用于向与所述第一处理数据对应的区块数据处理节点和数据提供者发放数字化激励。
7.根据权利要求6所述的装置,其特征在于,所述处理评分的确定方法,具体包括:
确定所述区块数据处理节点在所述预设时间段内的任务完成率和任务处理准确率;所述任务完成率基于所述区块数据处理节点得到所述数据获取任务的数量以及完成所述数据获取任务的数量得到;所述任务处理准确率基于所述区块数据处理节点完成所述数据获取任务的数量以及被获取的所述处理数据的数量得到;
获取所述区块数据处理节点在所述预设时间段内对于多个所述数据获取任务的平均处理时间;
根据所述区块数据处理节点在所述预设时间段内的所述任务完成率、所述任务处理准确率以及所述平均处理时间,确定所述区块数据处理节点的处理评分。
8.根据权利要求6所述的装置,其特征在于,还包括,完整性评分模块;所述完整性评分模块,具体用于:
获取多个与所述数据获取请求指令对应的处理数据;
对所述多个与所述数据获取请求指令对应的处理数据进行数据完整性验证,得到多个所述处理数据所各自对应的数据完整性评分;
将多个所述数据完整性评分中评分最高的处理数据确定为所述第一处理数据。
9.一种电子设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-5中任一项所述的基于区块链的数据处理激励方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述的基于区块链的数据处理激励方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311322490.2A CN117424906A (zh) | 2023-10-12 | 2023-10-12 | 一种基于区块链的数据处理激励方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311322490.2A CN117424906A (zh) | 2023-10-12 | 2023-10-12 | 一种基于区块链的数据处理激励方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117424906A true CN117424906A (zh) | 2024-01-19 |
Family
ID=89529302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311322490.2A Pending CN117424906A (zh) | 2023-10-12 | 2023-10-12 | 一种基于区块链的数据处理激励方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117424906A (zh) |
-
2023
- 2023-10-12 CN CN202311322490.2A patent/CN117424906A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN112380859A (zh) | 舆情信息的推荐方法、装置、电子设备及计算机存储介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN112559923A (zh) | 网址资源推荐方法、装置、电子设备及计算机存储介质 | |
CN114398560B (zh) | 基于web平台的营销界面设置方法、装置、设备及介质 | |
CN114461777A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN112634017A (zh) | 远程开卡激活方法、装置、电子设备及计算机存储介质 | |
CN112507230A (zh) | 基于浏览器的网页推荐方法、装置、电子设备及存储介质 | |
CN113706322A (zh) | 基于数据分析的服务分发方法、装置、设备及存储介质 | |
CN113434542B (zh) | 数据关系识别方法、装置、电子设备及存储介质 | |
WO2023272862A1 (zh) | 基于网络行为数据的风控识别方法、装置、电子设备及介质 | |
CN114138243A (zh) | 基于开发平台的功能调用方法、装置、设备及存储介质 | |
CN116628162A (zh) | 语义问答方法、装置、设备及存储介质 | |
CN117424906A (zh) | 一种基于区块链的数据处理激励方法及相关设备 | |
CN115346095A (zh) | 视觉问答方法、装置、设备及存储介质 | |
CN114780688A (zh) | 基于规则匹配的文本质检方法、装置、设备及存储介质 | |
CN114219367A (zh) | 用户评分方法、装置、设备及存储介质 | |
CN112182107B (zh) | 名单数据获取方法、装置、计算机设备及存储介质 | |
CN111597453B (zh) | 用户画像方法、装置、计算机设备及计算机可读存储介质 | |
CN113723114A (zh) | 基于多意图识别的语义分析方法、装置、设备及存储介质 | |
CN113157677A (zh) | 基于信托行为的数据过滤方法及装置 | |
CN111859985A (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN113887941B (zh) | 业务流程生成方法、装置、电子设备及介质 | |
CN114650436B (zh) | 基于后台服务的遥控方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |