CN114298543A - 数据价值的计算方法、装置、可读介质及电子设备 - Google Patents
数据价值的计算方法、装置、可读介质及电子设备 Download PDFInfo
- Publication number
- CN114298543A CN114298543A CN202111627231.1A CN202111627231A CN114298543A CN 114298543 A CN114298543 A CN 114298543A CN 202111627231 A CN202111627231 A CN 202111627231A CN 114298543 A CN114298543 A CN 114298543A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- original
- value
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种数据价值的计算方法、装置、可读介质以及电子设备,所述方法包括:根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,数据分片包括多个待计算数据价值的原始数据;根据各个原始数据集对应的多个数据分片生成多个目标数据集;对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值;整合各个目标数据集对应的数据价值,得到目标数据价值。本申请技术方案实现了基于分散数据的数据价值计算,降低了传统数据价值计算所需要的存储压力,通过分布式计算方式获得目标数据价值,降低了传统数据价值计算所需要的算力开销。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种数据价值的计算方法、装置、可读介质以及电子设备。
背景技术
随着大数据时代的到来,数据资产对于企业来说越来越重要,数据资产(DataAsset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,常见的数据资产有表模型、指标、标签、API、文件等。然而,并非所有的数据都是有价值的,企业要从众多数据资产中挑选出有价值的数据,则需要对数据价值进行计算。目前,数据资产通常是分散存储的,在进行数据价值的计算时,首先要将分散的数据资产汇聚形成数据湖,然后基于该数据湖进行统一价值计算。这种统一汇聚计算的方式首先需要庞大的数据传输开销,同时,数据湖所需的存储空间也是巨大的,此外,由于数据湖中的数据量大,统一计算所需的算力资源也是较高的。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种数据价值的计算方法、装置、可读介质以及电子设备,以解决相关技术中在计算数据价值时需要大量存储资源的问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种数据价值的计算方法,包括:
根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,所述数据分片包括多个待计算数据价值的原始数据;
根据各个原始数据集对应的多个数据分片生成多个目标数据集,其中,所述目标数据集的数量小于或等于一个原始数据集对应的数据分片的数量;
对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值;
整合各个目标数据集对应的数据价值,得到目标数据价值。
根据本申请实施例的一个方面,提供一种数据价值的计算装置,包括
数据分片模块,用于根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,所述数据分片包括多个待计算数据价值的原始数据;
目标数据生成模块,用于根据各个原始数据集对应的多个数据分片生成多个目标数据集,其中,所述目标数据集的数量小于或等于一个原始数据集对应的数据分片的数量;
数据价值计算模块,用于对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值;
数据价值整合模块,用于整合各个目标数据集对应的数据价值,得到目标数据价值。
在本申请的一个实施例中,数据分片模块包括:
流式数据分片单元,用于若所述原始数据集中的原始数据为流式数据,则根据预设时间间隔对所述原始数据集进行分片处理,得到所述原始数据集对应的多个数据分片;
批式数据分片单元,用于若所述原始数据集中的原始数据为批式数据,则根据原始数据集中的原始数据结构或数据量对所述原始数据集进行分片处理,得到所述原始数据集对应的多个数据分片。
在本申请的一个实施例中,目标数据生成模块包括:
数据消息生成单元,用于根据各个原始数据集对应的多个数据分片中的至少一个数据分片,得到多个数据消息;
数据整合单元,用于根据所述多个数据消息进行数据整合,得到目标数据集。
在本申请的一个实施例中,所述数据消息生成单元具体用于:
从所述原始数据集对应的多个数据分片中提取至少一个数据分片,作为目标数据分片,并确定所述目标数据分片的信息摘要值;
根据所述原始数据集对应的数据提供方的私钥对所述信息摘要值进行加密,得到加密摘要信息;
根据所述目标数据分片和所述加密摘要信息生成数据消息。
在本申请的一个实施例中,所述数据整合单元包括:
数据验证单元,用于对各个数据消息分别进行验证;
数据整合子单元,用于若所有数据消息均验证通过,则根据所述多个数据消息进行数据整合,得到目标数据集。
在本申请的一个实施例中,所述数据验证单元具体用于:
根据所述数据消息进行解密,以根据所述数据消息中的目标数据分片生成第一验证信息;
根据所述数据消息对应的数据提供方的公钥对所述数据消息中的加密摘要信息进行解密处理,得到第二验证信息;
若所述第一验证信息与所述第二验证信息一致,则确定所述数据消息验证通过;
若所述第一验证信息与所述第二验证信息不一致,则确定所述数据消息验证不通过。
在本申请的一个实施例中,数据价值整合模块具体用于:
确定各个目标数据集所对应数据价值的整合权重;
根据各个数据价值的整合权重对各个数据价值进行整合,得到目标数据价值。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的数据价值的计算方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器执行所述可执行指令使所述电子设备执行如以上技术方案中的数据价值的计算方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的数据价值的计算方法。
在本申请实施例提供的技术方案中,通过对多个原始数据集分别进行切片处理再生成多个目标数据集,实现了基于分散数据的数据价值计算,即在进行数据价值时,无需预先汇总大量数据,降低了传统数据价值计算所需要的存储压力;并且,对各个目标数据集进行数据价值计算后再将计算结果整合得到目标数据价值,也就是通过分布式计算方式获得目标数据价值,降低了传统数据价值计算所需要的算力开销。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
图2示意性地示出了本申请的一个实施例提供的数据价值的计算方法的流程图。
图3示出了本申请一个实施例提供的应用本申请技术方案的系统架构图。
图4示意性地示出了本申请实施例提供的数据价值的计算装置的结构框图。
图5示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
在本申请的一个实施例中,数据价值的计算方法由服务器130实施。举例而言,服务器130根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,数据分片包括多个待计算数据价值的原始数据,然后服务器130根据各个原始数据集对应的多个数据分片生成多个目标数据集,并对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值。最后服务器130整合各个目标数据集对应的数据价值,得到目标数据价值。
在本申请的一个实施例中,数据价值的计算方法由终端设备110实施。举例而言,终端设备110根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,数据分片包括多个待计算数据价值的原始数据,然后终端设备110根据各个原始数据集对应的多个数据分片生成多个目标数据集,并对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值。最后终端设备110整合各个目标数据集对应的数据价值,得到目标数据价值。
在本申请的一个实施例中,数据价值的计算方法由终端设备110和服务器130共同实施。举例而言,终端设备110根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,所述数据分片包括多个待计算数据价值的原始数据。然后终端设备110将多个数据分片发送到服务器130,服务器130根据各个原始数据集对应的多个数据分片生成多个目标数据集,并对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值。最后服务器130整合各个目标数据集对应的数据价值,得到目标数据价值。
下面结合具体实施方式对本申请提供的数据价值的计算方法做出详细说明。
图2示意性地示出了本申请的一个实施例提供的数据价值的计算方法的流程图,该方法可以由服务器实施,如图1所示的服务器130;该方法也可以由终端设备实施,如图1所示的终端设备110。如图2所示,本申请实施例提供的数据价值的计算方法包括步骤210至步骤240,具体如下:
步骤210、根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,数据分片包括多个待计算数据价值的原始数据。
具体的,原始数据集是待计算数据价值的原始数据所构成的数据集合。在本申请实施例中,一个原始数据集对应一个数据来源,数据来源也就是数据提供方,例如,一个企业中的各个部门所提供的数据集为原始数据集。数据分片是指将一份数据切分为多份数据,在本申请实施例中,对原始数据集进行分片处理,就是将原始数据集切分为多个数据分片,每个数据分片由原始数据集中的部分原始数据构成。
在本申请实施例中,依据预设数据分片规则对原始数据集进行分片处理,该预设数据分片规则可以由用户根据实际需求预先配置。例如,预设数据分片规则可以根据预设数据大小进行数据分片,即得到的数据分片的大小为预设数据大小。又例如,预设数据分片规则可以是根据数据类型进行数据分片,即得到的一个数据分片中的数据属于同一类型的数据。
在本申请的一个实施例中,根据预设数据分片规则对原始数据集进行分片处理的过程可以是:若原始数据集中的原始数据为流式数据,则根据预设时间间隔对原始数据集进行分片处理,得到原始数据集对应的多个数据分片;若原始数据集中的原始数据为批式数据,则根据原始数据集中的原始数据结构或数据量对原始数据集进行分片处理,得到原始数据集对应的多个数据分片。
具体的,流式数据是指以数据流形式存在的数据,流式数据一般根据时间的变化而实时产生,故而流式数据多为实时数据。若原始数据集中的原始数据为流式数据,则根据预设时间间隔对原始数据集进行分片处理,例如,预设时间间隔为5分钟,则一个数据分片包括5分钟内的原始数据。
批式数据是指已经产生,不会随时间变化的数据,故而批式数据多维历史数据。若原始数据集中的原始数据为批式数据,则该数据具备一定的数据结构,数据结构相当于数据所包含的信息的类型,例如,对于用户信息数据,其可能包括用户姓名、用户ID、用户年龄等数据,在进行分片处理时,可以根据用户姓名、用户ID、用户年龄等对数据进行切分,在切分之后,得到的数据分片包括:由用户姓名数据所组成的数据分片、由用户ID数据所组成的数据分片、由用户年龄数据所组成的数据分片。当然,根据需要,也可以将用户姓名和用户ID作为一个数据分片,将用户年龄作为另一个数据分片。基于原始数据集中原始数据的数据结构,还可以采用更加复杂的数据切片方式,本申请实施例不做限制。
若原始数据集中的原始数据为批式数据,则还可以根据原始数据集的数据量对其进行分片处理。例如,原始数据集的数据量为1GB,若将其均分为4个数据分片,则每个数据分片所包含的数据量(也称为数据分片的大小)为256MB。
步骤220、根据各个原始数据集对应的多个数据分片生成多个目标数据集,其中,目标数据集的数量小于或等于一个原始数据集对应的数据分片的数量。
具体的,目标数据集是数据价值计算时实际使用到的数据。一般的,数据价值计算通常多种数据联合计算,单一的数据无法计算其价值,故而需要从各个原始数据集中提取数据分片来组成目标数据集。在本申请实施例,目标数据集包括每个原始数据集中的数据,而原始数据集中的数据由数据分片体现,那么,目标数据集中包括每个原始数据集中的至少一个数据分片,也就是从每个原始数据集中提取至少一个数据分片,形成一个目标数据集。由此可以看出,目标数据集的数量小于一个或等于一个原始数据集对应的数据分片的数量。
在本申请的一个实施例中,生成目标数据集的方法是:从每个原始数据集中提取一个数据分片,将提取的所有数据分片构成一个目标数据集。
在本申请的一个实施例中,生成多个目标数据集的方法可以是:根据各个原始数据集对应的多个数据分片中的至少一个数据分片,得到多个数据消息;根据多个数据消息进行数据整合,得到目标数据集。
在本申请的一个实施例中,原始数据集由数据提供方提供,而数据价值计算通常由计算节点进行。在本申请实施例中,一个数据提供方对应一个原始数据集,并且,采用多个计算节点分别进行数据价值计算,那么,由原始数据集生成目标数据集,相当于是多个数据提供方和多个计算节点之间的交互。
具体的,数据提供方从原始数据集的多个数据分片中提取至少一个数据分片,将其发送至计算节点。计算节点将所有数据提供方发送的数据分片进行数据整合,生成目标数据集。当有多个计算节点时,一个数据提供方将其对应的数据分片分成三份,并分别发送至各个计算节点,每个计算节点将所有数据提供方发送的数据分片进行数据整合,生成目标数据集。
示例性的,有3个数据提供方(记为数据提供方A、数据提供方B和数据提供方C)和3个计算节点(记为计算节点A、计算节点B和计算节点C),每个数据提供方的原始数据集包括3个数据分片。那么,数据提供方A将其对应的3个数据分片分别发送至3个计算节点,数据提供方B将其对应的3个数据分片分别发送至3个计算节点,数据提供方C将其对应的3个数据分片分别发送至3个计算节点。如此,计算节点A接收到数据提供方A的一个数据分片、数据提供方B的一个数据分片以及数据提供方C的一个数据分片,计算节点A将这三个数据分片进行数据整合,生成目标数据集。计算节点B接收到数据提供方A的一个数据分片、数据提供方B的一个数据分片以及数据提供方C的一个数据分片,计算节点B将这三个数据分片进行数据整合,生成目标数据集。计算节点C接收到数据提供方A的一个数据分片、数据提供方B的一个数据分片以及数据提供方C的一个数据分片,计算节点C将这三个数据分片进行数据整合,生成目标数据集。
在本申请的一个实施例中,数据提供方采用秘密分享机制将数据分片发送至计算节点,具体可以是:从原始数据集对应的多个数据分片中提取至少一个数据分片,作为目标数据分片,并确定目标数据分片的信息摘要值;根据原始数据集对应的数据提供方的私钥对信息摘要值进行加密,得到加密摘要信息;根据目标数据分片和加密摘要信息生成数据消息。然后将数据消息发送至计算节点,以便计算节点生成目标数据集。
具体的,首先提取一个数据分片作为目标数据分片,目标数据分片是需要发送至计算节点的数据分片。然后计算目标数据分片的信息摘要值,可以通过哈希算法计算信息摘要值,具体而言,选择一个随机数添加至目标数据分片,然后计算添加随机数之后的目标数据分片的哈希值,该哈希值就散目标数据分片的信息摘要值。
在本申请的一个实施例中,数据价值计算通常由设定的计算任务触发或指定,故而在计算信息摘要值时,可以将计算任务的任务信息T与目标数据分片D融合,形成消息M=T||D。然后对该消息M=T||D条件随机数,并使用哈希函数h(.)进行计算,得到信息摘要值H=h(M)。
在确定信息摘要值之后,利用数据提供方的私钥对信息摘要值进行加密,得到加密摘要信息。其中,数据提供方具有一密钥对,该密钥对基于非对称加密算法生成,包括公钥和私钥,对信息摘要值进行加密处理的私钥为该密钥对中的私钥。最后对目标数据分片和加密摘要信息再次进行非对称加密处理,生成数据消息。计算节点也具有一基于非对称加密算法生成的密钥对,包括公钥和私钥,在数据提供方发送数据之前,数据提供方与计算节点需要先交换各自的公钥,在最后的非对称加密处理过程中,是利用计算节点的公钥对目标数据分片和加密摘要信息进行非对称加密处理生成数据消息。
在本申请的一个实施例中,计算节点在接收到各个数据提供方发送的数据消息后,首先对各个数据消息分别进行验证,若所有数据消息均验证通过,则根据多个数据消息进行数据整合,得到目标数据集。
具体的,对数据消息进行验证,是为了确保接收到的目标数据分片的完整性。若验证通过,则说明数据消息中的目标数据分片是完整的,在传输过程中没有被篡改。若验证不通过,则说明目标数据分片可能被篡改,这样的数据不可用。因此,当所有数据消息都验证通过时,计算节点才进行数据整合生成目标数据集,以保证进行数据价值计算所使用的数据没有被篡改,从而确保数据价值计算结果的准确性。
在本申请的一个实施例中,对数据消息进行验证的具体过程包括:根据数据消息中的目标数据分片生成第一验证信息;根据数据消息对应的数据提供方的公钥对数据消息中的加密摘要信息进行解密处理,得到第二验证信息;若第一验证信息与第二验证信息一致,则确定数据消息验证通过;若第一验证信息与第二验证信息不一致,则确定数据消息验证不通过。
具体的,由于数据消息经过数据提供方的加密处理,故而计算节点在接收到数据消息时,首先要对其进行解密处理。计算节点利用自身私钥对数据消息进行解密,得到目标数据分片和加密摘要信息。接下来,计算节点对目标数据分片使用哈希算法,得到第一验证信息,计算节点所使用的哈希算法与数据提供方计算目标数据分片的信息摘要值所用哈希算法相同。同时,计算节点使用数据提供方的公钥对加密摘要信息进行解密,得到第二验证信息。最后,将第一验证信息和第二验证信息进行对比,若二者一致,则说明目标数据分片未被篡改,验证通过;若二者不一致,则说明目标数据分片被篡改,验证不通过。
在本申请的一个实施例中,当数据消息验证不通过时,计算节点可以向数据提供方反馈验证不同的消息,以使数据提供方重新发送带有目标数据分片的数据消息。
在本申请的一个实施例中,数据提供方在将目标数据分片发送至计算节点时,还可以计算一验证参数V1=H*RE mod n,n为数据提供方的公开参数,计算节点可以提前获取。将该验证参数与目标数据分片一起发送至计算节点。计算节点在接收到目标数据分片时,可以基于该验证参数进行验证处理α1=Vd1 mod n。当所有目标数据分片验证通过,计算节点通过整合函数f(*)进行数据整合,得到目标数据集α2=Fd mod n。
步骤230、对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值。
具体的,对各个目标数据集分别进行数据价值计算,是指通过不同的计算节点分别进行数据价值计算,例如,一个计算节点对应一个目标数据集,每个计算计算对各自的目标数据集进行数据价值计算,得到各个目标数据集对应的数据价值。
示例性的,有3个目标数据集(记为目标数据集1、目标数据集2和目标数据集3)和3个计算节点(记为计算节点A、计算节点B和计算节点C)。目标数据集1为数据资产的细节数据,如调用方式An、使用量Bn等,计算节点A对目标数据集1进行数据价值计算,得到数据价值A。在计算过程中,首先根据数据访问类型对目标数据集中的数据进行量化处理,如API/SQL赋值5/3;然后基于量化数据计算初始数据价值A′=∑AnBn,最后对初始数据价值A′进行归一化处理,得到数据价值A。
目标数据集2为数据资产的依赖关系数据Cn,计算节点B对目标数据集2进行数据价值计算,得到数据价值C。在计算过程中,首先得到数据资产访问度A,然后计算初始数据价值C′=∑CnAn,最后对初始数据价值C′进行归一化处理,得到数据价值C。
目标数据集3为数据资产的频度数据Dn,计算节点C对目标数据集3进行数据价值计算,得到数据价值D。在计算过程中,首先根据原有数据频级量化,如高/中/低量化为1/2/3;然后计算初始数据价值D′=∑DnAn,最后对初始数据价值D′进行归一化处理,得到数据价值D。
步骤240、整合各个目标数据集对应的数据价值,得到目标数据价值。
具体的,最后将各个计算节点所得到的数据价值进行汇总整合,得到总体数据的目标数据价值。
在本申请的一个实施例中,整合过程可以是:确定各个目标数据集所对应数据价值的整合权重;根据各个数据价值的整合权重对各个数据价值进行整合,得到目标数据价值。
示例性的,基于上述示例中的数据价值A、数据价值C和数据价值D,对应权重分别是权重1、权重2和权重3,则目标数据价值R=A*权重1+C*权重2+D*权重3。
在本申请实施例提供的技术方案中,通过对多个原始数据集分别进行切片处理再生成多个目标数据集,实现了基于分散数据的数据价值计算,即在进行数据价值时,无需预先汇总大量数据,降低了传统数据价值计算所需要的存储压力;并且,对各个目标数据集进行数据价值计算后再将计算结果整合得到目标数据价值,也就是通过分布式计算方式获得目标数据价值,降低了传统数据价值计算所需要的算力开销。
示例性的,图3示出了本申请一个实施例提供的应用本申请技术方案的系统架构图。如图3所示,该系统架构包括数据分片模块310、计算模块320和整合模块330。
数据分片模块310包括3个原始数据集:A域数据311、B域数据312和C域数据313,对每个原始数据集进行数据分片处理,使得每个原始数据集都切分为3个数据分片。
计算模块320包括3个计算节点:计算节点321、计算节点322和计算节点323。每个原始数据集将3个数据分片分别发送至3个计算节点,如此,计算节点321可以根据A域数据311的一个数据分片、B域数据312的一个数据分片和C域数据313的一个数据分片整合得到目标数据集1;计算节点322可以根据A域数据311的一个数据分片、B域数据312的一个数据分片和C域数据313的一个数据分片整合得到目标数据集2;计算节点323可以根据A域数据311的一个数据分片、B域数据312的一个数据分片和C域数据313的一个数据分片整合得到目标数据集3。
各个计算节点对各自的目标数据集进行数据价值计算,得到数据价值1、数据价值2和数据价值3。最后整合模块330对数据价值1、数据价值2和数据价值3,得到最终的目标数据价值。
本申请实施例的技术方案基于充分满足数据分散的现实特点,通过临近数据位置布置系统节点,以小数据量的数据分片和交叉联合计算来节省大量数据汇聚传输的带宽开销。同时,通过各节点的特征传输和特征值汇总计算,以轻量化的计算开销来解决传统模式的存储压力和巨大的算力开销。在保证完整性和可实现性的基础上,能够以一种较小数据交换传输计算和存储需求以及轻量化的算力开销对数据资产价值进行计算。
本发明涉及技术均较为可靠,部署成本较低,部署方式也较为灵活,可工程化实现,对现有技术能够并存和优化。本专利适用的应用场景:可提供在关键数据识别、防护等级判断、防护成效性等多类数据安全防护方面的应用。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的数据价值的计算方法。图4示意性地示出了本申请实施例提供的数据价值的计算装置的结构框图。如图4所示,该装置包括:
数据分片模块410,用于根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,所述数据分片包括多个待计算数据价值的原始数据;
目标数据生成模块420,用于根据各个原始数据集对应的多个数据分片生成多个目标数据集;
数据价值计算模块430,用于对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值;
数据价值整合模块440,用于整合各个目标数据集对应的数据价值,得到目标数据价值。
在本申请的一个实施例中,数据分片模块410包括:
流式数据分片单元,用于若所述原始数据集中的原始数据为流式数据,则根据预设时间间隔对所述原始数据集进行分片处理,得到所述原始数据集对应的多个数据分片;
批式数据分片单元,用于若所述原始数据集中的原始数据为批式数据,则根据原始数据集中的原始数据结构或数据量对所述原始数据集进行分片处理,得到所述原始数据集对应的多个数据分片。
在本申请的一个实施例中,目标数据生成模块420包括:
数据消息生成单元,用于根据各个原始数据集对应的多个数据分片中的至少一个数据分片,得到多个数据消息;
数据整合单元,用于根据所述多个数据消息进行数据整合,得到目标数据集。
在本申请的一个实施例中,所述数据消息生成单元具体用于:
从所述原始数据集对应的多个数据分片中提取至少一个数据分片,作为目标数据分片,并确定所述目标数据分片的信息摘要值;
根据所述原始数据集对应的数据提供方的私钥对所述信息摘要值进行加密,得到加密摘要信息;
根据所述目标数据分片和所述加密摘要信息生成数据消息。
在本申请的一个实施例中,所述数据整合单元包括:
数据验证单元,用于对各个数据消息分别进行验证;
数据整合子单元,用于若所有数据消息均验证通过,则根据所述多个数据消息进行数据整合,得到目标数据集。
在本申请的一个实施例中,所述数据验证单元具体用于:
根据所述数据消息进行解密,以根据所述数据消息中的目标数据分片生成第一验证信息;
根据所述数据消息对应的数据提供方的公钥对所述数据消息中的加密摘要信息进行解密处理,得到第二验证信息;
若所述第一验证信息与所述第二验证信息一致,则确定所述数据消息验证通过;
若所述第一验证信息与所述第二验证信息不一致,则确定所述数据消息验证不通过。
在本申请的一个实施例中,数据价值整合模块440具体用于:
确定各个目标数据集所对应数据价值的整合权重;
根据各个数据价值的整合权重对各个数据价值进行整合,得到目标数据价值。
本申请各实施例中提供的数据价值的计算装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图5示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图5示出的电子设备的计算机系统500仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理器501(Central Processing Unit,CPU),其可以根据存储在只读存储器502(Read-Only Memory,ROM)中的程序或者从存储部分508加载到随机访问存储器503(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器503中,还存储有系统操作所需的各种程序和数据。中央处理器501、在只读存储器502以及随机访问存储器503通过总线504彼此相连。输入/输出接口505(Input/Output接口,即I/O接口)也连接至总线504。
以下部件连接至输入/输出接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至输入/输出接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理器501执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者处理用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质处理,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种数据价值的计算方法,其特征在于,包括:
根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,所述数据分片包括多个待计算数据价值的原始数据;
根据各个原始数据集对应的多个数据分片生成多个目标数据集,其中,所述目标数据集的数量小于或等于一个原始数据集对应的数据分片的数量;
对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值;
整合各个目标数据集对应的数据价值,得到目标数据价值。
2.根据权利要求1所述的数据价值的计算方法,其特征在于,根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,包括:
若所述原始数据集中的原始数据为流式数据,则根据预设时间间隔对所述原始数据集进行分片处理,得到所述原始数据集对应的多个数据分片;
若所述原始数据集中的原始数据为批式数据,则根据原始数据集中的原始数据结构或数据量对所述原始数据集进行分片处理,得到所述原始数据集对应的多个数据分片。
3.根据权利要求1所述的数据价值的计算方法,其特征在于,根据各个原始数据集对应的多个数据分片生成多个目标数据集,包括:
根据各个原始数据集对应的多个数据分片中的至少一个数据分片,得到多个数据消息;
根据所述多个数据消息进行数据整合,得到目标数据集。
4.根据权利要求3所述的数据价值的计算方法,其特征在于,根据各个原始数据集对应的多个数据分片中的至少一个数据分片,得到多个数据消息,包括:
从所述原始数据集对应的多个数据分片中提取至少一个数据分片,作为目标数据分片,并确定所述目标数据分片的信息摘要值;
根据所述原始数据集对应的数据提供方的私钥对所述信息摘要值进行加密,得到加密摘要信息;
根据所述目标数据分片和所述加密摘要信息生成数据消息。
5.根据权利要求4所述的数据价值的计算方法,其特征在于,根据所述多个数据消息进行数据整合,得到目标数据集,包括:
对各个数据消息分别进行验证;
若所有数据消息均验证通过,则根据所述多个数据消息进行数据整合,得到目标数据集。
6.根据权利要求5所述的数据价值的计算方法,其特征在于,对各个数据消息分别进行验证,包括:
根据所述数据消息进行解密,以根据所述数据消息中的目标数据分片生成第一验证信息;
根据所述数据消息对应的数据提供方的公钥对所述数据消息中的加密摘要信息进行解密处理,得到第二验证信息;
若所述第一验证信息与所述第二验证信息一致,则确定所述数据消息验证通过;
若所述第一验证信息与所述第二验证信息不一致,则确定所述数据消息验证不通过。
7.根据权利要求1所述的数据价值的计算方法,其特征在于,整合各个目标数据集对应的数据价值,得到目标数据价值,包括:
确定各个目标数据集所对应数据价值的整合权重;
根据各个数据价值的整合权重对各个数据价值进行整合,得到目标数据价值。
8.一种数据价值的计算装置,其特征在于,包括:
数据分片模块,用于根据预设数据分片规则对多个原始数据集分别进行分片处理,得到各个原始数据集对应的多个数据分片,所述数据分片包括多个待计算数据价值的原始数据;
目标数据生成模块,用于根据各个原始数据集对应的多个数据分片生成多个目标数据集,其中,所述目标数据集的数量小于或等于一个原始数据集对应的数据分片的数量;
数据价值计算模块,用于对各个目标数据集分别进行数据价值计算,得到各个目标数据集对应的数据价值;
数据价值整合模块,用于整合各个目标数据集对应的数据价值,得到目标数据价值。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任意一项所述的数据价值的计算方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器执行所述可执行指令使所述电子设备执行权利要求1至7中任意一项所述的数据价值的计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111627231.1A CN114298543A (zh) | 2021-12-28 | 2021-12-28 | 数据价值的计算方法、装置、可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111627231.1A CN114298543A (zh) | 2021-12-28 | 2021-12-28 | 数据价值的计算方法、装置、可读介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114298543A true CN114298543A (zh) | 2022-04-08 |
Family
ID=80972437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111627231.1A Pending CN114298543A (zh) | 2021-12-28 | 2021-12-28 | 数据价值的计算方法、装置、可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298543A (zh) |
-
2021
- 2021-12-28 CN CN202111627231.1A patent/CN114298543A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11902413B2 (en) | Secure machine learning analytics using homomorphic encryption | |
EP4120114A1 (en) | Data processing method and apparatus, smart device and storage medium | |
US11070374B2 (en) | Methods and systems that efficiently and securely store encryption keys | |
CN111080295B (zh) | 一种基于区块链的电子合同处理方法以及设备 | |
US9641340B2 (en) | Certificateless multi-proxy signature method and apparatus | |
CN112182644A (zh) | 一种数据处理方法、装置和电子设备 | |
JP2023501152A (ja) | 許可型ブロックチェーンのためのランダムなノード選択 | |
CN111950030A (zh) | 基于区块链的数据共享存储方法、终端设备和存储介质 | |
CN116491098A (zh) | 使用后量子密码学的基于证书的安全性 | |
US20200044860A1 (en) | System and method for quantum resistant digital signature | |
CN116158052A (zh) | 多密钥加密数据去重 | |
CN113821810A (zh) | 数据处理方法及系统、存储介质及电子设备 | |
WO2021033072A1 (en) | Opaque encryption for data deduplication | |
Ukwuoma et al. | Post-quantum cryptography-driven security framework for cloud computing | |
CN114885325A (zh) | 适用5g网络的调控业务网络安全可信审计方法和系统 | |
Armknecht et al. | Sharing proofs of retrievability across tenants | |
CN112202555A (zh) | 基于信息的属性生成随机数的信息处理方法、装置及设备 | |
CN115357939B (zh) | 一种隐私保护数据计算方法和设备 | |
CN114363094B (zh) | 一种数据分享方法、装置、设备及存储介质 | |
CN111046010A (zh) | 日志储存方法、装置、系统、电子设备和计算机可读介质 | |
CN114298543A (zh) | 数据价值的计算方法、装置、可读介质及电子设备 | |
CN104486311A (zh) | 一种支持可扩展性的远程数据完整性检查方法 | |
KR102019558B1 (ko) | 내재적 인증서를 사용하는 전자서명에 대한 효율적인 서명 검증 방법 | |
CN113890759A (zh) | 文件传输方法、装置、电子设备和存储介质 | |
CN113806441A (zh) | 基于区块链的签名处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |