CN116827682A - 数据处理方法、装置及计算机设备 - Google Patents
数据处理方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN116827682A CN116827682A CN202311064954.4A CN202311064954A CN116827682A CN 116827682 A CN116827682 A CN 116827682A CN 202311064954 A CN202311064954 A CN 202311064954A CN 116827682 A CN116827682 A CN 116827682A
- Authority
- CN
- China
- Prior art keywords
- data
- identification
- identifier
- compression
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 43
- 238000007906 compression Methods 0.000 claims abstract description 653
- 230000006835 compression Effects 0.000 claims abstract description 645
- 238000012545 processing Methods 0.000 claims abstract description 381
- 238000005192 partition Methods 0.000 claims description 187
- 238000001514 detection method Methods 0.000 claims description 92
- 238000000034 method Methods 0.000 claims description 72
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 abstract description 39
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 239000012634 fragment Substances 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 230000006837 decompression Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/46—Secure multiparty computation, e.g. millionaire problem
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请实施例提供一种数据处理方法、装置及计算机设备。该数据处理方法涉及人工智能技术、云技术等技术领域,该数据方法包括:按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取M个数据对象的对象标识;基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息;将对象标识压缩信息发送至第二参与方,以使第二参与方对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识,并基于M个数据对象的对象标识执行数据处理任务。采用本申请实施例,可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置及计算机设备。
背景技术
随着计算机技术的快速发展,需要由多个参与方共同参与执行的数据处理任务给各行各业带来了新的解决方案,促进了行业的高速发展。在数据处理任务中,不同的参与方独立存储、各自维护数据,为了保证数据处理任务能够顺利执行,传统的OLAP(OnlineAnalytical Processing,联机分析处理)需要把不同的参与方分散的数据集中在一起。近年来,受到数据安全保护规则的限制,OLAP不再适用于数据处理任务,OLAP可能会导致各个参与方的数据被泄露,还可能会带来数据安全隐患,这些分散在不同参与方的数据不能直接集中在一起,导致“数据孤岛”的现象普遍存在。
但是,为了保证数据处理任务能够高效顺利地执行,各个“数据孤岛”(即各个参与方)之间仍然需要进行跨网信息传输,并且还对跨网信息传输效率提出较高要求。基于此,在数据安全保护规则越来越完善的情况下,如何在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率,成为当前针对数据处理任务的研究热点。
发明内容
本申请实施例提供了一种数据处理方法、装置及计算机设备,可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
一方面,本申请实施例提供了一种数据处理方法,该数据处理方法包括:
确定待执行的数据处理任务;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;
按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取M个数据对象的对象标识,M为正整数;
基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息;
将对象标识压缩信息发送至第二参与方,以使第二参与方对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识,并基于M个数据对象的对象标识执行数据处理任务。
相应地,本申请实施例提供了一种数据处理装置,该数据处理装置包括:
确定单元,用于确定待执行的数据处理任务;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;
处理单元,用于按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取M个数据对象的对象标识;
处理单元,还用于基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息;
处理单元,还用于将对象标识压缩信息发送至第二参与方,以使第二参与方对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识,并基于M个数据对象的对象标识执行数据处理任务。
在一种实现方式中,处理单元,用于基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息时,具体用于执行如下步骤:
在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段,基准对象标识的关联对象标识分段包括基准对象标识的关联对象标识;
按照压缩长度,确定基准对象标识对应的基准标识压缩信息;
按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;
其中,对象标识压缩信息包括基准对象标识对应的基准标识压缩信息,以及基准对象标识的关联对象标识分段对应的关联标识压缩信息。
在一种实现方式中,在确定基准对象标识以及基准对象标识的关联对象标识分段的过程中,设置有滑动窗口,滑动窗口用于缓存基准对象标识的关联对象标识分段中的关联对象标识;处理单元,用于在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段时,具体用于执行如下步骤:
对M个对象标识进行排序,依次遍历排序后的M个对象标识;在排序后的M个对象标识中,当前遍历的对象标识为对象标识Xi,i为小于或等于M的正整数;
若滑动窗口为空,则将对象标识Xi设置为基准对象标识,并基于对象标识Xi对对象标识Xi+1进行关联分段检测,得到对象标识Xi+1的关联分段检测结果;
若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1属于对象标识Xi的关联对象标识分段,则将对象标识Xi+1添加至滑动窗口中;
若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1不属于对象标识Xi的关联对象标识分段,则将对象标识Xi+1确定为新的基准对象标识。
在一种实现方式中,处理单元,用于在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段时,还用于执行如下步骤:
若滑动窗口不为空,则对对象标识Xi进行关联分段检测,得到对象标识Xi的关联分段检测结果;当前遍历的对象标识为对象标识Xi时,滑动窗口中缓存有目标关联对象标识分段的关联对象标识;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段,则将对象标识Xi添加至滑动窗口中;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段,则确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,并将对象标识Xi作为新的关联对象标识分段中的关联对象标识添加至滑动窗口中;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段,则确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,将对象标识Xi作为新的基准对象标识。
在一种实现方式中,处理单元,用于对对象标识Xi进行关联分段检测,得到对象标识Xi的关联分段检测结果时,具体用于执行如下步骤:
获取目标关联对象标识分段的分段段号;
对对象标识Xi、当前基准对象标识和压缩长度进行运算,确定对象标识Xi所属的分段段号;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号相同,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值等于段号阈值,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值大于段号阈值,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段。
在一种实现方式中,处理单元,用于按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息时,具体用于执行如下步骤:
获取长度为压缩长度的压缩数据位;
根据基准对象标识、基准对象标识的关联对象标识分段的分段段号、以及基准对象标识的关联对象标识分段中的每个关联对象标识,确定每个关联对象标识对应的压缩数据位的位置序号;
在长度为压缩长度的压缩数据位中,将每个关联对象标识对应的压缩数据位设置为第一数值,将除每个关联对象标识对应的压缩数据位外的其他压缩数据位设置为第二数值,得到基准对象标识的关联对象标识分段的初始标识压缩信息;
为基准对象标识的关联对象标识分段的初始标识压缩信息添加压缩标识位,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;压缩标识位被设置为压缩数值,压缩数值表示关联标识压缩信息是被压缩的信息。
在一种实现方式中,处理单元,用于按照压缩长度,确定基准对象标识对应的基准标识压缩信息时,具体用于执行如下步骤:
按照压缩长度,对基准对象标识进行进制转换,得到基准对象标识的初始标识压缩信息;
为基准对象标识的初始标识压缩信息添加压缩标识位,得到基准对象标识对应的基准标识压缩信息;压缩标识位被设置为非压缩数值,非压缩数值表示基准标识压缩信息是未被压缩的信息。
在一种实现方式中,处理单元,还用于执行如下步骤:
根据基准对象标识以及基准对象标识的关联对象标识分段,对M个对象标识进行压缩检测;
若M个对象标识满足压缩条件,则触发执行按照压缩长度,确定基准对象标识对应的基准标识压缩信息;按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;
若M个对象标识不满足压缩条件,则按照压缩长度,分别对M个对象标识进行进制转换,得到M个对象标识的压缩信息;
其中,对象标识压缩信息包括M个对象标识的压缩信息。
在一种实现方式中,处理单元,用于根据基准对象标识以及基准对象标识的关联对象标识分段,对M个对象标识进行压缩检测时,具体用于执行以下任一种:
若每个基准对象标识的关联对象标识分段中均不存在关联对象标识,则确定M个对象标识不满足压缩条件;
若每个基准对象标识的关联对象标识分段中均存在一个关联对象标识,则确定M个对象标识不满足压缩条件。
在一种实现方式中,第一参与方的目标任务数据包括N个数据对象的对象标识,N个数据对象的对象标识是对N个数据对象的初始标识进行重编码得到的,N为大于或等于M的正整数;处理单元,还用于执行如下步骤:
获取N个数据对象的初始标识,N个数据对象的初始标识是基于符号字典中的字符生成的;
按照符号字典中的字符顺序,对N个数据对象的初始标识进行排序,得到排序后的N个数据对象的初始标识;
按照排序后的N个数据对象的初始标识的排列顺序,采用连续的整型数值对N个数据对象的初始标识进行重编码,得到N个数据对象的对象标识。
在一种实现方式中,在第一参与方和第二参与方中,执行数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;第一参与方的目标任务数据是第一参与方的目标数据分区包括的任务数据;处理单元,还用于执行如下步骤:
向第二参与方发送目标数据分区的分区标识;以使第二参与方基于目标数据分区的分区标识,获取第二参与方的目标数据分区,根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据,并按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
另一方面,本申请实施例提供了一种数据处理方法,该数据处理方法包括:
接收数据处理任务的第一参与方发送的对象标识压缩信息;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;对象标识压缩信息是第一参与方基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理得到的;M个数据对象的对象标识是按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取的,M为正整数;
基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识;
根据M个数据对象的对象标识,执行数据处理任务。
相应地,本申请实施例提供了一种数据处理装置,该数据处理装置包括:
通信单元,用于接收数据处理任务的第一参与方发送的对象标识压缩信息;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;对象标识压缩信息是第一参与方基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理得到的;M个数据对象的对象标识是按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取的,M为正整数;
处理单元,用于基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识;
处理单元,还用于根据M个数据对象的对象标识,执行数据处理任务。
在一种实现方式中,处理单元,用于基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识时,具体用于执行如下步骤:
按照压缩长度将对象标识压缩信息分割为多个标识压缩信息;
在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息;
确定基准标识压缩信息对应的基准对象标识;
对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识;
其中,M个数据对象的对象标识包括基准对象标识和关联对象标识分段中的各个关联对象标识。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;处理单元,用于在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息时,具体用于执行如下步骤:
若标识压缩信息的压缩标识位被设置为压缩数值,则确定标识压缩信息为关联标识压缩信息;
若标识压缩信息的压缩标识位被设置为非压缩数值,则确定标识压缩信息为基准标识压缩信息。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;处理单元,用于对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识时,具体用于执行如下步骤:
根据关联标识压缩信息在对象标识压缩信息中的排列顺序,确定关联对象标识分段的分段段号,以及关联对象标识分段对应的目标基准对象标识;
获取关联标识压缩信息的压缩数据位中被设置为第一数值的目标压缩数据位;
对分段段号、目标基准对象标识以及每个目标压缩数据位的位置序号进行计算,得到每个目标压缩数据位所表示的对象标识;
将每个目标压缩数据位所表示的对象标识,确定为关联对象标识分段中的各个关联对象标识。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;处理单元,用于确定基准标识压缩信息对应的基准对象标识时,具体用于执行如下步骤:
对基准标识压缩信息的压缩数据位中的数值进行进制转换,得到基准标识压缩信息对应的基准对象标识。
在一种实现方式中,在第一参与方和第二参与方中,执行数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;第一参与方的目标任务数据是第一参与方的目标数据分区包括的任务数据;通信单元,还用于执行如下步骤:
接收第一参与方发送的目标数据分区的分区标识;
处理单元,用于根据M个数据对象的对象标识,执行数据处理任务时,具体用于执行如下步骤:
根据目标数据分区的分区标识,获取第二参与方的目标数据分区;
根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据;
按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
相应地,本申请实施例提供一种计算机设备,该计算机设备包括:
处理器,适于实现计算机程序;
计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行上述的数据处理方法。
相应地,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的数据处理方法。
相应地,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据处理方法。
本申请实施例中,任务数据中数据对象的对象数据是执行数据处理任务真正所需的数据,数据处理任务的各个参与方之间不直接传输任务数据中数据对象的对象数据,而是传输任务数据中数据对象的对象标识,这样可以保护数据处理任务的各个参与方的数据不被泄露;在此基础上,本申请实施例可以对数据对象的对象标识进行压缩处理后传输,压缩后传输的数据量变小,这样可以提升数据处理任务的各个参与方之间的跨网信息传输效率。可见,本申请实施例可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理任务的概念示意图;
图2是本申请实施例提供的一种安全样本对齐的示意图;
图3是本申请实施例提供的一种跨网信息传输的示意图;
图4是本申请实施例提供的另一种跨网信息传输的示意图;
图5是本申请实施例提供的一种数据处理系统的架构示意图;
图6是本申请实施例提供的一种数据处理方法的交互流程示意图;
图7是本申请实施例提供的一种数据处理任务的提交入口的示意图;
图8是本申请实施例提供的一种数据处理方法的流程示意图;
图9是本申请实施例提供的一种数据分区的示意图;
图10是本申请实施例提供的一种重编码过程的示意图;
图11是本申请实施例提供的一种需要压缩的对象标识的遍历过程示意图;
图12是本申请实施例提供的一种对象标识的压缩过程示意图;
图13是本申请实施例提供的一种对象标识的压缩结果示意图;
图14是本申请实施例提供的另一种数据处理方法的流程示意图;
图15是本申请实施例提供的一种基准标识压缩信息的解压缩处理过程示意图;
图16是本申请实施例提供的一种对象标识压缩信息的解压缩处理结果示意图;
图17是本申请实施例提供的一种压缩效果的数据示意图;
图18是本申请实施例提供的一种数据处理装置的结构示意图;
图19是本申请实施例提供的另一种数据处理装置的结构示意图;
图20是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了能够更清楚地理解本申请实施例提供的技术方案,在此先对本申请实施例涉及的关键术语进行介绍:
(1)数据处理任务:数据处理任务也可以称为多方任务,如图1所示,数据处理任务是指需要由多个参与方共同参与执行的任务,各个参与方中分别部署有执行数据处理任务所需的任务数据,任务数据中可以包括数据对象的对象数据,数据对象的对象数据可以包括数据对象的对象特征。数据处理任务可以包括横向数据处理任务或纵向数据处理任务,数据处理任务的数据处理方向与各个参与方的任务数据中的数据对象之间的关系相关;具体来说,在横向数据处理任务中,各个参与方的任务数据中,相同的对象特征较多,但相同的数据对象较少;而在纵向数据处理任务中,各个参与方的任务数据中,相同的数据对象较多,但相同的对象特征较少;本申请实施例不对数据处理任务的数据处理方向进行限定,本申请实施例以数据处理任务的数据处理方向为纵向,即以数据处理任务为纵向数据处理任务为例进行说明。此外,本申请实施例不对数据处理任务的参与方的数量进行限定,本申请实施例以数据处理任务需要由两个参与方(例如,两个参与方包括第一参与方和第二参与方)共同参与执行为例进行说明。在数据处理任务的执行过程中,需要数据处理任务的各个参与方在安全样本对齐的前提条件下进行跨网信息传输。其中:
1)安全样本对齐:安全样本对齐是指在不暴露敏感信息的情况下,将不同数据源中的数据进行匹配或对齐的过程;为了实现安全样本对齐,通常采用的技术包括同态加密、安全多方计算、以及差分隐私,等等。在本申请实施例中,纵向数据处理任务采用PSI((Private Set Intersection,隐私保护集合交集)技术进行安全样本对齐,纵向数据处理任务的安全样本对齐具体可以是指使得各个参与方的任务数据中包括相同数据对象的不同对象数据的过程,不同对象数据可以是指完全不同的对象特征或不完全相同的对象特征;并且,安全样本对齐后,可以在各个参与方的任务数据中添加初始标识(初始ID(Identity Document))作为各个参与方之间对齐数据的唯一标识,同一数据对象在各个参与方中具备相同的初始标识,初始标识可以用于唯一标识其对应的数据对象。
举例来说,如图2所示,第一参与方部署的任务数据中包括4个数据对象(分别是数据对象1、数据对象2、数据对象3和数据对象4)在对象特征1下的对象数据,第二参与方部署的任务数据中包括5个数据对象(分别是数据对象2、数据对象3、数据对象4、数据对象5和数据对象6)在对象特征2下的对象数据;在安全样本对齐后,第一参与方部署的任务数据和第二参与方部署的任务数据中包括相同数据对象(数据对象2、数据对象3和数据对象4)的不同对象数据,第一参与方部署的任务数据中包括数据对象2、数据对象3和数据对象4在对象特征1下的对象数据,第二参与方的任务数据中包括数据对象2、数据对象3和数据对象4在对象特征2下的对象数据;并且,数据对象2、数据对象3和数据对象4被添加初始标识,数据对象2的初始标识“bcd”唯一标识数据对象2,数据对象3的初始标识“cde”唯一标识数据对象3,数据对象4的初始标识“def”唯一标识数据对象4。
2)跨网信息传输:跨网信息传输是指在不同的计算机网络之间传输信息。在本申请实施例中,跨网信息传输是指在数据处理任务的各个参与方之间传输信息;基于数据安全保护规则的限制,数据处理任务的各个参与方之间传输的信息为数据对象的标识,标识发送方可以认为是第一参与方,标识接收方可以认为是第二参与方,当数据处理任务需要由两个以上的多个参与方共同参与执行时,可以理解为,在两个以上的多个参与方中,除第一参与方外的其他参与方均为第二参与方;基于数据处理任务执行性能的考虑,数据处理任务的任务要求规定基于Mini-batch(小批量)的标识进行传输。在本申请实施例中,跨网信息传输的过程如图3所示,具体可以包括:
①在第一参与方和第二参与方之间进行安全样本对齐后,第一参与方按照数据处理任务的任务要求(数据处理任务的任务要求可以通过数据处理任务的数据处理算法协议进行定义),从第一参与方的任务数据中选取需要发送的数据对象的初始标识组成初始标识集合(初始ID Set);
②第一参与方将初始标识集合发送至第二参与方;
③第二参与方接收初始标识集合;
④第二参与方按照数据处理任务的任务要求,对初始标识集合中的初始标识对应的数据对象的对象数据进行数据处理,以执行数据处理任务。
(2)信息压缩。信息压缩是指通过使用各种算法和技术,在不损失信息质量的前提下,减少信息的存储空间或传输带宽的过程。常用的信息压缩方法包括有损信息压缩和无损信息压缩;有损信息压缩会舍弃一些细节和信息,以减小信息的数据量,例如,图像和音频文件的压缩;无损信息压缩则保留所有的信息,但通过压缩算法来减少存储空间,例如,文本文件和程序代码的压缩。信息压缩技术广泛应用于计算机文件的传输和存储,以及数字媒体的编码和解码等领域。在本申请实施例中,信息压缩具体可以是指对从任务数据中选取的数据对象的标识进行压缩处理,提升数据对象的标识的传输效率。
基于上述关键术语的介绍,本申请实施例提出一种数据处理方法,本申请实施例提出的数据处理方法如图4所示,具体可以包括:在第一参与方和第二参与方之间进行安全样本对齐后,第一参与方和第二参与方可以对部署的任务数据中数据对象的初始标识进行重编码,重编码的目的是将原始字符串类型的初始标识重编码为连续整型的对象标识,减少了数据编码空间,减少需要压缩的数据量,并且,连续整型的对象标识相比于字符串类型的初始标识更易于压缩。然后,第一参与方可以按照数据处理任务的任务要求,从第一参与方的任务数据中选取需要发送的目标数据对象的对象标识,组成需要发送的对象标识集合(对象ID Set),第一参与方可以对需要发送的对象标识集合进行压缩处理,将压缩处理得到的对象标识压缩信息发送至第二参与方。第二参与方可以对压缩处理得到的对象标识压缩信息进行解压缩处理,得到对象标识集合(即目标数据对象的对象标识),然后,可以对目标数据对象的对象标识进行解码处理,得到目标数据对象的初始标识,然后,第二参与方可以根据目标数据对象的初始标识,获取目标数据对象的对象数据进行数据处理,以执行数据处理任务。
不难看出,本申请实施例在数据处理任务的各个参与方之间传输的数据对象的标识,而不是传输数据对象的对象数据,保护数据对象的对象数据不被泄露;并且,通过对数据对象的初始标识进行重编码,可以减少需要压缩的数据量,降低标识压缩难度;通过对重编码得到的数据对象的对象标识进行压缩处理,可以提升数据处理任务的各个参与方之间的跨网信息传输效率,从而可以在一定程度上提升数据处理任务的执行效率。
还需说明的是,本申请实施例提出的数据处理方法还可以涉及人工智能技术、云技术等技术领域。其中:
本申请实施例提供的数据处理方法中所提及的数据处理任务可以是人工智能技术领域中的机器学习模型训练任务,例如,图像处理模型、文本处理模型、语音处理模型、以及音频处理模型等机器学习模型的训练任务,也就是说,机器学习模型训练任务的各个参与方中部署的任务数据为机器学习模型的训练样本数据,机器学习模型训练任务的各个参与方可以共同参与训练机器学习模型。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
本申请实施例提供的数据处理方法中所提及的信息压缩过程可以借助云计算技术提供的计算能力,提升信息压缩效率,从而,可以在一定程度上提升数据处理任务的各个参与方之间的跨网信息传输效率。云计算(Cloud Computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。
下面结合附图,对适于实现本申请实施例提供的数据处理方法的数据处理系统进行介绍。
如图5所示,数据处理系统中可以包括第一参与方501和至少一个第二参与方502,第一参与方501与至少一个第二参与方502之间可以通过有线通信的方式建立直接的通信连接,或者,第一参与方501与至少一个第二参与方502之间可以通过无线通信的方式建立间接的通信连接。其中,第一参与方501和第二参与方502均可以是由多个计算节点组成的分布式系统,分布式系统是指由多台分散的设备经通信网络连接形成的系统,分布式系统的处理和控制功能分布各个设备上。
其中,组成第一参与方501或任一个第二参与方502的计算节点可以包括终端或服务器。本申请实施例提及的终端可以包括以下任一种:智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能手表、车载终端、智能家电、以及飞行器等,但并不局限于此。本申请实施例提及的服务器可以是单独的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请实施例对此不进行限定。
在由第一参与方501与至少一个第二参与方502组成的数据处理系统中,数据处理方法可以包括初始化阶段和数据处理阶段,以数据处理系统包括两个参与方(例如,包括第一参与方和第二参与方)为例,初始化阶段和数据处理阶段如图6所示,具体可以包括:
(1)初始化阶段:
在第一参与方和第二参与方之间进行安全样本对齐。在初始化阶段,可以在第一参与方和第二参与方之间进行安全样本对齐,生成第一参与方和第二参与方之间对齐数据的唯一标识(初始标识),在安全样本对齐后,第一参与方的任务数据和第二参与方的任务数据中包括相同数据对象的相同初始标识和相同数据对象的不同对象数据。
(2)数据处理阶段:
1)第一参与方对第一参与方的任务数据进行分区处理,第二参与方对第二参与方的任务数据进行分区处理。通常情况下,任务数据的数据量庞大,第一参与方或第二参与方无法在一台设备(即一个计算节点)上执行所有的任务数据,因此,第一参与方和第二参与方可以对各自的任务数据进行分区处理;分区处理后,在第一参与方和第二参与方中,属于同一数据分区的任务数据是对齐的,可以理解为,属于同一数据分区的任务数据包括相同数据对象的不同对象数据,同一数据对象在各个参与方中具备相同的初始标识。并且,在第一参与方或第二参与方中,可以采用多个计算节点并行处理多个数据分区。
针对第一参与方和至少一个第二参与方之间任一组对应的数据分区(对应的数据分区具有相同的分区标识,例如,任一组对应的数据分区可以表示为第一参与方的目标数据分区和第二参与方的目标数据分区),第一参与方的目标数据分区中包括第一参与方的目标任务数据,第二参与方的目标数据分区中包括第二参与方的目标任务数据,第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的初始标识。
2)第一参与方可以对第一参与方的目标任务数据中的数据对象的初始标识进行重编码,得到第一参与方的目标任务数据中的数据对象的对象标识;第二参与方可以对第二参与方的目标任务数据中的数据对象的初始标识进行重编码,得到第二参与方的目标任务数据中的数据对象的对象标识;第一参与方和第二参与方采用的重编码规则相同,因此,同一数据对象在第一参与方和第二参与方中具备相同的对象标识。
3)第一参与方可以按照数据处理任务的任务要求,在第一参与方的目标任务数据中选取需要发送的目标数据对象的对象标识。
4)第一参与方对目标数据对象的对象标识进行压缩处理,得到对象标识压缩信息。
5)第一参与方将对象标识压缩信息至第二参与方。
6)第二参与方对对象标识压缩信息进行解压缩处理,得到目标数据对象的对象标识。
7)第二参与方对目标数据对象的对象标识进行解码处理,得到目标数据对象的初始标识。
8)第二参与方根据目标数据对象的初始标识,从第二参与方的目标任务数据中获取目标数据对象的对象数据进行数据处理,以执行数据处理任务。
基于上述初始化阶段和数据处理阶段中,第一参与方与第二参与方之间的交互技术流程,可以看出,通过对任务数据进行分区处理,各个数据分区并发进行跨网信息传输(包括重编码和压缩处理),这样可以在重编码和压缩处理提升跨网信息传输效率的基础上,进一步提升跨网信息传输效率,从而进一步提升数据处理任务的执行效率。
需说明的是,数据处理方法可以是在数据处理任务的提交操作下触发执行的,数据处理系统可以向数据处理任务的参与方提供数据处理任务的提交入口,通常情况下,数据处理任务可以由标识发送方(例如,第一参与方)提交。其中,提交入口可以包括以下任一种:命令行启动入口,可视化界面启动入口;命令行启动入口是指:数据处理系统可以向第一参与方提供命令行输入区域,第一参与方的任务提交者可以通过在命令行输入区域中输入任务启动命令,来提交数据处理任务;可视化界面启动入口是指:数据处理系统可以向第一参与方提供任务提交可视化界面,第一参与方的任务提交者可以通过在任务提交可视化界面中执行任务提交操作,来提交数据处理任务。一种示例性的可视化界面启动入口如图7所示,数据处理任务用于进行SQL(Structured Query Language,结构化查询语言)数据分析,可以通过运行任务提交可视化界面中的SQL脚本来提交数据处理任务;SQL脚本具体可以为:select gamename,sum(push_count) from game join flow on game.id = flow.idgroup by gamename,该SQL脚本表达的含义为:以game数据表中存储有第一参与方的任务数据,flow数据表中存储有第二参与方的任务数据为例,在game数据表和flow数据表有相等id的记录中,以gamename字段进行分组,然后组内求push_count字段的总和。
可以理解的是,图5所示的数据处理系统是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面结合附图,对本申请实施例提供的数据处理方法进行详细介绍。
本申请实施例提供一种数据处理方法,该数据处理方法主要介绍第一参与方进行数据分区的过程、对初始标识进行重编码的过程、以及对选取的对象标识进行压缩处理的过程等内容。该数据处理方法可以由图5所示的数据处理系统中的第一参与方执行。如图8所示,该数据处理方法可以包括但不限于以下步骤S801-步骤S804:
S801,确定待执行的数据处理任务,数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识。
数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中可以部署有执行数据处理任务所需的任务数据,此处提及的任务数据具体是指在第一参与方和第二参与方之间进行安全样本对齐后的任务数据,安全样本对齐后,在第一参与方的任务数据和第二参与方的任务数据中,可以包括相同数据对象的相同初始标识和相同数据对象的不同对象数据。
通常情况下,任务数据的数据量庞大,第一参与方或第二参与方无法在一台设备(即一个计算节点)上执行所有的任务数据,因此,第一参与方和第二参与方可以对各自的任务数据进行分区处理;第一参与方对任务数据的分区处理方式与第二参与方对任务数据的分区处理方式是相同的,在此介绍第一参与方对任务数据的分区处理方式,第二参与方对任务数据的分区处理方式具体可以参见第一参与方的关于分区处理的相关描述,便不再赘述。
第一参与方对任务数据的分区处理方式,可以包括:可以获取第一参与方中部署的任务数据的数据总量,具体来说,第一参与方部署的任务数据中,一个数据对象的对象数据可以理解为是一条数据,数据总量可以理解为是第一参与方中部署的任务数据包括的总数据条数;可以获取数据分区的数据承载量,数据承载量是指每个数据分区能够承载的最大数据条数;然后,可以根据第一参与方中部署的任务数据的数据总量和数据分区的数据承载量计算数据分区数量,数据分区数量=数据总量/数据承载量/>,符号“/>”表示向上取整;从而,可以按照数据分区数量,对第一参与方中部署的任务数据进行分区处理,得到多个数据分区。举例来说,第一参与方中部署的任务数据包括350万个数据对象的对象数据,即第一参与方中部署的任务数据包括350万条数据,第一参与方中部署的任务数据的数据总量为350万,每个数据分区最大能够承载100万条数据,即数据分区的数据承载量为100万,可以计算得到数据分区数量=/>350万/100万/>=4;也就是说,对第一参与方中部署的任务数据进行分区处理可以得到4个数据分区,第一个数据分区包括100万条数据,第二个数据分区包括100万条数据,第三个数据分区包括100万条数据,第四个数据分区包括50万条数据。
值得注意的是,第一参与方可以对第一参与方的任务数据进行分区处理,得到多个数据分区,第二参与方可以对第二参与方的任务数据进行分区处理,得到多个数据分区,由于第一参与方的任务数据和第二参与方的任务数据的数据总量相同,并且,第一参与方的任务数据和第二参与方的任务数据是对齐的(对齐可以理解为,在第一参与方的任务数据和第二参与方的任务数据中,可以包括相同数据对象的相同初始标识和相同数据对象的不同对象数据),这样可以使得分区处理后,第一参与方和第二参与方的对应数据分区的任务数据是对齐的(对齐可以理解为,第一参与方和第二参与方的对应数据分区的任务数据包括相同数据对象的不同对象数据和相同数据对象的相同初始标识,对应数据分区具有相同的分区标识)。举例来说,如图9所示,第一参与方的任务数据包括数据对象1-数据对象8在对象特征1下的对象数据,第二参与方的任务数据包括数据对象1-数据对象8在对象特征2下的对象数据;在分区处理后,第一参与方的任务数据和第二参与方的任务数据各被划分为3个数据分区;第一参与方的第一数据分区中包括数据对象1-数据对象3在对象特征1下的对象数据,第一参与方的第二数据分区中包括数据对象4-数据对象6在对象特征1下的对象数据,第一参与方的第三数据分区中包括数据对象7-数据对象8在对象特征1下的对象数据;第二参与方的第一数据分区中包括数据对象1-数据对象3在对象特征2下的对象数据,第二参与方的第二数据分区中包括数据对象4-数据对象6在对象特征2下的对象数据,第二参与方的第三数据分区中包括数据对象7-数据对象8在对象特征2下的对象数据。
进一步地,在第一参与方和第二参与方进行分区处理后,第一参与方和第二参与方各自可以针对每个数据分区的任务数据中数据对象的初始标识进行重编码,得到每个数据分区的任务数据中数据对象的对象标识。需要说明的是,第一参与方的重编码规则和第二参与方的重编码规则相同,在此介绍第一参与方的重编码过程,第二参与方的重编码过程具体可以参见第一参与方的重编码相关描述,便不再赘述。
第一参与方对任一个数据分区的任务数据(可以表示为目标数据分区的目标任务数据)中数据对象的初始标识进行重编码的过程,可以包括:第一参与方的目标任务数据中可以包括N个数据对象的初始标识重编码得到的N个数据对象的对象标识,N为正整数;可以获取N个数据对象的初始标识,N个数据对象的初始标识可以是基于符号字典中的字符生成的字符串类型标识;可以按照符号字典中的字符顺序,对N个数据对象的初始标识进行排序,得到排序后的N个数据对象的初始标识;然后,可以按照排序后的N个数据对象的初始标识的排列顺序,采用连续的整型数值对N个数据对象的初始标识进行重编码,得到N个数据对象的对象标识。举例来说,如图10所示,第一参与方和第二参与方分别按照符号字典中的字符顺序,对目标数据分区包括目标任务数据中的5个数据对象的初始标识进行排序,5个数据对象的初始标识的排序结果为“abc,bcd,efg,lmn,opq”,然后,可以按照排序从0开始采用连续递增的整型数值对5个数据对象的初始标识进行重编码,得到5个数据对象的对象标识为“0,1,2,3,4”。通过将字符串类型的初始标识重编码为连续整型的对象标识,可以减少数据编码空间,例如,字符串类型的初始标识占用30个字节,如果重编码为4个字节的整型对象标识,跨网传输的信息量至少可以降低6倍以上,并且,连续整型的对象标识相比于字符串类型的初始标识更易于压缩。
值得注意的是,由于第一参与方的重编码规则和第二参与方的重编码规则相同,在第一参与方与第二参与方的对应数据分区中,同一数据对象具备相同的初始标识,从而,在第一参与方与第二参与方的对应数据分区中,同一数据对象具备相同的对象标识。以目标数据分区为例,第一参与方的目标数据分区包括第一参与方的目标任务数据,第二参与方的目标数据分区包括第二参与方的目标任务数据,第一参与方的目标任务数据和第二参与方的目标任务数据可以包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识。
更进一步地,第一参与方和第二参与方各自针对每个数据分区的任务数据中数据对象的初始标识进行重编码,得到每个数据分区的任务数据中数据对象的对象标识后,第一参与方和第二参与方可以在并行地在各组对应的数据分区之间进行跨网信息传输,以下步骤S802-介绍S803以任一组对应数据分区(例如,第一参与方的目标数据分区与第二参与方的目标数据分区对应,第一参与方的目标数据分区包括第一参与方的目标任务数据,第二参与方的目标数据分区包括第二参与方的目标任务数据)为例,介绍第一参与方与第二参与方之间的跨网信息传输过程。
S802,按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取M个数据对象的对象标识。
正如前文所描述的,第一参与方的目标任务数据可以包括N个数据对象的对象标识,第一参与方可以按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取需要发送的M个数据对象的对象标识,M为小于或等于N的正整数,即N为大于或等于M的正整数。
S803,基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息。
第一参与方按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取M个数据对象的对象标识后,可以基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息。压缩处理的目标可以参见如下描述:第一参与方的目标任务数据可以包括N个数据对象的对象标识,N个数据对象的对象标识是从0开始采用连续递增的整型数值进行编码得到的,相当于N个数据对象的对象标识组成了对象标识集合D,对象标识集合D是从0到N-1共N个连续自然数组成的连续自然数集合;而从N个数据对象的对象标识中选取的M个数据对象的对象标识组成了对象标识集合X,对象标识集合X相当于是对象标识集合D的子集;因此,压缩处理的目标可以抽象为如下问题模型:如何对对象标识集合X进行压缩处理,使得对象标识集合压缩处理得到的对象标识压缩信息的总长度最小。
为了达成压缩处理的目标,压缩处理的原理可以参见如下描述:在重编码阶段,采用了十进制的整型数值重编码得到数据对象的对象标识,而数据通常是以二进制的形式进行传输的,如果直接将十进制表示的对象标识转换为二进制码流进行传输,将导致对象标识压缩信息的总长度较长,因此,需要将十进制表示的对象标识压缩为更短的二进制码流进行传输。具体操作可以分为三步:第一步是确定压缩长度,压缩长度是指能够表示对象标识集合D(即目标任务数据中的N个数据对象的对象标识)的自然数空间的最小二进制位数。第二步是在选取的M个数据对象的对象标识中,确定基准对象标识和以基准对象标识为基准的关联对象标识分段,关联对象标识分段可以包括以基准对象标识为基准的一个或多个关联对象标识,关联对象标识分段以基准对象标识为基准进行压缩处理。第三步是确定基准对象标识对应的基准标识压缩信息,基准对象标识不需要进行压缩,可以直接转换为长度为压缩长度的二进制码流,以及对以基准对象标识为基准的关联对象标识分段进行压缩处理,关联对象标识分段中的一个或多个关联对象标识可以压缩为一个长度为压缩长度的二进制码流。并且,为了区分基准对象标识的二进制码流和关联对象标识分段的二进制码流,可以添加在长度为压缩长度的二进制码流中添加一个压缩标识位,得到最终基准对象标识对应的基准标识压缩信息和关联对象标识分段对应的关联标识压缩信息,从而,对象标识压缩信息可以是包括基准对象标识对应的基准标识压缩信息,以及基准对象标识的关联对象标识分段对应的关联标识压缩信息的二进制码流。
其中,十进制是一种数字系统,用10个不同的数字0-9来表示所有的十进制数;每个位数的权重是10的幂次方,例如,个位的权重是10的0次方,10的0次方是1,十位是10的1次方,10的1次方是10,百位是10的2次方,是10的2次方是100,以此类推;一个十进制数可以表示为各个位数上数字乘以权重后的乘积之和。二进制是一种数字系统,用两个不同的数字0和1来表示所有的二进制数;每个位数的权重是2的幂次方,例如,从右至左第一位是2的0次方,2的0次方是1,第二位是2的1次方,2的1次方是2,第三位是2的2次方,2的2次方是4,以此类推;一个二进制数可以表示为各个位数上数字乘以权重后的乘积之和。
下面详细介绍对从目标任务数据中选取的M个数据对象的对象标识进行压缩处理的三步:
(1)第一步:确定第一参与方的目标任务数据对应的压缩长度。
正如前文所描述的,压缩长度是指能够表示对象标识集合D(即目标任务数据中的N个数据对象的对象标识)的自然数空间的最小二进制位数,对象标识集合D的自然数空间为0到N-1,长度为m的二进制编码可以表示的自然数空间为0到2m-1,因此,可以根据公式N≤2m来确定第一参与方的目标任务数据对应的压缩长度m。并且,为了区分是否需要进行压缩,还需要添加一个压缩标识位,因此,压缩长度可以得到不包含压缩标识位的压缩长度m和包含压缩标识位的压缩长度m+1。
(2)第二步:在M个数据对象的对象标识(即M个对象标识)中确定基准对象标识,以及基准对象标识对应的关联对象标识分段。
在M个数据对象的对象标识(即M个对象标识)中确定基准对象标识,以及基准对象标识对应的关联对象标识分段的过程,可以包括:对M个对象标识进行排序,依次为遍历排序后的M个对象标识,在排序后的M个对象标识中,当前遍历的对象标识为对象标识Xi,i为小于或等于M的正整数。在依次为遍历排序后的M个对象标识的过程中,可以采用offset指针指向基准对象标识的位置(offset指针的初始值可以为-1);可以采用滑动窗口缓存基准对象标识的关联对象标识分段中的关联对象标识,关联对象标识分段具备的分段长度为不包含压缩标识位的压缩长度m;可以采用head指针指向滑动窗口的头部对象标识的位置(head指针的初始值可以为-1);可以采用current指针指向当前遍历的对象标识Xi(current指针的初始值可以为-1)。
对于当前遍历的对象标识Xi,存在两种滑动窗口为空和滑动窗口不为空两种情况:
1)滑动窗口为空:
若滑动窗口为空,则可以将对象标识Xi设置为基准对象标识Xh,并基于对象标识Xi对对象标识Xi+1进行关联分段检测,得到对象标识Xi+1的关联分段检测结果。其中,基于对象标识Xi对对象标识Xi+1进行关联分段检测,具体可以包括:计算对象标识Xi+1所属对象标识Xi(即基准对象标识Xh)的关联对象标识分段的分段段号,计算公式为:分段段号=(Xi+1-Xh-1)/m;如果计算得到的分段段号等于目标分段段号(例如,目标分段段号为0),可以生成对象标识Xi+1的关联分段检测结果,对象标识Xi+1的关联分段检测结果可以指示对象标识Xi+1属于对象标识Xi的关联对象标识分段(具体可以是第0个关联标识分段);如果计算得到的分段段号大于目标分段段号(例如,目标分段段号为0),可以生成对象标识Xi+1的关联分段检测结果,对象标识Xi+1的关联分段检测结果可以指示对象标识Xi+1不属于对象标识Xi的关联对象标识分段(具体可以是第0个关联标识分段)。进一步地:
①若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1属于对象标识Xi的关联对象标识分段(具体可以是第0个关联标识分段),则可以将对象标识Xi+1添加至滑动窗口中。
②若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1不属于对象标识Xi的关联对象标识分段(具体可以是第0个关联标识分段),则可以将对象标识Xi+1确定为新的基准对象标识。
2)滑动窗口不为空:
滑动窗口不为空的情况如图11所示:若滑动窗口不为空,则可以对对象标识Xi进行关联分段检测,得到对象标识Xi的关联分段检测结果;当前遍历的对象标识为对象标识Xi时,滑动窗口中缓存有目标关联对象标识分段的关联对象标识。其中,对对象标识Xi进行关联分段检测的过程,可以包括:获取目标关联对象标识分段的分段段号,目标关联对象标识分段的分段段号可以是对滑动窗口缓存的头部对象标识Xt、当前基准对象标识Xh和压缩长度(具体是不包含压缩标识位的压缩长度m)计算得到的,计算公式为:目标关联对象标识分段的分段段号segNo(head)=(Xt-Xh-1)/m;可以对当前遍历的对象标识Xi、当前基准对象标识Xh和压缩长度(具体是不包含压缩标识位的压缩长度m)进行运算,确定当前遍历的对象标识Xi所属的分段段号,计算公式为:当前遍历的对象标识Xi所属的分段段号segNo(current)=(Xi-Xh-1)/m。进一步地:
①如图11所示的情况(a)+情况(b),若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号相同(即segNo(current)=segNo(head)),则可以生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果可以用于指示对象标识Xi属于目标关联对象标识分段。若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段,则可以将对象标识Xi添加至滑动窗口中。
②如图11所示的情况(a)+情况(c),若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值等于段号阈值(例如,段号阈值为1,目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值等于段号阈值可以表示为segNo(current)-segNo(head)=1,或者可以表示为segNo(current)=segNo(head)+1),则可以生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果可以用于指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段。若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段,则可以确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,可以将对象标识Xi作为新的关联对象标识分段(即相邻关联对象标识分段)中的关联对象标识添加至滑动窗口中。
③如图11所示的情况(a)+情况(d),若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值大于段号阈值(例如,段号阈值为1,目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值大于段号阈值可以表示为segNo(current)-segNo(head)>1,或者可以表示为segNo(current)>segNo(head)+1),则可以生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果可以用于指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段。若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段,则可以确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,可以将对象标识Xi作为新的基准对象标识。
基于第二步的内容,确定的基准对象标识对应关联对象标识分段具备以下特点:第一,关联对象标识分段的分段长度为m,最多可以包括m个关联对象标识;第二,关联对象标识分段内的关联对象标识依次递增;第三,关联对象标识分段中任意两个相邻的关联对象标识之间的差值小于m。
为了便于理解,下面结合具体例子介绍在M个数据对象的对象标识(即M个对象标识)中确定基准对象标识,以及基准对象标识对应的关联对象标识分段的过程。目标任务数据包括1000000个数据对象的对象标识,1000000个数据对象的对象标识表示的自然数空间为0到999999(1000000-1),根据公式1000000≤2m可以确定第一参与方的目标任务数据对应的压缩长度m=20。选取的6个数据对象的对象标识组成的对象标识集合为{10,100,101,103,105,116,999999}。
当前遍历的对象标识为对象标识“10”,滑动窗口为空,可以将对象标识“10”作为第一个基准对象标识;对象标识“100”所属第一个基准对象标识“10”的关联对象标识分段的分段段号=(100-10-1)/20=4≠0,表明对象标识“100”不属于第一个基准对象标识的第0个关联对象标识分段,可以将对象标识“100”作为第二个基准对象标识。在此之后,当前遍历的对象标识为对象标识“101”,对象标识“101”所属第二个基准对象标识“100”的关联对象标识分段的分段段号=(101-100-1)/20=0,表明对象标识“101”属于第二个基准对象标识的第0个关联对象标识分段,可以将对象标识“101”添加至滑动窗口中。在此之后,当前遍历的对象标识为对象标识“103”,滑动窗口不为空,对象标识“103”所属第二个基准对象标识“100”的关联对象标识分段的分段段号=(103-100-1)/20=0,与第0个关联对象标识分段的分段段号“0”相等,则可以确定对象标识“103”属于第二个基准对象标识的第0个关联对象标识分段,可以将对象标识“103”添加至滑动窗口中;以此类推,对象标识“105”、对象标识“106”、对象标识“116”均属于第二个基准对象标识的第0个关联对象标识分段,可以将对象标识“105”、对象标识“106”、对象标识“116”添加至滑动窗口中。在此之后,当前遍历的对象标识为对象标识“999999”,滑动窗口不为空,对象标识“999999”所属第二个基准对象标识“100”的关联对象标识分段的分段段号=(999999-100-1)/20=9998,与第0个关联对象标识分段的分段段号“0”之间的段号差值大于段号阈值1,可以确定第二个基准对象标识“100”的第0个关联对象标识分段的关联对象标识检测完毕,可以清空滑动窗口,将对象标识“999999”作为第三个基准对象标识。也就是说,6个数据对象的对象标识组成的对象标识集合{10,100,101,103,105,116,999999}中,包括三个基准对象标识“10”、“100”和“999999”,以及基准对象标识“100”的关联对象标识分段“101,103,105,116”。
(3)第三步:对基准对象标识和基准对象标识对应的关联对象标识分段进行压缩处理。
在M个对象标识中确定基准对象标识和基准对象标识对应的关联对象标识分段后,可以按照压缩长度,确定基准对象标识对应的基准标识压缩信息,以及可以按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息,最终,对象标识压缩信息可以是包括基准对象标识对应的基准标识压缩信息,以及基准对象标识的关联对象标识分段对应的关联标识压缩信息的二进制码流。
其中,按照压缩长度,确定基准对象标识对应的基准标识压缩信息的过程,具体可以包括:按照压缩长度(此处的压缩长度具体是指不包含压缩标识位的压缩长度m),对基准对象标识进行进制转换,得到基准对象标识的初始标识压缩信息;此处的进制转换是指将采用十进制表示的基准对象标识,转换为采用二进制表示的初始标识压缩信息,基准对象标识的初始标识压缩信息是包括m个压缩数据位的二进制码流;然后,可以为基准对象标识的初始标识压缩信息添加压缩标识位,得到基准对象标识对应的基准标识压缩信息;压缩标识位可以被设置为非压缩数值(例如,非压缩数值可以是“0”),非压缩数值可以表示基准标识压缩信息是未被压缩的信息;进一步地,基准对象标识对应的初始标识压缩信息从右至左分别是第0位、第1位、……、第m-1位,压缩标识位可以添加在基准对象标识对应的初始标识压缩信息的第m位,最终可以得到长度为m+1的基准标识压缩信息。举例来说,如图12所示,不包含压缩标识位的压缩长度m=20,将基准对象标识“100”通过进制转换得到基准对象标识对应的初始标识压缩信息“00000000000001100100”,基准对象标识对应的初始标识压缩信息从右至左分别是第0位、第1位、……、第19位,压缩标识位可以添加在基准对象标识对应的初始标识压缩信息的第20位,压缩标识位可以被设置为非压缩数值“0”,最终,可以得到基准对象标识对应的基准标识压缩信息“000000000000001100100”。
按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息的过程,具体可以包括:首先,可以获取长度为压缩长度(此处的压缩长度具体是不包含压缩标识位的压缩长度m)的压缩数据位。其次,根据基准对象标识、基准对象标识的关联对象标识分段的分段段号、以及基准对象标识的关联对象标识分段中的每个关联对象标识,确定每个关联对象标识对应的压缩数据位的位置序号;每个关联对象标识对应的压缩数据位的计算公式为:j= Xc-Xh-1-s×m,其中,j表示关联对象标识对应的压缩数据位的位置序号,Xc表示关联对象标识,Xh表示基准对象标识,s表示关联对象标识所属的关联对象标识分段的分段段号,m表示不包含压缩标识位的压缩长度。然后,可以在长度为所述压缩长度的压缩数据位中,将每个关联对象标识对应的压缩数据位设置为第一数值(例如,第一数值为“1”),将除每个关联对象标识对应的压缩数据位外的其他压缩数据位设置为第二数值(例如,第二数值为“0”)),得到基准对象标识的关联对象标识分段的初始标识压缩信息。再然后,可以为基准对象标识的关联对象标识分段的初始标识压缩信息添加压缩标识位,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;压缩标识位可以被设置为压缩数值(例如,压缩数值可以是“1”),压缩数值表示关联标识压缩信息是被压缩的信息;进一步地,关联对象标识分段的初始标识压缩信息从右至左分别是第0位、第1位、……、第m-1位,压缩标识位可以添加在基准对象标识对应的初始标识压缩信息的第m位,最终可以得到长度为m+1的关联标识压缩信息。
举例来说,如图12所示,不包含压缩标识位的压缩长度m=20,可以获取20个压缩数据位,20个压缩数据位从右至左分别为第0位、第1位、……、第19位。基准对象标识“100”的关联对象标识分段“101,103,105,116”为基准对象标识“100”的第0个关联对象标识分段,分段段号为0(s=0)。关联对象标识“101”对应的压缩标识位为第0位(t[101-100-1-0×20]=t[0]),关联对象标识“103”对应的压缩标识位为第2位(t[103-100-1-0×20]=t[2]),关联对象标识“105”对应的压缩标识位为第4位(t[105-100-1-0×20]=t[4]),关联对象标识“116”对应的压缩标识位为第15位(t[116-100-1-0×20]=t[15])。在20个压缩数据位中,可以将第0位、第2位、第4位、第15位设置为第一数值(例如,第一数值为“1”),将其他压缩数据位设置为第二数值(例如,第二数值为“0”),可以得到基准对象标识的关联对象标识分段的初始标识压缩信息“00001000000000010101”。然后,压缩标识位可以添加在基准对象标识的关联对象标识分段的初始标识压缩信息的第20位,压缩标识位可以被设置为压缩数值“1”,最终,可以得到基准对象标识的关联对象标识分段对应的关联标识压缩信息“100001000000000010101”。
基于上述步骤S803的内容,可以看出,若不进行压缩处理,M个对象标识转换为m位的二进制码流需要占用的存储空间为M×m;若进行压缩处理,M个对象标识可以被压缩处理为p个m+1位的二进制码流,p个m+1位的二进制码流需要占用的存储空间为p×(m+1);也就是说,压缩处理可以减少M×m-p×(m+1)的存储空间,压缩处理可以减少存储空间的条件为M≥3,M>p,p≥2。如图13所示的对象标识集合{10,100,101,103,105,116,999999}的压缩示例,可以更直观看出本申请实施例提出的压缩处理方式能够节省存储空间,如图13中的(a),如果采用32位二进制编码对对象标识集合{10,100,101,103,105,116,999999}进行进制转换,需要占用32×7=224个比特的存储空间;如图13中的(b),如果采用20位二进制编码对对象标识集合{10,100,101,103,105,116,999999}进行进制转换,需要占用20×7=140个比特的存储空间;如图13中的(c),如果采用本申请实施例提出的压缩处理方式对对象标识集合{10,100,101,103,105,116,999999}进行压缩处理,对象标识集合{10,100,101,103,105,116,999999}被压缩为4个21位的标识压缩信息,需要占用21×4=84个比特的存储空间。
需要说明的是,上述第二步和第三步可以是先后执行的,也就是说,可以在确定所有的基准对象标识和基准对象标识的关联对象标识分段后,再确定基准对象标识对应的基准标识压缩信息,以及对关联对象标识分段进行压缩处理。或者,上述第二步和第三步可以是交替执行的,也就是说,可以在确定基准对象标识后,紧接着确定基准对象标识对应的基准标识压缩信息,可以在确定基准对象标识的关联对象标识分段后,紧接着对关联对象标识分段进行压缩处理,得到关联标识压缩信息。
值得注意的是,可能存在某些极端情况,例如,选取的M个对象标识全部都是基准对象标识,或者,全部关联对象标识分段均只包含一个关联对象标识;在这些情况中,如果直接进行进制转换,需要占用M×m个比特的存储空间,如果采用本申请实施例所提供的压缩处理方式,反而需要占用M×(m+1)个比特的存储空间,占用的存储空间更多;因此,对于这些极端情况,可以直接进行进制转换,不进行压缩处理。具体来说,在M个数据对象的对象标识(即M个对象标识)中确定基准对象标识,以及基准对象标识对应的关联对象标识分段之后,可以根据基准对象标识以及基准对象标识的关联对象标识分段,对M个对象标识进行压缩检测。对M个对象标识进行压缩检测的过程,具体可以包括:若每个基准对象标识的关联对象标识分段中均不存在关联对象标识,则可以确定M个对象标识不满足压缩条件;若每个基准对象标识的关联对象标识分段中均存在一个关联对象标识,则可以确定M个对象标识不满足压缩条件;若存在基准对象标识的关联对象分段包含至少两个关联对象标识,则可以确定M个对象标识满足压缩条件。
进一步地,若M个对象标识满足压缩条件,则可以触发执行按照所述压缩长度,确定基准对象标识对应的基准标识压缩信息;按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息。若M个对象标识不满足压缩条件,则可以按照压缩长度(此处的压缩长度具体是指不包含压缩标识位的压缩长度m),分别对M个对象标识进行进制转换,得到M个对象标识的压缩信息,每个对象标识的对象标识压缩信息是长度为m的二进制码流;在此情况下,对象标识压缩信息可以是包括M个对象标识的压缩信息的二进制码流。
S804,将对象标识压缩信息发送至第二参与方,以使第二参与方对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识,并基于M个数据对象的对象标识执行数据处理任务。
在基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息后,第一参与方可以将对象标识压缩信息发送至第二参与方;以使第二参与方对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识,并基于M个数据对象的对象标识执行数据处理任务。
进一步地,第一参与方和第二参与方可以在并行地在各组对应的数据分区之间进行跨网信息传输,为了区分不同的数据分组,第一参与方在传输数据分区的对象标识压缩信息外,还需要传输数据分区的分区标识。具体来说,第一参与方的目标任务数据属于第一参与方的目标数据分区,第一参与方还可以向第二参与方发送目标数据分区的分区标识;以使第二参与方基于目标数据分区的分区标识,获取第二参与方的目标数据分区,根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据,并按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
本申请实施例中,任务数据中数据对象的对象数据是执行数据处理任务真正所需的数据,数据处理任务的各个参与方之间不直接传输任务数据中数据对象的对象数据,而是传输任务数据中数据对象的对象标识,这样可以保护数据处理任务的各个参与方的数据不被泄露;在此基础上,本申请实施例可以对数据对象的对象标识进行压缩处理后传输,压缩后传输的数据量变小,这样可以提升数据处理任务的各个参与方之间的跨网信息传输效率。可见,本申请实施例可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
本申请实施例提供一种数据处理方法,该数据处理方法主要介绍第二参与方对对象标识压缩信息进行解压缩处理的过程。该数据处理方法可以由图5所示的数据处理系统中的第二参与方执行。如图14所示,该数据处理方法可以包括但不限于以下步骤S1401-步骤S1403:
S1401,接收数据处理任务的第一参与方发送的对象标识压缩信息,数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;对象标识压缩信息是第一参与方基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理得到的;M个数据对象的对象标识是按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取的。
S1402,基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识。
第二参与方对对象标识压缩信息的解压缩处理过程,是第一参与方对M个数据对象的对象标识的压缩处理过程的逆过程,第二参与方基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识的过程,具体可以包括:
(1)按照压缩长度将对象标识压缩信息分割为多个标识压缩信息。
正如前文所描述的,对象标识压缩信息可以是包括基准对象标识对应的基准标识压缩信息,以及基准对象标识的关联对象标识分段对应的关联标识压缩信息的二进制码流,是一个整体的码流文件,因此,需要按照压缩长度(此处的压缩长度是指包括压缩标识位的压缩长度m+1)将对象标识压缩信息分割为多个标识压缩信息,每个标识压缩信息的长度为压缩长度m+1。
(2)在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息。
在按照压缩长度将对象标识压缩信息分割为多个标识压缩信息后,需要在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息,基准标识压缩信息恢复为基准对象标识的方式,与关联标识压缩信息恢复为关联对象标识分段中的关联对象标识的方式不同。具体来说,任一标识压缩信息可以包括压缩标识位和压缩数据位,压缩标识位被设置的数值可以用于指示标识压缩信息是否为压缩的信息,压缩数据位被设置的数值是具体的压缩结果;若压缩标识位被设置为压缩数值(例如,压缩数值可以是“1”),则可以表示标识压缩信息是被压缩的信息,标识压缩信息为关联标识压缩信息;若压缩标识位被设置为非压缩数值(例如,非压缩数值可以是“0”),则可以表示标识压缩信息是未被压缩的信息,标识压缩信息为基准标识压缩信息。
进一步地,标识压缩信息的长度为包括压缩标识位的压缩长度m+1,表示标识压缩信息为m+1比特的二进制码流,其中1比特为压缩标识位,m比特为压缩数据位;从右至左分别为标识压缩信息的第0位、第1位、……、第m-1位、第m位,其中,第0位-第m-1位为压缩数据位,第m位为压缩标识位。举例来说,标识压缩信息的长度为压缩长度21,标识压缩信息“100001000000000010101”的第20位为压缩数值“1”,则可以说明标识压缩信息“100001000000000010101”是被压缩的信息,是关联标识压缩信息;标识压缩信息“000000000000001100100”的第20位为非压缩数值“0”,则可以说明标识压缩信息“000000000000001100100”是未被压缩的信息,是基准标识压缩信息。
(3)确定基准标识压缩信息对应的基准对象标识。
确定基准标识压缩信息对应的基准对象标识的过程,具体可以包括:对基准标识压缩信息的压缩数据位中的数值进行进制转换,得到基准标识压缩信息对应的基准对象标识;此处的进制转换是指将采用二进制表示的基准标识压缩信息,转换为采用十进制表示的基准对象标识。举例来说,基准标识压缩信息“000000000000001100100”去掉第20位的剩余20比特“00000000000001100100”为压缩数据位,可以将“00000000000001100100”转换为十进制数值“100”,也就是说,基准标识压缩信息“000000000000001100100”对应的基准对象标识为“100”。
(4)对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识。
对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识的过程,具体可以包括:首先,可以根据关联标识压缩信息在对象标识压缩信息中的排列顺序,确定关联对象标识分段的分段段号,以及关联对象标识分段对应的目标基准对象标识;具体地,在遍历到基准标识压缩信息后,在基准标识压缩信息后遍历到的关联标识压缩信息对应的关联对象标识分段的分段段号从0开始递增,每遍历到一个关联标识压缩信息,其对应的关联对象标识分段的分段段号增加1,在遍历到新的基准标识压缩信息后,在新的基准标识压缩信息遍历到的关联标识压缩信息对应的关联对象标识分段的分段段号重新从0开始递增;关联对象标识分段对应的基准对象标识是由关联对象标识分段的关联标识压缩信息对应的基准标识压缩信息确定的。其次,可以获取关联标识压缩信息的压缩数据位中被设置为第一数值(例如,第一数值为“1”)的目标压缩数据位。然后,可以对分段段号、目标基准对象标识以及每个目标压缩数据位的位置序号进行计算,得到每个目标压缩数据位所表示的对象标识;具体地,计算公式可以为:Xc=Xh+j+1+s×m,其中,j表示目标压缩数据位的位置序号,Xc表示目标压缩数据位对应的关联对象标识,Xh表示目标基准对象标识,s表示关联对象标识所属的关联对象标识分段的分段段号,m表示不包含压缩标识位的压缩长度。再然后,可以将每个目标压缩数据位所表示的对象标识,确定为关联对象标识分段中的各个关联对象标识。
举例来说,如图15所示,关联标识压缩信息“100001000000000010101”对应的关联对象标识分段的分段段号为0(s=0),关联对象标识分段对应的目标基准对象标识为100;去掉第20位的剩余20比特“00001000000000010101”为压缩数据位,其中,被设置为第一数值“1”的目标压缩数据位为第0位、第2位、第4位、以及第15位;第0位所表示的关联对象标识=100+0+1+0×20=101,第2位所表示的关联对象标识=100+2+1+0×20=103,第4位所表示的关联对象标识=100+4+1+0×20=105,第15位所表示的关联对象标识=100+15+1+0×20=116;从而,对关联标识压缩信息“100001000000000010101”进行解压缩处理,可以得到关联对象标识分段{101,103,105,116}。
进一步地,一个完整的对象标识压缩信息的解压缩处理实例如图16所示,对象标识压缩信息被分割为6个标识压缩信息;第一个标识压缩信息的压缩标识位被设置为非压缩数值“0”,表示第一个标识压缩信息为基准标识压缩信息,基准标识压缩信息对应的基准对象标识为100;第二个标识压缩信息的压缩标识位被设置为压缩数值“1”,表示第二个标识压缩信息为关联标识压缩信息,关联标识压缩信息对应的关联对象标识分段的分段段号为0(s=0),对应的目标基准对象标识Xh=100,关联标识压缩信息对应的关联对象标识分段为{101,102,103,120};第三个标识压缩信息的压缩标识位被设置为非压缩数值“0”,表示第三个标识压缩信息为基准标识压缩信息,基准标识压缩信息对应的基准对象标识为200;第四个标识压缩信息的压缩标识位被设置为非压缩数值“0”,表示第四个标识压缩信息为基准标识压缩信息,基准标识压缩信息对应的基准对象标识为400;第五个标识压缩信息的压缩标识位被设置为压缩数值“1”,表示第四个标识压缩信息为关联标识压缩信息,关联标识压缩信息对应的关联对象标识分段的分段段号为0(s=0),对应的目标基准对象标识Xh=400,关联标识压缩信息对应的关联对象标识分段为{408,409,410,411};第六个标识压缩信息的压缩标识位被设置为压缩数值“1”,表示第六个标识压缩信息为关联标识压缩信息,关联标识压缩信息对应的关联对象标识分段的分段段号为1(s=1),对应的目标基准对象标识Xh=400,关联标识压缩信息对应的关联对象标识分段为{423,426,427};可见,对对象标识压缩信息进行解压缩处理可以得到的对象标识集合为{100,101,102,103,120,200,400,408,409,410,411,423,426,427}。
在确定基准标识压缩信息对应的基准对象标识和解压缩处理得到关联对象标识分段中的各个关联对象标识后,M个数据对象的对象标识可以包括基准对象标识和关联对象标识分段中的各个关联对象标识。需要说明的是,步骤S1402中的(2)、(3)和(4)可以先后执行,也就是说,可以在确定完全部的基准标识压缩信息和关联标识压缩信息后,确定基准标识压缩信息对应的基准对象标识,以及对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识。或者,步骤S1402中的(2)、(3)和(4)可以交替执行,也就是说,可以在确定基准标识压缩信息后,紧接着确定基准标识压缩信息对应的基准对象标识,可以在确定关联标识压缩信息后,紧接着对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识。
S1403,根据M个数据对象的对象标识,执行数据处理任务。
正如前文所描述的,第一参与方和第二参与方可以在并行地在各组对应的数据分区之间进行跨网信息传输,为了区分不同的数据分组,第一参与方在传输数据分区的对象标识压缩信息外,还需要传输数据分区的分区标识,从而,第二参与方可以接收数据分区的分区标识。具体来说,第二参与方可以接收第一参与方发送的目标数据分区的分区标识,在此基础上,根据M个数据对象的对象标识,执行数据处理任务,具体可以包括:根据目标数据分区的分区标识,获取第二参与方的目标数据分区;根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据;按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
本申请实施例中,任务数据中数据对象的对象数据是执行数据处理任务真正所需的数据,数据处理任务的各个参与方之间不直接传输任务数据中数据对象的对象数据,而是传输任务数据中数据对象的对象标识,这样可以保护数据处理任务的各个参与方的数据不被泄露;在此基础上,本申请实施例可以对数据对象的对象标识进行压缩处理后传输,压缩后传输的数据量变小,这样可以提升数据处理任务的各个参与方之间的跨网信息传输效率。可见,本申请实施例可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
基于上述图8和图14所示实施例所描述的数据处理方法,可知,本申请实施例提供的数据处理方法通过对需要发送的数据对象的初始标识进行重编码、压缩处理,来减小传输的数据量,起到提升数据处理任务的各个参与方之间的跨网信息传输效率的效果。在此以更直观的实验数据来表明本申请实施例提供的数据处理方法能够达到较高的压缩率,压缩率越高,传输的数据量越小,跨网信息传输效率越高。具体地,以数据对象的初始标识的大小是30个字节为例,如图17所示,在数据分区内的数据总量为100万(包括100万个数据对象的初始标识)、50万(包括50万个数据对象的初始标识)和10万(包括10万个数据对象的初始标识)时,总压缩率可达到91.26%~99.56%、91.67%~99.78%、92.49%~99.58%。如此一来,压缩率可以高达99%,数据处理任务的各个参与方之间能够达到较高的跨网信息传输效率。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
请参见图18,图18是本申请实施例提供的一种数据处理装置的结构示意图,该数据处理装置可以设置于本申请实施例提供的计算机设备中,计算机设备可以是图5所示的数据处理系统中的第一参与方。图18所示的数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),该数据处理装置可以用于执行图8所示的方法实施例中的部分或全部步骤。请参见图18,该数据处理装置可以包括如下单元:
确定单元1801,用于确定待执行的数据处理任务;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;
处理单元1802,用于按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取M个数据对象的对象标识;
处理单元1802,还用于基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息;
处理单元1802,还用于将对象标识压缩信息发送至第二参与方,以使第二参与方对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识,并基于M个数据对象的对象标识执行数据处理任务。
在一种实现方式中,处理单元1802,用于基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息时,具体用于执行如下步骤:
在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段,基准对象标识的关联对象标识分段包括基准对象标识的关联对象标识;
按照压缩长度,确定基准对象标识对应的基准标识压缩信息;
按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;
其中,对象标识压缩信息包括基准对象标识对应的基准标识压缩信息,以及基准对象标识的关联对象标识分段对应的关联标识压缩信息。
在一种实现方式中,在确定基准对象标识以及基准对象标识的关联对象标识分段的过程中,设置有滑动窗口,滑动窗口用于缓存基准对象标识的关联对象标识分段中的关联对象标识;处理单元1802,用于在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段时,具体用于执行如下步骤:
对M个对象标识进行排序,依次遍历排序后的M个对象标识;在排序后的M个对象标识中,当前遍历的对象标识为对象标识Xi,i为小于或等于M的正整数;
若滑动窗口为空,则将对象标识Xi设置为基准对象标识,并基于对象标识Xi对对象标识Xi+1进行关联分段检测,得到对象标识Xi+1的关联分段检测结果;
若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1属于对象标识Xi的关联对象标识分段,则将对象标识Xi+1添加至滑动窗口中;
若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1不属于对象标识Xi的关联对象标识分段,则将对象标识Xi+1确定为新的基准对象标识。
在一种实现方式中,处理单元1802,用于在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段时,还用于执行如下步骤:
若滑动窗口不为空,则对对象标识Xi进行关联分段检测,得到对象标识Xi的关联分段检测结果;当前遍历的对象标识为对象标识Xi时,滑动窗口中缓存有目标关联对象标识分段的关联对象标识;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段,则将对象标识Xi添加至滑动窗口中;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段,则确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,并将对象标识Xi作为新的关联对象标识分段中的关联对象标识添加至滑动窗口中;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段,则确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,将对象标识Xi作为新的基准对象标识。
在一种实现方式中,处理单元1802,用于对对象标识Xi进行关联分段检测,得到对象标识Xi的关联分段检测结果时,具体用于执行如下步骤:
获取目标关联对象标识分段的分段段号;
对对象标识Xi、当前基准对象标识和压缩长度进行运算,确定对象标识Xi所属的分段段号;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号相同,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值等于段号阈值,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值大于段号阈值,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段。
在一种实现方式中,处理单元1802,用于按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息时,具体用于执行如下步骤:
获取长度为压缩长度的压缩数据位;
根据基准对象标识、基准对象标识的关联对象标识分段的分段段号、以及基准对象标识的关联对象标识分段中的每个关联对象标识,确定每个关联对象标识对应的压缩数据位的位置序号;
在长度为压缩长度的压缩数据位中,将每个关联对象标识对应的压缩数据位设置为第一数值,将除每个关联对象标识对应的压缩数据位外的其他压缩数据位设置为第二数值,得到基准对象标识的关联对象标识分段的初始标识压缩信息;
为基准对象标识的关联对象标识分段的初始标识压缩信息添加压缩标识位,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;压缩标识位被设置为压缩数值,压缩数值表示关联标识压缩信息是被压缩的信息。
在一种实现方式中,处理单元1802,用于按照压缩长度,确定基准对象标识对应的基准标识压缩信息时,具体用于执行如下步骤:
按照压缩长度,对基准对象标识进行进制转换,得到基准对象标识的初始标识压缩信息;
为基准对象标识的初始标识压缩信息添加压缩标识位,得到基准对象标识对应的基准标识压缩信息;压缩标识位被设置为非压缩数值,非压缩数值表示基准标识压缩信息是未被压缩的信息。
在一种实现方式中,处理单元1802,还用于执行如下步骤:
根据基准对象标识以及基准对象标识的关联对象标识分段,对M个对象标识进行压缩检测;
若M个对象标识满足压缩条件,则触发执行按照压缩长度,确定基准对象标识对应的基准标识压缩信息;按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;
若M个对象标识不满足压缩条件,则按照压缩长度,分别对M个对象标识进行进制转换,得到M个对象标识的压缩信息;
其中,对象标识压缩信息包括M个对象标识的压缩信息。
在一种实现方式中,处理单元1802,用于根据基准对象标识以及基准对象标识的关联对象标识分段,对M个对象标识进行压缩检测时,具体用于执行以下任一种:
若每个基准对象标识的关联对象标识分段中均不存在关联对象标识,则确定M个对象标识不满足压缩条件;
若每个基准对象标识的关联对象标识分段中均存在一个关联对象标识,则确定M个对象标识不满足压缩条件。
在一种实现方式中,第一参与方的目标任务数据包括N个数据对象的对象标识,N个数据对象的对象标识是对N个数据对象的初始标识进行重编码得到的,N为大于或等于M的正整数;处理单元1802,还用于执行如下步骤:
获取N个数据对象的初始标识,N个数据对象的初始标识是基于符号字典中的字符生成的;
按照符号字典中的字符顺序,对N个数据对象的初始标识进行排序,得到排序后的N个数据对象的初始标识;
按照排序后的N个数据对象的初始标识的排列顺序,采用连续的整型数值对N个数据对象的初始标识进行重编码,得到N个数据对象的对象标识。
在一种实现方式中,在第一参与方和第二参与方中,执行数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;第一参与方的目标任务数据是第一参与方的目标数据分区包括的任务数据;处理单元1802,还用于执行如下步骤:
向第二参与方发送目标数据分区的分区标识;以使第二参与方基于目标数据分区的分区标识,获取第二参与方的目标数据分区,根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据,并按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
根据本申请的另一个实施例,图18所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图8所示的部分或全部方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图18中所示的数据处理装置,以及来实现本申请实施例的数据处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,任务数据中数据对象的对象数据是执行数据处理任务真正所需的数据,数据处理任务的各个参与方之间不直接传输任务数据中数据对象的对象数据,而是传输任务数据中数据对象的对象标识,这样可以保护数据处理任务的各个参与方的数据不被泄露;在此基础上,本申请实施例可以对数据对象的对象标识进行压缩处理后传输,压缩后传输的数据量变小,这样可以提升数据处理任务的各个参与方之间的跨网信息传输效率。可见,本申请实施例可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
请参见图19,图19是本申请实施例提供的一种数据处理装置的结构示意图,该数据处理装置可以设置于本申请实施例提供的计算机设备中,计算机设备可以是图5所示的数据处理系统中的第二参与方。图19所示的数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),该数据处理装置可以用于执行图14所示的方法实施例中的部分或全部步骤。请参见图19,该数据处理装置可以包括如下单元:
通信单元1901,用于接收数据处理任务的第一参与方发送的对象标识压缩信息;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;对象标识压缩信息是第一参与方基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理得到的;M个数据对象的对象标识是按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取的,M为正整数;
处理单元1902,用于基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识;
处理单元1902,还用于根据M个数据对象的对象标识,执行数据处理任务。
在一种实现方式中,处理单元1902,用于基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识时,具体用于执行如下步骤:
按照压缩长度将对象标识压缩信息分割为多个标识压缩信息;
在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息;
确定基准标识压缩信息对应的基准对象标识;
对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识;
其中,M个数据对象的对象标识包括基准对象标识和关联对象标识分段中的各个关联对象标识。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;处理单元1902,用于在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息时,具体用于执行如下步骤:
若标识压缩信息的压缩标识位被设置为压缩数值,则确定标识压缩信息为关联标识压缩信息;
若标识压缩信息的压缩标识位被设置为非压缩数值,则确定标识压缩信息为基准标识压缩信息。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;处理单元1902,用于对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识时,具体用于执行如下步骤:
根据关联标识压缩信息在对象标识压缩信息中的排列顺序,确定关联对象标识分段的分段段号,以及关联对象标识分段对应的目标基准对象标识;
获取关联标识压缩信息的压缩数据位中被设置为第一数值的目标压缩数据位;
对分段段号、目标基准对象标识以及每个目标压缩数据位的位置序号进行计算,得到每个目标压缩数据位所表示的对象标识;
将每个目标压缩数据位所表示的对象标识,确定为关联对象标识分段中的各个关联对象标识。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;处理单元1902,用于确定基准标识压缩信息对应的基准对象标识时,具体用于执行如下步骤:
对基准标识压缩信息的压缩数据位中的数值进行进制转换,得到基准标识压缩信息对应的基准对象标识。
在一种实现方式中,在第一参与方和第二参与方中,执行数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;第一参与方的目标任务数据是第一参与方的目标数据分区包括的任务数据;通信单元1901,还用于执行如下步骤:
接收第一参与方发送的目标数据分区的分区标识;
处理单元1902,用于根据M个数据对象的对象标识,执行数据处理任务时,具体用于执行如下步骤:
根据目标数据分区的分区标识,获取第二参与方的目标数据分区;
根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据;
按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
根据本申请的另一个实施例,图19所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图14所示的部分或全部方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图19中所示的数据处理装置,以及来实现本申请实施例的数据处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,任务数据中数据对象的对象数据是执行数据处理任务真正所需的数据,数据处理任务的各个参与方之间不直接传输任务数据中数据对象的对象数据,而是传输任务数据中数据对象的对象标识,这样可以保护数据处理任务的各个参与方的数据不被泄露;在此基础上,本申请实施例可以对数据对象的对象标识进行压缩处理后传输,压缩后传输的数据量变小,这样可以提升数据处理任务的各个参与方之间的跨网信息传输效率。可见,本申请实施例可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
基于上述方法以及装置实施例,本申请实施例提供了一种计算机设备。请参见图20,图20是本申请实施例提供的一种计算机设备的结构示意图。图20所示的计算机设备至少包括处理器2001、输入接口2002、输出接口2003以及计算机可读存储介质2004。其中,处理器2001、输入接口2002、输出接口2003以及计算机可读存储介质2004可通过总线或其他方式连接。
计算机可读存储介质2004可以存储在计算机设备的存储器中,计算机可读存储介质2004用于存储计算机程序,计算机程序包括计算机指令,处理器2001用于执行计算机可读存储介质2004存储的程序指令。处理器2001(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一些实施例中,计算机设备可以是图5所示的数据处理系统中的第一参与方,可由处理器2001加载并执行计算机可读存储介质2004中存放的一条或多条计算机指令,以实现上述有关图8所示的数据处理方法中的相应步骤。具体实现中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行如下步骤:
确定待执行的数据处理任务;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;
按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取M个数据对象的对象标识;
基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息;
将对象标识压缩信息发送至第二参与方,以使第二参与方对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识,并基于M个数据对象的对象标识执行数据处理任务。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息时,具体用于执行如下步骤:
在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段,基准对象标识的关联对象标识分段包括基准对象标识的关联对象标识;
按照压缩长度,确定基准对象标识对应的基准标识压缩信息;
按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;
其中,对象标识压缩信息包括基准对象标识对应的基准标识压缩信息,以及基准对象标识的关联对象标识分段对应的关联标识压缩信息。
在一种实现方式中,在确定基准对象标识以及基准对象标识的关联对象标识分段的过程中,设置有滑动窗口,滑动窗口用于缓存基准对象标识的关联对象标识分段中的关联对象标识;计算机可读存储介质2004中的计算机指令由处理器2001加载并执行在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段时,具体用于执行如下步骤:
对M个对象标识进行排序,依次遍历排序后的M个对象标识;在排序后的M个对象标识中,当前遍历的对象标识为对象标识Xi,i为小于或等于M的正整数;
若滑动窗口为空,则将对象标识Xi设置为基准对象标识,并基于对象标识Xi对对象标识Xi+1进行关联分段检测,得到对象标识Xi+1的关联分段检测结果;
若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1属于对象标识Xi的关联对象标识分段,则将对象标识Xi+1添加至滑动窗口中;
若对象标识Xi+1的关联分段检测结果指示对象标识Xi+1不属于对象标识Xi的关联对象标识分段,则将对象标识Xi+1确定为新的基准对象标识。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行在M个对象标识中确定基准对象标识以及基准对象标识的关联对象标识分段时,还用于执行如下步骤:
若滑动窗口不为空,则对对象标识Xi进行关联分段检测,得到对象标识Xi的关联分段检测结果;当前遍历的对象标识为对象标识Xi时,滑动窗口中缓存有目标关联对象标识分段的关联对象标识;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段,则将对象标识Xi添加至滑动窗口中;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段,则确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,并将对象标识Xi作为新的关联对象标识分段中的关联对象标识添加至滑动窗口中;
若对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段,则确定目标关联对象标识分段的关联对象标识检测完毕,清空滑动窗口,将对象标识Xi作为新的基准对象标识。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行对对象标识Xi进行关联分段检测,得到对象标识Xi的关联分段检测结果时,具体用于执行如下步骤:
获取目标关联对象标识分段的分段段号;
对对象标识Xi、当前基准对象标识和压缩长度进行运算,确定对象标识Xi所属的分段段号;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号相同,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值等于段号阈值,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的相邻关联对象标识分段;
若目标关联对象标识分段的分段段号与对象标识Xi所属的分段段号之间的段号差值大于段号阈值,则生成对象标识Xi的关联分段检测结果,对象标识Xi的关联分段检测结果指示对象标识Xi属于目标关联对象标识分段的非连续关联对象标识分段。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息时,具体用于执行如下步骤:
获取长度为压缩长度的压缩数据位;
根据基准对象标识、基准对象标识的关联对象标识分段的分段段号、以及基准对象标识的关联对象标识分段中的每个关联对象标识,确定每个关联对象标识对应的压缩数据位的位置序号;
在长度为压缩长度的压缩数据位中,将每个关联对象标识对应的压缩数据位设置为第一数值,将除每个关联对象标识对应的压缩数据位外的其他压缩数据位设置为第二数值,得到基准对象标识的关联对象标识分段的初始标识压缩信息;
为基准对象标识的关联对象标识分段的初始标识压缩信息添加压缩标识位,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;压缩标识位被设置为压缩数值,压缩数值表示关联标识压缩信息是被压缩的信息。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行按照压缩长度,确定基准对象标识对应的基准标识压缩信息时,具体用于执行如下步骤:
按照压缩长度,对基准对象标识进行进制转换,得到基准对象标识的初始标识压缩信息;
为基准对象标识的初始标识压缩信息添加压缩标识位,得到基准对象标识对应的基准标识压缩信息;压缩标识位被设置为非压缩数值,非压缩数值表示基准标识压缩信息是未被压缩的信息。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并还用于执行如下步骤:
根据基准对象标识以及基准对象标识的关联对象标识分段,对M个对象标识进行压缩检测;
若M个对象标识满足压缩条件,则触发执行按照压缩长度,确定基准对象标识对应的基准标识压缩信息;按照压缩长度,以基准对象标识为基准,对基准对象标识的关联对象标识分段进行压缩处理,得到基准对象标识的关联对象标识分段对应的关联标识压缩信息;
若M个对象标识不满足压缩条件,则按照压缩长度,分别对M个对象标识进行进制转换,得到M个对象标识的压缩信息;
其中,对象标识压缩信息包括M个对象标识的压缩信息。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行根据基准对象标识以及基准对象标识的关联对象标识分段,对M个对象标识进行压缩检测时,具体用于执行以下任一种:
若每个基准对象标识的关联对象标识分段中均不存在关联对象标识,则确定M个对象标识不满足压缩条件;
若每个基准对象标识的关联对象标识分段中均存在一个关联对象标识,则确定M个对象标识不满足压缩条件。
在一种实现方式中,第一参与方的目标任务数据包括N个数据对象的对象标识,N个数据对象的对象标识是对N个数据对象的初始标识进行重编码得到的,N为大于或等于M的正整数;计算机可读存储介质2004中的计算机指令由处理器2001加载并还用于执行如下步骤:
获取N个数据对象的初始标识,N个数据对象的初始标识是基于符号字典中的字符生成的;
按照符号字典中的字符顺序,对N个数据对象的初始标识进行排序,得到排序后的N个数据对象的初始标识;
按照排序后的N个数据对象的初始标识的排列顺序,采用连续的整型数值对N个数据对象的初始标识进行重编码,得到N个数据对象的对象标识。
在一种实现方式中,在第一参与方和第二参与方中,执行数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;第一参与方的目标任务数据是第一参与方的目标数据分区包括的任务数据;计算机可读存储介质2004中的计算机指令由处理器2001加载并还用于执行如下步骤:
向第二参与方发送目标数据分区的分区标识;以使第二参与方基于目标数据分区的分区标识,获取第二参与方的目标数据分区,根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据,并按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
在另一些实施例中,计算机设备可以是图5所示的数据处理系统中的第一参与方,可由处理器2001加载并执行计算机可读存储介质2004中存放的一条或多条计算机指令,以实现上述有关图14所示的数据处理方法中的相应步骤。具体实现中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行如下步骤:
接收数据处理任务的第一参与方发送的对象标识压缩信息;数据处理任务需由第一参与方和第二参与方共同参与执行,第一参与方和第二参与方中部署有执行数据处理任务所需的目标任务数据;第一参与方的目标任务数据和第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在第一参与方和第二参与方中具备相同的对象标识;对象标识压缩信息是第一参与方基于第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理得到的;M个数据对象的对象标识是按照数据处理任务的任务要求,从第一参与方的目标任务数据中选取的,M为正整数;
基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识;
根据M个数据对象的对象标识,执行数据处理任务。
在一种实现方式中,计算机可读存储介质2004中的计算机指令由处理器2001加载并执行基于第一参与方的目标任务数据对应的压缩长度,对对象标识压缩信息进行解压缩处理,得到M个数据对象的对象标识时,具体用于执行如下步骤:
按照压缩长度将对象标识压缩信息分割为多个标识压缩信息;
在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息;
确定基准标识压缩信息对应的基准对象标识;
对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识;
其中,M个数据对象的对象标识包括基准对象标识和关联对象标识分段中的各个关联对象标识。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;计算机可读存储介质2004中的计算机指令由处理器2001加载并执行在多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息时,具体用于执行如下步骤:
若标识压缩信息的压缩标识位被设置为压缩数值,则确定标识压缩信息为关联标识压缩信息;
若标识压缩信息的压缩标识位被设置为非压缩数值,则确定标识压缩信息为基准标识压缩信息。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;计算机可读存储介质2004中的计算机指令由处理器2001加载并执行对关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识时,具体用于执行如下步骤:
根据关联标识压缩信息在对象标识压缩信息中的排列顺序,确定关联对象标识分段的分段段号,以及关联对象标识分段对应的目标基准对象标识;
获取关联标识压缩信息的压缩数据位中被设置为第一数值的目标压缩数据位;
对分段段号、目标基准对象标识以及每个目标压缩数据位的位置序号进行计算,得到每个目标压缩数据位所表示的对象标识;
将每个目标压缩数据位所表示的对象标识,确定为关联对象标识分段中的各个关联对象标识。
在一种实现方式中,任一标识压缩信息包括压缩标识位和压缩数据位;计算机可读存储介质2004中的计算机指令由处理器2001加载并执行确定基准标识压缩信息对应的基准对象标识时,具体用于执行如下步骤:
对基准标识压缩信息的压缩数据位中的数值进行进制转换,得到基准标识压缩信息对应的基准对象标识。
在一种实现方式中,在第一参与方和第二参与方中,执行数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;第一参与方的目标任务数据是第一参与方的目标数据分区包括的任务数据;计算机可读存储介质2004中的计算机指令由处理器2001加载并还用于执行如下步骤:
接收第一参与方发送的目标数据分区的分区标识;
计算机可读存储介质2004中的计算机指令由处理器2001加载并执行根据M个数据对象的对象标识,执行数据处理任务时,具体用于执行如下步骤:
根据目标数据分区的分区标识,获取第二参与方的目标数据分区;
根据M个数据对象的对象标识,从第二参与方的目标数据分区包括的第二参与方的目标任务数据中获取M个数据对象的对象数据;
按照数据处理任务的任务要求,对M个数据对象的对象数据进行数据处理,以执行数据处理任务。
本申请实施例中,任务数据中数据对象的对象数据是执行数据处理任务真正所需的数据,数据处理任务的各个参与方之间不直接传输任务数据中数据对象的对象数据,而是传输任务数据中数据对象的对象标识,这样可以保护数据处理任务的各个参与方的数据不被泄露;在此基础上,本申请实施例可以对数据对象的对象标识进行压缩处理后传输,压缩后传输的数据量变小,这样可以提升数据处理任务的各个参与方之间的跨网信息传输效率。可见,本申请实施例可以在保护数据处理任务的各个参与方的数据不被泄露的前提下,提升数据处理任务的各个参与方之间的跨网信息传输效率。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的数据处理方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种数据处理方法,其特征在于,包括:
确定待执行的数据处理任务;所述数据处理任务需由第一参与方和第二参与方共同参与执行,所述第一参与方和所述第二参与方中部署有执行所述数据处理任务所需的目标任务数据;所述第一参与方的目标任务数据和所述第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在所述第一参与方和所述第二参与方中具备相同的对象标识;
按照所述数据处理任务的任务要求,从所述第一参与方的目标任务数据中选取M个数据对象的对象标识,M为正整数;
基于所述第一参与方的目标任务数据对应的压缩长度,对所述M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息,M为正整数;
将所述对象标识压缩信息发送至所述第二参与方,以使所述第二参与方对所述对象标识压缩信息进行解压缩处理,得到所述M个数据对象的对象标识,并基于所述M个数据对象的对象标识执行所述数据处理任务。
2.如权利要求1所述的方法,其特征在于,所述基于所述第一参与方的目标任务数据对应的压缩长度,对所述M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息,包括:
在M个对象标识中确定基准对象标识以及所述基准对象标识的关联对象标识分段,所述基准对象标识的关联对象标识分段包括所述基准对象标识的关联对象标识;
按照所述压缩长度,确定所述基准对象标识对应的基准标识压缩信息;
按照所述压缩长度,以所述基准对象标识为基准,对所述基准对象标识的关联对象标识分段进行压缩处理,得到所述基准对象标识的关联对象标识分段对应的关联标识压缩信息;
其中,所述对象标识压缩信息包括所述基准对象标识对应的基准标识压缩信息,以及所述基准对象标识的关联对象标识分段对应的关联标识压缩信息。
3.如权利要求2所述的方法,其特征在于,在确定所述基准对象标识以及所述基准对象标识的关联对象标识分段的过程中,设置有滑动窗口,所述滑动窗口用于缓存所述基准对象标识的关联对象标识分段中的关联对象标识;所述在M个对象标识中确定基准对象标识以及所述基准对象标识的关联对象标识分段,包括:
对所述M个对象标识进行排序,依次遍历排序后的所述M个对象标识;在排序后的所述M个对象标识中,当前遍历的对象标识为对象标识Xi,i为小于或等于M的正整数;
若所述滑动窗口为空,则将所述对象标识Xi设置为所述基准对象标识,并基于所述对象标识Xi对对象标识Xi+1进行关联分段检测,得到所述对象标识Xi+1的关联分段检测结果;
若所述对象标识Xi+1的关联分段检测结果指示所述对象标识Xi+1属于所述对象标识Xi的关联对象标识分段,则将所述对象标识Xi+1添加至所述滑动窗口中;
若所述对象标识Xi+1的关联分段检测结果指示所述对象标识Xi+1不属于所述对象标识Xi的关联对象标识分段,则将所述对象标识Xi+1确定为新的所述基准对象标识。
4.如权利要求3所述的方法,其特征在于,所述在M个对象标识中确定基准对象标识以及所述基准对象标识的关联对象标识分段,还包括:
若所述滑动窗口不为空,则对所述对象标识Xi进行关联分段检测,得到所述对象标识Xi的关联分段检测结果;当前遍历的对象标识为所述对象标识Xi时,所述滑动窗口中缓存有目标关联对象标识分段的关联对象标识;
若所述对象标识Xi的关联分段检测结果指示所述对象标识Xi属于所述目标关联对象标识分段,则将所述对象标识Xi添加至所述滑动窗口中;
若所述对象标识Xi的关联分段检测结果指示所述对象标识Xi属于所述目标关联对象标识分段的相邻关联对象标识分段,则确定所述目标关联对象标识分段的关联对象标识检测完毕,清空所述滑动窗口,并将所述对象标识Xi作为新的关联对象标识分段中的关联对象标识添加至所述滑动窗口中;
若所述对象标识Xi的关联分段检测结果指示所述对象标识Xi属于所述目标关联对象标识分段的非连续关联对象标识分段,则确定所述目标关联对象标识分段的关联对象标识检测完毕,清空所述滑动窗口,将所述对象标识Xi作为新的所述基准对象标识。
5.如权利要求4所述的方法,其特征在于,所述对所述对象标识Xi进行关联分段检测,得到所述对象标识Xi的关联分段检测结果,包括:
获取所述目标关联对象标识分段的分段段号;
对所述对象标识Xi、当前基准对象标识和所述压缩长度进行运算,确定所述对象标识Xi所属的分段段号;
若所述目标关联对象标识分段的分段段号与所述对象标识Xi所属的分段段号相同,则生成所述对象标识Xi的关联分段检测结果,所述对象标识Xi的关联分段检测结果指示所述对象标识Xi属于所述目标关联对象标识分段;
若所述目标关联对象标识分段的分段段号与所述对象标识Xi所属的分段段号之间的段号差值等于段号阈值,则生成所述对象标识Xi的关联分段检测结果,所述对象标识Xi的关联分段检测结果指示所述对象标识Xi属于所述目标关联对象标识分段的相邻关联对象标识分段;
若所述目标关联对象标识分段的分段段号与所述对象标识Xi所属的分段段号之间的段号差值大于段号阈值,则生成所述对象标识Xi的关联分段检测结果,所述对象标识Xi的关联分段检测结果指示所述对象标识Xi属于所述目标关联对象标识分段的非连续关联对象标识分段。
6.如权利要求2所述的方法,其特征在于,所述按照所述压缩长度,以所述基准对象标识为基准,对所述基准对象标识的关联对象标识分段进行压缩处理,得到所述基准对象标识的关联对象标识分段对应的关联标识压缩信息,包括:
获取长度为所述压缩长度的压缩数据位;
根据所述基准对象标识、所述基准对象标识的关联对象标识分段的分段段号、以及所述基准对象标识的关联对象标识分段中的每个关联对象标识,确定每个关联对象标识对应的压缩数据位的位置序号;
在长度为所述压缩长度的压缩数据位中,将每个关联对象标识对应的压缩数据位设置为第一数值,将除每个关联对象标识对应的压缩数据位外的其他压缩数据位设置为第二数值,得到所述基准对象标识的关联对象标识分段的初始标识压缩信息;
为所述基准对象标识的关联对象标识分段的初始标识压缩信息添加压缩标识位,得到所述基准对象标识的关联对象标识分段对应的关联标识压缩信息;所述压缩标识位被设置为压缩数值,所述压缩数值表示所述关联标识压缩信息是被压缩的信息。
7.如权利要求2所述的方法,其特征在于,所述按照所述压缩长度,确定所述基准对象标识对应的基准标识压缩信息,包括:
按照所述压缩长度,对所述基准对象标识进行进制转换,得到所述基准对象标识的初始标识压缩信息;
为所述基准对象标识的初始标识压缩信息添加压缩标识位,得到所述基准对象标识对应的基准标识压缩信息;所述压缩标识位被设置为非压缩数值,所述非压缩数值表示所述基准标识压缩信息是未被压缩的信息。
8.如权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述基准对象标识以及所述基准对象标识的关联对象标识分段,对所述M个对象标识进行压缩检测;
若所述M个对象标识满足压缩条件,则触发执行所述按照所述压缩长度,确定所述基准对象标识对应的基准标识压缩信息;按照所述压缩长度,以所述基准对象标识为基准,对所述基准对象标识的关联对象标识分段进行压缩处理,得到所述基准对象标识的关联对象标识分段对应的关联标识压缩信息;
若所述M个对象标识不满足压缩条件,则按照所述压缩长度,分别对所述M个对象标识进行进制转换,得到所述M个对象标识的压缩信息;
其中,所述对象标识压缩信息包括所述M个对象标识的压缩信息。
9.如权利要求8所述的方法,其特征在于,所述根据所述基准对象标识以及所述基准对象标识的关联对象标识分段,对所述M个对象标识进行压缩检测,包括以下任一种:
若每个所述基准对象标识的关联对象标识分段中均不存在关联对象标识,则确定所述M个对象标识不满足压缩条件;
若每个所述基准对象标识的关联对象标识分段中均存在一个关联对象标识,则确定所述M个对象标识不满足压缩条件。
10.如权利要求1所述的方法,其特征在于,所述第一参与方的目标任务数据包括N个数据对象的对象标识,所述N个数据对象的对象标识是对所述N个数据对象的初始标识进行重编码得到的,N为大于或等于M的正整数;所述方法还包括:
获取所述N个数据对象的初始标识,所述N个数据对象的初始标识是基于符号字典中的字符生成的;
按照所述符号字典中的字符顺序,对所述N个数据对象的初始标识进行排序,得到排序后的所述N个数据对象的初始标识;
按照排序后的所述N个数据对象的初始标识的排列顺序,采用连续的整型数值对所述N个数据对象的初始标识进行重编码,得到所述N个数据对象的对象标识。
11.如权利要求1所述的方法,其特征在于,在所述第一参与方和所述第二参与方中,执行所述数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;所述第一参与方的目标任务数据是所述第一参与方的目标数据分区包括的任务数据;所述方法还包括:
向所述第二参与方发送所述目标数据分区的分区标识;以使所述第二参与方基于所述目标数据分区的分区标识,获取所述第二参与方的目标数据分区,根据所述M个数据对象的对象标识,从所述第二参与方的目标数据分区包括的所述第二参与方的目标任务数据中获取所述M个数据对象的对象数据,并按照所述数据处理任务的任务要求,对所述M个数据对象的对象数据进行数据处理,以执行所述数据处理任务。
12.一种数据处理方法,其特征在于,包括:
接收数据处理任务的第一参与方发送的对象标识压缩信息;所述数据处理任务需由所述第一参与方和第二参与方共同参与执行,所述第一参与方和所述第二参与方中部署有执行所述数据处理任务所需的目标任务数据;所述第一参与方的目标任务数据和所述第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在所述第一参与方和所述第二参与方中具备相同的对象标识;所述对象标识压缩信息是所述第一参与方基于所述第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理得到的;所述M个数据对象的对象标识是按照所述数据处理任务的任务要求,从所述第一参与方的目标任务数据中选取的,M为正整数;
基于所述第一参与方的目标任务数据对应的压缩长度,对所述对象标识压缩信息进行解压缩处理,得到所述M个数据对象的对象标识;
根据所述M个数据对象的对象标识,执行所述数据处理任务。
13.如权利要求12所述的方法,其特征在于,所述基于所述第一参与方的目标任务数据对应的压缩长度,对所述对象标识压缩信息进行解压缩处理,得到所述M个数据对象的对象标识,包括:
按照所述压缩长度将所述对象标识压缩信息分割为多个标识压缩信息;
在所述多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息;
确定所述基准标识压缩信息对应的基准对象标识;
对所述关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识;
其中,所述M个数据对象的对象标识包括所述基准对象标识和所述关联对象标识分段中的各个关联对象标识。
14.如权利要求13所述的方法,其特征在于,任一标识压缩信息包括压缩标识位和压缩数据位;所述在所述多个标识压缩信息中确定基准标识压缩信息和关联标识压缩信息,包括:
若所述标识压缩信息的压缩标识位被设置为压缩数值,则确定所述标识压缩信息为所述关联标识压缩信息;
若所述标识压缩信息的压缩标识位被设置为非压缩数值,则确定所述标识压缩信息为所述基准标识压缩信息。
15.如权利要求13所述的方法,其特征在于,任一标识压缩信息包括压缩标识位和压缩数据位;所述对所述关联标识压缩信息进行解压缩处理,得到关联对象标识分段中的各个关联对象标识,包括:
根据所述关联标识压缩信息在所述对象标识压缩信息中的排列顺序,确定所述关联对象标识分段的分段段号,以及所述关联对象标识分段对应的目标基准对象标识;
获取所述关联标识压缩信息的压缩数据位中被设置为第一数值的目标压缩数据位;
对所述分段段号、所述目标基准对象标识以及每个所述目标压缩数据位的位置序号进行计算,得到每个所述目标压缩数据位所表示的对象标识;
将每个所述目标压缩数据位所表示的对象标识,确定为所述关联对象标识分段中的各个关联对象标识。
16.如权利要求13所述的方法,其特征在于,任一标识压缩信息包括压缩标识位和压缩数据位;所述确定所述基准标识压缩信息对应的基准对象标识,包括:
对所述基准标识压缩信息的压缩数据位中的数值进行进制转换,得到所述基准标识压缩信息对应的基准对象标识。
17.如权利要求12所述的方法,其特征在于,在所述第一参与方和所述第二参与方中,执行所述数据处理任务所需的任务数据被划分为不同的数据分区,对应数据分区的任务数据包括相同数据对象的不同对象数据,对应数据分区具备相同的分区标识;所述第一参与方的目标任务数据是所述第一参与方的目标数据分区包括的任务数据;所述方法还包括:
接收所述第一参与方发送的所述目标数据分区的分区标识;
所述根据所述M个数据对象的对象标识,执行所述数据处理任务,包括:
根据所述目标数据分区的分区标识,获取所述第二参与方的目标数据分区;
根据所述M个数据对象的对象标识,从所述第二参与方的目标数据分区包括的所述第二参与方的目标任务数据中获取所述M个数据对象的对象数据;
按照所述数据处理任务的任务要求,对所述M个数据对象的对象数据进行数据处理,以执行所述数据处理任务。
18.一种数据处理装置,其特征在于,包括:
确定单元,用于确定待执行的数据处理任务;所述数据处理任务需由第一参与方和第二参与方共同参与执行,所述第一参与方和所述第二参与方中部署有执行所述数据处理任务所需的目标任务数据;所述第一参与方的目标任务数据和所述第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在所述第一参与方和所述第二参与方中具备相同的对象标识;
处理单元,用于按照所述数据处理任务的任务要求,从所述第一参与方的目标任务数据中选取M个数据对象的对象标识;
所述处理单元,还用于基于所述第一参与方的目标任务数据对应的压缩长度,对所述M个数据对象的对象标识进行压缩处理,得到对象标识压缩信息,M为正整数;
所述处理单元,还用于将所述对象标识压缩信息发送至所述第二参与方,以使所述第二参与方对所述对象标识压缩信息进行解压缩处理,得到所述M个数据对象的对象标识,并基于所述M个数据对象的对象标识执行所述数据处理任务。
19.一种数据处理装置,其特征在于,包括:
通信单元,用于接收数据处理任务的第一参与方发送的对象标识压缩信息;所述数据处理任务需由所述第一参与方和第二参与方共同参与执行,所述第一参与方和所述第二参与方中部署有执行所述数据处理任务所需的目标任务数据;所述第一参与方的目标任务数据和所述第二参与方的目标任务数据包括相同数据对象的不同对象数据,并且,同一数据对象在所述第一参与方和所述第二参与方中具备相同的对象标识;所述对象标识压缩信息是所述第一参与方基于所述第一参与方的目标任务数据对应的压缩长度,对M个数据对象的对象标识进行压缩处理得到的;所述M个数据对象的对象标识是按照所述数据处理任务的任务要求,从所述第一参与方的目标任务数据中选取的,M为正整数;
处理单元,用于基于所述第一参与方的目标任务数据对应的压缩长度,对所述对象标识压缩信息进行解压缩处理,得到所述M个数据对象的对象标识;
所述处理单元,还用于根据所述M个数据对象的对象标识,执行所述数据处理任务。
20.一种计算机设备,其特征在于,所述计算机设备包括:
处理器,适于实现计算机程序;
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-11任一项所述的数据处理方法,或者,如权利要求12-17任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064954.4A CN116827682B (zh) | 2023-08-23 | 2023-08-23 | 数据处理方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064954.4A CN116827682B (zh) | 2023-08-23 | 2023-08-23 | 数据处理方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116827682A true CN116827682A (zh) | 2023-09-29 |
CN116827682B CN116827682B (zh) | 2023-11-24 |
Family
ID=88127735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311064954.4A Active CN116827682B (zh) | 2023-08-23 | 2023-08-23 | 数据处理方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116827682B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636368A (zh) * | 2013-11-11 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 数据检索方法、装置及服务器 |
US20170147611A1 (en) * | 2013-08-29 | 2017-05-25 | International Business Machines Corporation | Detection and correction of copy errors in a distributed storage network |
US20180302488A1 (en) * | 2017-04-13 | 2018-10-18 | Fujitsu Limited | Method, apparatus for managing distributed data, and non-transitory computer-readable storage medium |
CN109818981A (zh) * | 2019-03-22 | 2019-05-28 | 口碑(上海)信息技术有限公司 | 消息处理方法、装置及设备 |
CN110879800A (zh) * | 2018-09-05 | 2020-03-13 | 阿里巴巴集团控股有限公司 | 数据写入、压缩和读取方法、数据处理方法及装置 |
WO2022117418A1 (en) * | 2020-12-04 | 2022-06-09 | Nchain Licensing Ag | Methods and systems for streaming block templates with cross-references |
CN115408381A (zh) * | 2021-05-28 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 数据处理方法及相关设备 |
CN115712678A (zh) * | 2022-09-23 | 2023-02-24 | 上海哔哩哔哩科技有限公司 | 数据处理方法及装置 |
CN115714656A (zh) * | 2021-08-19 | 2023-02-24 | 腾讯科技(深圳)有限公司 | 一种基于区块链网络的数据处理方法、装置及存储介质 |
-
2023
- 2023-08-23 CN CN202311064954.4A patent/CN116827682B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147611A1 (en) * | 2013-08-29 | 2017-05-25 | International Business Machines Corporation | Detection and correction of copy errors in a distributed storage network |
CN104636368A (zh) * | 2013-11-11 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 数据检索方法、装置及服务器 |
US20180302488A1 (en) * | 2017-04-13 | 2018-10-18 | Fujitsu Limited | Method, apparatus for managing distributed data, and non-transitory computer-readable storage medium |
CN110879800A (zh) * | 2018-09-05 | 2020-03-13 | 阿里巴巴集团控股有限公司 | 数据写入、压缩和读取方法、数据处理方法及装置 |
CN109818981A (zh) * | 2019-03-22 | 2019-05-28 | 口碑(上海)信息技术有限公司 | 消息处理方法、装置及设备 |
WO2022117418A1 (en) * | 2020-12-04 | 2022-06-09 | Nchain Licensing Ag | Methods and systems for streaming block templates with cross-references |
CN115408381A (zh) * | 2021-05-28 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 数据处理方法及相关设备 |
CN115714656A (zh) * | 2021-08-19 | 2023-02-24 | 腾讯科技(深圳)有限公司 | 一种基于区块链网络的数据处理方法、装置及存储介质 |
CN115712678A (zh) * | 2022-09-23 | 2023-02-24 | 上海哔哩哔哩科技有限公司 | 数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116827682B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiang et al. | A linguistic steganography based on word indexing compression and candidate selection | |
JP4456554B2 (ja) | データ圧縮方法及び圧縮データ送信方法 | |
JP3278297B2 (ja) | データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置 | |
CN107947918B (zh) | 一种基于字符特征的无载体文本隐写方法 | |
WO2020207410A1 (zh) | 一种数据压缩方法、电子设备及存储介质 | |
WO2011007956A2 (ko) | 데이터의 압축방법 | |
CN106170922A (zh) | 数据的源编码和解码的设备和方法 | |
CN103546161A (zh) | 基于二进制位处理的无损压缩方法 | |
CN104468044A (zh) | 应用于网络传输中的数据压缩的方法及装置 | |
CN114764557A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN112463784A (zh) | 数据去重方法、装置、设备及计算机可读存储介质 | |
Mao et al. | Trace: A fast transformer-based general-purpose lossless compressor | |
CN115208414A (zh) | 数据压缩方法、数据压缩装置、计算机设备及存储介质 | |
CN110377822B (zh) | 用于网络表征学习的方法、装置及电子设备 | |
CN116827682B (zh) | 数据处理方法、装置及计算机设备 | |
CN110113402B (zh) | 一种web服务通信的方法及装置 | |
CN114065269B (zh) | 无绑定型非同质化代币的生成方法和解析方法和存储介质 | |
Shanmugasundaram et al. | IIDBE: A lossless text transform for better compression | |
Leelavathi et al. | High-Capacity Reversible Data Hiding Using Lossless LZW Compression | |
JPH10261969A (ja) | データ圧縮方法および装置 | |
Shanmugasundaram et al. | Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE) | |
Ilambharathi et al. | Domain specific hierarchical Huffman encoding | |
Jain et al. | An efficient compression algorithm (ECA) for text data | |
CN112612762A (zh) | 数据处理方法及相关设备 | |
Begum et al. | A new compression scheme for secure transmission |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |