CN115618304A - 一种基于数据特征码的不出域数据集发布方法及系统 - Google Patents

一种基于数据特征码的不出域数据集发布方法及系统 Download PDF

Info

Publication number
CN115618304A
CN115618304A CN202211076701.4A CN202211076701A CN115618304A CN 115618304 A CN115618304 A CN 115618304A CN 202211076701 A CN202211076701 A CN 202211076701A CN 115618304 A CN115618304 A CN 115618304A
Authority
CN
China
Prior art keywords
data set
data
metadata
feature code
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211076701.4A
Other languages
English (en)
Inventor
王睿
罗海龙
冯宏伟
田文丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yi'an Ruilong Technology Co ltd
Original Assignee
Beijing Yi'an Ruilong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yi'an Ruilong Technology Co ltd filed Critical Beijing Yi'an Ruilong Technology Co ltd
Priority to CN202211076701.4A priority Critical patent/CN115618304A/zh
Publication of CN115618304A publication Critical patent/CN115618304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]

Abstract

本发明公开了一种基于数据特征码的不出域数据集发布方法及系统,方法包括用户选择数据集文件、用户生成数据集特征码、用户输入数据集元数据、系统提取用户的数据集元数据等等共七个步骤,同时,系统包括数据集元数据模块、数据集特征码模块、元数据核验模块、数据集发布模块。本发明与现有技术相比的优点在于:本方案实现一个针对数据集文件不出域的数据发布方法,其主要包括数据集发布模块、数据集元数据模块、数据集特征码模块、元数据核验模块,本发明可以拦截虚假数据集随意发布到数据流通平台,从而可以显著降低了数据需求者使用数据的风险,通过本发明可以实现对不出域的数据集发布操作实现基于特征码的真实性核验,保护数据发布的可信。

Description

一种基于数据特征码的不出域数据集发布方法及系统
技术领域
本发明涉及数据发布,具体是指一种基于数据特征码的不出域数据集发布方法及系统。
背景技术
数据要素流通是当前国家的基本基调,数字经济转型发展的今天越来越需要通过数据流通来进一步解放生产力,但如何实现数据流通是摆在当下的一个突出课题,要实现数据流通必须要把数据发布出来,要发布数据而且又不希望数据出域,数据流通平台就需要在发布数据与数据隐私保护两者中找到平衡点与连接点。特别是针对数据不出域的数据共享、数据流通,如何能够保证数据需求者看到的数据就是数据主体所宣称的或者所承诺的数据规格,将虚假的数据发布更早的暴露出来,从而能够帮助数据需求者及时识别数据风险,提升数据流通的体验。
现阶段数据发布主要包括两种形式,方式一:原始数据集出域的数据发布形式,数据集原始文件会发布到特定的数据流通平台,一旦有数据使用者感兴趣并完成资格认证、付费授权等动作就可以获取对应的数据文件,一旦数据使用者得到原始数据集,接下来如何使用数据集,数据集主体或者数据集拥有者就无法干预了。这种数据发布方式,明显是保护数据使用者,而忽视了数据拥有者的权利。
方式二:原始数据不出域的数据发布形式,数据集一直由数据拥有者来保管与控制,数据拥有者只需要在数据流通平台上发布有关数据集的元数据信息,数据集的描述,等到数据使用者有兴趣并且付费拿到授权后才能知悉准确的数据使用方式。这种方式跟方式一明显不同,这种方式可以极大保护数据拥有者的利益,没有得到许可前,谁都不能获取原始数据集的内容,数据拥有者也不用担心数据集泄露与随意复制风险的出现。但这一种方式对数据使用者风险也非常大,数据使用者无法及时准确了解数据的真实情况,往往会因为数据质量不合格、数据不可用等情形导致数据使用者出现利益损失。
本发明主要是针对数据不出域的情况提出的一种能够有效帮助数据使用者降低数据使用风险的一个方法。
发明内容
本发明目的是解决原始数据集文件不出域的情况如何动态识别数据发布者是否存在发布虚假数据集的情形。
为解决上述技术问题,本发明提供的技术方案为:一种基于数据特征码的不出域数据集发布方法及系统,方法包括:
第一步、用户选择数据集文件;
第二步、用户生成数据集特征码;
第三步、用户输入数据集元数据;
第四步、系统提取用户的数据集元数据;
第五步、计算用户输入元数据的对应元数据特征码;
第六步、通过数据集特征码获取当前数据集的元数据特征码;
第七步、比较两个特征码,是则保存用户发布的数据信息;否则拒绝用户的数据发布请求。
同时,系统包括数据集元数据模块、数据集特征码模块、元数据核验模块、数据集发布模块,数据集元数据模块主要用于定义与管理数据集文件对应的描述信息,数据集的元数据类型包括:数据集名称、数据集数据量、数据集文件大小、数据集所属分类、数据集语言、数据集格式、数据集简介描述、数据集时间范围、数据集的数据项、数据集样例数据、数据集标签、数据集提交人、数据集权利人、数据权属、数据集更新频率、数据指纹(数据集特征码)、数据集共享方式;数据集特征码模块用于唯一识别当前数据集,数据集特征码是由数据集文件静态特征以及动态特征融合在一起形成的唯一码,数据集特征码是数据集文件本身以及数据集文件的元数据属性在一起进行某种散列运算后形成的一个不可逆的字符串;元数据核验模块用于实现用户发布数据时自动核验用户发布输入内容是否存在问题,是否在虚构数据进行发布,用于检验用户声明元数据信息跟数据文件要一致;数据集发布模块用于实现把数据集元数据的登记提交到数据流通平台。
本发明与现有技术相比的优点在于:本方案实现一个针对数据集文件不出域的数据发布方法,其主要包括数据集发布模块、数据集元数据模块、数据集特征码模块、元数据核验模块,本发明可以拦截虚假数据集随意发布到数据流通平台,从而可以显著降低了数据需求者使用数据的风险,通过本发明可以实现对不出域的数据集发布操作实现基于特征码的真实性核验,保护数据发布的可信。
进一步的,所述数据集特征码模块设有数据集特征码的生成算法,设置数据集R是由N个有序数据子项Dn(N个单一数据文件)以及M个有序元数据Tm(key-value组成的集合,则R={{D1,…,Dn},{T1,..., Tm}},散列变换函数f选用md5、hash256、hash512方式中的一种,获取R的特征码具体方式如下:
1)对数据子项集合进行排序,执行Sort{D1,...,Dn},得到{D11,...,D1n};
2)对每个数据子项执行散列运算,并按照梅克尔树形式递归合成一个字符串,先对{D1,...,Dn} 执行散列形成f(D1)...,f(Dn),然后按照{f(D1)、f(D2)},{f(D3)、f(D4)},...,{f(Dn-1)、 f(Dn)}分组,对分组后的数据顺序拼接后继续执行散列运算,即f(f(D1)f(D2)),f(f(D1)f(D2)),..., f(f(Dn-1)f(Dn)),然后继续对生成的结果按照同样方式分组并继续散列,直到只剩一个字符串Root 为止;
3)对核心元数据执行上述步骤类似的散列变换,形成Root1字符串;
4)将Root1、Root两个字符串拼接在一起,并执行重新编码处理(选择异或处理形成新的字符串),则数据集特征码=Xor(Root1Root)。
进一步的,所述元数据核验模块是根据用户输入的数据项来核验数据集的元数据信息跟用户提交数据集特征码是否匹配,设有元数据核验算法,元数据核验算法的实现逻辑如下:
1)获取跟数据集特征码有关的元数据属性值,经过Sort{T1,...,Tm},形成有序元数据属性值组;
2)按照数据集特征码生成算法,根据3)的方式计算生成最终的元数据特征码Root1;
3)读取用户输入数据集特征码,并进行再次异或Xor处理,截获前32位的子串S1;
4)比较S1跟Root1是否一致,如果一致说明数据是真实的,无法出现偏差,说明当前发布的数据集是假的。
附图说明
图1是本发明的工作流程示意图。
图2是实施例的示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
本发明在具体实施时,如图2所示的实施例中,以一个图片数据集images为例来说明一个数据集的特征码如何生成:
第一步:对数据集的图片文件按照文件名进行字典排序,让所有数据文件的文件名按照从小到大的顺序进行排列;
第二步:对图片文件进行聚合散列运算,计算数据文件指纹,数据文件指纹计算公式为:hash(P1, P2,...,P21),这样就可以形成一个独一无二的数据指纹,只要有一个文件发生变化,最终生成的hash散列结果就不同。
第三步:提取当前数据集的关键元数据。比如这里可以知道,数据集数量:21个图片文件;数据集文件总大小:50234KB;数据集类型:图片(jpg)。
第四步:根据数据集的关键元数据信息生成元数据特征码,可以对元数据信息做一个md5散列,元数据特征码计算公式为:md5(数据集数量+数据集大小+数据集类型)。
第五步:把数据文件特征码与元数据特征码组合,通过异或等处理,形成一个唯一的数据集特征码。参考数据集特征码计算公式:Xor(元数据特征码+数据文件指纹)。要说明的是元数据特征码与数据文件指纹的长度32位,前面32位为元数据特征码,后32位为数据文件指纹。这样就形成一个可以验证的数据集特征码。
进一步的,如图2所示的实施例中,以一个图片数据集images为例,元数据核验的基本步骤如下:
第一步:获取用户当前数据集的所有元数据信息,并分离出数据集特征码与非动态元数据(针对数据集文件不会变动的哪些元数据特征)。比如“数据集数量:21个图片;数据集大小:50234KB;数据集类型:图片”等等。
第二步:根据提取的元数据信息,生成元数据特征码,生成步骤类似上数据集特征码的第三步与第四步操作。比如md5(数据集数量+数据集大小+数据集类型)。
第三步:提取数据集特征码中的元数据特征码,可以通过使用数据集特征码的第五步的逆序过程即可分离元数据特征码,即对数据集特征码实施解压、逆序等操作来得到。比如先通过Xor(元数据特征码+ 数据文件指纹)得到原始的数据集特征码,然后获取前32位。
第四步:比对输入数据的元数据是否一致。根据上第二步与第三步提取的元数据特征码,如果两个特征码一致,则说明当前用户发布的数据就是用户实际拥有的数据,否则发布模块拒绝当前用户的数据发布操作。从而可以规避一定量的虚假数据发布,提高数据真实性,降低数据使用者风险。
进一步的,上述列举到的元数据信息并不是全部的元数据属性字段,根据实际需要还有更多的字段添加,但是元数据的使用形式以及参与程度是一致的。
2)前文提到的散列算法并不是固定的,可以hash256、hash512等等,数据集特征码最终长度并不需要必须是64位,可以随着算法的变化跟有不同的长度,其特征码验证的原理并不会发生变化。
3)选择纳入到元数据特征码的字段属性可以根据需要扩充,本发明中列举到的数据集数量、数据集大小、数据集类型三个属性只是因为举例需要而简化。
以上显示和描述了本发明的基本原理和主要特征以及本发明的优点,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种基于数据特征码的不出域数据集发布方法及系统,其特征在于所述方法包括:
第一步、用户选择数据集文件;
第二步、用户生成数据集特征码;
第三步、用户输入数据集元数据;
第四步、系统提取用户的数据集元数据;
第五步、计算用户输入元数据的对应元数据特征码;
第六步、通过数据集特征码获取当前数据集的元数据特征码;
第七步、比较两个特征码,是则保存用户发布的数据信息;否则拒绝用户的数据发布请求。
2.一种基于数据特征码的不出域数据集发布方法及系统,其特征在于:所述系统包括数据集元数据模块、数据集特征码模块、元数据核验模块、数据集发布模块,所述数据集元数据模块主要用于定义与管理数据集文件对应的描述信息,数据集的元数据类型包括:数据集名称、数据集数据量、数据集文件大小、数据集所属分类、数据集语言、数据集格式、数据集简介描述、数据集时间范围、数据集的数据项、数据集样例数据、数据集标签、数据集提交人、数据集权利人、数据权属、数据集更新频率、数据指纹(数据集特征码)、数据集共享方式;所述数据集特征码模块用于唯一识别当前数据集,数据集特征码是由数据集文件静态特征以及动态特征融合在一起形成的唯一码,数据集特征码是数据集文件本身以及数据集文件的元数据属性在一起进行某种散列运算后形成的一个不可逆的字符串;所述元数据核验模块用于实现用户发布数据时自动核验用户发布输入内容是否存在问题,是否在虚构数据进行发布,用于检验用户声明元数据信息跟数据文件要一致;所述数据集发布模块用于实现把数据集元数据的登记提交到数据流通平台。
3.根据权利要求2所述的一种基于数据特征码的不出域数据集发布方法及系统,其特征在于:所述数据集特征码模块设有数据集特征码的生成算法,设置数据集R是由N个有序数据子项Dn(N个单一数据文件)以及M个有序元数据Tm(key-value组成的集合,则R={{D1,…,Dn},{T1,...,Tm}},散列变换函数f选用md5、hash256、hash512方式中的一种,获取R的特征码具体方式如下:
1)对数据子项集合进行排序,执行Sort{D1,...,Dn},得到{D11,...,D1n};
2)对每个数据子项执行散列运算,并按照梅克尔树形式递归合成一个字符串,先对{D1,...,Dn}执行散列形成f(D1)...,f(Dn),然后按照{f(D1)、f(D2)},{f(D3)、f(D4)},...,{f(Dn-1)、f(Dn)}分组,对分组后的数据顺序拼接后继续执行散列运算,即f(f(D1)f(D2)),f(f(D1)f(D2)),...,f(f(Dn-1)f(Dn)),然后继续对生成的结果按照同样方式分组并继续散列,直到只剩一个字符串Root为止;
3)对核心元数据执行上述步骤类似的散列变换,形成Root1字符串;
4)将Root1、Root两个字符串拼接在一起,并执行重新编码处理(选择异或处理形成新的字符串),则数据集特征码=Xor(Root1Root)。
4.根据权利要求2所述的一种基于数据特征码的不出域数据集发布方法及系统,其特征在于:所述元数据核验模块是根据用户输入的数据项来核验数据集的元数据信息跟用户提交数据集特征码是否匹配,设有元数据核验算法,元数据核验算法的实现逻辑如下:
1)获取跟数据集特征码有关的元数据属性值,经过Sort{T1,...,Tm},形成有序元数据属性值组;
2)按照数据集特征码生成算法,根据3)的方式计算生成最终的元数据特征码Root1
3)读取用户输入数据集特征码,并进行再次异或Xor处理,截获前32位的子串S1;
4)比较S1跟Root1是否一致,如果一致说明数据是真实的,无法出现偏差,说明当前发布的数据集是假的。
CN202211076701.4A 2022-09-05 2022-09-05 一种基于数据特征码的不出域数据集发布方法及系统 Pending CN115618304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211076701.4A CN115618304A (zh) 2022-09-05 2022-09-05 一种基于数据特征码的不出域数据集发布方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211076701.4A CN115618304A (zh) 2022-09-05 2022-09-05 一种基于数据特征码的不出域数据集发布方法及系统

Publications (1)

Publication Number Publication Date
CN115618304A true CN115618304A (zh) 2023-01-17

Family

ID=84859079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211076701.4A Pending CN115618304A (zh) 2022-09-05 2022-09-05 一种基于数据特征码的不出域数据集发布方法及系统

Country Status (1)

Country Link
CN (1) CN115618304A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574439A (zh) * 2024-01-17 2024-02-20 中电数据产业有限公司 基于原始文件不出域的文件特征值解析方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574439A (zh) * 2024-01-17 2024-02-20 中电数据产业有限公司 基于原始文件不出域的文件特征值解析方法和系统
CN117574439B (zh) * 2024-01-17 2024-04-30 中电数据产业有限公司 基于原始文件不出域的文件特征值解析方法和系统

Similar Documents

Publication Publication Date Title
US20210004224A1 (en) System and method for managing a public software component ecosystem using a distributed ledger
KR102502247B1 (ko) 안전하고 추적 가능한 제조 부품들
US20200162266A1 (en) Facilitating analytic services for provenance of digital documents
US20190372769A1 (en) Blockchain-universal document identification
JP2024001326A (ja) 契約の実行を制御する方法及びシステム
IL262809A (en) Method and system for verifying ownership of a digital asset using a distributed stacking table and a peer-to-peer distributed book
US20230092012A1 (en) Adding Additional Value to NFTs
Das et al. A secure and distributed construction document management system using blockchain
CN105718502A (zh) 用于高效特征匹配的方法和设备
US20050219076A1 (en) Information management system
US20160299771A1 (en) Collaborative generation of configuration technical data for a product to be manufactured
US20220067681A1 (en) Author verifying apparatus / method using decentralized network and self-sovereign id
JP2022553059A (ja) ブロックチェーンの使用方法
US11756047B2 (en) Fingerprinting physical items to mint NFT's
Hakak et al. A framework for authentication of digital Quran
JP2023501905A (ja) データを効率的に検証するためのデータ構造
CN112148702A (zh) 一种文件检索的方法及设备
KR102458298B1 (ko) Nft 기반의 전자책 유통 서비스를 지원하는 시스템
CN115618304A (zh) 一种基于数据特征码的不出域数据集发布方法及系统
Martínez et al. Robust hashing for models
JP2009110061A (ja) 版数管理システムおよび版数管理方法
CN110827078A (zh) 一种信息推荐方法、装置、设备及存储介质
CN110879835B (zh) 基于区块链的数据处理方法、装置、设备及可读存储介质
CN111597453B (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质
Moreaux et al. Blockchain assisted near-duplicated content detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination