CN111858575B - 私有数据分析方法及系统 - Google Patents
私有数据分析方法及系统 Download PDFInfo
- Publication number
- CN111858575B CN111858575B CN202010780474.8A CN202010780474A CN111858575B CN 111858575 B CN111858575 B CN 111858575B CN 202010780474 A CN202010780474 A CN 202010780474A CN 111858575 B CN111858575 B CN 111858575B
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- analysis result
- calculation
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007405 data analysis Methods 0.000 title claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 298
- 238000004364 calculation method Methods 0.000 claims abstract description 84
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010205 computational analysis Methods 0.000 description 2
- 238000011157 data evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种私有数据分析方法和系统,该方法在私有数据的数据所有者系统内进行数据质量的评判,该私有数据可以是计算前提前准备好的数据,也可以是在计算过程中用到的实际参与计算的数据。该方法包括对所需验证的数据进行本福特定律分析,并同时对数据的元数据进行语义分析以及对元数据对应的数据进行本福特定律分析,最后将分析结果进行公布,以供其他参与方根据分析结果对数据的质量进行评价。本发明在不泄漏任何原始数据、在商业秘密及保护用户的隐私安全的情况下进行数据分析,将分析结果提供给参考方对数据的质量进行评估和评价。
Description
技术领域
本发明属于计算机、大数据计算技术领域,具体涉及一种私有数据分析方法及系统。
背景技术
在数据安全保护下的数据分析系统中如多方安全计算系统,隐私安全计算系统中,数据提供者的原始数据是得到充分保护的,除了原始数据提供者,任何人都不能看到原始数据,在此基础上进行分析计算得到结果。也是只能计算发起人看得到,数据提供方并不能了解具体查询内容或计算内容,只能知道自己的数据使用量。
在数据安全保护下的数据分析系统中,由于数据始终处于保密状态,除了数据提供者,其他人并不能看到或知道原始数据。这种情况如何对数据进行测试验证,一种办法是可以由可信第三方来确认。但是有些时候不允许使用第三方来确认,这时没办法检验测试数据提供者的数据质量。
发明内容
为解决上述问题,本发明提供一种私有数据分析方法和系统,该方法和系统在不泄漏任何原始数据、在商业秘密及保护用户的隐私安全的情况下进行数据分析,将分析结果提供给参考方对数据的质量进行评估和评价。
为达到上述目的,本发明的第一方面提供了一种私有数据分析方法,包括如下步骤:
数据提供方提供数据;
对数据提供方提供的数据在数据提供方的本地系统内进行本福特定律分析,得到第一分析结果;
对所述数据提供方提供的数据的元数据进行语义分析;
根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果;
对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果;
将所述第一、第二、第三分析结果发送给中心端进行公布。
本发明第二方面提供了一种私有数据分析方法,包括如下步骤:
数据提供方提供数据;
计算分析模块根据所述数据提供方提供的数据进行计算,并将用到的数据进行记录;
计算结束后汇总形成本次计算所用的总数据;
对所述总数据进行本福特定律分析,得到第一分析结果;
对所述总数据的元数据进行语义分析;
根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果;
对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果;
将所述第一、第二、第三分析结果发送给公布模块进行公布。
进一步的,所述私有数据包括多个数据提供方,所提供的数据不离开所在数据提供方;
所述第一、第二、第三分析结果在多中心的安全计算情况下计算或分析得到。
进一步的,还包括如下步骤:
对数据提供方提供的数据/计算所用的总数据生成第一哈希值,将数据和哈希值建立对应关系;
和/或;
对所述元数据对应的数据生成第二哈希值,将数据和哈希值建立对应关系。
进一步的,将所述第一、第二、第三分析结果以及第一、第二哈希值进行保存,所述保存的方式包括日志保存或区块链保存。
本发明的第三方面提供了一种私有数据分析系统,包括数据端和中心端;
所述数据端包括数据提供方、本福特定律分析模块、语义分析模块和元数据对应分析算法库;所述中心端包括公布模块;
所述数据提供方提供数据;
所述本福特定律分析模块对数据提供方提供的数据进行本福特定律分析,得到第一分析结果;
所述语义分析模块对所述数据提供方提供的数据的元数据进行语义分析;
所述元数据对应分析算法库提供分析算法,根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果;
所述本福特定律分析模块对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果;
所述公布模块对所述第一、第二、第三分析结果进行公布。
本发明第四方面提供了一种私有数据分析系统,包括数据端和中心端;
所述数据端包括数据提供方、计算分析模块、本福特定律分析模块、语义分析模块和元数据对应分析算法库;所述中心端包括公布模块;
所述数据提供方提供数据;
所述计算分析模块根据所述数据提供方提供的数据进行计算,并将用到的数据进行记录;计算结束后汇总形成计算所用的总数据;
所述本福特定律分析模块对所述总数据进行本福特定律分析,得到第一分析结果;
所述语义分析模块对所述总数据的元数据进行语义分析;
所述元数据对应分析算法库提供分析算法,根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果;
所述本福特定律分析模块对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果;
所述公布模块对所述第一、第二、第三分析结果进行公布。
进一步的,所述数据提供方包括多个数据提供方;所述私有数据为多个数据提供方提供的数据,该数据不离开所在数据提供方。
进一步的,还包括哈希值计算模块;
所述哈希值计算模块对数据提供方提供的数据/计算所用的总数据生成第一哈希值,将数据和哈希值建立对应关系;
和/或;
所述哈希值计算模块对所述元数据对应的数据生成第二哈希值,将数据和哈希值建立对应关系。
进一步的,所述本福特定律分析模块、语义分析模快、元数据对应分析算法库和哈希值计算模块,具有安全的多中心计算能力,能够执行多中心的数据的安全计算分析。
进一步的,还包括存储模块,将所述第一、第二、第三分析结果以及第一、第二哈希值进行保存,所述保存的方式包括日志保存或区块链保存。
综上所述,本发明提供了一种私有数据分析方法和系统,该方法在私有数据环境下进行数据质量的评判,该私有数据可以是计算前提前准备好的数据,也可以是在计算过程中用到的实际参与计算的数据。该方法包括对所需验证的数据进行本福特定律分析,并同时对数据的元数据进行语义分析以及对元数据对应的数据进行本福特定律分析,最后将分析结果进行公布,以供其他参与方根据分析结果对数据的质量进行评价。
本发明的有益效果是:本发明在不泄漏任何原始数据、在商业秘密及保护用户的隐私安全的情况下进行数据分析,将分析结果提供给参考方对数据的质量进行评估和评价。
附图说明
图1是本发明一实施例私有数据分析方法的流程示意图;
图2是本发明又一实施例私有数据分析方法的流程示意图;
图3是本发明一实施例私有数据分析系统的结构框图;
图4是本发明另一实施例私有数据分析系统的结构框图;
图5是本发明又一实施例私有数据分析系统的结构框图;
图6是本发明再一实施例私有数据分析系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
技术术语解释:
本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。不但适用于个位数字,连多位的数也可用。在十进制首位数字的出现概率(%,小数点后一个位)分别为:1-30.1%;2-17.6%;3-12.5%;4-9.7%;5-7.9%;6-6.7%;7-5.8%;8-5.1%;9-4.6%。
本发明的第一方面提供了一种私有数据分析方法,如图1所示,包括如下步骤:
步骤S110,数据提供方提供数据。该数据提供方可以是一个也可以是多个。
步骤S120,对数据提供方提供的数据进行本福特定律分析,得到第一分析结果。每种数据的自然分布具有一定的特征:例如男女比例、生病发病率等等,有些适合正态分布,有些是其他长尾分布,很多适合本福特定律分布。因此,将数据提供方提供的数据进行本福特定律分析,所得到的分析结果可以用来作为判断数据真假的一种方式。具体的,可以对数据进行分割,分块进行分析,而不一定是对所有数据进行分析,可以根据数据类型、当时的条件、数据量等条件进行分块,以便于分析处理。例如,根据电信客户在一个季度内每个月的消费金额特征进行分割、分块。
步骤S130,对数据提供方提供的数据的元数据进行语义分析。其中,元数据是描述数据的数据,对数据及信息资源的描述性信息。元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。语义分析是指基于自然语言理解技术对文本符合语句等进行计算机分析理解,以明确具体含义。对元数据进行语义分析,是为了排除人工参与的情况下,使用自然语言理解技术对元数据进行分析,以确定元数据的特征。以便调用对应的数据分析方法进行分析。
步骤S140,根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果。例如,非人工参与下采用自然语言理解技术析对元数据名称“Age”的进行语义分析,会确认其意思是年龄该元数据下数据,是非负整数,最大值不会超过150,可以采用数据其分布应该是和该数据采集地区的公开的年龄信息存在对应关系。又例如非人工参与下采用自然语言理解技术析对元数据名称“成交金额”的进行语义分析会确认其意思是金额总书该元数据下数据,是非负数,最小值是0。
步骤S150,对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果。例如,元数据名称“Age”下的数据,进行本福特分析,可以得到数字1-9开头的比例,又例如元数据名称“成交金额”元数据下数据,进行本福特分析,可以得到数字1-9开头的比例。
步骤S160,将所述第一、第二、第三分析结果发送给中心端进行公布。以便在不泄露原始数据、保护数据源权益的情况下,为数据质量提供多个参考指标。上述分析结果进行综合分析,得出最后计算结果不能倒推出原始数据,因此可以公布而不影响隐私和商业秘密。具体的,可在有限范围内进行公布,例如,公司历年披露的财务报表数据,证券交易所成交量的数据,经过本福特定律分析后的结果向监管机构公布。
本发明采用私有数据进行安全计算,在对数据进行本福特定律分析的同时,对数据的元数据进行语义分析,得出多种分析结果,以从多个角度提供数据评价的参考指标,避免对不符合本福特定律的数据进行误评价。
本发明第二方面提供了一种私有数据分析方法,如图2所示,包括如下步骤:
步骤S210,数据提供方提供数据。
步骤S220,计算分析模块根据所述数据提供方提供的数据进行计算,并将用到的数据进行记录。
步骤S230,计算结束后汇总形成本次计算所用的总数据。
步骤S210-S230给出了即将进行分析的数据对象。与图1中所示的方法流程相比,一个分析的数据对象是计算前准备好的,静态的。而图2所示的该方法中分析的数据对象是动态的随着计算完成而完成的。
接下来的步骤S240-S280与步骤S110-S150相似,具体就不展开说明了。
步骤S240,对总数据进行本福特定律分析,得到第一分析结果。
步骤S250,对所述总数据的元数据进行语义分析。
步骤S260,根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果。
步骤S270,对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果。
步骤S280,将第一、第二、第三分析结果发送给公布模块进行公布。
进一步的,分析方法中的私有数据为多个数据提供方提供的数据,该数据不离开所在数据提供方,第一、第二、第三分析结果在多中心的安全计算情况下计算或分析得到,将对数据进行分析后的分析结果发送至中心端。多中心的安全计算的本福特定律分析、语义分析、哈希计算,是指分析计算过程在多个数据源多个中心(数据源)进行,可采用多方安全计算、可信计算环境、同态加密等方法,实现每个(数据源)中的原始数据不出本地情况下,多数据源中所有数据整体的本福特定理分析、语义分析、哈希计算。在多数据提供方提供数据的情况下,数据之间相互保密,每个数据提供方中的数据单独自行进行分析计算;数据提供方不从外部得到数据,也不对外输出数据。中心端只得到分析结果,而不能根据分析结果倒推原数据,这样,保证了数据在不泄露的情况下,又能对数据的质量、真假进行评价。具体的,在多中心的安全计算情况下,上述第一种私有数据的分析方法中步骤S120-S150变为(其他步骤不变):
步骤S120’,对数据提供方提供的数据在多中心的安全计算情况下进行本福特定律分析,得到第一分析结果;
步骤S130’,对所述数据提供方提供的数据的元数据进行多中心的安全计算下的语义分析;
步骤S140’,根据语义分析结果选择对应的进行多中心的安全计算的分析算法进行分析,得到第二分析结果;
步骤S150’,对所述进行语义分析的元数据对应的数据在多中心的安全计算下进行本福特定律分析,得到第三分析结果。
上述第二种私有数据的分析方法中步骤S230-S270变为(其他步骤不变):
步骤S230’,计算结束后汇总形成各个数据方计算方所用的总数据,各自保存在各自数据方本地内;
步骤S240’,对所述总数据在多中心的安全计算下进行本福特定律分析,得到第一分析结果;
步骤S250’,对所述总数据的元数据进行多中心的安全计算语义分析;
步骤S260’,根据语义分析结果选择对应的多中心的安全计算分析算法进行分析,得到第二分析结果;
步骤S270’,对所述进行语义分析的元数据对应的数据进行多中心的安全计算本福特定律分析,得到第三分析结果。
进一步的,两种分析方法还包括如下步骤:
对数据提供方提供的数据/计算所用的总数据生成第一哈希值,将数据和哈希值建立对应关系;和/或;对元数据对应的数据生成第二哈希值,将数据和哈希值建立对应关系。该步骤可以将分析的数据进行锁定或固定,通过建立该哈希值和被分析的数据的一一对应关系,改哈希值对应的数据将会是确定,不会被篡改。
进一步的,将所述第一、第二、第三分析结果以及第一、第二哈希值进行保存,所述保存的方式包括日志保存或区块链保存。这样便于后期进行审计和验证。
以上分析结果的公布,本方法针对特定数据提供商,还可提供一种信用评分算法的数据评价体系。
以上所述的信用评分算法如下:将该数据核心字段(元数据)的本福特定律分析的结果于合乎规律的偏差值相加。
以上所述的信用评分算法还包括:根据元数据进行语义分析后得到的值和该领域公开的数据进行比较,两者的差异作为评分依据。例如,某字段存在性别,则该字段的统计男女比例应该接近1:1。又例如,某地区胃癌发病率是公开已知的,则该字段下的比例应该是接近公开数据的。
以上所述的信用评分算法还包括:可以多字段联合进行分析判断。
本发明的第三方面提供了一种私有数据分析系统,如图3所示,包括数据端和中心端;数据端包括数据提供方、本福特定律分析模块、语义分析模块和元数据对应分析算法库;所述中心端包括公布模块。数据提供方用来提供数据;本福特定律分析模块对数据提供方提供的数据进行本福特定律分析,得到第一分析结果;语义分析模块对数据提供方提供的数据的元数据进行语义分析;元数据对应分析算法库提供分析算法,根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果;本福特定律分析模块对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果;公布模块对所述第一、第二、第三分析结果进行公布。
本发明第四方面提供了一种私有数据分析系统,如图4所示,包括数据端和中心端;其和图3所示的私有数据分析系统相比,多了计算分析模块,其他都是一样。该计算分析模块根据数据提供方提供的数据进行计算,并将用到的数据进行记录;计算结束后汇总形成计算所用的总数据;本福特定律分析模块对所述总数据进行本福特定律分析,得到第一分析结果;语义分析模块对总数据的元数据进行语义分析;元数据对应分析算法库提供分析算法,根据语义分析结果选择对应的分析算法进行分析,得到第二分析结果;本福特定律分析模块对所述进行语义分析的元数据对应的数据进行本福特定律分析,得到第三分析结果;最后公布模块对所述第一、第二、第三分析结果进行公布。
进一步的,所述数据提供方包括至少一个数据提供方;所述私有数据为至少一个数据提供方提供的数据,该数据不离开所在数据提供方,仅将对数据进行分析后的分析结果发送至中心端。
进一步的,如图5所示,还包括哈希值计算模块;所述哈希值计算模块对数据提供方提供的数据/计算所用的总数据生成第一哈希值,将数据和哈希值建立对应关系;和/或;所述哈希值计算模块对所述元数据对应的数据生成第二哈希值,将数据和哈希值建立对应关系。图5中虚线框的计算分析模块表示可以有或者没有。
进一步的,所述本福特定律分析模块、语义分析模快、元数据对应分析算法库和哈希值计算模块,具有安全的多中心计算能力,能够执行多中心的数据的安全计算分析。
进一步的,如图6所示,还包括存储模块,将所述第一、第二、第三分析结果以及第一、第二哈希值进行保存,所述保存的方式包括日志保存或区块链保存。
综上所述,本发明提供了一种私有数据分析方法和系统,该方法在私有数据环境下进行数据质量的评判,该私有数据可以是计算前提前准备好的数据,也可以是在计算过程中用到的实际参与计算的数据。该方法包括对所需验证的数据进行本福特定律分析,并同时对数据的元数据进行语义分析以及对元数据对应的数据进行本福特定律分析,最后将分析结果进行公布,以供其他参与方根据分析结果对数据的质量进行评价。本发明在不泄漏任何原始数据、在商业秘密及保护用户的隐私安全的情况下进行数据分析,将分析结果提供给参考方对数据的质量进行评估和评价。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (8)
1.一种私有数据的分析方法,其特征在于,包括如下步骤:
多个数据提供方提供数据,所提供的数据不离开所在数据提供方;
对数据提供方提供的数据在数据提供方的本地系统内进行本福特定律分析,得到第一分析结果;
对所述数据提供方提供的数据的元数据名称进行语义分析;
根据对元数据名称的语义分析结果选择对应的分析算法对元数据名称对应的数据进行分析,得到第二分析结果;
对所述进行语义分析的元数据名称对应的数据进行本福特定律分析,得到第三分析结果;
将所述第一分析结果、第二分析结果和第三分析结果发送给中心端进行公布;
其中,所述第一分析结果、第二分析结果和第三分析结果在多中心的安全计算情况下计算或分析得到,所提供的数据不离开所在数据提供方每个数据提供方中的数据单独自行进行分析计算。
2.一种私有数据分析方法,其特征在于,包括如下步骤:
多个数据提供方提供数据,所提供的数据不离开所在数据提供方;
计算分析模块根据所述数据提供方提供的数据进行计算,并将用到的数据进行记录;
计算结束后汇总形成本次计算所用的总数据;
对所述总数据进行本福特定律分析,得到第一分析结果;
对所述总数据的元数据名称进行语义分析;
根据对元数据名称的语义分析结果选择对应的分析算法对元数据名称对应的数据进行分析,得到第二分析结果;
对所述进行语义分析的元数据名称对应的数据进行本福特定律分析,得到第三分析结果;
将所述第一分析结果、第二分析结果和第三分析结果发送给公布模块进行公布;
其中,所述第一分析结果、第二分析结果和第三分析结果在多中心的安全计算情况下计算或分析得到,每个数据提供方中的数据单独自行进行分析计算。
3.根据权利要求1或2所述的私有数据分析方法,其特征在于,还包括如下步骤:
对数据提供方提供的数据/计算所用的总数据生成第一哈希值,将数据和哈希值建立对应关系;
和/或;
对所述元数据名称对应的数据生成第二哈希值,将数据和哈希值建立对应关系。
4.根据权利要求3所述的私有数据分析方法,其特征在于,将所述第一、第二、第三分析结果以及第一、第二哈希值进行保存,所述保存的方式包括日志保存或区块链保存。
5.一种私有数据分析系统,其特征在于,包括数据端和中心端;
所述数据端包括多个数据提供方、本福特定律分析模块、语义分析模块和元数据对应分析算法库;所述中心端包括公布模块;
所述多个数据提供方提供数据,所提供的数据不离开所在数据提供方;
所述本福特定律分析模块对数据提供方提供的数据进行的本福特定律分析,得到第一分析结果;
所述语义分析模块对所述数据提供方提供的数据的元数据名称进行语义分析;
所述元数据对应分析算法库提供分析算法,根据对元数据名称的语义分析结果选择对应的分析算法对元数据名称对应的数据进行分析,得到第二分析结果;
所述本福特定律分析模块对所述进行语义分析的元数据名称对应的数据进行本福特定律分析,得到第三分析结果;所述公布模块对所述第一分析结果、第二分析结果和第三分析结果进行公布;
其中,所述第一分析结果、第二分析结果和第三分析结果在多中心的安全计算情况下计算或分析得到,所提供的数据不离开所在数据提供方每个数据提供方中的数据单独自行进行分析计算。
6.一种私有数据分析系统,其特征在于,包括数据端和中心端;
所述数据端包括多个数据提供方、计算分析模块、本福特定律分析模块、语义分析模块和元数据对应分析算法库;所述中心端包括公布模块;
所述多个数据提供方提供数据,所提供的数据不离开所在数据提供方;
所述计算分析模块根据所述数据提供方提供的数据进行计算,并将用到的数据进行记录;计算结束后汇总形成计算所用的总数据;
所述本福特定律分析模块对所述总数据进行本福特定律分析,得到第一分析结果;
所述语义分析模块对所述总数据的元数据名称进行语义分析;
所述元数据对应分析算法库提供分析算法,根据对元数据名称的语义分析结果选择对应的分析算法对元数据名称对应的数据进行分析,得到第二分析结果;
所述本福特定律分析模块对所述进行语义分析的元数据名称对应的数据进行本福特定律分析,得到第三分析结果;
所述公布模块对所述第一分析结果、第二分析结果和第三分析结果进行公布;
其中,所述第一分析结果、第二分析结果和第三分析结果在多中心的安全计算情况下计算或分析得到,所提供的数据不离开所在数据提供方每个数据提供方中的数据单独自行进行分析计算。
7.根据权利要求5或6所述的私有数据分析系统,其特征在于,还包括哈希值计算模块;
所述哈希值计算模块对数据提供方提供的数据/计算所用的总数据生成第一哈希值,将数据和哈希值建立对应关系;
和/或;
所述哈希值计算模块对所述元数据名称对应的数据生成第二哈希值,将数据和哈希值建立对应关系。
8.根据权利要求7所述的私有数据分析系统,其特征在于,所述本福特定律分析模块、语义分析模快、元数据对应分析算法库和哈希值计算模块,具有安全的多中心计算能力,能够执行多中心的数据的安全计算分析;
或,还包括存储模块,将所述第一、第二、第三分析结果以及第一、第二哈希值进行保存,所述保存的方式包括日志保存或区块链保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010780474.8A CN111858575B (zh) | 2020-08-05 | 2020-08-05 | 私有数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010780474.8A CN111858575B (zh) | 2020-08-05 | 2020-08-05 | 私有数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858575A CN111858575A (zh) | 2020-10-30 |
CN111858575B true CN111858575B (zh) | 2024-04-19 |
Family
ID=72972204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010780474.8A Active CN111858575B (zh) | 2020-08-05 | 2020-08-05 | 私有数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858575B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114697343B (zh) * | 2022-03-08 | 2023-10-27 | 杭州锘崴信息科技有限公司 | 一种抗网络破坏的区块链系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102419744A (zh) * | 2010-10-20 | 2012-04-18 | 微软公司 | 信息的语义分析 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN109040077A (zh) * | 2018-08-09 | 2018-12-18 | 清华大学 | 数据共享与隐私保护的方法及系统 |
CN110321376A (zh) * | 2019-03-19 | 2019-10-11 | 北京信息科技大学 | 一种基于本福特定律的数据造假排查方法 |
CN110609831A (zh) * | 2019-08-27 | 2019-12-24 | 浙江工商大学 | 基于隐私保护和安全多方计算的数据链接方法 |
CN111090877A (zh) * | 2019-11-21 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 数据生成、获取方法及对应的装置、存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689439B2 (en) * | 2006-02-14 | 2010-03-30 | Quintiles Transnational Corp., Inc. | System and method for managing medical data |
US7814061B2 (en) * | 2008-01-24 | 2010-10-12 | Eastman Kodak Company | Method for preserving privacy with image capture |
US20140075028A1 (en) * | 2012-09-10 | 2014-03-13 | Bank Of America Corporation | Centralized Data Provisioning |
US10043038B2 (en) * | 2015-01-08 | 2018-08-07 | Jumpshot, Inc. | Identifying private information from data streams |
US10860656B2 (en) * | 2017-12-05 | 2020-12-08 | Microsoft Technology Licensing, Llc | Modular data insight handling for user application data |
KR101946195B1 (ko) * | 2018-03-26 | 2019-02-08 | 그래프 블록체인 리미티드 | 프라이빗 블록체인 기반 시스템을 관제하는 관제시스템 및 관제방법 |
-
2020
- 2020-08-05 CN CN202010780474.8A patent/CN111858575B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102419744A (zh) * | 2010-10-20 | 2012-04-18 | 微软公司 | 信息的语义分析 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN109040077A (zh) * | 2018-08-09 | 2018-12-18 | 清华大学 | 数据共享与隐私保护的方法及系统 |
CN110321376A (zh) * | 2019-03-19 | 2019-10-11 | 北京信息科技大学 | 一种基于本福特定律的数据造假排查方法 |
CN110609831A (zh) * | 2019-08-27 | 2019-12-24 | 浙江工商大学 | 基于隐私保护和安全多方计算的数据链接方法 |
CN111090877A (zh) * | 2019-11-21 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 数据生成、获取方法及对应的装置、存储介质 |
Non-Patent Citations (2)
Title |
---|
基于数据挖掘算法的审计数据分析及案例应用;王良;鲍喜;王云;周建成;张海超;;中国注册会计师;20200610(06);全文 * |
数据挖掘的隐私保护研究;王滟方;谢文阁;;大众科技;20101010(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111858575A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240185236A1 (en) | Computer-implemented system and method for enabling zero-knowledge proof | |
US11663364B2 (en) | Whole-lifecycle encrypted big data analysis method and system for the data from the different sources | |
Clifton et al. | Defining privacy for data mining | |
Zheng et al. | Identifying the vulnerabilities of bitcoin anonymous mechanism based on address clustering | |
Mallard et al. | The paradoxes of distributed trust: peer-to-peer architecture and user confidence in Bitcoin | |
CN110851872B (zh) | 针对隐私数据泄漏的风险评估方法及装置 | |
CN114818011A (zh) | 一种适用碳信用评价的联邦学习方法、系统及电子设备 | |
US20210166245A1 (en) | Compliance verification of connected data | |
US11792010B2 (en) | Distributed machine learning via secure multi-party computation and ensemble learning | |
CN112613601A (zh) | 神经网络模型更新方法、设备及计算机存储介质 | |
Li et al. | A blockchain-based credible and secure education experience data management scheme supporting for searchable encryption | |
CN111858575B (zh) | 私有数据分析方法及系统 | |
Liang et al. | Decentralized crowdsourcing for human intelligence tasks with efficient on-chain cost | |
CN112231746B (zh) | 联合数据分析方法、装置、系统及计算机可读存储介质 | |
CN112801780A (zh) | 基于联邦学习的境内外风险客户识别方法、装置及系统 | |
US11334925B1 (en) | Normalization and secure storage of asset valuation information | |
US20230070625A1 (en) | Graph-based analysis and visualization of digital tokens | |
EP3952207A1 (en) | Secure transfer of data units using sharded blockchain | |
Shukla et al. | Delend: A p2p loan management scheme using public blockchain in 6g network | |
Murugan et al. | Preventing the bitcoin double spend using transaction hash and unspent transaction output | |
CN110535664A (zh) | 基于区块链的数据处理方法、装置、服务器及存储介质 | |
Schneider | Metadata and rights management for media assets using blockchain technology | |
US20230334482A1 (en) | Dynamic Quantum Enabled Method for Large Currency Transaction Exemption using Distributed Hash Chain | |
CN117335960B (zh) | 一种零信任网络中基于区块链的碳数据共享访问方法及装置 | |
US20230334489A1 (en) | Dynamic Quantum Enabled Method for Large Currency Transaction Exemption Using Distributed Hash Chain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |