CN113486402A - 数值型数据查询方法、装置、设备及存储介质 - Google Patents
数值型数据查询方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113486402A CN113486402A CN202110852073.3A CN202110852073A CN113486402A CN 113486402 A CN113486402 A CN 113486402A CN 202110852073 A CN202110852073 A CN 202110852073A CN 113486402 A CN113486402 A CN 113486402A
- Authority
- CN
- China
- Prior art keywords
- data
- query
- budget consumption
- numerical data
- original data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Abstract
本发明涉及人工智能技术领域,公开了一种数值型数据查询方法、装置、设备及存储介质。该方法包括:获取原始数据后根据先验知识,确定数值型数据查询时对应的预算消耗值边界,根据预算消耗值边界,计算原始数据的初始预算消耗值,并采用初始预算消耗值构建原始数据查询对应的收敛函数,获取客户端上传的对原始数据的数值型数据查询请求,并由此确定本次数值型数据查询的目标原始数据,采用收敛函数,计算本次数值型数据查询的预算消耗值,并由此对目标原始数据进行随机化处理,得到查询结果,将查询结果返回至客户端。本发明降低了组合性差分隐私进行多次数值型数据查询带来的隐私泄露。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种数值型数据查询方法、装置、设备及存储介质。
背景技术
随着互联网的广泛普及和大数据的来临,由此产生了巨大商业价值和社会价值的各种资源,可以看出,在当今社会,数据已经作为新型生产力的重要因素,继而将成为蒸汽机、石油、电力之后,逐渐成为了以信息技术为基础的第四次工业革命的重要驱动动力,并且在这些海量数据中和蕴含着潜在的、有价值的信息,吸引了来自学术界、工业界及政府部门等对大数据研究的热潮。
但是,数据与其他生产要素如资本、技术、劳动力和土地等相比,具有一个显著不同特点,就是其具有较大的安全问题,由于庞大的数据资源中可能存在大量敏感内容,包括重要的个人隐私数据和信息,对此在个人隐私保护等法律法规下,加大对这些敏感数据的保护尤为重要,当前,隐私保护的算法不断增进,而差分隐私作为目前最强的隐私保护算法,它的优势主要在于假设攻击者已经获取最大的背景知识,经过严格的数学证明,仍然能保障用户的隐私安全,但是根据差分隐私的组合性,多次的查询会增加总体隐私预算,降低拉普拉斯尺度,导致噪声分布更集中于期望值,从而大大增加隐私泄露的风险。即现有隐私保护方法随着数值型数据查询次数增加,存在隐私泄露风险增加的技术问题。
发明内容
本发明的主要目的在于解决隐私保护方法随着数值型数据查询次数增加,存在隐私泄露风险增加的技术问题。
本发明第一方面提供了一种数值型数据查询方法,其特征在于,所述方法包括:获取目标应用场景的原始数据,并根据预置先验知识,确定所述原始数据查询时对应的预算消耗边界;根据所述预算消耗边界,计算所述原始数据的初始预算消耗值,并采用所述初始预算消耗值构建所述原始数据查询时对应的收敛函数;获取客户端上传的对所述原始数据的数值型数据查询请求,并根据所述数值型数据查询请求,确定本次数值型数据查询的目标原始数据;采用所述收敛函数,计算本次数值型数据查询的预算消耗值,并根据所述预算消耗值,对所述目标原始数据进行随机化处理,得到查询结果;将所述查询结果返回至所述客户端。
可选的,在本发明第一方面的第一种实现方式中,所述根据预置先验知识,确定所述原始数据查询时对应的预算消耗边界包括:获取所述目标应用场景对应的经验数据集,其中,所述经验数据集包括多个预算消耗边界数据;采用预置函数模型,统计所述经验数据集中相同预算消耗边界数据的数量,得到数据分布图,并选取所述数据分布图中预置高频单位区间对应的预算消耗边界数据;计算选取的预算消耗边界数据对应的平均预算消耗值并作为所述原始数据查询时对应的预算消耗边界。
可选的,在本发明第一方面的第二种实现方式中,所述根据所述预算消耗边界,计算所述原始数据的初始预算消耗值包括:调用所述原始数据的查询次数和预算消耗的关系式,并对所述关系式进行变换,得到所述原始数据的预算消耗求和公式;根据所述预算消耗边界,采用所述预算消耗求和公式,计算所述原始数据的初始预算消耗值。
可选的,在本发明第一方面的第三种实现方式中,所述采用所述初始预算消耗值构建所述原始数据查询时对应的收敛函数包括:将所述初始预算消耗值作为所述关系式的系数并代入所述关系式中,得到所述原始数据查询时对应的收敛函数。
可选的,在本发明第一方面的第四种实现方式中,所述采用所述收敛函数,计算本次数值型数据查询的预算消耗值包括:根据预置数值型数据查询系统记录的所述原始数据对应的查询标记,确定本次数值型数据查询的次数;根据本次数值型数据查询的次数,采用所述收敛函数,计算本次数值型数据查询的预算消耗值。
可选的,在本发明第一方面的第五种实现方式中,所述根据所述预算消耗值,对所述目标原始数据进行随机化处理,得到查询结果包括:根据所述数值型数据查询系统,获得所述目标原始数据对应的历史数值型数据查询结果;根据所述预算消耗值和所述历史数值型数据查询结果,采用预置差分公式计算所述目标原始数据对应的相邻数据和噪声数据;组合所述相邻数据和所述噪音数据,得到所述目标原始数据随机化处理后的查询结果。
可选的,在本发明第一方面的第六种实现方式中,在所述采用所述收敛函数,计算本次数值型数据查询的预算消耗值之前,还包括:判断本次数值型数据查询的次数是否超过预置查询次数阈值;若超过,则确定本次数值型数据查询异常,并返回所述目标原始数据最近的历史查询结果。
本发明第二方面提供了一种数值型数据查询装置,包括:边界获取模块,用于获取目标应用场景的原始数据,并根据预置先验知识,确定所述原始数据查询时对应的预算消耗边界;函数构建模块,用于根据所述预算消耗边界,计算所述原始数据的初始预算消耗值,并采用所述初始预算消耗值构建所述原始数据查询时对应的收敛函数;数据获取模块,用于获取客户端上传的对所述原始数据的数值型数据查询请求,并根据所述数值型数据查询请求,确定本次数值型数据查询的目标原始数据;数值型数据查询模块,用于采用所述收敛函数,计算本次数值型数据查询的预算消耗值,并根据所述预算消耗值,对所述目标原始数据进行随机化处理,得到查询结果;数据返回模块,用于将所述查询结果返回至所述客户端。
可选的,在本发明第二方面的一种实现方式中,所述边界获取模块包括:数据获取单元,用于获取所述目标应用场景对应的经验数据集,其中,所述经验数据集包括多个预算消耗边界数据;数据选取单元,用于采用预置函数模型,统计所述经验数据集中相同预算消耗边界数据的数量,得到数据分布图,并选取所述数据分布图中预置高频单位区间对应的预算消耗边界数据;数据计算单元,用于计算选取的预算消耗边界数据对应的平均预算消耗值并作为所述原始数据查询时对应的预算消耗边界。
可选的,在本发明第二方面的二种实现方式中,所述函数构建模块包括:求和计算单元,用于调用所述原始数据的查询次数和预算消耗的关系式,并对所述关系式进行变换,得到所述原始数据的预算消耗求和公式;初始计算单元,用于根据所述预算消耗边界,采用所述预算消耗求和公式,计算所述原始数据的初始预算消耗值。
可选的,在本发明第二方面的三种实现方式中,所述函数构建模块还包括:函数构建单元,用于将所述初始预算消耗值作为所述关系式的系数并代入所述关系式中,得到所述原始数据查询时对应的收敛函数
可选的,在本发明第二方面的四种实现方式中,所述数值型数据查询模块包括:次数查询单元,用于根据预置数值型数据查询系统记录的所述原始数据对应的查询标记,确定本次数值型数据查询的次数;预算计算单元,用于根据本次数值型数据查询的次数,采用所述收敛函数,计算本次数值型数据查询的预算消耗值。
可选的,在本发明第二方面的五种实现方式中,所述数值型数据查询单元还包括:历史数据单元,用于根据所述数值型数据查询系统,获得所述目标原始数据对应的历史数值型数据查询结果;差分计算单元,用于根据所述预算消耗值和所述历史数值型数据查询结果,采用预置差分公式计算所述目标原始数据对应的相邻数据和噪声数据;组合计算单元,用于组合所述相邻数据和所述噪音数据,得到所述目标原始数据随机化处理后的查询结果。
可选的,在本发明第二方面的六种实现方式中,所述数值型数据查询单元还用于:判断本次数值型数据查询的次数是否超过预置查询次数阈值;若超过,则确定本次数值型数据查询异常,并返回所述目标原始数据最近的历史查询结果。
本发明第三方面提供了一种数值型数据查询设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述数值型数据查询设备执行上述的数值型数据查询方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数值型数据查询方法。
本发明提供的技术方案中,首先获取目标应用场景的原始数据,并根据先验知识,确定原始数据查询时对应的预算消耗边界,然后根据预算消耗边界,计算原始数据的初始隐预算消耗值,并采用初始预算消耗值构建原始数据查询对应的收敛函数。通过获取得到的边界数据利用正态分布函数处理得到本技术的所需预算消耗边界,有利于得到符合数据分布要求且较为合理的预算消耗值,进而通过预算消耗边界构造每次数值型数据查询所需预算消耗值对应的收敛函数,相对于现有技术能有一个更加科学合理的预算消耗值,并且每次所加的噪声数据能按照收敛要求进行添加,降低数值型数据查询时相关隐私泄露的风险。
进一步的,数值型数据查询系统获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据,然后采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果,最后将查询结果返回至客户端。相对于现有技术,本发明在数值型数据查询系统获取所要查询的数据后利用差分算法和收敛函数来构建的每次添加的噪声,比如拉普拉斯噪声,引入不同程度的噪声扰动的同时,利用收敛性,使得查询次数趋于无穷时,预算消耗有界,加上在多次查询仍能避免噪声分布更加集中于期望值,从而大大降低了数值型数据相关隐私泄露的风险。
附图说明
图1为本发明实施例中数值型数据查询方法的第一个实施例示意图;
图2为本发明实施例中数值型数据查询方法的第二个实施例示意图;
图3为本发明实施例中数值型数据查询方法的第三个实施例示意图;
图4为本发明实施例中数值型数据查询方法的第四个实施例示意图;
图5为本发明实施例中数值型数据查询方法的第五个实施例示意图;
图6为本发明实施例中数值型数据查询装置的一个实施例示意图;
图7为本发明实施例中数值型数据查询装置的另一个实施例示意图;
图8为本发明实施例中数值型数据查询设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种数值型数据查询方法、装置、设备及存储介质。针对于现有的是数值型数据查询方法,本发明提出了通过获取原始数据查询时对应的总预算消耗值,进而根据总预算消耗值计算原始数据的预算消耗边界,并根据预算消耗边界构建原始数据查询对应的收敛函数,通过客户端上传的原始数据的数值型数据查询请求,从而根据数值型数据查询请求,确定本次数值型数据查询的原始目标数据,根据收敛函数计算本次数值型数据查询的预算消耗值,进而通过计算得到的预算消耗值对目标数据进行随机化处理,得到查询结果并返回至客户端。此方法通过构建收敛函数,改变每次数值型数据查询的预算消耗值,进而在多次查询后,不会增加总体预算消耗值和降低拉普拉斯尺度,从而不会导致噪声分布更集中于期望值,进而大大降低了数值型数据的隐私泄露的风险。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中数值型数据查询方法的第一个实施例包括:
101、获取目标应用场景的原始数据,并根据预置先验知识,确定原始数据查询时对应的预算消耗边界;
本实施例中,这里的原始数据,它是指用户平常上网时所产生的各种数据、相关资料上传或者同步到数据保存系统中的数据,包括用户基础数据(如姓名、电话、邮箱、生日等)、用户企业属性数据(公司、个人邮箱、职位等)、社交属性数据(微信、微博、QQ等)等等,数值型数据查询系统根据用户本次所要查询的目标应用场景数据,进而获取目标应用场景所包含的原始数据,这里的先验知识,是指当前众多学者根据相关隐私数据保护所做的研究,根据研究所用方法不同,计算所得的隐私预算边界(上界或下界)会有所差别,这里采用的是学者研究计算所得的隐私预算上界;其中这里的预算消耗边界指的就是由先验知识所得的隐私预算边界;这里的采用的函数模型可以为正态分布函数模型,正态分布是一种常用的统计方法的理论基础,检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布,若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2),相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础,根据确定的原始数据查询对应的多组经验调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式,进而统计相应的的多组经验调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式得到满足函数模型的分布图,进而通过选取高频单位区间的数据进行平均预算消耗计算得到预算消耗边界。
在实际应用中,数值型数据查询系统根据操作用户本次所要查询的数值型数据,通过系统自带的全文搜索引擎方法,通过以查询用户的用户名等相关信息作为检索关键词,搜索数据库保存的所有数值型隐私数据中所有相应的用户数据信息,进而获取得到目标应用场景相应的原始数据,根据获取的目标应用场景的原始数据,查询原始数据所对应的已有经验总结出的调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式,进而通过对相应的预算消耗边界进行统计并画出多组调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式对应的正态分布函数图像,通过对所得图像进行正态分布函数数据分析,取的数学期望μ单位区间内最高频率的调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式,进而对取得得到的调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式进行均值计算处理,如取得的十个边界数据进行求和,后将求和的数据除与10求得均值为63,从而得到原始数据查询时所对应的预算消耗边界Sn数值为63。
102、根据预算消耗边界,计算原始数据的初始预算消耗值,并采用初始预算消耗值构建原始数据查询时对应的收敛函数;
本实施例中,根据步骤101计算得到的预算消耗边界,通过预置设定的原始查询数据与预算消耗的关系式,得到含有n次查询的预算消耗值和初值预算消耗值的关系,进而根据基本函数数据求和关系可知道原始数据对应的预算消耗值所对应的求和公式,进而通过得到的预算消耗的求和公式和预算消耗边界,可计算得到初始预算消耗值,根据得到的初始预算消耗值,采用预置的原始查询数据与预算消耗对应的关系式,进而计算得到原始数据查询对应的收敛函数。
在实际应用处理过程中,数值型数据查询系统根据101得到的预算消耗边界Sn数值为63,通过调用预置的已设定好的原始数据查询次数与预算消耗边界之间对应的关系式:
这里我们可先定义k=2,所以可得该表达式为an=εi,可知该表达式为一个单向递减、首项a1=ε0、n项an=εi和公比q为1/2的等比数列,通过含有n次查询的预算消耗值和初值预算消耗值的关系,可得一个含n次查询的预算消耗值的初始预算消耗值ε0=2iεi,进而根据关系式所对应基本等比数列的求和性质,可得到原始数据对应预算消耗边界的求和公式:
假定n=5,进而代入预算消耗和含有预算消耗的的初始预算消耗,并通过数学均值计算的方式可以得到初始预算消耗值代入求和公式:
计算可得原始数据的初始预算消耗ε0为32,通过得到的初始预算消耗值和预置的原始查询数据与预算消耗值的关系式:
将初始预算消耗值代入关系式,可得到原始数据查询对应的收敛函数为:
103、获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
本实施例中,这里的数值型数据查询请求,是指用户将需要查询某个或者某些数值型数据输入进客户端,进而客户端根据输入的信息转换为数值型数据查询系统的相关查询请求,数值型数据查询系统获取客户端上传的对原始数据的数值型数据查询请求,根据数值型数据查询系统获得的数值型数据查询请求,确定本次数值型数据查询的目标原始数据。
在实际应用中,相关查询用户通过客户的输入端将当前期所要查询的数据信息输入进客户端中,数值型数据查询系统根据查询用户输入的数据进行识别并转换为系统能够识别的语言,进而对输入的内容信息进行处理,判断数据的信息是否会存在非法输入等信息输入操作,如输入的查询信息正常,从而得到客户端上传的对原始数据的数值型数据查询请求,进而根据客户端得到的数值型数据查询请求,对原始数据内的所有数据进行查询请求操作,进而查询得到本次数值型数据查询的目标原始数据。
104、采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果;
本实施例中,这里的收敛函数,是指该函数的自变量趋于无穷时(包括无穷大或者无穷小)时,该函数的因变量总是逼近于某一个值,这就叫函数的收敛性,也就是说存在极限的函数就是收敛函数,采用计算得到的收敛函数,代入前一次的预算消耗值,计算得到本次数值型数据查询的预算消耗值,这里的随机化处理,利用差分隐私保护方法,通过对预算消耗数据进行差分隐私计算后在进行拉普拉斯算法概率分布函数处理,组合得到一个差分处理后的目标原始数据,根据本次的预算消耗值,对目标原始数据进行随机化处理,将目标原始数据进行差分隐私保护算法进行数值型数据处理,进而将处理后的噪声组合进处理后的目标是原始数据中,从而获得一个与目标原始数据不同的,组合添加处理后噪声扰动的本次查询结果。
实际应用中,根据步骤103所得收敛函数表达式,先通过数值型数据查询系统查询本次的查询次数如第4次,根据初始预算消耗值32,进而代入收敛函数表达式中计算,得到本次数值型数据查询的预算消耗值为2,数值型数据查询系统通过查询数值型数据查询保存记录的数据信息,查询得到前一次原始目标数值型数据查询的结果,进而根据本次数值型数据查询的预算消耗值,进行差分隐私查询算法计算得到一个差分查询的计算结果f(D),然后先通过对预算消耗值进行拉普拉斯算法概率分布函数Lap(Δf/ε)计算得到一个拉普拉斯噪声值(其中Δf为敏感度,ε为此次的预算消耗值即为2),进而将差分算法查询结果和拉普拉斯噪声值进行组合计算处理即A(D)=f(D)+Lap(Δf/ε),从而得到加入噪声源的数据结果为本次目标原始数据的查询结果A(D)。
105、将查询结果返回至客户端。
本实施例中,通过步骤S40的查询处理,得到本次目标原始数据的查询结果,进而数值型数据查询系统将对目标原始数据进行数值型隐私保护处理后的数值型数据查询结果返回至查询客户端中,最终提供给查询用户。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明提供的技术方案中,首先获取目标应用场景的原始数据,并根据先验知识,确定原始数据查询时对应的预算消耗边界,然后根据预算消耗边界,计算原始数据的初始隐预算消耗值,并采用初始预算消耗值构建原始数据查询对应的收敛函数。通过获取得到的边界数据利用正态分布函数处理得到本技术的所需预算消耗边界,有利于得到符合数据分布要求且较为合理的预算消耗值,进而通过预算消耗边界构造每次数值型数据查询所需预算消耗值对应的收敛函数,相对于现有技术能有一个更加科学合理的预算消耗值,并且每次所加的噪声数据能按照收敛要求进行添加,降低数值型数据查询时相关隐私泄露的风险。
进一步的,数值型数据查询系统获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据,然后采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果,最后将查询结果返回至客户端。相对于现有技术,本发明在数值型数据查询系统获取所要查询的数据后利用差分算法和收敛函数来构建的每次添加的噪声,比如拉普拉斯噪声,引入不同程度的噪声扰动的同时,利用收敛性,使得查询次数趋于无穷时,预算消耗有界,加上在多次查询仍能避免噪声分布更加集中于期望值,从而大大降低了数值型数据相关隐私泄露的风险。
请参阅图2,本发明实施例中数值型数据查询方法的第二个实施例包括:
201、获取目标应用场景对应的经验数据集,其中,经验数据集包括多个预算消耗边界数据;
本实施例中,这里的多组经验数据集,指众多学者对差分预算消耗的选择进行研究,由于差分隐私研究的方法略有区别,进而研究总结出来的预算消耗的上界或者下界略有不同,系统收集目前的有上界数据并组合成一个经验数据集,根据原始数据,通过差分算法研究结果查询,获取目标应用场景对应的多组经验数据集,多组数据集包括有多个预算消耗边界数据。
202、采用预置函数模型,统计经验数据集中相同预算消耗边界数据的数量,得到数据分布图,并选取数据分布图中预置高频单位区间对应的预算消耗边界数据;
本实施例中,根据查询得的经验数据集,采用预置的正态分布函数模型进行数据图形分析处理,通过统计相同预算消耗边界数据的数量,利用数据来构建一个正态分布图形,构建出一个满足正态分布的边界数据分布图,进而根据数据分布图选择预置的高频单位区间对应的预算消耗边界数据。
203、计算选取的预算消耗边界数据对应的平均预算消耗值并作为原始数据查询时对应的预算消耗边界;
本实施例中,通过算数均值算法对所得的预算消耗边界数据进行均值计算处理得到预算消耗边界数据的平均预算消耗边界,进而将得到的平均预算消耗边界作为原始数据查询时对应的预算消耗值边界。
在实际应用中,数值型数据查询系统根据原始数据,获取目前差分隐私相关的所有研究学者关于差分隐私算法研究的预算上界的数据,将得到的大量预算上界的数据构建成一个多组经验数据集,这个多组经验数据集包括了查询得到的所有预算消耗边界数据,根据查询得到的经验数据集,采用预置的正态分布函数模型,先对得到的数据进行相同的预算消耗边界数据进行数量统计,进而对数据进行统计分析构建一个正态分布的数据分布图,根据预算消耗边界数据正态分布的特点,系统对图形中间期望值μ分布最多单元区间的数据,通过预置的高频单位区间中所有数据进行提取,然后对提取得到的所有区间中的数据的数量进行数量统计,进而对数据进行均值计算处理,得到区间预算消耗边界数据对应的单位区间平均隐私预算,进行将得到的平均隐私预算值作为原始数据查询时对应的预算消耗值边界。
204、根据预算消耗边界,计算原始数据的初始预算消耗值,并采用初始预算消耗值构建原始数据查询时对应的收敛函数;
205、获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
206、采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果;
207、将查询结果返回至客户端。
本发明实施例中,系统先获取原始数据类型对应的多组经验数据集,进而利用预置的正态分布函数模型统计预算消耗边界数据的数量,得到数据分布图,并选取数据的分布图中预置高频单位区间对应的预算消耗边界数据,进而利用均值函数计算选取得到的隐私预算消耗边界数据,从而得到原始数据查询时对应的预算消耗值边界,相比于现有技术,本申请对目前存在许多的由不同方法确定的边界数据进行统计处理,科学利用大量数据呈现正态分布的的特点,通过收集相关数据,进而对于制作正态分布图进行选取高频区间的数据来计算得到本申请所用的预算消耗值边界,对比其他获取方法,本方法更具有科学性,并有创造性的结合正态分布函数的特点来得到我们所要的数据,科学、准确的获得所要预算消耗值边界。
请参阅图3,本发明实施例中数值型数据查询方法的第三个实施例包括:
301、获取目标应用场景的原始数据,并根据预置先验知识,确定原始数据查询时对应的预算消耗边界;
302、调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式;
本实施例中,这里的预算消耗求和公式Sn,是把一个满足预算消耗值的收敛函数,通过将各项进行求和计算化简得到求和公式如等比数列求公式:
通过该求和公式能计算得到一个具体的求和值,数值型数据查询系统通过查询原始数据的查询次数,进而将得到的原始数据查询次数和预置的预算消耗值的关系式,先对预算消耗的关系式进行数学变换得到每次的预算消耗值关系式,进而对得到的每次的预算消耗值进行求和处理,得到原始数据的预算消耗求和公式。
303、根据预算消耗边界,采用预算消耗求和公式,计算原始数据的初始预算消耗值;
本实施例中,根据正态分布分析后均值计算处理得到的预算消耗值边界,代入预算消耗求和公式,进而可计算得到原始数据的初始预算消耗值。
在实际应用中,数值型数据查询系统通过调用原始数据的查询次数的数据信息,得到原始数据的查询次数如5,进而通过调用预置的预算消耗值的关系式:通过对关系式进行数学变换从而得到初始预算消耗的关系式ε0=2iεi,进而根据得到的初始预算消耗的关系式、原始数据查询次数和预算消耗值的关系式进行逐项求和计算和分析,可得到原始数据的预算消耗的求和公式为:
根据正态分布图取得数据进行均值计算得到的预算消耗值边界63代入预算消耗求和公式为:
进而可求得原始数据的初始预算消耗值为32。
304、将初始预算消耗值作为关系式的系数并代入关系式中,得到原始数据查询时对应的收敛函数;
本实施例中,这里的关系式,是一个满足收敛条件的关系式,定义为
计算调用之前系统先进行对k进行赋值,可得一个标准化的关系式,根据得到的初始预算消耗值,将其作为预算消耗值的关系式的初始预算消耗值对应系数,进而将其代入关系式中,通过数学计算后进行整理,可得到原始数据查询对应的收敛函数。
在实际应用中,数值型数据查询系统通过求和公式计算得到的初始预算消耗值32,进而将它作为预算消耗值的关系式中的作为初始预算消耗值未知数的对应的实际系数,将其代入k=2关系式
中进行计算,进而将计算的结果进行整理后,将该函数作为的原始数据查询时所用对应的收敛函数
305、获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
306、采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果;
307、将查询结果返回至客户端。
本发明实施例中,系统通过调用数值型数据查询系统得到原始数据查询次数和预算消耗值的关系式,并对关系式进行数学变换,得到原始数据的预算消耗求和公式,进而将得到的预算消耗值边界带入预算消耗求和公式之中,可以得到初始预算消耗值,从而将得到的初始预算消耗值待进关系式中,最终得到原始数据查询对应的收敛函数,相比于现有技术,本申请的差分隐私计算是先通过得到预算消耗值的基础上,通过构建收敛函数来实现后续计算添加的拉普拉斯噪声值的改变,使得最终的数值型数据查询结果在多次查询后能有一个收敛值,在用隐私数据被经过多次的查询后仍能很好的保护用户的数值型隐私数据,有着更好的隐私保护效果。
请参阅图4,本发明实施例中数值型数据查询方法的第四个实施例包括:
401、获取目标应用场景的原始数据,并根据预置先验知识,确定原始数据查询时对应的预算消耗边界;
402、根据预算消耗边界,计算原始数据的初始预算消耗值,并采用初始预算消耗值构建原始数据查询时对应的收敛函数;
403、获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
404、根据预置数值型数据查询系统记录的原始数据对应的查询标记,确定本次数值型数据查询的次数;
本实施例中,数值型数据查询系统根据系统保存的数值型数据查询记录,查询目标原始数据已被查询的次数,先获取目标原始数据对应的查询次数标记,从而确定本次目标原始数据查询的次数。
405、根据本次数值型数据查询的次数,采用收敛函数,计算本次数值型数据查询的预算消耗值;
本实施例中,根据本次查询的次数,将其代入计算得到的收敛函数中,通过计算得到本次数值型数据查询的预算消耗值。
在实际应用中,数值型数据查询系统通过系统存储器中已保存的数值型数据查询记录信息,系统通过对每次查询次数记录定义一个变量标记a,专门用来保存记录当前目标原始数据已被查询的次数,通过查找该变量标记a,从而获得目标原始数据对应的查询次数标记,确定本次数值型数据查询的次数,根据获得的本次查询数据如取4,将其代入计算得到的收敛函数关系式中进行计算处理,进而可得到本次数值型数据查询的预算消耗值为2。
406、根据数值型数据查询系统,获得目标原始数据对应的历史数值型数据查询结果;
本实施例中,根据数值型数据查询系统存储器已保存的数值型数据查询结果记录信息,查询得到目标原始数据对应的历史数值型数据查询结果。
407、根据预算消耗值和历史数值型数据查询结果,采用预置差分公式计算目标原始数据对应的相邻数据和噪声数据;
本实施例中,根据查询得到的历史数值型数据查询结果和计算得到的预算消耗数据,利用差分算法公式:
计算本次的目标原始数据对应的相邻差分数据,其中f(D')为邻近差分计算结果,S为任意输出,进而通过历史查询结果和相邻数值型数据查询的差异计算敏感度Δf,进而对敏感度Δf与本次预算消耗数据进行比值计算,将比值计算结果进行拉普拉斯算概率密度分布函数变换可得本次数值型数据查询的噪声数据。
408、组合相邻数据和噪音数据,得到目标原始数据随机化处理后的查询结果;
本实施例中,将计算得到的差分相邻数据和拉普拉斯噪声数据进行组合计算处理,从而可得到目标原始数据随机化处理结果,将该结果作为本次的数值型数据查询结果。
在实际应用中,数值型数据查询系统有专门的数据存储器,不止用来存储用户的各种数据,也用来保存了查询过程中的查询数据和查询结果等,数值型数据查询系统在进行数值型数据查询前系统中已定义了一个变量标记a,该变量a专门用来记录数据已被查询的次数,并且该变量标记a地址对应着另一个变量b,变量b用来保存相应查询次数的数值型数据查询结果,通过访问存储器中已保存的数据,查询该变量标记a,得到已被查询的次数,进而得到相应历史数据的查询结果,从而得到目标原始数据相应的历史数值型数据查询结果,根据前一次的历史数值型数据查询结果和预算消耗值,利用差分隐私算法进行差分计算得到差分相邻数据结果,根据相邻数据集的最大结果进行差异性计算得到敏感度Δf,如相邻数据只有一条数据不同,则敏感度为1,进而将敏感度Δf与本次预算消耗值进行比值计算,将比值计算结果采用拉普拉斯变换Lap(Δf/ε)进行计算得到本次数值型数据查询的噪声,进而对本次计算查询的噪声和差分相邻数据结果通过公式进行组合叠加即A(D)=f(D)+Lap(Δf/ε)计算,得到本次目标原始数据随机化处理的结果A(D)。
409、将查询结果返回至客户端。
本实施例中,数值型数据查询系统在获得本次查询的目标原始数据后,先根据数值型数据查询系统记录的原始数据对应的查询标记,确定本次数值型数据查询的对应次数,进而利用收敛函数,计算本次数值型数据查询的预算消耗值,进而再通过数值型数据查询系统获取目标原始数据对应的历史数值型数据查询结果,根据得到的预算消耗值和历史数值型数据查询结果,利用预置的差分算法计算目标原始数据对应的相邻数据和拉普拉斯噪声数据,将得到的相邻数据和噪声数据进行组合后,得到本次目标原始数据随机化处理结果,相比于现有技术,本申请是通过收敛函数来确定本次的数值型数据查询对应的预算消耗值,进而根据本次预算消耗值来计算敏感度,从而再计算得到拉普拉斯噪声数据,通过本方法可以使得数值型隐私数据在每次查询时加入的预算消耗值都是符合收敛性质的,从而最终在多次查询后求和后查询值能收敛于某个值,降低多次数值型数据查询带来的隐私泄露的风险。
请参阅图5,本发明实施例中数值型数据查询方法的第五个实施例包括:
501、获取目标应用场景的原始数据,并根据预置先验知识,确定原始数据查询时对应的预算消耗边界;
502、根据预算消耗边界,计算原始数据的初始预算消耗值,并采用初始预算消耗值构建原始数据查询时对应的收敛函数;
503、获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
504、判断本次数值型数据查询的次数是否超过预置查询次数阈值;
本实施例中,这里的查询的次数是根据调研用户的数值型数据查询正常所需次数而设定的,普通查询用户正常是不会一直进行持续多次查询的,而攻击者需要多次的数值型数据查询来确定数据的准确性,进而如果系统不对其查询次数进行一定的限制,攻击者进行持续的查询操作,不仅会一直占用着系统的查询资源,还可能导致系统的查询故障,导致影响其他用户的查询操作,进而需要设定一定的查询次数,保证系统的正常工作和数据的安全,在进行数值型数据查询之时,数值型数据查询系统会先对本次的查询次数进行判断,判断当前的查询次数是否已经超过预置的查询次数阈值,得到当前查询次数是否已超阈值查询次数的判断结果。
505、若超过,则确定本次数值型数据查询异常,并返回目标原始数据最近的历史查询结果;
本实施例中,根据得到的判断结果,若已经超过,则可以确定本次数值型数据查询异常,基本可以确定为攻击者的数值型数据查询操作,直接返回目标原始数据最近的历史查询结果,不再进行本次新的数值型数据查询操作。
在实际应用中,当查询用户进行数值型数据查询之时,数值型数据查询系统通过查找目标原始数据用来记录已被查询次数的变量标记a,进而获得本次数值型数据查询的次数,判断当前数值型数据查询的次数是否超过预置的查询次数的阈值,若本次查询本次数未超过预置查询次数的阈值,则对目标原始数据进行差分隐私保护处理,得到一个新的数值型数据查询结果,并将该数值型数据查询结果返回至查询用户,若本次查询本次数已超过查询次数阈值,则可确定本次数值型数据查询异常,基本可以判断为攻击者在获取用户数值型隐私数据的查询操作,系统不再进行新的查询操作,将目标原始数据最近的历史查询数据返回至查询用户。
506、采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果;
507、将查询结果返回至客户端。
本实施例中,系统在进行数值型数据查询之前,数值型数据查询系统会先对本次数值型数据查询次数进行判断,判断当前查询次数是否已超过预置的查询次数阈值,若本次目标数据的连续查询次数已经超过了预置查询次数的阈值,则确定本次数值型数据查询异常,并返回目标原始数据最近的历史查询结果,相对于现有技术,本申请利用收敛函数构建噪声数据,在对此进行多次查询后数值型数据查询结果收敛于某个值,仍具有很有的数值型数据隐私保护效果,进一步的为了避免持续无穷进行数值型数据查询,造成系统查询资源的浪费和可能影响正常用户的查询体验,通过设置一个查询次数的阈值,能进一步的提高数值型数据查询系统的可靠性,提高对系统查询资源的利用率和系统稳定性。
上面对本发明实施例中数值型数据查询方法进行了描述,下面对本发明实施例中数值型数据查询装置进行描述,请参阅图6,本发明实施例中数值型数据查询装置一个实施例包括:
边界获取模块601,用于获取目标应用场景的原始数据,并根据预置先验知识,确定原始数据查询时对应的预算消耗边界;
函数构建模块602,用于根据预算消耗边界,计算原始数据的初始预算消耗值,并采用初始预算消耗值构建原始数据查询时对应的收敛函数;
数据获取模块603,用于获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
数值型数据查询模块604,用于采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果;
数据返回模块605,用于将查询结果返回至客户端。
本发明提供的技术方案中,首先获取目标应用场景的原始数据,并根据先验知识,确定原始数据查询时对应的预算消耗边界,然后根据预算消耗边界,计算原始数据的初始隐预算消耗值,并采用初始预算消耗值构建原始数据查询对应的收敛函数。通过获取得到的边界数据利用正态分布函数处理得到本技术的所需预算消耗边界,有利于得到符合数据分布要求且较为合理的预算消耗值,进而通过预算消耗边界构造每次数值型数据查询所需预算消耗值对应的收敛函数,相对于现有技术能有一个更加科学合理的预算消耗值,并且每次所加的噪声数据能按照收敛要求进行添加,降低数值型数据查询时相关隐私泄露的风险。
进一步的,数值型数据查询系统获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据,然后采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果,最后将查询结果返回至客户端。相对于现有技术,本发明在数值型数据查询系统获取所要查询的数据后利用差分算法和收敛函数来构建的每次添加的噪声,比如拉普拉斯噪声,引入不同程度的噪声扰动的同时,利用收敛性,使得查询次数趋于无穷时,预算消耗有界,加上在多次查询仍能避免噪声分布更加集中于期望值,从而大大降低了数值型数据相关隐私泄露的风险。
请参阅图7,本发明实施例中数值型数据查询装置的另一个实施例包括:
边界获取模块601,用于获取目标应用场景的原始数据,并根据预置先验知识,确定原始数据查询时对应的预算消耗边界;
函数构建模块602,用于根据预算消耗边界,计算原始数据的初始预算消耗值,并采用初始预算消耗值构建原始数据查询时对应的收敛函数;
数据获取模块603,用于获取客户端上传的对原始数据的数值型数据查询请求,并根据数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
数值型数据查询模块604,用于采用收敛函数,计算本次数值型数据查询的预算消耗值,并根据预算消耗值,对目标原始数据进行随机化处理,得到查询结果;
数据返回模块605,用于将查询结果返回至客户端。
具体的,边界获取模块601包括:
数据获取单元6011,用于获取目标应用场景对应的经验数据集,其中,经验数据集包括多个预算消耗边界数据;
数据选取单元6012,用于采用预置函数模型,统计经验数据集中相同预算消耗边界数据的数量,得到数据分布图,并选取数据分布图中预置高频单位区间对应的预算消耗边界数据;
数据计算单元6013,用于计算选取的预算消耗边界数据对应的平均预算消耗值并作为原始数据查询时对应的预算消耗边界。
具体的,函数构建模块602包括:
求和计算单元6021,用于调用原始数据的查询次数和预算消耗的关系式,并对关系式进行变换,得到原始数据的预算消耗求和公式;
初始计算单元6022,用于根据预算消耗边界,采用预算消耗求和公式,计算原始数据的初始预算消耗值。
具体的,函数构建模块602还包括:
函数构建单元6023,用于将初始预算消耗值作为关系式的系数并代入关系式中,得到原始数据查询时对应的收敛函数。
具体的,数值型数据查询模块604包括:
次数查询单元6041,用于根据预置数值型数据查询系统记录的原始数据对应的查询标记,确定本次数值型数据查询的次数;
预算计算单元6042,用于根据本次数值型数据查询的次数,采用收敛函数,计算本次数值型数据查询的预算消耗值。
具体的,数值型数据查询模块604还包括:
历史数据单元6043,用于根据数值型数据查询系统,获得目标原始数据对应的历史数值型数据查询结果;
差分计算单元6044,用于根据预算消耗值和历史数值型数据查询结果,采用预置差分公式计算目标原始数据对应的相邻数据和噪声数据;
组合计算单元6045,用于组合相邻数据和噪音数据,得到目标原始数据随机化处理后的查询结果。
具体的,数值型数据查询模块604还用于:
判断本次数值型数据查询的次数是否超过预置查询次数阈值;若超过,则确定本次数值型数据查询异常,并返回目标原始数据最近的历史查询结果。
本发明实施例中,系统通过获取边界数据后,利用正态分布函数的分布特点,将所得的边界数据绘制成一个正态分布图,选取中间高频区间的数据并做均值处理得到本申请的预算消耗值,进而构建收敛函数,在计算之中通过收敛函数改变每次加入进的预算消耗值,进而改变每次组合添加的噪声值,使得结果能呈现收敛的特性,并在进行差分计算之时,还对用户查询的次数进行统计,保证本次的查询次数未超过预置的查询阈值才进行差分隐私计算,保证了数值型数据查询系统资源的高效利用,避免造成数据被被反复查询时占用过多系统资源,导致系统瘫痪等情况发生,相对于现有技术,本申请在预算消耗边界值的基础上引入多次查询的场景,基于差分隐私的组合性,指出方案必须满足总体预算收敛,通过引入不同的程度的噪声扰动,从而在多次后总体隐私预算增加值趋于收敛,使得噪声分布不会主要集中于期望值,降低了多次查询的数值型隐私数据泄露的风险。
上面图6和图7从模块化功能实体的角度对本发明实施例中的数值型数据查询装置进行详细描述,下面从硬件处理的角度对本发明实施例中数值型数据查询设备进行详细描述。
图8是本发明实施例提供的一种数值型数据查询设备的结构示意图,该数值型数据查询设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数值型数据查询设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在数值型数据查询设备800上执行存储介质830中的一系列指令操作。
数值型数据查询设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的数值型数据查询设备结构并不构成对数值型数据查询设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种数值型数据查询设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述数值型数据查询方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述数值型数据查询方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数值型数据查询方法,其特征在于,所述数值型数据查询方法包括:
获取目标应用场景的原始数据,并根据预置先验知识,确定所述原始数据查询时对应的预算消耗边界;
根据所述预算消耗边界,计算所述原始数据的初始预算消耗值,并采用所述初始预算消耗值构建所述原始数据查询时对应的收敛函数;
获取客户端上传的对所述原始数据的数值型数据查询请求,并根据所述数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
采用所述收敛函数,计算本次数值型数据查询的预算消耗值,并根据所述预算消耗值,对所述目标原始数据进行随机化处理,得到查询结果;
将所述查询结果返回至所述客户端。
2.根据权利要求1所述的数值型数据查询方法,其特征在于,所述根据预置先验知识,确定所述原始数据查询时对应的预算消耗边界包括:
获取所述目标应用场景对应的经验数据集,其中,所述经验数据集包括多个预算消耗边界数据;
采用预置函数模型,统计所述经验数据集中相同预算消耗边界数据的数量,得到数据分布图,并选取所述数据分布图中预置高频单位区间对应的预算消耗边界数据;
计算选取的预算消耗边界数据对应的平均预算消耗值并作为所述原始数据查询时对应的预算消耗边界。
3.根据权利要求1所述的数值型数据查询方法,其特征在于,所述根据所述预算消耗边界,计算所述原始数据的初始预算消耗值包括:
调用所述原始数据的查询次数和预算消耗的关系式,并对所述关系式进行变换,得到所述原始数据的预算消耗求和公式;
根据所述预算消耗边界,采用所述预算消耗求和公式,计算所述原始数据的初始预算消耗值。
4.根据权利要求3所述的数值型数据查询方法,其特征在于,所述采用所述初始预算消耗值构建所述原始数据查询时对应的收敛函数包括:
将所述初始预算消耗值作为所述关系式的系数并代入所述关系式中,得到所述原始数据查询时对应的收敛函数。
5.根据权利要求1-4中任一项所述的数值型数据查询方法,其特征在于,所述采用所述收敛函数,计算本次数值型数据查询的预算消耗值包括:
根据预置数值型数据查询系统记录的所述原始数据对应的查询标记,确定本次数值型数据查询的次数;
根据本次数值型数据查询的次数,采用所述收敛函数,计算本次数值型数据查询的预算消耗值。
6.根据权利要求5所述的数值型数据查询方法,其特征在于,所述根据所述预算消耗值,对所述目标原始数据进行随机化处理,得到查询结果包括:
根据所述数值型数据查询系统,获得所述目标原始数据对应的历史数值型数据查询结果;
根据所述预算消耗值和所述历史数值型数据查询结果,采用预置差分公式计算所述目标原始数据对应的相邻数据和噪声数据;
组合所述相邻数据和所述噪音数据,得到所述目标原始数据随机化处理后的查询结果。
7.根据权利要求6所述的数值型数据查询方法,其特征在于,在所述采用所述收敛函数,计算本次数值型数据查询的预算消耗值之前,还包括:
判断本次数值型数据查询的次数是否超过预置查询次数阈值;
若超过,则确定本次数值型数据查询异常,并返回所述目标原始数据最近的历史查询结果。
8.一种数值型数据查询装置,其特征在于,所述数值型数据查询装置包括:
边界获取模块,用于获取目标应用场景的原始数据,并根据预置先验知识,确定所述原始数据查询时对应的预算消耗边界;
函数构建模块,用于根据所述预算消耗边界,计算所述原始数据的初始预算消耗值,并采用所述初始预算消耗值构建所述原始数据查询时对应的收敛函数;
数据获取模块,用于获取客户端上传的对所述原始数据的数值型数据查询请求,并根据所述数值型数据查询请求,确定本次数值型数据查询的目标原始数据;
数值型数据查询模块,用于采用所述收敛函数,计算本次数值型数据查询的预算消耗值,并根据所述预算消耗值,对所述目标原始数据进行随机化处理,得到查询结果;
数据返回模块,用于将所述查询结果返回至所述客户端。
9.一种数值型数据查询设备,其特征在于,所述数值型数据查询设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述数值型数据查询设备执行如权利要求1-7中任意一项所述的数值型数据查询方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述数值型数据查询方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110852073.3A CN113486402A (zh) | 2021-07-27 | 2021-07-27 | 数值型数据查询方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110852073.3A CN113486402A (zh) | 2021-07-27 | 2021-07-27 | 数值型数据查询方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486402A true CN113486402A (zh) | 2021-10-08 |
Family
ID=77944100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110852073.3A Pending CN113486402A (zh) | 2021-07-27 | 2021-07-27 | 数值型数据查询方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486402A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100027519A1 (en) * | 2006-09-20 | 2010-02-04 | Ling Chen | Method and system for scanning in wlan |
CN108537055A (zh) * | 2018-03-06 | 2018-09-14 | 南京邮电大学 | 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统 |
CN110795758A (zh) * | 2019-10-11 | 2020-02-14 | 安徽工业大学 | 一种基于差分隐私的非等距直方图发布方法 |
CN111177792A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护确定目标业务模型的方法及装置 |
CN112989411A (zh) * | 2021-03-15 | 2021-06-18 | Oppo广东移动通信有限公司 | 隐私预算计算方法、装置、存储介质以及终端 |
-
2021
- 2021-07-27 CN CN202110852073.3A patent/CN113486402A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100027519A1 (en) * | 2006-09-20 | 2010-02-04 | Ling Chen | Method and system for scanning in wlan |
CN108537055A (zh) * | 2018-03-06 | 2018-09-14 | 南京邮电大学 | 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统 |
CN110795758A (zh) * | 2019-10-11 | 2020-02-14 | 安徽工业大学 | 一种基于差分隐私的非等距直方图发布方法 |
CN111177792A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护确定目标业务模型的方法及装置 |
CN112989411A (zh) * | 2021-03-15 | 2021-06-18 | Oppo广东移动通信有限公司 | 隐私预算计算方法、装置、存储介质以及终端 |
Non-Patent Citations (2)
Title |
---|
宋健;许国艳;夭荣朋;: "基于差分隐私的数据匿名化隐私保护方法", 计算机应用, no. 10 * |
王佳贺: "差分隐私保护的Android应用流量行为混淆方法", 《计算机工程与应用》, vol. 56, no. 02 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20090327339A1 (en) | Partition templates for multidimensional databases | |
CN109411093B (zh) | 一种基于云计算的智慧医疗大数据分析处理方法 | |
CN111310052A (zh) | 用户画像构建方法、装置及计算机可读存储介质 | |
CN111126865B (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN115145871A (zh) | 文件查询方法、装置和电子设备 | |
Kadlag et al. | Supporting exploratory queries in databases | |
Zhu et al. | Developing cost models with qualitative variables for dynamic multidatabase environments | |
Kumar et al. | Mining scientific data: Discovery of patterns in the global climate system | |
Ahmad et al. | Privacy preserving in data mining by normalization | |
JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
CN113792084A (zh) | 数据热度的分析方法、装置、设备及存储介质 | |
Xu et al. | Efficient similarity join based on Earth mover’s Distance using Mapreduce | |
Migliorini et al. | A context-based approach for partitioning big data | |
CN113486402A (zh) | 数值型数据查询方法、装置、设备及存储介质 | |
CN106909647A (zh) | 一种数据检索方法及装置 | |
CN113592589B (zh) | 纺织原料推荐方法、装置及处理器 | |
Ansarifar et al. | A novel algorithm for adaptive data stream clustering | |
CN111382342B (zh) | 一种热搜词的获取方法、装置、设备及存储介质 | |
Corral et al. | Multi-way distance join queries in spatial databases | |
Vágner | The GridOPTICS clustering algorithm | |
Umarani et al. | Sampling based Association Rules Mining-A Recent Overview | |
CN104636498B (zh) | 一种基于信息瓶颈的模糊三维聚类方法 | |
YILDIRIM et al. | Use of Fpga for Real-Time K-Means Clustering Algorithm | |
US20220374446A1 (en) | Search engine using self-supervised learning and predictive models for searches based on partial information | |
Lee et al. | Finding good initial cluster center by using maximum average distance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |