CN116415079B - 一种隐私保护的top-K轨迹相似性查询方法 - Google Patents
一种隐私保护的top-K轨迹相似性查询方法 Download PDFInfo
- Publication number
- CN116415079B CN116415079B CN202310283156.4A CN202310283156A CN116415079B CN 116415079 B CN116415079 B CN 116415079B CN 202310283156 A CN202310283156 A CN 202310283156A CN 116415079 B CN116415079 B CN 116415079B
- Authority
- CN
- China
- Prior art keywords
- query
- track
- cloud server
- hilbert
- tracks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000001360 synchronised effect Effects 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012946 outsourcing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0407—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
- H04L63/0421—Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0816—Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
- H04L9/0852—Quantum cryptography
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electromagnetism (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种隐私保护的top‑k轨迹相似性查询方法,包括数据拥有者基于希尔伯特曲线和SHE加密算法建立映射表,并对本地轨迹数据编码后上传至云服务器;查询用户编码查询数据上传至云服务器并提出查询请求;云服务器基于希尔伯特曲线近似计算离散同步欧氏距离,得到K条轨迹作为初步筛选结果,然后对轨迹数据密文同态运算后执行安全平均值比较协议以确定最终的top‑k查询结果;查询用户最终通过解码和解密算法来恢复top‑k查询结果。本发明提供的方法能够有效保护轨迹数据隐私、查询内容隐私及查询结果隐私的同时保证了查询精度,对大规模加密轨迹数据的查询处理非常高效,尤其适用于重复查询以及轨迹数据动态更新等情形。
Description
技术领域
本发明涉及计算机科学与技术领域,尤其涉及一种隐私保护的top-k轨迹相似性查询方法。
背景技术
随着移动传感和全球定位技术的飞速发展,基于位置服务(Location BasedService,LBS)的应用越来越多,如美团、滴滴、携程等应用,位置服务提供商得以收集大量的轨迹和位置数据。这些大规模轨迹数据具有巨大的应用价值,比如,轨迹相似性搜索被广泛应用于交通运输优化等领域,其中,top-k查询旨在返回与给定轨迹最相似的前k条轨迹,通常被用于LBS,如旅游路线设计、拼车和社交网络个性化推荐。LBS中的轨迹包含了大量用户的敏感信息,如频繁访问的地点、家庭地址、工作地点等。这些信息可能经过数据挖掘或统计分析而发生泄露,这对个人隐私带来了极大的威胁。因此,对用户的轨迹隐私保护变得极为重要。
目前,已有一些成熟的LBS轨迹隐私保护解决方案,如基于混淆的方法和基于密码的方法。基于混淆的位置隐私保护方法的主要思想是通过以下技术隐藏用户的真实位置:掩蔽、虚假位置、差分隐私、混合区。而基于密码的方法是通过一些密码工具来保护位置隐私,如空间变换、安全多方计算(SMC)和私人信息检索(PIR)等。一般来说,混淆方法更加高效,但在一定程度上损失了定位服务的准确性,而基于密码的方法与之相反。目前仅有少量工作研究了基于密码的轨迹相似性查询方法,由于轨迹相似性度量中一般通过大量递归来实现动态规划算法,而对于加密轨迹数据,需要在密文状态下实现大量的比较和分支操作,这将产生巨大的计算和通信开销。此外,虽然已有设定阈值的过滤方法能够扩展到top-k相似性搜索问题,但是为了得到所查询的top-k结果,仍需要进一步地计算每两条加密轨迹之间的相似性,这将导致许多不必要的运算。
因此,如何能够在保证安全性和高效性的前提下,提供隐私保护的top-k轨迹相似性查询服务,对本领域技术人员来说是亟待解决的问题。
发明内容
本发明的目的是要提供一种隐私保护的top-k轨迹相似性查询方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明所述方法由数据拥有者(DO)、第一云服务器(CS1)、第二云服务器(CS2)以及查询用户(QU)执行,包括以下步骤:
步骤S1:系统初始化:数据拥有者首先构造一个映射表。然后,数据拥有者对轨迹数据编码后外包给云。当查询用户在系统中注册时,获取数据拥有者选定的希尔伯特曲线参数,数据拥有者为其生成重加密密钥发送至云1,具体步骤如下:
步骤A1:数据预处理;数据拥有者首先进行轨迹抽稀,简化数据库中的轨迹。设预处理的轨迹数据为其中,i表示数据库中的第i条轨迹,每条轨迹都有唯一的标识IDi,将它们的集合记为/>
步骤A2:映射表构建;首先,数据拥有者选择一个特定的希尔伯特曲线参数并通过改变曲线方向θ和起始点P0进行旋转和平移变换,生成一簇希尔伯特曲线/>然后,对于目标空间中所有的坐标点(x,y),生成该点在/>中每条曲线HCη下对应的H值/>同时,数据拥有者利用SHE算法将上述二维坐标加密为(E(x),E(y))。最后,数据拥有者将坐标密文与上述一组希尔伯特值相对应构造为映射表Γ,即其中,将Hφ设置为映射表的键,以便后续返回数据。
步骤A3:轨迹编码与加密;数据拥有者对轨迹中的每个轨迹点编码得到Hφ(T)。同时,数据拥有者用公钥pkd对ID进行代理重新加密,获得加密的轨迹身份标识信息最后,数据拥有者将映射表Γ、编码轨迹Hφ(T)、加密身份标识/>外包给第一云服务器,并将SHE的私钥sk发送给第二云服务器。
步骤A4:查询用户注册;为了向数据拥有者发起top-k轨迹相似性查询,查询用户将其公钥pkq发送给数据拥有者和第一云服务器。然后,数据拥有者使用pkq加密所选定的Hilbert曲线参数利用代理重加密技术根据pkq为查询用户生成转换密钥rkdq。最后,数据拥有者分别将/>rkdq发送给查询用户和第一云服务器。
步骤S2:查询发起。假设查询用户的查询轨迹为τq=[(t1,q1),(t2,q2),…,(tm,qm)]。查询用户对其使用相同的希尔伯特曲线参数编码获得每个查询轨迹点的Hφ值,得到Hφ(Q)。然后,查询用户用第一云服务器的公钥pkc加密Hφ(Q),将查询请求提交给第一云服务器。
步骤S3:初步过滤。第一云服务器根据希尔伯特曲线的位置保持性质在编码空间中安全处理相似性查询,在H值上进行近似距离计算从而获得K条轨迹作为初步筛选结果,其中主要包括以下步骤:
步骤B1:基于希尔伯特的相似度计算;在接收到Hφ(Q)后,第一云服务器根据映射表Γ计算查询轨迹τq与每条轨迹τi间的距离其中由改进的希尔伯特方法近似计算公式(2)中的DSED,该定义中线段/>上的同步位置点/>与位置点/>之间的平方欧氏距离的距离/>可以通过点/>和/>形成的三角形的边长平方的线性组合计算而得。
步骤B2:轨迹过滤;第一云服务器根据希尔伯特距离对轨迹数据集进行排序,排除掉不相似的轨迹,而保留top-K条作为全部n条轨迹的初步筛选结果。第一云服务器将所选的K条数据重新编号为Kid={1,2,…,K},与它们的轨迹身份标识KID相关联。
步骤S4:精确查询。第一云服务器和第二云服务器共同执行安全平均值比较协议来确定最终查询结果。最后,查询用户可以通过解码和解密算法来恢复top-k查询结果、相应的相似度和身份标识。更进一步地,精确查询过程主要包括以下步骤:
步骤C1:加密轨迹检索;第一云服务器由轨迹点的Hφ值在Γ中检索取回这K条轨迹和查询轨迹的原始坐标的密文,即K个E(τi)和E(τq)。
步骤C2:轨迹距离的同态计算;对于过滤后的K条τi,第一云服务器可以通过同态运算在密文下计算公式(2)中τq和τi之间各sk的密文,表示为E(sk),然后计算得到所有时刻的轨迹点距离之和的密文E(SDi),也即其中/>表示总时间间隔,即公式(2)中的Δt1,h。
步骤C3:安全和精确的top-k搜索;第一云服务器和第二云服务器共同运行安全平均值比较协议,将K条初筛轨迹按DSED(τq,τi)从小到大排序,得到前k条即为top-k相似轨迹。具体而言,第一云服务器首先选择两个随机数将密文发送给查询用户。然后第一云服务器计算/>并将它们与K个对应的id一起发送给第二云服务器。第二云服务器使用sk解密得SDi′,并计算由此,在不泄露轨迹相似度隐私的情况下保持了平均距离顺序。由于过滤后的轨迹距离基本处于有序排列,第二云服务器可以对于Di′从小到大排序从而确定top-k轨迹的k个索引编号id,记为kid。然后,第二云服务器利用公钥pkq加密最小的k个Di′后发送给查询用户,并将kid发送给第一云服务器。
步骤C4:查询结果的代理重加密;在接收到kid后,第一云服务器根据这k个编号从中取回相应的身份标识密文和编码轨迹。其次,第一云服务器使用该查询用户的代理重加密密钥rkdq对kID重加密。然后,第一云服务器将密文/>和/>作为top-k结果返回给查询用户。
步骤C5:查询结果恢复;最后,查询用户通过希尔伯特曲线转换密钥来恢复轨迹结果R,通过计算获得查询结果的相似度D,通过私钥skq恢复查询结果的身份标识信息ID。
本发明主要利用希尔伯特曲线的位置保持性质设计了一种过滤方法来提高查询效率,数据拥有方和查询用户对轨迹进行编码后上传至云,云服务器结合多条希尔伯特曲线来近似计算轨迹距离,在保护数据隐私的同时预先排除掉大量不相近的轨迹,然后在余留的K条候选轨迹的密文上使用安全平均比较协议进行精确查询,查询用户最终解码获得top-k结果。
本发明的有益效果是:
本发明是一种隐私保护的top-k轨迹相似性查询方法,与现有技术相比,本发明通过希尔伯特曲线编码和同态加密在top-k相似性查询过程中对轨迹数据实现隐私保护,其优点具体包括以下几点:
1)区别于已有的基于密码的轨迹相似性查询方法,本发明为离散轨迹定义了一种新的时空相似性度量,便于大规模的轨迹密文数据间的距离计算。此外,本发明还设计了一种基于希尔伯特曲线的过滤方法,对查询轨迹进行初步筛选,提高了查询效率。
2)本发明首次提出了针对大规模轨迹数据的隐私保护的top-k轨迹相似性查询方案,以隐私保护的方式查询得出数据集中与用户最相近的k条轨迹。
3)通过实验和分析表明,所提出的方法在隐私保护和效率方面表现良好。安全分析表明,本发明能够保护DO的数据隐私、QU的查询内容隐私及查询结果隐私。实验结果表明,基于希尔伯特曲线的过滤算法能够具有99%以上的精度,在计算上对大规模加密轨迹数据的查询处理高效,对于包含上万数据点的轨迹数据集上的查询达到了秒级响应。
附图说明
图1为本发明中轨迹之间距离计算示例图;
图2为本发明所述方法对应的系统架构图;
图3为改进的基于希尔伯特的距离示例图;
图4为选取不同过滤范围K的查询精度示意图;
图5为对于不同阶数N的映射表Γ的构建时间示意图;
图6为不同数据集的希尔伯特曲线编码时间示意图;
图7为在不同数据集上的查询处理时间示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
本发明的实施例包括以下定义:
定义1:映射表是一个存储二维坐标点在某种参数下的希尔伯特曲线编码值与其对应的二维坐标密文之间一一映射关系的表格,表达了多种参数下的希尔伯特编码与笛卡尔坐标系在空间转换方面的对应关系。它主要包含映射表的ID以及映射关系。具体的映射表键-值对的数据结构如表1所示。
表1基于希尔伯特的映射表Γ
定义2:离散同步欧氏距离(Discrete Synchronous Euclidean Distance,DSED)是用于度量两条离散轨迹之间相似性的一种距离算法,它基于同步欧氏距离,利用复化梯形数值积分计算而得。设两条轨迹为
为了定义DSED,我们首先定义轨迹点/>到离散轨迹τB的距离为
其中,表示τB在线段/>上与/>的时间同步位置,即,系数和/>是轨迹τB上的时间相邻点,满足/>‖·‖2代表欧式距离。在计算DSED时,我们将两条轨迹τA,τB按时间戳先后次序合并为一个新的序列,记为/>其中,/>为τA或τB中的轨迹点,h=m+n-c-2,c表示时间戳重合的轨迹点对数。根据公式(1),对每个k=1,2,…,h计算/>到另一条轨迹的距离/>将/>简记为/>示意如图1所示,则DSED可由如下公式计算:
其中,Δti,j=tj-ti。
定义3:基于希尔伯特曲线的距离是用于度量两点之间距离的一种近似距离算法,它基于希尔伯特曲线的位置保持性质,组合多条希尔伯特曲线取编码值之差的最小值来表示空间点的接近程度。具体计算方式如下,假设一条希尔伯特曲线的参数为通过改变θ和P0,可以由这条曲线HCφ生成一簇希尔伯特曲线,得到相应的编码规则为/>记我们结合这r条生成的曲线来纠正单个希尔伯特曲线的误差,改进了位置相近的两空间点的H值差别却较大的情况。给定如上所述生成的一簇希尔伯特曲线,改进的希尔伯特距离定义如下:
其中,图3给出了计算基于希尔伯特曲线的距离的示例图,其中,黄色圆圈点对之间的距离为3,绿色圆圈点对之间的距离为1。
在本实例中,查询用户(QU)向数据拥有者(DO)及双云服务器(第一云服务器CS1、第二云服务器CS2)请求top-k轨迹相似性查询服务。如图2所示,一种基于希尔伯特曲线和同态加密的高效隐私保护top-k轨迹相似性查询方法,主要包括系统初始化、查询发起、初步过滤、精确查询四个主要过程,具体如下:
步骤S1:系统初始化:数据拥有者DO利用SHE加密算法生成公私钥对,并构造一个映射表。然后,数据拥有者DO将希尔伯特曲线编码后的轨迹数据外包给云。当查询用户QU在系统中注册时,数据拥有者DO返回选定的希尔伯特曲线参数的密文,并生成重加密密钥rkdq,具体步骤如下:
步骤A1:数据预处理;数据拥有者DO首先利用数据拥有者Douglas Peucker算法进行轨迹抽稀处理,通过设置抽稀阈值,简化数据库中的轨迹。我们假设轨迹中的位置点位于分辨率为2N×2N的方形网格单元内,其坐标为整数。我们将预处理的轨迹数据表示为其中,i表示数据库中的第i条轨迹,每条轨迹都有唯一的标识IDi,将它们的集合记为/>
步骤A2:映射表构建;首先,数据拥有者DO选择一个特定的希尔伯特曲线参数并通过改变曲线方向θ和起始点P0进行旋转和平移变换,生成一簇希尔伯特曲线,即其中r是变换的曲线数量。然后,对于目标空间中的每个坐标点(x,y),执行/>生成该点在每条曲线HCη下对应的H值/>其中x,y∈[0,2N-1],/>与此同时,数据拥有者DO生成SHE的一对公私钥{pk,sk},并将上述二维坐标加密为(E(x),E(y))。最后,数据拥有者DO将坐标密文与上述一组希尔伯特值相对应构造为映射表Γ,即/>其中,将Hφ设置为映射表的键,以一簇3阶希尔伯特曲线为例,构造的映射表如表1所示。
步骤A3:轨迹编码与加密;数据拥有者DO对轨迹中的每个轨迹点运行从而对每条轨迹进行编码,即
同时,数据拥有者DO运行PRE.Enc(ID,pkd)用公钥进行代理重新加密,获得加密的轨迹身份标识信息最后,数据拥有者DO将映射表Γ、编码轨迹Hφ(T)、加密身份标识/>外包给CS1,并将SHE的私钥sk发送给CS2。
步骤A4:查询用户注册;查询用户QU注册时将其公钥pkq发送给数据拥有者DO和CS1。数据拥有者DO使用pkq加密所选定的Hilbert曲线参数并运行PRE.ReKey(pkq)为查询用户QU生成转换密钥rkdq,然后分别将/>rkdq发送给查询用户QU和CS1。
步骤S2:查询发起。假设查询用户QU的查询轨迹为τq=[(t1,q1),(t2,q2),…,(tm,qm)]。查询用户QU运行得到查询轨迹点的Hφ值,即Hφ(Q)=Hφ(τq)=[(t1,Hφ(q1),(t2,Hφ(q2),…,(tm,Hφ(qm))]。然后,查询用户QU用CS1的公钥pkc加密Hφ(Q)。最后,查询用户QU将查询请求/>提交给CS1。
步骤S3:初步过滤。CS1在编码空间中安全处理相似性查询,利用H值进行近似距离计算从而获得K条轨迹作为初步筛选结果,其中主要包括以下步骤:
步骤B1:基于希尔伯特的相似度计算;在接收到Hφ(Q)后,CS1根据映射表Γ计算查询轨迹τq与每条轨迹τi间的距离其中/>可按如下计算。注意到对于由等式(1)定义的线段/>上的同步位置点/>它与位置点/>之间的平方欧氏距离可以通过点/>和/>形成的三角形的边长平方的线性组合计算而得,即
其中系数这意味着一旦将/>与轨迹τB在/>时刻的线段对齐,则可以根据公式(4)计算由公式(1)定义的同步距离/>类似地,可以基于改进的希尔伯特方法近似计算由公式(2)定义中的DSED,其中sk可以如下获得:
其中,由定义3中的公式(3)给出。
步骤B2:轨迹过滤;CS1根据希尔伯特距离对轨迹数据集进行排序,排除掉不相似的轨迹,而保留top-K条作为全部n条轨迹的初步筛选结果。CS1将所选的K条数据重新编号为Kid={1,2,…,K},与它们的轨迹身份标识KID相关联。
步骤S4:精确查询。CS1和CS2通过对加密轨迹数据执行安全平均值比较协议来确定最终查询结果。最后,查询用户QU可以通过解码和解密算法来恢复top-k查询结果、相应的相似度和身份标识。更进一步地,精确查询过程主要包括以下步骤:
步骤C1:加密轨迹检索;CS1由轨迹点的Hφ值在Γ中检索取回这K条轨迹和查询轨迹的原始坐标的密文,表示为
E(Q)=E(τq)=[(t1,E(q1)),(t2,E(q2)),…,(tm,E(qm))]。
步骤C2:轨迹距离的同态计算;得到E(TK)和E(Q)后,对于过滤后的K条τi,CS1通过同态运算在密文下计算公式(2)中τq和τi之间各sk的密文,表示为E(sk),然后通过如下计算得到所有时刻的轨迹点距离之和的密文:
上式也等于其中/>表示总时间间隔,即公式(2)中的Δt1,h。由此,CS1计算获得K个元组/>其中id是Kid中每条轨迹的索引编号。
步骤C3:安全和精确的top-k搜索;CS1和CS2共同运行安全平均值比较协议,将K条初筛轨迹按DSED(τq,τi)从小到大排序,得到前k条即为top-k相似轨迹。具体而言,CS1首先选择两个随机数将密文/>发送给查询用户QU。
然后CS1计算并将它们与K个对应的id一起发送给CS2。CS2收到{E(SDi′),id}后,使用sk解密得SDi′,并计算/> 由于过滤后的轨迹距离基本处于有序排列,CS2对于Di′利用堆排序方法从小到大排序从而确定top-k轨迹的k个索引编号id,记为kid。然后,CS2通过公钥pkq加密向查询用户QU返回前k个最小的/>其中π()表示排序的置换函数,并将kid发送给CS1。
步骤C4:查询结果的代理重加密;在接收到kid后,CS1根据这k个编号从中取回相应的身份标识密文和编码轨迹(由kID和Hφ(R)表示)。其次,CS1使用该查询用户的代理重加密密钥rkdq通过PRE.ReEnc(rkdq,kID)对kID重加密。然后,CS1将密文/>和作为top-k结果返回给查询用户QU。
步骤C5:查询结果恢复;最后,查询用户QU通过以下方式获得top-k轨迹及其相似度和身份标识的查询结果。为了获得查询的轨迹结果,查询用户QU运行来恢复轨迹数据R。对j=1,2,…,k,查询用户QU计算/>获得查询结果的相似度D。此外,通过运行/>可以利用私钥skq恢复查询结果的身份标识信息ID。
本发明安全模型假设所有实体都是诚实但好奇的,即他们诚实地执行协议,但可能试图推断其他方的隐私信息。此外,CS1和CS2不勾结,查询用户QU不与CS1串通。半诚实的云服务器能够发起云推理攻击,从而获得轨迹数据、身份标识、查询请求及结果的明文。此外,查询用户QU和数据拥有者DO尝试窥探对方的轨迹数据隐私。具体分析本发明能够实现如下安全目标:
1)数据拥有者DO的数据隐私得到保护。在基于希尔伯特曲线的过滤阶段,数据拥有者DO的轨迹数据由选定的希尔伯特曲线编码,该曲线参数用查询用户QU的公钥加密后作为转换密钥发送给查询用户QU,双云服务器不知道曲线参数,从而无法根据希尔伯特曲线编码值来反推这些轨迹的明文。在基于SHE加密算法的精确查询阶段,CS1仅存储所有轨迹位置点的加密坐标,而没有sk;虽然CS2持有sk,但它仅能获得扰动后的相似度值。因此,由于双云服务器的不共谋假设,CS1和CS2均无法推断原始的轨迹信息。此外,轨迹的身份标识在上传前由数据拥有者DO通过pkd加密,云服务器无法恢复明文。同时,查询用户QU不与CS1共谋,所以只能在代理重加密后用skq恢复查询结果top-k轨迹的k个ID,而不能推断出其余的信息。
2)查询用户QU查询内容的隐私得到保护。由于希尔伯特曲线编码的性质,CS1、CS2无法推断查询请求。同时,查询请求由CS1的公钥pkc加密后上传,所以数据拥有者DO也无法得知查询请求。
3)查询用户QU查询结果的隐私得到保护。查询结果由三部分组成:返回的k条轨迹,以及相应的相似度值和身份标识,这些隐私均不能被CS1、CS2和数据拥有者DO获取。具体而言,返回的k条轨迹明文对于CS1和CS2保密,因为它们不知道希尔伯特曲线的转换密钥。此外,由于CS1用pkq加密了这k条轨迹的H值,而这些H值只能通过skq解密,因此数据拥有者DO也无法获得查询轨迹结果。查询的相似度结果隐私通过安全平均值比较协议来保证,其中CS1仅根据SHE算法进行同态运算,而不知道其密钥sk,CS2仅从CS1收到扰动后的相似度结果。由于扰动后的相似度值和随机数分别被不共谋的双云服务器加密为和查询结果的相似度值隐私得到保护。至于身份标识隐私,CS1对查询的kID进行重加密,代理重加密技术确保了其安全性,即查询结果中身份标识的密文只有在重加密后才能由查询用户QU解密。
从以上分析可知,数据拥有者DO的数据隐私、查询用户QU的查询内容隐私及查询结果隐私得到了保护,因此,本发明所述方法能够有效实现隐私保护。
本发明首次解决了保护隐私的top-k轨迹相似性查询问题,并通过实验验证了其可用性,我们在Dell Precision 7920Tower服务器上使用Python 3.8语言对本实施方案进行评估,评估中采用轨迹数据集包括随机游走算法生成的符合均匀分布和正态分布的仿真数据集Uniform、Normal以及两个真实的轨迹数据集T-drive、Geolife。上述四个数据集中的轨迹数目分别设置为n=1200,1600,2000,2000,相应的轨迹长度分别为l=60,80,100,200。在评估中,我们将查询地图设置为2N×2N的网格,阶数N=8,9,10,11。当N=11,γ=5m时,整个地图空间可以表示面积超过100km2的方形区域。以Geolife为例,我们提取了2000条经过北京市东西城区的长度为200的轨迹,然后将目标地图划分为211×211网格,每个轨迹点由其所在网格单元表示,则所选曲线参数为φ={11,a,(0,0),5m}。对于SHE加密系统,我们设置安全参数k0=2048,k1=24,k2=160。查询请求的top-k的数目k设置为5、10、15、20。
1)初筛精度
我们通过以下定义的精度来评估我们提出的过滤方法的有效性:其中R表示基于希尔伯特曲线过滤的top-K初筛结果集,C表示欧氏距离测度下的top-k精确结果集。我们在Geolife数据集上进行top-5、top-10、top-15和top-20的相似性查询精度评估,过滤范围K变化从k至n,映射表中变换曲线条数r=0,3,5情况下的查询精度取100次平均值如图4所示,可以看出,当设置K=n/4=500时,我们的过滤方法达到了99%以上的精度,这意味着所提出的方法可以在top-k查询中预先排除掉上千条不相近的轨迹。此外,用户还可以自定义更小的过滤范围K来实现近似的top-k查询,从而获得更高的查询效率。
2)响应时间
对于不同曲线阶数N=8,9,10,11和不同变换曲线条数r=3,4,5,6的映射表Γ的构建时间如图5所示。结果表明,构造Γ的时间主要与所选希尔伯特曲线的阶数N有关,因为空间中的点总数为22N,而增加旋转平移变换对建表时间没有显著影响。
对于不同曲线阶数N=8,9,10,11和包含不同轨迹数目n=500,1000,1500,2000的数据集,利用希尔伯特曲线对轨迹数据集进行编码的时间如图6所示。结果表明,希尔伯特曲线的编码时间与轨迹数据集的大小线性相关,并且随着曲线阶数的增加而增加。
我们选取N=11,r=5的一簇希尔伯特曲线构造映射表,在四个数据集上模拟了top-5、top-10、top-15和top-20轨迹相似性查询。对于不同过滤范围K=100,300,500,我们可以获得不同精度下的top-K查询结果,较大的K可能会获得更高的精度,同时也将带来更多的计算量,特别地,若设置K=n,则返回不加过滤的精确top-K结果。图7显示了在系统初始化之后查询用户QU进行查询的响应时间,即初步筛选时间、精确搜索时间和恢复查询结果的时间之和。可以看出,查询时间随K增加而增加。由于过滤操作从n条轨迹中快速筛选,而精确搜索仅对K条(K<<n)轨迹进行细化查询,本方案对大规模轨迹数据的查询效率很高。
最后,我们将总响应时间与最近文献STFSM[1]进行比较。在实验中,我们仅从四个数据集中随机抽取n=50、l=50的数据进行top-10查询,对比实验的结果在表2中列出,从中我们可以验证所提出的查询系统检索top-k相似轨迹的高效性。如之前在图5和图7中所示,本发明的计算复杂度主要源于映射表Γ的构造,而Γ只需预先地一次性构造即可。数据拥有者DO生成Γ并初始化系统之后,由于所提出的基于希尔伯特曲线的过滤算法,随后的查询得以快速响应。同时,数据拥有者DO可以根据需要随时对Γ进行更新和维护。因此,本发明在重复查询以及轨迹数据动态更新方面具有很大优势。
表2在不同数据集上top-10查询的总响应时间的对比结果列表
参考文献:
[1]Y.Teng,Z.Shi,F.Zhao,G.Ding,L.Xu,and C.Fan,“Signature-based securetrajectory similarity search,”in 2021IEEE 20th International Conference onTrust,Security and Privacy in Computing and Communications(TrustCom),2021,pp.196–206.
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
Claims (3)
1.一种隐私保护的top-k轨迹相似性查询方法,其特征在于,包括以下步骤:
S1:系统初始化:数据拥有者基于希尔伯特曲线和SHE加密算法构建映射表,然后将希尔伯特曲线编码后的轨迹数据外包给第一云服务器;
S2:查询发起:查询用户利用相同参数下的希尔伯特曲线对查询请求轨迹编码后提交给第一云服务器;
S3:初步过滤:第一云服务器基于希尔伯特曲线安全处理相似性查询,通过编码值近似计算两点距离,得到K条轨迹作为初步筛选结果;
S4:精确查询:第一云服务器通过查找映射表中坐标密文,与第二云服务器共同对加密轨迹数据执行安全平均值比较协议从K条轨迹中确定最终的top-k查询结果,最后,查询用户通过解码和解密算法来恢复top-k查询结果轨迹及其对应的相似度和身份标识;
所述步骤S3和S4中第一云服务器分别对于希尔伯特编码值和同态加密密文使用离散同步欧氏距离(DSED)计算得到轨迹间相似度,离散同步欧氏距离(DSED)基于同步欧氏距离,利用复化梯形数值积分计算而得,具体计算方法如下:
设两条轨迹为
将轨迹点到离散轨迹τB的距离定义为/>其中,/>表示τB在线段/>上与/>的时间同步位置;将两条轨迹τA,τB按时间戳先后次序合并为一个新的序列,记为
其中,为τA或τB中的轨迹点,h=m+n-c-2,c表示时间戳重合的轨迹点对数;对每个k=1,2,...,h计算/>到另一条轨迹的距离
则DSED可由如下公式计算:
其中,Δti,j=tj-ti;
所述步骤S3通过改进的希尔伯特曲线距离近似计算所述的轨迹间的离散同步欧氏距离(DSED)相似度,组合多条希尔伯特曲线,取编码值之差的最小值表示空间点的接近程度,查找映射表Γ,/>具体可如下计算:其中,/>
所述步骤S4中第一云服务器和第二云服务器共同执行安全平均值比较协议:第一云服务器对初筛后的K条轨迹坐标密文进行同态运算得到所有时刻的轨迹点距离之和的密文:
其中li q表示总时间间隔,即Δt1,h;第一云服务器选取随机数ra、rb,计算发送给第二云服务器,第二云服务器解密后计算/>并对其排序,得到所查询的top-k轨迹的索引编号返回给第一云服务器。
2.根据权利要求1所述的隐私保护的top-k轨迹相似性查询方法,其特征在于:所述步骤S1中构造的映射表包含二维坐标密文与一簇希尔伯特曲线的编码值形成的键-值对,具体构造方法如下:
选择一个特定的希尔伯特曲线参数通过改变曲线方向θ和起始点P0进行旋转和平移变换,生成一簇希尔伯特曲线/> 其中r是变换的曲线数量;
然后,对于目标空间中的所有坐标点(x,y),生成该点在每条曲线HCη下对应的H值其中x,y∈[0,2N-1],/>
将坐标点(x,y)利用同态加密算法加密为(E(x),E(y)),与上述每组希尔伯特值相对应构造为映射表Γ,即Γ=<Hφ:[(E(i),E(j)),HI,HII,…,Hr]>,其中,将Hφ设置为映射表的键。
3.根据权利要求1所述的隐私保护的top-k轨迹相似性查询方法,其特征在于:所述步骤S4中查询用户通过希尔伯特曲线解码来恢复所查询的轨迹数据结果R;通过消除随机扰动,计算获得查询结果的相似度D;通过代理重加密技术的私钥解密来恢复查询结果的身份标识信息ID。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310283156.4A CN116415079B (zh) | 2023-03-22 | 2023-03-22 | 一种隐私保护的top-K轨迹相似性查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310283156.4A CN116415079B (zh) | 2023-03-22 | 2023-03-22 | 一种隐私保护的top-K轨迹相似性查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116415079A CN116415079A (zh) | 2023-07-11 |
CN116415079B true CN116415079B (zh) | 2024-04-02 |
Family
ID=87052522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310283156.4A Active CN116415079B (zh) | 2023-03-22 | 2023-03-22 | 一种隐私保护的top-K轨迹相似性查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415079B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235381B (zh) * | 2023-10-10 | 2024-05-10 | 南京邮电大学 | 一种基于同态加密时空同位计算的朋友推荐方法 |
CN117749527B (zh) * | 2024-02-08 | 2024-05-07 | 云南蓝队云计算有限公司 | 基于大数据分析和云计算的安全防护方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099380B1 (en) * | 2007-05-29 | 2012-01-17 | University Of Southern California | Blind evaluation of nearest neighbor queries wherein locations of users are transformed into a transformed space using a plurality of keys |
CN105721485A (zh) * | 2016-03-04 | 2016-06-29 | 安徽大学 | 外包云环境下面向多数据拥有者的安全最近邻查询方法 |
CN111083631A (zh) * | 2019-12-02 | 2020-04-28 | 兰州交通大学 | 一种保护位置隐私和查询隐私的高效查询处理方法 |
CN113836447A (zh) * | 2021-09-29 | 2021-12-24 | 安徽大学 | 一种云平台下的安全轨迹相似性查询方法及系统 |
CN113886466A (zh) * | 2021-10-15 | 2022-01-04 | 沈阳航空航天大学 | 一种保护隐私的轨迹相似查询方法 |
CN114357313A (zh) * | 2020-09-30 | 2022-04-15 | 华为技术有限公司 | 数据处理方法及设备 |
-
2023
- 2023-03-22 CN CN202310283156.4A patent/CN116415079B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099380B1 (en) * | 2007-05-29 | 2012-01-17 | University Of Southern California | Blind evaluation of nearest neighbor queries wherein locations of users are transformed into a transformed space using a plurality of keys |
CN105721485A (zh) * | 2016-03-04 | 2016-06-29 | 安徽大学 | 外包云环境下面向多数据拥有者的安全最近邻查询方法 |
CN111083631A (zh) * | 2019-12-02 | 2020-04-28 | 兰州交通大学 | 一种保护位置隐私和查询隐私的高效查询处理方法 |
CN114357313A (zh) * | 2020-09-30 | 2022-04-15 | 华为技术有限公司 | 数据处理方法及设备 |
CN113836447A (zh) * | 2021-09-29 | 2021-12-24 | 安徽大学 | 一种云平台下的安全轨迹相似性查询方法及系统 |
CN113886466A (zh) * | 2021-10-15 | 2022-01-04 | 沈阳航空航天大学 | 一种保护隐私的轨迹相似查询方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116415079A (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | pRide: Privacy-preserving ride matching over road networks for online ride-hailing service | |
CN116415079B (zh) | 一种隐私保护的top-K轨迹相似性查询方法 | |
CN111083631B (zh) | 一种保护位置隐私和查询隐私的高效查询处理方法 | |
Yiu et al. | Enabling search services on outsourced private spatial data | |
Zhang et al. | Location privacy-preserving task recommendation with geometric range query in mobile crowdsensing | |
Lien et al. | A novel privacy preserving location-based service protocol with secret circular shift for k-nn search | |
Kim et al. | Hilbert curve-based cryptographic transformation scheme for spatial query processing on outsourced private data | |
Liu et al. | Privacy-preserving task assignment in spatial crowdsourcing | |
CN109992995B (zh) | 一种支持位置保护和查询隐私的可搜索加密方法 | |
CN111339539B (zh) | 一种多用户环境下的高效加密图像检索方法 | |
Ku et al. | Query integrity assurance of location-based services accessing outsourced spatial databases | |
CN110263570B (zh) | 一种实现高效相似性查询和访问控制的基因数据脱敏方法 | |
Xu et al. | DNA similarity search with access control over encrypted cloud data | |
Guo et al. | Enabling privacy-preserving geographic range query in fog-enhanced IoT services | |
CN113836447B (zh) | 一种云平台下的安全轨迹相似性查询方法及系统 | |
Yang et al. | Lightweight privacy-preserving spatial keyword query over encrypted cloud data | |
CN118170985A (zh) | 一种单云服务器下的隐私保护轨迹相似性范围查询方法 | |
CN108197491A (zh) | 一种基于密文的子图检索方法 | |
CN117972795A (zh) | 基于异或过滤器的密态空间关键字安全检索方法及装置 | |
Talha et al. | Enhancing confidentiality and privacy of outsourced spatial data | |
CN109409111B (zh) | 一种面向加密图像的模糊搜索方法 | |
CN115905317A (zh) | 一种空间数据联邦的隐私保护范围聚合查询方法 | |
Wang et al. | On location privacy in fingerprinting-based indoor positioning system: An encryption approach | |
Zheng et al. | Efficient and privacy-preserving edit distance query over encrypted genomic data | |
CN114707012A (zh) | 支持k个无序节点的图加密最短路径查询方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |