CN115168455B - 一种模糊查询方法、装置、多方安全计算系统和可读存储介质 - Google Patents
一种模糊查询方法、装置、多方安全计算系统和可读存储介质 Download PDFInfo
- Publication number
- CN115168455B CN115168455B CN202211086577.XA CN202211086577A CN115168455B CN 115168455 B CN115168455 B CN 115168455B CN 202211086577 A CN202211086577 A CN 202211086577A CN 115168455 B CN115168455 B CN 115168455B
- Authority
- CN
- China
- Prior art keywords
- data
- derivative
- matching rule
- query
- intersection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种模糊查询方法、装置、多方安全计算系统和可读存储介质。其中的方法包括:获取查询数据和匹配规则;根据匹配规则对查询数据进行转换,得到第一衍生词集;将第一衍生词集加密后发送至密文计算平台,以使密文计算平台基于密文对第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;第二衍生词集为所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换得到并加密后发送至所述密文计算平台;接收所述密文计算平台返回的所述交集衍生词;根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果。本发明实施例可以在模糊查询的过程中避免数据隐私泄露,保护用户的隐私数据安全。
Description
技术领域
本发明涉及多方安全计算领域,尤其涉及一种模糊查询方法、装置、多方安全计算系统和可读存储介质。
背景技术
模糊查询是指利用部分参数查找到相关数据的方式,模糊查询允许查询结果和查询词之间存在一定的差异,例如,在查询词为Smith时,可能会查找到与之相似的Smithe、Smythe、Smyth、以及Smitt等查询结果。
目前的模糊查询方法,数据查询方需要将查询词发送给数据提供方,数据提供方将该查询词与其数据库中的数据进行模糊匹配,得到查询结果,该过程在一定程度上暴露了数据查询方的查询词,造成用户的隐私数据泄露。
发明内容
本发明实施例提供一种模糊查询方法、装置、多方安全计算系统和可读存储介质,可以在模糊查询的过程中避免数据隐私泄露,保护用户的隐私数据安全。
为了解决上述问题,第一方面,本发明实施例公开了一种模糊查询方法,所述方法应用于多方安全计算系统中的数据查询方,所述多方安全计算系统中还包括数据提供方和密文计算平台,所述方法包括:
获取查询数据和匹配规则,所述匹配规则的个数大于或等于1;
根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集;
将所述第一衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第二衍生词集为所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换得到并加密后发送至所述密文计算平台;
接收所述密文计算平台返回的所述交集衍生词;
根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果。
第二方面,本发明实施例公开了一种模糊查询方法,所述方法应用于多方安全计算系统中的数据提供方,所述多方安全计算系统中还包括数据查询方和密文计算平台,所述方法包括:
获取所述数据查询方提供的匹配规则,所述匹配规则的个数大于或等于1;
根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集;
将所述第二衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第一衍生词集为所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换得到并加密后发送至所述密文计算平台;
接收所述密文计算平台返回的所述交集衍生词;
根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果。
第三方面,本发明实施例公开了一种模糊查询装置,所述装置应用于多方安全计算系统中的数据查询方,所述多方安全计算系统中还包括数据提供方和密文计算平台,所述装置包括:
第一获取模块,用于获取查询数据和匹配规则,所述匹配规则的个数大于或等于1;
第一衍生词集生成模块,用于根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集;
第一上传模块,用于将所述第一衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第二衍生词集为所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换得到并加密后发送至所述密文计算平台;
第一接收模块,用于接收所述密文计算平台返回的所述交集衍生词;
第一交互模块,用于根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果。
第四方面,本发明实施例公开了一种模糊查询装置,所述装置应用于多方安全计算系统中的数据提供方,所述多方安全计算系统中还包括数据查询方和密文计算平台,所述装置包括:
第二获取模块,用于获取所述数据查询方提供的匹配规则,所述匹配规则的个数大于或等于1;
第二衍生词集生成模块,用于根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集;
第二上传模块,用于将所述第二衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第一衍生词集为所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换得到并加密后发送至所述密文计算平台;
第二接收模块,用于接收所述密文计算平台返回的所述交集衍生词;
第二交互模块,用于根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果。
第五方面,本发明实施例公开了一种多方安全计算系统,所述多方安全计算系统包括数据查询方、数据提供方和密文计算平台,其中,
所述数据查询方,用于获取查询数据和匹配规则,根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集,并将所述第一衍生词集加密后发送至所述密文计算平台;其中,所述匹配规则的个数大于或等于1;
所述数据提供方,用于获取所述数据查询方提供的匹配规则,根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集,并将所述第二衍生词集加密后发送至所述密文计算平台;
所述密文计算平台,用于基于密文对所述第一衍生词集和所述第二衍生词集进行求交计算,得到交集衍生词,以及将所述交集衍生词分别发送至所述数据查询方和所述数据提供方;
所述数据查询方,还用于根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果。
第六方面,本发明实施例公开了一种用于模糊查询的装置,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如前述一个或多个所述的模糊查询方法的指令。
第七方面,本发明实施例公开了一种机器可读存储介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如前述一个或多个所述的模糊查询方法。
本发明实施例包括以下优点:
本发明实施例通过多方安全计算系统实现模糊查询,数据查询方根据其拥有的查询数据和匹配规则,在本地进行明文计算,生成第一衍生词集。数据提供方根据其拥有的待查询数据和数据查询方提供的匹配规则,在本地进行明文计算,生成第二衍生词集。数据查询方和数据提供方将各自生成的衍生词集加密后发送至密文计算平台进行密文求交,得到求交结果。根据该求交结果和匹配规则可以得到查询结果。本发明实施例通过数据查询方、数据提供方、以及密文计算平台的明密文混合计算,实现模糊查询,数据查询方不用将查询数据发送给数据提供方,并且本发明实施例基于密文计算平台通过加密数据在密文上进行求交,可以避免数据隐私泄露,保护用户的隐私数据安全。此外,本发明实施例在数据查询方和数据提供方两方分别生成衍生词集,根据两方的衍生词集的交集获取查询结果,相对于将所有的查询操作都放在数据提供方一方来执行,可以提高计算效率,提高查询速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种模糊查询方法实施例的步骤流程图;
图2是本发明的另一种模糊查询方法实施例的步骤流程图;
图3是本发明的一种模糊查询装置实施例的结构框图;
图4是本发明的另一种模糊查询装置实施例的结构框图;
图5是本发明的一种多方安全计算系统实施例的结构框图;
图6是本发明的一种用于模糊查询的装置800的框图;
图7是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
参照图1,示出了本发明的一种模糊查询方法实施例的步骤流程图,所述方法可应用于多方安全计算系统中的数据查询方,所述多方安全计算系统中还包括数据提供方和密文计算平台,所述方法可以包括如下步骤:
步骤101、获取查询数据和匹配规则,所述匹配规则的个数大于或等于1;
步骤102、根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集;
步骤103、将所述第一衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第二衍生词集为所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换得到并加密后发送至所述密文计算平台;
步骤104、接收所述密文计算平台返回的所述交集衍生词;
步骤105、根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果。
本发明实施例提供的模糊查询方法可应用于多方安全计算系统,本发明实施例对所述多方安全计算系统采用的安全计算协议不做限制。例如,所述多方安全计算系统可以基于MPC(Secure Multi-party Computation,多方安全计算)协议,在基于MPC协议的多方安全计算系统中,多个计算参与方可以在不泄漏自身数据的前提下,使用多方安全计算技术进行协同计算得到计算结果,参与计算的数据、中间结果、以及最终结果可以为密文。当然,所述多方安全计算系统还可以基于秘密分享、半同态、不经意传输等技术实现的多方安全计算协议。
本发明实施例提供的模糊查询方法可适用于任意需要进行模糊查询的场景。一个示例中,在用户通过互联网和移动终端适用便捷服务时,需要在网上预留真实姓名或在POS机上签署真实姓名。但由于输入法拼写错误,口音问题或由于手写字的不规范,将导致用户的真实姓名不准确,需要对用户的真实姓名进行模糊查询。
数据查询方,指拥有查询数据(或称为查询条件/查询词等)的一方。查询数据可以是字符、字符串、字、词、短语、句子等。数据查询方可以部署有明文计算引擎,所述明文计算引擎可用于进行明文运算。
数据提供方,指拥有待查询数据(或称为数据库)的一方。数据提供方可以部署有明文计算引擎,所述明文计算引擎可用于进行明文运算。
密文计算平台,是一种保护数据隐私安全的计算平台,所述密文计算平台可以部署有密文计算引擎,所述密文计算引擎可用于基于多方安全计算协议进行密文计算,所述密文计算引擎中的计算节点具有密文计算功能。密文计算平台发送给数据查询方和数据提供方的数据为解密后的明文数据,数据查询方和数据提供方发送给密文计算平台的数据为加密后的密文数据。
匹配规则,指对查询数据进行模糊查询应满足的预设规则。匹配规则可由数据查询方提供。
第一衍生词集,是数据查询方根据匹配规则对查询数据进行转换生成的衍生词的集合。第一衍生词集中的每个衍生词与所述查询数据在所述匹配规则下相匹配。
第二衍生词集,是数据提供方根据数据查询方提供的匹配规则对其拥有的待查询数据进行转换生成的衍生词的集合。第二衍生词集中的每个衍生词与一个或多个所述待查询数据在所述匹配规则下相匹配。
在本发明实施例中,数据查询方获取查询数据和匹配规则之后,可以将所述查询数据和匹配规则加密后上传至密文计算平台,密文计算平台将该匹配规则解密后发送给数据提供方,以使数据提供方可以根据该匹配规则对其拥有的待查询数据进行转换,生成第二衍生词集。
数据查询方将其生成的第一衍生词集加密后发送至密文计算平台,数据提供方将其生成的第二衍生词集加密后发送至密文计算平台。密文计算平台基于密文对所述第一衍生词集和所述第二衍生词集进行求交计算,得到求交结果(包含交集衍生词),并将求交结果分别返回给数据查询方和数据提供方。数据查询方根据所述求交结果和所述匹配规则可以获得查询结果。
由于第一衍生词集中的每个衍生词与所述查询数据在所述匹配规则下相匹配,第二衍生词集中的每个衍生词与一个或多个所述待查询数据在所述匹配规则下相匹配,因此,根据第一衍生词集和第二衍生词集的交集衍生词可以得到所述查询数据在所述匹配规则下的查询结果。具体地,所述数据查询方根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,可以得到查询结果。
本发明实施例通过多方安全计算系统实现模糊查询,数据查询方根据其拥有的查询数据和匹配规则,在本地进行明文计算,生成第一衍生词集。数据提供方根据其拥有的待查询数据和数据查询方提供的匹配规则,在本地进行明文计算,生成第二衍生词集。数据查询方和数据提供方将各自生成的衍生词集加密后发送至密文计算平台进行密文求交,得到求交结果。根据该求交结果和匹配规则可以得到查询结果。本发明实施例通过数据查询方、数据提供方、以及密文计算平台的明密文混合计算,实现模糊查询,数据查询方不用将查询数据发送给数据提供方,并且本发明实施例基于密文计算平台通过加密数据在密文上进行求交,可以避免数据隐私泄露,保护用户的隐私数据安全。此外,本发明实施例在数据查询方和数据提供方两方分别生成衍生词集,根据两方的衍生词集的交集获取查询结果,相对于将所有的查询操作都放在数据提供方一方来执行,可以提高计算效率,提高查询速度。
在本发明的一种可选实施例中,所述查询数据的个数可以大于1。本发明可以支持批量的模糊查询。例如,在一次模糊查询中,数据查询方可以输入n个查询数据和m个匹配规则,其中,n和m可以为大于或等于1的整数。对于这n个查询数据可以分别使用这m个匹配规则执行本发明实施例的模糊查询方法。
在进行模糊查询时,可以通过编辑距离计算两个字符串(如查询数据与待查询数据)之间的相似度。编辑距离(Levenshtein距离)是指通过字符的基础操作,将字符串A转换成字符串B所需要的最少操作次数。编辑距离支持的基础操作可以包括替换字符、插入字符和删除字符。以上述查询Smith为例,对于其中的字符“i”,可替换的字符有25种(因为英文有26个字母),如果不区分大小写,可替换的字符则有51种,这51种替换操作的编辑距离相同,替换后得到的字符串均与查询词Smith相匹配。可以看出,如果将任意两个字符的差异都用一个编辑距离来表示,增加了匹配的模糊程度,可能使得查询结果与用户的预期存在一定的差异,导致查询结果不够准确。
为解决该问题,本发明实施例对模糊查询的匹配规则进一步细化,通过对匹配规则的细化来增加衍生词的隶属度,减小匹配的模糊程度,从而可以提高查询结果的准确度。
在本发明的一种可选实施例中,所述根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集,可以包括:
步骤S11、在匹配规则的个数大于1的情况下,在所述匹配规则中确定所述查询数据适用的第一匹配规则;
步骤S12、按照所述第一匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对所述查询数据进行基础操作,得到第一衍生词集。
本发明实施例在进行一次模糊查询时,可以使用多个匹配规则,不同的匹配规则可以适用不同的查询数据和/或待查询数据。在匹配规则的个数大于1的情况下,在所述匹配规则中确定所述查询数据适用的第一匹配规则。
进一步地,每个匹配规则中可以设置该匹配规则支持的基础操作的类型、次数、以及最大编辑距离。在确定查询数据适用的第一匹配规则后,按照所述第一匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对所述查询数据进行基础操作,得到第一衍生词集。
在数据提供方,对于每个待查询数据,可以在数据查询方提供的匹配规则中确定每个待查询数据适用的第二匹配规则;按照每个待查询数据适用的第二匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对每个待查询数据进行基础操作,得到第二衍生词集。
需要说明的是,在一次模糊查询过程中,可以有一个或多个数据提供方,本发明实施例中以一个数据提供方为例进行说明,多个数据提供方的模糊查询过程相类似,相互参照即可。
在本发明的一种可选实施例中,每个所述匹配规则包括至少一项细则,所述细则包括如下任意一种或多种:匹配规则的适用条件、匹配规则支持的最大编辑距离、以及匹配规则支持的基础操作方式;其中,所述匹配规则的适用条件包括匹配规则适用的字符串长度;所述匹配规则支持的最大编辑距离表示匹配规则支持的所有基础操作的总次数;所述匹配规则支持的基础操作方式包括匹配规则支持的基础操作的类型和匹配规则支持的每个基础操作的次数。
在本发明实施例中,一次模糊查询使用的匹配规则的个数可以大于或等于1。每个匹配规则包括至少一项细则,所述细则至少包括如下任意一种或多种:匹配规则的适用条件、匹配规则支持的最大编辑距离、以及匹配规则支持的字符操作方式。不同的匹配规则可以具有不同的适用条件,所述匹配规则的适用条件可以包括匹配规则适用的字符串长度。
一个示例中,数据查询方需要对某个查询数据进行模糊查询,数据查询方提供的匹配规则包括匹配规则1和匹配规则2。匹配规则1适用的字符串长度的范围为[3,5],也即,匹配规则1适用的字符串长度包括3、4和5。匹配规则2适用的字符串长度为6。如果该查询数据的字符串长度为3或4或5,则数据查询方使用匹配规则1对该查询数据进行转换,生成第一衍生词集。如果该查询数据的字符串长度为6,则数据查询方使用匹配规则2对该查询数据进行转换,生成第一衍生词集。
本发明实施例除了在每个匹配规则的细则中设置适用条件,还可以设置匹配规则支持的最大编辑距离以及匹配规则支持的基础操作方式。所述匹配规则支持的最大编辑距离表示匹配规则支持的所有基础操作的总次数;所述匹配规则支持的基础操作方式包括匹配规则支持的基础操作的类型和匹配规则支持的每个基础操作的次数。
一个示例中,数据查询方在一次模糊查询中提供的匹配规则包括:匹配规则1和匹配规则2。假设匹配规则1包括如下细则:匹配规则1的适用条件为字符串长度为[3,5];匹配规则1支持的最大编辑距离为1;匹配规则1支持的基础操作方式包括:匹配规则1支持的基础操作的类型包括删除字符、插入字符、以及替换字符,且匹配规则1支持每次删除字符操作的次数为1次,匹配规则1支持每次插入字符操作的次数为1次,匹配规则1支持每次替换字符操作的次数为1次。
对于该匹配规则1,可以适用于字符串长度为[3,5]的查询数据或者待查询数据,并且在根据该匹配规则对查询数据或者待查询数据进行转换的过程中,每次可以进行0次或1次基础操作(因为匹配规则1支持的最大编辑距离为1),每次进行的基础操作可以是删除字符、插入字符、以及替换字符中的一种或者不做任何操作。
假设匹配规则2包括如下细则:匹配规则2的适用条件为字符串长度为6;匹配规则2支持的最大编辑距离为2;匹配规则2支持的基础操作方式包括:匹配规则2支持的基础操作的类型包括删除字符、插入字符、以及替换字符,且匹配规则2支持每次删除字符操作的次数为1次,匹配规则2支持每次插入字符操作的次数为1次,匹配规则2支持每次替换字符操作的次数为1次。
对于该匹配规则2,可以适用于字符串长度为6的查询数据或者待查询数据,并且在根据该匹配规则对查询数据或者待查询数据进行转换的过程中,每次可执行0次或1次或2次基础操作(因为匹配规则2支持的最大编辑距离为2),每次进行的字符操作可以是删除字符、插入字符、以及替换字符中的一种或者两种或者不做任何操作。
本发明实施例的模糊查询方法,数据查询方可以自定义匹配规则,并且可以根据自身需求对匹配规则进行细化,如细化匹配规则的适用条件,细化匹配规则支持的最大编辑距离以及细化匹配规则支持的基础操作方式等,使得数据查询方和数据提供方根据该匹配规则可以生成更加具体的衍生词,从而可以提高衍生词的隶属度,降低匹配的模糊程度,使得查询结果更加符合用户的需求,提高查询结果的准确度。
在本发明的一种可选实施例中,所述匹配规则支持的基础操作的类型可以包括替换字符、插入字符、删除字符、以及交换相邻字符中的任意一种或多种。
本发明实施例在设置匹配规则时,匹配规则支持的基础操作的类型除了可以包括替换字符、插入字符、以及删除字符,还可以包括交换相邻字符。例如,对于查询数据abc,如果匹配规则中支持交换相邻字符的基础操作,则可以对该查询数据进行转换生成如下衍生词:acb和bac。由此可以生成更加多样化的衍生词,满足更多的应用场景,如用户易输错或记错字符顺序的场景。
在具体实施中,以上述查询Smith为例,对于其中的字符“i”,可替换的字符有25种英文字母,如果不区分大小写,可替换的字符则有51种,不仅增加了匹配的模糊程度,而且导致生成的衍生词数量较多,影响计算效率。
为解决该问题,本发明实施例对匹配规则进一步细化,在本发明的一种可选实施例中,在所述匹配规则支持的基础操作的类型包括替换字符时,所述匹配规则的细则中还包括指定的替换字符列表。
一个示例中,假设上述匹配规则1的细则中还包括指定的替换字符列表,该替换字符列表中包括可替换的字符对,如:a->e、i->l、以及i->1,则在根据该匹配规则1执行替换字符的操作时,可以将字符a替换为字符e,或者,将字符i替换为字符l(指小写字母l),或者,将字符i替换为字符1(指阿拉伯数字1)。
本发明实施例中的替换字符操作不是替换为任意字符,而是根据数据查询方提供的匹配规则进行替换,在该匹配规则中指定了替换字符列表,按照该替换字符列表中指定的字符对进行替换。进一步地,所述替换字符列表可以包括形似或者键盘中相近的容易打错的字符对。由此,在根据匹配规则生成衍生词时,可以生成更加具体的衍生词,可以减少生成衍生词的数量。例如,对于查询数据Smith中的字符“i”,原本存在51种替换的可能性,本发明在对替换字符的操作进行细化,指定替换字符列表后,可以极大减少生成衍生词的数量,并且可以提高衍生词的隶属度,降低匹配的模糊程度,使得查询结果更加符合用户的需求,提高查询结果的准确度。
在本发明的一种可选实施例中,所述数据查询方根据所述匹配规则对所述查询数据进行转换,可以包括:所述数据查询方根据所述匹配规则对所述查询数据进行如下任意一种或多种基础操作:替换字符、删除字符、以及交换相邻字符;所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换,可以包括:所述数据提供方根据所述匹配规则对其拥有的待查询数据进行如下基础操作:删除字符。
本发明实施例的模糊查询方法,在数据查询方和数据提供方两方分别生成衍生词集,再对两方生成的衍生词集进行密文求交,最后根据求交结果获得查询结果。
对于插入字符的操作,在不考虑字母大小写的情况下,插入一个字符就有26种英文字母的可能性。可以看出,执行一次插入字符的操作将极大增加生成衍生词的数量,影响衍生词的隶属度和计算效率。
为解决该问题,本发明实施例将数据查询方执行插入字符的操作转换为数据提供方执行删除字符的操作。因为对于数据查询方执行一次插入字符的操作,在不考虑字母大小写的情况下,可插入26种字母。但是,对于数据提供方来说,数据查询方执行的该插入字符的操作实际为一次删除字符的操作,将26种插入字符的操作转换为一次删除字符的操作,可以极大减少生成衍生词的数量。
需要说明的是,本发明实施例中以字符为英文字母为例进行描述,在具体实施中,本发明不限制所述字符的类型,例如,所述字符可以为英文字母、数字、符号、汉字等。
本发明实施例在数据查询方和数据提供方两方分别生成衍生词集,并且在数据查询方根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集的过程中,所述数据查询方对查询数据进行转换,包括进行替换字符、删除字符、以及交换相邻字符中的任意一种或多种的基础操作。在数据提供方根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集的过程中,所述数据提供方对待查询数据进行转换,包括进行删除字符的基础操作。
也即,在本发明实施例中,数据查询方可以执行的基础操作包括替换字符、删除字符、以及交换相邻字符中的任意一种或多种。数据提供方可以执行的基础操作仅包含删除字符这一种操作。数据查询方和数据提供方双方均不会执行插入字符这个基础操作,可以极大减少生成衍生词的数量,提高衍生词的隶属度,减少第一衍生词集和第二衍生词集中的词条数目,从而可以提高计算效率。
示例一
假设数据查询方拥有的查询数据为kobe,数据查询方提供的匹配规则包括匹配规则1和匹配规则2。数据提供方拥有的待查询数据包括如下两条数据:k0be和kobe。
示例性地,假设匹配规则1包括如下细则:匹配规则1的适用条件为字符串长度为[3,5];匹配规则1支持的最大编辑距离为1;匹配规则1支持的基础操作方式包括:匹配规则1支持的基础操作的类型包括删除字符、插入字符、以及替换字符,且匹配规则1支持每次删除字符操作的次数为1次,匹配规则1支持每次插入字符操作的次数为1次,匹配规则1支持每次替换字符操作的次数为1次,替换字符列表中包括如下可替换的字符对:a->e,a->o。
假设匹配规则2包括如下细则:匹配规则2的适用条件为字符串长度为6;匹配规则2支持的最大编辑距离为2;匹配规则2支持的基础操作方式包括:匹配规则2支持的基础操作的类型包括删除字符、插入字符、以及替换字符,且匹配规则2支持每次删除字符操作的次数为1次,匹配规则2支持每次插入字符操作的次数为1次,匹配规则2支持每次替换字符操作的次数为2次,替换字符列表中包括如下可替换的字符对:a->e,a->o。
数据查询方可以将其拥有的查询数据和匹配规则加密后上传至密文计算平台,密文计算平台将该匹配规则解密后发送给数据提供方。
数据查询方根据所述匹配规则对所述查询数据进行转换,生成第一衍生词集。由于数据查询方拥有的查询数据为kobe,查询数据kobe的字符串长度为4,符合匹配规则1的适用条件,因此,数据查询方按照匹配规则1对查询数据kobe进行转换,生成第一衍生词集。
匹配规则1支持的基础操作包括删除字符、插入字符、以及替换字符,由于本发明实施例规定数据查询方可以进行的基础操作包括替换字符、删除字符、以及交换相邻字符中的任意一种或多种,因此,数据查询方可进行的基础操作包括替换字符和删除字符这两种。匹配规则1中指定的替换字符列表中可替换的字符只有字母“a”,而查询数据kobe中不存在字母“a”,因此,对于查询数据kobe,数据查询方可进行的基础操作只剩下删除字符这一种。匹配规则1支持的最大编辑距离为1,也即,匹配规则1支持的编辑距离为0或者1,也就是,匹配规则1支持的所有基础操作的总次数为0次或者1次。因此,对于查询数据kobe,数据查询方每次只能执行删除一个字符的操作(编辑距离为1)或者不做任何操作(编辑距离为0)。
数据查询方按照匹配规则1对查询数据kobe进行转换,生成的衍生词包括:kobe、koe、kob、obe、以及kbe。因此,数据查询方得到第一衍生词集为[kobe,koe,kob,obe,kbe]。
同样地,数据提供方根据数据查询方提供的匹配规则对其拥有的待查询数据进行转换,生成第二衍生词集。由于待查询数据k0be和kobe的长度均为4,因此,数据提供方按照匹配规则1分别对待查询数据k0be和kobe进行转换,生成第二衍生词集。
由于本发明实施例规定数据提供方可以进行的基础操作仅包括删除字符,并且匹配规则1支持的最大编辑距离为1,因此,数据提供方按照匹配规则1对待查询数据k0be和kobe分别进行转换的过程中,每次只能执行删除一个字符的操作或者不做任何操作。数据提供方根据匹配规则1对待查询数据k0be进行转换,生成的衍生词包括:k0be、k0e、k0b、0be、以及kbe。数据提供方根据匹配规则1对待查询数据kobe进行转换,生成的衍生词包括:kobe、koe、kob、obe以及kbe。
由此,数据提供方得到第二衍生词集可以包括[k0be,k0e,k0b,0be,kbe]和[kobe,koe,kob,obe,kbe]。
数据查询方将生成的第一衍生词集加密后发送至密文计算平台,数据提供方将生成的第二衍生词集加密后发送至密文计算平台。所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到求交结果。
例如,密文计算平台对第一衍生词集[kobe,koe,kob,obe,kbe]和第二衍生词集[k0be,k0e,k0b,0be,kbe]进行求交计算,得到的求交结果包括如下交集衍生词:kbe。密文计算平台对第一衍生词集[kobe,koe,kob,obe,kbe]和第二衍生词集[kobe,koe,kob,obe,kbe]进行求交计算,得到的求交结果包括如下交集衍生词:kobe、koe、kob、obe以及kbe。
需要说明的是,密文计算平台接收到的第一衍生词集和第二衍生词集是密文数据,计算得到的交集衍生词也是密文数据,为便于描述,本发明实施例中均以明文示出。密文计算平台将计算得到的交集衍生词解密后分别发送给数据查询方和数据提供方。
可以看出,数据提供方的两个第二衍生词集(对应两个待查询数据)与数据查询方的第一衍生词集均有交集。然而,使用数据查询方提供的匹配规则进一步判断,可以确定待查询数据k0be并不符合匹配规则,因为待查询数据k0be对应的第二衍生词集虽然与数据查询方的第一衍生词集有交集衍生词kbe。但是,从数据查询方的查询数据kobe转换到数据提供方的待查询数据k0be需要执行两次基础操作,第一次是删除字符o,第二次是添加字符0,编辑距离为2,超过匹配规则1所允许的最大编辑距离。因此,待查询数据k0be不满足匹配规则1,而待查询数据kobe满足匹配规则1,因此,最终输出的查询结果为数据提供方的待查询数据kobe。
在本发明的一种可选实施例中,所述根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果,可以包括:
步骤S21、确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据;
步骤S22、通过所述密文计算平台接收所述数据提供方发送的所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,所述第二原词指待查询数据;
步骤S23、对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和;
步骤S24、确定满足所述匹配规则的距离和对应的目标第二原词的标识;
步骤S25、通过所述密文计算平台将所述目标第二原词的标识发送至所述数据提供方;
步骤S26、通过所述密文计算平台接收所述数据提供方返回的所述目标第二原词,得到查询结果。
为了保护数据隐私安全,本发明实施例通过密文计算平台计算第一衍生词集和第二衍生词集的交集衍生词。
在密文计算平台将交集衍生词分别发送给数据查询方和数据提供方之后,数据查询方和数据提供方可以通过密文计算平台进行交互,以使数据查询方获得查询结果。
进一步地,本发明在数据查询方和数据提供方两方分别生成衍生词的过程中,可以记录原词与衍生词之间的对应关系和编辑距离。对于数据查询方,原词指查询数据;对于数据提供方,原词指待查询数据。具体地,对于数据查询方,在根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集的过程中,对所述查询数据进行转换得到的每个衍生词,数据查询方可以记录该查询数据(第一原词)和该衍生词之间的对应关系,以及记录从该查询数据(第一原词)转换到该衍生词的第一编辑距离。对于数据提供方,在根据所述匹配规则对每个待查询数据进行转换,得到第二衍生词集的过程中,数据提供方可以记录每个待查询数据(第二原词)和每个衍生词之间的对应关系,以及记录从每个待查询数据(第二原词)转换到相应衍生词的第二编辑距离。
数据查询方获得交集衍生词之后,可以确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据。也即,数据查询方可以确定查询数据转换到每个交集衍生词的第一编辑距离。
例如,在示例一中,对于第一衍生词集[kobe,koe,kob,obe,kbe],包含如下交集衍生词:kobe、koe、kob、obe以及kbe。密文计算平台将交集衍生词kobe、koe、kob、obe以及kbe发送给数据查询方。数据查询方可以确定第一原词(查询数据kobe)转换到每个交集衍生词的第一编辑距离。
同样地,数据提供方可以获取所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,并加密后发送至密文计算平台,通过密文计算平台解密后发送给数据提供方。其中,所述第二原词指待查询数据。
例如,在示例一中,对于第二衍生词集[k0be,k0e,k0b,0be,kbe],包含如下交集衍生词:kbe。对于第二衍生词集[kobe,koe,kob,obe,kbe],包含如下交集衍生词:kobe、koe、kob、obe以及kbe。密文计算平台将交集衍生词合并去重后,将交集衍生词kobe、koe、kob、obe以及kbe发送给数据提供方。
需要说明的是,数据提供方在对每个待查询数据进行转换生成每个待查询数据对应的第二衍生词集后,可以将所有的待查询数据对应的第二衍生词集进行合并去重后,加密发送至密文计算平台。例如,在示例一中,数据提供方可以将第二衍生词集[k0be,k0e,k0b,0be,kbe]和[kobe,koe,kob,obe,kbe]合并去重后,得到第二衍生词集为[k0be,k0e,k0b,0be,kbe,kobe,koe,kob,obe],数据提供方将该第二衍生词集加密后发送至密文计算平台,密文计算平台对接收到的第一衍生词集[kobe,koe,kob,obe,kbe]和第二衍生词集[k0be,k0e,k0b,0be,kbe,kobe,koe,kob,obe]进行密文求交计算,可以计算得到交集衍生词包括kobe、koe、kob、obe以及kbe。
数据提供方可以获取每个交集衍生词对应的第二原词的标识,以及每个交集衍生词对应第二原词的第二编辑距离,加密后通过密文计算平台发送给数据提供方。
数据查询方对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和。
例如,在示例一中,每个交集衍生词对应的第一编辑距离、第二编辑距离、以及第二原词的标识如表1所示。
表1
交集衍生词 | 第一编辑距离 | 第二原词的标识 | 第二编辑距离 |
kobe | 0 | 1 | 0 |
koe | 1 | 1 | 1 |
kob | 1 | 1 | 1 |
obe | 1 | 1 | 1 |
kbe | 1 | 1 | 1 |
kbe | 1 | 2 | 1 |
数据提供方拥有待查询数据k0be和kobe,待查询数据k0be对应第二原词的标识为1,待查询数据kobe对应第二原词的标识为2。
对于交集衍生词kbe,对应的第一原词为查询数据kobe,对应的第二原词包括待查询数据k0be(第二原词的标识为1)。
对于交集衍生词kobe、koe、kob、obe以及kbe,对应的第一原词为查询数据kobe,对应的第二原词包括待查询数据kobe(第二原词的标识为2)。
数据查询方对每个交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和;并确定满足所述匹配规则的距离和对应的目标第二原词的标识。
所述确定满足所述匹配规则的距离和对应的目标第二原词的标识,指对于每个第二原词的标识,在该第二原词的标识对应的所有交集衍生词对应的距离和中确定最小的距离和,如果该最小的距离和满足所述匹配规则,则确定该第二原词的标识为目标第二原词的标识。
如表1所示,对于交集衍生词kbe,在该交集衍生词kbe对应第二原词的标识为1(对应待查询数据为k0be时),计算得到的距离和为1+1=2。匹配规则1支持的最大编辑距离为1,因此,该距离和不满足匹配规则。
对于交集衍生词kobe、koe、kob、obe以及kbe,对应第二原词的标识为2(对应待查询数据为kobe),计算得到交集衍生词kobe对应的距离和为0,交集衍生词koe对应的距离和为2,交集衍生词kob对应的距离和为2,交集衍生词obe对应的距离和为2,交集衍生词kbe对应的距离和为2。也即,对于第二原词的标识为1的待查询数据为kobe,最小的距离和为0,满足匹配规则1,因此,可以确定目标第二原词的标识为2。
数据查询方通过所述密文计算平台将所述目标第二原词的标识发送至所述数据提供方。具体地,数据查询方将目标第二原词的标识加密后发送给密文计算平台,密文计算平台解密后发送给数据提供方。数据提供方根据目标第二原词的标识查询得到目标第二原词(如待查询数据kobe)。数据提供方将查询得到的目标第二原词(如待查询数据kobe)加密后发送给密文计算平台,密文计算平台解密后发送给数据查询方。由此,数据查询方得到最终的查询结果为kobe。
在本发明的一种可选实施例中,在所述查询数据包括姓名时,所述方法还可以包括:对所述查询数据进行预处理,所述预处理包括将所述查询数据进行小写化并根据空格将所述查询数据分割为第一查询分词和第二查询分词,所述第一查询分词为姓,所述第二查询分词为名。所述数据查询方根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集,可以包括:所述数据查询方根据所述匹配规则分别对所述第一查询分词和所述第二查询分词进行转换,得到第一衍生词集。
同样地,在数据提供方,在所述待查询数据包括姓名时,所述方法还可以包括:对所述待查询数据进行预处理,所述预处理包括将所述待查询数据进行小写化并根据空格将所述待查询数据分割为第一待查询分词和第二待查询分词,所述第一待查询分词为姓,所述第二待查询分词为名。所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集,可以包括:所述数据提供方根据所述匹配规则对其拥有的每个待查询数据对应的第一待查询分词和第二待查询分词分别进行转换,得到第二衍生词集。
示例二
假设数据查询方拥有的查询数据为“Kobe Bryant”,该查询数据为一个姓名,数据查询方提供的匹配规则同示例一。数据提供方拥有的待查询数据包括如下两条数据:“K0beBryant”和“Kobe Bryenti”。
数据查询方对拥有的查询数据进行预处理,得到第一查询分词包括kobe,第二查询分词包括bryant。数据提供方对拥有的待查询数据进行预处理,得到第一待查询分词包括k0be和kobe,第二待查询分词包括bryant和bryenti。
数据查询方可以将其拥有的查询数据和匹配规则加密后上传至密文计算平台,密文计算平台将该匹配规则解密后发送给数据提供方。
数据查询方根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集。查询数据“Kobe Bryant”经过预处理后得到第一查询分词kobe和第二查询分词bryant。因此,数据查询方根据所述匹配规则对第一查询分词kobe和第二查询分词bryant分别进行转换,得到第一衍生词集。对于第一查询分词kobe,字符串长度为4,符合匹配规则1的适用条件,因此,数据查询方根据匹配规则1对第一查询分词kobe进行转换,生成衍生词。对于第二查询分词bryant,字符串长度为6,符合匹配规则2的适用条件,因此,数据查询方根据匹配规则2对第二查询分词bryant进行转换,生成衍生词。
数据查询方生成的第一衍生词集包括:根据匹配规则1对第一查询分词kobe进行转换生成的第一衍生词集和根据匹配规则2对第二查询分词bryant进行转换生成的第一衍生词集。
参照示例一,根据匹配规则1对第一查询分词kobe进行转换生成的第一衍生词集为[kobe,koe,kob,obe,kbe],如表2所示。
表2
第一查询分词kobe |
kobe |
koe |
kob |
obe |
kbe |
匹配规则2支持的基础操作包括删除字符、插入字符、以及替换字符,由于本发明实施例规定数据查询方可以进行的基础操作包括替换字符、删除字符、以及交换相邻字符中的任意一种或多种,因此,数据查询方可进行的基础操作包括替换字符和删除字符这两种。匹配规则2中指定的替换字符列表中包括可替换的字符对a->e和a->o。此外,匹配规则2支持的最大编辑距离为2,也即,匹配规则2支持的编辑距离为0或者1或者2,也就是,匹配规则2支持的所有基础操作的总次数为0次或者1次或者2次。因此,对于第二查询分词bryant,数据查询方每次转换可以进行的基础操作包括删除一个字符的操作(有6种删除方式,因为第二查询分词bryant有6个字符)或者将字符a替换为字符e的一次操作或者将字符a替换为字符o的一次操作。将每次转换的编辑距离记为d,则当d=0时,数据查询方不进行任何基础操作,得到的衍生词为bryant;当d=1时,数据查询方可以进行一次删除字符(可生成6条衍生词)的操作或者一次替换字符(可生成2条衍生词)的操作;当d=2时,在d=1的衍生词的基础上再进行一次基础操作,可生成10条衍生词。因此,对于第二查询分词bryant,数据查询方根据匹配规则2可生成1+8+10=19条衍生词。
具体地,对于第二查询分词bryant,在编辑距离为0或1时生成的衍生词包括:bryant、bryent、bryont、bryat、bryan、ryant、brant、brynt、以及byant;在编辑距离为2时生成的衍生词包括:bryet、bryot、bryen、bryon、ryent、ryont、brent、bront、byent、以及byont。如表3所示。
表3
第二查询分词bryant(编辑距离为0/1) | 第二查询分词bryant (编辑距离为2) |
bryant | bryet |
bryent | bryot |
bryont | bryen |
bryat | bryon |
bryan | ryent |
ryant | ryont |
brant | brent |
brynt | bront |
byent | |
byont |
由此,数据查询方得到的第一衍生词集包括:
第一查询分词kobe对应的第一衍生词集[kobe,koe,kob,obe,kbe],以及第二查询分词bryant对应的第一衍生词集[bryant,bryent,bryont,bryat,bryan,ryant,brant,brynt,byant,bryet,bryot,bryen,bryon,ryent,ryont,brent,bront,byent,byont]。
同样地,数据提供方根据数据查询方提供的匹配规则对其拥有的待查询数据进行转换,生成第二衍生词集。
数据提供方根据匹配规则1对第一待查询分词k0be和kobe分别进行转换,以及根据匹配规则2对第二待查询分词bryant和bryenti分别进行转换,得到第二衍生词集。提供方可以进行的基础操作仅包括删除字符。
对于待查询数据“K0be Bryant”,如表4所示,数据提供方根据匹配规则1对第一待查询分词k0be进行转换,生成的衍生词包括:k0be、k0e、k0b、0be、以及kbe;数据提供方根据匹配规则2对第二待查询分词bryant进行转换,生成的衍生词包括:bryant、bryat、bryan、ryant、brant、brynt、以及byant。
表4
第一待查询分词k0be | 第二待查询分词bryant |
k0be | bryant |
k0e | bryat |
k0b | bryan |
0be | ryant |
kbe | brant |
brynt | |
byant |
对于待查询数据“Kobe Bryenti”,如表5所示,数据提供方根据匹配规则1对第一待查询分词kobe进行转换,生成的衍生词包括:kobe、koe、kob、obe以及kbe。数据提供方根据匹配规则2对第二待查询分词bryenti进行转换,生成的衍生词包括:bryenti、brynti、bryent、byenti、bryeni、brenti、bryeti、以及ryenti。
表5
第一待查询分词kobe | 第二待查询分词bryenti |
kobe | bryenti |
koe | brynti |
kob | bryent |
obe | byenti |
kbe | bryeni |
brenti | |
bryeti | |
ryenti |
数据提供方得到的第二衍生词集包括对第一待查询分词k0be和kobe进行转换生成的衍生词,以及对第二待查询分词bryant和bryenti进行转换生成的衍生词。
数据查询方将生成的第一衍生词集加密后发送至密文计算平台,数据提供方将生成的第二衍生词集加密后发送至密文计算平台。所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到求交结果。
具体地,密文计算平台可以对第一衍生词集中的第一查询分词对应的衍生词与第二衍生词集中的第一待查询分词对应的衍生词进行求交,以及对第一衍生词集中的第二查询分词对应的衍生词与第二衍生词集中的第二待查询分词对应的衍生词进行求交。也即,对第一衍生词集和第二衍生词集中“姓”对应的衍生词进行求交,以及对第一衍生词集和第二衍生词集中“名”对应的衍生词进行求交。
进一步地,数据提供方可以将第二衍生词集中的衍生词进行合并去重后,再加密上传至密文计算平台。
由此,数据提供方得到的第二衍生词集包括:
第一待查询分词对应的第二衍生词集[k0be,k0e,k0b,0be,kbe,kobe,koe,kob,obe],以及第二待查询分词对应的第二衍生词集[bryant,bryat,bryan,ryant,brant,brynt,byant,bryenti,brynti,bryent,byenti,bryeni,brenti,bryeti,ryenti]。
密文计算平台对第一衍生词集中的第一查询分词对应的衍生词与第二衍生词集中的第一待查询分词对应的衍生词进行求交,得到的交集衍生词包括:kobe、koe、kob、obe以及kbe。密文计算平台对第一衍生词集中的第二查询分词对应的衍生词与第二衍生词集中的第二待查询分词对应的衍生词进行求交,得到的交集衍生词包括:bryant、bryat、bryan、ryant、brant、brynt、byant、以及bryent。
密文计算平台将所述交集衍生词分别返回给数据查询方和数据提供方。数据查询方根据所述交集衍生词和所述匹配规则获得查询结果。
可以看出,数据提供方的两个待查询数据的第一查询分词对应的第二衍生词集与查询数据的第一查询分词对应的第一衍生词集均有交集,并且,数据提供方的两个待查询数据的第二查询分词对应的第二衍生词集与查询数据的第二查询分词对应的第一衍生词集均有交集。也即,数据提供方的两个待查询数据的“姓”生成的衍生词均与查询数据的“姓”生成的衍生词有交集,并且,数据提供方的两个待查询数据的“名”生成的衍生词均与查询数据的“名”生成的衍生词有交集。但是,对于待查询数据“K0be Bryant”对应的距离和不满足匹配规则(参见示例一),而待查询数据“Kobe Bryenti”对应的距离和满足匹配规则,因此,查询结果为“Kobe Bryenti”。
进一步地,输出的查询结果可以为如下形式:(origin_word,match_word),其中,origin_word为查询数据,match_word为根据查询数据和匹配规则得到的匹配结果,一个origin_word可匹配多个match_word。在示例二中,输出的查询结果可以为(Kobe Bryant,Kobe Bryenti)。
参照图2,示出了本发明的另一种模糊查询方法实施例的步骤流程图,所述方法应用于多方安全计算系统中的数据提供方,所述多方安全计算系统中还包括数据查询方和密文计算平台,所述方法可以包括如下步骤:
步骤201、获取所述数据查询方提供的匹配规则,所述匹配规则的个数大于或等于1;
步骤202、根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集;
步骤203、将所述第二衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对第一衍生词集和所述第二衍生词集进行求交计算,得到交集衍生词;其中,所述第一衍生词集为所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换得到并加密后发送至所述密文计算平台;
步骤204、接收所述密文计算平台返回的所述交集衍生词;
步骤205、根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果。
可选地,所述匹配规则包括至少一项细则,所述细则包括如下任意一种或多种:匹配规则的适用条件、匹配规则支持的最大编辑距离、以及匹配规则支持的基础操作方式;其中,所述匹配规则的适用条件包括匹配规则适用的字符串长度;所述匹配规则支持的最大编辑距离表示匹配规则支持的所有基础操作的总次数;所述匹配规则支持的基础操作方式包括匹配规则支持的基础操作的类型和匹配规则支持的每个基础操作的次数。
可选地,所述匹配规则支持的基础操作的类型包括替换字符、插入字符、删除字符、以及交换相邻字符中的任意一种或多种。
可选地,在所述匹配规则支持的基础操作的类型包括替换字符时,所述匹配规则的细则中还包括指定的替换字符列表。
可选地,所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换,包括:所述数据查询方根据所述匹配规则对其拥有的查询数据进行如下任意一种或多种基础操作:替换字符、删除字符、以及交换相邻字符;所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换,包括:所述数据提供方根据所述匹配规则对其拥有的待查询数据进行如下基础操作:删除字符。
可选地,所述根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集,包括:
在匹配规则的个数大于1的情况下,在所述匹配规则中确定每个待查询数据适用的第二匹配规则;
按照所述每个待查询数据适用的第二匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对所述每个待查询数据进行基础操作,得到第二衍生词集。
可选地,所述根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果,包括:
将所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,通过所述密文计算平台发送至所述数据查询方,所述第二原词指待查询数据;以使所述数据查询方确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据,并对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和,以及确定满足所述匹配规则的距离和对应的目标第二原词的标识;
通过所述密文计算平台接收所述数据查询方发送的所述目标第二原词的标识;
在所述待查询数据中查找所述目标第二原词的标识对应的目标第二原词,并通过所述密文计算平台将所述目标第二原词发送至所述数据查询方,以使所述数据查询方得到查询结果。
可选地,在所述待查询数据包括姓名时,所述方法还可以包括:对所述待查询数据进行预处理,所述预处理包括将所述待查询数据进行小写化并根据空格将所述待查询数据分割为第一待查询分词和第二待查询分词,所述第一待查询分词为姓,所述第二待查询分词为名。所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集,可以包括:所述数据提供方根据所述匹配规则对其拥有的每个待查询数据对应的第一待查询分词和第二待查询分词分别进行转换,得到第二衍生词集。
本发明实施例提供的模糊查询方法,对于数据提供方执行的操作步骤,在前述实施例中已详细说明,此处不再进行赘述。
本发明实施例通过多方安全计算系统实现模糊查询,数据查询方根据其拥有的查询数据和匹配规则,在本地进行明文计算,生成第一衍生词集。数据提供方根据其拥有的待查询数据和数据查询方提供的匹配规则,在本地进行明文计算,生成第二衍生词集。数据查询方和数据提供方将各自生成的衍生词集加密后发送至密文计算平台进行密文求交,得到求交结果。根据该求交结果和匹配规则可以得到查询结果。本发明实施例通过数据查询方、数据提供方、以及密文计算平台的明密文混合计算,实现模糊查询,数据查询方不用将查询数据发送给数据提供方,并且本发明实施例基于密文计算平台通过加密数据在密文上进行求交,可以避免数据隐私泄露,保护用户的隐私数据安全。此外,本发明实施例在数据查询方和数据提供方两方分别生成衍生词集,根据两方的衍生词集的交集获取查询结果,相对于将所有的查询操作都放在数据提供方一方来执行,可以提高计算效率,提高查询速度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种模糊查询装置实施例的结构框图,所述装置可应用于多方安全计算系统中的数据查询方,所述多方安全计算系统中还包括数据提供方和密文计算平台,所述装置可以包括:
第一获取模块301,用于获取查询数据和匹配规则,所述匹配规则的个数大于或等于1;
第一衍生词集生成模块302,用于根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集;
第一上传模块303,用于将所述第一衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第二衍生词集为所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换得到并加密后发送至所述密文计算平台;
第一接收模块304,用于接收所述密文计算平台返回的所述交集衍生词;
第一交互模块305,用于根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果。
可选地,所述匹配规则包括至少一项细则,所述细则包括如下任意一种或多种:匹配规则的适用条件、匹配规则支持的最大编辑距离、以及匹配规则支持的基础操作方式;其中,所述匹配规则的适用条件包括匹配规则适用的字符串长度;所述匹配规则支持的最大编辑距离表示匹配规则支持的所有基础操作的总次数;所述匹配规则支持的基础操作方式包括匹配规则支持的基础操作的类型和匹配规则支持的每个基础操作的次数。
可选地,所述匹配规则支持的基础操作的类型包括替换字符、插入字符、删除字符、以及交换相邻字符中的任意一种或多种。
可选地,在所述匹配规则支持的基础操作的类型包括替换字符时,所述匹配规则的细则中还包括指定的替换字符列表。
可选地,所述第一衍生词集生成模块,具体用于根据所述匹配规则对所述查询数据进行如下任意一种或多种基础操作:替换字符、删除字符、以及交换相邻字符;所述数据提供方包括第二衍生词集生成模块,具体用于根据所述匹配规则对所述待查询数据进行如下基础操作:删除字符。
可选地,所述第一衍生词集生成模块,包括:
第一规则确定子模块,用于在匹配规则的个数大于1的情况下,在所述匹配规则中确定所述查询数据适用的第一匹配规则;
第一衍生词集生成子模块,用于按照所述第一匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对所述查询数据进行基础操作,得到第一衍生词集。
可选地,所述第一交互模块,包括:
第一编辑距离确定子模块,用于确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据;
第二编辑距离获取子模块,用于通过所述密文计算平台接收所述数据提供方发送的所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,所述第二原词指待查询数据;
距离求和子模块,用于对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和;
目标标识确定子模块,用于确定满足所述匹配规则的距离和对应的目标第二原词的标识;
标识发送子模块,用于通过所述密文计算平台将所述目标第二原词的标识发送至所述数据提供方;
结果接收子模块,用于通过所述密文计算平台接收所述数据提供方返回的所述目标第二原词,得到查询结果。
参照图4,示出了本发明的另一种模糊查询装置实施例的结构框图,所述装置可应用于多方安全计算系统中的数据提供方,所述多方安全计算系统中还包括数据查询方和密文计算平台,所述装置可以包括:
第二获取模块401,用于获取数据查询方提供的匹配规则,所述匹配规则的个数大于或等于1;
第二衍生词集生成模块402,用于根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集;
第二上传模块403,用于将所述第二衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对第一衍生词集和所述第二衍生词集进行求交计算,得到交集衍生词;其中,所述第一衍生词集为所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换得到并加密后发送至所述密文计算平台;
第二接收模块404,用于接收所述密文计算平台返回的所述交集衍生词;
第二交互模块405,用于根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果。
可选地,所述匹配规则包括至少一项细则,所述细则包括如下任意一种或多种:匹配规则的适用条件、匹配规则支持的最大编辑距离、以及匹配规则支持的基础操作方式;其中,所述匹配规则的适用条件包括匹配规则适用的字符串长度;所述匹配规则支持的最大编辑距离表示匹配规则支持的所有基础操作的总次数;所述匹配规则支持的基础操作方式包括匹配规则支持的基础操作的类型和匹配规则支持的每个基础操作的次数。
可选地,所述匹配规则支持的基础操作的类型包括替换字符、插入字符、删除字符、以及交换相邻字符中的任意一种或多种。
可选地,在所述匹配规则支持的基础操作的类型包括替换字符时,所述匹配规则的细则中还包括指定的替换字符列表。
可选地,所述数据查询方包括第一衍生词集生成模块,具体用于根据所述匹配规则对所述查询数据进行如下任意一种或多种基础操作:替换字符、删除字符、以及交换相邻字符;所述第二衍生词集生成模块,具体用于根据所述匹配规则对所述待查询数据进行如下基础操作:删除字符。
可选地,所述第二衍生词集生成模块,包括:
第二规则确定子模块,用于在匹配规则的个数大于1的情况下,在所述匹配规则中确定每个待查询数据适用的第二匹配规则;
第二衍生词集生成子模块,用于按照所述每个待查询数据适用的第二匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对所述每个待查询数据进行基础操作,得到第二衍生词集。
可选地,所述第二交互模块,包括:
第二编辑距离发送模块,用于将所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,通过所述密文计算平台发送至所述数据查询方,所述第二原词指待查询数据;以使所述数据查询方确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据,并对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和,以及确定满足所述匹配规则的距离和对应的目标第二原词的标识;
标识接收模块,用于通过所述密文计算平台接收所述数据查询方发送的所述目标第二原词的标识;
结果发送模块,用于在所述待查询数据中查找所述目标第二原词的标识对应的目标第二原词,并通过所述密文计算平台将所述目标第二原词发送至所述数据查询方,以使所述数据查询方得到查询结果。
参照图5,示出了本发明的一种多方安全计算系统实施例的结构框图,所述多方安全计算系统包括数据查询方501、数据提供方502和密文计算平台503,其中,
所述数据查询方,用于获取查询数据和匹配规则,根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集,并将所述第一衍生词集加密后发送至所述密文计算平台;其中,所述匹配规则的个数大于或等于1;
所述数据提供方,用于获取所述数据查询方提供的匹配规则,根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集,并将所述第二衍生词集加密后发送至所述密文计算平台;
所述密文计算平台,用于基于密文对所述第一衍生词集和所述第二衍生词集进行求交计算,得到交集衍生词,以及将所述交集衍生词分别发送至所述数据查询方和所述数据提供方;
所述数据查询方,还用于根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果。
本发明实施例通过多方安全计算系统实现模糊查询,数据查询方根据其拥有的查询数据和匹配规则,在本地进行明文计算,生成第一衍生词集。数据提供方根据其拥有的待查询数据和数据查询方提供的匹配规则,在本地进行明文计算,生成第二衍生词集。数据查询方和数据提供方将各自生成的衍生词集加密后发送至密文计算平台进行密文求交,得到求交结果。根据该求交结果和匹配规则可以得到查询结果。本发明实施例通过数据查询方、数据提供方、以及密文计算平台的明密文混合计算,实现模糊查询,数据查询方不用将查询数据发送给数据提供方,并且本发明实施例基于密文计算平台通过加密数据在密文上进行求交,可以避免数据隐私泄露,保护用户的隐私数据安全。此外,本发明实施例在数据查询方和数据提供方两方分别生成衍生词集,根据两方的衍生词集的交集获取查询结果,相对于将所有的查询操作都放在数据提供方一方来执行,可以提高计算效率,提高查询速度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于模糊查询的装置,包括有存储器,以及一个以上的程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序包含用于进行上述一个或多个实施例中所述的模糊查询方法的指令。
图6是根据一示例性实施例示出的一种用于模糊查询的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/ O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/ O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以搜索装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1或图2所示的模糊查询方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行前文图1或图2所对应实施例中模糊查询方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图1所对应实施例中模糊查询方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种模糊查询方法、一种模糊查询装置、一种多方安全计算系统、一种用于模糊查询的装置和一种可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (17)
1.一种模糊查询方法,其特征在于,所述方法应用于多方安全计算系统中的数据查询方,所述多方安全计算系统中还包括数据提供方和密文计算平台,所述方法包括:
获取查询数据和匹配规则,所述匹配规则的个数大于或等于1;
根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集;
将所述第一衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第二衍生词集为所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换得到并加密后发送至所述密文计算平台;
接收所述密文计算平台返回的所述交集衍生词;
根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果;
所述根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果,包括:
确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据;
通过所述密文计算平台接收所述数据提供方发送的所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,所述第二原词指待查询数据;
对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和;
确定满足所述匹配规则的距离和对应的目标第二原词的标识;
通过所述密文计算平台将所述目标第二原词的标识发送至所述数据提供方;
通过所述密文计算平台接收所述数据提供方返回的所述目标第二原词,得到查询结果。
2.根据权利要求1所述的方法,其特征在于,所述匹配规则包括至少一项细则,所述细则包括如下任意一种或多种:匹配规则的适用条件、匹配规则支持的最大编辑距离、以及匹配规则支持的基础操作方式;其中,所述匹配规则的适用条件包括匹配规则适用的字符串长度;所述匹配规则支持的最大编辑距离表示匹配规则支持的所有基础操作的总次数;所述匹配规则支持的基础操作方式包括匹配规则支持的基础操作的类型和匹配规则支持的每个基础操作的次数。
3.根据权利要求2所述的方法,其特征在于,所述匹配规则支持的基础操作的类型包括替换字符、插入字符、删除字符、以及交换相邻字符中的任意一种或多种。
4.根据权利要求2或3所述的方法,其特征在于,在所述匹配规则支持的基础操作的类型包括替换字符时,所述匹配规则的细则中还包括指定的替换字符列表。
5.根据权利要求1所述的方法,其特征在于,所述根据所述匹配规则对所述查询数据进行转换,包括:所述数据查询方根据所述匹配规则对所述查询数据进行如下任意一种或多种基础操作:替换字符、删除字符、以及交换相邻字符;所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换,包括:所述数据提供方根据所述匹配规则对其拥有的待查询数据进行如下基础操作:删除字符。
6.根据权利要求1所述的方法,其特征在于,所述根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集,包括:
在匹配规则的个数大于1的情况下,在所述匹配规则中确定所述查询数据适用的第一匹配规则;
按照所述第一匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对所述查询数据进行基础操作,得到第一衍生词集。
7.一种模糊查询方法,其特征在于,所述方法应用于多方安全计算系统中的数据提供方,所述多方安全计算系统中还包括数据查询方和密文计算平台,所述方法包括:
获取所述数据查询方提供的匹配规则,所述匹配规则的个数大于或等于1;
根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集;
将所述第二衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对第一衍生词集和所述第二衍生词集进行求交计算,得到交集衍生词;其中,所述第一衍生词集为所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换得到并加密后发送至所述密文计算平台;
接收所述密文计算平台返回的所述交集衍生词;
根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果;
所述根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果,包括:
将所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,通过所述密文计算平台发送至所述数据查询方,所述第二原词指待查询数据;以使所述数据查询方确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据,并对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和,以及确定满足所述匹配规则的距离和对应的目标第二原词的标识;
通过所述密文计算平台接收所述数据查询方发送的所述目标第二原词的标识;
在所述待查询数据中查找所述目标第二原词的标识对应的目标第二原词,并通过所述密文计算平台将所述目标第二原词发送至所述数据查询方,以使所述数据查询方得到查询结果。
8.根据权利要求7所述的方法,其特征在于,所述匹配规则包括至少一项细则,所述细则包括如下任意一种或多种:匹配规则的适用条件、匹配规则支持的最大编辑距离、以及匹配规则支持的基础操作方式;其中,所述匹配规则的适用条件包括匹配规则适用的字符串长度;所述匹配规则支持的最大编辑距离表示匹配规则支持的所有基础操作的总次数;所述匹配规则支持的基础操作方式包括匹配规则支持的基础操作的类型和匹配规则支持的每个基础操作的次数。
9.根据权利要求8所述的方法,其特征在于,所述匹配规则支持的基础操作的类型包括替换字符、插入字符、删除字符、以及交换相邻字符中的任意一种或多种。
10.根据权利要求8或9所述的方法,其特征在于,在所述匹配规则支持的基础操作的类型包括替换字符时,所述匹配规则的细则中还包括指定的替换字符列表。
11.根据权利要求7所述的方法,其特征在于,所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换,包括:所述数据查询方根据所述匹配规则对其拥有的查询数据进行如下任意一种或多种基础操作:替换字符、删除字符、以及交换相邻字符;所述根据所述匹配规则对其拥有的待查询数据进行转换,包括:所述数据提供方根据所述匹配规则对其拥有的待查询数据进行如下基础操作:删除字符。
12.根据权利要求7所述的方法,其特征在于,所述根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集,包括:
在匹配规则的个数大于1的情况下,在所述匹配规则中确定每个待查询数据适用的第二匹配规则;
按照所述每个待查询数据适用的第二匹配规则支持的基础操作的类型、次数、以及最大编辑距离,对所述每个待查询数据进行基础操作,得到第二衍生词集。
13.一种模糊查询装置,其特征在于,所述装置应用于多方安全计算系统中的数据查询方,所述多方安全计算系统中还包括数据提供方和密文计算平台,所述装置包括:
第一获取模块,用于获取查询数据和匹配规则,所述匹配规则的个数大于或等于1;
第一衍生词集生成模块,用于根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集;
第一上传模块,用于将所述第一衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对所述第一衍生词集和第二衍生词集进行求交计算,得到交集衍生词;其中,所述第二衍生词集为所述数据提供方根据所述匹配规则对其拥有的待查询数据进行转换得到并加密后发送至所述密文计算平台;
第一接收模块,用于接收所述密文计算平台返回的所述交集衍生词;
第一交互模块,用于根据所述交集衍生词与所述数据提供方通过所述密文计算平台进行交互,得到查询结果;
所述第一交互模块,包括:
第一编辑距离确定子模块,用于确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据;
第二编辑距离获取子模块,用于通过所述密文计算平台接收所述数据提供方发送的所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,所述第二原词指待查询数据;
距离求和子模块,用于对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和;
目标标识确定子模块,用于确定满足所述匹配规则的距离和对应的目标第二原词的标识;
标识发送子模块,用于通过所述密文计算平台将所述目标第二原词的标识发送至所述数据提供方;
结果接收子模块,用于通过所述密文计算平台接收所述数据提供方返回的所述目标第二原词,得到查询结果。
14.一种模糊查询装置,其特征在于,所述装置应用于多方安全计算系统中的数据提供方,所述多方安全计算系统中还包括数据查询方和密文计算平台,所述装置包括:
第二获取模块,用于获取所述数据查询方提供的匹配规则,所述匹配规则的个数大于或等于1;
第二衍生词集生成模块,用于根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集;
第二上传模块,用于将所述第二衍生词集加密后发送至所述密文计算平台,以使所述密文计算平台基于密文对第一衍生词集和所述第二衍生词集进行求交计算,得到交集衍生词;其中,所述第一衍生词集为所述数据查询方根据所述匹配规则对其拥有的查询数据进行转换得到并加密后发送至所述密文计算平台;
第二接收模块,用于接收所述密文计算平台返回的所述交集衍生词;
第二交互模块,用于根据所述交集衍生词与所述数据查询方通过所述密文计算平台进行交互,使得所述数据查询方得到查询结果;
所述第二交互模块,包括:
第二编辑距离发送模块,用于将所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,通过所述密文计算平台发送至所述数据查询方,所述第二原词指待查询数据;以使所述数据查询方确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据,并对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和,以及确定满足所述匹配规则的距离和对应的目标第二原词的标识;
标识接收模块,用于通过所述密文计算平台接收所述数据查询方发送的所述目标第二原词的标识;
结果发送模块,用于在所述待查询数据中查找所述目标第二原词的标识对应的目标第二原词,并通过所述密文计算平台将所述目标第二原词发送至所述数据查询方,以使所述数据查询方得到查询结果。
15.一种多方安全计算系统,其特征在于,所述多方安全计算系统包括数据查询方、数据提供方和密文计算平台,其中,
所述数据查询方,用于获取查询数据和匹配规则,根据所述匹配规则对所述查询数据进行转换,得到第一衍生词集,并将所述第一衍生词集加密后发送至所述密文计算平台;其中,所述匹配规则的个数大于或等于1;
所述数据提供方,用于获取所述数据查询方提供的匹配规则,根据所述匹配规则对其拥有的待查询数据进行转换,得到第二衍生词集,并将所述第二衍生词集加密后发送至所述密文计算平台;
所述密文计算平台,用于基于密文对所述第一衍生词集和所述第二衍生词集进行求交计算,得到交集衍生词,以及将所述交集衍生词分别发送至所述数据查询方和所述数据提供方;
所述数据查询方,还用于确定所述交集衍生词对应第一原词的第一编辑距离,所述第一原词指查询数据;通过所述密文计算平台接收所述数据提供方发送的所述交集衍生词对应的第二原词的标识,以及所述交集衍生词对应第二原词的第二编辑距离,所述第二原词指待查询数据;对所述交集衍生词对应的第一编辑距离和第二编辑距离求和,得到每个交集衍生词对应的距离和;确定满足所述匹配规则的距离和对应的目标第二原词的标识;通过所述密文计算平台将所述目标第二原词的标识发送至所述数据提供方;通过所述密文计算平台接收所述数据提供方返回的所述目标第二原词,得到查询结果。
16.一种用于模糊查询的装置,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如权利要求1至6或7至12中任一所述的模糊查询方法的指令。
17.一种可读存储介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如权利要求1至6或7至12中任一所述的模糊查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086577.XA CN115168455B (zh) | 2022-09-07 | 2022-09-07 | 一种模糊查询方法、装置、多方安全计算系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086577.XA CN115168455B (zh) | 2022-09-07 | 2022-09-07 | 一种模糊查询方法、装置、多方安全计算系统和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115168455A CN115168455A (zh) | 2022-10-11 |
CN115168455B true CN115168455B (zh) | 2022-12-06 |
Family
ID=83480380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211086577.XA Active CN115168455B (zh) | 2022-09-07 | 2022-09-07 | 一种模糊查询方法、装置、多方安全计算系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168455B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758417A (zh) * | 2022-11-22 | 2023-03-07 | 中金金融认证中心有限公司 | 数据处理方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776904A (zh) * | 2016-11-30 | 2017-05-31 | 中南大学 | 一种不可信云计算环境中支持动态验证的模糊查询加密方法 |
CN114756886A (zh) * | 2022-06-13 | 2022-07-15 | 华控清交信息科技(北京)有限公司 | 一种匿踪查询方法、装置和用于匿踪查询的装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429650B2 (en) * | 2018-09-21 | 2022-08-30 | Servicenow, Inc. | Parsing of user queries in a remote network management platform using linguistic matching |
US11249992B2 (en) * | 2018-09-21 | 2022-02-15 | Servicenow, Inc. | Parsing of user queries in a remote network management platform using extended context-free grammar rules |
CN114091045A (zh) * | 2020-11-16 | 2022-02-25 | 神州融安数字科技(北京)有限公司 | 保护隐私的信息查询方法、装置、系统、设备及存储介质 |
CN113553615A (zh) * | 2021-07-07 | 2021-10-26 | 深圳前海新心数字科技有限公司 | 一种隐私数据共享系统的匹配查询方法 |
CN114547078A (zh) * | 2022-02-23 | 2022-05-27 | 杭州博盾习言科技有限公司 | 基于隐私计算的联邦跨特征查询方法、装置、介质及设备 |
-
2022
- 2022-09-07 CN CN202211086577.XA patent/CN115168455B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776904A (zh) * | 2016-11-30 | 2017-05-31 | 中南大学 | 一种不可信云计算环境中支持动态验证的模糊查询加密方法 |
CN114756886A (zh) * | 2022-06-13 | 2022-07-15 | 华控清交信息科技(北京)有限公司 | 一种匿踪查询方法、装置和用于匿踪查询的装置 |
Non-Patent Citations (1)
Title |
---|
面向隐私保护的两层传感网Top-k查询处理方法;戴华等;《计算机研究与发展》;20130615(第06期);117-130 * |
Also Published As
Publication number | Publication date |
---|---|
CN115168455A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114756886B (zh) | 一种匿踪查询方法、装置和用于匿踪查询的装置 | |
CN112861175B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN110569777B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109918565B (zh) | 一种搜索数据的处理方法、装置及电子设备 | |
CN115967491B (zh) | 一种隐私求交方法、系统和可读存储介质 | |
CN112667674B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN115168455B (zh) | 一种模糊查询方法、装置、多方安全计算系统和可读存储介质 | |
CN114969830B (zh) | 一种隐私求交方法、系统和可读存储介质 | |
CN114978512B (zh) | 一种隐私求交方法、装置和可读存储介质 | |
CN114401154B (zh) | 一种数据处理方法、装置、密文计算引擎和用于数据处理的装置 | |
CN112269904B (zh) | 数据处理方法及装置 | |
CN112307281A (zh) | 一种实体推荐方法及装置 | |
CN114666048A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115085912A (zh) | 一种密文计算方法、装置和用于密文计算的装置 | |
CN114168808A (zh) | 基于正则表达式的文档字符串编码识别方法及装置 | |
CN112487415B (zh) | 计算任务的安全性检测方法及装置 | |
CN114168798A (zh) | 文本存储管理与检索方法及装置 | |
CN112464257B (zh) | 一种数据检测方法、装置和用于数据检测的装置 | |
CN113051610A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111538998A (zh) | 文本定密方法和装置、电子设备及计算机可读存储介质 | |
CN115617897B (zh) | 一种数据类型转换方法和多方安全计算系统 | |
CN116643740A (zh) | 基于对公业务的界面处理方法、装置、设备及存储介质 | |
CN114885038A (zh) | 一种加密协议转换方法、结果获取节点和隐私计算节点 | |
CN110020151B (zh) | 一种数据处理方法、装置、电子设备以及存储介质 | |
CN112131999A (zh) | 身份确定方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |