CN116821429A - 一种基于隐私集合运算的安全文本分类方法和系统 - Google Patents

一种基于隐私集合运算的安全文本分类方法和系统 Download PDF

Info

Publication number
CN116821429A
CN116821429A CN202310181002.4A CN202310181002A CN116821429A CN 116821429 A CN116821429 A CN 116821429A CN 202310181002 A CN202310181002 A CN 202310181002A CN 116821429 A CN116821429 A CN 116821429A
Authority
CN
China
Prior art keywords
provider
client
text
model
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310181002.4A
Other languages
English (en)
Inventor
张峰
石建
赵川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Houquantum Cryptography Technology Co ltd
Original Assignee
Hangzhou Houquantum Cryptography Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Houquantum Cryptography Technology Co ltd filed Critical Hangzhou Houquantum Cryptography Technology Co ltd
Priority to CN202310181002.4A priority Critical patent/CN116821429A/zh
Publication of CN116821429A publication Critical patent/CN116821429A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/065Encryption by serially and continuously modifying data stream elements, e.g. stream cipher systems, RC4, SEAL or A5/3
    • H04L9/0656Pseudorandom key sequence combined element-for-element with data sequence, e.g. one-time-pad [OTP] or Vernam's cipher
    • H04L9/0662Pseudorandom key sequence combined element-for-element with data sequence, e.g. one-time-pad [OTP] or Vernam's cipher with particular pseudorandom sequence generator
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/0819Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
    • H04L9/0825Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) using asymmetric-key encryption or public key infrastructure [PKI], e.g. key signature or public key certificates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/30Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy
    • H04L9/3006Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters
    • H04L9/3033Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters details relating to pseudo-prime or prime number generation, e.g. primality test
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于隐私集合运算的安全文本分类方法和系统,本发明将整个比对的过程分为三个阶段:客户端的编码加密阶段,服务器的密文计算阶段以及客户端的解密获取结果阶段,客户端首先在本地对字符串进行独热编码,同时利用公钥将编码后的字符串进行加密并发送给云服务器;然后云服务器对每对密文进行计算,并将结果返还给各个客户端;最后客户端利用私钥对结果进行解密获得结果,与传统编码方式相比,本发明提出采用独热编码的方式对字符串序列进行编码,对独热编码的字符串序列进行异或操作,并根据异或的结果来高效比对字符串,判断两个字符串是否相等,并在不相等的情况下,统计不同字符的个数,大大提升比对的效率。

Description

一种基于隐私集合运算的安全文本分类方法和系统
技术领域
本发明涉及数据加密的技术领域,具体是一种基于隐私集合运算的安全文本分类方法和系统。
背景技术
在当前大数据时代,数据类型丰富多彩且在经过处理分析后通常具有极高的使用价值和商用价值。其中,个人文本消息可以说覆盖了生活的方方面面,作为一种最常见最基本的数据,其背后价值更是举足轻重,对其进行扫描分析可获得极高的经济、社会价值。分类是机器学习(ML)中的一种监督学习技术,其目标是在给定一组带有类标签的训练数据的情况下构建分类器,该算法可用于个人文本消息分类,解决许多实际问题,目前在监控、电子商务和心理保健等方面有很多实用性应用,如将电子邮件、短消息服务(SMS)分类为垃圾信息或非垃圾信息、医疗状况的诊断(有病与无病)、仇恨言论检测、人脸分类、指纹识别等。但随之而来的便是个人文本信息中的隐私信息泄露与滥用问题,授予应用程序访问个人信息的权限很容易导致隐私侵犯与犯罪事件的产生。因此,隐私保护机器学习(PPML)的研究逐渐兴起,其中应用最广泛的是差分隐私(DP)技术,该技术通过在查询信息中添加噪声,从而防止敌手了解有关训练数据集中任何特定个人的信息。虽然在ML设置中的DP旨在保护训练数据集中的个人隐私,但是对于使用ML模型分类的预测数据隐私也非常重要。为了达到对数据更全面的保护,安全多方计算(MPC)被成功应用于许多具有结构化数据的ML任务中。同态加密(HE)是一种可以直接对密文执行计算的加密模式,曾被用于加密隐私保护文本分析框架,达到对数据提供者方数据的保护,但其效率不高,且会泄露分类文本中哪些关键词出现在分类模型的词典中。之后可证明安全的基于隐私保护(PP)的文本分类方案与基于MPC的隐私保护朴素贝叶斯分类器虽然解决了上述缺陷,保护了数据提供方与分类模型的数据安全,但这些方案在文本分类中的特征提取部分,均是采用了二进制结果的PEQT算法,需要通过进制转换得到两类分类概率结果。随着文本数据量的不断增加以及模型中的关键字逐渐增加,除对比外再进行额外的进制转换会耗费大量的时间,大大增加了运行的时间复杂度与通信复杂度,因此需要一种更为高效的文本分类方案。
发明内容
本发明基于以上技术路线,提出了一种基于隐私集合运算的安全文本分类方法和系统。
为了实现上述目的,本发明提出了一种基于外包计算的多方字符串安全比对算法,包含以下步骤:
S1:客户端编码加密阶段:假设n个客户端每个分别持有1个字符串,每个客户端Pi首先逐位对其字符串进行独热编码,然后将编码后的比特串逐位使用Goldwasser-Micali同态加密算法进行加密,并将密文发送给服务器;
S2:服务器密文计算阶段:当服务器收集到各个客户端发送的密文之后,根据Goldwasser-Micali加密算法的异或同态性,对任意两个密文逐位进行乘法计算,并将计算结果中的元素随机打乱顺序返回给每个客户端Pi
S3:客户端解密统计阶段:当客户端Pi收到经服务器打乱顺序的密文后,逐位对密文进行解密,得到其字符串与其他客户端Pj的字符串进行异或运算后并随机排序的结果,最后客户端Pi统计该结果中“1”的个数,判断两个字符串是否相等。
作为优选,所述每个客户端Pi采用独热编码的方法对其字符串进行编码,然后将编码后的比特串逐位进行加密Enc(mi),加密方案使用Goldwasser-Micali公钥加密算法。
作为优选,所述步骤S1包括以下子步骤:
S1.1:假设n个客户端每个分别持有1个字符串,每个字符串的长度为l,其中字符种类数量为w,每个客户端Pi采用独热编码方法对其字符串进行编码,获得长度为ρ=wl的比特串mi=m1m2...mρ
S1.2:每个客户端Pi采用Goldwasser-Micali公钥加密方案对其独热编码比特串mi逐位进行加密,得到密文Enc(mi)=(Enc(m1),...,Enc(mρ));
S1.3:每个客户端Pi将加密的比特串Enc(mi)存进一个数组Arrayj,然后将该数组发送给服务器。
作为优选,所述步骤S2包括以下子步骤:
S2.1:服务器在收到客户端Pi加密的独热编码字符串以后,根据Goldwasser-Micali加密算法的异或同态性,对任意两个客户端的密文Enc(mi)和Enc(mj)逐位进行乘法计算;
S2.2:服务器将任意两个客户端之间的密文乘法计算结果中的元素随机打乱顺序,即shuffle(Enc(mi)×Enc(mj)),并将结果返回给每个客户端Pi
作为优选,所述步骤S3包括以下子步骤:
S3.1:每个客户端Pi在收到服务器返回的密文以后,逐位进行解密,得到其字符串mi与其他客户端Pj的字符串mj进行异或运算后并随机排序的结果,即
S3.2:每个客户端Pi统计解密结果中“1”的个数,判断其字符串mi和客户端Pj的字符串mj是否相等。
本发明还提供了用于上述方法的一种基于同态加密的字符串序列比对系统,包括互相连接的编码模块、加解密模块、计算模块和随机置换模块;
所述编码模块用于客户端上传字符串,并进行独热编码操作;
所述加解密模块用于客户端对其独热编码后的字符串进行加密操作,以及对服务器经过计算返回的密文进行解密操作;
所述计算模块用于服务器对客户端上传的加密的独热编码串进行乘法计算操作;
所述随机置换模块用于服务器随机置换多个密文之间的顺序。
本发明具有以下有益效果:
1、本发明针对特定场景下的字符串比对,提出了一种外包场景下新的字符串安全比对算法,与传统编码方式相比,本发明提出采用独热编码的方式对字符串序列进行编码,对独热编码的字符串序列进行异或操作,并根据异或的结果来高效比对字符串,判断两个字符串是否相等,并在不相等的情况下,统计不同字符的个数,大大提升比对的效率。
2、为了在比对过程中不泄露字符串的任何信息,采用GM异或同态加密算法来保护字符串隐私信息,提高了算法的安全性。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的系统模块组成示意图;
图3为本发明实施例1的序列比对示意图。
具体实施方式
下面通过附图以及具体实施方式进一步说明本发明。
如图1所示,本发明的一种基于隐私集合运算的安全文本分类方法,包含以下步骤:
S1:客户端编码加密阶段:假设n个客户端每个分别持有1个字符串,每个客户端Pi首先逐位对其字符串进行独热编码,然后将编码后的比特串逐位使用Goldwasser-Micali同态加密算法进行加密,并将密文发送给服务器。
所述每个客户端Pi采用独热编码的方法对其字符串进行编码,然后将编码后的比特串逐位进行加密Enc(mi),加密方案使用Goldwasser-Micali公钥加密算法
上述步骤S1具体实施步骤如下:
S1.1:假设n个客户端每个分别持有1个字符串,每个字符串的长度为l,其中字符种类数量为w,每个客户端Pi采用独热编码方法对其字符串进行编码,获得长度为ρ=wl的比特串mi=m1m2...mρ
S1.2:每个客户端Pi采用Goldwasser-Micali公钥加密方案对其独热编码比特串mi逐位进行加密,得到密文Enc(mi)=(Enc(m1),...,Enc(mρ));
S1.3:每个客户端Pi将加密的比特串Enc(mi)存进一个数组Arrayj,然后将该数组发送给服务器。
S2:服务器密文计算阶段:当服务器收集到各个客户端发送的密文之后,根据Goldwasser-Micali加密算法的异或同态性,对任意两个密文逐位进行乘法计算,并将计算结果中的元素随机打乱顺序返回给每个客户端Pi
上述步骤S2具体实施步骤如下:
S2.1:服务器在收到客户端Pi加密的独热编码字符串以后,根据Goldwasser-Micali加密算法的异或同态性,对任意两个客户端的密文Enc(mi)和Enc(mj)逐位进行乘法计算;
S2.2:服务器将任意两个客户端之间的密文乘法计算结果中的元素随机打乱顺序,即shuffle(Enc(mi)×Enc(mj)),并将结果返回给每个客户端Pi
S3:客户端解密统计阶段:当客户端Pi收到经服务器打乱顺序的密文后,逐位对密文进行解密,得到其字符串与其他客户端Pj的字符串进行异或运算后并随机排序的结果,最后客户端Pi统计该结果中“1”的个数,判断两个字符串是否相等。
上述步骤S3具体实施步骤如下:
S3.1:每个客户端Pi在收到服务器返回的密文以后,逐位进行解密,得到其字符串mi与其他客户端Pj的字符串mj进行异或运算后并随机排序的结果,即
S3.2:每个客户端Pi统计解密结果中“1”的个数,判断其字符串mi和客户端Pj的字符串mj是否相等。
如图2所示,本发明的一种基于同态加密的字符串序列比对系统,包括依次连接的编码模块、加解密模块、计算模块和随机置换模块;
所述编码模块用于客户端上传字符串,并进行独热编码操作;
所述加解密模块用于客户端对其独热编码后的字符串进行加密操作,以及对服务器经过计算返回的密文进行解密操作;
所述计算模块用于服务器对客户端上传的加密的独热编码串进行乘法计算操作;
所述随机置换模块用于服务器随机置换多个密文之间的顺序。
实施例1
本发明首先对字符串进行独热编码(One-Hot Encoding),然后采用Goldwasser-Micali异或同态加密算法对编码后的字符串进行加密,借助云辅助服务器实现字符串的高效安全比对,并统计不同字符的个数。方案的思想:将Alice和Bob的字符串SA和SB进行独热编码,为判断SA和SB是否相等,首先判断SA和SB每个字符是否相等,关键要解决每个独热编码后的字符是否相等的问题。当两个不同字符的独热编码进行异或操作时,异或结果中的“1”一定成对出现。根据统计计算结果中“1”是否出现,以及出现的频次,就可以获取两个字符是否相同,以及两个字符串中不同字符的个数。
独热编码,即One-Hot编码,或一位有效编码,其方法是通过N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候,其中只有一位有效,即一个字符的编码只有一位为“1”,其余为“0”。因此,任意两个不同的字符“1”的位置一定不同。
Goldwasser-Micali公钥加密系统:Goldwasser-Micali(GM)加密系统是由ShafiGoldwasser和Silvio Micali于1984年提出的一种非对称密钥加密算法。GM是第一个概率公钥加密方案,主要是对0,1进行加密,在标准加密假设下可证明是安全的。该加密系统假设解决二次剩余问题是困难的,即给定x和N,当x的雅可比符号等于+1时,很难确定x是否是一个二次剩余(如果存在一个a满足x≡a2(modN),那么x就是模N的一个二次剩余),其中N=pq,p、q是素数,x和a分别是集合ZN={x∈ZN|gcd(x,N)=1}上的一个元素。Goldwasser-Micali加密系统由三种算法组成:生成公私钥的概率密钥生成算法、概率加密算法和确定性解密算法。
密钥生成:Alice首先随机生成两个大素数p,q,并计算N=pq;然后选取一个正整数t,其雅可比符号等于+1,并且s是模p和模q的二次非剩余。公钥是(N,s),私钥是(p,q)。
加密:假设Bob要发送一个消息m给Alice。Bob首先将m表示成二进制比特串(m1,m2,...,ml),对每一个比特mi,Bob生成一个随机数ri∈ZN,满足gcd(ri,N)=1,并计算:
然后Bob将Enc(m)=(Enc(m1),Enc(m2),...,Enc(ml))发给Alice。
解密:Alice在收到密文Enc(m)之后,利用私钥(p,q)对每个密文Enc(mi),计算Enc(mi)/p和Enc(mi)/q。如果Enc(mi)/p=Enc(mi)/q=1,mi=0;否则mi=1。
此外,GM加密系统还满足异或同态性,对任意的m1,m2,...,ml,有
如图3所示,本发明将整个比对的过程分为三个阶段:客户端的编码加密阶段,服务器的密文计算阶段以及客户端的解密获取结果阶段。客户端首先在本地对字符串进行独热编码,同时利用公钥将编码后的字符串进行加密并发送给云服务器;然后云服务器对每对密文进行计算,并将结果返还给各个客户端;最后客户端利用私钥对结果进行解密,根据解密后的计算结果中“1”的个数,从而判断两个字符串是否相等。
客户端编码加密阶段:
假设n个用户分别持有1个字符串,每个字符串长度为l,其中字符种类数量为w。首先逐位对每个字符串进行独热编码,使之成为形如m=m1m2...mρ其中mi={0,1},ρ=wl;接着每个客户端Pi对编码后的比特串逐位进行加密Enc(mi),加密方案使用Goldwasser公钥加密系统,可以得到一个长度为ρ的数组Arrayi,数组内存放每个比特的密文,最后将数组发送给服务器。
服务器密文计算阶段:
当服务器收集到各个客户端发送的数组之后,对每对数组(Arrayj,Arrayk)的相应位置的密文进行乘法计算得到新的结果数组:
由Goldwasser公钥加密方案的同态性质可以得到:
此时为了防止客户端恢复出原始字符串的有效信息,我们将Resultj,k中的元素进行打乱重排序shuffle(Resultj,k),然后将打乱后的Resultj,k数组发送给客户端。
客户端恢复密文统计阶段:
当客户端Pj收到数组Resultj,k后,对数组内的元素逐个解密,获得但此时由于数组顺序已被打乱,所以只能获得解密后异或结果0和1的统计特性,无法通过解码获得Pk的第i位原始字符,也无法获得字符的位置信息。Pj统计出解密后明文中1的个数后,即可获得mj与mk中不同字符的个数。由于每一个对应位置上的不同字符编码异或结果中会出现两位1,所以最后统计出1的个数是不同字符数的2倍。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围内。

Claims (7)

1.一种基于隐私集合运算的安全文本分类方法,其特征在于,包含以下步骤:
S1:文本提供方与模型提供方分别构造各自关键词的字符串组,模型提供方在ML模型中利用已知数据集计算后续利用贝叶斯公式时所需的各项概率;
S2:文本提供方与模型提供方利用各自的字符串组执行安全特征提取,最后得到在大小为q的环上的秘密分享值[[y1]]q,...,[[yn]]q,其中若模型提供方的关键词i在文本提供方构造的信息中出现的单字符对应的二进制字符串组A={a1,...,am}中存在,则在秘密分享值向量对应位置的数值yi为1,否则为0;
S3:对于两种分类,文本提供方与模型提供方安全计算出两类所对应的贝叶斯公式的分子部分,由于每一类待比较的式子分母部分都相同,故省略计算;
S4:文本提供方与模型提供方安全比较对应两个类的结果,最终输出分类结果,并对两方公开。
2.根据权利要求1所述的一种基于隐私集合运算的安全文本分类方法,其特征在于,所述文本提供方与模型提供方分别构造各自关键词的字符串组,文本提供方构造其信息中出现的单字符对应的二进制字符串组A={a1,...,am},模型提供方构造其在文本分类模型中出现的单字符对应的二进制字符串组B={b1,...,bn},其中A,B中的每一项都为一个长度为l的二进制字符串。
3.根据权利要求1所述的一种基于隐私集合运算的安全文本分类方法,其特征在于,其特征在于:步骤S1所述计算后续利用贝叶斯公式时所需的各项概率,包括以下子步骤:S1.1:获取已知数据集内容并将其里面的内容解析为一元组,即单字符,其中将字母都转为小写,除字母外的内容全删除;
S1.2:对解析的单字符进行处理,包括利用词干提取方式将同义词归类为一个相同的词汇、利用停用词方式过滤掉与分类任务无关的词汇;
S1.3:将从已知数据集中的有用信息拆出来的单字符放入一个词汇存储集合,再将从已知数据集中的垃圾信息中拆出来的单字符放入另一个词汇存储集合,删除两个集合中掉频率过低的词汇;
S1.4:模型提供方利用隐私保护求交集基数的协议对于类别c计算先验概率P(c):
S1.5:模型提供方利用隐私保护求交集基数的协议对于类别c与关键词i,计算后验概率P(i|c):
使用拉普拉斯对公式进行平滑处理:
4.根据权利要求1所述的一种基于隐私集合运算的安全文本分类方法,其特征在于,步骤S1中所述安全特征提取,包括以下子步骤:
S2.1:文本提供方与模型提供方两方执行安全特征提取协议πFE
S2.2:得到在大小为q的环上的秘密分享值[[y1]]q,...,[[yn]]q
5.根据权利要求1所述的一种基于隐私集合运算的安全文本分类方法,其特征在于,步骤S3中所述安全计算两类所对应的贝叶斯公式的分子部分,包括以下子步骤:
S3.1:模型提供方计算出步骤S1中计算出的概率的对数值的秘密分享值;
S3.2:文本提供方与模型提供方利用安全计算协议πDMM计算出分子值的一个中间项;
S3.3:双方在本地计算出最终的贝叶斯公式的分子值的秘密分享值。
6.根据权利要求1所述的一种基于隐私集合运算的安全文本分类方法,其特征在于,所述步骤S4使用安全比较协议πGEQ比较对应两个类的结果,最终输出分类结果,并对两方公开,包括以下子步骤:
S4.1:文本提供方与模型提供方双方利用安全比较协议πGEQ将步骤S3中得到的结果与分类结果做比较;
S4.2:得出最终分类结果。
7.一种基于隐私集合运算的安全文本分类系统,其特征在于:
该系统由客户端与服务器端构成,两者均需要进行登录操作。客户端需要先利用姓名、性别、联系方式等信息注册账号后,利用用户名与密码登录进入系统。若密码正确进入系统,若密码错误则返回登录界面。登录成功后用户可通过在对话框内输入自身关键字,点击查询获取分类结果。服务器端只能通过内推获取该权限的用户密码,登录后可更改系统内的模型关键字,并且也可以进行与客户端相同的查询操作。
CN202310181002.4A 2023-03-01 2023-03-01 一种基于隐私集合运算的安全文本分类方法和系统 Pending CN116821429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310181002.4A CN116821429A (zh) 2023-03-01 2023-03-01 一种基于隐私集合运算的安全文本分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310181002.4A CN116821429A (zh) 2023-03-01 2023-03-01 一种基于隐私集合运算的安全文本分类方法和系统

Publications (1)

Publication Number Publication Date
CN116821429A true CN116821429A (zh) 2023-09-29

Family

ID=88141780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310181002.4A Pending CN116821429A (zh) 2023-03-01 2023-03-01 一种基于隐私集合运算的安全文本分类方法和系统

Country Status (1)

Country Link
CN (1) CN116821429A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424765A (zh) * 2023-12-19 2024-01-19 天津医康互联科技有限公司 分布式独热编码方法、装置、电子设备及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424765A (zh) * 2023-12-19 2024-01-19 天津医康互联科技有限公司 分布式独热编码方法、装置、电子设备及计算机存储介质
CN117424765B (zh) * 2023-12-19 2024-03-22 天津医康互联科技有限公司 分布式独热编码方法、装置、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
US11374736B2 (en) System and method for homomorphic encryption
Zhao et al. K-means clustering and kNN classification based on negative databases
US7657033B2 (en) Cryptography related to keys
CN106803784A (zh) 安全多媒体云存储中基于格的多用户模糊可搜索加密方法
US8180048B2 (en) Method and system for computational transformation
KR19990082665A (ko) 공통키 통신방법
Omolara et al. A deception model robust to eavesdropping over communication for social network systems
Zolfaghari et al. The odyssey of entropy: cryptography
Xiao et al. Chaotic image encryption of regions of interest
Costantino et al. Privacy-preserving text mining as a service
CN116821429A (zh) 一种基于隐私集合运算的安全文本分类方法和系统
Moe et al. Enhanced honey encryption algorithm for increasing message space against brute force attack
CN115473703A (zh) 认证的基于身份的密文等值测试方法、装置、系统及介质
Ye et al. Anonymous biometric access control
Randall et al. Privacy preserving record linkage using homomorphic encryption
KR100951034B1 (ko) 암호문 크기를 줄이기 위한 공개키 기반의 검색가능암호문생성 방법과, 그에 따른 공개키 기반의 데이터 검색 방법
CN114422230B (zh) 一种基于数据加密的信息传输系统
Zhou et al. A survey of security aggregation
CN114065169A (zh) 一种隐私保护生物认证方法和装置、电子设备
Bhowmik et al. An Approach of Secret Sharing Technique Based on Convolution Neural Network and DNA Sequence for Data Security in Wireless Communication
Rani et al. Key insertion and splay tree encryption algorithm for secure data outsourcing in cloud
Maheswari et al. Secure data transmission for multisharingin big data storage
US20230171092A1 (en) System and Method for Secure Detection of Similarity and Dissimilarity of Events
JADDOA et al. Cyber Security Role in Image Encryption
Bai Secure and Efficient Tree-based Classifiers and Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination