CN108519983A - 一种基于潜层语义分析的安全的文档相似性计算方法和系统 - Google Patents

一种基于潜层语义分析的安全的文档相似性计算方法和系统 Download PDF

Info

Publication number
CN108519983A
CN108519983A CN201810113977.2A CN201810113977A CN108519983A CN 108519983 A CN108519983 A CN 108519983A CN 201810113977 A CN201810113977 A CN 201810113977A CN 108519983 A CN108519983 A CN 108519983A
Authority
CN
China
Prior art keywords
document
vector
party
similarity
lexical item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810113977.2A
Other languages
English (en)
Inventor
陈小军
于晓杰
时金桥
申立艳
王大魁
胡兰兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201810113977.2A priority Critical patent/CN108519983A/zh
Publication of CN108519983A publication Critical patent/CN108519983A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于潜层语义分析的安全的文档相似性计算方法和系统。该方法在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;然后双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。本发明在约定全局向量空间时,可以保证不暴露一方的敏感词项给另一方;在使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算时,不会泄露各自的文档向量。本发明在保证计算的安全性同时,能够提高文档相似计算的准确率与效率。

Description

一种基于潜层语义分析的安全的文档相似性计算方法和系统
技术领域
本发明属于信息技术领域,具体涉及一种基于潜层语义分析的安全的文档相似性计算方法和系统。
背景技术
文档相似性计算作为智能数据处理的一项基础技术,在信息检索、文本分类聚类等应用中发挥着关键作用,传统的文档相似性计算,如向量空间模型、Shingling模型和潜层语义分析模型(Latent semantic analysis)等,在以上应用中得到了广泛使用。但这些传统的技术,在计算文档相似性时并未考虑保护参与计算的文档内容的安全性,所以在需要保护参与计算的敏感文档内容的应用场景中并不适用。
近些年,已有一些关于安全的文档相似性计算的研究工作,主要分作两条技术路线:一种是将文档表示成指纹集合的形式后使用安全的集合相似性计算获得文档间的相似性,这种方法可以较好地衡量文档间的局部相似性,例如在剽窃检测中检测相同的句子或者段落等;另一种是将文档表示成向量的形式,然后借助安全的向量相似性计算获得文档间的相似性,这种方法可以较好地衡量文档间的全局相似性,例如在信息检索中,检测两个文档共有的词项分布情况。当前的基于向量的安全的文档相似性计算方法,大多使用向量空间模型(Vector Space Model,VSM)来表示文档,然后借助同态加密(HomomorphicEncryption)技术,进行向量间的相似性计算,进而获得文档间的相似性。
现有的这些使用向量空间模型进行安全的文档相似性计算的方法,由于向量空间模型不能捕捉一词多义或一义多词,所以在衡量文档相似性时还有提升的空间;并且参与计算的向量维度通常很高,进而导致计算的复杂度非常高。
发明内容
本发明旨在提出一种基于潜层语义分析的安全的文档相似性计算方法和系统,在保证不泄露各自私有数据的前提下,计算一篇文档与一个文档集之间的全局相似性,在提高全局相似性计算效率的同时,降低计算的复杂度。
本发明采用的技术方案如下:
一种基于潜层语义分析的安全的文档相似性计算方法,其特征在于,包括以下步骤:
1)在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;
2)双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。
进一步地,计算第一方的一篇文档q与第二方的一个文档集D之间的全局相似性时,步骤1)将第二方的词项空间V作为全局的向量空间W,并将W分作两部分:U∩V和V-U∩V,其中U是第一方的词项空间。
进一步地,步骤1)包括:
1-1)使用私有的集合交集计算协议计算U∩V,计算完成后,双方均只能知道U∩V的内容;
1-2)第二方根据V和U∩V计算得到V-U∩V;第一方的文档集中不存在V-U∩V的词项,其对应项填充0;
1-3)在第二方的敏感信息不暴露给第一方的情况下,第一方将自己的文档q表示成向量第二方将自己的文档集D表示成词项-文档矩阵B。
进一步地,步骤2)进行文档相似性计算的过程包括:
1)第二方使用奇异值分解对B进行操作,获得B的k阶逼近矩阵;
2)第一方使用同态加密方法进行加密计算,然后将加密后的文档向量发送给第二方;
3)第二方接收加密后的文档向量在密文空间对该文档向量进行降维,最终获得加密后的降维向量并将发送给第一方;
4)第一方接收加密后的降维向量解密得到进行归一化处理;然后将归一化后的降维向量再进行同态加密得到发送给第二方;
5)第二方接收在密文空间计算即可得到和文档集D的m个加密相似度结果其中m是文档集D的数量,并将发回给第一方;
6)第一方解密最终得到文档q和文档集D的m个相似度数值。
一种基于潜层语义分析的安全的文档相似性计算系统,包括第一计算机装置和第二计算机装置;第一计算机装置中存储第一文档集,第二计算机装置中存储第二文档集;第一计算机装置和第二计算机装置在不泄露敏感词项的前提下,借助私有的集合交集计算协议进行全局向量空间的约定,然后基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。
本发明主要包含以下关键点:
1)在不泄露对方敏感词项的前提下,借助私有的集合交集计算协议,进行全局向量空间的约定;
2)基于潜层语义分析模型,并借助同态加密技术,进行基于向量的安全的文档相似性计算协议的设计,在保证计算的安全性同时,提高文档相似计算的准确率与效率。
本发明将潜层语义分析应用到了安全的文档相似性计算中来,具有以下优点:
1)使用该发明进行安全的文档相似性计算时,可以保护参与计算的双方文档内容的安全性。具体包含两个方面,首先,在约定全局向量空间时,本发明的方案可以保证不暴露一方的敏感词项给另一方;其次,使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算时,不会泄露各自的文档向量。
2)使用潜层语义分析模型进行安全的文档相似性计算,提高了全局相似性计算的准确率。
3)使用潜层语义分析模型进行安全的文档相似性计算,提高了相似性计算的效率。
附图说明
图1是本发明的全局向量空间示意图。
图2是本发明与现有的基于向量空间模型的方案的准确率对比图。
图3是本发明与现有的基于向量空间模型的方案的计算效率对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明能够在保证不泄露各自私有数据的前提下,计算Alice的一篇文档q与Bob的一个文档集D之间的全局相似性,在提高全局相似性计算效率的同时,降低计算的复杂度。
本发明基于同态加密技术,首次将潜层语义分析模型应用到安全的文档相似性计算中。本发明的方案主要包含两步,首先需要计算的双方约定全局向量空间,接下来双方就可以基于同态加密和潜层语义分析进行向量间的安全的相似度计算。
1.约定全局向量空间
因为降维操作主要基于Bob的文档集生成的词频-文档矩阵,所以将采用Bob的词项空间V作为全局的向量空间W。但V中可能存在许多Alice中不存在的词项,并且这些词项可能包含敏感信息,直接将其暴露给Alice就会泄露Bob的私有信息。
为了防止这种情况发生,本发明将W分作两部分,U∩V和V-U∩V(如图1所示),U是Alice的词项空间。先使用私有的集合交集计算协议计算U∩V,当计算完成后,双方均只能知道U∩V的内容。然后Bob可以根据V和U∩V计算得到V-U∩V,而Alice不需要知道V-U∩V的内容,因为在Alice的文档集中不存在V-U∩V的词项,所以对应项只需要填充0即可。最终在Bob的敏感信息不会暴露给Alice的情况下,Alice可以将自己的文档q表示成向量Bob也可以将自己的文档集D表示成词项-文档矩阵B。上述私有的集合交集计算协议可采用现有技术实现。
2.进行相似度计算
接下来双方就可以基于同态加密和潜层语义分析进行向量间的安全的相似度计算,具体步骤如下:
1)Bob使用奇异值分解对B进行操作,获得B的k阶逼近矩阵然后计算得到其中i=1,2,…,n并且j=1,2,…,k,n表示文档集中词项的数量,R表示一个中间变量,Uk表示k阶逼近的词项矩阵,Σk表示k阶逼近的奇异值矩阵,Vk表示k阶逼近的文档矩阵;
2)Alice使用同态加密方法进行加密计算:其中i=1,2,…,n,表示加密后的文档向量,Epk表示加密计算函数,表示明文的文档向量,然后将发送给Bob;
3)Bob接收Alice加密后的文档向量在密文空间对该文档向量进行降维,即在密文空间计算最终获得加密后的降维向量并将发送给Alice;
4)Alice接收加密后的降维向量解密得到进行归一化处理:其中j=1,2,...,k;然后将归一化后的降维向量再进行同态加密得到发送给Bob;
5)Bob接收在密文空间计算即可得到和文档集D的m个加密相似度结果其中m是文档集D的数量,并将发回给Alice;
6)Alice解密最终得到文档q和文档集D的m个相似度数值。
本发明选取了Reuter-21578文本数据集的1296篇文档,其中包含973个训练文档和323个测试文档,将测试文档作为Alice方,训练文档作为Bob方,进行文档间的安全相似性计算,选择Alice的一篇测试文档与Bob方的k个相似性最高的文档作为候选集进行分类投票,得票最高的类目即为Alice测试文档的分类结果。
具体操作步骤如下:
1)双方使用相同的策略对文档进行分词等预处理操作,生成各自的词典U和V,然后按照本发明中的方法,生成了包含6205个词项的全局向量空间W;
2)根据全局向量空间,Bob对自己的文档集生成词项-文档矩阵B,Alice对每篇文档均生成一个文档向量
3)对Alice的每一篇文档,双方均运行本发明方法中的协议,其中同态加密采用Paillier’s加密体系在80比特安全参数下实现,LSA(表示本发明的方案)选择进行150阶逼近,最终计算得到Alice的每一篇文档与Bob训练文档集的973个相似性计算结果;
4)选取k个相似性最高的文档集进行分类投票,得到Alice当前文档的分类结果。
最终选择投票数量k的取值从5到16,得到的准确性如表1所示:
表1.完成相似性计算的准确性
k取值 准确性(%) k取值 准确性(%)
5 83.9 11 83.0
6 83.0 12 84.8
7 83.0 13 85.6
8 83.0 14 84.8
9 83.6 15 84.2
10 83.0 16 84.2
完成所有相似性计算所需要的时间消耗如表2所示:
表2.完成相似性计算的时间消耗
测试文档数 时间消耗(min) 测试文档数 时间消耗(min)
25 5.0 200 45.8
50 10.9 225 52.4
75 16.7 250 59.3
100 22.5 275 66.1
125 28.3 300 72.1
150 34.9 323 75.7
175 39.9
为了评估本发明进行全局相似性计算的效果,将本发明的方案(LSA)以及以往基于向量空间模型的方案(VSM),同时应用到文本的kNN分类任务中,准确性结果评估如图2所示。分别选取了LSA的100阶逼近(LSA-100)、150阶逼近(LSA-150)和200阶逼近(LSA-200)与VSM进行对比,并且为了使得kNN的分类效果更具说服力,尝试了不用的近邻数(k的取值)。实验结果显示,本发明的LSA的效果总是好过VSM,分类任务在LSA-150中取得最高准确率为0.86,而基于VSM的最高准确率只有0.80。因此本发明使用潜层语义分析模型进行安全的文档相似性计算,提高了全局相似性计算的准确率。
同样地,对于以上四种方法分别完成分类任务,随着测试文档数量增加,时间消耗如图3所示,很明显,LSA的时间消耗要小于VSM,完成该分类任务,LSA-100只需要72分钟,而VSM需要103分钟。因此本发明使用潜层语义分析模型进行安全的文档相似性计算,提高了相似性计算的效率。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于潜层语义分析的安全的文档相似性计算方法,其特征在于,包括以下步骤:
1)在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;
2)所述双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。
2.如权利要求1所述的方法,其特征在于,计算所述双方中第一方的一篇文档q与第二方的一个文档集D之间的全局相似性时,步骤1)将第二方的词项空间V作为全局的向量空间W,并将W分作两部分:U∩V和V-U∩V,其中U是第一方的词项空间。
3.如权利要求2所述的方法,其特征在于,步骤1)包括:
1-1)使用私有的集合交集计算协议计算U∩V,计算完成后,双方均只能知道U∩V的内容;
1-2)第二方根据V和U∩V计算得到V-U∩V;第一方的文档集中不存在V-U∩V的词项,其对应项填充0;
1-3)在第二方的敏感信息不暴露给第一方的情况下,第一方将自己的文档q表示成向量第二方将自己的文档集D表示成词项-文档矩阵B。
4.如权利要求3所述的方法,其特征在于,步骤2)进行文档相似性计算的过程包括:
1)第二方使用奇异值分解对B进行操作,获得B的k阶逼近矩阵;
2)第一方使用同态加密方法进行加密计算,然后将加密后的文档向量发送给第二方;
3)第二方接收加密后的文档向量在密文空间对该文档向量进行降维,最终获得加密后的降维向量并将发送给第一方;
4)第一方接收加密后的降维向量解密得到进行归一化处理;然后将归一化后的降维向量再进行同态加密得到发送给第二方;
5)第二方接收在密文空间计算即可得到和文档集D的m个加密相似度结果其中m是文档集D的数量,并将发回给第一方;
6)第一方解密最终得到文档q和文档集D的m个相似度数值。
5.如权利要求1至4中任一权利要求所述的方法,其特征在于,通过约定全局向量空间,保证不暴露一方的敏感词项给另一方;通过使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算,保证不泄露各自的文档向量。
6.一种基于潜层语义分析的安全的文档相似性计算系统,其特征在于,包括第一计算机装置和第二计算机装置;第一计算机装置中存储第一文档集,第二计算机装置中存储第二文档集;第一计算机装置和第二计算机装置在不泄露敏感词项的前提下,借助私有的集合交集计算协议进行全局向量空间的约定,然后基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。
7.如权利要求5所述的系统,其特征在于,计算第一计算机装置中存储的一篇文档q与第二计算机装置中存储的第二文档集D之间的全局相似性时,将第二文档集的词项空间V作为全局的向量空间W,并将W分作两部分:U∩V和V-U∩V,其中U是第一计算机装置的词项空间。
8.如权利要求6所述的系统,其特征在于,所述进行全局向量空间的约定包括:使用私有的集合交集计算协议计算U∩V,计算完成后,双方均只能知道U∩V的内容;第二计算机装置根据V和U∩V计算得到V-U∩V;第一计算机装置存储的文档集中不存在V-U∩V的词项,其对应项填充0;在第二计算机装置的敏感信息不暴露给第一计算机装置的情况下,第一计算机装置将自己的文档q表示成向量第二计算机装置将自己的文档集D表示成词项-文档矩阵B。
9.如权利要求7所述的系统,其特征在于,第一计算机装置和第二计算机装置进行文档相似性计算的过程包括:
第二计算机装置使用奇异值分解对B进行操作,获得B的k阶逼近矩阵;
第一计算机装置使用同态加密方法进行加密计算,然后将加密后的文档向量发送给第二计算机装置;
第二计算机装置接收加密后的文档向量在密文空间对该文档向量进行降维,最终获得加密后的降维向量并将发送给第一计算机装置;
第一计算机装置接收加密后的降维向量解密得到进行归一化处理;然后将归一化后的降维向量再进行同态加密得到发送给第二计算机装置;
第二计算机装置接收在密文空间计算即可得到和文档集D的m个加密相似度结果其中m是文档集D的数量,并将发回给第一计算机装置;
第一计算机装置解密最终得到文档q和文档集D的m个相似度数值。
10.如权利要求6至9中任一权利要求所述的系统,其特征在于,所述第一计算机装置和所述第二计算机装置通过约定全局向量空间,保证不暴露一方的敏感词项给另一方;并通过使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算,保证不泄露各自的文档向量。
CN201810113977.2A 2018-02-05 2018-02-05 一种基于潜层语义分析的安全的文档相似性计算方法和系统 Pending CN108519983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810113977.2A CN108519983A (zh) 2018-02-05 2018-02-05 一种基于潜层语义分析的安全的文档相似性计算方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810113977.2A CN108519983A (zh) 2018-02-05 2018-02-05 一种基于潜层语义分析的安全的文档相似性计算方法和系统

Publications (1)

Publication Number Publication Date
CN108519983A true CN108519983A (zh) 2018-09-11

Family

ID=63432799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810113977.2A Pending CN108519983A (zh) 2018-02-05 2018-02-05 一种基于潜层语义分析的安全的文档相似性计算方法和系统

Country Status (1)

Country Link
CN (1) CN108519983A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861964A (zh) * 2018-11-30 2019-06-07 华为技术有限公司 数据分析方法、设备以及系统
CN116305285A (zh) * 2023-03-30 2023-06-23 肇庆学院 结合人工智能的病患信息脱敏处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012980A (zh) * 2010-11-16 2011-04-13 中国科学技术大学苏州研究院 基于同态加密系统的文本信息隐藏安全检测方法
US20120158731A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Deriving document similarity indices
CN106788962A (zh) * 2016-12-13 2017-05-31 电子科技大学 隐私保护下的向量相似性判断方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012980A (zh) * 2010-11-16 2011-04-13 中国科学技术大学苏州研究院 基于同态加密系统的文本信息隐藏安全检测方法
US20120158731A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Deriving document similarity indices
CN106788962A (zh) * 2016-12-13 2017-05-31 电子科技大学 隐私保护下的向量相似性判断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOJIE YU 等: ""Vector Based Privacy-Preserving Document Similarity with LSA"", 《2017 9TH IEEE INTERNATIONAL CONFERENCE ON COMMUNICATION SOFTWARE AND NETWORKS》 *
申立艳 等: ""隐私保护集合交集计算技术研究综述"", 《隐私保护集合交集计算技术研究综述》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861964A (zh) * 2018-11-30 2019-06-07 华为技术有限公司 数据分析方法、设备以及系统
CN109861964B (zh) * 2018-11-30 2021-10-15 华为技术有限公司 数据分析方法、设备以及系统
CN116305285A (zh) * 2023-03-30 2023-06-23 肇庆学院 结合人工智能的病患信息脱敏处理方法及系统
CN116305285B (zh) * 2023-03-30 2024-04-05 肇庆学院 结合人工智能的病患信息脱敏处理方法及系统

Similar Documents

Publication Publication Date Title
MacAvaney et al. CEDR: Contextualized embeddings for document ranking
Ruder et al. Learning to select data for transfer learning with bayesian optimization
Melucci Introduction to information retrieval and quantum mechanics
CN112256874A (zh) 模型训练方法、文本分类方法、装置、计算机设备和介质
CN110163478A (zh) 一种合同条款的风险审查方法及装置
CN110334548A (zh) 一种基于差分隐私的数据异常检测方法
CN108959478A (zh) 一种云环境下的密文图像检索方法及系统
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
Ma et al. Parallel auto-encoder for efficient outlier detection
CN106209821A (zh) 基于可信云计算的信息安全大数据管理系统
Falakmasir et al. Utilizing Vector Space Models for Identifying Legal Factors from Text.
Nie et al. Empirical study of multi-level convolution models for ir based on representations and interactions
Diaz et al. Natural language-based integration of online review datasets for identification of sex trafficking businesses
CN107368516A (zh) 一种基于层次聚类的日志审计方法及装置
CN112883070A (zh) 一种带有差分隐私的生成式对抗网络推荐方法
Sujana et al. Rumor detection on Twitter using multiloss hierarchical BiLSTM with an attenuation factor
CN106203165A (zh) 基于可信云计算的信息大数据分析支撑方法
Li et al. Employing semantic context for sparse information extraction assessment
CN108519983A (zh) 一种基于潜层语义分析的安全的文档相似性计算方法和系统
Ait-Saada et al. How to leverage a multi-layered transformer language model for text clustering: an ensemble approach
Panfilo et al. A deep learning-based pipeline for the generation of synthetic tabular data
Gupta et al. A learning oriented DLP system based on classification model
CN109670304A (zh) 恶意代码家族属性的识别方法、装置及电子设备
Hatua et al. On the Feasibility of Using GANs for Claim Verification-Experiments and Analysis.
Zhang et al. An adaptive speech homomorphic encryption scheme based on energy in cloud storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180911

WD01 Invention patent application deemed withdrawn after publication