CN104239753A - 云存储环境下文本文档的篡改检测方法 - Google Patents

云存储环境下文本文档的篡改检测方法 Download PDF

Info

Publication number
CN104239753A
CN104239753A CN201410315438.9A CN201410315438A CN104239753A CN 104239753 A CN104239753 A CN 104239753A CN 201410315438 A CN201410315438 A CN 201410315438A CN 104239753 A CN104239753 A CN 104239753A
Authority
CN
China
Prior art keywords
fingerprint
text document
document
sentence
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410315438.9A
Other languages
English (en)
Other versions
CN104239753B (zh
Inventor
刘国华
王柠
卢婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
National Dong Hwa University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201410315438.9A priority Critical patent/CN104239753B/zh
Publication of CN104239753A publication Critical patent/CN104239753A/zh
Application granted granted Critical
Publication of CN104239753B publication Critical patent/CN104239753B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Abstract

本发明公开了云存储环境下文本文档的一种篡改检测方法,以及该方法的两种实施方案:云服务器端使用该方法和客户端使用该方法。篡改检测方法的执行过程是:首先分别对上传到云服务器端的文档与下载到客户端的文档计算若干个称为指纹的数字序列;然后,比对两次计算的文档指纹,如果二者相等,则表示文档没有被他人篡改过。否则,继续比对段落指纹及句子指纹,定位被篡改的具体句子。云服务器端使用此方法的实施步骤是:当文档上传到服务器端之后和下载到客户端之前,在云服务器端分别计算指纹,再比对两次计算的指纹。本发明能快速准确的为文档提供篡改检测,还能精确定位篡改位置。同时该方法给服务器端、客户端和网络带宽带来的负担较小。

Description

云存储环境下文本文档的篡改检测方法
技术领域
本发明涉及一种文本文档的篡改检测方法,尤其涉及一种检测存储在云服务器端的文本文档是否被他人篡改的方法。 
背景技术
随着互联网的飞速发展以及便携式上网设备(如:手机、笔记本、平板电脑等)的普及,人们对互联网在线服务的需求和依赖越来越强烈,而云存储作为一种以互联网为基础向用户提供在线存储的服务,受到了人们的广泛使用。用户无需了解云存储背后繁琐的技术细节,完全按需即用、按需即取。目前,市场上的云存储产品越来越丰富,如微软网盘SkyDrive、华为网盘DBank、奇虎360云盘、酷云CoolCloud等。这些产品的提供商为了消除用户对于存储在云端的数据是否被非法访问、是否被破坏等安全方面的顾虑,采取了大量的密码技术和加固技术来向用户提供可信任的安全云。但是,就用户而言,他们不仅需要防止云存储服务提供商(简称:提供商)外部网络黑客的恶意访问和破坏,更需要防止提供商内部人员的肆意篡改。 
现有的针对文本文档内容保护的方法主要有两种:一种是利用密码技术对明文实施各种变化,使它不为外人所理解;另一种是利用数字水印技术,在文档中潜入隐藏信息,使它不被外人所发现。 
密码技术,要求用户首先在客户端对文档内容进行加密,然后将加密的文档存储在云服务器端,自己保存密钥。当用户需要再次访问或编辑文档时,先将它下载到客户端解密,再进行相应的操作。但是该方法耗费客户端的CPU、内存等资源非常多,占用的网络带宽也非常大。更重要的是,加密技术很难判断出用户文档是否被篡改,更不用说,精确定位到篡改的具体句子。 
数字水印技术,要求用户在客户端先利用该技术在文档中潜入隐藏信息,然后将潜入了隐藏信息的文档上传到服务器端。用户在下载文档时,通过检测隐藏信息判断文档内容是否被篡改了。现有的文本数字水印技术携带隐藏信息的方式主要有:利用文本的字间距、行间距来嵌入水印信息;以标点信息编码、字符的字体编码来携带水印信息;改变部分字符笔划的长度或整个字符的高度来嵌入水印信息等。但是这些方法给用户带来的视觉上的影响较大、载体文件携带水印信 息的容量小,不适宜用户对文档进行二次编辑的需求。而且上述方法面临着文本数字水印的嵌入算法运行困难、鲁棒性差、水印信息检测困难等诸多问题。 
发明内容
本发明的目的是提供一种检测文本文档是否被篡改的方法。 
为了达到上述目的,本发明的一个技术方案是提供了一种计算文本文档的各粒度指纹的方法,各粒度指纹包括句子指纹、段落指纹及文档指纹,其特征在于,步骤为: 
步骤1、若当前文本文档为中文文本文档,则利用分词系统将中文文本文档中的各个中文词分割开,进入步骤2,若当前文本文档为外文文本文档,则直接进入步骤2; 
步骤2、对中文文本文档中的每个中文词或外文文本文档中的每个外文词编码; 
步骤3、利用每个中文词或每个外文词及其对应的编码计算得到中文文本文档或外文文本文档中每个句子的句子指纹,当且仅当两个句子中每个中文词或每个外文词及其位置相同时,两个句子的句子指纹相同; 
步骤4、利用句子指纹计算得到中文文本文档或外文文本文档中每段中文或每段外文的段落指纹,当且仅当两段中文或两段外文中每个中文词或每个外文词及其位置相同时,两段中文或两段外文的段落指纹相同; 
步骤5、利用段落指纹计算得到中文文本文档或外文文本文档的文档指纹,当且仅当两个中文文本文档或两个外文文本文档中每个中文词或每个外文词及其位置相同时,两个中文文本文档或两个外文文本文档的文档指纹相同。 
优选地,在所述步骤3中,利用Karp-Rabin哈希函数计算所述句子指纹;和/或在所述步骤4中,利用Karp-Rabin哈希函数计算所述段落指纹;和/或在所述步骤5中,利用Karp-Rabin哈希函数计算所述文档指纹。 
优选地,利用Karp-Rabin哈希函数计算所述句子指纹的公式为: 
Sentencefingerprint(W1W2...Wn)=(w12n-1+w22n-2+...+wn-121+wn)modp,式中,Wi为每个中文词或每个外文词,wi是中文词或外文词Wi的编码,p为一个足够大的随机素数; 
利用Karp-Rabin哈希函数计算所述段落指纹的公式为: 
Paragraphfingerprint(S1S2...Sm)=(s12m-1+s22m-2+...+sm-121+sm)mod p,式中,S1,S2,...,Sm是当前段落中的m个句子,si是句子Si的句子指纹; 
利用Karp-Rabin哈希函数计算所述文档指纹的公式为: 
Documentfingerprint(P1P2...Pq)=(p12q-1+p22q-2+...+pq-121+pq)modp,式中,P1,P1,...,Pq是当前中文文本文档或外文文本文档中的q个段落,pi是段落Pi的段落指纹。 
本发明的另一个技术方案是提供了一种采用上述的计算文本文档的各粒度指纹的方法的服务器端使用篡改检测方法,其特征在于,步骤为: 
第一步、用户将中文文本文档或外文文本文档从客户端上传到服务器端之后,使用上述的计算文本文档的各粒度指纹的方法计算生成当前中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹; 
第二步、计算完句子指纹、段落指纹及文档指纹之后,服务器将所有句子指纹、段落指纹及文档指纹发回给客户端,用户保存接收到的句子指纹、段落指纹及文档指纹; 
第三步、当用户访问在第一步中上传至服务器端的中文文本文档或外文文本文档时,先在服务器端利用上述的计算文本文档的各粒度指纹的方法重新计算该中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹,然后与用户保存的句子指纹、段落指纹及文档指纹比对,比对时,先比对文档指纹,若相同,则表示当前中文文本文档或外文文本文档没有被篡改,用户可以放心访问,否则,逐段比对段落指纹,找出不相同的段落指纹所对应的段落,这些段落为被篡改段落,再在每个被篡改段落中逐句比对句子指纹,找出不相同的句子指纹所对应的句子,从而定位至当前中文文本文档或外文文本文档中的哪些段落的哪些句子被篡改,通过客户端向用户提供篡改证据。 
优选地,在所述第三步后还包括: 
第四步、对于第三步中用户可以放心的中文文本文档或外文文本文档,若用户将其下载到客户端后进行了二次编辑,则将该二次编辑后的中文文本文档或外文文本文档再存储到服务器端后,使用上述的计算文本文档的各粒度指纹的方法重新计算生成当前中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹,并将其保存到客户端,用于下次检测。 
本发明的另一个技术方案是提供了一种采用上述的计算文本文档的各粒度指纹的方法的客户端使用篡改检测方法,其特征在于,步骤为: 
第一步、用户在客户端新建、编辑生成中文文本文档或外文文本文档后,在当前中文文本文档或外文文本文档上传到服务器端之前,使用如权利要求1所述的计算文本文档的各粒度指纹的方法计算当前中文文本文档或外文文本文档的文档指纹、段落指纹及句子指纹,并将它们保留在客户端; 
第二步、文档指纹、段落指纹及句子指纹存储后,用户将当前中文文本文档或外文文本文档上传到服务器端; 
第三步、当用户再次访问上传到服务器端的中文文本文档或外文文本文档时,先将它下载到客户端,利用上述的计算文本文档的各粒度指纹的方法计算该中文文本文档或外文文本文档的文档指纹、段落指纹及句子指纹,然后与客户端保存的文档指纹、段落指纹及句子指纹比对,比对时,先比对文档指纹,若相同,则表示当前中文文本文档或外文文本文档没有被篡改,用户可以放心访问,否则,逐段比对段落指纹,找出不相同的段落指纹所对应的段落,这些段落为被篡改段落,再在每个被篡改段落中逐句比对句子指纹,找出不相同的句子指纹所对应的句子,从而定位至当前中文文本文档或外文文本文档中的哪些段落的哪些句子被篡改。 
优选地,在所述第三步后还包括: 
第四步、对于第三步中用户可以放心的中文文本文档或外文文本文档,若用户将其下载到客户端后进行了二次编辑,则使用上述的计算文本文档的各粒度指纹的方法重新计算生成当前中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹,并将其保存到客户端,用于下次检测后,再将当前中文文本文档或外文文本文档上传至服务器端。 
本发明的工作原理是:分别对上传到服务器端的文本文档与下载到客户端的文本文档,计算它们的各粒度指纹,包括:文档指纹、段落指纹和句子指纹。利用指纹的唯一性,判断出存储在服务器端的文本文档是否被他人篡改过。详细的说,在篡改检测的过程中,为了节省时间和提高效率,本发明先比对文档指纹,如果文档指纹相等,则表示整篇文档没有被他人篡改过。否则,继续比对段落指纹。找出对应指纹不同的段落,再逐句比对段落中的句子指纹,定位到被篡改的 具体句子,提供篡改证据。 
鉴于文本文档具有信息涵盖量大、容易被篡改,并且篡改后不易被察觉的特点,以及它在云存储服务器端(简称:服务器端)反复存储和读取,在用户所处的客户端(简称:客户端)反复编辑的需求,本发明提出一种检测文本文档是否被篡改的方法。该方法确保了用户知晓,他存储在云服务器端的文本文档是否被他人篡改了。如果被篡改了,该方法能够对篡改的位置精确定位,找出篡改证据。因此,本发明实现了在云存储环境下对文本文档内容的安全检测,维护了用户的权益。从约束篡改行为方面分析,该方法也起到了一定的预防作用。 
本发明的有益效果体现在以下几个方面: 
1.通过篡改检测方法的两种实施方案:云服务器使用篡改检测方法和客户端使用篡改检测方法,保障了云存储环境下用户数据的安全,维护了用户的权益。 
2.通过篡改检测方法,一旦发现用户文档被他人篡改了,该方法可以精确定位到被篡改的具体句子,为用户提供有利的篡改证据。 
3.在篡改检测方法中,计算文档的各粒度指纹所耗费的时间,以及计算生成的指纹数目,都与文档中的句子个数有关。由于在一篇文档中句子个数是有限的,且数目不大,因此指纹的计算时间便非常快。所以,本发明提供的篡改检测方法为服务器端或客户端带来的计算资源的耗费完全可以忽略。 
4.在服务器端使用篡改检测方法的方案中,由于一篇文档的指纹个数是有限的,且数目不大,所以在服务器端与客户端之间传输指纹的过程中,不会为网络带宽带来负担。 
5.在篡改检测方法中,因为计算出一篇文档的指纹数目不大,从而客户端存储指纹所耗费的存储空间也非常小,所以存储指纹为客户端带来的存储负担完全可以忽略不计。 
附图说明
图1a是服务器端使用篡改检测方法中用户存储文档过程的体系结构图; 
图1b是服务器端使用篡改检测方法中用户读取文档过程的体系结构图; 
图2a是客户端使用篡改检测方法中用户存储文档过程的体系结构图; 
图2b是客户端使用篡改检测方法中用户读取文档过程的体系结构图; 
图3a是计算指纹预处理执行过程的示例图; 
图3b是计算句子指纹和段落指纹执行过程的示例图1; 
图3c是计算句子指纹和段落指纹执行过程的示例图2; 
图3d是计算文档指纹执行过程的示例图; 
图4是一篇文档的指纹表示示例图; 
图5是比对指纹模块执行过程的示例图; 
图6是比对“指纹①”与“指纹②”的具体过程的示例图。 
具体实施方式
本发明给出了篡改检测方法的二种实施方案。实施方案一是服务器端使用篡改检测方法,实施方案二是客户端使用篡改检测方法。具体说明如下。 
实施方案一:图1是服务器端使用篡改检测方法的体系结构图,它包括两个子图,图1a和图1b。其中,图1a是当用户向服务器端存储文档时使用篡改检测方法的体系结构图,图1b是当用户从服务器端读取文档时使用篡改检测方法的体系结构图。 
结合图1说明,本方案包括三个实体:用户1-1,客户端1-2,服务器1-3。用户1-1可以在客户端1-2实现以下操作:新建文档1-4,编辑文档1-5,将文档和指纹暂时保存在临时文件系统1-6中,通过浏览器1-7访问服务器1-3。具体的说,浏览器1-7是用户1-1在客户端1-2访问服务器1-3的媒介。服务器1-3除了为用户提供辅助存储空间即云盘1-8以外,还提供篡改检测方法1-9。其中,篡改检测方法1-9具体包括两个模块:计算指纹模块1-10和比对指纹模块1-11。 
本方案的具体实施方式如下: 
结合图1a说明。首先,用户1-1在客户端1-2新建1-4和编辑1-5一篇文档,完成之后将文档暂时保存在临时文件系统1-6中。然后,用户1-1再利用浏览器1-7从1-6中取出文档上传给服务器1-3,存储在云盘1-8中。最后,计算指纹模块1-10计算该文档的指纹,记为“指纹①”,并将它返回客户端1-2处,存储在临时文件系统1-6中。 
结合图1b说明。当用户1-1需要读取文档时,先通过浏览器1-7访问云盘1-8中的文档,计算指纹模块1-10再次计算该文档的指纹,记为“指纹②”,并把它提交给比对指纹模块1-11。然后,用户1-1通过浏览器1-7将临时文件系统1-6中的“指纹①”发送给比对指纹模块1-11。最后,1-11通过比较“指纹①” 与“指纹②”,检测文档是否被篡改,并将检测结果result返回客户端1-2,通过浏览器1-7呈现给用户1-1。这时,如果用户1-1希望下载文档,也可以通过浏览器1-7访问云盘1-8,把它下载到临时文件系统1-6中,再对它进行二次编辑。 
实施方案二:图2是客户端使用篡改检测方法的体系结构图,它包括2个子图,图2a和图2b。其中,图2a是当用户存储文档时使用篡改检测方法的体系结构图,图2b是当用户读取文档时使用篡改检测方法的体系结构图。 
结合图2说明,本方案同样包括三个实体:用户2-1,客户端2-2,服务器2-3。用户2-1可以在客户端2-2实现以下操作:新建文档2-4,编辑文档2-5,在临时文件系统2-6中存储文档和指纹文件,通过浏览器2-7访问服务器2-3,使用篡改检测方法2-9计算指纹模块2-10和比对指纹模块2-11。服务器2-3为用户提供辅助存储空间即云盘2-8。 
本方案的具体实施方式如下: 
结合图2a说明。首先,用户2-1在客户端2-2新建2-4和编辑2-5一篇文档,之后将它暂时保存在临时文件系统2-6中。然后,计算指纹模块2-10计算该文档的指纹,记为“指纹①”,并同样将“指纹①”保存在临时文件系统2-6中。最后,用户2-1通过浏览器2-7取出该文档上传给服务器2-3,存储在云盘2-8中。 
结合图2b说明,当用户2-1需要访问云盘2-8中的文档时,首先通过浏览器2-7将文档下载到临时文件系统2-6中。然后,计算指纹模块2-10计算该文档的指纹(1),记为“指纹②”。并把它发送给比对指纹模块2-11。用户2-1再通过浏览器2-7去临时文件系统2-6中取出“指纹①”提交给比对指纹模块2-11。最后,2-11通过比较“指纹①”与“指纹②”,检测文档是否被篡改,并将检测结果result通过浏览器2-7呈现给用户2-1。这时,用户2-1可以对该文档进行二次编辑(2)。 
分析上述两种方案可知,不管是服务器端使用篡改检测方法,还是客户端使用篡改检测方法,计算指纹模块和比对指纹模块是本发明的关键。下面给出它们的具体实施方案。 
1.计算指纹模块。该模块的目标是计算文档的各粒度指纹,具体包括以下五个步骤。 
(1)分词。本发明采用的分词系统是中科院开发的汉语词法分析系统ICTCLAS3.0,该系统分词正确率高达97.58%,分词精度98.45%,单机分词速度最快为996KB/S,API小于200KB,各种词典数据压缩后小于3MB。特别说明的是,分词只限于处理文档中的中文文本,而对于英文文本,跳过此步骤,直接执行第(2)步。这是因为英文的词与词之间有明显的分割标志。 
(2)词语编码。本发明采用的是Unicode编码,该编码为各种语言(包括:英语、汉语、日语、法语、西班牙语等)中的每个字符设定了统一并且唯一的二进制编码,它解决传统字符编码方案的局限性,满足跨语言、跨平台进行文本转换和处理的需求,在国际上得到广泛的应用。 
(3)计算句子指纹。本发明利用Karp-Rabin哈希函数计算句子指纹,计算公式表示如下: 
Sentencefingerprint(W1W2...Wn)=(w12n-1+w22n-2+...+wn-121+wn)modp  (1.1) 
其中,Wi为经过分词处理后在句子中切分出来的词,wi是词Wi的编码,p为一个足够大的随机素数。 
(4)计算段落指纹。把第(3)步中计算的句子指纹作为输入,再次利用Karp-Rabin哈希函数计算段落指纹,计算公式表示如下: 
Paragraphfingerprint(S1S2...Sm)=(s12m-1+s22m-2+...+sm-121+sm)modp  (1.2) 
其中,S1,S2,...,Sm是段落中的m个句子,si是由公式(1.1)计算得到的句子指纹。 
(5)计算文档指纹。把第(4)步中计算的段落指纹作为输入,再次利用Karp-Rabin哈希函数计算文档指纹,计算公式表示如下: 
Documentfingerprint(P1P2...Pq)=(p12q-1+p22q-2+...+Pq-121+Pq)modp  (1.3) 
其中,P1,P2,...,Pq是文档中的q个段落,pi是由公式(1.2)计算得到的段落指纹。 
下面通过具体案例(如图3所示)进一步阐述计算指纹模块的具体实现。其中步骤(1)~(2)属于计算指纹的准备工作,即预处理工作,如图3a所示。步骤(3)~(5)属于计算指纹工作,如图3b、3c和3d所示。 
结合图3a说明。3-1是用户创建并编辑的一篇文档,长度为二段,共五句。 计算指纹模块的目标就是计算该文档的各粒度指纹。首先,利用ICTCLAS3.0系统对该文档的文本内容进行分词,3-2是分词之后的结果。然后,利用Unicode编码函数将每一个词语转换为它的Unicode码,3-3是对词语编码之后的结果。下面开始计算指纹。 
结合图3b说明。计算指纹是按照句子、段落、文档的顺序依次计算。以第1段3-4为例,首先计算第1段中两个句子的指纹,根据句子指纹的计算公式(1.1),给出第1句和第2句的句子指纹计算表达式3-5,得出句子指纹的计算结果3-6。然后,再根据段落指纹的计算公式(1.2),给出第1段的段落指纹的计算表达式3-7。最后,得出第1段的段落指纹3-8。 
同理,文档3-1的第2段的各粒度指纹计算结果如图3c所示。3-9是对第2段词语编码之后的结果,3-10是句子指纹计算结果,3-11是段落指纹计算结果。 
计算文档3-1的文档指纹的过程如图3d所示。3-12是文档3-1的段落指纹,根据公式(1.3),给出文档指纹的计算表达式3-13,得出文档指纹3-14。 
2.比对各粒度指纹 
(1)指纹表示 
文档指纹是一个整数D;段落指纹是一个m维行向量(列向量亦可),表示为: 
P=(p1 p2 … pm)T    (1.4) 
其中,pi表示第i段的指纹。句子指纹向量表示为: 
S = s 1 s 2 · · · s m = s 11 s 12 · · · s 1 n s 21 s 22 · · · s 2 n · · · · · · · · · · · · s m 1 s m 2 · · · s mn - - - ( 1.5 )
si表示第i段的句子指纹向量,sij为si的分量,即第i段第j句的句子指纹。 
图4表示了文档3-1的各粒度指纹。其中文档指纹是4-1,段落指纹是4-2,句子指纹是4-3。 
(2)比对指纹 
定义:设Θ是定义在实数集合上的二元运算,对于实数集合M中任意元素m和实数集合N中任意元素n,当m=n时,mΘn=1,当m≠n时,mΘn=0,称Θ是实数集合上的比对运算。 
下面给出比对指纹的具体算法如下: 
算法:比对指纹算法。 
输入:待检测的文档a,已经计算过的文档a的篇指纹D,段落指纹 
P=(p1 p2 … pm),句子指纹S; 
输出:详细的检测结果。 
具体步骤为: 
步骤1:对待检测文本分词,抽取篇指纹Q、段落指纹R=(ri r2 … rm)T和句子指纹N; 
步骤2:如果AΘQ为1则转到步骤6,否则进入步骤4;/*文本数据没有被篡改是所有者的原始数据*/ 
步骤4: RΘP = r 1 r 2 · · · r n Θ p 1 p 2 · · · p m = r 1 Θ p 1 p 2 · · · p m r 2 Θ p 1 p 2 · · · p m · · · r n Θ p 1 p 2 · · · p m 定位被篡改数据的段落位置ri、rj...rk和pi、pj...pn; 
/*其中,riΘ(p1 p2 … pm)的运算结果是每个元素由m位二进制数字组成的矩阵序列,0代表在此位置不匹配,1代表在此位置匹配,最终检测结果为n个m位的二进制数。若riΘpj=1,但i≠j,记录i、j的值(文本的段落顺序被调整),将R和P中对应比较结果值为1的段落去掉,这样就大大减少了系统的计算时间,下面将进行句子指纹矩阵的运算*/ 
步骤5:检测对应ri、rj...rk的句子指纹 n 1 n j · · · n k Θ s j s j · · · s n , 定位被篡改句子的位置nim,njs...nkp; 
步骤6:返回检测结果的具体信息。 
下面通过具体案例进一步阐述比对指纹模块的具体实现。结合图5说明。5-1是文档3-1存储在服务器端被篡改之后的文档,5-2是文档5-1的指纹,即“指纹②”。假设图4是文档3-1的“指纹①”。比对“指纹①”与“指纹②”的具体过程如图6所示。首先比对文档指纹6-1,由于两次计算的文档指纹不同,因此 确定文档被篡改了。为了定位篡改位置,继续比对段落指纹6-2,根据比对结果,得知第2段被篡改了。下面进一步比对第2段的句子指纹6-3,确定出第3句被篡改了。所以得出结论:文档的第2段第3句被篡改。 

Claims (7)

1.一种计算文本文档的各粒度指纹的方法,各粒度指纹包括句子指纹、段落指纹及文档指纹,其特征在于,步骤为:
步骤1、若当前文本文档为中文文本文档,则利用分词系统将中文文本文档中的各个中文词分割开,进入步骤2,若当前文本文档为外文文本文档,则直接进入步骤2;
步骤2、对中文文本文档中的每个中文词或外文文本文档中的每个外文词编码;
步骤3、利用每个中文词或每个外文词及其对应的编码计算得到中文文本文档或外文文本文档中每个句子的句子指纹,当且仅当两个句子中每个中文词或每个外文词及其位置相同时,两个句子的句子指纹相同;
步骤4、利用句子指纹计算得到中文文本文档或外文文本文档中每段中文或每段外文的段落指纹,当且仅当两段中文或两段外文中每个中文词或每个外文词及其位置相同时,两段中文或两段外文的段落指纹相同;
步骤5、利用段落指纹计算得到中文文本文档或外文文本文档的文档指纹,当且仅当两个中文文本文档或两个外文文本文档中每个中文词或每个外文词及其位置相同时,两个中文文本文档或两个外文文本文档的文档指纹相同。
2.如权利要求1所述的一种计算文本文档的各粒度指纹的方法,其特征在于,在所述步骤3中,利用Karp-Rabin哈希函数计算所述句子指纹;和/或在所述步骤4中,利用Karp-Rabin哈希函数计算所述段落指纹;和/或在所述步骤5中,利用Karp-Rabin哈希函数计算所述文档指纹。
3.如权利要求2所述的一种计算文本文档的各粒度指纹的方法,其特征在于,利用Karp-Rabin哈希函数计算所述句子指纹的公式为:
Sentencefingerprint(W1W2...Wn)=(w12n-1+w22n-2+...+wn-121+wn)modp,式中,Wi为每个中文词或每个外文词,wi是中文词或外文词Wi的编码,p为一个足够大的随机素数;
利用Karp-Rabin哈希函数计算所述段落指纹的公式为:
Paragraphfingerprinr(S1S2...Sm)=(s12m-1+s22m-2+...+sm-121+sm)modp,式中,S1,S2,...,Sm是当前段落中的m个句子,si是句子Si的句子指纹;
利用Karp-Rabin哈希函数计算所述文档指纹的公式为:
Documentfingerprint(P1P2...Pq)=(p12q-1+p22q-2+...+pq-121+pq)modp,式中,P1,P2,...,Pq是当前中文文本文档或外文文本文档中的q个段落,pi是段落Pi的段落指纹。
4.一种采用如权利要求1所述的计算文本文档的各粒度指纹的方法的服务器端使用篡改检测方法,其特征在于,步骤为:
第一步、用户将中文文本文档或外文文本文档从客户端上传到服务器端之后,使用如权利要求1所述的计算文本文档的各粒度指纹的方法计算生成当前中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹;
第二步、计算完句子指纹、段落指纹及文档指纹之后,服务器将所有句子指纹、段落指纹及文档指纹发回给客户端,用户保存接收到的句子指纹、段落指纹及文档指纹;
第三步、当用户访问在第一步中上传至服务器端的中文文本文档或外文文本文档时,先在服务器端利用如权利要求1所述的计算文本文档的各粒度指纹的方法重新计算该中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹,然后与用户保存的句子指纹、段落指纹及文档指纹比对,比对时,先比对文档指纹,若相同,则表示当前中文文本文档或外文文本文档没有被篡改,用户可以放心访问,否则,逐段比对段落指纹,找出不相同的段落指纹所对应的段落,这些段落为被篡改段落,再在每个被篡改段落中逐句比对句子指纹,找出不相同的句子指纹所对应的句子,从而定位至当前中文文本文档或外文文本文档中的哪些段落的哪些句子被篡改,通过客户端向用户提供篡改证据。
5.如权利要求4所述的一种服务器端使用篡改检测方法,其特征在于,在所述第三步后还包括:
第四步、对于第三步中用户可以放心的中文文本文档或外文文本文档,若用户将其下载到客户端后进行了二次编辑,则将该二次编辑后的中文文本文档或外文文本文档再存储到服务器端后,使用如权利要求1所述的计算文本文档的各粒度指纹的方法重新计算生成当前中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹,并将其保存到客户端,用于下次检测。
6.一种采用如权利要求1所述的计算文本文档的各粒度指纹的方法的客户端使用篡改检测方法,其特征在于,步骤为:
第一步、用户在客户端新建、编辑生成中文文本文档或外文文本文档后,在当前中文文本文档或外文文本文档上传到服务器端之前,使用如权利要求1所述的计算文本文档的各粒度指纹的方法计算当前中文文本文档或外文文本文档的文档指纹、段落指纹及句子指纹,并将它们保留在客户端;
第二步、文档指纹、段落指纹及句子指纹存储后,用户将当前中文文本文档或外文文本文档上传到服务器端;
第三步、当用户再次访问上传到服务器端的中文文本文档或外文文本文档时,先将它下载到客户端,利用如权利要求1所述的计算文本文档的各粒度指纹的方法计算该中文文本文档或外文文本文档的文档指纹、段落指纹及句子指纹,然后与客户端保存的文档指纹、段落指纹及句子指纹比对,比对时,先比对文档指纹,若相同,则表示当前中文文本文档或外文文本文档没有被篡改,用户可以放心访问,否则,逐段比对段落指纹,找出不相同的段落指纹所对应的段落,这些段落为被篡改段落,再在每个被篡改段落中逐句比对句子指纹,找出不相同的句子指纹所对应的句子,从而定位至当前中文文本文档或外文文本文档中的哪些段落的哪些句子被篡改。
7.如权利要求6所述的一种客户端使用篡改检测方法,其特征在于,在所述第三步后还包括:
第四步、对于第三步中用户可以放心的中文文本文档或外文文本文档,若用户将其下载到客户端后进行了二次编辑,则使用如权利要求1所述的计算文本文档的各粒度指纹的方法重新计算生成当前中文文本文档或外文文本文档的句子指纹、段落指纹及文档指纹,并将其保存到客户端,用于下次检测后,再将当前中文文本文档或外文文本文档上传至服务器端。
CN201410315438.9A 2014-07-03 2014-07-03 云存储环境下文本文档的篡改检测方法 Expired - Fee Related CN104239753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410315438.9A CN104239753B (zh) 2014-07-03 2014-07-03 云存储环境下文本文档的篡改检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410315438.9A CN104239753B (zh) 2014-07-03 2014-07-03 云存储环境下文本文档的篡改检测方法

Publications (2)

Publication Number Publication Date
CN104239753A true CN104239753A (zh) 2014-12-24
CN104239753B CN104239753B (zh) 2017-05-03

Family

ID=52227800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410315438.9A Expired - Fee Related CN104239753B (zh) 2014-07-03 2014-07-03 云存储环境下文本文档的篡改检测方法

Country Status (1)

Country Link
CN (1) CN104239753B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615681A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 文本选取方法及装置
CN110019640A (zh) * 2017-07-25 2019-07-16 杭州盈高科技有限公司 涉密文件检查方法及装置
CN111191436A (zh) * 2020-01-03 2020-05-22 北大方正集团有限公司 版式文档的比对方法、装置、设备及计算机存储介质
CN111539028A (zh) * 2020-04-23 2020-08-14 周婷 档案存储方法、装置、存储介质及电子设备
CN111753505A (zh) * 2019-09-30 2020-10-09 北京沃东天骏信息技术有限公司 一种文档处理方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684115A (zh) * 2004-10-18 2005-10-19 刘�东 基于字符拓扑结构的文本数字水印技术
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN102902929A (zh) * 2012-08-10 2013-01-30 西北大学 自然语言水印鲁棒性测试方法及其系统
CN103049682A (zh) * 2013-01-28 2013-04-17 上海理工大学 一种基于字符间距编码的双重水印嵌入的文本水印方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684115A (zh) * 2004-10-18 2005-10-19 刘�东 基于字符拓扑结构的文本数字水印技术
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN102902929A (zh) * 2012-08-10 2013-01-30 西北大学 自然语言水印鲁棒性测试方法及其系统
CN103049682A (zh) * 2013-01-28 2013-04-17 上海理工大学 一种基于字符间距编码的双重水印嵌入的文本水印方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615681A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 文本选取方法及装置
CN110019640A (zh) * 2017-07-25 2019-07-16 杭州盈高科技有限公司 涉密文件检查方法及装置
CN110019640B (zh) * 2017-07-25 2021-02-23 杭州盈高科技有限公司 涉密文件检查方法及装置
CN111753505A (zh) * 2019-09-30 2020-10-09 北京沃东天骏信息技术有限公司 一种文档处理方法、装置、服务器及存储介质
CN111191436A (zh) * 2020-01-03 2020-05-22 北大方正集团有限公司 版式文档的比对方法、装置、设备及计算机存储介质
CN111539028A (zh) * 2020-04-23 2020-08-14 周婷 档案存储方法、装置、存储介质及电子设备
CN111539028B (zh) * 2020-04-23 2023-05-12 国网浙江省电力有限公司物资分公司 档案存储方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN104239753B (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
US11151177B2 (en) Search method and apparatus based on artificial intelligence
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
Chen et al. Coverless information hiding method based on the Chinese mathematical expression
CN104239753A (zh) 云存储环境下文本文档的篡改检测方法
JP5735539B2 (ja) ネットワークを介して送信されるデータの暗号化および復号化システム、装置、および方法
CN110532381B (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN104615767A (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN110851481B (zh) 一种可搜索加密方法、装置、设备及可读存储介质
CN109992978B (zh) 信息的传输方法、装置及存储介质
CN109783667B (zh) 一种图像存储和检索的方法、客户端及系统
CN103543980B (zh) 数字数据处理的方法及装置
CN110019640B (zh) 涉密文件检查方法及装置
CN111553148A (zh) 标签建立方法、装置、电子设备及介质
CN111198967A (zh) 基于关系图谱的用户分组方法、装置及电子设备
CN113810375B (zh) webshell检测方法、装置、设备及可读存储介质
CN113626645B (zh) 分级优化的高效密文模糊检索方法及相关设备
CN112436943A (zh) 基于大数据的请求去重方法、装置、设备及存储介质
CN115001659A (zh) 网页数据加密方法、装置、设备及存储介质
CN115268799A (zh) 一种基于云服务的存储方法和装置
CN112507388B (zh) 基于隐私保护的word2vec模型训练方法、装置及系统
CN112052409B (zh) 地址解析方法、装置、设备及介质
CN112182603B (zh) 反爬虫方法和装置
US9646171B2 (en) Method and apparatus for correctly binding form objects to encrypted XML data
CN115758368B (zh) 恶意破解软件的预测方法、装置、电子设备和存储介质
EP3018647B1 (en) Fake information based on n-gram randomizations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170503

Termination date: 20200703

CF01 Termination of patent right due to non-payment of annual fee