CN115292438A - 一种电子文档的存储方法和系统 - Google Patents
一种电子文档的存储方法和系统 Download PDFInfo
- Publication number
- CN115292438A CN115292438A CN202211233411.6A CN202211233411A CN115292438A CN 115292438 A CN115292438 A CN 115292438A CN 202211233411 A CN202211233411 A CN 202211233411A CN 115292438 A CN115292438 A CN 115292438A
- Authority
- CN
- China
- Prior art keywords
- document
- index
- electronic
- electronic document
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于数据存储技术领域,提供了一种电子文档的存储方法和系统,包括以下步骤:接收电子文档存储指令,查验电子文档中是否存在特殊标记;当不存在特殊标记时,直接对电子文档进行存储;当存在特殊标记时,执行下一步骤;根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,执行下一步骤;根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。通过索引信息和差异信息就能够得到电子文档的全部内容,使用索引信息和差异信息来替代电子文档,大幅度降低了所需存储空间。
Description
技术领域
本发明涉及数据存储技术领域,具体是涉及一种电子文档的存储方法和系统。
背景技术
随着云端服务器的广泛应用,越来越多的用户将电子文档数据储存在云端服务器中,这样即使本地终端中储存的文档数据发生损坏和丢失,也能够找到,对于大型企业或者工厂而言,都会建立自己的存储服务器,这样能够保证企业内部数据的安全性,整个企业的工作数据全部存储在服务器中,目前基本没有对员工上传的工作数据进行优化就直接存储,这对存储空间的要求较高,因此,需要提供一种电子文档的存储方法和系统,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种电子文档的存储方法和系统,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种电子文档的存储方法,所述方法包括以下步骤:
接收电子文档存储指令,查验电子文档中是否存在特殊标记;
当不存在特殊标记时,直接对电子文档进行存储;当存在特殊标记时,执行下一步骤;
根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,执行下一步骤;
根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。
作为本发明进一步的方案:所述方法还包括:
接收电子文档下载指令,根据电子文档下载指令访问待下载的原文档,所述原文档储存在服务器中;
对下载的电子文档和原文档均进行特殊标记,下载的电子文档储存在用户终端中,所述原文档为所述电子文档的索引文档,所述特殊标记是随机生成的唯一标记。
作为本发明进一步的方案:所述根据特殊标记确定已经储存的索引文档的步骤,具体包括:
根据特殊标记进行索引文档的查询;
当不能够查询到索引文档,直接对电子文档进行存储;当能够查询到索引文档,调取索引文档的二进制代码和电子文档的二进制代码。
作为本发明进一步的方案:所述根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储的步骤,具体包括:
确定索引文档的二进制代码和电子文档的二进制代码之间的重叠部分,计算索引文档与电子文档之间的相似度,相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数;
当相似度小于设定相似值时,不需要进行优化存储,否则需要进行优化存储。
作为本发明进一步的方案:所述根据索引文档和电子文档生成索引信息和差异信息的步骤,具体包括:
根据索引文档的存储位置生成索引信息;
根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分,通过差异信息能够将索引文档的二进制代码转变为电子文档的二进制代码。
本发明的另一目的在于提供一种电子文档的存储系统,所述系统包括:
存储指令接收模块,用于接收电子文档存储指令,查验电子文档中是否存在特殊标记;
特殊标记判定模块,当不存在特殊标记时,直接对电子文档进行存储;当存在特殊标记时,执行相似度判定模块中的步骤;
相似度判定模块,用于根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,执行信息绑定存储模块中的步骤;
信息绑定存储模块,用于根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。
作为本发明进一步的方案:所述系统还包括下载指令接收模块,下载指令接收模块具体包括:
下载指令接收单元,用于接收电子文档下载指令,根据电子文档下载指令访问待下载的原文档,所述原文档储存在服务器中;
特殊标记单元,用于对下载的电子文档和原文档均进行特殊标记,下载的电子文档储存在用户终端中,所述原文档为所述电子文档的索引文档,所述特殊标记是随机生成的唯一标记。
作为本发明进一步的方案:所述相似度判定模块包括:
索引文档查询单元,用于根据特殊标记进行索引文档的查询;
查询结果判定单元,当不能够查询到索引文档,直接对电子文档进行存储;当能够查询到索引文档,调取索引文档的二进制代码和电子文档的二进制代码。
作为本发明进一步的方案:所述相似度判定模块还包括:
相似度计算单元,用于确定索引文档的二进制代码和电子文档的二进制代码之间的重叠部分,计算索引文档与电子文档之间的相似度,相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数;
优化存储确定单元,当相似度小于设定相似值时,不需要进行优化存储,否则需要进行优化存储。
作为本发明进一步的方案:所述信息绑定存储模块包括:
索引信息生成单元,用于根据索引文档的存储位置生成索引信息;
差异信息生成单元,用于根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分,通过差异信息能够将索引文档的二进制代码转变为电子文档的二进制代码。
与现有技术相比,本发明的有益效果是:
如果要存储的电子文档存在特殊标记时,本发明会根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。索引信息能够反映的索引文档的存储位置,差异信息能够反映索引文档和电子文档的差异点,如此,通过索引信息和差异信息就能够得到电子文档的全部内容,且电子文档与索引文档的相同部分直接通过索引信息得到,无需进行二次存储,使用索引信息和差异信息来替代电子文档,大幅度降低了所需存储空间。
附图说明
图1为一种电子文档的存储方法的流程图。
图2为一种电子文档的存储方法中对下载的电子文档和原文档均进行特殊标记的流程图。
图3为一种电子文档的存储方法中根据特殊标记确定已经储存的索引文档的流程图。
图4为一种电子文档的存储方法中根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储的流程图。
图5为一种电子文档的存储方法中根据索引文档和电子文档生成索引信息和差异信息的流程图。
图6为一种电子文档的存储系统的结构示意图。
图7为一种电子文档的存储系统中下载指令接收模块的结构示意图。
图8为一种电子文档的存储系统中相似度判定模块的结构示意图。
图9为一种电子文档的存储系统中信息绑定存储模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1和图2所示,本发明实施例提供了一种电子文档的存储方法,所述方法包括以下步骤:
S100,接收电子文档存储指令,查验电子文档中是否存在特殊标记;
S200,当不存在特殊标记时,直接对电子文档进行存储;当存在特殊标记时,执行下一步骤;
S300,根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,执行下一步骤;
S400,根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。
需要说明的是,越来越多的用户将电子文档数据储存在云端服务器中,这样即使本地终端中储存的文档数据发生损坏和丢失,也能够找到,对于大型企业或者工厂而言,都会建立自己的存储服务器,这样能够保证企业内部数据的安全性,整个企业的工作数据全部存储在服务器中,目前基本没有对员工上传的工作数据进行优化就直接存储,这对存储空间的要求较高,本发明实施例旨在解决上述问题。
本发明实施例中,包含一个存储服务器,用户可以从存储服务器中下载文档,也可以上传文档至存储服务器中进行存储,当从所述存储服务器下载文档时,执行下述步骤:
S011,接收电子文档下载指令,根据电子文档下载指令访问待下载的原文档,所述原文档储存在服务器中;
S012,对下载的电子文档和原文档均进行特殊标记,下载的电子文档储存在用户终端中,所述原文档为所述电子文档的索引文档,所述特殊标记是随机生成的唯一标记。
也就是说,只要在本存储服务器中下载的电子文档,就会有特殊标记,且特殊标记是唯一的,方便进行追溯,具体的,每当有电子文档上传至本存储服务器时,都会随机生成一串唯一的水印码,将水印码标识在电子文档的首页,水印码就是一种特殊标记。当用户需要上传电子文档至本存储服务器中进行存储时,直接输入电子文档存储指令,本发明实施例会自动查验电子文档中是否存在特殊标记,也就是说会验证所述电子文档是否在本存储服务器中下载得到的,需要说明的是,很多电子文档都是从存储服务器下载后,进行个性化修改后又上传的,编辑修改内容较少的话,存储服务器中就会存在大量高度相似的电子文档,本发明实施例旨在对这些高度相似的电子文档进行优化存储,降低占用空间。查验后,如果不存在特殊标记时,则说明电子文档的来源不是本存储服务器,直接对电子文档进行存储;如果存在特殊标记时,则说明电子文档的来源就是本存储服务器,接着根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,容易理解,如果电子文档相比索引文档改动较大,相似度较低,就不需要进行优化存储,直接对电子文档进行存储;如果电子文档相比索引文档改动较小,相似度较低,就需要进行优化存储,此时会根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储,索引信息能够反映的索引文档的存储位置,差异信息能够反映索引文档和电子文档的差异点,如此,通过索引信息和差异信息就能够得到电子文档的全部内容,且电子文档与索引文档的相同部分直接通过索引信息得到,无需进行二次存储,大幅度降低了所需存储空间。
如图3所示,作为本发明一个优选的实施例,所述根据特殊标记确定已经储存的索引文档的步骤,具体包括:
S301,根据特殊标记进行索引文档的查询;
S302,当不能够查询到索引文档,直接对电子文档进行存储;当能够查询到索引文档,调取索引文档的二进制代码和电子文档的二进制代码。
本发明实施例中,因为对下载的电子文档和原文档均进行了特殊标记,原文档为所述电子文档的索引文档,且特殊标记是唯一的,所以理论上可以根据特殊标记查询得到唯一的索引文档,但是,当不能够查询到索引文档,说明索引文档被删除了,就不会出现二次存储的情况,那么直接对电子文档进行存储即可;当然,能够查询到索引文档时,直接调取索引文档的二进制代码和电子文档的二进制代码,方便进行后续的相似度计算。
如图4所示,作为本发明一个优选的实施例,所述根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储的步骤,具体包括:
S303,确定索引文档的二进制代码和电子文档的二进制代码之间的重叠部分,计算索引文档与电子文档之间的相似度,相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数;
S304,当相似度小于设定相似值时,不需要进行优化存储,否则需要进行优化存储。
本发明实施例中,通过比较索引文档的二进制代码和电子文档的二进制代码,可以快速确定重叠部分,重叠部分就是用户下载电子文件后未进行修改的部分,重叠部分确定后,计算索引文档与电子文档之间的相似度,所述相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数,如果相似度小于设定相似值时,不需要进行优化存储,如果相似度大于或者等于设定相似值时,则需要进行优化存储,所述设定相似值为提前设置的定值,管理员可以根据需求自行设定。
如图5所示,作为本发明一个优选的实施例,所述根据索引文档和电子文档生成索引信息和差异信息的步骤,具体包括:
S401,根据索引文档的存储位置生成索引信息;
S402,根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分。
本发明实施例中,所述索引信息其实就是索引文档的存储位置信息,根据索引信息能够直接快速的调取索引文档,因此索引信息占用的存储空间极低,另外还需要根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分,通过差异信息能够将索引文档的二进制代码转变为电子文档的二进制代码,如此,根据索引信息和差异信息就能够得到完整的电子文档了。
如图6所示,本发明实施例还提供了一种电子文档的存储系统,所述系统包括:
存储指令接收模块100,用于接收电子文档存储指令,查验电子文档中是否存在特殊标记;
特殊标记判定模块200,当不存在特殊标记时,直接对电子文档进行存储;当存在特殊标记时,执行相似度判定模块300中的步骤;
相似度判定模块300,用于根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,执行信息绑定存储模块400中的步骤;
信息绑定存储模块400,用于根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。
如图7所示,作为本发明一个优选的实施例,所述系统还包括下载指令接收模块010,下载指令接收模块010具体包括:
下载指令接收单元011,用于接收电子文档下载指令,根据电子文档下载指令访问待下载的原文档,所述原文档储存在服务器中;
特殊标记单元012,用于对下载的电子文档和原文档均进行特殊标记,下载的电子文档储存在用户终端中,所述原文档为所述电子文档的索引文档,所述特殊标记是随机生成的唯一标记。
如图8所示,作为本发明一个优选的实施例,所述相似度判定模块300包括:
索引文档查询单元301,用于根据特殊标记进行索引文档的查询;
查询结果判定单元302,当不能够查询到索引文档,直接对电子文档进行存储;当能够查询到索引文档,调取索引文档的二进制代码和电子文档的二进制代码。
本发明实施例中,因为对下载的电子文档和原文档均进行了特殊标记,原文档为所述电子文档的索引文档,且特殊标记是唯一的,所以理论上可以根据特殊标记查询得到唯一的索引文档,但是,当不能够查询到索引文档,说明索引文档被删除了,就不会出现二次存储的情况,那么直接对电子文档进行存储即可;当然,能够查询到索引文档时,直接调取索引文档的二进制代码和电子文档的二进制代码,方便进行后续的相似度计算。
如图8所示,作为本发明一个优选的实施例,所述相似度判定模块300还包括:
相似度计算单元303,用于确定索引文档的二进制代码和电子文档的二进制代码之间的重叠部分,计算索引文档与电子文档之间的相似度,相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数;
优化存储确定单元304,当相似度小于设定相似值时,不需要进行优化存储,否则需要进行优化存储。
本发明实施例中,通过比较索引文档的二进制代码和电子文档的二进制代码,可以快速确定重叠部分,重叠部分就是用户下载电子文件后未进行修改的部分,重叠部分确定后,计算索引文档与电子文档之间的相似度,所述相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数,如果相似度小于设定相似值时,不需要进行优化存储,如果相似度大于或者等于设定相似值时,则需要进行优化存储,所述设定相似值为提前设置的定值,管理员可以根据需求自行设定。
如图9所示,作为本发明一个优选的实施例,所述信息绑定存储模块400包括:
索引信息生成单元401,用于根据索引文档的存储位置生成索引信息;
差异信息生成单元402,用于根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分,通过差异信息能够将索引文档的二进制代码转变为电子文档的二进制代码。
本发明实施例中,所述索引信息其实就是索引文档的存储位置信息,根据索引信息能够直接快速的调取索引文档,因此索引信息占用的存储空间极低,另外还需要根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分,通过差异信息能够将索引文档的二进制代码转变为电子文档的二进制代码,如此,根据索引信息和差异信息就能够得到完整的电子文档了。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种电子文档的存储方法,其特征在于,所述方法包括以下步骤:
接收电子文档存储指令,查验电子文档中是否存在特殊标记;
当不存在特殊标记时,直接对电子文档进行存储;当存在特殊标记时,执行下一步骤;
根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,执行下一步骤;
根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。
2.根据权利要求1所述一种电子文档的存储方法,其特征在于,所述方法还包括:
接收电子文档下载指令,根据电子文档下载指令访问待下载的原文档,所述原文档储存在服务器中;
对下载的电子文档和原文档均进行特殊标记,下载的电子文档储存在用户终端中,所述原文档为所述电子文档的索引文档,所述特殊标记是随机生成的唯一标记。
3.根据权利要求1所述一种电子文档的存储方法,其特征在于,所述根据特殊标记确定已经储存的索引文档的步骤,具体包括:
根据特殊标记进行索引文档的查询;
当不能够查询到索引文档,直接对电子文档进行存储;当能够查询到索引文档,调取索引文档的二进制代码和电子文档的二进制代码。
4.根据权利要求3所述一种电子文档的存储方法,其特征在于,所述根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储的步骤,具体包括:
确定索引文档的二进制代码和电子文档的二进制代码之间的重叠部分,计算索引文档与电子文档之间的相似度,相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数;
当相似度小于设定相似值时,不需要进行优化存储,否则需要进行优化存储。
5.根据权利要求3所述一种电子文档的存储方法,其特征在于,所述根据索引文档和电子文档生成索引信息和差异信息的步骤,具体包括:
根据索引文档的存储位置生成索引信息;
根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分,通过差异信息能够将索引文档的二进制代码转变为电子文档的二进制代码。
6.一种电子文档的存储系统,其特征在于,所述系统包括:
存储指令接收模块,用于接收电子文档存储指令,查验电子文档中是否存在特殊标记;
特殊标记判定模块,当不存在特殊标记时,直接对电子文档进行存储;当存在特殊标记时,执行相似度判定模块中的步骤;
相似度判定模块,用于根据特殊标记确定已经储存的索引文档,根据索引文档和电子文档的相似度确定是否对电子文档进行优化存储,当不需要进行优化存储时,直接对电子文档进行存储;当需要进行优化存储时,执行信息绑定存储模块中的步骤;
信息绑定存储模块,用于根据索引文档和电子文档生成索引信息和差异信息,将所述索引信息和差异信息绑定后进行存储。
7.根据权利要求6所述一种电子文档的存储系统,其特征在于,所述系统还包括下载指令接收模块,下载指令接收模块具体包括:
下载指令接收单元,用于接收电子文档下载指令,根据电子文档下载指令访问待下载的原文档,所述原文档储存在服务器中;
特殊标记单元,用于对下载的电子文档和原文档均进行特殊标记,下载的电子文档储存在用户终端中,所述原文档为所述电子文档的索引文档,所述特殊标记是随机生成的唯一标记。
8.根据权利要求6所述一种电子文档的存储系统,其特征在于,所述相似度判定模块包括:
索引文档查询单元,用于根据特殊标记进行索引文档的查询;
查询结果判定单元,当不能够查询到索引文档,直接对电子文档进行存储;当能够查询到索引文档,调取索引文档的二进制代码和电子文档的二进制代码。
9.根据权利要求8所述一种电子文档的存储系统,其特征在于,所述相似度判定模块还包括:
相似度计算单元,用于确定索引文档的二进制代码和电子文档的二进制代码之间的重叠部分,计算索引文档与电子文档之间的相似度,相似度=重叠部分二进制代码的位数/索引文档的二进制代码的位数;
优化存储确定单元,当相似度小于设定相似值时,不需要进行优化存储,否则需要进行优化存储。
10.根据权利要求8所述一种电子文档的存储系统,其特征在于,所述信息绑定存储模块包括:
索引信息生成单元,用于根据索引文档的存储位置生成索引信息;
差异信息生成单元,用于根据索引文档的二进制代码和电子文档的二进制代码生成差异信息,所述差异信息用于记录索引文档的二进制代码和电子文档的二进制代码之间的差异部分,通过差异信息能够将索引文档的二进制代码转变为电子文档的二进制代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211233411.6A CN115292438A (zh) | 2022-10-10 | 2022-10-10 | 一种电子文档的存储方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211233411.6A CN115292438A (zh) | 2022-10-10 | 2022-10-10 | 一种电子文档的存储方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292438A true CN115292438A (zh) | 2022-11-04 |
Family
ID=83819400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211233411.6A Pending CN115292438A (zh) | 2022-10-10 | 2022-10-10 | 一种电子文档的存储方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292438A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832225B1 (en) * | 1998-12-14 | 2004-12-14 | Canon Research Centre France S.A. | Method and device for recording and searching for a document on a communication network |
CN101552669A (zh) * | 2008-04-02 | 2009-10-07 | 林兆祥 | 数据传输的方法及系统 |
CN110134647A (zh) * | 2019-04-01 | 2019-08-16 | 中国科学院信息工程研究所 | 一种支持云端数据去重的数字水印方法和系统 |
CN114817230A (zh) * | 2022-06-29 | 2022-07-29 | 深圳市乐易网络股份有限公司 | 一种数据流过滤方法及系统 |
-
2022
- 2022-10-10 CN CN202211233411.6A patent/CN115292438A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832225B1 (en) * | 1998-12-14 | 2004-12-14 | Canon Research Centre France S.A. | Method and device for recording and searching for a document on a communication network |
CN101552669A (zh) * | 2008-04-02 | 2009-10-07 | 林兆祥 | 数据传输的方法及系统 |
CN110134647A (zh) * | 2019-04-01 | 2019-08-16 | 中国科学院信息工程研究所 | 一种支持云端数据去重的数字水印方法和系统 |
CN114817230A (zh) * | 2022-06-29 | 2022-07-29 | 深圳市乐易网络股份有限公司 | 一种数据流过滤方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108234539B (zh) | 一种文件上传、下载、传输方法及装置 | |
CN101273329B (zh) | 有效描述资源之间的关系 | |
JP2005149096A5 (zh) | ||
CN106302592B (zh) | 终端应用的更新方法、服务器和终端 | |
CN101610152B (zh) | 内容识别方法和系统以及内容管理客户端和服务器 | |
US10120630B2 (en) | Method and apparatus for printing data with predetermined format using bluetooth communication, and method of storing template data | |
WO1999040525A3 (en) | Information storage and retrieval system for storing and retrieving the visual form of information from an application in a database | |
WO2010036830A2 (en) | Encoding, updating, and decoding barcodes in a document | |
CN104484638A (zh) | 对未与相关绑定信息的码图进行处理的方法 | |
CN109086459B (zh) | 一种基于区块链的新闻采编和发布方法 | |
SG190757A1 (en) | Method and system of evidence preservation for digital documents | |
CN1577329A (zh) | 用于后绑定/动态路径名解析的方法和装置 | |
CN112698868A (zh) | 一种应用于多系统的统一错误码方法和存储设备 | |
CN108133026B (zh) | 一种多数据的处理方法、系统及存储介质 | |
KR101472016B1 (ko) | 이미지 파일에 추가 데이터가 삽입된 복합파일 생성방법 및 상기 복합파일이 기록된 데이터 저장장치 | |
CN115292438A (zh) | 一种电子文档的存储方法和系统 | |
CN116739022B (zh) | 用于条码图像的译码方法、装置和电子设备 | |
US7698003B2 (en) | System for generating standard operating procedure(SOP) files | |
CN113111041A (zh) | 一种电子病历文件的图像数据处理方法 | |
CN113688410A (zh) | 一种数据检索方法、装置、fpga及介质 | |
CN116737451B (zh) | 闪存的数据恢复方法及装置、固态硬盘、存储介质 | |
EP2225637B1 (en) | System and method for archiving of data | |
CN104468748A (zh) | 一种远程获取终端信息的方法及装置 | |
CN111291207B (zh) | 图片存储方法、装置及服务器 | |
KR102267560B1 (ko) | 블록 체인에 저장되는 데이터 크기를 축소할 수 있는 데이터의 변경 이력 관리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221104 |
|
RJ01 | Rejection of invention patent application after publication |