CN111465929B - 用于内容不可知文件标引的方法及系统 - Google Patents

用于内容不可知文件标引的方法及系统 Download PDF

Info

Publication number
CN111465929B
CN111465929B CN201880079726.5A CN201880079726A CN111465929B CN 111465929 B CN111465929 B CN 111465929B CN 201880079726 A CN201880079726 A CN 201880079726A CN 111465929 B CN111465929 B CN 111465929B
Authority
CN
China
Prior art keywords
index
data file
data
input
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880079726.5A
Other languages
English (en)
Other versions
CN111465929A (zh
Inventor
C·麦克埃尔文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lognovisis Holdings Ltd
Original Assignee
Lognovisis Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lognovisis Holdings Ltd filed Critical Lognovisis Holdings Ltd
Publication of CN111465929A publication Critical patent/CN111465929A/zh
Application granted granted Critical
Publication of CN111465929B publication Critical patent/CN111465929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3068Precoding preceding compression, e.g. Burrows-Wheeler transformation
    • H03M7/3077Sorting
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/55Compression Theory, e.g. compression of random number, repeated compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种用于二进制数据文件的内容不可知引用的计算机实施方法,所述方法包括:确定所述二进制数据文件的长度,所述长度包括所述二进制数据文件的位数;对于所述经确定长度,生成所述经确定长度的所有数据排列;在所述经生成排列内定位索引,其中所述索引是所述二进制数据文件在所述经生成排列内的起始位置;及使用所述长度及所述索引来指示所述二进制数据文件。

Description

用于内容不可知文件标引的方法及系统
技术领域
本发明涉及一种用于内容不可知文件引用的方法。所述方法可进一步涉及一种用于内容不可知数据压缩的方法。
背景技术
文件引用技术通常需要有关为了在文件引用系统中有效地标引数据而存储的数据种类的知识。类似地,有关所讨论数据的知识也通常用于创建改进式压缩方法以减小用于传输、存储等的数据大小。
行业中需要改进文件引用及数据压缩技术来减少必须存储及/或传输的数据量。
发明内容
根据一个实施例,本发明提供一种用于使用增强型内容不可知文件引用系统来改进计算技术的方法。
所揭示方法具有若干重要优点。例如,所揭示方法允许任何内容类型的文件引用。
所揭示方法另外允许显著减少必须保留或传输的信息或数据量,因为可在存取时生成数据而非保留数据。
本发明的各种实施例可不具有任何这些优点,具有一些或所有这些优点。本发明的其它技术优点对于所属领域技术人员也可能容易显而易见。
附图说明
为了更完整地理解本发明及其优点,现在参考结合附图所做的以下描述,在附图中:
图1是概述本发明的一个实施例的步骤的流程图。
图2是概述本发明的另一实施例的步骤的另一流程图。
贯穿附图的若干视图,类似参考数字是指类似部件或步骤。
具体实施方式
本发明涉及一种用于内容不可知数据标引的方法。所述方法可用于多种计算机特定需求,包含例如作为文件引用系统或压缩系统。
以下揭示内容结合二进制数据压缩实例性地描述本发明,但是所述教示也适用于任何类型的数据,更应被称为“n进制”数据。例如,所述方法及系统也可适用于量子位及位。
本发明的一个实施例包括如图1中所描绘的流程图中描述的方法。分析待保留或传输的二进制数据(ni)(例如,数据文件)以确定其长度(以位(l(ni))为单位)。使用这个信息,在步骤106,所述方法计算所识别长度的所有数据排列。例如,如果输入数据是
01
那么输入数据是2位长。在步骤106,将生成所有2位排列,即:
{00}{01}{10}{11}
在步骤108,所述方法确定经生成排列中的输入二进制数据的索引(nf)。使用以上实例,经返回索引(nf)将是“1”。最后,所述系统代替地存储长度(2)及索引(1),而非存储或传输输入二进制数据(即,“01”)。
当需要对原始输入数据进行解码(例如,从磁盘检索原始二进制数据的请求,或经传输数据跨网络的接收)时,所述方法仅需要长度(l(ni))及索引(nf)作为输入。使用以上实例,所提供输入将是长度(2)及索引(1)。如图2中所展示,所述系统计算经输入长度的所有排列。如上述,这将生成以下排列:
{00}{01}{10}{11}
所述系统接着将转到所提供索引(以上实例中是1)且返回所述排列。而且,使用以上实例,这将返回“01”原始二进制数据。
出于实例目的,已关于二进制系统描述以上方法(即,输入数据是二进制数据)。所述方法及系统类似地适用于n进制系统。虽然上文所描述的二进制系统本质上适用于欧几里德平面,但是使用n进制数据时,希尔伯特空间在概念上提供相同优势。所述方法及过程可按照下文针对n进制数据进行归纳:
d^n=p(i)
(d^n)n=p(f)
d=系统阶
n=相应于系统阶的适当n进制单位的长度
p(i)=初始索引
p(f)=最终索引
系统阶 视觉表示 引用键 搜索模式
1 字符串 n/x 从左到右
2 平面 n/x/y 从左上到右下
3 3(折叠) n/x/y/z 从左后上到右前下
D D(折叠) n/x/y/z/… 从左后上…到右前下…
应注意,给定两个具有相同输入文件的替代有序系统,具有较高阶的系统相对于具有较小阶的系统将具有较高n进制密度。
在以下Ruby代码段中揭示所述方法的实例。以下代码段演示如图1中揭示的方法:
所述方法及系统可优选地在计算系统中实施,所述计算系统可包含个人计算机、工作站、网络计算机、手持式计算机或任何其它计算系统。此外,所述系统可用任何适当计算机语言编写为软件程序。
所述系统包含一或多个处理装置,所述一或多个处理装置可为任何计算机处理单元,且可为单个中央处理单元,或经配置以按顺序或并行操作的数个处理单元。所述处理装置可经配置以执行实施本文中所揭示的步骤的软件过程。所述系统还可包含能够存储处理装置实施本文中所揭示的步骤所必需的步骤的存储器。这个存储器可呈驻留在处理装置内的存储器的形式,或呈经由例如总线或网络的通信路径耦合到处理单元的独立存储器的形式。
尽管已关于某些实施例及大体上相关联方法描述本发明,但是这些实施例及方法的变更及置换对于所属领域技术人员将是显而易见的。因此,实例实施例的以上描述不限制本发明。在不脱离本发明的精神及范围的情况下,其它改变、替换及变更也是可能的。

Claims (19)

1.一种用于二进制数据文件的内容不可知引用的计算机实施方法,所述方法包括:
确定所述二进制数据文件的输入长度,所述输入长度包括所述二进制数据文件的位的总数;
将经确定的所述输入长度转换为二进制串;
基于所述二进制数据文件的经确定的所述输入长度,按照预定顺序生成经确定的所述输入长度的所有数据排列;
基于所述预定顺序的经确定的所述输入长度的所述数据排列而生成表格;
在所述表格内定位所述二进制串;
基于经定位的所述二进制串而确定在经生成的所述数据排列内的所述二进制数据文件的索引;
将所述输入长度和所述索引存储在存储器中;
一旦接收到针所述二进制数据文件的输入二进制数据的请求并且使用所述输入长度和所述索引,定位经生成的所述数据排列内的所述索引,其中所述索引是经生成的所述排列内的所述二进制数据文件的起始位置,以使得经定位的所述输入二进制数据在存取时生成;及
响应于所述请求而提供经定位的所述输入二进制数据。
2.根据权利要求1所述的方法,其中使用所述长度及所述索引来指示所述二进制数据文件包括:
在存储装置上保留所述长度及所述索引而非所述二进制数据文件。
3.根据权利要求1所述的方法,其中使用所述长度及所述索引来指示所述二进制数据文件包括:
传输所述长度及所述索引而非所述数据文件。
4.根据权利要求3所述的方法,其中传输是在网络上传输所述长度及所述索引。
5.根据权利要求3所述的方法,其中传输是在总线上传输所述长度及所述索引。
6.一种用于压缩具有字节序列的数据文件的系统,所述系统包括:
计算机处理器;及
通信地耦合到所述计算机处理器的存储器,所述存储器存储指令,所述指令由所述计算机处理器所执行以执行包括以下步骤的方法:
确定所述数据文件的输入长度,所述输入长度包括所述数据文件内的总的字节数;
将所述输入长度转换为二进制串;
基于所述数据文件的经确定的所述输入长度,使用所述计算机处理器按照预定顺序生成所述字节数的经确定的所述输入长度的所有可能数据排列;
基于所述预定顺序的经确定的所述输入长度的所述数据排列而生成表格;
在所述表格内定位所述二进制串;
搜索经生成的所述排列以定位与所述数据文件匹配的所述排列;
基于经定位的所述二进制串而确定在经生成的所述数据排列内的经定位的所述排列的索引;
将所述输入长度和所述索引存储在所述存储器中;
一旦接收到针所述数据文件的输入数据的请求并且使用所述输入长度和所述索引,经由所述计算机处理器来定位经生成的所述数据排列内的所述索引,其中所述索引是经生成的所述排列内的所述数据文件的起始位置,以使得所述输入数据在存取时生成;及
响应于所述请求而提供所述输入数据。
7.根据权利要求6所述的系统,其中所述输入长度及所述索引保留在所述存储器上、而不保留在所述数据文件上。
8.根据权利要求7所述的系统,其中所述存储器是磁盘。
9.根据权利要求8所述的系统,其中使用所述字节数及所述索引来指示所述数据文件包括将所述字节数及所述索引传输到接收者、而非所述数据文件。
10.根据权利要求9所述的系统,其中所述传输包括通过网络传输所述字节及所述索引。
11.根据权利要求9所述的系统,其中所述传输包括经由总线传输所述字节及所述索引。
12.一种用于压缩数据文件的系统,所述系统包括:
处理器;及
通信地耦合到所述处理器的存储器,所述存储器存储指令,所述指令由所述处理器所执行以执行包括以下步骤的方法:
确定所述数据文件的大小,所述大小包括所述数据文件的位的总数;
将所述数据文件的经确定的所述大小转换为二进制串;
基于所述数据文件的经确定的所述大小,按照预定顺序生成所述数据文件的经确定的所述大小的所有可能数据排列;
基于所述预定顺序的经确定的所述大小的所述数据排列而生成表格;
在所述表格内定位所述二进制串;
搜索经生成的所述排列以定位与所述数据文件匹配的所述排列;
确定经定位的所述排列的索引;
将所述大小和经定位的所述排列的所述索引存储在所述存储器中;
一旦接收到针所述数据文件的输入数据的请求并且使用所述大小和经定位的所述排列的所述索引,定位经生成的所述数据排列内的所述索引,其中所述索引是经生成的所述排列内的所述数据文件的起始位置,以使得经定位的所述输入数据在存取时生成;及
响应于所述请求而提供经定位的所述输入数据。
13.根据权利要求12所述的系统,其中所述数据文件是二进制数据。
14.根据权利要求12所述的系统,其中所述数据文件是n进制数据。
15.根据权利要求12所述的系统,其中所述索引是整数。
16.根据权利要求12所述的系统,其中使用所述大小及所述索引包括将所述大小及所述索引传输到接收者。
17.根据权利要求16所述的系统,其中所述传输包括在网络上传输。
18.根据权利要求16所述的系统,其中所述传输包括在总线上传输。
19.根据权利要求12所述的系统,其中使用所述大小及所述索引包括存储所述大小及所述索引。
CN201880079726.5A 2017-10-11 2018-10-11 用于内容不可知文件标引的方法及系统 Active CN111465929B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/730,043 2017-10-11
US15/730,043 US10963429B2 (en) 2017-10-11 2017-10-11 Method and system for content agnostic file indexing
PCT/US2018/055366 WO2019075175A1 (en) 2017-10-11 2018-10-11 METHOD AND SYSTEM FOR INDEXING FILE NOT BASED ON CONTENT

Publications (2)

Publication Number Publication Date
CN111465929A CN111465929A (zh) 2020-07-28
CN111465929B true CN111465929B (zh) 2023-11-17

Family

ID=65992536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880079726.5A Active CN111465929B (zh) 2017-10-11 2018-10-11 用于内容不可知文件标引的方法及系统

Country Status (5)

Country Link
US (2) US10963429B2 (zh)
EP (1) EP3695308A4 (zh)
JP (1) JP7047110B2 (zh)
CN (1) CN111465929B (zh)
WO (1) WO2019075175A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963429B2 (en) 2017-10-11 2021-03-30 Lognovations Holdings, Llc Method and system for content agnostic file indexing
US11138152B2 (en) 2017-10-11 2021-10-05 Lognovations Holdings, Llc Method and system for content agnostic file indexing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060244639A1 (en) * 2003-10-17 2006-11-02 Bruce Parker Data compression system and method

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4168513A (en) 1977-09-12 1979-09-18 Xerox Corporation Regenerative decoding of binary data using minimum redundancy codes
US5003597A (en) 1989-12-21 1991-03-26 Xerox Corporation Method and apparatus for data encryption
JPH0563583A (ja) * 1991-08-30 1993-03-12 Nec Corp データ圧縮及び復元方法並びにこれらの方法を使用した電子交換機におけるバツクアツプ方法
US5442350A (en) 1992-10-29 1995-08-15 International Business Machines Corporation Method and means providing static dictionary structures for compressing character data and expanding compressed data
JP3397431B2 (ja) 1994-03-16 2003-04-14 富士通株式会社 データ圧縮方法および装置ならびにデータ復元方法および装置
US5486826A (en) 1994-05-19 1996-01-23 Ps Venture 1 Llc Method and apparatus for iterative compression of digital data
US5594435A (en) 1995-09-13 1997-01-14 Philosophers' Stone Llc Permutation-based data compression
US5937183A (en) 1996-11-05 1999-08-10 Nec Usa, Inc. Enhanced binary decision diagram-based functional simulation
JP2003519945A (ja) 2000-01-03 2003-06-24 エフェクタ テクノロジーズ コーポレイション データの送信または記憶のための効率的で可逆的な変換
US6785859B2 (en) 2000-08-04 2004-08-31 Texas Instruments Incorporated Interleaver for variable block size
US7636724B2 (en) 2001-08-31 2009-12-22 Peerify Technologies LLC Data storage system and method by shredding and deshredding
US7882139B2 (en) 2003-09-29 2011-02-01 Xunlei Networking Technologies, Ltd Content oriented index and search method and system
CN100571389C (zh) 2004-06-29 2009-12-16 奥林巴斯株式会社 用于图像编码/解码和扩展图像压缩解压缩的方法和设备
US20090063930A1 (en) 2006-02-02 2009-03-05 Mitsubishi Electric Corporation Check matrix generating method, encoding method, decoding method, communication device, encoder, and decoder
CN101523732A (zh) 2006-09-01 2009-09-02 帕克比特软件股份有限公司 用于通过数据网络传输数据文件的方法和系统
US8521540B2 (en) 2007-08-17 2013-08-27 Qualcomm Incorporated Encoding and/or decoding digital signals using a permutation value
US7809765B2 (en) 2007-08-24 2010-10-05 General Electric Company Sequence identification and analysis
CN101610088B (zh) 2008-06-17 2013-07-24 香港科技大学 基于具有安全特性的压缩技术来编码数据的系统和方法
US8533166B1 (en) 2010-08-20 2013-09-10 Brevity Ventures LLC Methods and systems for encoding/decoding files and transmission thereof
JP5412414B2 (ja) 2010-12-08 2014-02-12 株式会社日立製作所 検索可能暗号処理システム
US9639543B2 (en) 2010-12-28 2017-05-02 Microsoft Technology Licensing, Llc Adaptive index for data deduplication
FR2979043B1 (fr) 2011-08-12 2016-02-12 Gratzer And Partners Dispositif et procede de compression de cles publiques pour algorithme de chiffrement pleinement homomorphique
WO2013134735A1 (en) 2012-03-08 2013-09-12 California Institute Of Technology Rank-modulation rewriting codes for flash memories
WO2013159112A1 (en) 2012-04-20 2013-10-24 The Board Of Regents Of The University Of Texas System Systems and methods for simultaneous compression and encryption
US10135462B1 (en) 2012-06-13 2018-11-20 EMC IP Holding Company LLC Deduplication using sub-chunk fingerprints
KR101795771B1 (ko) 2013-03-18 2017-11-09 한국전자통신연구원 정수 기반 준동형 암호 기법에서 압축 암복호화를 제공하는 시스템 및 방법
US9124295B2 (en) * 2013-11-14 2015-09-01 Nicolas Thomas Mathieu Dupont System and method for data compression and transmission
KR102019159B1 (ko) 2013-12-23 2019-09-09 한국전자통신연구원 정수 기반 준동형 암호 기법에 일반적으로 적용 가능한 압축 암복호화 장치 및 방법
GB2542707B (en) 2015-07-03 2020-02-12 Sisp Tech Ltd Data processing method and apparatus
GB2543492B (en) 2015-10-16 2021-11-10 Digital Barriers Services Ltd Data Compression
JP2017122951A (ja) * 2016-01-04 2017-07-13 富士通株式会社 情報処理装置、十進数変換方法および十進数変換プログラム
CN108667595B (zh) 2017-03-28 2021-05-14 吉林化工学院 一种大数据文件的压缩加密方法
CN107135062B (zh) 2017-05-08 2020-10-30 桂林电子科技大学 一种改进的大文件的加密方法
CN109300508B (zh) * 2017-07-25 2020-08-11 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
US10963429B2 (en) 2017-10-11 2021-03-30 Lognovations Holdings, Llc Method and system for content agnostic file indexing
US11138152B2 (en) 2017-10-11 2021-10-05 Lognovations Holdings, Llc Method and system for content agnostic file indexing
US11032769B2 (en) 2017-12-18 2021-06-08 Silicon Laboratories Inc. Hierarchical wakeup apparatus and method
CN108924552B (zh) 2018-08-07 2019-11-22 华中科技大学 基于同态加密的jpeg图像密文下解压缩方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060244639A1 (en) * 2003-10-17 2006-11-02 Bruce Parker Data compression system and method
CN1868127A (zh) * 2003-10-17 2006-11-22 佩茨拜特软件有限公司 数据压缩系统和方法

Also Published As

Publication number Publication date
US20210173816A1 (en) 2021-06-10
EP3695308A1 (en) 2020-08-19
WO2019075175A1 (en) 2019-04-18
EP3695308A4 (en) 2021-07-07
JP2021501427A (ja) 2021-01-14
JP7047110B2 (ja) 2022-04-04
CN111465929A (zh) 2020-07-28
US11544225B2 (en) 2023-01-03
US10963429B2 (en) 2021-03-30
US20190108237A1 (en) 2019-04-11

Similar Documents

Publication Publication Date Title
CN110321344B (zh) 关联数据的信息查询方法、装置、计算机设备及存储介质
US11080234B2 (en) Computer readable recording medium for index generation
US8577155B2 (en) System and method for duplicate text recognition
CN104685498A (zh) 聚合/分组操作的硬件实现方式:散列表方法
CN109299086B (zh) 最优排序键压缩和索引重建
US10642814B2 (en) Signature-based cache optimization for data preparation
CN102725753A (zh) 优化数据访问的方法及装置、优化数据存储的方法及装置
CN107329987A (zh) 一种基于mongo数据库的搜索系统
CN110109894B (zh) 非关系型数据库的实现方法、装置、存储介质和设备
CN109983459B (zh) 用于标识语料库中出现的n-gram的计数的方法和设备
CN111465929B (zh) 用于内容不可知文件标引的方法及系统
KR102094932B1 (ko) 스마트 스토리지 장치 내에서 데이터 스크러빙을 실행하는 방법
US20200349165A1 (en) Computer program for processing a pivot query
CN111966654A (zh) 一种基于Trie字典树的混合过滤器
US10740316B2 (en) Cache optimization for data preparation
CN111930924A (zh) 基于布隆过滤器的数据查重系统及方法
CN111930923A (zh) 布隆过滤器系统及过滤方法
CN110109867B (zh) 改进在线模式检测的方法、装置和计算机程序产品
CN110647577A (zh) 数据立方体的分区方法、装置、计算机设备及存储介质
CN111324731B (zh) 对语料库的词语进行嵌入的计算机实施方法
CN112395275A (zh) 经由关联相似性搜索的数据去重
CN113434673A (zh) 数据处理方法和计算机可读存储介质、电子设备
CN114327252A (zh) 使用基于内容的块对齐实现基于块的存储系统中的数据简化
CN111625579A (zh) 一种信息处理方法、装置及系统
CN110471901B (zh) 数据导入方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant