CN108073521A - 一种数据去重的方法和系统 - Google Patents

一种数据去重的方法和系统 Download PDF

Info

Publication number
CN108073521A
CN108073521A CN201610994698.2A CN201610994698A CN108073521A CN 108073521 A CN108073521 A CN 108073521A CN 201610994698 A CN201610994698 A CN 201610994698A CN 108073521 A CN108073521 A CN 108073521A
Authority
CN
China
Prior art keywords
duplicate removal
data
critical
data file
real time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610994698.2A
Other languages
English (en)
Other versions
CN108073521B (zh
Inventor
刘荣远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN CHUANGMENG TIANDI TECHNOLOGY CO LTD
Original Assignee
SHENZHEN CHUANGMENG TIANDI TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN CHUANGMENG TIANDI TECHNOLOGY CO LTD filed Critical SHENZHEN CHUANGMENG TIANDI TECHNOLOGY CO LTD
Priority to CN201610994698.2A priority Critical patent/CN108073521B/zh
Publication of CN108073521A publication Critical patent/CN108073521A/zh
Application granted granted Critical
Publication of CN108073521B publication Critical patent/CN108073521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1041Resource optimization
    • G06F2212/1044Space efficiency improvement

Abstract

本发明公开了一种数据去重的方法和系统,包括以下步骤:打开关键数据文件,输入实时关键字,调用去重函数根据所述关键数据文件对所述实时关键字进行去重;所述打开关键数据文件的步骤后还包括采用内存映射的形式将所述关键数据文件读入内存中且对关键数据文件中的去重关键字进行初步分类;降低了内存的占用空间,避免了数据去重时内存消耗大,且优化了关键数据文件内的数据排列结构,有效的提高了内存利用率和数据去重效率;采用该方法的数据去重系统也同样具有上述优点。

Description

一种数据去重的方法和系统
技术领域
本发明涉及实时海量数据处理领域,尤其涉及一种数据去重的方法和系统。
背景技术
在现有的大数据系统中,数据统计过程需要去除大量的重复数据,其统计的结果才会更加准确。现有开源的流式实时计算框架(如storm、spark streaming)中,对于实时的计算求和、计数等统计是比较容易实现的。但对于数据去重的计算,实时计算框架本身并没有提供相应的实现,需要开发者自行实现或者利用第三方系统(如key-value存储系统redis、分布式存储系统hbase和Cassandra)实现。
目前,实时数据去重过程中产生的非重复数据均存放在内存中,用来与实时数据进行比对。当需要对海量数据进行去重时,非重复数据文件需要消耗系统中大量的的内存资源。上述第三方去重系统均采用分布式存储的方式,以多台服务器采用分布式叠加的方式,扩大内存的总体容量,以此实现海量数据去重时其非重复数据文件的存放,这才得以完成整个去重过程。
可见,现有的数据去重方法和系统在应对实时海量数据时,内存资源占用量巨大,硬件投入高,资源利用率太低。
发明内容
本发明的目的在于提供一种去重效率更高,且内存空间利用率更大的数据去重的方法和系统。
为了解决上述技术问题,本发明所采用的技术方案为:一种数据去重的方法,包括以下步骤:打开关键数据文件、输入实时关键字、调用去重函数根据所述关键数据文件对所述实时关键字进行去重。所述打开关键数据文件的步骤后还包括以下步骤:
s1.采用内存映射的形式将所述关键数据文件中的去重关键字读入内存中;使得内存中仅存储所述去重关键字的数据结构即可,大量的数据依旧由磁盘存储。
s2.获取所述去重关键字的映射指针;该映射指针为磁盘中数据(去重关键字)的存储地址。通过访问内存中的映射指针,即可访问到磁盘的相应数据。
s3.为所述去重关键字提取特征值,并根据所述特征值的相似度为所述去重关键字分类;
s4.将分类相同的所述去重关键字组成优先比较集合,并以所述特征值的相同部分为该优先比较集合的特征标识;
s5.获取所述特征标识并添加到所述去重函数中;即去重关键字所在的优先比较集合的特征标识放入去重函数中,方便去重函数调用进行比较判断。
s6.保存所述关键数据文件的末尾指针;当需要增加非重复的关键字时,存储到末尾指针所指向的地址即可。
进一步的,所述调用去重函数根据关键数据文件对所述实时关键字进行去重的步骤具体包括以下步骤:
j1.为所述实时关键字提取实时特征值;
j2.判断所述实时特征值是否包含所述特征标识;若包含,则进入步骤j3;肉不包含,则进入步骤j3’;
j3.调用对应该特征标识的所述优先比较集合与所述实时关键字比较;
j3’.所述实时关键字不为重复数据,进入步骤j5。
再进一步的,所述步骤j3后还包括以下步骤:
j4.判断所述实时关键字是否与所述优先比较集合中的所述去重关键字相同;若不相同,则所述实时关键字不为重复数据,进入步骤j5;若相同,则进入步骤j5’;
j5.将所述实时关键字添加到所述末尾指针所指向的地址;
j5’.所述实时关键字为重复数据。
又一步的,所述j5步骤后还包括以下步骤:
j6.统计所述关键数据文件中所述去重关键字的总数,并输出该总数的数值。
作为一种改进,所述打开关键数据文件前还包括以下步骤:
q1.判断所述关键数据文件是否存在;
q2.若存在,则进入所述打开关键数据文件的步骤;
q2’.若不存在,则新建所述关键数据文件再进入所述打开关键数据文件的步骤。
再者,所述s3步骤前还包括以下步骤:
s2’.初始化所述去重函数。
再进一步的,所述关键数据文件包括:记录文件信息的数据结构和记录所述去重关键字的数据。
为了解决上述技术问题,本发明还采用以下技术方案:
一种数据去重的系统,包括:用以打开关键数据文件和调用去重函数进行去重的处理单元、用以输入实时关键字的输入单元,所述处理单元与所述输入单元分别与内存连接;还包括分别连接所述内存、磁盘以及所述处理单元的映射单元,该映射单元采用内存映射的形式将所述磁盘中的所述关键数据文件读入所述内存中;并获取所述去重关键字的映射指针;所述处理单元还设置有分类模块,为所述去重关键字提取特征值,并根据所述特征值的相似度为所述去重关键字分类并设置优先比较集合的特征标识。
进一步的,该系统还包括:与所述内存连接的统计单元,用以在去重单元更新所述关键数据文件后,统计所述去重关键字的总数,并输出该总数的数值。
与现有技术相比,本发明具有以下有益效果:
采用内存映射的方式调用非重复数据文件,并对关键数据文件进行分类处理。使得关键数据文件的主体数据不需要同时读入内存中,且可以按照一定的规则分为小类,优化了数据去重时的对比判断流程。有效的提高了内存资源的利用率,进而提高了该去重系统的数据处理量,也显著降低了硬件设备的投入。
附图说明
图1为本发明数据去重方法的主要流程示意图;
图2为本发明数据去重方法的完整流程示意图;
图3为本发明数据去重系统的功能模块框架示意图;
图4为本发明数据去重系统的完整功能模块框架示意图;
图5为现有技术方案框架示意图;
图6为现有技术方案工作流程示意图;
图7为本发明工作流程示意图。
具体实施方式
以下参考附图1至附图7,对本发明的各实施例予以进一步地详尽阐述。
首先,说明本发明数据去重的现实基础:
对于实时海量数据的处理,无论是进行数据求和,数据检索和数据统计,将海量数据中重复的数据去除后再进行相应的处理,可以有效的降低数据量,加快数据的处理速度。同时,得到的结果也更为准确。但是数据去重时,大量的非重复数据需要与实时数据进行比较判断,以判断该实时数据是否重复。导致非重复数据需要长时间占用系统内存,增大了内存资源的占用率,导致需要处理的数据滞后,淤积,拖慢处理速度,降低数据的处理量。
目前,增大内存的空间可以直接提升数据的处理量。如附图5至附图6所示,现有技术方案在当前的大数据面前,海量的实时数据,远不是增加的内存空间可以容纳的,只有分布式的计算系统可以有效增大内存空间和处理单元的处理能力,但是相对于数据去重这种单一的数据处理要求,分布式的计算系统其硬件投入则显得过于高昂。
其次,对本发明的实施方式进行具体说明。
如附图1至附图4所示,一种数据去重的方法,包括以下步骤:打开关键数据文件、输入实时关键字、调用去重函数根据关键数据文件对实时关键字进行去重。打开关键数据文件的步骤后还包括以下步骤:
s1.采用内存映射的形式将关键数据文件中的去重关键字读入内存中;使得内存中仅存储去重关键字的数据结构即可,大量的数据依旧由磁盘存储。
s2.获取去重关键字的映射指针。该映射指针为磁盘中数据(关键数据文件中去重关键字)的存储地址。通过访问内存中的映射指针时,即可读取磁盘中相应的数据。
系统中的映射单元采用内存映射的实施方式,可以将关键数据文件中,包含了文件格式和信息的数据结构与包含了所有去重关键字的主体数据(n个非重复的去重关键字)有机的拆分开来。仅将体积极小的数据结构读入内存中,当需要调用关键数据文件时,通过映射指针(去重关键字的地址),处理单元可以直接访问到磁盘中的关键数据文件的数据。因此,可以从根本上消除了面对海量实时数据时,体积巨大的关键数据文件对内存造成的压力。使内存可以腾出有足够空间用于存放处理中的中间数据和实时数据,有效的提高了本发明的数据处理量和内存资源的利用率。
s3.为所述去重关键字提取特征值,并根据所述特征值的相似度为所述去重关键字分类。在具体实施中,特征值的提取方式,可以采用在关键字的基础上进行哈希算法实现,也可以采用其他算法实现,如方差算法、几何平均值算法等。具体分类时,可以按照的特征值中字符串类型以及数值来进行分类,在优选的实施方式中,可以采用特征值的字符的位置与字符的数值相结合的方式来进行分类,如将特征值的最后一位的数值为8的关键字归为一类,或者将特征值中某一位数值为8的关键字归为一类。其中,案分类的不同,数值8也可以采用任意有效的数值来替换。
采用上述分类方法,可以对关键数据文件中的去重关键字进行有序化处理,方便去重时与实时关键字进行比较判断。
s4.将分类相同的所述去重关键字组成优先比较集合,并以所述特征值的相同部分为该优先比较集合的特征标识。为优先比较集合设置特征标识有助于判断实时关键字是否为重复数据时,只要计算出实时关键字的特征值,并判断该特征值的相应数位上的数值是否与特征标识相同,即可给实时关键字进行初步分类。避免使用穷举法逐一调用去重关键字与实时关键字进行比较,节省系统资源。
在本实施例中,完成上述步骤s1~s4,可以java中的hashmap来实现,也可以通过hashset来实现。或者通过linux中的mmap系统实现。
如附图2所示,在本实施例中,步骤s4后还包括以下步骤:
s5.获取所述特征标识并添加到所述去重函数中;即去重关键字所在的优先比较集合的特征标识放入去重函数中,方便去重函数调用进行比较判断。
s6.保存所述关键数据文件的末尾指针;当需要增加非重复的关键字时,存储到末尾指针所指向的地址即可。
具体的,当处理单元与映射单元配合工作,采用内存映射对磁盘中的去重关键字并做进一步处理,保存去重关键字本身依旧会占用大量的内存空间。采用关键字指针这一地址形式将有助于进一步的降低内存的占用空间,提高内存的使用率。同时,将末尾指针保存下来,使得关键数据文件可以适用在实时数据中,通过不断的比对进行相应的更新,以保证统计计算的准确性。
在本实施例中,调用去重函数根据关键数据文件对实时关键字进行去重的步骤具体包括以下步骤:
j1.为所述实时关键字提取实时特征值;该提前特征值的方式与前述提取去重关键字的方式采用相同算法,以保证实时关键字与去重关键字存在比较的基础。
j2.判断所述实时特征值是否包含所述特征标识;若包含,则进入步骤j3;肉不包含,则进入步骤j3’;该判断步骤可以为实时关键字指定一个较小的比较范围(即优先比较集合中的去重关键字),避免实时关键字采用穷举法与每一个去重关键字比较,消耗大量的系统资源。
j3调用对应该特征标识的所述优先比较集合与所述实时关键字比较;包含即意味着去重关键字的特征值与优先比较集合中的去重关键字特征值很相近。同时,也意味着与其他的优先比较集合(特征标识不同)无关联,不用再比较其内的去重关键字。
j3’.所述实时关键字不为重复数据,进入步骤j5,进行关键数据文件的增补操作。
在本实施例中,所述步骤j3后还包括以下步骤:
j4.判断所述实时关键字是否与所述优先比较集合中的所述去重关键字相同;若不相同,则所述实时关键字不为重复数据,进入步骤j5;若相同,则进入步骤j5’;采用该判断步骤可以确保数据去重的准确性,即特征值比较完成后,实时关键字最终必须与去重关键字进行比较,以确定两者的实质是否相同。
j5.将实时关键字添加到末尾指针所指向的地址;
j5’.实时关键字为重复数据。
需要指出的是,当输入单元输入的实时关键字与作为比照物的去重关键字相同时,意味着该实时关键字(或者包含该实时关键字的实时数据)为重复的数据,其属于本发明需要剔除的部分,故不做相应记录。当不相同时,则将其添加到关键数据文件中,为接下来统计单元的数据求和、数据统计提供数据源。
在本实施例中,所述j5步骤后还包括以下步骤:
j6.统计关键数据文件中去重关键字的总数,并输出该总数的数值。即统计单元统计通过内存中的相应指针对磁盘中去重完成后的不重复数据进行统计,得到相应的数量。在实际使用中,如统计某个游戏的登录玩家总数、统计某个网页被不同网友访问的总数等等。
在其他实施例中,还可以加入求和或者其他的进一步的数据处理程序,在此不做限定。
在本实施例中,打开关键数据文件前还包括以下步骤:
q1.判断关键数据文件是否存在;
q2.若存在,则进入打开关键数据文件的步骤;
q2’.若不存在,则新建关键数据文件再进入打开关键数据文件的步骤。
在实际使用中,处理单元进行数据去重不可避免的需要从第一个实时数据开始,因为关键数据文件中所包含的去重关键字为处理过程中实时数据中非重复数据的集合,所以,关键数据文件一开始并不存在,在对实时关键字进行处理时,需要有一个判断是否存在该关键数据文件的过程,若存在,则进入下一步骤,若不存在,则新建该文件(即处理第一个实时关键字时),以避免无关键数据文件时进行进一步操作导致不可预知的情况发生。
作为一种优选的实施例,关键数据文件的新建长度可以参照以下公式:去重关键字的平均长度*去重关键字的预计总量*2。
如附图2所示,在本实施例中,所述s3步骤前还包括以下步骤:
s2’.初始化所述去重函数。
在本实施例中,所述去重函数采用hashset算法判断实施关键字是否与去重关键字一致。
在优选的实施例中,处理单元调用的去重函数为C++标准库中的std::unordered_set函数来实现。std::unordered_set为hash算法的一种,也可以用其他hash算法的函数来代替。
如附图7所示,所述关键数据文件包括:记录文件信息的数据结构和记录所述去重关键字的数据。在被映射单元采用内存映射的方式读取后,其数据结构的部分存入内存,其数据结构通过映射指针指向磁盘中的数据。处理单元调用内存中的数据结构时,通过该映射指针即可访问磁盘中的相应数据。
为了解决上述技术问题,本发明还采用以下技术方案:
一种数据去重的系统,包括:用以打开关键数据文件和调用去重函数进行去重的处理单元、用以输入实时关键字的输入单元,处理单元与输入单元分别与内存连接;还包括分别连接内存、磁盘以及处理单元的映射单元,该映射单元采用内存映射的形式将磁盘中的关键数据文件读入内存中;并获取关键数据文件的映射指针。
具体的,当本系统以计算机为实施载体时,该处理单元即为计算机的处理器,进行内存和磁盘中数据的管理和调用。输入单元为数据服务器或者鼠标、键盘等输入设备。映射单元为提供内存映射功能的所调用的相应计算机程序。
进一步的,该系统还包括:与内存连接的统计单元,用以在去重单元更新关键数据文件后,统计去重关键字的总数,并输出该总数的数值。以实现对数据进行去重后的进一步数据处理,得到相应的计算结果。
本发明的数据去重的方法通过采用内存映射的方式读取关键数据文件,在调用关键数据文件时,避免了该文件占用大量的内存空间,增大了用于数据处理的内存空间容量,提高了数据去重过程中的数据处理量和内存资源利用率。使得在处理实时海量数据时,可以省去分布式的计算系统,有效节省了投入成本。
上述内容,仅为本发明的较佳实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims (9)

1.一种数据去重的方法,其特征在于,包括以下步骤:打开关键数据文件,输入实时关键字,调用去重函数根据所述关键数据文件对所述实时关键字进行去重;所述打开关键数据文件的步骤后还包括以下步骤:
s1.采用内存映射的形式将所述关键数据文件中的去重关键字读入内存中;
s2.获取所述去重关键字的映射指针;
s3.为所述去重关键字提取特征值,并根据所述特征值的相似度为所述去重关键字分类;
s4.将分类相同的所述去重关键字组成优先比较集合,并以所述特征值的相同部分为该优先比较集合的特征标识;
s5.获取所述特征标识并添加到所述去重函数中;
s6.保存所述关键数据文件的末尾指针。
2.如权利要求1所述的数据去重的方法,其特征在于,所述调用去重函数根据关键数据文件对所述实时关键字进行去重的步骤具体包括以下步骤:
j1.为所述实时关键字提取实时特征值;
j2.判断所述实时特征值是否包含所述特征标识;若包含,则进入步骤j3;若不包含,则进入步骤j3’;
j3调用对应该特征标识的所述优先比较集合与所述实时关键字比较;
j3’.所述实时关键字不为重复数据,进入步j5。
3.如权利要求2所述的数据去重的方法,其特征在于,步骤j3后还包括以下步骤:
j4.判断所述实时关键字是否与所述优先比较集合中的所述去重关键字相同;若不相同,则所述实时关键字不为重复数据,进入步骤j5;若相同,则进入步骤j5’;
j5.将所述实时关键字添加到所述末尾指针所指向的地址;
j5’.则所述实时关键字为重复数据。
4.如权利要求3所述的数据去重的方法,其特征在于,所述j5步骤后还包括以下步骤:
j6.统计所述关键数据文件中所述去重关键字的总数,并输出该总数的数值。
5.如权利要求1所述的数据去重的方法,其特征在于,所述打开关键数据文件前还包括以下步骤:
q1.判断所述关键数据文件是否存在;
q2.若存在,则进入所述打开关键数据文件的步骤;
q2’.若不存在,则新建所述关键数据文件再进入所述打开关键数据文件的步骤。
6.如权利要求1所述的数据去重的方法,其特征在于,所述s3步骤前还包括以下步骤:
s2’.初始化所述去重函数。
7.如权利要求1所述的数据去重的方法,其特征在于,所述关键数据文件包括:记录文件信息的数据结构和记录所述去重关键字的数据。
8.一种数据去重的系统,包括:用以打开关键数据文件和调用去重函数进行去重的处理单元、用以输入实时关键字的输入单元,所述处理单元与所述输入单元分别与内存连接;其特征在于,还包括分别连接所述内存、磁盘以及所述处理单元的映射单元,该映射单元采用内存映射的形式将所述磁盘中的所述关键数据文件读入所述内存中;并获取所述去重关键字的映射指针;所述处理单元还设置有分类模块,为所述去重关键字提取特征值,并根据所述特征值的相似度为所述去重关键字分类并设置优先比较集合的特征标识。
9.如权利要求8所述的系统,其特征在于,该系统还包括:与所述内存连接的统计单元,用以在去重单元更新所述关键数据文件后,统计所述去重关键字的总数,并输出该总数的数值。
CN201610994698.2A 2016-11-11 2016-11-11 一种数据去重的方法和系统 Active CN108073521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610994698.2A CN108073521B (zh) 2016-11-11 2016-11-11 一种数据去重的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610994698.2A CN108073521B (zh) 2016-11-11 2016-11-11 一种数据去重的方法和系统

Publications (2)

Publication Number Publication Date
CN108073521A true CN108073521A (zh) 2018-05-25
CN108073521B CN108073521B (zh) 2021-10-08

Family

ID=62155087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610994698.2A Active CN108073521B (zh) 2016-11-11 2016-11-11 一种数据去重的方法和系统

Country Status (1)

Country Link
CN (1) CN108073521B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3622702A (en) * 1969-01-08 1971-11-23 Gen Electric Tape reader and control system
CN101082928A (zh) * 2007-06-25 2007-12-05 腾讯科技(深圳)有限公司 一种数据库访问的方法及数据库映射系统
US20090192978A1 (en) * 2008-01-29 2009-07-30 Hewett Jeffrey R System for Document De-Duplication and Modification Detection
US20100064166A1 (en) * 2008-09-11 2010-03-11 Nec Laboratories America, Inc. Scalable secondary storage systems and methods
CN102346783A (zh) * 2011-11-09 2012-02-08 华为技术有限公司 数据检索方法及装置
CN102591855A (zh) * 2012-01-13 2012-07-18 广州从兴电子开发有限公司 一种数据标识方法及系统
CN102591592A (zh) * 2010-12-14 2012-07-18 微软公司 虚拟化环境中的数据去重复
CN102831127A (zh) * 2011-06-17 2012-12-19 阿里巴巴集团控股有限公司 重复数据处理方法、装置及系统
CN103279532A (zh) * 2013-05-31 2013-09-04 北京鹏宇成软件技术有限公司 多集合元素去重并标识所属集合的过滤系统及其方法
US20130304761A1 (en) * 2007-01-05 2013-11-14 Digital Doors, Inc. Digital Information Infrastruture and Method for Security Designated Data and with Granular Data Stores
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN103873506A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 存储集群中的数据块去重系统及方法
CN104077397A (zh) * 2014-07-01 2014-10-01 成都康赛信息技术有限公司 一种分布式的大数据分类检索网页的响应方法
CN105138666A (zh) * 2015-09-06 2015-12-09 深圳市创梦天地科技有限公司 一种数据处理的方法及终端
CN105426711A (zh) * 2015-11-18 2016-03-23 北京理工大学 一种计算机软件源代码相似度检测方法
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3622702A (en) * 1969-01-08 1971-11-23 Gen Electric Tape reader and control system
US20130304761A1 (en) * 2007-01-05 2013-11-14 Digital Doors, Inc. Digital Information Infrastruture and Method for Security Designated Data and with Granular Data Stores
CN101082928A (zh) * 2007-06-25 2007-12-05 腾讯科技(深圳)有限公司 一种数据库访问的方法及数据库映射系统
US20090192978A1 (en) * 2008-01-29 2009-07-30 Hewett Jeffrey R System for Document De-Duplication and Modification Detection
US20100064166A1 (en) * 2008-09-11 2010-03-11 Nec Laboratories America, Inc. Scalable secondary storage systems and methods
CN102591592A (zh) * 2010-12-14 2012-07-18 微软公司 虚拟化环境中的数据去重复
CN102831127A (zh) * 2011-06-17 2012-12-19 阿里巴巴集团控股有限公司 重复数据处理方法、装置及系统
CN102346783A (zh) * 2011-11-09 2012-02-08 华为技术有限公司 数据检索方法及装置
CN102591855A (zh) * 2012-01-13 2012-07-18 广州从兴电子开发有限公司 一种数据标识方法及系统
CN103873506A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 存储集群中的数据块去重系统及方法
CN103279532A (zh) * 2013-05-31 2013-09-04 北京鹏宇成软件技术有限公司 多集合元素去重并标识所属集合的过滤系统及其方法
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN104077397A (zh) * 2014-07-01 2014-10-01 成都康赛信息技术有限公司 一种分布式的大数据分类检索网页的响应方法
CN105138666A (zh) * 2015-09-06 2015-12-09 深圳市创梦天地科技有限公司 一种数据处理的方法及终端
CN105426711A (zh) * 2015-11-18 2016-03-23 北京理工大学 一种计算机软件源代码相似度检测方法
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO TANG .ETC: "A Bayesian Classification Approach Using Class-Specific Features for Text categorization", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
李青: "科技云平台的数据存储管理技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *
汪建伟等: "一种基于分类算法的网页信息提取方法", 《计算机科学》 *

Also Published As

Publication number Publication date
CN108073521B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
US10372723B2 (en) Efficient query processing using histograms in a columnar database
CN107368259B (zh) 一种向区块链系统中写入业务数据的方法和装置
CN106599686B (zh) 一种基于tlsh特征表示的恶意软件聚类方法
CN109299164A (zh) 一种数据查询方法、计算机可读存储介质及终端设备
CN106897930A (zh) 一种信用评估的方法及装置
CN108256164A (zh) 状态机晶格中的布尔逻辑
CN108763952A (zh) 一种数据分类方法、装置及电子设备
US11204935B2 (en) Similarity analyses in analytics workflows
CN111881447A (zh) 恶意代码片段智能取证方法及系统
CN109460406A (zh) 一种数据处理方法及装置
CN110046188A (zh) 业务处理方法及其系统
CN113408897A (zh) 应用于大数据业务的数据资源共享方法及大数据服务器
Calik Bayazit et al. Deep learning based malware detection for android systems: A Comparative Analysis
CN105162765B (zh) 一种基于断尾求生的云数据安全实现方法
CN108073521A (zh) 一种数据去重的方法和系统
CN111833177A (zh) 选择变量加工逻辑的方法及装置
CN106603304A (zh) 一种虚拟化管理系统事件日志处理方法及装置
CN107515816A (zh) 一种数据统计的方法及服务器
CN110275791A (zh) 一种应用程序异常处理方法及装置
CN116611062B (zh) 基于图卷积网络的内存恶意进程取证方法与系统
Ramani et al. Analysis of Android malware permission based dataset using machine learning
CN114443694A (zh) 一种线索多维度关联关系分析方法、终端设备及存储介质
CN115719423A (zh) 基于相似性的恶意信息检测方法、装置及处理器
CN113487407A (zh) 数据处理方法、装置及电子设备
CN117032560A (zh) 动态压缩存储及分位数据分析方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant