CN107133335A - 一种基于分词与索引技术的重复记录检测方法 - Google Patents

一种基于分词与索引技术的重复记录检测方法 Download PDF

Info

Publication number
CN107133335A
CN107133335A CN201710338278.3A CN201710338278A CN107133335A CN 107133335 A CN107133335 A CN 107133335A CN 201710338278 A CN201710338278 A CN 201710338278A CN 107133335 A CN107133335 A CN 107133335A
Authority
CN
China
Prior art keywords
record
participle
index
pending
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710338278.3A
Other languages
English (en)
Other versions
CN107133335B (zh
Inventor
谭火彬
林广艳
钱宇祥
张祎琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing easy to use Lianyou Technology Co.,Ltd.
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710338278.3A priority Critical patent/CN107133335B/zh
Publication of CN107133335A publication Critical patent/CN107133335A/zh
Application granted granted Critical
Publication of CN107133335B publication Critical patent/CN107133335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于分词与索引技术的重复记录检测方法,获取待处理记录集,遍历待处理记录集,选取出待分词字段集合,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合;遍历待处理记录集的同时,根据获得的分词集合,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,获得候选记录对集合;采用记录重复性计算算法,对所有的候选记录对对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。

Description

一种基于分词与索引技术的重复记录检测方法
技术领域
本发明涉及数据清洗技术领域,涉及一种检测重复记录的方法,尤其涉及一种基于分词与索引技术的重复记录检测方法。
背景介绍
信息化的发展使得数据增长的速率逐年上升,在信息系统中数据冗余会影响系统的使用效果。如果通过纯人工的方式处理这些冗余的数据,势必造成大量的资源浪费与成本消耗。因此,重复数据的检测与处理技术是数据处理领域的重要技术点之一。重复数据检测与处理的核心是重复数据的检测方法,其目标在于满足精度要求的同时尽可能提高检测的效率,能够快速有效地识别出潜在的重复数据并进行处理。随着数据库技术的日益发展与完善,越来越多的数据以数据库记录的形式存在于信息系统中,对记录的重复检测提出了越来越高的要求。
重复记录检测的方法核心涉及两个方面的研究,一方面重点关注检测精度,研究重复记录的判别方法;另一方面重点关注检测效率,研究候选记录对比较的控制。候选记录对比较的控制方式有三种。第一种是循环遍历法,这种方法下包括不同分组在内的所有记录两两之间都需要进行比较。第二种是邻近排序法,按照某个或者某些关键字段对记录进行排序后,每条记录都以一定的规则和邻近的记录进行比较。第三种是基于散列的方法,需要将记录映射为一个标识符,具有相同标识符的记录形成一个聚类,聚类中的记录两两比较。第一种循环遍历法主要特征是循环遍历所有的记录,每一次遍历,都会以该记录为中心记录,然后和所有其他未比较过的记录进行两两比较。这种方法下,任何两条记录都至少进行过一次比较,因此时间复杂度为O(n2),计算代价过高,效率低,不能处理增量数据对记录集带来的影响;第二种邻近排序法主要特征是选取记录中的一个或者多个字段对总体的记录集进行排序,对于排序后的记录集,指定大小固定或者动态变化的窗口,每条记录周围的数据根据窗口大小分为处于窗口内部的邻近记录和处于窗口外部的无关记录,每条记录都只和窗口内部的有限条邻近记录进行两两比较。这种方法的缺点是检测的准确率严重依赖于排序字段或关键字,如果选取不当将会造成很多潜在的重复记录在排序后的记录集中相隔距离过远,不能够落于指定的邻近范围内,导致这些本应该被检测出的重复记录不能够被有效发现,降低了检测的准确率;且用以指定邻近范围的滑动窗口大小难以确定,如果窗口过小,会影响检测的准确率;反之,如果窗口过大,会降低检测的效率;较大的检测记录集会造成时间代价或内存代价较高;在检测时,每次都必须读取所有的数据,不能适应动态、实时检测的要求;第三种基于散列法,主要技术特征是对记录进行数据压缩,为每条记录构造出一个对应的散列码(Hash Code)。对于拥有相同或者相近的Hash值的记录,则视为重复记录。这种方法避免了记录之间的两两比较,不以记录值直接判定,而是通过映射的方式寻找重复记录,其缺点是难以找到合适的能够有效避免Hash冲突的Hash函数,Hash计算方法复杂,而且计算获得的Hash码存在随机性,不能保证检测结果的幂等性;Hash函数只能为记录生成一个特定的散列码,压缩的信息会让近似重复的记录之间的相似性信息缺失,不能很好的反映记录中各个字段之间与内部的差异与联系。
发明内容
本发明技术解决问题:为了克服上述技术的不足,提供一种基于分词与索引技术的重复记录检测方法,提升了检测的效率
本发明技术解决方案:一种基于分词与索引技术的重复记录检测方法,步骤如下:
步骤1,获取待处理记录集r,从记录集的所有字段中选取待分词的字段集合f;
步骤2,遍历待处理记录集,根据步骤1中选取出的待分词字段集合f,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合w;
遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,并将得到的逆向索引持久化存储;
所述逆向索引结构为wi={r1,r2,,,rm},等号左边为键,等号右边为值,其中键为分词过程中出现过的某一个分词wi,值为包含该分词wi的记录对应的记录索引集合,集合中的rm为待处理记录的索引值;借助逆向索引能够根据某个分词查询到包含该分词的所有待处理记录的索引值rm,根据查询到的索引值rm进而查询到对应的待处理记录;
所述正向链集合结构为rj={{r11,r12,,,r1m},,,{rk1,rk2,,,rkm}},其中等号左边为键,等号右边为值,键rj为待处理记录的索引值,值为由集合元素组成的集合,值中集合元素的个数等于通过rj索引到的待处理记录的分词集合wj中的分词数,每个集合元素即为以wi为键的逆向索引的值;
步骤3,设置阈值,遍历记录待处理集r,根据步骤2中的正向链集合,获得候选记录对集合,每个候选记录对的结构为{r1,r2},其中r1、r2为待处理记录的索引;
步骤4,采用记录重复性计算算法,对所有的候选记录对{r1,r2}对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;
步骤5若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。
所述步骤2中,遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合的步骤如下:
(11)从待处理记录集r中取出一条记录,记录的索引为rk;
(12)根据步骤1中的字段集合f,对记录的待分词字段值进行分词,分词集合结果words={w1,w2,,,wi},wi表示分词,i表示该记录分词数量;
(13)判断wi是否已经出现过;
(14)如果未出现过,则构建逆向索引wi={},记录索引集合中的元素会随着遍历逐添加;
(15)将当前记录索引rk添加到wi对应的记录索引集合中;以当前记录索引rk为键,建立rk与wi的记录索引集合的映射关系,即rj链向wi的记录索引集合,当遍历结束,rk会根据记录的分词结果,链向多个记录索引集合;
(16)遍历待处理数据集结束,逆向索引与正向链集合构建完成。
所述步骤3中,获得候选记录对集合的过程如下:
(21)确定候选记录对的筛选标准;
(22)依次取出待处理记录集中r的记录rq;
(23)初始化候选记录对集合candidate为空;
(24)根据步骤3计算出的正向链集合,获得以记录rq为键的正向链集合的值,即记录rq对应的所有记录索引集合,每个记录索引集合代表与记录rq出现过某个相同分词的所有记录索引值;
(25)对所有记录索引集合中出现的记录进行统计;
(26)根据步骤(25)的统计结果和步骤(21)设定的筛选标准,判断统计结果中哪些记录满足和记录rq构成候选记录对的条件;
(27)将所有满足条件的记录分别和记录rq组成候选记录对添加到candidate集合中。
所述步骤5,对增量记录进行实时处理的过程如下:
获取增量记录集中的一条记录,对该增量记录进行分词处理;
若增量记录对应的是增加记录,如果分词不存在,则构建新的逆向索引,如果分词存在,则取出存储的逆向索引,将该记录索引加入逆向索引中的记录索引集合中,构建该记录的正向链集合;
对正向链集合中出现的记录索引进行统计,根据记录的正向链集合和设定的候选记录对删选标准,筛选出候选记录对;
采用记录重复性计算算法,对候选记录对是否重复进行检测,存储结果;
若增量记录对应的是删除操作,则删除所有已存储的该记录的记录索引,如果存在已检测出的重复记录,则删除该重复记录检测结果;
若增量记录对应的是更新操作,则对被更新的原记录执行一次删除操作,将更新后的记录当作新的纪录,执行一次增加操作。
本发明与现有技术相比的优点在于:
(1)本发明通过分词判断重复程度选择候选重复记录集,有效避免了记录的两两比较,提升了检测的效率。
(2)通过分词兼顾了字段的首尾以及内部的具体值的特点,能完整表现字段值的特征,避免了记录因为排序而相距甚远,不能够以有限的窗口覆盖潜在重复记录对的问题,体现出的优点是在维持较低的计算复杂度的同时,提高了检测的精度。
(3)每条记录通过分词被建立了多个映射关系,综合处理每个集合筛选候选重复记录,不需要复杂的Hash函数的计算,也能够避免单一的散列值忽略了记录其他有用信息,提高了检测效率。
(4)构建的正向链集合,可以存储于持久化存储介质中,对于增量数据可以实时更新构建完成的集合,实时地对增量数据进行重复检测,更新最新的检测结果,从而实现对增量数据的处理和动态检测的支持。
附图说明
图1为构建正向链集合的流程图;
图2为基于构建的正向链集合,进行候选记录对计算与比较;
图3为逆向索引数据结构示意图;
图4为正向链集合数据结构示意图。
具体实施方式
在阐述本发明之前先对术语进行说明。
假设存在四条记录,其分词结果如下所示:
1:W1 W2 W3
2:W2 W4 W5 W6
3:W1 W3 W4 W6
4:W2 W3 W4 W6
逆向索引
如图3所示,所述逆向索引结构为wi={r1,r2,,,rm},等号左边为键,等号右边为值。其中键为分词过程中出现过的某一个分词wi,值为包含该分词wi的记录对应的记录索引集合,集合中的rm为待处理记录的索引值;借助逆向索引能够根据某个分词查询到包含该分词的所有待处理记录的索引值rm,根据查询到的索引值rm进而查询到对应的待处理记录。
正向链集合
如图4所示,所述正向链集合结构为rj={{r11,r12,,,r1m},,,{rk1,rk2,,,rkm}},其中等号左边为键,等号右边为值,键rj为待处理记录的索引值,值为由集合元素组成的集合,值中集合元素的个数等于通过rj索引到的待处理记录的分词集合wj中的分词数,每个集合元素即为以wi为键的逆向索引的值。
如图1所示,本发明具体实施方式如下:
步骤1,获取待处理记录集r,从记录集的所有字段中选取待分词的字段集合f;
步骤2,遍历待处理记录集,根据步骤1中选取出的待分词字段集合f,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合w;
遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,并将得到的逆向索引持久化存储;
步骤3,设置阈值,遍历记录待处理集r,根据步骤(2)中的正向链集合,获得候选记录对集合,每个候选记录对的结构为{r1,r2},其中r1、r2为待处理记录的索引;
步骤4,采用记录重复性计算算法,对所有的候选记录对{r1,r2}对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;
步骤5若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。
所述步骤2中,遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合的步骤如下:
(11)从待处理记录集r中取出一条记录,记录的索引为rk;
(12)根据步骤1中的字段集合f,对记录的待分词字段值进行分词,分词集合结果words={w1,w2,,,wi},wi表示分词,i表示该记录分词数量;
(13)通过字符串匹配的方式,查找wi,判断wi是否已经出现过;
(14)如果未出现过,则构建逆向索引wi={},记录索引集合中的元素会随着遍历逐渐添加;
(15)将当前记录索引rk添加到wi对应的记录索引集合中;以当前记录索引rk为键,建立rk与wi的记录索引集合的映射关系,即rj链向wi的记录索引集合,当遍历结束,rk会根据记录的分词结果,链向多个记录索引集合;
(16)遍历待处理数据集结束,逆向索引与正向链集合构建完成。
所述步骤3中,获得候选记录对集合的过程如下(如图2所示):
(21)如图2所示,首先确定候选记录对的筛选标准,本实施例使用基于阈值的筛选标准,即判断出现的记录是否满足重复程度阈值threshold。
记num1为两条记录的分词集合的交集中分词的个数,num2为两条记录的分词集合的并集中分词的个数,则存在判断num1/num2>threshold?。当num1/num2大于threshold时,两条记录为候选记录对,否则不是。
(22)依次取出待处理记录集中r的记录rq;
(23)初始化候选记录对集合candidate为空;
(24)根据步骤2计算出的正向链集合,获得以记录rq为键的正向链集合的值,即记录rq对应的所有记录索引集合,每个记录索引集合代表与记录rq出现过某个相同分词的所有记录索引值。是否取出所有记录索引集合的判断依据为图2所示“是否还存在记录索引集合”;
(25)对所有记录索引集合中出现的记录进行统计,即统计每条记录出现过的分词,获得rq对应的记录索引集合中的记录和rq比较时的num1和num2;
(26)根据步骤(25)的统计结果num1和num2和步骤(21)设定的筛选标准threshold,判断统计结果中哪些记录能够和记录rq构成候选记录对;
(27)将满足num1/num2>threshold的记录与记录rq组成候选记录对,添加到candidate集合中。
所述步骤5,对增量记录进行实时处理的过程如下:
获取增量记录集中的一条记录,对该增量记录进行分词处理;
若增量记录对应的是增加记录,如果分词不存在,则构建新的逆向索引,如果分词存在,则取出数据库中存储的逆向索引,将该记录索引加入逆向索引中的记录索引集合中,构建该记录的正向链集合;
对正向链集合中出现的记录索引进行统计,根据记录的正向链集合和设定的候选记录对删选标准,筛选出候选记录对;
采用记录重复性计算算法,对候选记录对是否重复进行检测,存储结果至数据库中;
若增量记录对应的是删除操作,则删除所有已存储于数据库中的该记录的记录索引,如果存在已检测出的重复记录,则删除该重复记录检测结果;
若增量记录对应的是更新操作,则对被更新的原记录执行一次删除操作,将更新后的记录当作新的纪录,执行一次增加操作。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (4)

1.一种基于分词与索引技术的重复记录检测方法,其特征在于步骤如下:
步骤1,获取待处理记录集r,从记录集的所有字段中选取待分词的字段集合f;
步骤2,遍历待处理记录集,根据步骤1中选取出的待分词字段集合f,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合w;
遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,并将得到的逆向索引持久化存储;
所述逆向索引结构为wi={r1,r2,,,rm},等号左边为键,等号右边为值,其中键为分词过程中出现过的某一个分词wi,值为包含该分词wi的记录对应的记录索引集合,集合中的rm为待处理记录的索引值;借助逆向索引能够根据某个分词查询到包含该分词的所有待处理记录的索引值rm,根据查询到的索引值rm进而查询到对应的待处理记录;
所述正向链集合结构为rj={{r11,r12,,,r1m},,,{rk1,rk2,,,rkm}},其中等号左边为键,等号右边为值,键rj为待处理记录的索引值,值为由集合元素组成的集合,值中集合元素的个数等于通过rj索引到的待处理记录的分词集合wj中的分词数,每个集合元素即为以wi为键的逆向索引的值;
步骤3,设置阈值,遍历记录待处理集r,根据步骤2中的正向链集合,获得候选记录对集合,每个候选记录对的结构为{r1,r2},其中r1、r2为待处理记录的索引;
步骤4,采用记录重复性计算算法,对所有的候选记录对{r1,r2}对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;
步骤5,若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。
2.根据权利要求1所述的基于分词与索引技术的重复记录检测方法,其特征在于:所述步骤2中,遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合的步骤如下:
(11)从待处理记录集r中取出一条记录,记录的索引为rk;
(12)根据步骤1中的字段集合f,对记录的待分词字段值进行分词,分词集合结果words={w1,w2,,,wi},wi表示分词,i表示该记录分词数量;
(13)判断wi是否已经出现过;
(14)如果未出现过,则构建逆向索引wi={},记录索引集合中的元素会随着遍历逐渐添加;
(15)将当前记录索引rk添加到wi对应的记录索引集合中;以当前记录索引rk为键,建立rk与wi的记录索引集合的映射关系,即rj链向wi的记录索引集合,当遍历结束,rk会根据记录的分词结果,链向多个记录索引集合;
(16)遍历待处理数据集结束,逆向索引与正向链集合构建完成。
3.根据权利要求1所述的基于分词与索引技术的重复记录检测方法,其特征在于:所述步骤3中,获得候选记录对集合的过程如下:
(21)确定候选记录对的筛选标准;
(22)依次取出待处理记录集中r的记录rq;
(23)初始化候选记录对集合candidate为空;
(24)根据步骤2计算出的正向链集合,获得以记录rq为键的正向链集合的值,即记录rq对应的所有记录索引集合,每个记录索引集合代表与记录rq出现过某个相同分词的所有记录索引值;
(25)对所有记录索引集合中出现的记录进行统计;
(26)根据步骤(25)的统计结果和步骤(21)设定的筛选标准,判断统计结果中哪些记录满足和记录rq构成候选记录对的条件;
(27)将所有满足条件的记录分别和记录rq组成候选记录对添加到candidate集合中。
4.根据权利要求1所述的基于分词与索引技术的重复记录检测方法,其特征在于:所述步骤5,对增量记录进行实时处理的过程如下:
获取增量记录集中的一条记录,对该增量记录进行分词处理;
若增量记录对应的是增加记录,如果分词不存在,则构建新的逆向索引,如果分词存在,则取出存储的逆向索引,将该记录索引加入逆向索引中的记录索引集合中,构建该记录的正向链集合;
对正向链集合中出现的记录索引进行统计,根据记录的正向链集合和设定的候选记录对筛选标准,筛选出候选记录对;
采用记录重复性计算算法,对候选记录对是否重复进行检测,存储结果;
若增量记录对应的是删除操作,则删除所有已存储的该记录的记录索引,如果存在已检测出的重复记录,则删除该重复记录检测结果;
若增量记录对应的是更新操作,则对被更新的原记录执行一次删除操作,将更新后的记录当作新的纪录,执行一次增加操作。
CN201710338278.3A 2017-05-15 2017-05-15 一种基于分词与索引技术的重复记录检测方法 Active CN107133335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710338278.3A CN107133335B (zh) 2017-05-15 2017-05-15 一种基于分词与索引技术的重复记录检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710338278.3A CN107133335B (zh) 2017-05-15 2017-05-15 一种基于分词与索引技术的重复记录检测方法

Publications (2)

Publication Number Publication Date
CN107133335A true CN107133335A (zh) 2017-09-05
CN107133335B CN107133335B (zh) 2020-06-02

Family

ID=59733067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710338278.3A Active CN107133335B (zh) 2017-05-15 2017-05-15 一种基于分词与索引技术的重复记录检测方法

Country Status (1)

Country Link
CN (1) CN107133335B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008205A (zh) * 2019-03-21 2019-07-12 哈尔滨理工大学 一种监控系统冗余数据清洗方法
CN110717328A (zh) * 2019-07-04 2020-01-21 北京达佳互联信息技术有限公司 文本识别方法、装置、电子设备及存储介质
CN111104398A (zh) * 2019-12-17 2020-05-05 智慧航海(青岛)科技有限公司 针对智能船舶近似重复记录的检测方法、消除方法
CN111736774A (zh) * 2020-06-17 2020-10-02 北京三快在线科技有限公司 冗余数据的处理方法、装置、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2202217A1 (en) * 1996-11-18 1998-05-18 Wesley C. Sampson Method and apparatus for classifying raw data entries according to data patterns
CN101676899A (zh) * 2008-09-18 2010-03-24 上海宝信软件股份有限公司 海量数据库记录的归档和查询方法
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
US20120036112A1 (en) * 2010-08-09 2012-02-09 Lexisnexis Risk Data Management Inc. System of and Method for Entity Representation Splitting Without The Need for Human Interaction
CN104252445A (zh) * 2013-06-26 2014-12-31 华为技术有限公司 文档相似度计算方法、近似重复文档检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2202217A1 (en) * 1996-11-18 1998-05-18 Wesley C. Sampson Method and apparatus for classifying raw data entries according to data patterns
CN101676899A (zh) * 2008-09-18 2010-03-24 上海宝信软件股份有限公司 海量数据库记录的归档和查询方法
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
US20120036112A1 (en) * 2010-08-09 2012-02-09 Lexisnexis Risk Data Management Inc. System of and Method for Entity Representation Splitting Without The Need for Human Interaction
CN104252445A (zh) * 2013-06-26 2014-12-31 华为技术有限公司 文档相似度计算方法、近似重复文档检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆游游 等: "一种基于重复数据删除的备份系统", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008205A (zh) * 2019-03-21 2019-07-12 哈尔滨理工大学 一种监控系统冗余数据清洗方法
CN110717328A (zh) * 2019-07-04 2020-01-21 北京达佳互联信息技术有限公司 文本识别方法、装置、电子设备及存储介质
CN111104398A (zh) * 2019-12-17 2020-05-05 智慧航海(青岛)科技有限公司 针对智能船舶近似重复记录的检测方法、消除方法
CN111104398B (zh) * 2019-12-17 2023-08-29 智慧航海(青岛)科技有限公司 针对智能船舶近似重复记录的检测方法、消除方法
CN111736774A (zh) * 2020-06-17 2020-10-02 北京三快在线科技有限公司 冗余数据的处理方法、装置、服务器及存储介质
CN111736774B (zh) * 2020-06-17 2024-02-23 北京三快在线科技有限公司 冗余数据的处理方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN107133335B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN106709035B (zh) 一种电力多维全景数据的预处理系统
CN107133335A (zh) 一种基于分词与索引技术的重复记录检测方法
US20090055332A1 (en) Method of generating association rules from data stream and data mining system
US9720986B2 (en) Method and system for integrating data into a database
Vieira et al. Querying trajectories using flexible patterns
Bahi et al. Data aggregation for periodic sensor networks using sets similarity functions
CN107291895B (zh) 一种快速的层次化文档查询方法
CN111104398B (zh) 针对智能船舶近似重复记录的检测方法、消除方法
CN107577605A (zh) 一种面向软件缺陷预测的特征聚类选择方法
CN109325062B (zh) 一种基于分布式计算的数据依赖挖掘方法及系统
Zhang et al. TARDIS: Distributed indexing framework for big time series data
CN109656798A (zh) 基于顶点重排序的超级计算机大数据处理能力测试方法
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
CN112085125A (zh) 基于线性自学习网络的缺失值填补方法、存储介质及系统
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
Aljubayrin et al. Finding non-dominated paths in uncertain road networks
CN104361135A (zh) 一种图像检索方法
CN105447519A (zh) 基于特征选择的模型检测方法
Yadamjav et al. Querying recurrent convoys over trajectory data
Luaces et al. Leveraging Bitmap Indexing for Subgraph Searching.
Chatzigeorgakidis et al. Local pair and bundle discovery over co-evolving time series
CN116226468B (zh) 基于网格化终端业务数据存储管理方法
Wang et al. Stull: Unbiased online sampling for visual exploration of large spatiotemporal data
Chatzigeorgakidis et al. Local similarity search on geolocated time series using hybrid indexing
Huang et al. Apriori-BM algorithm for mining association rules based on bit set matrix

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210506

Address after: 100085 room 1008, 10 / F, block F, No.9, Shangdi 3rd Street, Haidian District, Beijing

Patentee after: Beijing easy to use Lianyou Technology Co.,Ltd.

Address before: 100191 No. 37, Haidian District, Beijing, Xueyuan Road

Patentee before: BEIHANG University

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 1601, 14th Floor, No. 27 Zhichun Road, Haidian District, Beijing, 100086

Patentee after: Beijing easy to use Lianyou Technology Co.,Ltd.

Address before: 100085 room 1008, 10 / F, block F, No.9, Shangdi 3rd Street, Haidian District, Beijing

Patentee before: Beijing easy to use Lianyou Technology Co.,Ltd.