CN110941598A - 一种数据去重方法、装置、终端及存储介质 - Google Patents

一种数据去重方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN110941598A
CN110941598A CN201911216108.3A CN201911216108A CN110941598A CN 110941598 A CN110941598 A CN 110941598A CN 201911216108 A CN201911216108 A CN 201911216108A CN 110941598 A CN110941598 A CN 110941598A
Authority
CN
China
Prior art keywords
data
attribute
deduplication
similarity
duplicate removal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911216108.3A
Other languages
English (en)
Inventor
李鹏飞
谢永恒
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201911216108.3A priority Critical patent/CN110941598A/zh
Publication of CN110941598A publication Critical patent/CN110941598A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明实施例公开了一种数据去重方法、装置、终端及存储介质。该方法包括:获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量;根据属性相似度向量,以及与数据属性集合匹配的属性权重向量,计算任意两个第一去重数据间的数据相似度;根据计算得到的数据相似度,对第一去重数据集进行去重处理。本发明实施例所提供的技术方案,解决了现有技术针对非结构化数据去重效果不理想的问题,实现了对非结构化数据的准确去重,提高了数据去重的效率,节约了数据入库的时间及数据占用的硬件成本。

Description

一种数据去重方法、装置、终端及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据去重方法、装置、终端及存储介质。
背景技术
在当今的大数据时代,随着信息化的发展,企业要处理的数据爆炸式增长,由此带来了一系列的问题。大量重复数据的产生,使得系统中无用的负载越来越大,数据入库和查询性能随之下降。在不增加成本的情况下,如何发挥系统的最大性能,提高入库和查询的性能,是当前企业面临的难题。
现有技术通常采用计算数据的信息摘要算法(Message-Digest Algorithm,MD5)值及安全散列算法1(Secure Hash Algorithm 1,SHA-1)值的方法来实现数据的去重,但该方法针对海量的非结构化数据的处理结果不能满足企业的需求,处理后仍然存在大量重复数据入库的问题,从而增加了硬件成本,同时也消耗了大量的存储时间。
发明内容
本发明实施例提供一种数据去重方法、装置、终端及存储介质,以提高数据去重效率,节约数据入库的时间及数据占用的硬件成本。
第一方面,本发明实施例提供了一种数据去重方法,该方法包括:
获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量;
根据属性相似度向量,以及与数据属性集合匹配的属性权重向量,计算任意两个第一去重数据间的数据相似度;
根据计算得到的数据相似度,对第一去重数据集进行去重处理。
第二方面,本发明实施例还提供了一种数据去重装置,该装置包括:
属性相似度向量计算模块,用于获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量;
数据相似度计算模块,用于根据属性相似度向量,以及与数据属性集合匹配的属性权重向量,计算任意两个第一去重数据间的数据相似度;
去重处理模块,用于根据计算得到的数据相似度,对第一去重数据集进行去重处理。
第三方面,本发明实施例还提供了一种终端,该终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的数据去重方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的数据去重方法。
本发明实施例提供了一种数据去重方案,通过对数据之间的相同属性进行相似性检测以获得数据之间的属性相似度向量,并为各个属性设置相应的权重,再根据属性相似度向量及对应的属性权重向量,计算数据间的数据相似度,最后根据计算得到的数据相似度对数据进行去重处理。解决了现有技术针对非结构化数据去重效果不理想的问题,实现了对非结构化数据的准确去重,提高了数据去重的效率,节约了数据入库的时间及数据占用的硬件成本。
附图说明
图1是本发明实施例一提供的数据去重方法的流程图;
图2是本发明实施例二提供的数据去重方法的流程图;
图3是本发明实施例三提供的数据去重装置的结构示意图;
图4是本发明实施例四提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的数据去重方法的流程图。本实施例可适用于数据在入库前需要对数据进行去重的情况,特别针对非结构化数据,该方法可以由本发明实施例提供的数据去重装置来执行,该装置可以由硬件和/或软件的方式来实现,一般可集成于计算机设备中。如图1所示,具体包括如下步骤:
S11、获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量。
一般在数据去重的过程中,均是针对某一种数据类型进行去重,即针对一批相同数据类型数据的存储任务进行去重处理。在进行批量数据的去重处理之前,首先可以按照数据类型将数据进行分类,以保证每个类别的数据集中的数据类型均相同,进而可以以数据集为单位进行数据的去重处理。
其中,第一去重数据集即为一批属于同一数据类型的,且需要进行去重处理的数据构成的集合,数据属性集合为包括对数据本身有价值并使各数据产生特异性的属性类型构成的集合,对于不同的数据类型,数据属性集合中包括的属性类型不尽相同。
可选的,设定数据类型包括视频、图片、音频或者文本等。其中,视频可以看成是由多个图片组成的一种数据类型,包括的属性类型可以在图片属性的基础上增加帧及图片数等,图片的属性类型可包括像素、分辨率、大小、颜色、位深、色调、饱和度、亮度、色彩通道及图像的层次等等,音频的属性类型可包括采样频率、采样位数、通道数、比特率及波特率等等,文本的属性类型可包括字符串内容、字符串编辑距离、字符间距、文本缩进及字体颜色等等。对于具体的设定数据类型及各设定数据类型包括的属性类型,本发明实施例不作具体限制。
在本实施例中,数据去重过程采用后去重方式,可选的,将第一去重数据存入分布式文件系统,比较常用的如海杜普分布式文件系统(Hadoop Distributed File System,HDFS),以通过分布式的方式执行数据去重方法,从而实现流式数据访问,并提高了数据的容错性和吞吐量。可选的,对于数据量较小的第一去重数据集,可以将所有第一去重数据存入分布式文件系统后进行去重处理,对于数据量较大的第一去重数据集,可以按照设定的时间间隔进行定时去重,以减轻分布式文件系统的压力。
根据数据属性集合获取各第一去重数据分别包括的数据属性,即各第一去重数据中各个属性类型对应的属性值,再分别计算第一去重数据间同一属性的相似度,并将第一去重数据间各个属性的相似度构成属性相似度向量。可选的,计算属性相似度的方法包括曼哈顿距离法、欧式距离法、余弦相似度法、马氏距离法及汉明距离法等。
可选的,可以根据各第一去重数据间包含的相同数据属性的情况,以及数据属性集合中包括的全部数据属性,计算第一去重数据间的属性相似度向量。
在一个具体例子中,数据属性集合为{数据属性1、数据属性2、数据属性3、数据属性4、数据属性5}计算第一去重数据A与第一去重数据B之间的属性相似度相同,第一去重数据A中包括的数据属性为:数据属性1、数据属性3、和数据属性4,第一去重数据B中包括的数据属性为:数据属性1、数据属性2、和数据属性3,进而可以根据该数据属性集合中各数据属性的排布方式,计算第一去重数据A与第一去重数据B之间的属性相似度向量为(1,0,1,0,0),其中,该属性相似度向量为1处,表示第一去重数据A与第一去重数据B在数据属性集合中对应位置的数据属性相同,该属性相似度向量为0处,表示第一去重数据A与第一去重数据B在数据属性集合中对应位置的数据属性不同。
S12、根据所述属性相似度向量,以及与所述数据属性集合匹配的属性权重向量,计算任意两个所述第一去重数据间的数据相似度。
其中,属性权重向量是根据属性的重要程度,为各个属性确定的相应权重构成的向量,且各个属性的权重值之和为1。可选的,通过接收用户根据相关经验对各属性权重的设置确定属性权重向量,也可以通过对一部分第一去重数据的属性进行分析,统计各属性的不同取值数量,进而判断各属性对数据特异性贡献的大小以确定属性权重向量。
然后根据属性相似度向量以及与数据属性集合匹配的属性权重向量,计算任意两个第一去重数据间的数据相似度。即将第一去重数据两两组合,在计算两个第一去重数据间属性相似度向量完成后,可选的,将各个属性相似度数据分别与对应的权重相乘,并将相乘的结果相加以获得两个第一去重数据间的数据相似度。示例性的,第一去重数据包括三个属性类型,其中两个第一去重数据间属性相似度分别为30%、50%和80%,则两个第一去重数据间的属性相似度向量为(0.3,0.5,0.8),同时与数据属性集合匹配的属性权重向量为(0.5,0.3,0.2),则两个第一去重数据间的数据相似度为0.3×0.5+0.5×0.3+0.8×0.2=0.46,即两个第一去重数据间的数据相似度为46%。
S13、根据计算得到的所述数据相似度,对所述第一去重数据集进行去重处理。
可选的,对于任意两个第一去重数据,若计算得到的数据相似度高于设定的相似度阈值,则将该两个第一去重数据的其中一个作为重复数据删除。可选的,在对第一去重数据集进行去重处理之后,即完成了所有两两组合的第一去重数据间的重复数据删除任务后,将去重处理后的第一去重数据集存入数据库。其中,数据库可包括HBase、Oracle或MySQL等。
可选的,在对第一去重数据集进行去重处理之前,将需要删除的第一去重数据保存在重复统计数据库中。其中,重复统计数据库可以与去重处理后的第一去重数据集存入的数据库类型相同或不同,只是需要将重复的数据进行单独存放,从而在减轻第一去重数据集存入的数据库的存储压力基础上,仍保存被认定为重复的数据,以便于在后续处理中为在需要时取回数据提供方便。被认定为重复的数据只是在一定范围内被认定重复,可能并非真正重复的数据,所以并不直接将其舍弃。
在上述技术方案的技术上,可选的,在获取设定数据类型的第一去重数据集之前,还包括:确定目标去重数据集中各目标去重数据的结构类型;获取结构类型为非结构化数据目标去重数据,加入至第一去重数据集中。
由于上述数据去重方法更适用于非结构化数据目标去重数据,所以在获取第一去重数据集之前,可以对存入分布式文件系统的数据进行类型判断,若该数据为非结构化数据目标去重数据,则将其作为第一去重数据加入第一去重数据集中。通过判断目标去重数据的类型,使得利用上述数据去重方法实现数据去重更具有针对性。
在上述技术方案的技术上,可选的,在确定目标去重数据集中各目标去重数据的结构类型之后,还包括:获取结构类型为结构化数据目标去重数据,加入至第二去重数据集中;获取第二去重数据集中各第二去重数据的信息摘要算法值;根据信息摘要算法值,对第二去重数据集进行去重处理。
在对存入分布式文件系统的数据进行类型判断之后,若该数据为结构化数据目标去重数据,则将其作为第二去重数据加入第二去重数据集中。然后计算第二去重数据集中各第二去重数据的信息摘要算法值(Message-Digest Algorithm 5,MD5),其中,MD5用于确保信息传输完整一致,是计算机领域广泛使用的杂凑算法之一,具有压缩性、容易计算、抗修改性以及强抗碰撞等特点。可选的,计算数据对应的MD5值,以区分每条数据。如果第二去重数据集中存在MD5值相同的至少两个第二去重数据,则认为该至少两个第二去重数据互为重复数据,并保留其中一个第二去重数据后删除其他第二去重数据,以实现第二去重数据集的去重处理。
可选的,在计算数据的MD5值时,可以根据业务系统的需求,将一些数据属性设置为忽略字段,从而达到更好的去重效果。如数据的端口号及时间标识等,这些字段都是系统随机产生的,对数据本身的价值没有作用,若这些字段不同,而其余字段相同,则可视为同一条数据。可选的,将需要删除的第二去重数据保存在重复统计数据库中,以便于在后续处理中为在需要时取回数据提供方便。
通过判断目标去重数据的结构类型,并将结构化数据目标去重数据利用计算MD5值的方式进行去重处理,使得对在存储形式上不同类型的数据采用不同的去重方式,以进一步提高对数据去重的效率,节约数据入库的时间及占用的硬件成本。
在上述技术方案的技术上,可选的,在根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量之前,还包括:如果确定第一去重数据集的数据类型为文本类型,则根据各第一去重数据的字符串长度,计算任意两个第一去重数据间的字符串长度之差;根据任意两个第一去重数据的字符串长度,任意两个第一去重数据间的字符串长度之差以及预设的相似度阈值,在第一去重数据集中标注非重复数据对;根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量,包括:根据数据属性集合和与各第一去重数据分别包括的数据属性,计算除去非重复数据对之外的任意两两第一去重数据间的属性相似度向量。
如果确定第一去重数据集的数据类型为文本类型,则字符串编辑距离是一个相对重要的数据属性,在对文本数据进行去重处理时,需要计算任意两个第一去重数据间的字符串编辑距离来检测数据的相似性。由于计算得到的任意两个字符串的编辑距离一定不比两个字符串的长度之差小,如果设定两个字符串的预设相似度阈值为β,则两个字符串的长度之差不能超过max(x|,|y)*(1-β)。其中,|x|与|y|分别为两个字符串的长度。因此,可选的,利用上式对任意两个第一去重数据进行基于字符串长度的过滤,即在两个第一去重数据中字符串长度之差大于上式时,将该两个第一去重数据标注为非重复数据对,并且在后续的数据去重处理中,不再对该两个第一去重数据进行相似度的判断,即不再需要计算该两个第一去重数据间的属性相似度向量。
当第一去重数据集的数据类型为文本类型时,通过对任意两个第一去重数据进行基于字符串长度的过滤,大大减少了不必要的字符串编辑距离的计算时间,从而进一步提高了对第一去重数据的去重检测效率。
本发明实施例所提供的技术方案,通过对数据之间的相同属性进行相似性检测以获得数据之间的属性相似度向量,并为各个属性设置相应的权重,再根据属性相似度向量及对应的属性权重向量,计算数据间的数据相似度,最后根据计算得到的数据相似度对数据进行去重处理。解决了现有技术针对非结构化数据去重效果不理想的问题,实现了对非结构化数据的准确去重,提高了数据去重的效率,节约了数据入库的时间及数据占用的硬件成本。
实施例二
图2为本发明实施例二提供的数据去重方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,具体的,在本实施例中,将属性权重向量的确定过程进一步说明,相应的,如图2所示,具体包括如下步骤:
S21、取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量。
S22、根据至少一个用户为所述数据属性集合中各数据属性分别确定的等级,确定与所述数据属性集合对应的等级向量。
首先接收至少一个用户根据相关经验为数据属性集合中各数据属性指定的等级,可选的,分别采用均值法对各数据属性计算最终统一等级,即对至少一个用户对各属性指定的等级取平均值。生成的属性等级表如表1所示,其中,Ak表示第k个属性,Um表示第m个用户,Gmk表示接收到的第m个用户对第k个属性所指定的等级,Gk表示各数据属性的最终统一等级。再根据各数据属性的最终统一等级生成数据属性集合对应的等级向量,即G=(G1,G2,…,Gk)。
表1
Figure BDA0002299559560000101
Figure BDA0002299559560000111
S23、至少一次随机抽取预设数量的所述第一去重数据,并根据随机抽取的所述第一去重数据,计算所述数据属性集合中各所述数据属性的属性值取值数量。
至少一次的随机抽取预设数量的第一去重数据,并获取预设数量的第一去重数据中各第一去重数据对应数据属性集合中各数据属性的属性值,然后针对同一属性,计算在预设数量的第一去重数据中不同属性值取值的数量。其中,属性的取值数量越大,则表明该属性对数据产生特异性的贡献越多,也就表明该属性在判定数据重复的任务中更重要。可选的,在计算在预设数量的第一去重数据中不同属性值取值的数量时,可以设定一定的阈值,如果两个属性值取值之间的差别大于该阈值,则将该两个属性值取值确定为不同取值。
S24、根据各抽取次数下计算得到的各所述数据属性的属性值取值数量,确定与所述数据属性集合对应的属性取值种类数向量。
可选的,根据各抽取次数下计算得到的各数据属性的属性值取值数量,分别采用均值法计算数据属性集合中各数据属性的最终取值种类数,再根据各数据属性的最终取值种类数生成数据属性集合对应的属性取值种类数向量。生成的属性值种类表如表2所示,其中,Ak表示第k个属性,Tn表示第n次操作,Cnk表示第n次第k个属性的取值数量,Ck表示各数据属性的最终取值种类数,生成的属性取值种类数向量即为C=(C1,C2,…,Ck)。
表2
操作 A<sub>1</sub> A<sub>2</sub> A<sub>k</sub>
T<sub>1</sub> C<sub>11</sub> C<sub>12</sub> C<sub>1k</sub>
T<sub>2</sub> C<sub>21</sub> C<sub>22</sub> C<sub>2k</sub>
T<sub>n</sub> C<sub>n1</sub> C<sub>n2</sub> C<sub>nk</sub>
最终取值种类数 C<sub>1</sub> C<sub>2</sub> C<sub>k</sub>
S25、根据所述等级向量与所述属性取值种类数向量,确定所述属性权重向量。
数据属性集合对应的等级向量为G=(G1,G2,…,Gk),数据属性集合对应的属性取值种类数向量为C=(C1,C2,…,Ck),确定的属性权重向量为W=(W1,W2,…Wk)。可选的,通过公式
Figure BDA0002299559560000121
计算得到属性权重向量,即将等级向量和属性取值种类数向量的重要性设置为相同,以全面统计各数据属性的重要程度,生成合理的属性权重向量。
S26、根据所述属性相似度向量,以及与所述数据属性集合匹配的属性权重向量,计算任意两个所述第一去重数据间的数据相似度。
S27、根据计算得到的所述数据相似度,对所述第一去重数据集进行去重处理。
本发明实施例所提供的技术方案,通过根据接收到的用户为各数据属性指定的等级确定等级向量,又根据至少一次随机抽取预设数量的第一去重数据确定属性取值种类数向量,再根据等级向量与属性取值种类数向量确定最终的属性权重向量。从而更全面的统计各数据属性的重要性,以生成合理的属性权重向量,更接近属性对数据产生特异性贡献的真实重要程度,以便在后续的数据去重处理中,更准确的判断第一去重数据间的重复情况。
实施例三
图3为本发明实施例三提供的数据去重装置的结构示意图,该装置可以由硬件和/或软件的方式来实现,并可集成于计算机设备中,用于执行本发明任意实施例所提供的数据去重方法。如图3所示,该装置包括:
属性相似度向量计算模块31,用于获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量;
数据相似度计算模块32,用于根据属性相似度向量,以及与数据属性集合匹配的属性权重向量,计算任意两个第一去重数据间的数据相似度;
去重处理模块33,用于根据计算得到的数据相似度,对第一去重数据集进行去重处理。
本发明实施例所提供的技术方案,通过对数据之间的相同属性进行相似性检测以获得数据之间的属性相似度向量,并为各个属性设置相应的权重,再根据属性相似度向量及对应的属性权重向量,计算数据间的数据相似度,最后根据计算得到的数据相似度对数据进行去重处理。解决了现有技术针对非结构化数据去重效果不理想的问题,实现了对非结构化数据的准确去重,提高了数据去重的效率,节约了数据入库的时间及数据占用的硬件成本。
在上述技术方案的基础上,可选的,该装置还包括:
等级向量确定模块,用于在根据属性相似度向量,以及与数据属性集合匹配的属性权重向量,计算任意两个第一去重数据间的数据相似度之前,根据至少一个用户为数据属性集合中各数据属性分别确定的等级,确定与数据属性集合对应的等级向量;
属性值取值数量计算模块,用于至少一次随机抽取预设数量的第一去重数据,并根据随机抽取的第一去重数据,计算数据属性集合中各数据属性的属性值取值数量;
属性取值种类数向量确定模块,用于根据各抽取次数下计算得到的各数据属性的属性值取值数量,确定与数据属性集合对应的属性取值种类数向量;
属性权重向量确定模块,用于根据等级向量与属性取值种类数向量,确定属性权重向量。
在上述技术方案的基础上,可选的,该装置还包括:
字符串长度之差计算模块,用于在根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量之前,如果确定第一去重数据集的数据类型为文本类型,则根据各第一去重数据的字符串长度,计算任意两个第一去重数据间的字符串长度之差;
非重复数据对标注模块,用于根据任意两个第一去重数据的字符串长度,任意两个第一去重数据间的字符串长度之差以及预设的相似度阈值,在第一去重数据集中标注非重复数据对;
相应的,属性相似度向量计算模块31具体用于:
根据数据属性集合和与各第一去重数据分别包括的数据属性,计算除去非重复数据对之外的任意两两第一去重数据间的属性相似度向量。
在上述技术方案的基础上,可选的,该装置还包括:
结构类型确定模块,用于确定目标去重数据集中各目标去重数据的结构类型;
第一去重数据集构建模块,用于获取结构类型为非结构化数据目标去重数据,加入至第一去重数据集中。
在上述技术方案的基础上,可选的,该装置还包括:
第二去重数据集构建模块,用于在确定目标去重数据集中各目标去重数据的结构类型之后,获取结构类型为结构化数据目标去重数据,加入至第二去重数据集中;
信息摘要算法值获取模块,用于获取第二去重数据集中各第二去重数据的信息摘要算法值;
第二去重数据集去重处理模块,用于根据信息摘要算法值,对第二去重数据集进行去重处理。
在上述技术方案的基础上,可选的,该装置还包括:
第一删除数据保存模块,用于在根据计算得到的数据相似度,对第一去重数据集进行去重处理之前,将需要删除的第一去重数据保存在重复统计数据库中;
第二删除数据保存模块,用于在根据信息摘要算法值,对第二去重数据集进行去重处理之前,将需要删除的第二去重数据保存在重复统计数据库中。
在上述技术方案的基础上,可选的,该装置还包括:
数据存入模块,用于在获取设定数据类型的第一去重数据集之前,将第一去重数据存入分布式文件系统,以通过分布式的方式执行数据去重方法;
相应的,该装置还包括:
入库模块,用于在根据计算得到的数据相似度,对第一去重数据集进行去重处理之后,将去重处理后的第一去重数据集存入数据库。
本发明实施例所提供的数据去重装置可执行本发明任意实施例所提供的数据去重方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,在上述数据去重装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图4为本发明实施例四提供的一种终端的结构示意图,示出了适于用来实现本发明实施方式的示例性终端的框图。图4显示的终端仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,该终端包括处理器41、存储器42、输入装置43及输出装置44;终端中处理器41的数量可以是一个或多个,图4中以一个处理器41为例,终端中的处理器41、存储器42、输入装置43及输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据去重方法对应的程序指令/模块(例如,数据去重装置中的属性相似度向量计算模块31、数据相似度计算模块32及去重处理模块33)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行终端的各种功能应用以及数据处理,即实现上述的数据去重方法。
存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于接收需要进行去重处理的数据,以及产生与终端的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备,还可用于向数据库发送去重后数据。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,该计算机可执行指令在由计算机处理器执行时用于执行一种数据去重方法,该方法包括:
获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量;
根据属性相似度向量,以及与数据属性集合匹配的属性权重向量,计算任意两个第一去重数据间的数据相似度;
根据计算得到的数据相似度,对第一去重数据集进行去重处理。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据去重方法中的相关操作。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据去重方法,其特征在于,包括:
获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量;
根据所述属性相似度向量,以及与所述数据属性集合匹配的属性权重向量,计算任意两个所述第一去重数据间的数据相似度;
根据计算得到的所述数据相似度,对所述第一去重数据集进行去重处理。
2.根据权利要求1所述的方法,其特征在于,在根据所述属性相似度向量,以及与所述数据属性集合匹配的属性权重向量,计算任意两个所述第一去重数据间的数据相似度之前,还包括:
根据至少一个用户为所述数据属性集合中各数据属性分别确定的等级,确定与所述数据属性集合对应的等级向量;
至少一次随机抽取预设数量的所述第一去重数据,并根据随机抽取的所述第一去重数据,计算所述数据属性集合中各所述数据属性的属性值取值数量;
根据各抽取次数下计算得到的各所述数据属性的属性值取值数量,确定与所述数据属性集合对应的属性取值种类数向量;
根据所述等级向量与所述属性取值种类数向量,确定所述属性权重向量。
3.根据权利要求1或2所述的方法,其特征在于,在根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量之前,还包括:
如果确定所述第一去重数据集的数据类型为文本类型,则根据各第一去重数据的字符串长度,计算任意两个所述第一去重数据间的字符串长度之差;
根据任意两个所述第一去重数据的字符串长度,所述任意两个所述第一去重数据间的字符串长度之差以及预设的相似度阈值,在所述第一去重数据集中标注非重复数据对;
根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量,包括:
根据数据属性集合和与各第一去重数据分别包括的数据属性,计算除去所述非重复数据对之外的任意两两第一去重数据间的属性相似度向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,在获取设定数据类型的第一去重数据集之前,还包括:
确定目标去重数据集中各目标去重数据的结构类型;
获取结构类型为非结构化数据目标去重数据,加入至所述第一去重数据集中。
5.根据权利要求4所述的方法,其特征在于,在确定目标去重数据集中各目标去重数据的结构类型之后,还包括:
获取结构类型为结构化数据目标去重数据,加入至第二去重数据集中;
获取所述第二去重数据集中各第二去重数据的信息摘要算法值;
根据所述信息摘要算法值,对所述第二去重数据集进行去重处理。
6.根据权利要求1或5所述的方法,其特征在于,在所述根据计算得到的所述数据相似度,对所述第一去重数据集进行去重处理之前,还包括:
将需要删除的所述第一去重数据保存在重复统计数据库中;
在所述根据所述信息摘要算法值,对所述第二去重数据集进行去重处理之前,还包括:
将需要删除的所述第二去重数据保存在重复统计数据库中。
7.根据权利要求1所述的方法,其特征在于,在获取设定数据类型的第一去重数据集之前,还包括:
将所述第一去重数据存入分布式文件系统,以通过分布式的方式执行所述数据去重方法;
相应的,在所述根据计算得到的所述数据相似度,对所述第一去重数据集进行去重处理之后,还包括:
将去重处理后的所述第一去重数据集存入数据库。
8.一种数据去重装置,其特征在于,包括:
属性相似度向量计算模块,用于获取设定数据类型的第一去重数据集,并根据数据属性集合和与各第一去重数据分别包括的数据属性,计算第一去重数据间的属性相似度向量;
数据相似度计算模块,用于根据所述属性相似度向量,以及与所述数据属性集合匹配的属性权重向量,计算任意两个所述第一去重数据间的数据相似度;
去重处理模块,用于根据计算得到的所述数据相似度,对所述第一去重数据集进行去重处理。
9.一种终端,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据去重方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的数据去重方法。
CN201911216108.3A 2019-12-02 2019-12-02 一种数据去重方法、装置、终端及存储介质 Pending CN110941598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911216108.3A CN110941598A (zh) 2019-12-02 2019-12-02 一种数据去重方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911216108.3A CN110941598A (zh) 2019-12-02 2019-12-02 一种数据去重方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN110941598A true CN110941598A (zh) 2020-03-31

Family

ID=69908728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911216108.3A Pending CN110941598A (zh) 2019-12-02 2019-12-02 一种数据去重方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN110941598A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625468A (zh) * 2020-06-05 2020-09-04 中国银行股份有限公司 一种测试案例去重方法及装置
CN111694802A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 去重信息获取方法、装置和电子设备
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN112115236A (zh) * 2020-10-09 2020-12-22 湖北中烟工业有限责任公司 烟草科技文献数据去重模型的构建方法及装置
CN112231514A (zh) * 2020-10-19 2021-01-15 腾讯科技(深圳)有限公司 一种数据去重方法、装置及存储介质和服务器
CN112463951A (zh) * 2020-12-07 2021-03-09 序如诗(武汉)科技有限公司 一种内容匹配系统与淘汰方法
CN112650454A (zh) * 2020-12-31 2021-04-13 广州技象科技有限公司 基于去重规则的物联网多源数据存储方法及装置
CN112765371A (zh) * 2021-01-20 2021-05-07 广州技象科技有限公司 基于去重规则的物联网单数据存储方法及装置
CN113780042A (zh) * 2020-11-09 2021-12-10 北京沃东天骏信息技术有限公司 图片集操作方法、图片集标注方法和装置
WO2022007546A1 (zh) * 2020-07-09 2022-01-13 华为技术有限公司 一种数据缩减方法和装置
CN114579063A (zh) * 2022-05-07 2022-06-03 浙江口碑网络技术有限公司 Od数据的存储及读取方法、装置、存储介质及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
US20110016095A1 (en) * 2009-07-16 2011-01-20 International Business Machines Corporation Integrated Approach for Deduplicating Data in a Distributed Environment that Involves a Source and a Target
CN103678702A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频去重方法及装置
US20160070715A1 (en) * 2014-09-04 2016-03-10 International Business Machines Corporation Storing data in a distributed file system
US20160092494A1 (en) * 2014-09-30 2016-03-31 International Business Machines Corporation Data de-duplication
CN106649759A (zh) * 2016-12-26 2017-05-10 北京珠穆朗玛移动通信有限公司 图片的处理方法及移动终端
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN107832406A (zh) * 2017-11-03 2018-03-23 北京锐安科技有限公司 海量日志数据的去重入库方法、装置、设备及存储介质
US20190294588A1 (en) * 2017-04-07 2019-09-26 Tencent Technology (Shenzhen) Company Limited Text deduplication method and apparatus, and storage medium

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
US20110016095A1 (en) * 2009-07-16 2011-01-20 International Business Machines Corporation Integrated Approach for Deduplicating Data in a Distributed Environment that Involves a Source and a Target
CN103678702A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频去重方法及装置
US20160070715A1 (en) * 2014-09-04 2016-03-10 International Business Machines Corporation Storing data in a distributed file system
US20160092494A1 (en) * 2014-09-30 2016-03-31 International Business Machines Corporation Data de-duplication
CN106649759A (zh) * 2016-12-26 2017-05-10 北京珠穆朗玛移动通信有限公司 图片的处理方法及移动终端
US20190294588A1 (en) * 2017-04-07 2019-09-26 Tencent Technology (Shenzhen) Company Limited Text deduplication method and apparatus, and storage medium
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN107832406A (zh) * 2017-11-03 2018-03-23 北京锐安科技有限公司 海量日志数据的去重入库方法、装置、设备及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625468A (zh) * 2020-06-05 2020-09-04 中国银行股份有限公司 一种测试案例去重方法及装置
CN111625468B (zh) * 2020-06-05 2024-04-16 中国银行股份有限公司 一种测试案例去重方法及装置
CN111694802A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 去重信息获取方法、装置和电子设备
CN111694802B (zh) * 2020-06-12 2023-04-28 百度在线网络技术(北京)有限公司 去重信息获取方法、装置和电子设备
WO2022007546A1 (zh) * 2020-07-09 2022-01-13 华为技术有限公司 一种数据缩减方法和装置
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN112115236A (zh) * 2020-10-09 2020-12-22 湖北中烟工业有限责任公司 烟草科技文献数据去重模型的构建方法及装置
CN112115236B (zh) * 2020-10-09 2024-02-02 湖北中烟工业有限责任公司 烟草科技文献数据去重模型的构建方法及装置
CN112231514B (zh) * 2020-10-19 2024-01-05 腾讯科技(深圳)有限公司 一种数据去重方法、装置及存储介质和服务器
CN112231514A (zh) * 2020-10-19 2021-01-15 腾讯科技(深圳)有限公司 一种数据去重方法、装置及存储介质和服务器
CN113780042A (zh) * 2020-11-09 2021-12-10 北京沃东天骏信息技术有限公司 图片集操作方法、图片集标注方法和装置
CN112463951A (zh) * 2020-12-07 2021-03-09 序如诗(武汉)科技有限公司 一种内容匹配系统与淘汰方法
CN112650454A (zh) * 2020-12-31 2021-04-13 广州技象科技有限公司 基于去重规则的物联网多源数据存储方法及装置
CN112765371A (zh) * 2021-01-20 2021-05-07 广州技象科技有限公司 基于去重规则的物联网单数据存储方法及装置
CN114579063A (zh) * 2022-05-07 2022-06-03 浙江口碑网络技术有限公司 Od数据的存储及读取方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN110941598A (zh) 一种数据去重方法、装置、终端及存储介质
CN107025218B (zh) 一种文本去重方法和装置
CN107832406B (zh) 海量日志数据的去重入库方法、装置、设备及存储介质
CN108536650B (zh) 生成梯度提升树模型的方法和装置
US9152691B2 (en) System and method for performing set operations with defined sketch accuracy distribution
CN107832440B (zh) 一种数据挖掘方法、装置、服务器及计算机可读存储介质
US20190018878A1 (en) Dual overlay query processing
US10250550B2 (en) Social message monitoring method and apparatus
CN116049109A (zh) 一种基于过滤器的文件校验方法、系统、设备和介质
CN112612832B (zh) 节点分析方法、装置、设备及存储介质
US20160378801A1 (en) Efficient sorting of large data set with duplicate values
US10311054B2 (en) Query data splitting
US11163801B2 (en) Execution of queries in relational databases
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
CN110297842B (zh) 一种数据比对方法、装置、终端和存储介质
CN113590322A (zh) 一种数据处理方法和装置
CN107665241B (zh) 一种实时数据多维度去重方法和装置
CN112506490A (zh) 一种接口生成方法、装置、电子设备及存储介质
CN111061712A (zh) 一种数据连接操作的处理方法及装置
US8214846B1 (en) Method and system for threshold management
CN110019162B (zh) 实现属性归一的方法和装置
Rafailidis et al. Indexing media storms on flink
CN109710673B (zh) 作品处理方法、装置、设备和介质
CN108009019B (zh) 分布式数据定位实例的方法、客户端及分布式计算系统
CN112000704A (zh) 用户行为的统计数据矩阵的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination