CN112001451A - 数据冗余处理方法、系统、介质及装置 - Google Patents

数据冗余处理方法、系统、介质及装置 Download PDF

Info

Publication number
CN112001451A
CN112001451A CN202010879318.7A CN202010879318A CN112001451A CN 112001451 A CN112001451 A CN 112001451A CN 202010879318 A CN202010879318 A CN 202010879318A CN 112001451 A CN112001451 A CN 112001451A
Authority
CN
China
Prior art keywords
similarity
data
value
redundancy processing
total
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010879318.7A
Other languages
English (en)
Inventor
丁艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qinggan Intelligent Technology Co Ltd
Original Assignee
Shanghai Qinggan Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qinggan Intelligent Technology Co Ltd filed Critical Shanghai Qinggan Intelligent Technology Co Ltd
Priority to CN202010879318.7A priority Critical patent/CN112001451A/zh
Publication of CN112001451A publication Critical patent/CN112001451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据冗余处理方法、系统、介质及装置,所述方法包括以下步骤:分别按照预设方法计算同一主题下每种格式的数据各自的相似度;为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值;将同一主题下数据的相似度值求和得到对应主题的相似度总值;按照所述相似度总值的高低排列主题。本发明的一种数据冗余处理方法、系统、介质及装置,用于对具有不同格式的数据的主题的相似度总值进行计算,方便对于具有不同格式的数据的主题的重复数据的管理。

Description

数据冗余处理方法、系统、介质及装置
技术领域
本发明涉及数据管理技术领域,特别是涉及一种数据冗余处理方法、系统、介质及装置。
背景技术
在运维人员通常要在云端后台系统上传图片、文字、视频、音频等不同格式的数据,这些数据在网络中传输在云端存储和备份,这个过程中可能出现的冗余文件、错误文件。例如,系统回滚了数据库事务,但是错误的文件没有回滚。再比如,用户上传了两个版本的数据,而哪一个是最终版用户没有明确。总结来说,系统出现冗余数据可能是1)多个完全相同的数据文件冗余;2)多个近视文件冗余;3)坏损文件冗余。
由于所涉及的文件主要是多媒体文件包括:图片、文字、视频、音频等不同格式,每种类型的文件的冗余排查办法不同,导致系统没有一套高效的管理手段处理诸多冗余。由于一个主题可能既包含文字又包含图片、视频、音频等信息,没有一个统一的处理机制导致比对相识度问题较差,同时处理效率不高,这需要一种统一的手段,从数据底层提出算法解决冗余问题。
因此,希望能够解决如何对具有不同格式的数据的主题进行管理,解决具有不同格式的数据的主题的数据冗余的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据冗余处理方法、系统、介质及装置,用于解决现有技术中如何对具有不同格式的数据的主题进行管理,解决具有不同格式的数据的主题的数据冗余的问题的问题。
为实现上述目的及其他相关目的,本发明提供一种数据冗余处理方法,包括以下步骤:分别按照预设方法计算同一主题下每种格式的数据各自的相似度;为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值;将同一主题下数据的相似度值求和得到对应主题的相似度总值;按照所述相似度总值的高低排列主题。
于本发明的一实施例中,所述预设方法为:将数据按照其格式拆分成预设数量和格式的分块;采用预设的相似度比较算法计算同一格式的数据的相似度。
于本发明的一实施例中,所述数据格式包括:文字、图片、视频、音频。
于本发明的一实施例中,还包括进行相似度总值计算的主题的范围设置。
为实现上述目的,本发明还提供一种数据冗余处理系统,包括:相似度计算模块、固定值计算模块、相似度总值计算模块和排列模块;所述相似度计算模块用于分别按照预设方法计算同一主题下每种格式的数据各自的相似度;所述固定值计算模块用于为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值;所述相似度总值计算模块用于将同一主题下数据的相似度值求和得到对应主题的相似度总值;所述排列模块用于按照所述相似度总值的高低排列主题。
于本发明的一实施例中,所述相似度计算模块还用于:将数据按照其格式拆分成预设数量和格式的分块;采用预设的相似度比较算法计算同一格式的数据的相似度。
于本发明的一实施例中,所述数据格式包括:文字、图片、视频、音频。
于本发明的一实施例中,还包括设置模块用于进行相似度总值计算的主题的范围设置。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一上述数据冗余处理方法。
为实现上述目的,本发明还提供一种数据冗余处理装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述数据冗余处理装置执行任一上述的数据冗余处理方法。
如上所述,本发明的一种数据冗余处理方法、系统、介质及装置,具有以下有益效果:用于对具有不同格式的数据的主题的相似度总值进行计算,方便对于具有不同格式的数据的主题的重复数据的管理。
附图说明
图1显示为本发明的数据冗余处理方法于一实施例中的流程图;
图2显示为本发明的数据冗余处理方法于又一实施例中的流程图;
图3显示为本发明的数据冗余处理系统于一实施例中的结构示意图;
图4显示为本发明的数据冗余处理系统于又一实施例中的结构示意图;
图5显示为本发明的数据冗余处理装置于一实施例中的结构示意图。
元件标号说明
31 相似度计算模块
32 固定值计算模块
33 相似度总值计算模块
34 排列模块
41 设置模块
42 相似度计算模块
43 固定值计算模块
44 相似度总值计算模块
45 排列模块
51 处理器
52 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的数据冗余处理方法、系统、介质及装置,用于对具有不同格式的数据的主题的相似度总值进行计算,方便对于具有不同格式的数据的主题的重复数据的管理。
如图1所示,于一实施例中,本发明的数据冗余处理方法,包括以下步骤:
步骤S11、分别按照预设方法计算同一主题下每种格式的数据各自的相似度。
具体地,所述数据格式包括:文字、图片、视频、音频。
具体地,采用哈希算法实现图片相似度计算。实现图片相似度比较的哈希算法有三种:均值哈希算法,差值哈希算法,感知哈希算法。
1.均值哈希算法
一张图片可表示为一个二维信号,所述图片包含了不同频率的成分。亮度变化小的区域是低频成分,亮度变化小的区域描述大范围的信息。而亮度变化剧烈的区域(比如物体的边缘)就是高频的成分,亮度变化剧烈的区域描述具体的细节。或者说高频可以提供图片详细的信息,而低频可以提供一个框架。而一张大的且详细的图片有很高的频率,而小图片缺乏图像细节,所以都是低频的。所以采用均值哈希算法,也就是缩小图片的过程,实际上是损失高频信息的过程。均值哈希算法就是利用图片的低频信息。
具体步骤:
(1)缩小尺寸:将图片缩小到8x8的尺寸,总共64个像素。这一步的作用是去除图片的细节,只保留结构、明暗等基本信息,摒弃不同尺寸、比例带来的图片差异。
(2)简化色彩:将缩小后的图片,转为64级灰度。也就是说,所有像素点总共只有64种颜色。
(3)计算平均值:计算所有64个像素的灰度平均值
(4)比较像素的灰度:将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0。
(5)计算哈希值:将上一步的比较结果,组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。组合的次序并不重要,只要保证所有图片都采用同样次序。
最后得到两张图片的指纹信息后,计算两组64位数据的汉明距离,即对比数据不同的位数,不同位数越少,表明图片的相似度越大。
分析:均值哈希算法计算速度快,不受图片尺寸大小的影响,但是缺点就是对均值敏感,例如对图像进行伽马校正或直方图均衡就会影响均值,从而影响最终的hash值。
2.感知哈希算法
感知哈希算法是一个比均值哈希算法更为健壮的一种算法,与均值哈希算法的区别在于感知哈希算法是通过DCT(离散余弦变换)来获取图片的低频信息。
离散余弦变换(DCT)是种图像压缩算法,离散余弦变换将图像从像素域变换到频率域。然后由于一般图像都存在很多冗余和相关性的,所以转换到频率域之后,只有很少的一部分频率分量的系数才不为0,大部分系数都为0(或者说接近于0)。经过DCT变换后的系数矩阵从左上角到右下角频率越来越高,因此图片的能量主要保留在左上角的低频系数上。
具体步骤:
(1)缩小尺寸:例如选择32*32的尺寸。这样做的目的是简化了DCT的计算,而不是减小频率。
(2)简化色彩:将图片转化成灰度图像,进一步简化计算量。
(3)计算DCT:计算图片的DCT变换,得到32*32的DCT系数矩阵。
(4)缩小DCT:虽然DCT的结果是32*32大小的矩阵,但只要保留左上角的8*8的矩阵,这部分呈现了图片中的最低频率。
(5)计算平均值:如同均值哈希一样,计算DCT的均值。
(6)计算hash值:根据8*8的DCT矩阵,设置0或1的64位的hash值,大于等于DCT均值的设为”1”,小于DCT均值的设为“0”。组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。
(7)最后比对两张图片的指纹,获得汉明距离。比较两张图片的汉明距离,即两个64位的hash值有多少位是不一样的,不相同位数越少,图片越相似。
分析:结果并不能得知真实性的低频率,只能粗略地得知相对于平均值频率的相对比例。只要图片的整体结构保持不变,hash结果值就不变。能够避免伽马校正或颜色直方图被调整带来的影响。对于变形程度在25%以内的图片也能精准识别。
3.差值哈希算法
比均值哈希算法,差值哈希算法的速度要快的多,相比均值哈希算法,差值哈希算法在效率几乎相同的情况下的效果要更好,差值哈希算法是基于渐变实现的。
主要步骤:
(1)缩放:图片缩放为8*9,保留结构,除去细节。
(2)灰度化:转换为256阶灰度图。
(3)求平均值:计算灰度图所有像素的平均值。
(4)比较:像素值大于后一个像素值记作1,相反记作0。本行不与下一行对比,每行9个像素,八个差值,有8行,总共64位
(5)生成hash:将上述步骤生成的1和0按顺序组合起来既是图片的指纹(hash)。顺序不固定。但是比较时候必须是相同的顺序。
(6)对比指纹:将两幅图的指纹对比,计算汉明距离,即两个64位的hash值有多少位是不一样的,不相同位数越少,图片越相似。
具体地,如图2所示,所述预设方法还包括以下步骤为:步骤S111、将数据按照其格式拆分成预设数量和格式的分块;步骤S112、采用预设的相似度比较算法计算同一格式的数据的相似度。
具体地,将文字至按照字符拆分成预设数量和预设字符数的分块;采用向量比较的文本相似度算法计算同一主题下的文字的相似度。还包括当所述文字不够拆分成预设数量的分块时,对不足的分块用0值进行填充。所述预设数量为N的两次方,且N为偶数。例如62个字符的文字拆分成预设数量为64且预设字符数为1的分块,则所述62个字符的文字只够拆分成预设数量为62且预设字符数为1的分块,则需要剩下2个值为0的分块进行补足。即将同一类型的数据设置成同一规格的数据,方便后续的相似度计算。然后,采用向量比较的文本相似度算法计算同一主题下的拆分成分块的文字的每个分块的相似度,从而得出同一主题下的文字的相似度。即对同一主题下的文字都分别进行比较,若有文字1和文字2完全相同则所述文字1和文字2的相似度都为1。且在本申请中为了去除冗余数据,因此,数据的相似度只有1和0,即相似和不相似。若同一主题下的文字:文字1和文字2之间不完全相同,所述文字1和文字2的相似度都为0。
具体地,将图片至按照像素矩阵拆分成预设数量和预设像素的分块;采用图片相似度算法计算同一主题下的图片的相似度。还包括当所述图片不够拆分成预设数量的分块时,对不足的分块用0值进行填充。所述预设数量为N的两次方,且N为偶数。例如1024*2048像素的图片拆分成预设数量为64且预设像素为16*32的分块,将同一主题下所述被拆分成16*32的分块的图片采用图片相似度算法例如:哈希算法(hash),来计算同一主题下的拆分成分块的图片的每个分块的相似度,从而得出同一主题下的图片的相似度。即对同一主题下的图片都分别进行比较,若有图片1和图片2完全相同则所述图片1和图片2的相似度都为1。且在本申请中为了去除冗余数据,因此,数据的相似度只有1和0,即相似和不相似。若同一主题下的图片:图片1和图片2之间不完全相同,所述图片1和图片2的相似度都为0。
具体地,将视频按照时间顺序拆分成若干图片,然后基于上述对应图片的处理方法计算同一主题下的视频的相似度。
具体地,将音频至按照时间顺序拆分成预设数量和预设时段的分块;采用音频相似度算法计算同一主题下的音频的相似度。还包括当所述音频不够拆分成预设数量的分块时,对不足的分块用0值进行填充。所述预设数量为N的两次方,且N为偶数。例如时长为60秒的音频拆分成预设数量为64且预设时段为1秒的分块,而所述时长为60秒的音频只够拆分成数量为60且预设时段为1秒的分块,则剩下4个分块用0值补足。将同一主题下所述被拆分成1秒的分块的音频采用音频相似度算法例如:哈希算法(hash),来计算同一主题下的拆分成分块的音频的每个分块的相似度,从而得出同一主题下的音频的相似度。即对同一主题下的音频都分别进行比较,若有音频1和音频2完全相同则所述音频1和音频2的相似度都为1。且在本申请中为了去除冗余数据,因此,数据的相似度只有1和0,即相似和不相似。若同一主题下的音频:音频1和音频2之间不完全相同,所述音频1和音频2的相似度都为0。
具体地,为了加速处理,对于图片、音频、视频可以降低图片、音频、视频的质量,进行有损压缩,从而提高效率。
步骤S12、为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值。
具体地,所述相似度权值可以设置成每种类型的数据具有相同的相似度权值,且一个主题下所有数据的相似度权值的和为固定值,例如所述固定值为1。例如a主题下具有1个文字、2个视频、2个图片。则设置所述a主题下的文字的相似度权值为0.1、视频的相似度权值为0.3、图片的相似度权值为0.15。则所述a主题下所有数据的相似度权值的和为固定值1。且通过上述步骤S11的计算,得出所述2个视频相同,则所述2个视频的相似度都为1,且所述2个图片不同,则所述2个图片相似度都为0,而a主题下只有一个文字则所述文字的相似度都为0。将数据的相似度与其相似度权值相乘得到所述数据的相似度值。即a主题下的文字的相似度值为(0.1*0)即为0。a主题下的视频的相似度值为(0.3*1)即为0.3。a主题下的图片的相似度值为(0.15*0)即为0。
步骤S13、将同一主题下数据的相似度值求和得到对应主题的相似度总值。
具体地,则a主题的相似度值等于(0.1*0+0.3*1+0.3*1+0.15*0+0.15*0)的值为0.6。可以用以下公式表示:
Figure BDA0002653629300000071
其中,H(x)表示某个主题的相似度总值,一共有n个文件,qi为第i个数据的相似度权值,所有相似度权值的和为1,h(xi)为第i个数据的相似度。
步骤S14、按照所述相似度总值的高低排列主题。
具体地,分别计算每个主题的相似度总值,并按照每个主题的相似度总值的高低排列主题。从而将相似度总值高的主题放在前面,方便后续对于冗余数据的处理,例如将相似度都为1的数据进行选择性删除,使相同的数据只保留一份。即对具有不同格式的数据的主题的相似度总值进行计算,方便对于具有不同格式的数据的主题的重复数据的管理。
具体地,还包括进行相似度总值计算的主题的范围设置。即预先进行相似度总值计算的主题的范围设置。例如将范围设置在与车相关的主题范围内。为了提升比较效率,可以调整范围,可以设置:只比较同一车厂、同一车型、指定上传时间范围内的主题进行相似度总值计算。通过范围的设置,可以有效缩减范围从而提高执行效率。
具体地,还包括设置显示预设相似度总值的阈值范围内的主题。相似度总值小于阈值的主题将不显示。以方便用户对于相似度总值较大的主题的数据进行处理,例如删除、合并相似度为1的数据。减少了数据的冗余。对于终端车主而言其查询和展示的数据始终是唯一的数据实体;对于运营方而言避免了中间所产生的数据的不一致性;对于后台云端而言提高了存储效率增加了管理能力和管理范围。总的来说,总体上提升了数据的可维护性和空间有效利用率。
如图3所示,于一实施例中,本发明的数据冗余处理系统,包括相似度计算模块31、固定值计算模块32、相似度总值计算模块33和排列模块34。
所示相似度计算模块31用于分别按照预设方法计算同一主题下每种格式的数据各自的相似度。
具体地,所示相似度计算模块31还用于将数据按照其格式拆分成预设数量和格式的分块;用于采用预设的相似度比较算法计算同一格式的数据的相似度。
具体地,所述数据格式包括:文字、图片、视频、音频。
具体地,将文字至按照字符拆分成预设数量和预设字符数的分块;采用向量比较的文本相似度算法计算同一主题下的文字的相似度。还包括当所述文字不够拆分成预设数量的分块时,对不足的分块用0值进行填充。所述预设数量为N的两次方,且N为偶数。例如62个字符的文字拆分成预设数量为64且预设字符数为1的分块,则所述62个字符的文字只够拆分成预设数量为62且预设字符数为1的分块,则需要剩下2个值为0的分块进行补足。即将同一类型的数据设置成同一规格的数据,方便后续的相似度计算。然后,采用向量比较的文本相似度算法计算同一主题下的拆分成分块的文字的每个分块的相似度,从而得出同一主题下的文字的相似度。即对同一主题下的文字都分别进行比较,若有文字1和文字2完全相同则所述文字1和文字2的相似度都为1。且在本申请中为了去除冗余数据,因此,数据的相似度只有1和0,即相似和不相似。若同一主题下的文字:文字1和文字2之间不完全相同,所述文字1和文字2的相似度都为0。
具体地,将图片至按照像素矩阵拆分成预设数量和预设像素的分块;采用图片相似度算法计算同一主题下的图片的相似度。还包括当所述图片不够拆分成预设数量的分块时,对不足的分块用0值进行填充。所述预设数量为N的两次方,且N为偶数。例如1024*2048像素的图片拆分成预设数量为64且预设像素为16*32的分块,将同一主题下所述被拆分成16*32的分块的图片采用图片相似度算法例如:哈希算法(hash),来计算同一主题下的拆分成分块的图片的每个分块的相似度,从而得出同一主题下的图片的相似度。即对同一主题下的图片都分别进行比较,若有图片1和图片2完全相同则所述图片1和图片2的相似度都为1。且在本申请中为了去除冗余数据,因此,数据的相似度只有1和0,即相似和不相似。若同一主题下的图片:图片1和图片2之间不完全相同,所述图片1和图片2的相似度都为0。
具体地,将视频按照时间顺序拆分成若干图片,然后基于上述对应图片的处理方法计算同一主题下的视频的相似度。
具体地,将音频至按照时间顺序拆分成预设数量和预设时段的分块;采用音频相似度算法计算同一主题下的音频的相似度。还包括当所述音频不够拆分成预设数量的分块时,对不足的分块用0值进行填充。所述预设数量为N的两次方,且N为偶数。例如时长为60秒的音频拆分成预设数量为64且预设时段为1秒的分块,而所述时长为60秒的音频只够拆分成数量为60且预设时段为1秒的分块,则剩下4个分块用0值补足。将同一主题下所述被拆分成1秒的分块的音频采用音频相似度算法例如:哈希算法(hash),来计算同一主题下的拆分成分块的音频的每个分块的相似度,从而得出同一主题下的音频的相似度。即对同一主题下的音频都分别进行比较,若有音频1和音频2完全相同则所述音频1和音频2的相似度都为1。且在本申请中为了去除冗余数据,因此,数据的相似度只有1和0,即相似和不相似。若同一主题下的音频:音频1和音频2之间不完全相同,所述音频1和音频2的相似度都为0。
具体地,为了加速处理,对于图片、音频、视频可以降低图片、音频、视频的质量,进行有损压缩,从而提高效率。
所示固定值计算模块32用于为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值。
具体地,所述相似度权值可以设置成每种类型的数据具有相同的相似度权值,且一个主题下所有数据的相似度权值的和为固定值,例如所述固定值为1。例如a主题下具有1个文字、2个视频、2个图片。则设置所述a主题下的文字的相似度权值为0.1、视频的相似度权值为0.3、图片的相似度权值为0.15。则所述a主题下所有数据的相似度权值的和为固定值1。且通过上述步骤S11的计算,得出所述2个视频相同,则所述2个视频的相似度都为1,且所述2个图片不同,则所述2个图片相似度都为0,而a主题下只有一个文字则所述文字的相似度都为0。将数据的相似度与其相似度权值相乘得到所述数据的相似度值。即a主题下的文字的相似度值为(0.1*0)即为0。a主题下的视频的相似度值为(0.3*1)即为0.3。a主题下的图片的相似度值为(0.15*0)即为0。
所示相似度总值计算模块33用于将同一主题下数据的相似度值求和得到对应主题的相似度总值。
具体地,则a主题的相似度值等于(0.1*0+0.3*1+0.3*1+0.15*0+0.15*0)的值为0.6。可以用以下公式表示:
Figure BDA0002653629300000101
其中,H(x)表示某个主题的相似度总值,一共有n个文件,qi为第i个数据的相似度权值,所有相似度权值的和为1,h(xi)为第i个数据的相似度。
所示排列模块34用于按照所述相似度总值的高低排列主题。
具体地,分别计算每个主题的相似度总值,并按照每个主题的相似度总值的高低排列主题。从而将相似度总值高的主题放在前面,方便后续对于冗余数据的处理,例如将相似度都为1的数据进行选择性删除,使相同的数据只保留一份。即对具有不同格式的数据的主题的相似度总值进行计算,方便对于具有不同格式的数据的主题的重复数据的管理。
具体地,如图4所示,于一实施例中,本发明的数据冗余处理系统,还包括设置模块41用于进行相似度总值计算的主题的范围设置。即预先进行相似度总值计算的主题的范围设置。例如将范围设置在与车相关的主题范围内。为了提升比较效率,可以调整范围,可以设置:只比较同一车厂、同一车型、指定上传时间范围内的主题进行相似度总值计算。通过范围的设置,可以有效缩减范围从而提高执行效率。还包括:相似度计算模块42、固定值计算模块43、相似度总值计算模块44和排列模块45;所述相似度计算模块42用于分别按照预设方法计算同一主题下每种格式的数据各自的相似度;所述固定值计算模块43用于为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值;所述相似度总值计算模块44用于将同一主题下数据的相似度值求和得到对应主题的相似度总值;所述排列模块45用于按照所述相似度总值的高低排列主题。
具体地,还包括设置显示预设相似度总值的阈值范围内的主题。相似度总值小于阈值的主题将不显示。以方便用户对于相似度总值较大的主题的数据进行处理,例如删除、合并相似度为1的数据。减少了数据的冗余。对于终端车主而言其查询和展示的数据始终是唯一的数据实体;对于运营方而言避免了中间所产生的数据的不一致性;对于后台云端而言提高了存储效率增加了管理能力和管理范围。总的来说,总体上提升了数据的可维护性和空间有效利用率。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
于本发明一实施例中,本发明还包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一所述数据冗余处理方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图5所示,于一实施例中,本发明的数据冗余处理装置包括:处理器51和存储器52;所述存储器52用于存储计算机程序;所述处理器51与所述存储器52相连,用于执行所述存储器52存储的计算机程序,以使所述数据冗余处理装置执行任一所述的数据冗余处理方法。
具体地,所述存储器52包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
优选地,所述处理器51可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明数据冗余处理方法、系统、介质及装置,用于对具有不同格式的数据的主题的相似度总值进行计算,方便对于具有不同格式的数据的主题的重复数据的管理。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种数据冗余处理方法,其特征在于,包括以下步骤:
分别按照预设方法计算同一主题下每种格式的数据各自的相似度;
为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值;
将同一主题下数据的相似度值求和得到对应主题的相似度总值;
按照所述相似度总值的高低排列主题。
2.根据权利要求1所述的数据冗余处理方法,其特征在于,所述预设方法为:
将数据按照其格式拆分成预设数量和格式的分块;
采用预设的相似度比较算法计算同一格式的数据的相似度。
3.根据权利要求1所述的数据冗余处理方法,其特征在于,所述数据格式包括:文字、图片、视频、音频。
4.根据权利要求1所述的数据冗余处理方法,其特征在于,还包括进行相似度总值计算的主题的范围设置。
5.一种数据冗余处理系统,其特征在于,包括:相似度计算模块、固定值计算模块、相似度总值计算模块和排列模块;
所述相似度计算模块用于分别按照预设方法计算同一主题下每种格式的数据各自的相似度;
所述固定值计算模块用于为每个数据设置相似度权值,将数据的相似度与其相似度权值相乘得到所述数据的相似度值;
所述相似度总值计算模块用于将同一主题下数据的相似度值求和得到对应主题的相似度总值;
所述排列模块用于按照所述相似度总值的高低排列主题。
6.根据权利要求5所述的数据冗余处理系统,其特征在于,所述相似度计算模块还用于:
将数据按照其格式拆分成预设数量和格式的分块;
采用预设的相似度比较算法计算同一格式的数据的相似度。
7.根据权利要求5所述的数据冗余处理系统,其特征在于,所述数据格式包括:文字、图片、视频、音频。
8.根据权利要求5所述的数据冗余处理系统,其特征在于,还包括设置模块用于进行相似度总值计算的主题的范围设置。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现权利要求1至4中任一项所述数据冗余处理方法。
10.一种数据冗余处理装置,其特征在于,包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述数据冗余处理装置执行权利要求1至4中任一项所述的数据冗余处理方法。
CN202010879318.7A 2020-08-27 2020-08-27 数据冗余处理方法、系统、介质及装置 Pending CN112001451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010879318.7A CN112001451A (zh) 2020-08-27 2020-08-27 数据冗余处理方法、系统、介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010879318.7A CN112001451A (zh) 2020-08-27 2020-08-27 数据冗余处理方法、系统、介质及装置

Publications (1)

Publication Number Publication Date
CN112001451A true CN112001451A (zh) 2020-11-27

Family

ID=73471048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010879318.7A Pending CN112001451A (zh) 2020-08-27 2020-08-27 数据冗余处理方法、系统、介质及装置

Country Status (1)

Country Link
CN (1) CN112001451A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559792A (zh) * 2020-12-22 2021-03-26 中国科学院合肥物质科学研究院 一种基于相似度的害虫图像检索方法
CN114738680A (zh) * 2022-04-26 2022-07-12 国机传感科技有限公司 一种数据处理系统及数据存储、恢复方法
CN115730592A (zh) * 2022-11-30 2023-03-03 贵州电网有限责任公司信息中心 电网冗余数据剔除方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5872866A (en) * 1995-04-18 1999-02-16 Advanced Micro Devices, Inc. Method and apparatus for improved video decompression by predetermination of IDCT results based on image characteristics
US20130304469A1 (en) * 2012-05-10 2013-11-14 Mynd Inc. Information processing method and apparatus, computer program and recording medium
CN109255777A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种结合小波变换和感知哈希算法的图像相似度计算方法
WO2019169872A1 (zh) * 2018-03-09 2019-09-12 北京百度网讯科技有限公司 搜索内容资源的方法、装置和服务器
CN110532417A (zh) * 2019-09-02 2019-12-03 河北省科学院应用数学研究所 基于深度哈希的图像检索方法、装置及终端设备
CN110795524A (zh) * 2019-10-31 2020-02-14 北京东软望海科技有限公司 主数据映射处理方法、装置、计算机设备及存储介质
WO2020101478A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method for managing duplicate entities based on a relationship cardinality in production knowledge base repository

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5872866A (en) * 1995-04-18 1999-02-16 Advanced Micro Devices, Inc. Method and apparatus for improved video decompression by predetermination of IDCT results based on image characteristics
US20130304469A1 (en) * 2012-05-10 2013-11-14 Mynd Inc. Information processing method and apparatus, computer program and recording medium
WO2019169872A1 (zh) * 2018-03-09 2019-09-12 北京百度网讯科技有限公司 搜索内容资源的方法、装置和服务器
CN109255777A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种结合小波变换和感知哈希算法的图像相似度计算方法
WO2020101478A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method for managing duplicate entities based on a relationship cardinality in production knowledge base repository
CN110532417A (zh) * 2019-09-02 2019-12-03 河北省科学院应用数学研究所 基于深度哈希的图像检索方法、装置及终端设备
CN110795524A (zh) * 2019-10-31 2020-02-14 北京东软望海科技有限公司 主数据映射处理方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559792A (zh) * 2020-12-22 2021-03-26 中国科学院合肥物质科学研究院 一种基于相似度的害虫图像检索方法
CN114738680A (zh) * 2022-04-26 2022-07-12 国机传感科技有限公司 一种数据处理系统及数据存储、恢复方法
CN115730592A (zh) * 2022-11-30 2023-03-03 贵州电网有限责任公司信息中心 电网冗余数据剔除方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US8947595B1 (en) Fingerprinting to match videos having varying aspect ratios
Ren et al. Gated fusion network for single image dehazing
US10726299B2 (en) Sorted geometry with color clustering (SGCC) for point cloud compression
CN112001451A (zh) 数据冗余处理方法、系统、介质及装置
CN101394460B (zh) 图像处理设备、方法以及图像捕获设备
CN105144232B (zh) 图像去噪方法和系统
CN110400275B (zh) 一种基于全卷积神经网络和特征金字塔的颜色校正方法
WO2017190691A1 (zh) 图片压缩方法和装置
CN112507842A (zh) 一种基于关键帧提取的视频文字识别方法和装置
Zhao et al. A deep cascade of neural networks for image inpainting, deblurring and denoising
WO2018225133A1 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
CN111814884A (zh) 一种基于可变形卷积的目标检测网络模型的升级方法
Niu et al. Machine learning-based framework for saliency detection in distorted images
TW201415867A (zh) 影片片段搜尋方法
CN111757172A (zh) Hdr视频获取方法、hdr视频获取装置及终端设备
US10475238B2 (en) Hölder adaptive image synthesis
CN114943649A (zh) 图像去模糊方法、装置及计算机可读存储介质
US11403782B2 (en) Static channel filtering in frequency domain
Zhao et al. Saliency map-aided generative adversarial network for raw to rgb mapping
Cang et al. Research on hyperspectral image reconstruction based on GISMT compressed sensing and interspectral prediction
CN112487943B (zh) 关键帧去重的方法、装置和电子设备
US11170260B2 (en) Techniques for determining importance of encoded image components for artificial intelligence tasks
Sharma et al. Technical Assessment of Various Image Enhancement Techniques using Finger Vein for personal Authentication
Kim et al. Vector quantizer of medical image using wavelet transform and enhanced SOM algorithm
KR102571811B1 (ko) 기저 벡터 회전을 이용한 이산코사인변환 방법 및 영상 처리 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201127

WD01 Invention patent application deemed withdrawn after publication