CN112612762A - 数据处理方法及相关设备 - Google Patents
数据处理方法及相关设备 Download PDFInfo
- Publication number
- CN112612762A CN112612762A CN202011513933.2A CN202011513933A CN112612762A CN 112612762 A CN112612762 A CN 112612762A CN 202011513933 A CN202011513933 A CN 202011513933A CN 112612762 A CN112612762 A CN 112612762A
- Authority
- CN
- China
- Prior art keywords
- data
- candidate
- preset
- blocks
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
Abstract
本发明实施例公开一种数据处理方法、数据处理装置、设备及计算机存储介质,包括:获取待处理数据;将所述待处理数据按照预设算法进行转换,以得到M组候选数据;分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性;将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。采用该手段,通过获取候选数据与预设数据块之间的相似性进而来确定目标数据,有助于提高数据处理的效率。
Description
技术领域
本发明涉及压缩技术领域,尤其涉及一种数据处理方法、数据处理装置、设备及计算机存储介质。
背景技术
现有技术中的压缩技术利用经典信息理论提供的算法。例如,无损压缩是采用在文件中查找和删除数据冗余的结果。经典的压缩算法,甚至是如利用人工智能和机器语言的新算法,都关注冗余。冗余度越高,压缩比越好。
例如,Huffman和Run-Length算法倾向于寻找纯冗余,这意味着它们倾向于发现一段数据(即文本的一个字符),并在更大的数据块中找到尽可能多的完全相同的副本。这些算法在一定程度上表现良好,但它们已经发展到压缩的瓶颈,所有这些算法都是基于现有的冗余来执行的,仅依赖于现有的冗余和对小数据块的执行限制了传统压缩算法的性能,现有技术并没有提供一种较优的方式来结合历史经验更进一步提高数据处理的效率。
发明内容
本发明实施例提供了一种数据处理方法、数据处理装置、设备及计算机存储介质,可以有助于提高数据处理的效率。
第一方面,本发明实施例提供了一种数据处理方法,包括:
获取待处理数据;
将所述待处理数据按照预设算法进行转换,以得到M组候选数据,M为不小于2的整数;
分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,K为不小于1的整数;
将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
其中,所述待处理数据为N位的二进制数据,N为不小于2的整数;所述将所述待处理数据按照预设算法进行转换,以得到M组候选数据,包括:
将所述N位的二进制数据分割为M个二进制数据块集,其中,每个二进制数据块集的总位数均为N,且所述每个二进制数据块集中均包括至少两个二进制数据块,所述每个二进制数据块集中的任意两个二进制数据块的位数相同;其中,任意两个二进制数据块集中的二进制数据块的位数不相同;
将所述M个二进制数据块集确定为所述M组候选数据。
其中,所述预设数据块为压缩比率超出第二预设阈值的预设数据块。
其中,所述分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,包括:
分别获取所述M组候选数据中每组候选数据中的数据块的长度;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的距离,其中,两个数据块之间的距离为所述两个数据块中字符串对应位置的不同字符的第一数量,所述第一数量小于第三预设阈值;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的相对等同值,其中,两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的第二数量,所述第二数量大于第四预设阈值;
根据所述每组候选数据中的数据块的长度以及与所述K个不同长度的预设数据块之间的距离、相对等同值,得到所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性。
其中,所述候选数据中的数据块A与预设数据块B之间的相似性SAB可表示为:
SAB=(lA-lB)*C1+HAB*C2+X AB*C3;
其中,lA、lB分别为所述数据块A的长度、所述预设数据块B的长度;HAB为所述数据块A与所述预设数据块B之间的距离,X AB为所述数据块A与所述预设数据块B之间的相对等同值;C1、C2和C3均不小于0且不大于1,其中,C1+C2+C3=1。
第二方面,本发明实施例提供了一种数据处理装置,包括:
获取模块,用于获取待处理数据;
处理模块,用于将所述待处理数据按照预设算法进行转换,以得到M组候选数据,M为不小于2的整数;
计算模块,用于分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,K为不小于1的整数;
确定模块,用于将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
其中,所述待处理数据为N位的二进制数据,N为不小于2的整数;所述处理模块,具体用于:
将所述N位的二进制数据分割为M个二进制数据块集,其中,每个二进制数据块集的总位数均为N,且所述每个二进制数据块集中均包括至少两个二进制数据块,所述每个二进制数据块集中的任意两个二进制数据块的位数相同;其中,任意两个二进制数据块集中的二进制数据块的位数不相同;
将所述M个二进制数据块集确定为所述M组候选数据。
所述计算模块,具体用于:
分别获取所述M组候选数据中每组候选数据中的数据块的长度;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的距离,其中,两个数据块之间的距离为所述两个数据块中字符串对应位置的不同字符的第一数量,所述第一数量小于第三预设阈值;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的相对等同值,其中,两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的第二数量,所述第二数量大于第四预设阈值;
根据所述每组候选数据中的数据块的长度以及与所述K个不同长度的预设数据块之间的距离、相对等同值,得到所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性。
第三方面,本发明实施例提供了一种数据处理设备,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行所述的数据处理方法。
第四方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行所述的数据处理方法。
通过本申请实施例,通过将待处理数据按照预设算法进行转换,以得到M组候选数据,通过分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,并将相似性超出第一预设阈值的该组候选数据确定为目标数据。采用该手段,通过获取候选数据与预设数据块之间的相似性进而来确定目标数据,有助于提高数据处理的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程示意图;
图2是本发明实施例提供的又一种数据处理方法的流程示意图;
图3是本发明实施例提供的一种数据处理方法的示意图;
图4是本发明实施例提供的一种数据处理装置的结构示意图;
图5是本发明实施例提供的一种数据处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
应当理解,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本发明所描述的实施例可以与其它实施例相结合。
请参见图1,图1是本发明实施例提供的一种数据处理方法的流程示意图。如图1所示,其包括步骤101-104,具体如下:
101、获取待处理数据;
该待处理数据可以是任意形式的数据,如可以是二进制数据,十六进制数据等等,本方案对此不做具体限定。
优选的,该待处理数据可以是用于进行压缩处理的数据。如可以是视频数据、图像数据等。
102、将所述待处理数据按照预设算法进行转换,以得到M组候选数据,M为不小于2的整数;
上述将所述待处理数据按照预设算法进行转换,以得到M组候选数据,例如可以是将所述待处理数据根据不同位数进行划分分割,其中,基于不同位数的分割,可以得到不同组候选数据。
或者,将所述待处理数据根据不同位数进行划分分割,然后将分割后的数据进行预设的算法计算,如可以是分别与不同数据相加,或者相减等等处理,进而可以得到不同组候选数据。
103、分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,K为不小于1的整数;
其中,该预设数据块可以是存储在预设数据库中,该预设数据库中存储有多个压缩比率超出预设阈值的数据块。或者说,该预设数据库中存储有历史压缩比率超出预设阈值的数据块。
可选的,可以存储该数据块的长度、以及该数据块对应的数值等。其还可以是仅存储该数据块等。本方案对此不做具体限定。
其中,该数据库可以不断更新,通过多次存储压缩比率超出预设阈值的数据块,进而更新该数据库。其中,该数据块可以是一个数据块,也可以是由多个数据块组成的。本方案对此不做具体限定。
104、将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
该第一预设阈值可以是任意数值,本方案对此不做具体限定。例如,其可以是70%、80%等。
通过本申请实施例,通过将待处理数据按照预设算法进行转换,以得到M组候选数据,通过分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,并将相似性超出第一预设阈值的该组候选数据确定为目标数据。采用该手段,通过获取候选数据与预设数据块之间的相似性进而来确定目标数据,有助于提高数据处理的效率。
请参见图2,是本发明实施例提供的又一种数据处理方法的流程示意图。其中,所述待处理数据为N位的二进制数据,其包括步骤201-208,具体如下:
201、获取待处理数据,所述待处理数据为N位的二进制数据;
其中,本申请实施例仅以二进制数据为例进行说明,其还可以是其他进制的数据,本方案在此不再赘述。
其中,N为不小于2的整数。
202、将所述N位的二进制数据分割为M个二进制数据块集,其中,每个二进制数据块集的总位数均为N,且所述每个二进制数据块集中均包括至少两个二进制数据块,所述每个二进制数据块集中的任意两个二进制数据块的位数相同;其中,任意两个二进制数据块集中的二进制数据块的位数不相同;
上述所述N位的二进制数据分割为M个二进制数据块集,即为将所述N位的二进制数据进行M种不同的分割处理进而得到M个二进制数据块集。
例如,16位的二进制数据1001000011101001,其可以拆分为4个4位的二进制数据块,1001、0000、1110、1001。其还可以拆分为2个8位的二进制数据块,10010000、11101001等等。其中,1001、0000、1110、1001组成一个二进制数据块集;10010000、11101001组成另一个二进制数据块集。
上述仅以两种分割方法为例进行说明,其还可以是其他任意分割处理,本方案对此不做具体限定。
再例如,对于N为100的数据块中,将100位拆分为最小4位和最大50位的块。在该实施例中,50位的最大位长度是因为当所有的块(在本例中是2个块)都具有相等的位长度时,这是将数据块拆分为多个块的唯一可能方法。所以在这个例子中,可能会有:1)25个拆分,每个4位。2)20个拆分,每个5位。3)10个拆分,每个10位。4)4个拆分,每个25位。5)2个拆分,每个50位。
其中,上述分割中,每个二进制数据块集中的任意两个二进制数据块的位数相同,也就是说,该分割是平均分割;可选的,其还可以是非平均分割等,本方案对此不做具体限定。
其中,任意两个二进制数据块集中的二进制数据块的位数不相同,即,不同分割对应不同的二进制数据块集。
203、将所述M个二进制数据块集确定为M组候选数据;
204、分别获取所述M组候选数据中每组候选数据中的数据块的长度;
其中,该数据块的长度可以是字符串的个数等。其还可以是其他参数,本方案对此不作具体限定。优选的,每组候选数据内的数据块的长度是相同的。例如,第一组候选数据内的数据块的长度为5,第二组候选数据内的数据块的长度为7,第三组候选数据内的数据块的长度为3等。
205、分别获取所述M组候选数据中每组候选数据中的数据块与K个不同长度的预设数据块之间的距离,其中,两个数据块之间的距离为所述两个数据块中字符串对应位置的不同字符的第一数量,所述第一数量小于第三预设阈值;
优选的,所述预设数据块为压缩比率超出第二预设阈值的预设数据块。
上述预设数据块可以仅为数据的比特长度。其还可以是经过预设处理之后的数据块,例如,十六进制数据1447F78。其转换为十进制等效数据21266296。对于21,其可以与质数2相加,得到23;对于26,其可以与质数3相加,得到29;对于62,其可以与质数5相加,得到67;对于96,其可以与质数7相加,得到103等。上述预设数据块可以包含23、29、67和103。
进一步地,上述十六进制数据1447F78,其可以保存为9(表示23是第9个质数)、10(表示29是第10个质数)、19(表示67是第19个质数)、26(表示103是第26个质数)。该数据块集中9,10,19和26,只需要存储5*4=20位。原始序列(21266296)是1447F78(十六进制)的等价转换,其占用3.5*8位即28位的空间。
采用上述方法,通过将数据进行数据类型转换以及相应处理,最终存储每个二进制数据块分别对应的数值数据所对应的质数的序号,可以减少数据存储空间,便于存储。
上述仅为一种示例,其还可以是其他任意处理,如除以不同数据等,或者减去预设数据等等。
上述对应位置,可以是两个字符串的首位分别对应之后各对应字符所处的位置;其还可以是其中一个字符串的首位与另一字符串中非首位字符所处位置对应后各对应字符所处的位置。
具体地,例如,数据块10001111010与数据块111000,其可以是10001111010的首位与111000的首位对应后,两个数据块各位数值之间互相对应,此时,两个数据块之间的距离为9。其还可以是数据块111000的首位与数据块10001111010中的第六位进行对应之后各位数值之间互相对应,此时,两个数据块之间的距离最小,为6。上述第一数量即可以是6。
上述仅为一种示例,其还可以是其他形式,本方案对此不做具体限定。
206、分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的相对等同值,其中,两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的第二数量,所述第二数量大于第四预设阈值;
上述两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的第二数量。也就是说,两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的个数。
例如,数据块10001111010与数据块111000,其可以是10001111010的首位与111000的首位对应后,两个数据块各位数值之间互相对应,此时,两个数据块之间的相对等同值为2。其还可以是数据块111000的首位与数据块10001111010中的第六位进行对应之后各位数值之间互相对应,此时,两个数据块之间的相对等同值为5。
207、根据所述每组候选数据中的数据块的长度以及与所述K个不同长度的预设数据块之间的距离、相对等同值,得到所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性;
其中,可选的,所述候选数据中的数据块A与预设数据块B之间的相似性SAB可表示为:
SAB=(lA-lB)*C1+HAB*C2+X AB*C3;
其中,lA、lB分别为所述数据块A的长度、所述预设数据块B的长度;HAB为所述数据块A与所述预设数据块B之间的距离,X AB为所述数据块A与所述预设数据块B之间的相对等同值;C1、C2和C3均不小于0且不大于1,其中,C1+C2+C3=1。
上述仅为一种示例,其还可以是其他形式,本方案对此不做具体限定。
208、将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
通过本申请实施例,通过将待处理数据按照预设算法进行转换,以得到M组候选数据,通过分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,并将相似性超出第一预设阈值的该组候选数据确定为目标数据。采用该手段,通过获取候选数据与预设数据块之间的相似性进而来确定目标数据,有助于提高数据处理的效率。通过本方案,可以在下一次压缩数据时,降低计算机所消耗的时间和资源。
参照图3所示,为本申请实施例提供的一种数据处理方法的示意图。其中,输入数据可以是n作为比特长度分割得到的数据。其中,该n为多种分割方法中冗余度最高的分割方法所对应的分割长度。
例如,十六进制数据1447F78,首先被转换成十进制数据21266296,然后该数字被转换成4个最接近的素数(23,29,67,103)。在这种情况下,两位数字的最大块是103,其对应为二进制中的1100111,其比特长度为7位长。因此,可输入数据7。上述实施例仅为一种示例,其还可以是采用其他算法确定的,本方案对此不做具体限定。
进一步地,输入数据还可以是转换了n位长的数据块。该转换了n位长的数据块由拆分的n位原始数据块转换而成的数据块,这些数据块使用预设算法进行相应转换处理得到。
例如,n位长的数据块为1110、1001等,即n为4;此时,该转换了n位长的数据块可以是14、9。该转换仅以二进制转换为十进制为例进行说明,其还可以是其他转换,本方案对此不做具体限定。
将输入数据导入到训练模型中,通过进行机器学习等对该模型或模型参数等进行更新。
该训练模型可通过对导入的数据和导入的数据的整个集合进行分析,以检测最终将为人工智能驱动的算法提供支持的算法,以便随着更多的数据被压缩,可提高在比率、速度和资源消耗方面的压缩效率。
本方案通过在预设数据库中查找任何新的输入数据块和该库中已经存在的数据块之间的相似性,进而来进行目标数据块的预测/推荐。采用该手段,基于历史数据,可以提高数据压缩处理的效率。其中,本方案的实现可以是基于训练模型得出的,通过将优选结果存储为一个新的训练模型,基于机器学习技术,以便在下一个输入数据中使用。其还可以是其他形式,本方案对此不做具体限定。
基于上述数据处理方法实施例的描述,本发明实施例还公开了一种数据处理装置,参考图4,图4是本发明实施例提供的一种数据处理装置的结构示意图,所述数据处理装置包括获取模块401、处理模块402、计算模块403、确定模块404;其中:
获取模块401,用于获取待处理数据;
处理模块402,用于将所述待处理数据按照预设算法进行转换,以得到M组候选数据,M为不小于2的整数;
计算模块403,用于分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,K为不小于1的整数;
确定模块404,用于将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
所述待处理数据为N位的二进制数据,N为不小于2的整数;所述处理模块,具体用于:
将所述N位的二进制数据分割为M个二进制数据块集,其中,每个二进制数据块集的总位数均为N,且所述每个二进制数据块集中均包括至少两个二进制数据块,所述每个二进制数据块集中的任意两个二进制数据块的位数相同;其中,任意两个二进制数据块集中的二进制数据块的位数不相同;
将所述M个二进制数据块集确定为所述M组候选数据。
所述计算模块,具体用于:
分别获取所述M组候选数据中每组候选数据中的数据块的长度;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的距离,其中,两个数据块之间的距离为所述两个数据块中字符串对应位置的不同字符的第一数量,所述第一数量小于第三预设阈值;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的相对等同值,其中,两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的第二数量,所述第二数量大于第四预设阈值;
根据所述每组候选数据中的数据块的长度以及与所述K个不同长度的预设数据块之间的距离、相对等同值,得到所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性。
值得指出的是,其中,数据处理装置的具体功能实现方式可以参见上述数据处理方法的描述,这里不再进行赘述。数据处理装置中的各个单元或模块可以分别或全部合并为一个或若干个另外的单元或模块来构成,或者其中的某个(些)单元或模块还可以再拆分为功能上更小的多个单元或模块来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元或模块是基于逻辑功能划分的,在实际应用中,一个单元(或模块)的功能也可以由多个单元(或模块)来实现,或者多个单元(或模块)的功能由一个单元(或模块)实现。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种数据处理设备。
请参见图5,是本发明实施例提供的一种数据处理设备的结构示意图。如图5所示,上述的数据处理装置可以应用于所述数据处理设备500,所述数据处理设备500可以包括:处理器501,网络接口504和存储器505,此外,所述数据处理设备500还可以包括:用户接口503,和至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,用户接口503可以包括显示屏(Display)、键盘(Keyboard),可选用户接口503还可以包括标准的有线接口、无线接口。网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器505可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图5所示的数据处理设备500中,网络接口504可提供网络通讯功能;而用户接口503主要用于为用户提供输入的接口;而处理器501可以用于调用存储器505中存储的设备控制应用程序,以实现:
获取待处理数据;
将所述待处理数据按照预设算法进行转换,以得到M组候选数据,M为不小于2的整数;
分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,K为不小于1的整数;
将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
在一个实施例中,所述处理器501在执行时,具体执行以下步骤:
将N位的二进制数据分割为M个二进制数据块集,其中,每个二进制数据块集的总位数均为N,且所述每个二进制数据块集中均包括至少两个二进制数据块,所述每个二进制数据块集中的任意两个二进制数据块的位数相同;其中,任意两个二进制数据块集中的二进制数据块的位数不相同;
将所述M个二进制数据块集确定为所述M组候选数据。
应当理解,本发明实施例中所描述的数据处理设备500可执行前文所述数据处理方法,也可执行前文所述数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的数据处理装置所执行的计算机程序,且所述计算机程序包括程序指令,当处理器执行所述程序指令时,能够执行前文所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取待处理数据;
将所述待处理数据按照预设算法进行转换,以得到M组候选数据,M为不小于2的整数;
分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,K为不小于1的整数;
将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
2.根据权利要求1所述的方法,其特征在于,所述待处理数据为N位的二进制数据,N为不小于2的整数;所述将所述待处理数据按照预设算法进行转换,以得到M组候选数据,包括:
将所述N位的二进制数据分割为M个二进制数据块集,其中,每个二进制数据块集的总位数均为N,且所述每个二进制数据块集中均包括至少两个二进制数据块,所述每个二进制数据块集中的任意两个二进制数据块的位数相同;其中,任意两个二进制数据块集中的二进制数据块的位数不相同;
将所述M个二进制数据块集确定为所述M组候选数据。
3.根据权利要求2所述的方法,其特征在于,所述预设数据块为压缩比率超出第二预设阈值的预设数据块。
4.根据权利要求2或3所述的方法,其特征在于,所述分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,包括:
分别获取所述M组候选数据中每组候选数据中的数据块的长度;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的距离,其中,两个数据块之间的距离为所述两个数据块中字符串对应位置的不同字符的第一数量,所述第一数量小于第三预设阈值;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的相对等同值,其中,两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的第二数量,所述第二数量大于第四预设阈值;
根据所述每组候选数据中的数据块的长度以及与所述K个不同长度的预设数据块之间的距离、相对等同值,得到所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性。
5.根据权利要求4所述的方法,其特征在于,所述候选数据中的数据块A与预设数据块B之间的相似性SAB可表示为:
SAB=(lA-lB)*C1+HAB*C2+XAB*C3;
其中,lA、lB分别为所述数据块A的长度、所述预设数据块B的长度;HAB为所述数据块A与所述预设数据块B之间的距离,XAB为所述数据块A与所述预设数据块B之间的相对等同值;C1、C2和C3均不小于0且不大于1,其中,C1+C2+C3=1。
6.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理数据;
处理模块,用于将所述待处理数据按照预设算法进行转换,以得到M组候选数据,M为不小于2的整数;
计算模块,用于分别获取所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性,K为不小于1的整数;
确定模块,用于将所述相似性超出第一预设阈值的该组候选数据确定为目标数据。
7.根据权利要求6所述的装置,其特征在于,所述待处理数据为N位的二进制数据,N为不小于2的整数;所述处理模块,具体用于:
将所述N位的二进制数据分割为M个二进制数据块集,其中,每个二进制数据块集的总位数均为N,且所述每个二进制数据块集中均包括至少两个二进制数据块,所述每个二进制数据块集中的任意两个二进制数据块的位数相同;其中,任意两个二进制数据块集中的二进制数据块的位数不相同;
将所述M个二进制数据块集确定为所述M组候选数据。
8.根据权利要求7所述的装置,其特征在于,所述计算模块,具体用于:
分别获取所述M组候选数据中每组候选数据中的数据块的长度;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的距离,其中,两个数据块之间的距离为所述两个数据块中字符串对应位置的不同字符的第一数量,所述第一数量小于第三预设阈值;
分别获取所述M组候选数据中每组候选数据中的数据块与所述K个不同长度的预设数据块之间的相对等同值,其中,两个数据块之间的相对等同值为所述两个数据块中字符串依次相对等同的第二数量,所述第二数量大于第四预设阈值;
根据所述每组候选数据中的数据块的长度以及与所述K个不同长度的预设数据块之间的距离、相对等同值,得到所述M组候选数据中每组候选数据与K个不同长度的预设数据块之间的相似性。
9.一种数据处理设备,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-5任一项所述的数据处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-5任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011513933.2A CN112612762A (zh) | 2020-12-18 | 2020-12-18 | 数据处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011513933.2A CN112612762A (zh) | 2020-12-18 | 2020-12-18 | 数据处理方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112612762A true CN112612762A (zh) | 2021-04-06 |
Family
ID=75244489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011513933.2A Pending CN112612762A (zh) | 2020-12-18 | 2020-12-18 | 数据处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612762A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688108A (zh) * | 2021-07-16 | 2021-11-23 | 深圳智慧林网络科技有限公司 | 数据处理方法及相关设备 |
-
2020
- 2020-12-18 CN CN202011513933.2A patent/CN112612762A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688108A (zh) * | 2021-07-16 | 2021-11-23 | 深圳智慧林网络科技有限公司 | 数据处理方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112506880B (zh) | 数据处理方法及相关设备 | |
CN106852185B (zh) | 基于字典的并行压缩编码器 | |
CN112506879A (zh) | 数据处理方法及相关设备 | |
CN106549673B (zh) | 一种数据压缩方法及装置 | |
US11551785B2 (en) | Gene sequencing data compression preprocessing, compression and decompression method, system, and computer-readable medium | |
CN111177438B (zh) | 图像特征值的搜索方法、装置、电子设备及存储介质 | |
CN113205160B (zh) | 模型训练、文本识别方法、装置、电子设备和介质 | |
CN114567332A (zh) | 一种文本二次压缩方法、装置、设备及计算机可读存储介质 | |
CN112994701A (zh) | 数据压缩方法、装置、电子设备及计算机可读介质 | |
CN114579570A (zh) | 数据处理方法及装置 | |
CN112612762A (zh) | 数据处理方法及相关设备 | |
Valmeekam et al. | Llmzip: Lossless text compression using large language models | |
CN110021368B (zh) | 比对型基因测序数据压缩方法、系统及计算机可读介质 | |
US6711296B1 (en) | Apparatus for performing loss-less compression-coding of adaptive evolution type on image data | |
CN111914987A (zh) | 基于神经网络的数据处理方法及装置、设备和可读介质 | |
CN113630125A (zh) | 数据压缩、编码解压缩方法、装置、电子设备及存储介质 | |
CN111274816B (zh) | 一种基于神经网络的命名实体识别方法和车机 | |
CN115882867B (zh) | 一种基于大数据的数据压缩存储方法 | |
CN109698703B (zh) | 基因测序数据解压方法、系统及计算机可读介质 | |
CN111538803A (zh) | 待匹配的候选提问文本获取方法及装置、设备及介质 | |
CN109815475B (zh) | 文本匹配方法、装置、计算设备及系统 | |
CN115169489A (zh) | 数据检索方法、装置、设备以及存储介质 | |
CN111008276B (zh) | 一种完整实体关系抽取方法及装置 | |
CN112052649A (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN109299260B (zh) | 数据分类方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |