CN117742581A - 一种轻量化数据治理方法 - Google Patents

一种轻量化数据治理方法 Download PDF

Info

Publication number
CN117742581A
CN117742581A CN202311574262.4A CN202311574262A CN117742581A CN 117742581 A CN117742581 A CN 117742581A CN 202311574262 A CN202311574262 A CN 202311574262A CN 117742581 A CN117742581 A CN 117742581A
Authority
CN
China
Prior art keywords
data
standard
capacity
template
lightweight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311574262.4A
Other languages
English (en)
Inventor
王韬
李龙
魏建宁
王泽�
杨凌云
郭建璀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Zhongdian Aostar Information Technologies Co ltd
Original Assignee
Sichuan Zhongdian Aostar Information Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Zhongdian Aostar Information Technologies Co ltd filed Critical Sichuan Zhongdian Aostar Information Technologies Co ltd
Priority to CN202311574262.4A priority Critical patent/CN117742581A/zh
Publication of CN117742581A publication Critical patent/CN117742581A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种轻量化数据治理方法,本发明涉及轻量化数据治理技术领域,解决了不同轻量化数据在存储的时候会由于自身存在的差异造成存储的麻烦的技术问题,本发明通过对传输后的轻量化数据进行完整性核验,针对不完整的轻量化数据进行重新传输,从而避免不完整轻量化数据在使用过程中带来的麻烦,接着针对完整轻量化数据根据其格式进行同类型分类处理,并针对同类型的完整轻量化数据通过对其进行二进制转换,并根据其容量来对其进行分割处理,从而实现对其整体的压缩,最后得到压缩的完整轻量化数据再次根据其容量值的奇偶性来进行不同方式的存储,进一步的来减小整体的存储空间。

Description

一种轻量化数据治理方法
技术领域
本发明涉及轻量化数据治理技术领域,具体为一种轻量化数据治理方法。
背景技术
轻量化数据指的是通过压缩、精简或其他方式减小数据的体积和复杂性,轻量化数据在物联网、移动互联网和大数据分析等领域有着广泛的应用。通过轻量化数据的处理,可以更快速、高效地进行数据存储、传输和分析,提升系统的性能和用户体验。
根据申请号为CN202210237729.5的专利显示,该专利的方法包括:用户端向云端处理平台发送轻量化请求;云端处理平台收到所述轻量化请求后验证用户端身份信息,验证通过后向用户端发送受理通知;用户端收到所述受理通知后向云端处理平台发送待处理原始模型;云端处理平台对所述原始模型进行轻量化处理,并将处理完成后的轻量化模型发送给用户端。
轻量化数据虽然本身具有尺寸小的特性,但是不同轻量化数据之间存在一定的差异,具体的差异包括:读取速度不同、容量大小不同和格式不同等等,由于这种差异的存在导致了在对轻量化数据存储的过程中会造成不同的麻烦,同时轻量化数据在传输的过程中会出现数据不完整的情况,后续在使用不完整轻量化数据的时候会存在一定程度的影响。
发明内容
针对现有技术的不足,本发明提供了一种轻量化数据治理方法,解决了不同轻量化数据在存储的时候会由于自身存在的差异造成存储的麻烦的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种轻量化数据治理方法,该方法具体包括以下步骤:
步骤一:获取到传输的轻量化数据,并对轻量化数据进行核验,判断传输的轻量化数据的完整性得到完整轻量化数据和不完整轻量化数据,具体核验判断方式为:
在轻量化数据传输之前,对每个字节进行奇偶位的计算并将其传输到接收端,接收端获取到传输的轻量化数据,并根据接收到的轻量化数据计算奇偶位,然后与传输的奇偶位进行比对,从而判断数据是否完整,若两个奇偶位相同则表示传输的轻量化数据完整,若两个奇偶位不相同则表示传输的轻量化数据不完整。
步骤二:获取到完整轻量化数据同时获取到其对应的容量值,接着根据容量值来对完整轻量化数据进行压缩处理得到压缩轻量化数据,具体的压缩处理方式如下:
S1:获取到任意一组完整轻量化数据并将其标记为目标数据且记作为k,并对目标数据k进行二进制转换,同时获取到其对应的容量值记作Rk,并将容量值最后一位进行标记且记作A;具体的,A表示为容量值最后一位的数值,如果容量值为123,则A=3。
S2:根据二进制转换后的目标数据生成对应的二进制原模板和分割模板,且生成分割模板的方式为:以A为二进制数的分割个数,且A不包括A=1的情况,并将A个二进制数作为原模板,同理对后续的二进制数进行相同方式的分割生成分割模板,同时对分割模板进行标号处理且记作为i,且i=1、2、…、n;
S3:接着将分割模板i与原模板进行比较,并将二者进行相似度匹配,若二者内部的二进制数排序顺序不相同的数量不超过两个,则将对应的分割模板i分类为相似模板,二者内部的二进制数排序顺序不相同的数量超过两个,则对分割模板不进行任何处理;具体的,二进制数排序顺序表示原模板中的排序顺序与分割模板中排序顺序是否相同。
S4:获取到所有的相似模板并对其中任意一组相似模板进行分析,同时获取到相似模板中的区别特征,具体的区别特征为存在不相同排序顺序的二进制数,并将区别特征表示为Qa和Qb,且Q=1、2、…、A,a=0,b=1,并将区别特征与相似模板进行重新组合。
以此类推,对所有的完整数据进行相同的分析处理。
步骤三:获取到不完整轻量化数据并对其进行重新传输得到完整轻量化数据,接着对其进行分割和压缩处理得到压缩轻量化数据;具体的,针对不完整轻量化数据需要对其进行重新传输,同理对传输的轻量化数据进行完整性核验,直至获取到传输为完整的轻量化数据。
步骤四:接着对获取到的压缩轻量化数据进行存储,通过对压缩轻量化数据的容量进行分析,并按照容量值的大小进行不同方式的存储,且具体的存储方式如下:
P1:将压缩轻量化数据进行同类型分类处理,获取到任意一组分类压缩轻量化数据并对其进行标号处理且记作为o,且o=1、2、…、p,同时获取到其对应的读取速度Vo和容量值Ro;
P2:获取到读取速度Vo最大对应的压缩轻量化数据o,读取速度最大表示对压缩轻量化数据读取的速度最快,用时最短,并将其作为标准数据且标号为h,同时获取到其容量值Rh,接着筛选出读取速度Vo小于标准数据读取速度Vh对应的压缩轻量化数据并将其记作低标速数据p,且p=1、2、…、g;
P3:获取到所有低标速数据p对应的容量值Rp,并将其与标准数据容量值Ro进行比较,同时将Rp大于标准数据容量值Ro的低标速数据分类为大容量低标速数据u,且u=1、2、…、f,将Rp小于标准数据容量值Ro的低标速数据分类为小容量低标速数据y,且y=1、2、…、e,且e+f=g;具体的针对读取速度高于标准数据的不进行任何处理。
P4:获取到所有的大容量低标速数据u和其对应的容量值Ru,同时将其按照容量值Ru从大到小进行排序标号,并根据其容量值奇偶性进行不同的存储,具体的存储方式如下:
P41:当大容量低标速数据u的容量值Ru为奇数时,获取到容量值最后一位A,并按照容量均分成A份数据包同时将A份数据包进行相同排序标号处理,且A份数据包的标号与其对应的大容量低标速数据的排序标号相同,同时A不包括1,同时将得到的A份数据包进行存储生成存储信息;
P42:当大容量低标速数据u的容量值为偶数时,将容量值进行两等份的均分处理得到两份数据包,同时将得到的两份数据包进行存储生成存储信息,且两份数据包均存在有与大容量低标速数据相同的标号。
具体的针对小容量低标速数据不进行任何处理。
本发明提供了一种轻量化数据治理方法。与现有技术相比具备以下有益效果:
本发明通过对传输后的轻量化数据进行完整性核验,针对不完整的轻量化数据进行重新传输,从而避免不完整轻量化数据在使用过程中带来的麻烦,接着针对完整轻量化数据根据其格式进行同类型分类处理,并针对同类型的完整轻量化数据通过对其进行二进制转换,并根据其容量来对其进行分割处理,从而实现对其整体的压缩,最后得到压缩的完整轻量化数据再次根据其容量值的奇偶性来进行不同方式的存储,进一步的来减小整体的存储空间。
附图说明
图1为本发明方法流程图;
图2为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,请参阅图1和图2,本申请提供了一种轻量化数据治理方法,该方法具体包括以下步骤:
步骤一:获取到传输的轻量化数据,并对轻量化数据进行核验,判断传输的轻量化数据的完整性得到完整轻量化数据和不完整轻量化数据,具体核验判断方式为:
在轻量化数据传输之前,对每个字节进行奇偶位的计算并将其传输到接收端,接收端获取到传输的轻量化数据,并根据接收到的轻量化数据计算奇偶位,然后与传输的奇偶位进行比对,从而判断数据是否完整,若两个奇偶位相同则表示传输的轻量化数据完整,若两个奇偶位不相同则表示传输的轻量化数据不完整。
步骤二:获取到完整轻量化数据同时获取到其对应的容量值,接着根据容量值来对完整轻量化数据进行压缩处理得到压缩轻量化数据,具体的压缩处理方式如下:
S1:获取到任意一组完整轻量化数据并将其标记为目标数据且记作为k,并对目标数据k进行二进制转换,同时获取到其对应的容量值记作Rk,并将容量值最后一位进行标记且记作A;具体的,A表示为容量值最后一位的数值,如果容量值为123,则A=3。
S2:根据二进制转换后的目标数据生成对应的二进制原模板和分割模板,且生成分割模板的方式为:以A为二进制数的分割个数,且A不包括A=1的情况,并将A个二进制数作为原模板,同理对后续的二进制数进行相同方式的分割生成分割模板,同时对分割模板进行标号处理且记作为i,且i=1、2、…、n;
S3:接着将分割模板i与原模板进行比较,并将二者进行相似度匹配,若二者内部的二进制数排序顺序不相同的数量不超过两个,则将对应的分割模板i分类为相似模板,二者内部的二进制数排序顺序不相同的数量超过两个,则对分割模板不进行任何处理;具体的,二进制数排序顺序表示原模板中的排序顺序与分割模板中排序顺序是否相同。
比如,原模板为01011100100,其中一个分割模板为01001100101,则二者存在两个不相同的二进制数,相同排序的数量为9,因此二者存在两处位置不相同的二进制数,则将分割模板分类为相似模板,再者比如原模板为01011100100,分割模板为11001000101,二者中存在五处不相同的位置,针对此类情况不做任何处理。
S4:获取到所有的相似模板并对其中任意一组相似模板进行分析,同时获取到相似模板中的区别特征,具体的区别特征为存在不相同排序顺序的二进制数,并将区别特征表示为Qa和Qb,且Q=1、2、…、A,a=0,b=1,并将区别特征与相似模板进行重新组合。
以此类推,对所有的完整数据进行相同的分析处理。
结合实际分析,原模板为01011100100,分割模板为01001100101,将分割模板进行区别特征提取再重新组合后整体则表示为3a和11b。
步骤三:获取到不完整轻量化数据并对其进行重新传输得到完整轻量化数据,接着对其进行分割和压缩处理得到压缩轻量化数据;具体的,针对不完整轻量化数据需要对其进行重新传输,同理对传输的轻量化数据进行完整性核验,直至获取到传输为完整的轻量化数据。
步骤四:接着对获取到的压缩轻量化数据进行存储,通过对压缩轻量化数据的容量进行分析,并按照容量值的大小进行不同方式的存储,且具体的存储方式如下:
P1:将压缩轻量化数据进行同类型分类处理,获取到任意一组分类压缩轻量化数据并对其进行标号处理且记作为o,且o=1、2、…、p,同时获取到其对应的读取速度Vo和容量值Ro;
P2:获取到读取速度Vo最大对应的压缩轻量化数据o,读取速度最大表示对压缩轻量化数据读取的速度最快,用时最短,并将其作为标准数据且标号为h,同时获取到其容量值Rh,接着筛选出读取速度Vo小于标准数据读取速度Vh对应的压缩轻量化数据并将其记作低标速数据p,且p=1、2、…、g;
P3:获取到所有低标速数据p对应的容量值Rp,并将其与标准数据容量值Ro进行比较,同时将Rp大于标准数据容量值Ro的低标速数据分类为大容量低标速数据u,且u=1、2、…、f,将Rp小于标准数据容量值Ro的低标速数据分类为小容量低标速数据y,且y=1、2、…、e,且e+f=g;具体的针对读取速度高于标准数据的不进行任何处理。
P4:获取到所有的大容量低标速数据u和其对应的容量值Ru,同时将其按照容量值Ru从大到小进行排序标号,并根据其容量值奇偶性进行不同的存储,具体的存储方式如下:
P41:当大容量低标速数据u的容量值Ru为奇数时,获取到容量值最后一位A,并按照容量均分成A份数据包同时将A份数据包进行相同排序标号处理,且A份数据包的标号与其对应的大容量低标速数据的排序标号相同,同时A不包括1,同时将得到的A份数据包进行存储生成存储信息;
P42:当大容量低标速数据u的容量值为偶数时,将容量值进行两等份的均分处理得到两份数据包,同时将得到的两份数据包进行存储生成存储信息,且两份数据包均存在有与大容量低标速数据相同的标号。
具体的针对小容量低标速数据不进行任何处理。
实施例二,作为本发明的实施例二,与实施例一的区别之处在于,对轻量化数据核验的方式不同,对轻量化数据核验还能够通过哈希值校验的方式进行核验,通过对原始数据应用哈希算法生成固定长度的哈希值,然后在接收端重新计算哈希值,并将其与发送端的哈希值进行比对,以验证数据的完整性。常用的哈希算法有MD5、SHA-1、SHA-256等。
实施例三,作为本发明的实施例三,重点在于将实施例一和实施例二的实施过程结合实施。
上述公式中的部分数据均是去其纲量进行数值计算,同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (7)

1.一种轻量化数据治理方法,其特征在于,该方法具体包括以下步骤:
步骤一:通过计算字节奇偶位对轻量化数据完整性进行判断得到完整轻量化数据和不完整轻量化数据;
步骤二:对完整轻量化数据进行二进制转换,同时根据其容量值最后一位数值对完整轻量化数据进行二进制数分割得到分割模板,接着将分割模板相似度匹配得到相似模板,同时将相似模板中的区别特征进行标记;
步骤三:获取到不完整轻量化数据并进行重新传输得到完整轻量化数据;
步骤四:对完整轻量化数据进行同类型分类处理,并根据同类型中读取速度最大的完整轻量化数据作为标准数据,同时根据标准数据容量值对完整轻量化数据进行大容量低标速数据和小容量低标速数据分类;
步骤五:根据大容量低标速数据容量值的奇偶性进行不同方式的存储生成存储信息。
2.根据权利要求1所述的一种轻量化数据治理方法,其特征在于,所述步骤二中得到原模板和分割模板的具体方式如下:
S1:获取到任意一组完整轻量化数据且记作目标数据k,同时对目标数据进行二进制转换,接着获取到其对应的容量值记作Rk,并将容量值最后一位进行标记且记作A;
S2:以A为二进制数分割数对目标数据进行分割,并将第一个分割模板标记为原模板,同时对分割模板进行标号处理且记作为i,且i=1、2、…、n。
3.根据权利要求1所述的一种轻量化数据治理方法,其特征在于,所述步骤二中得到相似模板和对区别特征的标记方式如下:
Q1:将分割模板i与原模板进行相似度比较,若二者内部相同位置对应的二进制数不相同的数量不超过两个,则将对应的分割模板i分类为相似模板,反之若数量超过两个,则对分割模板不进行任何处理;
Q2:获取任意一组相似模板,同时将相似模板中相同位置对应的不相同二进制数标记为区别特征,且记作为Qa和Qb,且Q=1、2、…、A,a=0,b=1,并将区别特征与相似模板进行重新组合。
4.根据权利要求1所述的一种轻量化数据治理方法,其特征在于,所述步骤四中具体的分类方式为:
P1:将压缩轻量化数据进行同类型分类处理,获取到任意一组分类压缩轻量化数据并对其进行标号处理且记作为o,且o=1、2、…、p,同时获取到其对应的读取速度Vo和容量值Ro;
P2:将读取速度Vo最大的压缩轻量化数据作为标准数据且标号为h,将其容量值Rh,接着筛选出读取速度Vo小于标准数据读取速度Vh对应的压缩轻量化数据并将其记作低标速数据p,且p=1、2、…、g;
P3:将低标速数据p容量值记作为Rp,若低标速数据容量值Ro大于Rp则将低标速数据分类为大容量低标速数据u,且u=1、2、…、f,反之则分类为小容量低标速数据y,且y=1、2、…、e,且e+f=g。
5.根据权利要求4所述的一种轻量化数据治理方法,其特征在于,所述步骤P1中的同类型分类处理具体表示为:将相同格式的压缩轻量化数据进行同类型分类,其中o表示同类型分类种类。
6.根据权利要求1所述的一种轻量化数据治理方法,其特征在于,所述步骤五中根据大容量低标速数据的奇偶性生成不同存储信息的具体方式如下:
当容量值Ru为奇数时,获取到容量值最后一位A,并按照容量均分成A份数据包同时将A份数据包进行相同排序标号处理,当容量值为偶数时,将容量值进行两等份的均分处理同时存储生成存储信息。
7.根据权利要求1所述的一种轻量化数据治理方法,其特征在于,所述步骤一中具体的奇偶位核验方式为:
获取轻量化数据传输之前的奇偶位,并计算传输之后的奇偶位,若两个奇偶位相同则表示传输的轻量化数据完整,若两个奇偶位不相同则表示传输的轻量化数据不完整。
CN202311574262.4A 2023-11-23 2023-11-23 一种轻量化数据治理方法 Pending CN117742581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311574262.4A CN117742581A (zh) 2023-11-23 2023-11-23 一种轻量化数据治理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311574262.4A CN117742581A (zh) 2023-11-23 2023-11-23 一种轻量化数据治理方法

Publications (1)

Publication Number Publication Date
CN117742581A true CN117742581A (zh) 2024-03-22

Family

ID=90276556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311574262.4A Pending CN117742581A (zh) 2023-11-23 2023-11-23 一种轻量化数据治理方法

Country Status (1)

Country Link
CN (1) CN117742581A (zh)

Similar Documents

Publication Publication Date Title
US10007688B2 (en) Methods and devices for efficient feature matching
US9870383B1 (en) Fast efficient vocabulary computation with hashed vocabularies
WO2022151590A1 (zh) 数据的抽样检测方法、装置、设备及存储介质
US9348832B2 (en) Method and device for reassembling a data file
CN111967609B (zh) 模型参数验证方法、设备及可读存储介质
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
CN106257403A (zh) 用于关于数据传送的单通熵检测的装置和方法
US20210288814A1 (en) A block chain-based system for multi-party, multistage process verification
CN111767350A (zh) 数据仓库测试方法、装置、终端设备及存储介质
CN111598176B (zh) 一种图像匹配处理方法及装置
CN105989001A (zh) 图像搜索方法及装置、图像搜索系统
US10114839B2 (en) Format identification for fragmented image data
CN110928848A (zh) 一种文件碎片分类方法及系统
WO2021142072A1 (en) Peceptual video fingerprinting
CN117742581A (zh) 一种轻量化数据治理方法
WO2017157038A1 (zh) 数据处理的方法、装置和设备
CN111047657A (zh) 图片压缩方法、装置、介质及电子设备
CN113141351B (zh) 政务大数据多部门联合审核认证工作方法
CN110765846B (zh) 抓拍机推图测试方法及装置
CN106934041A (zh) 影像文件管理方法及装置
CN112818347A (zh) 一种文件标签确定方法、装置、设备及存储介质
CN112070473A (zh) 一种基于工程项目的数据处理方法及装置
CN111476528B (zh) 基于快递出库的数据处理方法、装置、设备及存储介质
CN113704176B (zh) 文件扫描方法、装置、电子设备及存储介质
CN113505137B (zh) 一种不动产空间图形更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination