CN111538464B - 一种基于物联网平台的数据清理方法及装置 - Google Patents

一种基于物联网平台的数据清理方法及装置 Download PDF

Info

Publication number
CN111538464B
CN111538464B CN202010389436.XA CN202010389436A CN111538464B CN 111538464 B CN111538464 B CN 111538464B CN 202010389436 A CN202010389436 A CN 202010389436A CN 111538464 B CN111538464 B CN 111538464B
Authority
CN
China
Prior art keywords
data
target
current
field
residual capacity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010389436.XA
Other languages
English (en)
Other versions
CN111538464A (zh
Inventor
梁成敏
梁燕露
杨乐忠
杨柱豪
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG ZHIXIANG TECHNOLOGY Co.,Ltd.
Original Assignee
Zhejiang Zhixiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zhixiang Technology Co ltd filed Critical Zhejiang Zhixiang Technology Co ltd
Priority to CN202010389436.XA priority Critical patent/CN111538464B/zh
Publication of CN111538464A publication Critical patent/CN111538464A/zh
Application granted granted Critical
Publication of CN111538464B publication Critical patent/CN111538464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/75Information technology; Communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及物联网云平台与大数据处理技术领域,特别涉及一种基于物联网平台的数据清理方法及装置。本发明通过将目标数据容量与预设存储空间的当前剩余容量进行比较,能够在当前剩余容量小于目标数据容量时根据确定出的预设存储空间中的每个已存储数据的存储时长对每个已存储数据进行数据特征提取以得到当前数据特征矩阵;进而将预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵以实现对已存储数据的压缩存储;这样基于已释放的预设存储空间的当前剩余容量继续判断能否对目标业务数据进行存储,通过对预已存储数据进行不断地压缩存储,能够实现对目标业务数据的完整存储。

Description

一种基于物联网平台的数据清理方法及装置
技术领域
本发明涉及物联网云平台与大数据处理技术领域,特别涉及一种基于物联网平台的数据清理方法及装置。
背景技术
大数据的快速发展为现代社会的生产生活提供了诸多便利,极大地提升了企业的生产效率和人们的生活质量。数据平台作为整合各行各业的业务数据的枢纽,在整个大数据处理中起着至关重要的作用。数据平台通过对业务数据进行存接收、存储和转发,从而实现业务数据在不同业务终端之间的交互。然而,随着业务数据的数量的逐渐增多和规模的不断扩大,在面临大量需要存储的业务数据时,由于数据平台的存储空间有限,难以实现对这些业务数据的完整存储。
发明内容
为改善相关技术中存在的数据平台难以对大量的业务数据进行完整存储的技术问题,本公开提供了基于物联网平台的数据清理方法及装置。
一种基于物联网云平台的大数据清理方法,应用于与多个业务终端通信的服务器,所述方法包括以下步骤:检测是否接收到目标业务终端发送的用于上传目标业务数据的上传请求;在接收到所述上传请求时,通过对所述上传请求进行解析得到所述目标业务数据的目标数据容量;判断预设存储空间的当前剩余容量是否小于所述目标数据容量;在当前剩余容量小于所述目标数据容量时,确定所述预设存储空间中的每个已存储数据的存储时长;基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵;将所述预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵;获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果;在所述比较结果表征当前剩余容量大于或等于所述目标剩余容量时,将所述目标业务数据存入所述预设存储空间中;在所述比较结果表征当前剩余容量小于所述目标剩余容量时,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储并返回获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果的步骤。
进一步地,基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵的步骤,具体包括:获取每个已存储数据的多个数据字段;基于每个已存储数据的存储时长从每个已存储数据对应的数据字段中筛选至少多个目标数据字段;对所述至少多个目标数据字段中的每个目标数据字段进行特征提取,得到每个目标数据字段对应的字段特征向量;按照每个目标数据字段对应的权重系数对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵。
进一步地,基于每个已存储数据的存储时长从每个已存储数据对应的数据字段中筛选至少多个目标数据字段的步骤,具体包括:获取每个已存储数据对应的每个数据字段的权重系数;按照权重系数由大到小的顺序将每个已存储数据对应的数据字段进行排序得到第一排序序列;确定每个已存储数据对应的存储时长与最大存储时长的比例,按照所述比例从所述第一排序序列中筛选排序靠前的至少多个目标数据字段。
进一步地,对所述至少多个目标数据字段中的每个目标数据字段进行特征提取,得到每个目标数据字段对应的字段特征向量的步骤,具体包括:获取所述目标数据字段对应的字段信息集合,确定所述目标数据字段对应的权重系数集合;其中,所述字段信息集合和所述权重系数集合分别包括多个不同长度值的字符信息;确定所述目标数据字段在所述字段信息集合的任一字符信息的第一信息特征,将所述权重系数集合中具有最小长度值的字符信息确定为基准字符信息,所述字段信息集合中包括所述目标数据字段对应的多个字符信息,所述权重系数集合中包括所述目标数据字段相对于其他数据字段的权重系数的差值;根据所述目标数据字段的数据容量以及权重系数将所述第一信息特征在所述基准字符信息中进行转换,以在所述基准字符信息中得到第二信息特征;并基于所述第一信息特征和所述第二信息特征确定所述字段信息集合和所述权重系数集合之间的对应关系;参照所述对应关系将所述字段信息集合中的第一字符信息与所述权重系数集合中中第二字符信息进行进行一一配对,并确定每个第一字符信息与其相配对的第二字符信息之间的匹配率;统计匹配率大于设定概率的第一字符信息的数量,若所述数量小于等于设定数量,则提取匹配率大于设定概率的所有第一字符信息的信息特征作为每个目标数据字段对应的字段特征向量,若所述数量大于所述设定数量,则提取匹配率大于设定概率的前设定数量个第一字符信息的信息特征作为每个目标数据字段对应的字段特征向量。
进一步地,按照每个目标数据字段对应的权重系数对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵的步骤,包括:将每个目标数据字段对应的权重系数进行归一化处理,得到每个目标数据字段对应的归一化权重;按照所述归一化权重对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵。
进一步地,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储的步骤,具体包括:获取每个当前数据特征矩阵在设定时段内的调用次数,按照调用次数由高到低的顺序确定每个当前数据特征矩阵的优先级并按照优先级由大到小的顺序将当前数据特征矩阵进行排序得到第二排序序列;将位于所述第二排序序列末尾的若干个当前数据特征矩阵进行压缩存储。
进一步地,所述方法还包括:确定与所述服务器存在有效通信的业务终端的累计数量;根据所述累计数量将所述设定时段进行修改。
一种基于物联网云平台的大数据清理装置,应用于与多个业务终端通信的服务器,所述装置包括:
请求检测模块,用于检测是否接收到目标业务终端发送的用于上传目标业务数据的上传请求;在接收到所述上传请求时,通过对所述上传请求进行解析得到所述目标业务数据的目标数据容量;
时长确定模块,用于判断预设存储空间的当前剩余容量是否小于所述目标数据容量;在当前剩余容量小于所述目标数据容量时,确定所述预设存储空间中的每个已存储数据的存储时长;
数据清理模块,用于基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵;将所述预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵;
容量比较模块,用于获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果;在所述比较结果表征当前剩余容量大于或等于所述目标剩余容量时,将所述目标业务数据存入所述预设存储空间中;在所述比较结果表征当前剩余容量小于所述目标剩余容量时,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储并返回获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果的步骤。
一种服务器,包括:处理器以及与所述处理器连接的存储器和接口;所述处理器用于通过接口调用所述存储器中的计算机程序,并通过所述处理器的内存运行所述计算机程序,以执行上述的方法。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器运行时实现上述的方法。
本公开的实施例提供的技术方案可以包括以下有益效果。
通过将目标数据容量与预设存储空间的当前剩余容量进行比较,能够在当前剩余容量小于目标数据容量时根据确定出的预设存储空间中的每个已存储数据的存储时长对每个已存储数据进行数据特征提取以得到当前数据特征矩阵。进而将预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵以实现对已存储数据的压缩存储。这样基于已释放的预设存储空间的当前剩余容量继续判断能否对目标业务数据进行存储,若能,则对目标业务数据进行存储,若不能,则继续对当前数据特征矩阵进行压缩存储。如此,通过对预已存储数据进行不断地压缩存储,能够实现对目标业务数据的完整存储。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本公开所涉及的数据清理系统的通信架构示意图。
图2是根据一示例性实施例示出的一种数据清理方法的流程图。
图3是根据一示例性实施例示出的一种数据清理装置的模块框图。
图4是根据一示例性实施例示出的一种服务器的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是根据本公开所涉及的基于物联网云平台的大数据清理系统100的原理示意图,所述数据清理系统100包括服务器200和多个业务终端300。其中,服务器200与每个业务终端300通信,服务器200可以理解为一个数据平台,用于对业务终端300上传的业务数据进行存储和转发,进而实现整个数据清理系统100的业务数据的交互。
然而,随着服务器200的运行时长的增加,服务器200中存储的业务数据的数量越来越多,服务器200的存储空间逐渐被消耗,当业务终端300继续上传新的业务数据时,服务器200难以对这些新的业务数据进行存储。为此,服务器200按照存储时长的大小顺序对已存储的数据进行压缩,从而实现对业务数据的清理,进而释放存储空间。这样可以实现对新的业务数据的存储。
请结合参阅图2,为本公开所涉及的基于物联网云平台的大数据清理方法的流程示意图,所述方法可以应用于图1中的服务器200,具体包括以下步骤。
步骤S21,检测是否接收到目标业务终端发送的用于上传目标业务数据的上传请求;在接收到所述上传请求时,通过对所述上传请求进行解析得到所述目标业务数据的目标数据容量。
在实施例中,目标业务终端可以是数据清理系统100中的任一业务终端,目标业务终端在向服务器200上传业务数据之前,会先向服务器200发送问候信息,问候信息可以是上传请求。目标数据容量用于表征目标业务数据的数据大小,服务器200通过获取目标数据容量,根据目标数据容量对存储空间的当前剩余容量进行评估。
步骤S22,判断预设存储空间的当前剩余容量是否小于所述目标数据容量;在当前剩余容量小于所述目标数据容量时,确定所述预设存储空间中的每个已存储数据的存储时长。
在本实施例中,当服务器200获取到目标数据容量时,可以将预设存储空间的当前剩余容量与目标数据容量进行比较。其中,预设存储空间是服务器200用于存储业务数据的存储空间,假设预设存储空间的额定存储容量为X1,存储于预设存储空间中的已存储数据的数据容量总和为X2,则当前剩余容量X3可以为X3=X1-X2。
进一步地,在确定出当前剩余容量小于目标数据容量时,表明服务器200难以将目标业务数据进行完整地存储,为此,需要对已存储数据进行压缩存储以释放存储空间,因而需要确定每个已存储数据的存储时长进而确定每个已存储数据的压缩程度。
在一个示例中,存储时长可以是已存储数据从存入预设存储空间的时刻为起始时刻到服务器200接收到上传请求的时刻为中止时刻时间的时长。可以理解,每个已存储数据的起始时刻可能不同,因此每个已存储数据的存储时长也可能不同。
步骤S23,基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵;将所述预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵。
步骤24,获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果;在所述比较结果表征当前剩余容量大于或等于所述目标剩余容量时,将所述目标业务数据存入所述预设存储空间中;在所述比较结果表征当前剩余容量小于所述目标剩余容量时,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储并返回获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果的步骤。
在本实施例中,通过采用当前数据特征矩阵替换已存储数据,能够释放预设存储空间的存储容量,从而实现对目标业务数据的完整存储。此外,服务器200中还预先配置有特征还原的卷积神经网络,该卷积神经网络可以将当前数据特征矩阵进行还原,然后由服务器200进行转发。
其中,服务器200还可以预先划分出一片缓存空间,用于缓存经卷积升级网络还原后的已存储数据,然后将已存储数据进行发送。这样,不仅可以实现对已存储数据的压缩存储,还能够将压缩存储后的已存储数据进行还原,从而确保服务器200能够执行正常的业务处理。
在本实施例中,服务器200在通过卷积神经网络对不同的当前数据特征矩阵进行还原时,当前数据特征矩阵的压缩程度不同,所需的还原时长也不同。例如,若当前数据特征矩阵的压缩程度较高,则所需的还原时长越长。又例如,若当前数据特征矩阵的压缩程度较低,则所需的还原时长越短。
由此可见,在执行上述步骤S21-步骤S24所描述的内容时,通过将目标数据容量与预设存储空间的当前剩余容量进行比较,能够在当前剩余容量小于目标数据容量时根据确定出的预设存储空间中的每个已存储数据的存储时长对每个已存储数据进行数据特征提取以得到当前数据特征矩阵。进而将预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵以实现对已存储数据的压缩存储。这样基于已释放的预设存储空间的当前剩余容量继续判断能否对目标业务数据进行存储,若能,则对目标业务数据进行存储,若不能,则继续对当前数据特征矩阵进行压缩存储。如此,通过对预已存储数据进行不断地压缩存储,能够实现对目标业务数据的完整存储。
在一个可能的实施方式中,为了准确地确定出当前数据特征矩阵,在步骤S23中,基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵的步骤,具体可以包括以下步骤所描述的内容。
步骤S231,获取每个已存储数据的多个数据字段。
在一个示例中,每个数据字段用于表征所述已存储数据在不同维度下的特征,例如,不同的数据字段可以用于表征所述已存储数据的数据类别信息、数据上传方的设备信息以及数据下游端的身份标识信息等。可以理解,服务器200对每个已存储数据对应的每个数据字段均设置了权重系数。
进一步地,权重系数用于表征每个已存储数据相对于该权重系数对应的数据字段的特征区分度。例如,权重系数越大,特征区分度越大。可以理解,不同数据字段的权重系数不同。
步骤S232,基于每个已存储数据的存储时长从每个已存储数据对应的数据字段中筛选至少多个目标数据字段。
步骤S233,对所述至少多个目标数据字段中的每个目标数据字段进行特征提取,得到每个目标数据字段对应的字段特征向量。
步骤S234,按照每个目标数据字段对应的权重系数对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵。
可以理解,在应用上述步骤S231-步骤S234所描述的方法时,能够根据存储时长对每个已存储数据的数据字段进行筛选,从而根据筛选得到的目标数据字段对应的字段特征向量准确确定出已存储数据的当前数据特征矩阵。
在另一个可能的示例中,为了确保对预设存储空间的充分释放,需要确定出特征区分度相对较大的目标数据字段。为此,步骤S232所描述的基于每个已存储数据的存储时长从每个已存储数据对应的数据字段中筛选至少多个目标数据字段的步骤,具体可以包括以下步骤所描述的内容。
(1)获取每个已存储数据对应的每个数据字段的权重系数。
(2)按照权重系数由大到小的顺序将每个已存储数据对应的数据字段进行排序得到第一排序序列。
(3)确定每个已存储数据对应的存储时长与最大存储时长的比例,按照所述比例从所述第一排序序列中筛选排序靠前的至少多个目标数据字段。
例如,针对已存储数据D,其数据字段的数量为20个,已存储数据D的存储时长与最大存储时长的比例为0.3,则表征已存储数据D存入预设存储空间的时长小于最大存储时长对应的已存储数据,在这种情况下,可以从第一排序序列中筛选排序靠前的20*(1-0.3)=14个数据字段作为目标数据字段。这样,能够根据存储时长的长短对每个已存储数据的数据字段进行针对性筛选,避免选择过多的数据字段而增加后续当前数据特征矩阵的容量,进而确保对预设存储空间的充分释放。
在另一个可能的示例中,步骤S233所描述的对所述至少多个目标数据字段中的每个目标数据字段进行特征提取,得到每个目标数据字段对应的字段特征向量的步骤,进一步可以包括以下子步骤所描述的内容。
(1)获取所述目标数据字段对应的字段信息集合,确定所述目标数据字段对应的权重系数集合;其中,所述字段信息集合和所述权重系数集合分别包括多个不同长度值的字符信息。
(2)确定所述目标数据字段在所述字段信息集合的任一字符信息的第一信息特征,将所述权重系数集合中具有最小长度值的字符信息确定为基准字符信息,所述字段信息集合中包括所述目标数据字段对应的多个字符信息,所述权重系数集合中包括所述目标数据字段相对于其他数据字段的权重系数的差值。
(3)根据所述目标数据字段的数据容量以及权重系数将所述第一信息特征在所述基准字符信息中进行转换,以在所述基准字符信息中得到第二信息特征;并基于所述第一信息特征和所述第二信息特征确定所述字段信息集合和所述权重系数集合之间的对应关系。
(4)参照所述对应关系将所述字段信息集合中的第一字符信息与所述权重系数集合中中第二字符信息进行进行一一配对,并确定每个第一字符信息与其相配对的第二字符信息之间的匹配率;统计匹配率大于设定概率的第一字符信息的数量,若所述数量小于等于设定数量,则提取匹配率大于设定概率的所有第一字符信息的信息特征作为每个目标数据字段对应的字段特征向量,若所述数量大于所述设定数量,则提取匹配率大于设定概率的前设定数量个第一字符信息的信息特征作为每个目标数据字段对应的字段特征向量。
在具体实施时,通过上述内容,能够对每个目标数据字段进行准确且可靠的特征提取,进而确保每个目标数据字段对应的字段特征向量的置信度。
在另一个可能的示例中,步骤S234所描述的按照每个目标数据字段对应的权重系数对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵的步骤,具体包括以下步骤所描述的内容。
(1)将每个目标数据字段对应的权重系数进行归一化处理,得到每个目标数据字段对应的归一化权重。
(2)按照所述归一化权重对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵。
例如,已存储数据D的目标数据字段D1、D2和D3的权重系数分别为q1、q2和q3。则D1的归一化权重为q1/(q1+q2+q3),D2的归一化权重为q2/(q1+q2+q3),D3的归一化权重为q3/(q1+q2+q3)。假设D1的字段特征向量为n1,D2的字段特征向量为n2,D3的字段特征向量为n3,且n1、n2和n3为列向量。则当前数据特征矩阵可以为:[q1/(q1+q2+q3)*n1,q2/(q1+q2+q3)*n2,q3/(q1+q2+q3)*n3]。
可以理解,基于上述步骤所描述的内容,能够将每个目标数据字段的权重系数考虑在内,从而提高当前数据特征矩阵的可信度和准确度。
进一步地,在步骤S24中,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储的步骤,具体可以包括以下步骤所描述的内容。
步骤S241,获取每个当前数据特征矩阵在设定时段内的调用次数,按照调用次数由高到低的顺序确定每个当前数据特征矩阵的优先级并按照优先级由大到小的顺序将当前数据特征矩阵进行排序得到第二排序序列。
步骤S242,将位于所述第二排序序列末尾的若干个当前数据特征矩阵进行压缩存储。
在本实施例中,将若干个当前数据特征矩阵进行压缩存储的方式可以是进一步提取当前数据特征矩阵的特征值,然后对当前数据特征矩阵进行降维处理,以减少当前数据特征矩阵所占用的存储容量。例如,降维处理前的当前数据特征矩阵可以是3*3矩阵,降维处理后的当前特征矩阵可以是3*2矩阵。
可以理解,基于步骤S241-步骤S242,能够基于优先级对当前数据特征矩阵进行选择性地压缩存储,可以确保频繁被调用的当前数据特征矩阵不会被进一步压缩,避免增加将频繁被调用的当前数据特征矩阵进行还原的耗时。
在上述基础上,所述方法还可以包括以下内容:确定与所述服务器存在有效通信的业务终端的累计数量,根据所述累计数量将所述设定时段进行修改。这样,可以基于服务器的通信状态实现对设定时段的剪切和修改,从而确保所确定出的优先级的时效性。
在一种可替换的实施方式中,为了进一步释放预设存储区间的存储容量,在上述步骤S21-步骤S24的基础上,所述方法还可以包括以下步骤所描述的内容。
步骤S31,提取所述预设存储空间的存储区划分参数以及各脚本数据。
步骤S32,在基于所述存储区划分参数判定出所述预设存储空间中包含有冗余数据组的情况下,根据所述预设存储空间在所述冗余数据组下的脚本数据及其数据活跃度确定所述预设存储空间在非冗余数据组下的各脚本数据与预设存储空间的冗余数据组下的各脚本数据之间的数据结构偏移值,并基于所述数据结构偏移量将所述预设存储空间在所述非冗余数据组下的与在所述冗余数据组下的脚本数据类似的脚本数据剪切到所述冗余数据组下。
步骤S33,在所述预设存储空间对应的非冗余数据组下包含有多个脚本数据的情况下,根据所述预设存储空间在所述冗余数据组下的脚本数据及其数据活跃度确定所述预设存储空间在所述非冗余数据组下的各脚本数据之间的数据结构偏移值,并基于所述各脚本数据之间的数据结构偏移值对所述非冗余数据组下的各脚本数据进行融合。
步骤S34,基于所述预设存储空间在所述冗余数据组下的脚本数据及其数据活跃度为上述融合获得的每一组脚本数据设置剪切指向信息,并将所述每一组脚本数据按照所述剪切指向信息剪切到所述冗余数据组下。
步骤S35,将所述冗余数据下的所有脚本数据进行删除。
可以理解,在应用上述步骤S31-步骤S25时,能够对预设存储空间中的冗余脚本数据进行删除,这样可以进一步释放预设存储区间的存储容量。
在本公开的所揭示的另一个实施例中,提供了一种数据清理装置400,包括:
请求检测模块410,用于检测是否接收到目标业务终端发送的用于上传目标业务数据的上传请求;在接收到所述上传请求时,通过对所述上传请求进行解析得到所述目标业务数据的目标数据容量。
时长确定模块420,用于判断预设存储空间的当前剩余容量是否小于所述目标数据容量;在当前剩余容量小于所述目标数据容量时,确定所述预设存储空间中的每个已存储数据的存储时长。
数据清理模块430,用于基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵;将所述预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵。
容量比较模块440,用于获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果;在所述比较结果表征当前剩余容量大于或等于所述目标剩余容量时,将所述目标业务数据存入所述预设存储空间中;在所述比较结果表征当前剩余容量小于所述目标剩余容量时,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储并返回获取所述预设存储空间的当前剩余容量并确定当前剩余容量与所述目标剩余容量的比较结果的步骤。
关于上述功能模块的说明可以参照对图2所示的步骤S21-步骤S24的描述,在此不作更多说明。
在本公开的所揭示的另一个实施例中,提供了一种服务器200,包括:处理器210以及与所述处理器210连接的存储器220和接口230;所述处理器210用于通过接口230调用所述存储器220中的计算机程序,并通过所述处理器210的内存240运行所述计算机程序,以执行上述的方法。
在本公开的所揭示的另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器210运行时实现上述的方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种基于物联网云平台的大数据清理方法,其特征在于,应用于与多个业务终端通信的服务器,所述方法包括以下步骤:
检测是否接收到目标业务终端发送的用于上传目标业务数据的上传请求;在接收到所述上传请求时,通过对所述上传请求进行解析得到所述目标业务数据的目标数据容量;
判断预设存储空间的当前剩余容量是否小于所述目标数据容量;在当前剩余容量小于所述目标数据容量时,确定所述预设存储空间中的每个已存储数据的存储时长;
基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵;将所述预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵;
获取所述预设存储空间的当前剩余容量并确定当前剩余容量与目标剩余容量的比较结果;在所述比较结果表征当前剩余容量大于或等于目标剩余容量时,将所述目标业务数据存入所述预设存储空间中;在所述比较结果表征当前剩余容量小于目标剩余容量时,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储并返回获取所述预设存储空间的当前剩余容量并确定当前剩余容量与目标剩余容量的比较结果的步骤;
其中,基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵的步骤,具体包括:
获取每个已存储数据的多个数据字段;基于每个已存储数据的存储时长从每个已存储数据对应的数据字段中筛选至少多个目标数据字段;对所述至少多个目标数据字段中的每个目标数据字段进行特征提取,得到每个目标数据字段对应的字段特征向量;按照每个目标数据字段对应的权重系数对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵。
2.根据权利要求1所述的数据清理方法,其特征在于,基于每个已存储数据的存储时长从每个已存储数据对应的数据字段中筛选至少多个目标数据字段的步骤,具体包括:
获取每个已存储数据对应的每个数据字段的权重系数;
按照权重系数由大到小的顺序将每个已存储数据对应的数据字段进行排序得到第一排序序列;
确定每个已存储数据对应的存储时长与最大存储时长的比例,按照所述比例从所述第一排序序列中筛选排序靠前的至少多个目标数据字段。
3.根据权利要求1所述的数据清理方法,其特征在于,对所述至少多个目标数据字段中的每个目标数据字段进行特征提取,得到每个目标数据字段对应的字段特征向量的步骤,具体包括:
获取所述目标数据字段对应的字段信息集合,确定所述目标数据字段对应的权重系数集合;其中,所述字段信息集合和所述权重系数集合分别包括多个不同长度值的字符信息;
确定所述目标数据字段在所述字段信息集合的任一字符信息的第一信息特征,将所述权重系数集合中具有最小长度值的字符信息确定为基准字符信息,所述字段信息集合中包括所述目标数据字段对应的多个字符信息,所述权重系数集合中包括所述目标数据字段相对于其他数据字段的权重系数的差值;
根据所述目标数据字段的数据容量以及权重系数将所述第一信息特征在所述基准字符信息中进行转换,以在所述基准字符信息中得到第二信息特征;并基于所述第一信息特征和所述第二信息特征确定所述字段信息集合和所述权重系数集合之间的对应关系;
参照所述对应关系将所述字段信息集合中的第一字符信息与所述权重系数集合中第二字符信息进行一一配对,并确定每个第一字符信息与其相配对的第二字符信息之间的匹配率;统计匹配率大于设定概率的第一字符信息的数量,若所述数量小于等于设定数量,则提取匹配率大于设定概率的所有第一字符信息的信息特征作为每个目标数据字段对应的字段特征向量,若所述数量大于所述设定数量,则提取匹配率大于设定概率的前设定数量个第一字符信息的信息特征作为每个目标数据字段对应的字段特征向量。
4.根据权利要求1所述的数据清理方法,其特征在于,按照每个目标数据字段对应的权重系数对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵的步骤,包括:
将每个目标数据字段对应的权重系数进行归一化处理,得到每个目标数据字段对应的归一化权重;
按照所述归一化权重对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵。
5.根据权利要求1-4任一项所述的数据清理方法,其特征在于,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储的步骤,具体包括:
获取每个当前数据特征矩阵在设定时段内的调用次数,按照调用次数由高到低的顺序确定每个当前数据特征矩阵的优先级并按照优先级由大到小的顺序将当前数据特征矩阵进行排序得到第二排序序列;
将位于所述第二排序序列末尾的若干个当前数据特征矩阵进行压缩存储。
6.根据权利要求5所述的数据清理方法,其特征在于,所述方法还包括:
确定与所述服务器存在有效通信的业务终端的累计数量;
根据所述累计数量将所述设定时段进行修改。
7.一种基于物联网云平台的大数据清理装置,其特征在于,应用于与多个业务终端通信的服务器,所述装置包括:
请求检测模块,用于检测是否接收到目标业务终端发送的用于上传目标业务数据的上传请求;在接收到所述上传请求时,通过对所述上传请求进行解析得到所述目标业务数据的目标数据容量;
时长确定模块,用于判断预设存储空间的当前剩余容量是否小于所述目标数据容量;在当前剩余容量小于所述目标数据容量时,确定所述预设存储空间中的每个已存储数据的存储时长;
数据清理模块,用于基于每个已存储数据的存储时长对每个已存储数据进行数据特征提取,得到每个已存储数据对应的当前数据特征矩阵;将所述预设存储空间中的每个已存储数据替换为该已存储数据对应的当前数据特征矩阵;
容量比较模块,用于获取所述预设存储空间的当前剩余容量并确定当前剩余容量与目标剩余容量的比较结果;在所述比较结果表征当前剩余容量大于或等于目标剩余容量时,将所述目标业务数据存入所述预设存储空间中;在所述比较结果表征当前剩余容量小于目标剩余容量时,根据每个当前数据特征矩阵的优先级对每个当前数据特征矩阵进行压缩存储并返回获取所述预设存储空间的当前剩余容量并确定当前剩余容量与目标剩余容量的比较结果的步骤;
其中,所述数据清理模块,具体用于:
获取每个已存储数据的多个数据字段;基于每个已存储数据的存储时长从每个已存储数据对应的数据字段中筛选至少多个目标数据字段;对所述至少多个目标数据字段中的每个目标数据字段进行特征提取,得到每个目标数据字段对应的字段特征向量;按照每个目标数据字段对应的权重系数对每个字段特征向量进行加权,得到每个已存储数据对应的当前数据特征矩阵。
8.一种服务器,其特征在于,包括:处理器以及与所述处理器连接的存储器和接口;所述处理器用于通过接口调用所述存储器中的计算机程序,并通过所述处理器的内存运行所述计算机程序,以执行上述权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器运行时实现上述权利要求1-6任一项所述的方法。
CN202010389436.XA 2020-05-10 2020-05-10 一种基于物联网平台的数据清理方法及装置 Active CN111538464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010389436.XA CN111538464B (zh) 2020-05-10 2020-05-10 一种基于物联网平台的数据清理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010389436.XA CN111538464B (zh) 2020-05-10 2020-05-10 一种基于物联网平台的数据清理方法及装置

Publications (2)

Publication Number Publication Date
CN111538464A CN111538464A (zh) 2020-08-14
CN111538464B true CN111538464B (zh) 2021-05-07

Family

ID=71975750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010389436.XA Active CN111538464B (zh) 2020-05-10 2020-05-10 一种基于物联网平台的数据清理方法及装置

Country Status (1)

Country Link
CN (1) CN111538464B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463039B (zh) * 2020-11-17 2023-05-12 浙江大华技术股份有限公司 数据存储方法、设备以及存储介质
CN116627361B (zh) * 2023-07-25 2023-11-17 江苏华存电子科技有限公司 一种冗余信息的储存比对管理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334067A (zh) * 2019-06-17 2019-10-15 腾讯科技(深圳)有限公司 一种稀疏矩阵压缩方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744627A (zh) * 2014-01-26 2014-04-23 武汉英泰斯特电子技术有限公司 对实时采集的数据压缩存储的方法及系统
CN106933863B (zh) * 2015-12-30 2019-04-19 华为技术有限公司 数据清理方法及装置
CN108319733B (zh) * 2018-03-29 2020-08-25 华中师范大学 一种基于地图的教育大数据分析方法及系统
CN108897808B (zh) * 2018-06-16 2023-11-24 王梅 一种在云存储系统中进行数据存储的方法及系统
GB2575121B (en) * 2018-06-29 2022-12-28 Imagination Tech Ltd Guaranteed data compression
CN109710436B (zh) * 2018-08-17 2021-03-30 深圳壹账通智能科技有限公司 空间清理方法、装置、设备和计算机可读存储介质
CN110674125B (zh) * 2019-09-24 2022-05-17 北京明略软件系统有限公司 一种待融合数据的过滤方法、过滤装置及可读存储介质
CN111028955B (zh) * 2020-03-11 2020-06-09 智博云信息科技(广州)有限公司 一种疫情区域的展示方法及系统
CN111090786B (zh) * 2020-03-19 2020-06-26 上海飞旗网络技术股份有限公司 基于数据压缩的业务数据动态存储方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334067A (zh) * 2019-06-17 2019-10-15 腾讯科技(深圳)有限公司 一种稀疏矩阵压缩方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111538464A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111538464B (zh) 一种基于物联网平台的数据清理方法及装置
CN111652661B (zh) 一种手机客户端用户流失预警处理方法
CN111475562B (zh) 应用于业务处理系统的数据格式优化方法及业务服务器
CN111625342B (zh) 一种数据溯源方法、装置及服务器
CN116800796A (zh) 车联网数据的传输方法、装置、设备及介质
CN108512817B (zh) 多视频转码调度方法及装置
CN115983365A (zh) 模型训练方法、装置、计算机设备及存储介质
CN115687674A (zh) 服务于智慧云服务平台的大数据需求分析方法及系统
CN117271100B (zh) 算法芯片集群调度方法、装置、计算机设备和存储介质
CN115712843B (zh) 基于人工智能的数据匹配检测处理方法及系统
CN114040051B (zh) 多轮外呼方法及装置、可读存储介质和计算机设备
CN111090786B (zh) 基于数据压缩的业务数据动态存储方法及装置
CN112054805B (zh) 一种模型数据压缩方法、系统及相关设备
CN111860954B (zh) 车辆失联预测方法、装置、计算机设备和存储介质
CN109992505B (zh) 应用程序测试方法、装置、计算机设备及存储介质
CN112181672B (zh) 区块链数据的处理方法、区块链系统及计算机存储介质
CN113676377A (zh) 基于大数据的在线用户数评估方法、装置、设备及介质
CN114371884A (zh) Flink计算任务的处理方法、装置、设备和存储介质
CN114363268A (zh) 消息延迟消费方法及相关产品
CN116028723A (zh) 数据推荐方法、装置、设备以及计算机存储介质
CN113407509A (zh) 一种数据的压缩方法、装置、计算机设备和存储介质
CN107179966B (zh) 数据恢复方法及系统
CN112235397A (zh) 应用于互联网通信的大数据传输处理方法及云计算中心
CN112396100A (zh) 一种细粒度分类模型的优化方法、系统及相关装置
CN117151885A (zh) 基于手机银行的虚拟资源转移方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210422

Address after: Room 918, block a, 128 Shuanglian Road, Haining Economic Development Zone, Haining City, Jiaxing City, Zhejiang Province

Applicant after: ZHEJIANG ZHIXIANG TECHNOLOGY Co.,Ltd.

Address before: 510700 Room 601, No.16, Kehui 1st Street, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Zhiboyun information technology (Guangzhou) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant