CN115599792B - 一种物联网大数据分类存储方法 - Google Patents

一种物联网大数据分类存储方法 Download PDF

Info

Publication number
CN115599792B
CN115599792B CN202211592233.6A CN202211592233A CN115599792B CN 115599792 B CN115599792 B CN 115599792B CN 202211592233 A CN202211592233 A CN 202211592233A CN 115599792 B CN115599792 B CN 115599792B
Authority
CN
China
Prior art keywords
data
storage system
temporary storage
time period
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211592233.6A
Other languages
English (en)
Other versions
CN115599792A (zh
Inventor
赵魏来
王茂林
郑崇智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Runxin Data Technology Co ltd
Original Assignee
Shenzhen Runxin Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Runxin Data Technology Co ltd filed Critical Shenzhen Runxin Data Technology Co ltd
Priority to CN202211592233.6A priority Critical patent/CN115599792B/zh
Publication of CN115599792A publication Critical patent/CN115599792A/zh
Application granted granted Critical
Publication of CN115599792B publication Critical patent/CN115599792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电数字数据处理技术领域,具体涉及一种物联网大数据分类存储方法。方法包括:根据各用户在目标时间段内访问数据的次数得到各用户的活跃度;根据访问各数据的用户的活跃度和各用户访问各数据的次数,计算各数据的调节系数;根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度;根据调节系数和关联程度得到重要程度;根据重要程度,得到重要数据构成的数据段和不重要数据构成的数据段;计算各数据段对应的初始长度;根据所述初始长度和所述初始长度的中心点到聚类中心的距离,计算各数据段自适应缩减时分布式存储数据的长度;根据所述分布式存储数据的长度,对各数据段进行存储。本发明实现了数据的智能化分类整合。

Description

一种物联网大数据分类存储方法
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种物联网大数据分类存储方法。
背景技术
随着社会信息化进度的日益加快,越来越多的企业通过互联网等信息技术来进行生产数据的记录存储与传输使用。无论是企业内部的部门与部门之间,还是企业内部与企业外部之间,在通过信息技术交流记录的过程中都会产生大量的生产数据,这些生产数据中部分数据极为重要,需要经常使用并长期保存,有的数据是一般类型的数据,使用频率小,重要程度低,此类数据仅需进行存储,即使丢失也不会造成太大影响。
信息化时代的数据量是庞大的,如果不对这些生产数据进行分类处理,会导致数据运行混乱,存储系统工作负荷大,运行缓慢,同时对重要数据的保存会不当,容易造成重要数据的丢失。现有技术中往往是人为的对这些生产数据进行分类整合,但这种人为的分类方式效率较低。
发明内容
为了解决基于人工的方式对生产数据进行分类整合存在效率较低的问题,本发明的目的在于提供一种物联网大数据分类存储方法,所采用的技术方案具体如下:
本发明提供了一种物联网大数据分类存储方法,该方法包括以下步骤:
获取目标时间段内不同用户对临时存储系统中数据的访问信息;所述访问信息包括访问次数、用户访问的数据对象;
根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数,得到各用户的活跃度;根据访问各数据的用户的活跃度和各用户访问各数据的次数,计算各数据对应的调节系数;根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度;根据所述各数据对应的调节系数和各数据与其它数据的关联程度,得到各数据的重要程度;根据各数据的重要程度,对各数据进行分类,得到重要数据构成的数据段和不重要数据构成的数据段;
根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长,得到各数据段对应的分布式存储数据的初始长度;对临时存储系统中的各数据段进行聚类,根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度的中心点到聚类中心的距离,计算各数据段对应的自适应缩减时分布式存储数据的长度;根据各数据段对应的自适应缩减时分布式存储数据的长度,对各数据段进行存储。
优选的,所述根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数,得到各用户的活跃度,包括:
获取目标时间段内临时存储系统中数据的总访问次数和临时存储系统中数据的总类型数;
根据各用户在目标时间段内访问临时存储系统中数据的次数、各用户在目标时间段内访问临时存储系统中数据类型的总数、目标时间段内临时存储系统中数据的总访问次数和临时存储系统中数据的总类型数,采用如下公式计算各用户的活跃度:
Figure 372557DEST_PATH_IMAGE001
其中,
Figure 776994DEST_PATH_IMAGE002
为第
Figure 360422DEST_PATH_IMAGE003
个用户的活跃度,
Figure 656143DEST_PATH_IMAGE004
为第
Figure 906995DEST_PATH_IMAGE003
个用户在目标时间段内访问临时存储系统中数据的次数,
Figure 747913DEST_PATH_IMAGE005
为目标时间段内临时存储系统中数据的总访问次数,
Figure 818637DEST_PATH_IMAGE006
为第
Figure 403202DEST_PATH_IMAGE003
个用户在目标时间段内访问临时存储系统中数据类型的总数,
Figure 508561DEST_PATH_IMAGE007
为临时存储系统中数据的总类型数。
优选的,采用如下公式计算各数据对应的调节系数:
Figure 5533DEST_PATH_IMAGE008
其中,
Figure 829132DEST_PATH_IMAGE009
为第
Figure 686230DEST_PATH_IMAGE010
个数据对应的调节系数,
Figure 177254DEST_PATH_IMAGE011
为目标时间段内访问第
Figure 94394DEST_PATH_IMAGE010
个数据的用户数量,
Figure 139711DEST_PATH_IMAGE012
为访问第
Figure 800499DEST_PATH_IMAGE010
个数据的第
Figure 395297DEST_PATH_IMAGE003
个用户的活跃度,
Figure 483339DEST_PATH_IMAGE013
为目标时间段内访问第
Figure 281531DEST_PATH_IMAGE010
个数据的第
Figure 746010DEST_PATH_IMAGE003
个用户的访问次数。
优选的,所述根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度,包括:
对于第
Figure 680468DEST_PATH_IMAGE010
个数据:
判断访问第
Figure 939411DEST_PATH_IMAGE010
个数据对应的时间段内是否访问过第
Figure 710052DEST_PATH_IMAGE014
个数据,若访问过,则判定第
Figure 243802DEST_PATH_IMAGE010
个数据与第
Figure 32766DEST_PATH_IMAGE014
个数据的关联性为1,将第
Figure 462611DEST_PATH_IMAGE010
个数据和第
Figure 235395DEST_PATH_IMAGE014
个数据作为一个数据对,统计
Figure 41677DEST_PATH_IMAGE015
数据对的总访问次数;若未访问过,则判定第
Figure 934415DEST_PATH_IMAGE010
个数据与第
Figure 800740DEST_PATH_IMAGE014
个数据的关联性为0,不将第
Figure 529661DEST_PATH_IMAGE010
个数据和第
Figure 405214DEST_PATH_IMAGE014
个数据作为一个数据对;所述第
Figure 903191DEST_PATH_IMAGE010
个数据对应的时间段为:访问第
Figure 940417DEST_PATH_IMAGE010
个数据的时刻对应的预设邻域范围内的各时刻构成的集合;
采用如下公式计算该数据与其它数据的关联程度:
Figure 156635DEST_PATH_IMAGE016
其中,
Figure 321031DEST_PATH_IMAGE017
为第
Figure 939094DEST_PATH_IMAGE010
个数据与第
Figure 147222DEST_PATH_IMAGE014
个数据的关联程度,
Figure 850735DEST_PATH_IMAGE018
为访问
Figure 68090DEST_PATH_IMAGE015
数据对的第
Figure 540660DEST_PATH_IMAGE019
个用户的活跃度,
Figure 163097DEST_PATH_IMAGE019
为访问
Figure 619486DEST_PATH_IMAGE015
数据对的用户数量,
Figure 109373DEST_PATH_IMAGE020
Figure 702028DEST_PATH_IMAGE015
数据对的总访问次数。
优选的,所述根据所述各数据对应的调节系数和各数据与其它数据的关联程度,得到各数据的重要程度,包括:
对于第
Figure 986379DEST_PATH_IMAGE010
个数据:
采用如下公式计算该数据的关联重要程度:
Figure 664485DEST_PATH_IMAGE021
其中,
Figure 974375DEST_PATH_IMAGE022
为第
Figure 421537DEST_PATH_IMAGE010
个数据的关联重要程度,
Figure 142368DEST_PATH_IMAGE023
为第
Figure 307770DEST_PATH_IMAGE010
个数据的关联数据的个数,
Figure 139460DEST_PATH_IMAGE024
为第
Figure 706708DEST_PATH_IMAGE010
个数据与
Figure 598440DEST_PATH_IMAGE023
个关联数据中第
Figure 500406DEST_PATH_IMAGE025
个数据的关联程度;
计算该数据对应的调节系数和该数据的关联重要程度的乘积,将所述乘积作为该数据的重要程度。
优选的,所述根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长,得到各数据段对应的分布式存储数据的初始长度,包括:
对于任一数据段:计算重要数据在临时存储系统中的占比和待分布式存储的该数据段的数据总长的乘积,将所述乘积作为该数据段对应的分布式存储数据的初始长度。
优选的,采用如下公式计算各数据段对应的自适应缩减时分布式存储数据的长度:
Figure 135787DEST_PATH_IMAGE026
其中,
Figure 557541DEST_PATH_IMAGE027
为任一数据段对应的自适应缩减时的分布式存储数据的长度,
Figure 620175DEST_PATH_IMAGE028
为该数据段对应的分布式存储数据的初始长度,
Figure 760169DEST_PATH_IMAGE029
为重要数据的长度,
Figure 933661DEST_PATH_IMAGE030
为聚类类数,
Figure 960654DEST_PATH_IMAGE031
为该数据段对应的分布式存储数据的初始长度的中心点到第
Figure 459769DEST_PATH_IMAGE032
个聚类中心的距离,
Figure 821480DEST_PATH_IMAGE033
为以
Figure 798663DEST_PATH_IMAGE034
为底的指数函数,
Figure 929430DEST_PATH_IMAGE035
为超参数。
优选的,采用均值漂移聚类算法对临时存储系统中的各数据段进行聚类。
本发明具有如下有益效果:本发明首先获取了目标时间段内不同用户对临时存储系统中数据的访问信息;考虑到访问各数据的用户整体活跃度越高,说明对应数据的使用频率越高,故其重要程度也越高;各数据与其它数据的关联程度越高,也说明对应数据越重要;因此本发明根据访问各数据的用户的活跃度和各用户访问各数据的次数,计算各数据对应的调节系数;根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度;然后基于各数据对应的调节系数和各数据与其它数据的关联程度,得到各数据的重要程度;根据各数据的重要程度,对各数据进行分类,得到不同重要程度对应的数据段。本发明采用分布式存储,自适应存储各数据段的长度,再基于各数据段的重要程度对各数据段进行缩减,进而对各数据段进行存储。本发明提供的方法能够对不同重要程度的数据给予不同的存储数据长度,确保系统正常运行的同时减小存储空间,实现了数据的智能化分类整合,提高了效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种物联网大数据分类存储方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种物联网大数据分类存储方法进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种物联网大数据分类存储方法的具体方案。
一种物联网大数据分类存储方法实施例
现有的基于人工的方式对生产数据进行分类整合存在效率较低的问题。为了解决上述问题,本实施例提出了一种物联网大数据分类存储方法,如图1所示,本实施例的一种物联网大数据分类存储方法包括以下步骤:
步骤S1,获取目标时间段内不同用户对临时存储系统中数据的访问信息;所述访问信息包括访问次数、用户访问的数据对象。
现在企业一般都通过互联网等信息技术来对生产数据进行记录存储与传输使用,但是面对数据的急剧膨胀,企业如果不对这些生产数据进行分类处理,只是不断购置大量的存储设备来应对不断增长的存储需求,单纯地提高存储容量,这似乎并不能从根本解决问题,存储设备的采购预算越来越高,大多数企业难以承受如此巨大的开支,而且如果不对这些生产数据进行分类处理,可能会导致数据混乱,存储系统工作负荷大,运行缓慢,同时对重要数据的保存会不当,容易造成重要数据的丢失。
数据初始产生时重要程度是相同的,初始产生时数据不存在用户访问,此时对数据的存储是一视同仁的,即采用常规的存储手段,不对数据进行分类,所有的数据均存储在临时存储系统中,初始时刻的临时存储系统存储空间大,存储空间的占用率低,随着数据的不断存入,临时存储系统的存储空间占用率逐步提高,同时存在数据的访问,当临时存储系统的存储量达到预设临界点时,需要对存储数据进行转移,进行分类存储,统计临时存储系统中数据的访问信息,本实施例将临时存储系统中产生数据的时刻和临时存储系统的存储量达到预设临界点的时刻之间的时间段记为目标时间段,即获取目标时间段内临时存储系统中数据的访问信息,所述访问信息包括访问次数、用户访问的数据对象。在具体应用中,目标时间段实施者可自行选取。
步骤S2,根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数,得到各用户的活跃度;根据访问各数据的用户的活跃度和各用户访问各数据的次数,计算各数据对应的调节系数;根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度;根据所述各数据对应的调节系数和各数据与其它数据的关联程度,得到各数据的重要程度;根据各数据的重要程度,对各数据进行分类,得到重要数据构成的数据段和不重要数据构成的数据段。
数据的访问频率越高,说明需要经常对该类数据进行使用,因此该类数据需要较快的解压速率;数据的访问频率越低,说明数据很少被用到,该类数据应当占用较小的存储空间。考虑到部分数据存在虚假的访问量,即部分数据统计的访问量较大,但该类数据使用率较低。若在较短时间内访问了两个数据,则说明这两个数据在很大程度上具有较强的关联性,即说明这两个数据越重要。本实施例通过获取用户的活跃性与数据间的关联性计算数据的重要程度,根据重要程度对数据进行分类,采用不同的存储器进行分类存储。
具体的,对临时存储系统中的数据访问量进行访问频率排序,通过访问频率对数据的重要程度进行预排序。正常情况下,数据的访问频率越高,数据越重要,但由于数据寄存在临时存储系统中时,是通过时间先后进行存储的,用户在访问某个目标数据时,可能会连带访问其附近的数据,这样导致部分访问量为虚假的访问量,考虑到若两个数据具有关联性,说明在较短时间内访问了这两个数据,即说明这两个数据较为重要。基于此,本实施例需要通过访问用户的活跃情况以及数据之间的关联性对预排序数据进行重要程度修正。
用户在对数据进行访问时会留下自身的IP,通过用户的IP获取在目标时间段内访问数据的所有用户的访问次数,用户访问的数据量越多、访问频率越高,说明用户的活跃度越高,即:
Figure 333867DEST_PATH_IMAGE036
其中,
Figure 697721DEST_PATH_IMAGE037
为第
Figure 478595DEST_PATH_IMAGE038
个用户的活跃度,
Figure 463869DEST_PATH_IMAGE039
为第
Figure 304786DEST_PATH_IMAGE038
个用户在目标时间段内访问临时存储系统中数据的次数,
Figure 641089DEST_PATH_IMAGE040
为目标时间段内临时存储系统中数据的总访问次数,
Figure 960075DEST_PATH_IMAGE041
为第
Figure 65434DEST_PATH_IMAGE038
个用户在目标时间段内访问临时存储系统中数据类型的总数,
Figure 827985DEST_PATH_IMAGE042
为临时存储系统中数据的总类型数。用户访问数据的次数越多且用户访问的数据覆盖类型越多,说明用户的活跃程度越高。
接下来本实施例统计用户对临时存储系统中各数据的访问情况,对于临时存储系统中的第
Figure 651585DEST_PATH_IMAGE043
个数据而言,会有不同的用户进行访问,访问该数据的用户整体活跃度越高,则说明该数据的使用频率越高,故其重要程度也越高,本实施例根据目标时间段内访问第
Figure 774261DEST_PATH_IMAGE043
个数据的用户的活跃程度和第
Figure 734127DEST_PATH_IMAGE043
个数据的访问次数,计算第
Figure 916847DEST_PATH_IMAGE043
个数据对应的调节系数
Figure 962163DEST_PATH_IMAGE044
,即:
Figure 137799DEST_PATH_IMAGE045
其中,
Figure 217750DEST_PATH_IMAGE044
为第
Figure 305792DEST_PATH_IMAGE043
个数据对应的调节系数,
Figure 838404DEST_PATH_IMAGE046
为目标时间段内访问第
Figure 568463DEST_PATH_IMAGE043
个数据的用户数量,
Figure 502921DEST_PATH_IMAGE047
为访问第
Figure 512596DEST_PATH_IMAGE043
个数据的第
Figure 798084DEST_PATH_IMAGE048
个用户的活跃度,
Figure 800675DEST_PATH_IMAGE049
为目标时间段内访问第
Figure 589640DEST_PATH_IMAGE043
个数据的第
Figure 285063DEST_PATH_IMAGE048
个用户的访问次数。
至此,采用上述方法能够得到临时存储系统中各数据对应的调节系数。
考虑到数据与数据之间往往存在着某种联系,即在获取某一数据时,对另外某一数据同样进行获取,某一数据的关联数据越多且关联性越强,说明该数据越重要,即该数据的重要程度越高。基于此,本实施例获取数据之间的关联性,用户在对第
Figure 57847DEST_PATH_IMAGE043
个数据进行获取时,在短时间内对第k个数据也进行了访问,若不同的用户均在短时间内获取了这两个数据,则说明这两个数据是存在关联的,同时获取这一对数据的用户越多且频次越高,说明这一对数据的关联性越强。对于第
Figure 853677DEST_PATH_IMAGE043
个数据:本实施例获取该数据对应的时间段,设定预设时间段的长度为
Figure 762727DEST_PATH_IMAGE050
,将访问第
Figure 363473DEST_PATH_IMAGE043
个数据的时刻作为该数据对应的时间段的中心时刻,将与中心时刻差值的绝对值小于等于
Figure 623553DEST_PATH_IMAGE051
的时刻构成的集合作为第
Figure 967946DEST_PATH_IMAGE043
个数据对应的时间段,本实施例将在第
Figure 731503DEST_PATH_IMAGE043
个数据对应的时间段内获取的数据判定为与第
Figure 768729DEST_PATH_IMAGE043
个数据存在关联,即在访问第
Figure 1258DEST_PATH_IMAGE043
个数据的前后
Figure 149343DEST_PATH_IMAGE051
时间范围内访问的数据,判定其与第
Figure 767406DEST_PATH_IMAGE043
个数据存在关联,即:
Figure 241113DEST_PATH_IMAGE052
其中,
Figure 944627DEST_PATH_IMAGE053
为第
Figure 630823DEST_PATH_IMAGE043
个数据与第
Figure 618239DEST_PATH_IMAGE054
个数据的关联性,
Figure 262847DEST_PATH_IMAGE055
为获取第
Figure 453657DEST_PATH_IMAGE054
个数据的时刻,
Figure 943544DEST_PATH_IMAGE056
为获取第
Figure 536200DEST_PATH_IMAGE043
个数据的时刻,
Figure 86130DEST_PATH_IMAGE057
为预设时间段的长度。若获取的第
Figure 514968DEST_PATH_IMAGE054
个数据的时间在获取第
Figure 808546DEST_PATH_IMAGE043
个数据前后
Figure 255708DEST_PATH_IMAGE051
时间范围内,则判定第
Figure 710960DEST_PATH_IMAGE054
个数据与第
Figure 141942DEST_PATH_IMAGE043
个数据存在关联性;若获取的第
Figure 973631DEST_PATH_IMAGE054
个数据的时间不在获取第
Figure 540879DEST_PATH_IMAGE043
个数据前后
Figure 681879DEST_PATH_IMAGE051
时间范围内,则判定第
Figure 334577DEST_PATH_IMAGE054
个数据与第
Figure 969958DEST_PATH_IMAGE043
个数据不存在关联性。
Figure 126133DEST_PATH_IMAGE043
个数据的关联数据越多,关联性越强,则说明第
Figure 188767DEST_PATH_IMAGE043
个数据越重要,本实施例根据第
Figure 328761DEST_PATH_IMAGE043
个数据与第
Figure 518565DEST_PATH_IMAGE054
个数据的关联性,计算第
Figure 794826DEST_PATH_IMAGE043
个数据与第
Figure 293940DEST_PATH_IMAGE054
个数据的关联程度,即:
Figure 655651DEST_PATH_IMAGE058
其中,
Figure 632835DEST_PATH_IMAGE059
为第
Figure 29181DEST_PATH_IMAGE043
个数据与第
Figure 682885DEST_PATH_IMAGE054
个数据的关联程度,
Figure 531892DEST_PATH_IMAGE060
为访问
Figure 47187DEST_PATH_IMAGE061
数据对的第
Figure 563619DEST_PATH_IMAGE062
个用户的活跃度,
Figure 138957DEST_PATH_IMAGE062
为访问
Figure 475261DEST_PATH_IMAGE063
数据对的用户数量,
Figure 810558DEST_PATH_IMAGE064
Figure 915917DEST_PATH_IMAGE063
数据对的总访问次数(即总关联性)。访问
Figure 662156DEST_PATH_IMAGE063
数据对的用户活跃度越高、访问频率越大,则
Figure 220177DEST_PATH_IMAGE063
数据对的关联程度越强。总关联性
Figure 342854DEST_PATH_IMAGE064
的获取过程为:将目标时间段内访问
Figure 568299DEST_PATH_IMAGE063
数据对的次数记为总关联性
Figure 485439DEST_PATH_IMAGE064
,需要说明的是:该次数为这两个数据具有关联性(即
Figure 63180DEST_PATH_IMAGE065
)的次数。
Figure 989548DEST_PATH_IMAGE043
个数据可能与一个或多个数据存在关联,本实施例计算第
Figure 803920DEST_PATH_IMAGE043
个数据的关联重要程度,即:
Figure 157541DEST_PATH_IMAGE066
其中,
Figure 690154DEST_PATH_IMAGE067
为第
Figure 420212DEST_PATH_IMAGE043
个数据的关联重要程度,
Figure 839823DEST_PATH_IMAGE068
为第
Figure 364346DEST_PATH_IMAGE043
个数据的关联数据的个数,
Figure 384254DEST_PATH_IMAGE069
为第
Figure 652425DEST_PATH_IMAGE043
个数据与
Figure 441389DEST_PATH_IMAGE068
个关联数据中第
Figure 136813DEST_PATH_IMAGE070
个数据的关联程度,
Figure 378438DEST_PATH_IMAGE067
的值越大,说明第
Figure 433988DEST_PATH_IMAGE043
个数据越重要。
对于第j个数据来说,对该数据访问的用户活跃程度越高且该数据与其它数据的关联程度越大时,说明该数据的重要程度越高,故有:
Figure 608617DEST_PATH_IMAGE071
其中,
Figure 209363DEST_PATH_IMAGE072
为第
Figure 203863DEST_PATH_IMAGE043
个数据的重要程度,
Figure 813836DEST_PATH_IMAGE073
为第
Figure 577393DEST_PATH_IMAGE043
个数据对应的调节系数,
Figure 99772DEST_PATH_IMAGE067
为第
Figure 581569DEST_PATH_IMAGE043
个数据的关联重要程度。
至此,采用上述方法,得到临时存储系统中所有数据的重要程度。
本实施例首先基于临时存储系统中各数据的重要程度,对临时存储系统中的所有数据进行重新排列,设定重要程度阈值,根据设定的重要程度阈值,按照数据的重要程度对数据进行分类,将临时存储系统中的数据划分为重要数据和非重要数据两类,得到重要数据构成的数据段和不重要数据构成的数据段。然后对不同重要程度的数据段进行不同程度的压缩,对于重要程度大的数据,其使用频率高,搜索与其关联的数据时用到该数据的概率大,故对于此类数据进行压缩时压缩程度应当较低;对于重要程度小的数据,其使用频率低,搜索与其关联的数据时用到该数据的概率小,故对于此类数据进行压缩时压缩程度应当较大;为了提高压缩程度,可以采用重压缩。在具体应用中,实施者可自行设定重要程度阈值的值。
步骤S3,根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长,得到各数据段对应的分布式存储数据的初始长度;对临时存储系统中的各数据段进行聚类,根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度的中心点到聚类中心的距离,计算各数据段对应的自适应缩减时分布式存储数据的长度;根据各数据段对应的自适应缩减时分布式存储数据的长度,对各数据段进行存储。
对于重要的数据而言,其被使用的频率较高,用户经常对其进行搜索使用,因此对于此类数据,期望对其搜索时获取速度尽可能快,同时需要保证此类数据不丢失,传统的单服务器对数据进行读取时,需要从头读取,例如有0、1、2、3、4、5、6、7、8、9十个数,读取一个数需要1秒,那么获取10个数需要10秒,且当服务器崩溃时,系统即发生瘫痪,无法运行。采用分布式存储时,能够大大降低读取速度,节省用户的时间。
对于临时存储系统中的数据,数据的重要程度越高,重要数据的比例越高,则分类存储时每个服务器存储数据的长度越长,对于任一数据段:本实施例根据该数据段的比例,自适应分布式存储数据的初始长度,即:
Figure 729654DEST_PATH_IMAGE074
其中,
Figure 613296DEST_PATH_IMAGE075
为该数据段对应的分布式存储数据的初始长度,
Figure 821424DEST_PATH_IMAGE076
为临时存储系统中待分布式存储的该数据段的数据总长,
Figure 524937DEST_PATH_IMAGE077
为临时存储系统中重要数据的数量(根据阈值区分重要数据与非重要数据),
Figure 211134DEST_PATH_IMAGE078
为临时存储系统中数据的总量,
Figure 464129DEST_PATH_IMAGE079
为重要数据在临时存储系统中的占比。
至此采用上述方法得到各数据段对应的分布式存储数据的初始长度。
考虑到每一个服务器中存储的数据量是一样的,但由于不同数据段的重要程度不同,存在部分服务器中所存储的数据的整体重要程度低,为了减小服务器的存储量,本实施例对数据进行自适应缩减。首先采用均值漂移聚类算法对数据进行聚类,获取多个重要程度大的数据段;然后根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度对应的中心点到聚类中心的距离,计算各数据段对应的自适应缩减时的分布式存储数据的长度,即:
Figure 577579DEST_PATH_IMAGE080
其中,
Figure 768389DEST_PATH_IMAGE081
为任一数据段对应的自适应缩减时的分布式存储数据的长度,
Figure 258276DEST_PATH_IMAGE082
为该数据段对应的分布式存储数据的初始长度,
Figure 850931DEST_PATH_IMAGE083
为重要数据的长度,
Figure 666441DEST_PATH_IMAGE084
为聚类类数,
Figure 95279DEST_PATH_IMAGE085
为该数据段对应的分布式存储数据的初始长度的中心点到第
Figure 123278DEST_PATH_IMAGE086
个聚类中心的距离,
Figure 570440DEST_PATH_IMAGE087
为以
Figure 556850DEST_PATH_IMAGE088
为底的指数函数,
Figure 722252DEST_PATH_IMAGE089
为超参数,本实施例设置
Figure 553942DEST_PATH_IMAGE090
,在具体应用中,实施者可自行设置。均值漂移聚类算法为现有技术,此处不再赘述。
采用本实施例提供的方法能够得到各段数据对应的自适应缩减时的分布式存储数据的长度,基于各段数据对应的自适应缩减时的分布式存储数据的长度,对各段数据进行自适应缩减、存储。
本实施例首先获取了目标时间段内不同用户对临时存储系统中数据的访问信息;考虑到访问各数据的用户整体活跃度越高,说明对应数据的使用频率越高,故其重要程度也越高;各数据与其它数据的关联程度越高,也说明对应数据越重要;因此本实施例根据访问各数据的用户的活跃度和各用户访问各数据的次数,计算各数据对应的调节系数;根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度;然后基于各数据对应的调节系数和各数据与其它数据的关联程度,得到各数据的重要程度;根据各数据的重要程度,对各数据进行分类,得到不同重要程度对应的数据段。本实施例采用分布式存储,自适应存储各数据段的长度,再基于各数据段的重要程度对各数据段进行缩减,进而对各数据段进行存储。本实施例提供的方法能够对不同重要程度的数据给予不同的存储数据长度,确保系统正常运行的同时减小存储空间,实现了数据的智能化分类整合,提高了效率。
需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种物联网大数据分类存储方法,其特征在于,该方法包括以下步骤:
获取目标时间段内不同用户对临时存储系统中数据的访问信息;所述访问信息包括访问次数、用户访问的数据对象;
根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数,得到各用户的活跃度;根据访问各数据的用户的活跃度和各用户访问各数据的次数,计算各数据对应的调节系数;根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度;根据所述各数据对应的调节系数和各数据与其它数据的关联程度,得到各数据的重要程度;根据各数据的重要程度,对各数据进行分类,得到重要数据构成的数据段和不重要数据构成的数据段;
根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长,得到各数据段对应的分布式存储数据的初始长度;对临时存储系统中的各数据段进行聚类,根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度的中心点到聚类中心的距离,计算各数据段对应的自适应缩减时分布式存储数据的长度;根据各数据段对应的自适应缩减时分布式存储数据的长度,对各数据段进行存储;
所述根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数,得到各用户的活跃度,包括:
获取目标时间段内临时存储系统中数据的总访问次数和临时存储系统中数据的总类型数;
根据各用户在目标时间段内访问临时存储系统中数据的次数、各用户在目标时间段内访问临时存储系统中数据类型的总数、目标时间段内临时存储系统中数据的总访问次数和临时存储系统中数据的总类型数,采用如下公式计算各用户的活跃度:
Figure QLYQS_1
其中,
Figure QLYQS_2
为第
Figure QLYQS_3
个用户的活跃度,
Figure QLYQS_4
为第
Figure QLYQS_5
个用户在目标时间段内访问临时存储系统中数据的次数,A为目标时间段内临时存储系统中数据的总访问次数,
Figure QLYQS_6
为第
Figure QLYQS_7
个用户在目标时间段内访问临时存储系统中数据类型的总数,B为临时存储系统中数据的总类型数。
2.根据权利要求1所述的一种物联网大数据分类存储方法,其特征在于,采用如下公式计算各数据对应的调节系数:
Figure QLYQS_10
其中,
Figure QLYQS_13
为第
Figure QLYQS_16
个数据对应的调节系数,
Figure QLYQS_9
为目标时间段内访问第
Figure QLYQS_12
个数据的用户数量,
Figure QLYQS_14
为访问第
Figure QLYQS_17
个数据的第
Figure QLYQS_8
个用户的活跃度,C为目标时间段内访问第
Figure QLYQS_11
个数据的第
Figure QLYQS_15
个用户的访问次数。
3.根据权利要求1所述的一种物联网大数据分类存储方法,其特征在于,所述根据各数据与其它数据的关联性,计算各数据与其它数据的关联程度,包括:
对于第
Figure QLYQS_18
个数据:
判断访问第
Figure QLYQS_21
个数据对应的时间段内是否访问过第
Figure QLYQS_24
个数据,若访问过,则判定第
Figure QLYQS_28
个数据与第
Figure QLYQS_20
个数据的关联性为1,将第
Figure QLYQS_25
个数据和第
Figure QLYQS_29
个数据作为一个数据对,统计
Figure QLYQS_32
Figure QLYQS_19
数据对的总访问次数;若未访问过,则判定第
Figure QLYQS_23
个数据与第
Figure QLYQS_27
个数据的关联性为0,不将第
Figure QLYQS_31
个数据和第
Figure QLYQS_22
个数据作为一个数据对;所述第
Figure QLYQS_26
个数据对应的时间段为:访问第
Figure QLYQS_30
个数据的时刻对应的预设邻域范围内的各时刻构成的集合;
采用如下公式计算该数据与其它数据的关联程度:
Figure QLYQS_34
其中,
Figure QLYQS_37
为第
Figure QLYQS_42
个数据与第
Figure QLYQS_35
个数据的关联程度,
Figure QLYQS_40
为访问
Figure QLYQS_43
Figure QLYQS_46
数据对的第
Figure QLYQS_33
个用户的活跃度,
Figure QLYQS_38
为访问
Figure QLYQS_41
Figure QLYQS_45
数据对的用户数量,
Figure QLYQS_36
Figure QLYQS_39
Figure QLYQS_44
数据对的总访问次数。
4.根据权利要求1所述的一种物联网大数据分类存储方法,其特征在于,所述根据所述各数据对应的调节系数和各数据与其它数据的关联程度,得到各数据的重要程度,包括:
对于第
Figure QLYQS_47
个数据:
采用如下公式计算该数据的关联重要程度:
Figure QLYQS_49
其中,
Figure QLYQS_51
为第
Figure QLYQS_54
个数据的关联重要程度,
Figure QLYQS_50
为第
Figure QLYQS_53
个数据的关联数据的个数,
Figure QLYQS_55
为第
Figure QLYQS_56
个数据与
Figure QLYQS_48
个关联数据中第
Figure QLYQS_52
个数据的关联程度;
计算该数据对应的调节系数和该数据的关联重要程度的乘积,将所述乘积作为该数据的重要程度。
5.根据权利要求1所述的一种物联网大数据分类存储方法,其特征在于,所述根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长,得到各数据段对应的分布式存储数据的初始长度,包括:
对于任一数据段:计算重要数据在临时存储系统中的占比和待分布式存储的该数据段的数据总长的乘积,将所述乘积作为该数据段对应的分布式存储数据的初始长度。
6.根据权利要求1所述的一种物联网大数据分类存储方法,其特征在于,采用如下公式计算各数据段对应的自适应缩减时分布式存储数据的长度:
Figure QLYQS_58
其中,
Figure QLYQS_60
为任一数据段对应的自适应缩减时的分布式存储数据的长度,
Figure QLYQS_62
为该数据段对应的分布式存储数据的初始长度,
Figure QLYQS_59
为重要数据的长度,G为聚类类数,
Figure QLYQS_61
为该数据段对应的分布式存储数据的初始长度的中心点到第
Figure QLYQS_63
个聚类中心的距离,
Figure QLYQS_64
为以e为底的指数函数,
Figure QLYQS_57
为超参数。
7.根据权利要求1所述的一种物联网大数据分类存储方法,其特征在于,采用均值漂移聚类算法对临时存储系统中的各数据段进行聚类。
CN202211592233.6A 2022-12-13 2022-12-13 一种物联网大数据分类存储方法 Active CN115599792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211592233.6A CN115599792B (zh) 2022-12-13 2022-12-13 一种物联网大数据分类存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211592233.6A CN115599792B (zh) 2022-12-13 2022-12-13 一种物联网大数据分类存储方法

Publications (2)

Publication Number Publication Date
CN115599792A CN115599792A (zh) 2023-01-13
CN115599792B true CN115599792B (zh) 2023-03-10

Family

ID=84852442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211592233.6A Active CN115599792B (zh) 2022-12-13 2022-12-13 一种物联网大数据分类存储方法

Country Status (1)

Country Link
CN (1) CN115599792B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741033A (zh) * 2022-04-07 2022-07-12 合肥小刺猬信息科技有限公司 一种数据分类存储方法及系统
CN115048557A (zh) * 2022-08-16 2022-09-13 山东双仁信息技术有限公司 一种基于人工智能的车辆数据处理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572640B2 (en) * 2015-11-16 2020-02-25 Personnus System for identity verification
CN108932287B (zh) * 2018-05-22 2019-11-29 广东技术师范大学 一种基于Hadoop的海量小文件写入方法
CN109753505B (zh) * 2018-12-26 2022-06-24 济南银华信息技术有限公司 在大数据存储系统中创建临时存储单元的方法及系统
CN112633573B (zh) * 2020-12-21 2022-04-01 北京达佳互联信息技术有限公司 活跃状态的预测方法以及活跃度阈值的确定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741033A (zh) * 2022-04-07 2022-07-12 合肥小刺猬信息科技有限公司 一种数据分类存储方法及系统
CN115048557A (zh) * 2022-08-16 2022-09-13 山东双仁信息技术有限公司 一种基于人工智能的车辆数据处理方法和装置

Also Published As

Publication number Publication date
CN115599792A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
EP2885731B1 (en) Search infrastructure
US9208154B1 (en) IDF weighting of LSH bands for live reference ingestion
US11468069B1 (en) Graph-based data storage for real-time content suggestions
CN108710639A (zh) 一种基于Ceph的海量小文件存取优化方法
CN106339331B (zh) 一种基于用户活跃度的数据缓存层置换算法
CN105630810B (zh) 一种对于海量小文件在分布式存储系统中上载的方法
US20140297606A1 (en) Method and device for processing a time sequence based on dimensionality reduction
CN110727406A (zh) 一种数据存储调度方法及装置
CN109033298A (zh) 一种在异构hdfs集群下的数据分配方法
CN111611250A (zh) 数据存储设备、数据查询方法、装置、服务器及存储介质
CN109165207B (zh) 基于Hadoop的饮用水海量数据存储管理方法和系统
CN111817722A (zh) 数据压缩方法、装置及计算机设备
WO2020037511A1 (zh) 数据存储及获取方法和装置
US20220417324A1 (en) Computer-implemented method, system, and storage medium for prefetching in a distributed graph architecture
CN110309143A (zh) 数据相似度确定方法、装置及处理设备
CN104407982B (zh) 一种ssd盘片垃圾回收方法
CN115599792B (zh) 一种物联网大数据分类存储方法
CA3068333A1 (en) Systems and methods for intelligently grouping financial product users into cohesive cohorts
CN110858210A (zh) 数据查询方法及装置
CN114253917A (zh) 基于文件访问特性的分布式自适应存储方法及系统
CN111857582B (zh) 一种键值存储系统
CN109189696B (zh) 一种ssd缓存系统及缓存方法
TWI665568B (zh) 資料流的分群方法和裝置
CN103995869B (zh) 一种基于Apriori算法的数据缓存方法
CN113268458B (zh) 一种基于代价敏感分类算法的缓存方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant