基于云计算的数据存储方法、装置、云服务器及系统
技术领域
本申请涉及数据存储技术领域,尤其涉及基于云计算的数据存储方法、装置、云服务器及系统。
背景技术
云计算(cloudcomputing)技术又称为网格计算技术,是能够在极短的时间内实现海量数据处理的技术。随着云计算技术的发展,现代社会能够实现准确、安全且可靠的数据交互和通信。云服务器作为海量数据存储的枢纽,在云计算中扮演着不可替代的作用。然而,随着数据量的不断增多以及数据规模的不断扩大,云服务器往往会存储大量的重复数据,这会占用云服务器的存储空间并影响云服务器的计算效率。
发明内容
本申请提供基于云计算的数据存储方法、装置、云服务器及系统,以改善现有技术存在的上述技术问题。
本发明提供了一种基于云计算的数据存储方法,应用于云服务器,所述方法包括:
在接收到终端设备发送的数据存储请求时,响应所述数据存储请求并将所述终端设备对应的待存储数据存入预设的缓存;其中,所述缓存用于对临时数据进行存储,所述云服务器周期性地对所述缓存进行初始化以清除所述缓存内所存储的数据,所述云服务器的数据存储区中存储有至少多个原始数据;
对至少多个原始数据进行遍历,确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据;其中,每个原始数据关联存储有对应的至少一个设备标识,所述设备标识用于确定将每个原始数据存入所述数据存储区的原始终端设备;
在确定出至少多个原始数据中存在与所述缓存中的待存储数据相一致的目标数据时,获取所述目标数据对应的至少一个设备标识;确定所述终端设备的当前设备标识;遍历所述至少一个设备标识,确定至少一个设备标识中是否存在与当前设备标识相同的目标设备标识;在确定出至少一个设备标识中存在与当前设备标识相同的所述目标设备标识时,将所述目标设备标识对应的第一特征值进行更新;在确定出至少一个设备标识中不存在与当前设备标识相同的所述目标设备标识时,将当前设备标识与所述目标数据进行关联存储并删除所述缓存中的待存储数据,为当前设备标识设置第二特征值;
在对至少多个原始数据进行遍历的过程中,判断从将所述待存储数据存入所述缓存的时刻开始的累计时长是否达到设定时长;若是,根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历;其中,所述设定时长是所述云服务器初始化所述缓存的周期时长,每经过一次所述设定时长,所述云服务器对所述缓存进行一次初始化以清除所述缓存内存储的数据。
优选地,所述将所述终端设备对应的待存储数据存入预设缓存的步骤,具体包括:
提取所述待存储数据的数据特征向量以及各数据段;其中,不同的数据段对应不同的数据信息;
在依据所述数据特征向量确定出所述待存储数据中包含有数据结构类别的情况下,基于所述待存储数据在所述数据结构类别中的数据段及其数据段权重确定所述待存储数据在数据信息类别中的各数据段与所述待存储数据在所述数据结构类别中的各数据段之间的数据差异系数;
将所述待存储数据在所述数据信息类别中的与所述所述待存储数据在所述数据结构类别中的数据段之间的数据差异系数最小的数据段调整到所述待存储数据的所述数据结构类别中;
在所述待存储数据的所述数据信息类别中包含有多个数据段时,基于所述待存储数据在所述数据结构类别中的数据段及其数据段权重确定所述待存储数据在所述数据信息类别中的各数据段之间的数据差异系数,并基于所述各数据段之间的数据差异系数对所述数据信息类别中的各数据段进行数据转换,得到所述数据信息类别中的各数据段对应的目标数据段;
基于所述待存储数据在所述数据结构类别中的数据段及其数据段权重为各所述目标数据段封装段落指向参数,并将各所述目标数据段转移到所述段落指向参数所对应的所述数据结构类别的子类别中;
基于所述数据结构类别中的每个第一数据段确定所述待存储数据的第一数据结构特征;获取所述缓存的缓存线程信息并基于所述缓存线程信息确定所述缓存对应的第二数据结构特征;确定所述第一数据结构特征与所述第二数据结构特征之间的余弦距离;根据所述余弦距离对所述待存储数据进行数据格式转换之后存入所述缓存。
优选地,所述确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据的步骤,具体包括:
提取所述待存储数据对应的第一数据字符序列,提取每个原始数据对应的第二数据字符序列,所述第一数据字符序列和所述第二数据字符序列分别包括多个不同序列权重的序列节点;
提取所述待存储数据在所述第一数据字符序列的任一序列节点的当前字符编码,将所述第二数据字符序列中具有最小序列权重的序列节点确定为目标序列节点;
根据所述数据存储区和所述缓存之间的区间差异信息将所述当前字符编码投影到所述目标序列节点,在所述目标序列节点中得到投影字符编码,并根据所述当前字符编码、所述投影字符编码,生成所述待存储数据和所述每个原始数据之间的数据相似性列表;
以所述投影字符编码为参考编码在所述目标序列节点中获取目标编码,根据所述数据相似性列表将所述目标编码投影到所述当前字符编码所在序列节点,在所述当前字符编码所在序列节点中得到所述目标编码对应的一致性权重;
判断所述一致性权重是否达到设定权重;若是,则确定所述一致性权重对应的原始数据为与所述待存储数据相一致的所述目标数据;若否,则确定所述一致性权重对应的原始数据不为与所述待存储数据相一致的所述目标数据。
优选地,所述获取所述目标数据对应的至少一个设备标识的步骤,具体包括:
获取所述目标数据的数据关系列表,并基于所述数据关系列表进行设备标识遍历;所述数据关系列表为所述目标数据与多个终端设备进行关联的列表;
将所述目标数据在所述数据关系列表中的列表参数数组与预设的参数数据进行一一比对,得到比对结果;其中,所述比对结果用于表征所述目标数据对应的设备标识的显性特征和非显性特征;
基于所述比对结果确定所述目标数据对应的设备标识的第一数量,基于所述数据关系列表确定所述目标数据对应的设备标识的第二数量;
判断所述第二数量是否达到所述第一数量;在所述第二数量没有达到所述第一数量时,对所述比对结果进行解析得到所述目标数据对应的非显性特征;基于所述非显性特征确定出隐藏的与所述目标数据存在关联存储关系的隐藏设备标识,基于所述隐藏设备标识以及与所述第二数量对应的设备标识确定所述目标数据对应的至少一个设备标识。
优选地,所述将所述目标设备标识对应的第一特征值进行更新的步骤,具体包括:
对所述第一特征值进行时序追溯处理,得到至少一个更新记录;
对所述至少一个更新记录上进行更新时刻确定,得到所述第一特征值的更新时刻轨迹,所述更新时刻轨迹用于描述所述第一特征值的历史特征值的多个更新时刻;
对所述至少一个更新记录上进行更新间隔时长确定,得到所述第一特征值的更新间隔时长序列,所述更新间隔时长序列用于描述所述第一特征值的更新频率;
对所述第一特征值对应的所述更新时刻轨迹和所述更新间隔时长序列分别进行置信度计算,得到所述更新时刻轨迹对应的第一置信度值以及所述更新间隔时长序列对应的第二置信度值;根据所述第一置信度值和所述第二置信度值确定所述第一特征值的更新系数;基于所述更新系数对所述第一特征值进行加权以对所述第一特征值进行更新。
优选地,所述根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历的步骤,具体包括:
根据至少多个原始数据中未遍历的原始数据的占比以及所述设定时长确定延长时长;
将所述设定时长延长所述延长时长,并在到达所述延长时长对应的目标时刻时,检测至少多个原始数据中是否仍然存在未遍历的原始数据;若是,则返回根据至少多个原始数据中未遍历的原始数据的占比以及所述设定时长确定延长时长的步骤;若否,则表征完成对至少多个原始数据的遍历。
本发明还提供了一种基于云计算的数据存储装置,应用于云服务器,所述装置包括:
请求响应模块,用于在接收到终端设备发送的数据存储请求时,响应所述数据存储请求并将所述终端设备对应的待存储数据存入预设的缓存;其中,所述缓存用于对临时数据进行存储,所述云服务器周期性地对所述缓存进行初始化以清除所述缓存内所存储的数据,所述云服务器的数据存储区中存储有至少多个原始数据;
数据遍历模块,用于对至少多个原始数据进行遍历,确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据;其中,每个原始数据关联存储有对应的至少一个设备标识,所述设备标识用于确定将每个原始数据存入所述数据存储区的原始终端设备;
标识遍历模块,用于在确定出至少多个原始数据中存在与所述缓存中的待存储数据相一致的目标数据时,获取所述目标数据对应的至少一个设备标识;确定所述终端设备的当前设备标识;遍历所述至少一个设备标识,确定至少一个设备标识中是否存在与当前设备标识相同的目标设备标识;在确定出至少一个设备标识中存在与当前设备标识相同的所述目标设备标识时,将所述目标设备标识对应的第一特征值进行更新;在确定出至少一个设备标识中不存在与当前设备标识相同的所述目标设备标识时,将当前设备标识与所述目标数据进行关联存储并删除所述缓存中的待存储数据,为当前设备标识设置第二特征值;
时长判断模块,用于在对至少多个原始数据进行遍历的过程中,判断从将所述待存储数据存入所述缓存的时刻开始的累计时长是否达到设定时长;若是,根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历;其中,所述设定时长是所述云服务器初始化所述缓存的周期时长,每经过一次所述设定时长,所述云服务器对所述缓存进行一次初始化以清除所述缓存内存储的数据。
本发明还提供了一种云服务器,包括:处理器,以及与处理器连接的内存和网络接口;所述网络接口与云服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行上述的方法。
本发明还提供了一种应用于计算机的可读存储介质,所述可读存储介质烧录有计算机程序,所述计算机程序在云服务器的内存中运行时实现上述的方法。
本发明还提供了一种基于云计算的数据存储系统,所述数据存储系统包括互相通信的云服务器和终端设备;
所述终端设备,用于向所述云服务器发送数据存储请求;
所述云服务器,用于在接收到终端设备发送的数据存储请求时,响应所述数据存储请求并将所述终端设备对应的待存储数据存入预设的缓存;其中,所述缓存用于对临时数据进行存储,所述云服务器周期性地对所述缓存进行初始化以清除所述缓存内所存储的数据,所述云服务器的数据存储区中存储有至少多个原始数据;
所述云服务器,用于对至少多个原始数据进行遍历,确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据;其中,每个原始数据关联存储有对应的至少一个设备标识,所述设备标识用于确定将每个原始数据存入所述数据存储区的原始终端设备;
所述云服务器,用于在确定出至少多个原始数据中存在与所述缓存中的待存储数据相一致的目标数据时,获取所述目标数据对应的至少一个设备标识;确定所述终端设备的当前设备标识;遍历所述至少一个设备标识,确定至少一个设备标识中是否存在与当前设备标识相同的目标设备标识;在确定出至少一个设备标识中存在与当前设备标识相同的所述目标设备标识时,将所述目标设备标识对应的第一特征值进行更新;在确定出至少一个设备标识中不存在与当前设备标识相同的所述目标设备标识时,将当前设备标识与所述目标数据进行关联存储并删除所述缓存中的待存储数据,为当前设备标识设置第二特征值;
所述云服务器,还用于在对至少多个原始数据进行遍历的过程中,判断从将所述待存储数据存入所述缓存的时刻开始的累计时长是否达到设定时长;若是,根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历;其中,所述设定时长是所述云服务器初始化所述缓存的周期时长,每经过一次所述设定时长,所述云服务器对所述缓存进行一次初始化以清除所述缓存内存储的数据。
应用本申请实施例基于云计算的数据存储方法、装置、云服务器及系统时,无需每次将待存储数据进行直接存储,通过将待存储数据对应的当前设备标识与目标数据进行存储,能够通过目标数据与设备标识的一对多关系提高存储效率,避免大量的重复数据占用云服务器的存储空间从而影响云服务器的计算效率。此外,通过对初始化缓存的设定时长进行延长,能够确保对数据存储区中的原始数据的完整遍历,避免漏掉部分原始数据的遍历。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请根据一示例性实施例示出的一种基于云计算的数据存储方法的流程图。
图2为本申请根据一示例性实施例示出的一种云服务器的硬件结构图。
图3是本申请根据一示例性实施例示出的一种基于云计算的数据存储系统的通信架构示意图。
图4是本申请根据一示例性实施例示出的一种装置的一个实施例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1示出了本申请实施例所提供的一种基于云计算的数据存储方法的流程图,所述数据存储方法可以应用于图2所示的云服务器20。详细地,该云服务器20可以包括:处理器21,以及与处理器21连接的内存22和网络接口23;所述网络接口23与云服务器20中的非易失性存储器24连接;所述处理器21在运行时通过所述网络接口23从所述非易失性存储器24中调取计算机程序,并通过所述内存22运行所述计算机程序,以执行所述数据存储方法。
可以理解,本申请实施例在上述基础上还提供了一种应用于计算机的可读存储介质,所述可读存储介质烧录有计算机程序,所述计算机程序在云服务器20的内存中运行时实现所述数据存储方法。
进一步地,图1所示的基于云计算的数据存储方法具体可以包括以下步骤所描述的内容。
步骤S21,在接收到终端设备发送的数据存储请求时,响应所述数据存储请求并将所述终端设备对应的待存储数据存入预设的缓存;其中,所述缓存用于对临时数据进行存储,所述云服务器周期性地对所述缓存进行初始化以清除所述缓存内所存储的数据,所述云服务器的数据存储区中存储有至少多个原始数据。
具体地,终端设备30可以是手机、平板电脑或笔记本电脑等其他具有数据处理和数据传输的电子终端。原始数据是云服务器20在先存储的业务数据。
步骤S22,对至少多个原始数据进行遍历,确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据;其中,每个原始数据关联存储有对应的至少一个设备标识,所述设备标识用于确定将每个原始数据存入所述数据存储区的原始终端设备。
在本实施例中,原始数据与设备标识是一对多的关系。详细地,每个原始数据可以对应多个设备标识,表征该原始数据存在多个不同的终端设备对应的数据存储行为。
步骤S23,在确定出至少多个原始数据中存在与所述缓存中的待存储数据相一致的目标数据时,获取所述目标数据对应的至少一个设备标识;确定所述终端设备的当前设备标识;遍历所述至少一个设备标识,确定至少一个设备标识中是否存在与当前设备标识相同的目标设备标识;在确定出至少一个设备标识中存在与当前设备标识相同的所述目标设备标识时,将所述目标设备标识对应的第一特征值进行更新;在确定出至少一个设备标识中不存在与当前设备标识相同的所述目标设备标识时,将当前设备标识与所述目标数据进行关联存储并删除所述缓存中的待存储数据,为当前设备标识设置第二特征值。
在一种可能的示例中,第一特征值和第二特征值用于表征各自对应的数据的存储活跃度。存储活跃度用于表征存储在数据存储区中的数据被重复请求存储的次数,存储活跃度越高,其对应的数据被重复请求存储的次数越多。
步骤S24,在对至少多个原始数据进行遍历的过程中,判断从将所述待存储数据存入所述缓存的时刻开始的累计时长是否达到设定时长;若是,根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历;其中,所述设定时长是所述云服务器初始化所述缓存的周期时长,每经过一次所述设定时长,所述云服务器对所述缓存进行一次初始化以清除所述缓存内存储的数据。
在应用上述方法所描述的内容时,相较于常见的直接将待存储数据进行存储的方式,云服务器首先将待存储数据进行缓存,然后对数据存储区的原始数据进行遍历以确定原始数据与待存储数据的一致性,并在确定出存在目标数据时,确定待存储数据的当前设备标识与目标数据对应的多个标识的一致性,并在当前设备标识为新的标识时将当前设备标识与目标数据进行关联存储。
如此,无需每次将待存储数据进行直接存储,通过将待存储数据对应的当前设备标识与目标数据进行存储,能够通过目标数据与设备标识的一对多关系提高存储效率,避免大量的重复数据占用云服务器的存储空间从而影响云服务器的计算效率。
此外,通过对初始化缓存的设定时长进行延长,能够确保对数据存储区中的原始数据的完整遍历,避免漏掉部分原始数据的遍历。
在一个可能的示例中,由于缓存是周期性初始化的,为了提高对缓存初始化的时效性,会对缓存内的缓存数据的数据结构进行适应性调整。因此,为了确保能够将待存储数据完整、准确且快速地存入缓存中,在上述步骤S21中,将所述终端设备对应的待存储数据存入预设缓存的步骤,具体可以包括以下子步骤。
步骤S211,提取所述待存储数据的数据特征向量以及各数据段;其中,不同的数据段对应不同的数据信息。
步骤S212,在依据所述数据特征向量确定出所述待存储数据中包含有数据结构类别的情况下,基于所述待存储数据在所述数据结构类别中的数据段及其数据段权重确定所述待存储数据在数据信息类别中的各数据段与所述待存储数据在所述数据结构类别中的各数据段之间的数据差异系数。
步骤S213,将所述待存储数据在所述数据信息类别中的与所述所述待存储数据在所述数据结构类别中的数据段之间的数据差异系数最小的数据段调整到所述待存储数据的所述数据结构类别中。
步骤S214,在所述待存储数据的所述数据信息类别中包含有多个数据段时,基于所述待存储数据在所述数据结构类别中的数据段及其数据段权重确定所述待存储数据在所述数据信息类别中的各数据段之间的数据差异系数,并基于所述各数据段之间的数据差异系数对所述数据信息类别中的各数据段进行数据转换,得到所述数据信息类别中的各数据段对应的目标数据段。
步骤S215,基于所述待存储数据在所述数据结构类别中的数据段及其数据段权重为各所述目标数据段封装段落指向参数,并将各所述目标数据段转移到所述段落指向参数所对应的所述数据结构类别的子类别中。
步骤S216,基于所述数据结构类别中的每个第一数据段确定所述待存储数据的第一数据结构特征;获取所述缓存的缓存线程信息并基于所述缓存线程信息确定所述缓存对应的第二数据结构特征;确定所述第一数据结构特征与所述第二数据结构特征之间的余弦距离;根据所述余弦距离对所述待存储数据进行数据格式转换之后存入所述缓存。
可以理解,通过上述步骤S211-步骤S216所描述的内容,能够通过缓存对应的缓存线程信息确定缓存对应的第二数据结构特征,该第二数据结构特征可以理解为缓存中数据的数据结构特征。进一步地,还能够对待存储数据的数据特征向量以及各数据段进行分析,将数据信息类别和数据结构类别考虑在内,从而准确确定待存储数据的第一数据结构特征。如此,能够基于第一数据结构特征与第二数据结构特征之间的余弦距离对待存储数据进行数据格式转换之后再存储。这样,能够确保将待存储数据完整、准确且快速地存入缓存中。
在另一个可能的实施方式中,步骤S22中所描述的确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据的步骤,进一步可以通过以下方式实现。
步骤S221,提取所述待存储数据对应的第一数据字符序列,提取每个原始数据对应的第二数据字符序列,所述第一数据字符序列和所述第二数据字符序列分别包括多个不同序列权重的序列节点。
步骤S222,提取所述待存储数据在所述第一数据字符序列的任一序列节点的当前字符编码,将所述第二数据字符序列中具有最小序列权重的序列节点确定为目标序列节点。
步骤S223,根据所述数据存储区和所述缓存之间的区间差异信息将所述当前字符编码投影到所述目标序列节点,在所述目标序列节点中得到投影字符编码,并根据所述当前字符编码、所述投影字符编码,生成所述待存储数据和所述每个原始数据之间的数据相似性列表。
步骤S224,以所述投影字符编码为参考编码在所述目标序列节点中获取目标编码,根据所述数据相似性列表将所述目标编码投影到所述当前字符编码所在序列节点,在所述当前字符编码所在序列节点中得到所述目标编码对应的一致性权重。
步骤S225,判断所述一致性权重是否达到设定权重;若是,则确定所述一致性权重对应的原始数据为与所述待存储数据相一致的所述目标数据;若否,则确定所述一致性权重对应的原始数据不为与所述待存储数据相一致的所述目标数据。
在应用上述步骤S221-步骤S225所描述的内容时,能够对准确确定待存储数据与每个原始数据之间的一致性比对结果,从而为后续的步骤提供可靠的执行依据。
可选地,为了确保确定出的目标数据对应的设备标识的完整性,在步骤S23中,所述获取所述目标数据对应的至少一个设备标识,具体可以包括以下内容。
步骤S231,获取所述目标数据的数据关系列表,并基于所述数据关系列表进行设备标识遍历;所述数据关系列表为所述目标数据与多个终端设备进行关联的列表。
步骤S232,将所述目标数据在所述数据关系列表中的列表参数数组与预设的参数数据进行一一比对,得到比对结果;其中,所述比对结果用于表征所述目标数据对应的设备标识的显性特征和非显性特征。
步骤S233,基于所述比对结果确定所述目标数据对应的设备标识的第一数量,基于所述数据关系列表确定所述目标数据对应的设备标识的第二数量。
步骤S234,判断所述第二数量是否达到所述第一数量;在所述第二数量没有达到所述第一数量时,对所述比对结果进行解析得到所述目标数据对应的非显性特征;基于所述非显性特征确定出隐藏的与所述目标数据存在关联存储关系的隐藏设备标识,基于所述隐藏设备标识以及与所述第二数量对应的设备标识确定所述目标数据对应的至少一个设备标识。
在具体实施时,通过上述内容,能够将与目标数据存在隐藏关联存储关系的设备标识确定出来。如此,可以准确确定出与目标数据存在关联存储关系的所有设备标识,确保确定出的目标数据对应的设备标识的完整性。
在上述基础上,为了确保目标设备标识的时效性以便于后续统计分析的可靠性,在步骤S23中,将所述目标设备标识对应的第一特征值进行更新的步骤,可以通过以下子步骤所描述的方法实现。
步骤S2321,对所述第一特征值进行时序追溯处理,得到至少一个更新记录。
步骤S2322,对所述至少一个更新记录上进行更新时刻确定,得到所述第一特征值的更新时刻轨迹,所述更新时刻轨迹用于描述所述第一特征值的历史特征值的多个更新时刻。
步骤S2323,对所述至少一个更新记录上进行更新间隔时长确定,得到所述第一特征值的更新间隔时长序列,所述更新间隔时长序列用于描述所述第一特征值的更新频率。
步骤S2324,对所述第一特征值对应的所述更新时刻轨迹和所述更新间隔时长序列分别进行置信度计算,得到所述更新时刻轨迹对应的第一置信度值以及所述更新间隔时长序列对应的第二置信度值;根据所述第一置信度值和所述第二置信度值确定所述第一特征值的更新系数;基于所述更新系数对所述第一特征值进行加权以对所述第一特征值进行更新。
在具体实施时,通过上述步骤S2321-步骤S2324所描述的内容,能够基于第一特征值对应的更新时刻轨迹和更新间隔时长序列确定第一特征值的更新系数,从而基于更新数据对第一特征值进行加权以实现对第一特征值的更新。如此,可以确保目标设备标识的时效性以便于后续统计分析的可靠性。
在具体实施时,为了确保对原始数据的完整遍历并将设定时长的延时最小化,步骤S24中所描述的根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历,具体包括以下步骤所描述的内容。
步骤S241,根据至少多个原始数据中未遍历的原始数据的占比以及所述设定时长确定延长时长。
步骤S242,将所述设定时长延长所述延长时长,并在到达所述延长时长对应的目标时刻时,检测至少多个原始数据中是否仍然存在未遍历的原始数据;若是,则返回根据至少多个原始数据中未遍历的原始数据的占比以及所述设定时长确定延长时长的步骤;若否,则表征完成对至少多个原始数据的遍历。
可以理解,通过上述方法,能够在对设定时长进行延长之后进一步判断是否完成对全部原始数据的遍历。如此,能够确保对原始数据的完整遍历,通过根据至少多个原始数据中未遍历的原始数据的占比以及所述设定时长阶段性地确定延长时长,能够并将设定时长的延时最小化。
在上述基础上,在一种可替换的实施方式中,云服务器还可以采集终端设备的用户行为数据,并对用户行为数据的进行特征提取得到用户行为特征,然后将用户行为特征进行存储。如此,不仅可以将用户行为数据以用户行为特征的形式进行存储以提高存储效率,还可以便于后续对用户行为特征进行分析以实现对用户行为的追溯。
进一步地,上述对采集到的用户行为数据进行特征提取得到用户行为特征的步骤具体可以包括以下步骤所描述的内容。
步骤S31,将所述用户行为数据的多个数据字段按照字段长度由大到小的顺序依次列出,得到所述用户行为数据对应的数据字段序列;针对所述数字字段序列,确定所述数字字段序列中相邻两个数据字段之间的字段长度差值;根据确定出的所有字段长度差值确定所述数字字段序列的序列分布特征;其中,所述数据字段是按照时段进行划分的,序列分布特征用于表征所述数据字段序列的字段长度分布情况。
步骤S32,提取所述序列分布特征中的用于表征所述数据字段的字段分布离散程度的序列分布值,基于所述序列分布值生成所述数据字段序列对应的数据字段轨迹,所述数据字段轨迹中包括多个轨迹节点,所述轨迹节点与所述数据字段一一对应,每个轨迹节点至少与所述数据字段轨迹中除该轨迹节点之外的至少一个轨迹节点连接,互相连接的两个轨迹节点之间存在一个关联性权重,所述关联性权重存在由大到小的优先级,所述优先级用于表征互相连接的两个轨迹节点之间的影响因子。
步骤S33,按照优先级由低到高的顺序将每两个存在互相连接关系的轨迹节点列出得到轨迹节点序列,对所述轨迹节点序列中重复的轨迹节点进行剔除得到目标轨迹节点序列。
步骤S34,针对所述目标轨迹节点序列中的每个目标轨迹节点,按照预设映射关系将该目标轨迹节点对应的数据字段中的字段信息映射到预设坐标平面得到映射坐标值并基于所述映射坐标值确定每个数据字段对应的特征系数;按照所述数据字段序列将所述特征系数进行排序以得到所述用户行为数据对应的用户行为特征。
在上述基础上,如图3所示,本发明还提供了一种基于云计算的数据存储系统10,该数据存储系统10包括互相通信的云服务器20和终端设备30。
所述终端设备30,用于向所述云服务器20发送数据存储请求。
所述云服务器20,用于在接收到终端设备发送的数据存储请求时,响应所述数据存储请求并将所述终端设备对应的待存储数据存入预设的缓存;其中,所述缓存用于对临时数据进行存储,所述云服务器周期性地对所述缓存进行初始化以清除所述缓存内所存储的数据,所述云服务器的数据存储区中存储有至少多个原始数据。
所述云服务器20,用于对至少多个原始数据进行遍历,确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据;其中,每个原始数据关联存储有对应的至少一个设备标识,所述设备标识用于确定将每个原始数据存入所述数据存储区的原始终端设备。
所述云服务器20,用于在确定出至少多个原始数据中存在与所述缓存中的待存储数据相一致的目标数据时,获取所述目标数据对应的至少一个设备标识;确定所述终端设备的当前设备标识;遍历所述至少一个设备标识,确定至少一个设备标识中是否存在与当前设备标识相同的目标设备标识;在确定出至少一个设备标识中存在与当前设备标识相同的所述目标设备标识时,将所述目标设备标识对应的第一特征值进行更新;在确定出至少一个设备标识中不存在与当前设备标识相同的所述目标设备标识时,将当前设备标识与所述目标数据进行关联存储并删除所述缓存中的待存储数据,为当前设备标识设置第二特征值。
所述云服务器20,还用于在对至少多个原始数据进行遍历的过程中,判断从将所述待存储数据存入所述缓存的时刻开始的累计时长是否达到设定时长;若是,根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历;其中,所述设定时长是所述云服务器初始化所述缓存的周期时长,每经过一次所述设定时长,所述云服务器对所述缓存进行一次初始化以清除所述缓存内存储的数据。
进一步地,如图4所示,本发明还提供了一种基于云计算的数据存储装置200的功能模块框图,具体可以包括以下功能模块。
请求响应模块201,用于在接收到终端设备发送的数据存储请求时,响应所述数据存储请求并将所述终端设备对应的待存储数据存入预设的缓存;其中,所述缓存用于对临时数据进行存储,所述云服务器周期性地对所述缓存进行初始化以清除所述缓存内所存储的数据,所述云服务器的数据存储区中存储有至少多个原始数据。
数据遍历模块202,用于对至少多个原始数据进行遍历,确定至少多个原始数据中是否存在与所述缓存中的待存储数据相一致的目标数据;其中,每个原始数据关联存储有对应的至少一个设备标识,所述设备标识用于确定将每个原始数据存入所述数据存储区的原始终端设备。
标识遍历模块203,用于在确定出至少多个原始数据中存在与所述缓存中的待存储数据相一致的目标数据时,获取所述目标数据对应的至少一个设备标识;确定所述终端设备的当前设备标识;遍历所述至少一个设备标识,确定至少一个设备标识中是否存在与当前设备标识相同的目标设备标识;在确定出至少一个设备标识中存在与当前设备标识相同的所述目标设备标识时,将所述目标设备标识对应的第一特征值进行更新;在确定出至少一个设备标识中不存在与当前设备标识相同的所述目标设备标识时,将当前设备标识与所述目标数据进行关联存储并删除所述缓存中的待存储数据,为当前设备标识设置第二特征值。
时长判断模块204,用于在对至少多个原始数据进行遍历的过程中,判断从将所述待存储数据存入所述缓存的时刻开始的累计时长是否达到设定时长;若是,根据至少多个原始数据中未遍历的原始数据的占比将所述设定时长进行延长,直至完成对至少多个原始数据的遍历;其中,所述设定时长是所述云服务器初始化所述缓存的周期时长,每经过一次所述设定时长,所述云服务器对所述缓存进行一次初始化以清除所述缓存内存储的数据。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
以上实施方式中的各种技术特征可以任意进行组合,只要特征之间的组合不存在冲突或矛盾,但是限于篇幅,未进行一一描述,因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。