CN117555904A

CN117555904A - 一种异构环境下精确数据截面快速构建获取方法及系统

Info

Publication number: CN117555904A
Application number: CN202410016344.5A
Authority: CN
Inventors: 石杰; 廖家林; 陶嘉驹; 陈煜�
Original assignee: Hangyin Consumer Finance Co ltd
Current assignee: Hangyin Consumer Finance Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-02-13
Anticipated expiration: 2044-01-05
Also published as: CN117555904B

Abstract

本发明涉及数据处理技术领域，具体涉及一种异构环境下精确数据截面快速构建获取方法及系统，具体包括：统一异构环境各操作系统时间戳的时间起点，根据各数据各类属性数值变化时的时间戳及当前业务状态得到各数据状态时间指数；结合各数据查询次数、修改次数得到各数据的查询权重，从而调整各数据在B+树中的存储位置；同时，根据各数据属性之间的相似程度得到各捆绑数据；获取其最大查询权重作为各捆绑数据的最终查询权重，通过各数据对应的唯一主键，结合B+树得到最终截面数据。从而实现截面数据快速获取，减少存储空间的读写I/O次数，提高检索速度，避免了不同业务数据的更新速度不一样导致数据截面出现偏差的问题。

Description

一种异构环境下精确数据截面快速构建获取方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种异构环境下精确数据截面快速构建获取方法及系统。

背景技术

异构环境是指系统中的各个元素有明显的差异，这种差异包括硬件，软件操作系统等。数据截面是不同主体在同一时间或同一时间段的数据，也称为静态数据。随着经济的蓬勃发展，数据管理变得愈加至关重要，因此数据库技术得以应运而生，其中关系数据库逐渐崭露头角。大型企业通常拥有多个业务系统，数据库对这些业务系统的正常运作发挥着关键作用，帮助企业有效管理，分析和利用数据资源，以支持业务的持续发展。然而，巨大的数据量使得数据库中的数据关系变得错综复杂，而且数据库中的数据是不断动态变化的，确保数据的准确性，一致性和完整性都至关重要。

企业中业务系统众多数据变化情况复杂，想从数据库中提出某一精确时点的数据截面很难实现，存在各种偏差问题。由于不同业务数据的更新速度不一样，不同系统的数据同步也需要时间，均会导致数据截面的数据偏差。

综上所述，本发明通过统一异构环境各操作系统时间戳的时间起点，消除因时间不一致引起的系统性错误，根据采集数据的访问频率和数据特征优化索引结构，通过各数据对应的唯一主键，结合B+树得到最终截面数据，从而减少存储空间读写I/O次数和检索时间，提高检索速度。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种异构环境下精确数据截面快速构建获取方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种异构环境下精确数据截面快速构建获取方法，该方法包括以下步骤：

统一异构环境各操作系统时间戳的时间起点；

获取业务数据表中各数据的属性，包括当前业务状态、最后更新时间及业务生成时间；将预设的各类业务状态数值化；根据各数据的每类属性数值变化时的时间戳及当前业务状态数值得到各数据的状态时间指数；根据各数据的查询次数及修改次数得到各数据的查询频率特征；根据各数据的状态时间指数及查询频率特征得到各数据的查询权重；将各数据的有限个状态的数值组成各数据的向量；根据各数据向量之间的关系得到任意两个数据在向量空间中的距离；根据任意两个数据在向量空间中的距离得到任意两个数据的相似程度；将任意两个数据作为各对数据；根据所有对数据的相似程度得到捆绑数据集合；将捆绑数据集合中每个数据作为捆绑数据；根据各捆绑数据的查询权重得到捆绑数据集合的共享查询权重；将共享查询权重作为捆绑数据集合中各捆绑数据最终的查询权重；

通过各数据对应的唯一主键，结合B+树得到最终截面数据。

优选的，所述将预设的各类业务状态数值化，具体为：

将预设的各类业务状态包括已下单、已付款、已执行、确认业务、完成业务，用数字进行表示，分别为已下单：，已付款：/>，已执行：/>，确认业务：/>，完成业务：/>；其中/>、、/>、/>及/>为预设常数，/>

优选的，所述根据各数据的每类属性数值变化时的时间戳及当前业务状态数值得到各数据的状态时间指数，具体包括：

计算当天零点整的时间戳与各数据的最后更新时间的时间戳之间的差值；计算所述差值与一天时间的秒数的比值，记为第一比值；计算以自然常数为底数的第一比值的对数的计算结果；计算所述对数的计算结果与各数据当前业务状态数值的比值，记为第二比值；计算自然常数为底数、以第二比值为指数的指数函数的计算结果；将所述指数函数的计算结果作为各数据的状态时间指数。

优选的，所述根据各数据的查询次数及修改次数得到各数据的查询频率特征，具体包括：计算各数据的查询次数与修改次数的和值；计算所述和值与粗粒度的时间范围的比值；将所述比值作为各数据的查询频率特征。

优选的，所述根据各数据的状态时间指数及查询频率特征得到各数据的查询权重，具体包括：计算以自然常数为底数、以各数据的查询频率为指数的指数函数的计算结果；计算所述计算结果与各数据的状态时间指数的和值；将所述和值作为各数据的查询频率特征。

优选的，所述根据各数据向量之间的关系得到任意两个数据在向量空间中的距离，具体包括：对于任意两个数据，计算两个数据向量的差值；计算所述差值的模；将所述模作为两个数据在向量空间的距离。

优选的，所述根据任意两个数据在向量空间中的距离得到任意两个数据的相似程度，具体包括：

对于任意两个数据，计算两个数据的任务生成时间的时间戳的差值绝对值；计算以预设常数为底数、以所述差值绝对值为指数的指数函数的计算结果；计算所述计算结果与两个数据在向量空间中的距离之间的比值；将所述比值作为两个数据的相似程度。

优选的，所述根据所有对数据的相似程度得到捆绑数据集合，具体为：预设相似阈值；将相似程度小于预设阈值的所有对数据所组成的数据集合作为捆绑数据集合。

优选的，所述根据各捆绑数据的查询权重得到捆绑数据集合的共享查询权重，具体为：获取捆绑数据集合中所有捆绑数据的查询权重的最大值；将所述最大值作为捆绑数据集合的共享查询权重。

第二方面，本发明实施例还提供了一种异构环境下精确数据截面快速构建获取系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明实施例至少具有如下有益效果：

本发明提出一种异构环境下的基于精确数据时点的数据截面构建方法及系统，统一异构环境中各操作系统时间戳的时间起点，消除因时间不一致引起的系统性错误；根据各数据的每类属性数值变化时的时间戳及当前业务状态得到各数据的状态时间指数；结合各数据的查询次数、修改次数构建每个数据的查询权重来区分数据库中的冷热数据；将查询权重较大的数据调整到B+树叶子节点中靠前的数据存储位置；同时，根据每个数据之间各类属性数据的相似程度得到各捆绑数据；结合查询权重调整各捆绑数据最终的查询权重；使经常访问的数据放置在叶子前部，减少存储空间的读写I/O次数，加快查询速度，避免了不同业务数据的更新速度不一样导致数据截面的数据出现偏差的问题，提高了截取数据检索速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种异构环境下精确数据截面快速构建获取方法的步骤流程图；

图2为B+树结构示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种异构环境下精确数据截面快速构建获取方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种异构环境下精确数据截面快速构建获取方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种异构环境下精确数据截面快速构建获取方法的步骤流程图，该方法包括以下步骤：

步骤S001，对操作系统的数据存储时间进行预处理。

在异构环境中，由于操作系统或其他设备不一致，导致系统的时间存在差异。例如在Linux系统中时间戳的起点时间为1970年1月1日00时00分00秒，而在Windows系统中时间戳的起点是1601年1月1日00时00分00秒。这就造成了在同一时刻存储的数据，存在时间戳上的差异，导致未知的错误。因此，首先将所有系统的时间调至同步，统一各系统时间戳的起点时间，需要说明的是，时间戳的设定实施者可自行设定，本实施例将时间戳设定为1970年1月1日00时00分00秒起的秒数。

步骤S002，确定粗粒度的数据时间点。

在电商平台中往往存在业务系统、用户系统、商品系统、物流系统等等，分别对应着数据库中不同的数据存储表，对于其中任意一个数据存储表，以业务数据表为例，表中每个数据的操作事务分别记为、/>、/>。设粗粒度的时间范围T为24小时。

步骤S003，对数据进行升维处理。

常见数据库中使用B+树构建索引，极大降低了磁盘的读写（I/O）次数。B+树是一种多叉树，每个节点可以包含多个子节点，所有数据都存储在叶子节点中，常用于数据库中管理和组织有序数据。

为进一步降低索引时间，首先，为了方便确定精确时间的数据截面。对数据进行升维操作，以业务数据表中的数据为例，对每个数据增加当前业务状态、最后更新时间以及业务生成时间这三个属性。业务状态包括已下单、已付款、已执行、确认收货以及完成业务，设定常数、/>、/>、/>以及/>，其中/>，将上述五个业务状态用数字进行表示，分别为已下单：/>，已付款：/>，已执行：/>，确认业务：/>，完成业务：/>。需要说明的是，/>、/>、/>、/>以及/>的值实施者可自行设定，本实施例不做具体限制。最后更新时间属性为最后更新每个数据时的时间戳。

步骤S004，根据数据关注度及查询情况对数据查询权重进行初步分析判定。

数据库中的数据有冷、热数据之分，某些可能需要频繁改动的数据称之为热数据，某些业务数据可能长时间没有变化称之为冷数据。因此为了选出热数据，对业务数据表中的每项数据构建状态时间指数，表达式为：

，式中，/>为数据q的状态时间指数，为当天零点整的时间戳，/>为数据q的最后更新时间的时间戳，/>为时间跨度为一天的秒数，一天有86400秒，因此/>，加1防止分子为负数的情况，/>为数据q当前的业务状态，/>为以e为底的对数函数，/>为以e为底的指数函数。其中，为第一比值，/>为第二比值。显然随着时间的推移，某些数据的重要性减弱，人们对于该数据的查询需求减少，分子中反映了当天零点时间与最后一次更新该数据的时间之间的时间间隔，/>表示间隔天数，其值越大，数据越久远，关注度越低，重要性越弱；其次对于各类数据，往往会更关注正在进行中的业务数据，而对于已完成的长时间未更新的业务数据关注程度较低，状态时间指数反映了对一个数据的关注程度，一个数据的/>越小，表示对该项数据越不关注，越可能为冷数据；反之，越可能为热数据。

其中，分子使用对数函数的原因为：人为在评价状态时间指数时，常常出现未完成业务长时间数据的状态信息不更新的情况，但这类数据仍为需要关心的数据，希望减小这类数据的状态时间指数的减弱情况，从而使当前业务状态相比时间而言对/>的影响较大。

由于可能存在已完成的业务由于退换货等原因对数据大量查询的情况，这类数据应当也具有相对较大的关注度，对于已完成的业务数据仅通过状态时间指数描述其关注程度是不合适的。因此对每个数据项计算查询权重w，表达式为：

，/>，式中，/>为数据q的查询权重，/>以e为底的指数函数，/>为数据q的查询频率特征，/>为状态时间指数，/>为当前时间的前一天对数据q的查询次数，/>为前一天对数据q的修改次数，T为粗粒度的时间范围，一天的小时数（由常识可知为24），/>为权重系数（需要说明的是，/>的值实施者可自行设定，本实施例将/>的值设置为/>）。由于数据在修改完成后，一般都会再次查询该数据查看是否更改成功，从而修改操作之后执行查询操作的可能性增加，因此式中设置修改数据的影响大于查询数据的影响，将/>的值设置为2。查询频率特征反映了一条数据在前一天的查询和修改情况，具体为每小时的查改次数。显然，对于数据操作越频繁的数据，越是热数据，越应放置在B+树叶子节点的前部来加快下次访问的速度。综上，数据的查询权重越大，表示该数据是热数据的可能性越高，越要放置在较为靠前的存储位置。根据各数据的查询权重，在基于数据业务号（属性）的B+索引树中重新排列各数据在的存储顺序，将查询权重较大的数据存放对应的叶子节点区域中靠前的位置，以便优先读取该数据。每天通过分析每项数据的查询权重，更新其在叶子节点存储的前后顺序。

步骤S005，结合捆绑数据集合分析数据间的相似程度，获取数据的最终查询权重，通过最终查询权重对B+索引树中各数据位置进行设置。

同时，本实施例考虑由于一个用户可能拥有多项业务，用户查询业务数据时往往一并查看多项业务的数据。因此对属于同一个用户的多项业务信息做一个捆绑操作，使能够同时查询同一个用户的多项业务数据。对B+索引树中各叶子节点各数据索引过程进行捆绑分析，对各数据最终的查询权重进行调整。具体为：首先，通过业务数据有限状态属性在向量空间中的向量构建两个数据在向量空间中的距离，表达式为：

，式中，/>为业务数据/>、/>在向量空间中的距离，/>表示业务数据的向量空间，每一条业务数据对应着/>空间中的一个向量，/>表示同一个用户的两个业务数据，/>、/>分别为业务数据/>、/>的有限状态属性在向量空间中的向量，/>表示两个向量差值的模。其中，有限状态属性指可以用有限数字表示的数据属性（比如属性有业务类型，假设只有A、B两种业务类型可以用1、2表示两种业务类型），忽略业务号码等无限的状态属性。以此将数据映射至向量空间中。

然后，根据业务数据在向量空间中的距离计算业务数据的相似程度c，表达式为：

，式中，/>为业务数据/>、/>之间的相似程度，/>为一个很小的常数，/>，/>为限制因子，需要说明是，/>、/>的值实施者可自行设定，本实例将/>、/>的值分别设定为/>、/>，/>表示同一个用户的两个业务数据，/>、/>分别为数据/>、/>的业务生成时间的时间戳，表示两个业务数据的业务生成时间的差异，/>为业务数据/>、在向量空间中的距离，表示数据除了业务生成时间外其他数据属性在向量空间中的差异。/>的作用是使/>的结果随两个数据的业务生成时间差异的增大而减小，取一个较小值是为了降低这种减小的趋势；/>的作用是避免分母为零和限制该项/>的最大值。/>表示两个业务数据在业务生成时间上的相似程度，业务生成时间越相近，/>越大，从而两个数据之间的相似程度越大；/>表示了两数据在向量空间上的向量差异，其属性状态越相近，对应业务向量越相近，/>越小，/>越大，从而两个数据之间的相似程度越大。

设定相似阈值，需要说明是，/>的值实施者可自行设定，本实例将/>的值设定为4。通过上述方式计算同一用户的各对业务数据之间的相似程度，遍历同一用户的所有对业务数据，将相似程度小于相似阈值的各对数据均放入集合D中，得到捆绑数据集合D，其中集合D中数据不重复。

设一个被捆绑的数据集合中共有n个数据，根据其中每个数据的查询权重计算捆绑数据集合D中每个数据的共享查询权重/>，表达式为：

，式中，/>为捆绑数据集合D的共享查询权重，/>为求最大值函数，/>为捆绑数据集合D中所有数据的查询权重，/>表示集合D中所有数据查询权重的最大值，/>为归一化函数。

进一步，将共享查询权重作为捆绑数据集合中各数据的最终的查询权重，以获取各数据最终的查询权重。加快了数据库对数据的访问速度，B+树结构示意图如图2所示（数据项代表捆绑的数据）。

步骤S006，对数据进行降维并输出最终截面数据。

至此，可对B+树的结构进行优化，并对B+树中的各数据索引过程进行捆绑优化，对属于同一个用户的多项业务信息做一个捆绑操作，以便在进行查询时能够查询同一个用户的多项业务数据。

通过删除人为加入的当前业务状态、业务最后更新时间、业务生成时间三个属性对数据进行降维。再根据每个数据对应的唯一主键（本实施例中唯一主键为业务号），去除重复的数据，即可快速精确的得到对应时刻的数据截面。

基于与上述方法相同的发明构思，本发明实施例还提供了一种异构环境下精确数据截面快速构建获取系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种异构环境下精确数据截面快速构建获取方法中任意一项所述方法的步骤。

综上所述，本发明实施例提出一种异构环境下的基于精确数据时点的数据截面构建方法及系统，统一异构环境中各操作系统时间戳的时间起点，消除因时间不一致引起的系统性错误；根据各数据的每类属性数值变化时的时间戳及当前业务状态得到各数据的状态时间指数；结合各数据的查询次数、修改次数构建每个数据的查询权重来区分数据库中的冷热数据；将查询权重较大的数据调整到B+树叶子节点中靠前的数据存储位置；同时，根据每个数据之间各类属性数据的相似程度得到各捆绑数据；结合查询权重调整各捆绑数据最终的查询权重；使经常访问的数据放置在叶子前部，减少存储空间的读写I/O次数，加快查询速度，避免了不同业务数据的更新速度不一样导致数据截面的数据出现偏差的问题，提高了截取数据检索速度。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种异构环境下精确数据截面快速构建获取方法，其特征在于，该方法包括以下步骤：

统一异构环境各操作系统时间戳的时间起点；

通过各数据对应的唯一主键，结合B+树得到最终截面数据。

2.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述将预设的各类业务状态数值化，具体为：

将预设的各类业务状态包括已下单、已付款、已执行、确认业务、完成业务，用数字进行表示，分别为已下单：，已付款：/>，已执行：/>，确认业务：/>，完成业务：/>；其中/>、/>、、/>及/>为预设常数，/>

3.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述根据各数据的每类属性数值变化时的时间戳及当前业务状态数值得到各数据的状态时间指数，具体包括：

4.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述根据各数据的查询次数及修改次数得到各数据的查询频率特征，具体包括：计算各数据的查询次数与修改次数的和值；计算所述和值与粗粒度的时间范围的比值；将所述比值作为各数据的查询频率特征。

5.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述根据各数据的状态时间指数及查询频率特征得到各数据的查询权重，具体包括：计算以自然常数为底数、以各数据的查询频率为指数的指数函数的计算结果；计算所述计算结果与各数据的状态时间指数的和值；将所述和值作为各数据的查询频率特征。

6.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述根据各数据向量之间的关系得到任意两个数据在向量空间中的距离，具体包括：对于任意两个数据，计算两个数据向量的差值；计算所述差值的模；将所述模作为两个数据在向量空间的距离。

7.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述根据任意两个数据在向量空间中的距离得到任意两个数据的相似程度，具体包括：

8.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述根据所有对数据的相似程度得到捆绑数据集合，具体为：预设相似阈值；将相似程度小于预设阈值的所有对数据所组成的数据集合作为捆绑数据集合。

9.如权利要求1所述的一种异构环境下精确数据截面快速构建获取方法，其特征在于，所述根据各捆绑数据的查询权重得到捆绑数据集合的共享查询权重，具体为：获取捆绑数据集合中所有捆绑数据的查询权重的最大值；将所述最大值作为捆绑数据集合的共享查询权重。

10.一种异构环境下精确数据截面快速构建获取系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述方法的步骤。