CN117708139B - 一种数字化健康数据库优化存储检索方法 - Google Patents
一种数字化健康数据库优化存储检索方法 Download PDFInfo
- Publication number
- CN117708139B CN117708139B CN202410165799.3A CN202410165799A CN117708139B CN 117708139 B CN117708139 B CN 117708139B CN 202410165799 A CN202410165799 A CN 202410165799A CN 117708139 B CN117708139 B CN 117708139B
- Authority
- CN
- China
- Prior art keywords
- data
- health data
- user health
- day
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000036541 health Effects 0.000 title claims abstract description 301
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012937 correction Methods 0.000 claims abstract description 25
- 230000002354 daily effect Effects 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000003203 everyday effect Effects 0.000 claims description 10
- 239000008280 blood Substances 0.000 claims description 8
- 210000004369 blood Anatomy 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000035487 diastolic blood pressure Effects 0.000 claims description 4
- 230000035488 systolic blood pressure Effects 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 239000008103 glucose Substances 0.000 claims description 2
- 150000002632 lipids Chemical class 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000001816 cooling Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Abstract
本发明涉及数据库优化存储技术领域,具体涉及一种数字化健康数据库优化存储检索方法,该方法包括:获取各用户的用户健康数据;根据用户健康数据的基本数据、健康表现数据以及每天的查询次数获取用户健康数据每天的热度指数;将每天所有热度指数聚类,基于聚类结果得到各用户健康数据的热度指数的类别值;根据用户健康数据每天的查询趋势以及查询次数波动情况获取用户健康数据每天的查询次数修正值;根据用户健康数据的每天的查询次数修正值、热度指数以及对应类别值获取用户健康数据每天的检索权重;根据各用户的用户健康数据在每天的检索权重以及热度指数,重新调整每天的B+树结构。本发明旨在提升了冷热数据的检索速度。
Description
技术领域
本申请涉及数据库优化存储技术领域,具体涉及一种数字化健康数据库优化存储检索方法。
背景技术
数字化健康以信息技术为支撑,旨在不断提升医疗服务水平,优化用户体验。健康数据为数字化健康的基石,而计算机领域的数据库技术被广泛应用于该领域。
数据库作为结构化的大规模数据集合,实现了高效的数据存储、管理和检索。随着健康数据的不断增加,数据库在数字化健康中的作用愈加重要。通过数据库,医疗机构能够有效地组织和存储患者的电子健康记录,实现对医疗信息的快速检索和更新。不仅有助于提高医疗服务的效率,还可以帮助医护人员更好地理解患者的病史和健康状况。
传统的数据库存储往往采用B+数的数据结构,该数据结构有效降低了磁盘的读写次数,但数据在B+树叶子结点的排列顺序往往为顺序排列,在查找到该叶子节点时使用顺序查找的方式查找数据,其效率较低,没有考虑到数据的冷热状态。
发明内容
为了解决上述技术问题,本发明提供一种数字化健康数据库优化存储检索方法,以解决现有的问题。
本发明的一种数字化健康数据库优化存储检索方法采用如下技术方案:
本发明一个实施例提供了一种数字化健康数据库优化存储检索方法,该方法包括以下步骤:
获取各用户的用户健康数据,用户健康数据包含基本数据和健康表现数据,采用B+树对用户健康数据进行存储;
根据用户健康数据的基本数据、健康表现数据与正常参考范围之间的差异程度获取用户健康数据的冷热比例系数;根据用户健康数据的冷热比例系数以及每天的查询次数情况获取用户健康数据每天的热度指数;将各用户健康数据每天的热度指数进行聚类获取各聚类簇,根据聚类簇之间的热度指数差异获取各聚类簇内各用户健康数据每天的热度指数的类别值;
根据用户健康数据在采集天数中每天的查询趋势以及每天的查询次数波动情况获取用户健康数据每天的查询次数修正值;将用户健康数据在采集天数下每天的查询次数修正值按照时间顺序组成用户健康数据的修正值序列;根据用户健康数据的修正值序列、每天的热度指数以及对应类别值获取用户健康数据每天的检索权重;
根据各用户的用户健康数据在每天的检索权重以及热度指数,重新调整每天的B+树结构。
优选的,所述用户健康数据包含基本数据和健康表现数据,包括:
所述基本数据包括但不限于年龄、身高、体重以及在采集天数内每天的查询次数;所述健康表现数据包括但不限于血糖、血脂、收缩压、舒张压。
优选的,所述根据用户健康数据的基本数据、健康表现数据与正常参考范围之间的差异程度获取用户健康数据的冷热比例系数,包括:
对于用户健康数据中各健康表现数据,获取各健康表现数据与正常参考范围之间的最小距离;计算用户健康数据中所有健康表现数据的所述最小距离的和值;
计算用户健康数据中的年龄与所有用户的平均年龄的差值绝对值;将所述和值与所述差值绝对值之和作为用户健康数据的冷热比例系数。
优选的,所述获取各健康表现数据与正常参考范围之间的最小距离,包括:
当各健康表现数据属于正常参考范围之内时,将各健康表现数据与正常参考范围之间的最小距离设置为0;
当各健康表现数据不属于正常参考范围之内时,将各健康表现数据与其正常参考范围的最小值、最大值之间的差值绝对值中的最小值作为各健康表现数据与正常参考范围之间的最小距离。
优选的,所述根据用户健康数据的冷热比例系数以及每天的查询次数情况获取用户健康数据每天的热度指数,包括:
获取每天之前一天所有用户健康数据的查询次数均值;将所述查询次数均值与用户健康数据的冷热比例系数的乘积的倒数的相反数,作为以自然常数为底数的指数函数的指数;
获取用户健康数据每天之前一天的查询次数和热度指数;将所述指数函数的计算结果与之前一天的热度指数的乘积结果加上之前一天的查询次数得到用户健康数据每天的热度指数。
优选的,所述根据聚类簇之间的热度指数差异获取各聚类簇内各用户健康数据每天的热度指数的类别值,包括:
将各聚类簇对应聚类中心的热度指数按照从大到小进行排序得到类别序列;
将各聚类中心在类别序列中的位置次序作为各聚类中心所属聚类簇内所有用户健康数据的热度指数的类别值。
优选的,所述根据用户健康数据在采集天数中每天的查询趋势以及每天的查询次数波动情况获取用户健康数据每天的查询次数修正值,包括:
计算除去第j天外剩余采集天数的查询次数方差,将所述查询次数方差的相反数作为以自然常数为底数的指数函数的指数;
获取用户健康数据第j天的查询次数趋势值;计算所述指数函数的计算结果与所述查询次数趋势值的乘积;计算数字1减去所述指数函数的计算结果的差值结果与第j天的查询次数的乘积;
将两个乘积的和值作为用户健康数据第j天的查询次数修正值。
优选的,所述获取用户健康数据第j天的查询次数趋势值,包括:
获取用户健康数据第j-1天、第j-2天的查询次数;计算第j-1天查询次数的2倍与第j-2天查询次数相反数的和值作为用户健康数据第j天的查询次数趋势值。
优选的,所述根据用户健康数据的修正值序列、每天的热度指数以及对应类别值获取用户健康数据每天的检索权重,包括:
对修正值序列采用LSTM神经网络获取每天的查询次数预测值;计算预设调节因子与所述查询次数预测值的乘积;
计算1减去预设调节因子的差值结果与用户健康数据每天的热度指数的乘积;获取用户健康数据每天的热度指数的类别值;将两个乘积的和值除以所述类别值得到用户健康数据每天的检索权重。
优选的,所述根据各用户的用户健康数据在每天的检索权重以及热度指数,重新调整每天的B+树结构,包括:
对于每天的数据存储B+树的结构,将各用户的用户健康数据按照每天的热度指数从大到小进行排序,按照排序结果存储在B+树中;
将B+树中每个叶节点内的各用户的用户健康数据在每天的检索权重从大到小进行排序,将每个叶节点内的所有检索权重的中位数标记在对应叶节点中。
本发明至少具有如下有益效果:
本发明首先针对不同用户在不同年龄阶段对自身健康的关心程度以及用户自身是否存在非健康状态情况,构建各用户的用户健康数据的冷热比例系数,挖掘用户本身对于用户健康数据的关注程度,将数据进行冷热区分,便于在后续构建查询树着重将热数据的检索权重设置更大,便于用户进行查询;通过不同用户在过去长期以来对用户健康数据的查询次数趋势,构建各用户的用户健康数据在每天的热度指数,本发明基于用户过去的查询次数、所有用户对于自身的用户健康数据整体的查询情况,可以将历史数据相对于当前数据、整体数据相对于局部数据的影响关系间接影响当天用户查询自身健康数据的可能性,即可以通过对之前天数的查询次数的逐级迭代获取用户健康数据每天的热度指数,结合数据库整体的冷热情况获取冷数据被查询的概率筛选快慢情况,相对于传统冷热数据划分时仅考虑数据访问的频次,本发明通过引入牛顿冷却定律对冷热数据进行更为精确的判断,使得后续构建B+树的方法更加符合实际每天的热度需求;
本发明通过分析用户健康数据的历史访问规律,抑制了查询的突发性对健康数据的整体影响,避免了由于某天查询次数突然增大从而导致赋予该数据较大热度的情况,从而更准确修正了用户健康数据每天的查询次数;考虑用户对自身的用户健康数据访问的规律性因素,即用户访问完数据后并不会在接下来的连续几天多次进行访问;同时,本发明结合用户健康数据在每天的查询次数预测值、热度指数以及其类别情况,构建检索权重,针对不同用户对自身健康数据的关心类别以及历史、预测情况,重新排列B+树叶子结点中的用户健康数据的顺序,使得构建的B+树更加便于不同种类的用户进行查询,提高查询速度;本发明结合各用户的用户健康数据在每天的热度指数以及检索权重,重新调整B+树的结构,将每个叶节点的检索权重中位数保存在叶子结点中,减少了计算机在磁盘中的读写次数,有效提升了冷热数据的检索速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种数字化健康数据库优化存储检索方法的流程图;
图2为查询频次突发性情况示意图;
图3为用户健康数据在每天的检索权重的指标构建流程图;
图4为B+树各个叶节点中存储的用户健康数据的检索权重的中位数Z示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种数字化健康数据库优化存储检索方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种数字化健康数据库优化存储检索方法的具体方案。
本发明一个实施例提供的一种数字化健康数据库优化存储检索方法。
具体的,提供了如下的一种数字化健康数据库优化存储检索方法,请参阅图1,该方法包括以下步骤:
步骤S001,采集各用户的用户健康数据,包括基本数据和健康表现数据。
采集用户的年龄、身高、体重、血糖、血脂、收缩压、舒张压等一系列健康数据。并将用户的预留手机号作为用户健康数据的唯一主键和检索索引。根据所收集的数据构造各用户的用户健康数据的数据库,并持续M天监测各用户的用户健康数据的查询和修改情况,将持续M天监测后的最终修改数据作为各用户的用户健康数据。假设数据库中一共存在N个用户的用户健康数据。其中,本实施例对M取经验值30,实施者可根据实际情况自行设定。
其中,用户的基本数据如年龄、身高、体重等,称为用户基本数据,用户的血糖、血脂、收缩压、舒张压等称为用户的健康表现数据,用P表示。
至此,可获取得到各用户的用户健康数据,包括基本数据和健康表现数据,便于接下来针对各用户的用户健康数据进行具体分析其冷热状态。
步骤S002,根据各用户对自身健康数据的关心程度、历史访问规律以及用户健康数据本身的历史访问异常情况,构建各用户的用户健康数据在每天的热度指数和检索权重。
本实施例将各用户的用户健康数据存储在B+树中,便于用户进行数据查询。但是,由于不同人群对自身健康数据的关系程度不同,如中老年群体更关心自身的健康数据,即存在经常查看的情况,而对于较年轻的群体,对于自身的健康数据关心较少,要相隔很长时间才会查询一次。即健康数据存在冷热之分,存在经常查询的热数据和访问较少的冷数据。如果直接将各用户的用户健康数据存储在B+树中,并不能按照冷热数据自身特点对其进行最佳存储,从而可能导致在用户查询健康数据库时出现检索速度较慢等一系列问题。
牛顿冷却定律描述了物体在受到外部热量影响下,其温度发生变化的规律。物体表面温度变化会受到物体接触表面面积、物体材料结构特征等多种不同固有因素影响,此时不同的物体温度与外界环境的热传导交换效率会有所差异。因此,对于不同的数据记录,其数据冷热变化比例系数也会随着数据固有属性发生相应的变化。在原有的牛顿冷却定律中,k表示环境温度与物体本身温度之间交换传递的热传导系数。对于不同数据记录的重要性,可以计算得到相应的冷热比例系数,本实施例以用户健康数据a为例,计算用户健康数据a的冷热比例系数ka:
;
;
式中,ka为用户健康数据a的冷热比例系数,agea表示用户健康数据a的年龄,mean(age)表示所有数据的平均年龄,na表示用户健康数据a的健康表现数据个数,Pai为用户健康数据a的第i个健康表现数据,Ωi为第i个健康表现数据的正常参考范围,本实施例中的正常参考范围由专业医护人员提供,DE(Pai,Ωi)表示Pai与正常参考范围Ωiz之间的最小距离。min( )表示最小值函数,Ωmin,i为第i个健康表现数据的正常参考范围的最小值,Ωmax,i表示第i个健康表现数据的正常参考范围的最大值。其中,|Pai-Ωmin,i|记为用户健康数据a的第一差值绝对值,|Pai-Ωmax,i|记为用户健康数据a的第二差值绝对值。
上式的计算逻辑为,首先计算用户健康数据的年龄agea与所有年龄的均值mean(age)之间的差异,考虑到年龄较小的孩童其监护人可能对于其健康状况较为关心,存在经常查询的情况,而年龄较大的老人由于自身体能下降,也可能对自身的健康数据较为关心,存在经常查询的情况,其差异越大则说明该用户的信息越可能为热数据。第二项为健康表现数据P与正常参考范围的差异DE(Pai,Ωi),身体健康的用户会在认识到认识身体相对健康后减少对自身健康数据的查询,而健康表现数据相对异常的病人可能会经常查询自身健康数据。因此,冷热比例系数ka表示着用户健康数据a的重要程度,如果冷热比例系数ka越大,表示该用户健康数据对于用户本身来说更加重要,其需要查询的次数越多,则在后续构建查询树时需要将该用户的用户健康数据的检索权重设置更大,便于用户进行查询。
这种变化规律可以应用于数据冷热划分过程中,同时,基于用户过去的查询次数的分析,前一天对于当天的查询次数也存在一定的影响关系,且对于所有用户对自身的用户健康数据整体的查询情况,也可以间接反映当天用户查询自身健康数据的可能性,即可以通过对之前天数的查询次数的逐级迭代实现每天的热度指数,本实施例以用户健康数据a在第t天为例,构建用户健康数据a在第t天的热度指数:
;
式中,表示用户健康数据a在第t天的热度指数,/>表示用户健康数据a在t-1天的热度指数,exp( )表示以自然常数e为底数的指数函数,ka是用户健康数据的冷热比例系数,N是用户健康数据的总数,/>表示第t-1天所有用户健康数据的查询次数总数。表示用户健康数据a在t-1天的查询次数。其中,用户健康数据a在采集的第一天的数据的热度指数/>设置为0。
上述公式中的第一项中考虑了用户健康数据热度的衰减项,当一个用户健康数据长期不存在查询和修改时,该用户健康数据的热度指数为逐渐减小直至衰减为0。第二项/>中考虑了所有数据的访问均值对个体数据的影响,当所有数据的平均查询次数较多时,即用户健康数据的数据库处于较热的状态,冷数据被查询的概率较大,该项越小,同时数据越重要/>越小,数据的热度衰减慢。当所有数据的平均查询次数较少,即健康数据的数据库处于较冷的状态,冷数据被查询的概率减小,此时数据的热度衰减快。第二项表示对数据的关注程度,当某用户对自身的健康数据越重视时,其查询次数越多即/>越大,表示对该健康数据的关心程度高。上式通过数据的历史查询,融合整个数据库的冷热状态和数据的比例系数,判断一个数据的热度。热度越高说明该数据经常被查询,被访问的频率和概率都较高。
为方便后续计算,考虑将每天所有用户健康数据的热度指数抽象为三种类别,分别为:关心、一般和忽视。使用K-means聚类算法将第t天的N个用户健康数据的热度指数进行聚类,设置聚类中心个数为3。K-means聚类算法输入无标签的数据,将数据聚成不同的类别,具体为公知技术不再赘述。聚类后得到三个聚类簇的聚类中心,将各聚类中心的热度数据分别记为cen1、cen2、cen3,且cen1>cen2>cen3。每天的用户健康数据根据其热度指数至不同聚类中心的距离被分为三类,记作cl1,cl2,cl3。cl1表示为对用户健康数据的热度指数的关心类别,将聚类簇cl1内各用户健康数据的热度指数的类别标记为1;cl2表示为对用户健康数据的热度指数的一般类别,将聚类簇cl2内各用户健康数据的热度指数的类别标记为2;cl3表示为对用户健康数据的热度指数的忽视类别,将聚类簇cl3内各用户健康数据的热度指数的类别标记为3。将用户健康数据a的热度指数的类别记作acl。
在上述步骤中监测了M天各用户的用户健康数据的查询情况,其中为用户健康数据a第一天的查询次数。考虑到用户对自身健康数据的访问可能存在突发性,如部分用户可能长期的查询频次较低,在过去某几天的查询频次较高,如图2所示,图2中的横坐标为采集天数,纵坐标Ha为用户健康数据a在不同采集天数下的查询次数。其在采集天数前期的查询次数较低,但是后面会突然出现查询次数较高的情况。
因此,为减小健康数据查询次数的突发性异常数据对其他正常查询次数的影响,构建用户健康数据的查询次数修正值,本实施例以用户健康数据a在第j天的查询次数修正值为例:
;
;
式中,表示用户健康数据a在第j天的查询次数修正值,/>表示以自然常数e为底数、以/>为指数的指数函数,/>表示用户健康数据a除去第j天数据后的查询次数方差,/>表示用户健康数据a在第j天的查询次数,/>表示用户健康数据a在第j天的查询次数趋势值。将用户健康数据a每天的查询次数修正值组成修正值序列,记作。
上式针对用户健康数据某天的查询次数存在的突变情况做出了修正,主要分为以下三种情况:
(1)用户健康数据a在采集天数中存在异常数据,用户健康数据a在第j天的查询次数为异常数据,去除该异常值后的数据方差变小即/>变小,指数函数/>较大,导致较小,即查询次数修正值/>的异常值部分的权值较小,且/>越偏离其他正常数据其权重/>越小。查询次数趋势值/>通过计算(j-1)天与(j-2)天的查询次数差值作为趋势,简单预测了第j天的查询次数,即查询次数修正值/>的查询趋势值部分的权值较大,从而导致查询次数修正值/>更偏向于/>。
(2)用户健康数据a在采集天数中存在异常数据,但用户健康数据a在第j天的查询次数为正常数据,去除该异常值后的数据方差变大即/>变大,指数函数/>较小,导致/>较大,即查询次数修正值/>的正常值部分的权值较大,且/>越偏向其他正常数据。
(3)用户健康数据a在采集天数中不存在异常数据,则所有采集天数下的查询次数的大小相似,此时较小,/>约等于1,/>的权值较大,修正值/>偏向于正常数据/>。
通过上式的计算,抑制了异常的查询数据对整体的影响,避免了由于某天查询次数突然增大从而导致赋予该数据较大热度的情况。
除此之外,用户对自身健康数据的访问可能存在规律性,如部分用户可能每隔一天查询或修改一次健康数据,此时如果该用户前一天已经查询或修改过健康数据,第二天再赋予该数据较大的热度是不合逻辑的。因此考虑用户对健康数据访问的规律性因素,构建用户健康数据的检索权重,本实施例以用户健康数据a在第t天的检索权重为例:
;
式中,为用户健康数据a在第t天的检索权重,β为预设调节因子,本实施例取值为0.8,/>为用户健康数据a在第t天的热度指数,LSTM长短期记忆网络为公知技术不再赘述。Qa为用户健康数据a的修正值序列,LSTM(Qa,t)为使用修正值序列Qa对第t天的查询次数预测值,acl,t为用户健康数据a在第t天的热度指数的类别值。其中,/>为第一重视指数,β×LSTM(Qa,t)为第二重视指数。其中,用户健康数据在每天的检索权重的指标构建流程图如图3所示。
上式中,解释为过去用户健康数据a的热度指数对检索权重的影响,β×LSTM(Qa)解释为过去用户健康数据a的查询次数预测值对检索权重的影响,由于过去的查询已经发生,因此更关心预测得到当前的重视指数。当用户健康数据a为热数据时,即该数据近期查询或修改次数较多,其用户健康数据的热度指数/>较大,使用修正值序列查询预测得到的查询次数预测值较大,同时用户健康数据a在第t天的热度指数的类别值acl,t较小,即该数据为用户关心的类别,从而导致检索权重/>较大,使得构建的B+树更加便于用户进行查询。当用户健康数据a为冷数据时,即该数据近期查询或修改次数较少,其用户健康数据的热度指数/>较小,使用修正值序列查询预测得到的查询次数预测值较小,同时用户健康数据a在第t天的热度指数的类别值acl,t较小,即该数据为用户一般或忽视的类别,从而导致检索权重/>较小,从而在构建B+树时更能根据数据本身的特点进行冷热数据的区别针对性构建。
至此,可以根据上述计算方法获取各用户健康数据在每天的检索权重以及热度指数。
步骤S003,根据各用户的用户健康数据在每天的热度指数以及检索权重,重新调整B+树的结构,优化各用户健康数据的存储索引。
本实施例将各用户健康数据在每天的热度指数由大到小重新排列,按照重新排列的顺序将用户健康数据存储在B+树中。其中,B+树中的叶子结点内的用户健康数据的顺序按照各用户健康数据在每天的检索权重从大到小进行排序,检索权重高的数据表示该数据经常被查询和修改,且在未来也有很大的概率会被查询到,将此类数据放置在叶子节点的前端,数据库中B+树的阶数往往在几十到上百之间,因此这种设置顺序可以在计算机中减少磁盘的I/O次数。
当冷数据查询时,由于其检索权重较小,排在叶子结点中的靠后位置,查询几乎要遍历完该叶子结点中的一段双向链表才能查询到该数据。对于冷数据的查询较慢。为解决该问题,在叶子节点处存储该节点所有数据检索权重的中位数。如图4所示,其中Z1表示B+树的叶节点1下的所有用户健康数据的检索权重的中位数。当存在新插入数据时,设置新插入数据的检索权重为0,插入在叶子结点中最后的位置。当进行数据检索时,将用户预留手机号作为用户的检索索引,将检索权重与检索索引进行相互绑定,将其绑定后的结果作为复合索引进行查询。
通过计算每天各个用户的用户健康数据的热度指数以及索引权重,实时更新调整B+树的结构。
至此,本实施例完成。
综上所述,本发明实施例首先针对不同用户在不同年龄阶段对自身健康的关心程度以及用户自身是否存在非健康状态情况,构建各用户的用户健康数据的冷热比例系数,挖掘用户本身对于用户健康数据的关注程度,将数据进行冷热区分,便于在后续构建查询树着重将热数据的检索权重设置更大,便于用户进行查询;通过不同用户在过去长期以来对用户健康数据的查询次数趋势,构建各用户的用户健康数据在每天的热度指数,本发明实施例基于用户过去的查询次数、所有用户对于自身的用户健康数据整体的查询情况,可以将历史数据相对于当前数据、整体数据相对于局部数据的影响关系间接影响当天用户查询自身健康数据的可能性,即可以通过对之前天数的查询次数的逐级迭代获取用户健康数据每天的热度指数,结合数据库整体的冷热情况获取冷数据被查询的概率筛选快慢情况,相对于传统冷热数据划分时仅考虑数据访问的频次,本发明实施例通过引入牛顿冷却定律对冷热数据进行更为精确的判断,使得后续构建B+树的方法更加符合实际每天的热度需求;
本发明实施例通过分析用户健康数据的历史访问规律,抑制了查询的突发性对健康数据的整体影响,避免了由于某天查询次数突然增大从而导致赋予该数据较大热度的情况,从而更准确修正了用户健康数据每天的查询次数;考虑用户对自身的用户健康数据访问的规律性因素,即用户访问完数据后并不会在接下来的连续几天多次进行访问;同时,本发明实施例结合用户健康数据在每天的查询次数预测值、热度指数以及其类别情况,构建检索权重,针对不同用户对自身健康数据的关心类别以及历史、预测情况,重新排列B+树叶子结点中的用户健康数据的顺序,使得构建的B+树更加便于不同种类的用户进行查询,提高查询速度;本发明实施例结合各用户的用户健康数据在每天的热度指数以及检索权重,重新调整B+树的结构,将每个叶节点的检索权重中位数保存在叶子结点中,减少了计算机在磁盘中的读写次数,有效提升了冷热数据的检索速度。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种数字化健康数据库优化存储检索方法,其特征在于,该方法包括以下步骤:
获取各用户的用户健康数据,用户健康数据包含基本数据和健康表现数据,采用B+树对用户健康数据进行存储;
根据用户健康数据的基本数据、健康表现数据与正常参考范围之间的差异程度获取用户健康数据的冷热比例系数;根据用户健康数据的冷热比例系数以及每天的查询次数情况获取用户健康数据每天的热度指数;将各用户健康数据每天的热度指数进行聚类获取各聚类簇,根据聚类簇之间的热度指数差异获取各聚类簇内各用户健康数据每天的热度指数的类别值;
根据用户健康数据在采集天数中每天的查询趋势以及每天的查询次数波动情况获取用户健康数据每天的查询次数修正值;将用户健康数据在采集天数下每天的查询次数修正值按照时间顺序组成用户健康数据的修正值序列;根据用户健康数据的修正值序列、每天的热度指数以及对应类别值获取用户健康数据每天的检索权重;
根据各用户的用户健康数据在每天的检索权重以及热度指数,重新调整每天的B+树结构;
所述根据用户健康数据的基本数据、健康表现数据与正常参考范围之间的差异程度获取用户健康数据的冷热比例系数,包括:
对于用户健康数据中各健康表现数据,获取各健康表现数据与正常参考范围之间的最小距离;计算用户健康数据中所有健康表现数据的所述最小距离的和值;
计算用户健康数据中的年龄与所有用户的平均年龄的差值绝对值;将所述和值与所述差值绝对值之和作为用户健康数据的冷热比例系数;
所述根据各用户的用户健康数据在每天的检索权重以及热度指数,重新调整每天的B+树结构,包括:
对于每天的数据存储B+树的结构,将各用户的用户健康数据按照每天的热度指数从大到小进行排序,按照排序结果存储在B+树中;
将B+树中每个叶节点内的各用户的用户健康数据在每天的检索权重从大到小进行排序,将每个叶节点内的所有检索权重的中位数标记在对应叶节点中。
2.如权利要求1所述的一种数字化健康数据库优化存储检索方法,其特征在于,所述用户健康数据包含基本数据和健康表现数据,包括:
所述基本数据包括但不限于年龄、身高、体重以及在采集天数内每天的查询次数;所述健康表现数据包括但不限于血糖、血脂、收缩压、舒张压。
3.如权利要求1所述的一种数字化健康数据库优化存储检索方法,其特征在于,所述获取各健康表现数据与正常参考范围之间的最小距离,包括:
当各健康表现数据属于正常参考范围之内时,将各健康表现数据与正常参考范围之间的最小距离设置为0;
当各健康表现数据不属于正常参考范围之内时,将各健康表现数据与其正常参考范围的最小值、最大值之间的差值绝对值中的最小值作为各健康表现数据与正常参考范围之间的最小距离。
4.如权利要求3所述的一种数字化健康数据库优化存储检索方法,其特征在于,所述根据用户健康数据的冷热比例系数以及每天的查询次数情况获取用户健康数据每天的热度指数,包括:
获取每天之前一天所有用户健康数据的查询次数均值;将所述查询次数均值与用户健康数据的冷热比例系数的乘积的倒数的相反数,作为以自然常数为底数的指数函数的指数;
获取用户健康数据每天之前一天的查询次数和热度指数;将所述指数函数的计算结果与之前一天的热度指数的乘积结果加上之前一天的查询次数得到用户健康数据每天的热度指数。
5.如权利要求1所述的一种数字化健康数据库优化存储检索方法,其特征在于,所述根据聚类簇之间的热度指数差异获取各聚类簇内各用户健康数据每天的热度指数的类别值,包括:
将各聚类簇对应聚类中心的热度指数按照从大到小进行排序得到类别序列;
将各聚类中心在类别序列中的位置次序作为各聚类中心所属聚类簇内所有用户健康数据的热度指数的类别值。
6.如权利要求1所述的一种数字化健康数据库优化存储检索方法,其特征在于,所述根据用户健康数据在采集天数中每天的查询趋势以及每天的查询次数波动情况获取用户健康数据每天的查询次数修正值,包括:
计算除去第j天外剩余采集天数的查询次数方差,将所述查询次数方差的相反数作为以自然常数为底数的指数函数的指数;
获取用户健康数据第j天的查询次数趋势值;计算所述指数函数的计算结果与所述查询次数趋势值的乘积;计算数字1减去所述指数函数的计算结果的差值结果与第j天的查询次数的乘积;
将两个乘积的和值作为用户健康数据第j天的查询次数修正值。
7.如权利要求6所述的一种数字化健康数据库优化存储检索方法,其特征在于,所述获取用户健康数据第j天的查询次数趋势值,包括:
获取用户健康数据第j-1天、第j-2天的查询次数;计算第j-1天查询次数的2倍与第j-2天查询次数相反数的和值作为用户健康数据第j天的查询次数趋势值。
8.如权利要求1所述的一种数字化健康数据库优化存储检索方法,其特征在于,所述根据用户健康数据的修正值序列、每天的热度指数以及对应类别值获取用户健康数据每天的检索权重,包括:
对修正值序列采用LSTM神经网络获取每天的查询次数预测值;计算预设调节因子与所述查询次数预测值的乘积;
计算1减去预设调节因子的差值结果与用户健康数据每天的热度指数的乘积;获取用户健康数据每天的热度指数的类别值;将两个乘积的和值除以所述类别值得到用户健康数据每天的检索权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410165799.3A CN117708139B (zh) | 2024-02-05 | 2024-02-05 | 一种数字化健康数据库优化存储检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410165799.3A CN117708139B (zh) | 2024-02-05 | 2024-02-05 | 一种数字化健康数据库优化存储检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708139A CN117708139A (zh) | 2024-03-15 |
CN117708139B true CN117708139B (zh) | 2024-05-03 |
Family
ID=90151984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410165799.3A Active CN117708139B (zh) | 2024-02-05 | 2024-02-05 | 一种数字化健康数据库优化存储检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708139B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597605A (zh) * | 2018-03-19 | 2018-09-28 | 特斯联(北京)科技有限公司 | 一种个人健康生活大数据采集与分析系统 |
CN116226179A (zh) * | 2023-02-03 | 2023-06-06 | 西藏云图测绘有限公司 | 一种数据库优化方法 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106716425A (zh) * | 2014-09-10 | 2017-05-24 | 百思威基因公司 | 健康和保健管理方法及用于其实践的系统 |
-
2024
- 2024-02-05 CN CN202410165799.3A patent/CN117708139B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597605A (zh) * | 2018-03-19 | 2018-09-28 | 特斯联(北京)科技有限公司 | 一种个人健康生活大数据采集与分析系统 |
CN116226179A (zh) * | 2023-02-03 | 2023-06-06 | 西藏云图测绘有限公司 | 一种数据库优化方法 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117708139A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170039232A1 (en) | Unified data management for database systems | |
CN106227880A (zh) | 医生搜索推荐的实现方法 | |
US11474978B2 (en) | Systems and methods for a data search engine based on data profiles | |
CN108766561A (zh) | 病症信息处理方法、装置、计算机设备和存储介质 | |
US20130166486A1 (en) | Making estimations or predictions about databases based on data trends | |
Yang et al. | Continuous KNN join processing for real-time recommendation | |
CN111667927A (zh) | 一种ZigBee网络智能医疗系统及其采集节点组网方法 | |
CN113161001B (zh) | 一种基于改进lda的过程路径挖掘方法 | |
WO2022252402A1 (zh) | 一种融合患者画像信息的药物新适应症发现方法及系统 | |
Pan et al. | Google trends analysis of covid-19 pandemic | |
CN111540460A (zh) | 一种具有知识库的智能医疗系统及其诊断方法 | |
CN117708139B (zh) | 一种数字化健康数据库优化存储检索方法 | |
CN113160879A (zh) | 一种基于网络学习的通过副作用预测药物重定位方法 | |
Li et al. | A one-dimensional Siamese few-shot learning approach for ECG classification under limited data | |
Gowsalya et al. | Predicting the risk of readmission of diabetic patients using MapReduce | |
US20200364566A1 (en) | Systems and methods for predicting pain level | |
CN112182026A (zh) | 一种考虑流形排序算法的电网截面数据检索方法 | |
Chen et al. | Hypothesis generation and data quality assessment through association mining | |
Zhong et al. | Clustering demographics and sequences of diagnosis codes | |
CN114444399A (zh) | 一种基于XGBoost的温室滴灌番茄腾发量计算方法 | |
Samydurai et al. | An Enhanced Entity Model for Converting Relational to Non-Relational Documents in Hospital Management System Based on Cloud Computing | |
Cañibano et al. | Data Management Optimization in a Real-Time Big Data Analysis System for Intensive Care | |
Lee et al. | Design and implementation of a system for environmental monitoring sensor network | |
Goble et al. | A medical terminology server | |
Molina et al. | Measuring the quality of data in electronic health records aggregators |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |