CN118016225A - 一种肾移植术后电子健康记录数据智能管理方法 - Google Patents
一种肾移植术后电子健康记录数据智能管理方法 Download PDFInfo
- Publication number
- CN118016225A CN118016225A CN202410417221.2A CN202410417221A CN118016225A CN 118016225 A CN118016225 A CN 118016225A CN 202410417221 A CN202410417221 A CN 202410417221A CN 118016225 A CN118016225 A CN 118016225A
- Authority
- CN
- China
- Prior art keywords
- data
- determining
- categories
- sequence
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 152
- 210000003734 kidney Anatomy 0.000 title claims abstract description 20
- 238000002054 transplantation Methods 0.000 title claims abstract description 16
- 238000007726 management method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 33
- 239000000470 constituent Substances 0.000 claims description 19
- 235000012571 Ficus glomerata Nutrition 0.000 claims description 6
- 244000153665 Ficus glomerata Species 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 22
- 238000013144 data compression Methods 0.000 abstract description 10
- 238000007906 compression Methods 0.000 description 15
- 230000006835 compression Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000036772 blood pressure Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据压缩技术领域,具体涉及一种肾移植术后电子健康记录数据智能管理方法,获取患者每种类型的健康数据序列,根据所述健康数据序列中各个健康数据之间的差异以及各个健康数据对应时间点,确定各个局部数据段及其对应的初始字典;根据初始字典,对对应的局部数据段进行编码,得到各个局部数据段的编码结果,对各个局部数据段的编码结果进行压缩。本发明通过对局部数据段进行编码,有效增强了数据段内数据的规律性,提高了数据压缩效果。
Description
技术领域
本发明涉及数据压缩技术领域,具体涉及一种肾移植术后电子健康记录数据智能管理方法。
背景技术
在肾移植术后,需要对患者的血压、心率等健康数据进行记录,并对记录的健康数据进行压缩存储。LZW方法(Lempel-Ziv-Welch,串表压缩算法)作为一种常见的数据压缩方法,可以用于健康数据的压缩。由于LZW方法对于分布规律性较强的数据,可以取得较好的压缩效果,因此为了提高数据的压缩效果,可以先对数据进行MTF编码(move-to-front,前移编码),以通过编码获得分布规律性较强的编码数据。
现有在对数据进行MTF编码时,由于整体数据的相似程度较小、人为确定的初始字典与数据不匹配等各种因素的影响,会导致编码数据的分布规律性不够明显,从而最终导致数据压缩效果不好。
发明内容
本发明的目的在于提供一种肾移植术后电子健康记录数据智能管理方法,用于解决现有直接对数据进行编码后的编码数据的分布规律性不够明显,从而最终导致数据压缩效果不好的问题。
为解决上述技术问题,本发明提供了一种肾移植术后电子健康记录数据智能管理方法,包括以下步骤:
获取患者每种类型的健康数据序列,根据所述健康数据序列中各个健康数据之间的差异以及各个健康数据对应时间点之间的差异,对所述健康数据序列中的所有健康数据进行层次聚类,得到层次聚类树;
根据层次聚类树中每个层的各个类别中的健康数据及其对应的时间点分布,确定所述层次聚类树中每个层的优先性指标,并根据所述优先性指标,确定层次聚类树中的优选层;
根据优选层中任意两个类别中数据点的分布一致性情况以及任意两个类别中数据点对应的时间点的先后情况,确定优选层中任意两个类别对应的构成类别组指标值,并根据所述构成类别组指标值,确定各个类别组;
根据各个所述类别组中每个类别在所述健康数据序列上的分布情况,确定所述健康数据序列中由所述类别组构成的局部数据段,并根据构成所述局部数据段的所述类别组中每种类别的每种数据点的频次,确定所述局部数据段对应的初始字典;
根据所述初始字典,对对应的所述局部数据段进行编码,得到各个所述局部数据段的编码结果,对各个所述局部数据段的编码结果进行压缩。
进一步的,对所述健康数据序列中的所有健康数据进行层次聚类,得到层次聚类树,包括:
根据所述健康数据序列中任意两个健康数据之间的差异以及任意两个健康数据对应时间点之间的时间差,确定所述健康数据序列中任意两个健康数据之间的相似性指标;
根据所述相似性指标,对所述健康数据序列中的所有健康数据进行自下向上的层次聚类,得到层次聚类树。
进一步的,确定所述健康数据序列中任意两个健康数据之间的相似性指标,包括:
确定所述健康数据序列中任意两个健康数据的比值,所述比值的分子对应的健康数据小于或者等于分母对应的健康数据,得到所述健康数据序列中任意两个健康数据的相似度;
根据所述健康数据序列中任意两个健康数据对应的时间差和相似度,确定所述健康数据序列中任意两个健康数据之间的相似性指标,所述时间差与所述相似性指标成负相关关系,所述相似度与所述相似性指标成正相关关系。
进一步的,确定所述层次聚类树中每个层的优先性指标,包括:
对于所述层次聚类树中的任意一层,根据该层中所有类别的所有数据点的时间点的分布离散情况以及每个类别的所有数据点的时间点的分布离散情况,确定该层对应的时间类间方差,并根据该层中所有类别的所有数据点的分布离散情况以及每个类别的所有数据点的分布离散情况,确定该层对应的数值类间方差;
根据所述层次聚类树中每个层对应的时间类间方差和数值类间方差,确定所述层次聚类树中每个层的优先性指标,所述时间类间方差与所述优先性指标成正相关关系,所述数值类间方差与所述优先性指标成负相关关系。
进一步的,确定优选层中任意两个类别对应的构成类别组指标值,包括:
根据优选层中任意两个类别中数据点对应的时间点的先后情况,确定优选层中任意两个类别对应的时间间隔;
根据优选层中每种类别的各种数据点的频次,得到优选层中每种类别对应的频次序列;
根据优选层中任意两个类别对应的频次序列中元素值分布之间的差异情况,确定优选层中任意两个类别对应的第一频次一致指标,并根据优选层中任意两个类别对应的频次序列中元素值之间的匹配情况,确定优选层中任意两个类别对应的第二频次一致指标;
根据优选层中任意两个类别对应的时间间隔、第一频次一致指标和第二频次一致指标,确定优选层中任意两个类别对应的构成类别组指标值,所述时间间隔与所述构成类别组指标值成负相关关系,所述第一频次一致指标和第二频次一致指标均与所述构成类别组指标值成正相关关系。
进一步的,确定优选层中任意两个类别对应的第一频次一致指标,包括:
确定优选层中任意一个类别对应的频次序列中所有元素值的均值,将频次序列中小于均值的元素值从频次序列中剔除,得到更新后的频次序列,并确定更新后的频次序列中的元素数量;
确定优选层中任意两个类别对应的元素数量中的最大值和最小值,将最小值与最大值的比值确定为优选层中任意两个类别对应的第一频次一致指标。
进一步的,确定优选层中任意两个类别对应的第二频次一致指标,包括:
确定优选层中任意两个类别中的第一类别和第二类别,第一类别对应的更新后的频次序列中的元素数量小于或者等于第二类别对应的更新后的频次序列中的元素数量,在第二类别对应的更新后的频次序列中每次随机抽选元素,以使每次抽选出来的元素的数量与第一类别对应的更新后的频次序列中的元素数量相等,将每次抽选出来的元素与第一类别对应的更新后的频次序列中的元素进行匹配,得到每次抽选对应的匹配值;
确定优选层中任意两个类别对应的所有匹配值中的最大匹配值,将所述最大匹配值确定为优选层中任意两个类别对应的第二频次一致指标。
进一步的,确定所述健康数据序列中由所述类别组构成的局部数据段,包括:
确定各个类别组对应的所有类别在所述健康数据序列中构成的连续序列段,将每个所述连续序列段确定为一个局部数据段,从而得到所述健康数据序列中由所述类别组构成的局部数据段。
进一步的,确定所述局部数据段对应的初始字典,包括:
对于构成每个所述局部数据段的各个所述类别组,获取每个所述类别组的两个类别对应最大匹配值时的一对一匹配频次值;
将各个类别组对应最大匹配值时的一对一匹配频次值在对应的类别中的数据点作为初始字典中的相邻元素,得到各个相邻元素组,确定每个相邻元素组中的各个元素所对应的频率均值,将各个相邻元素组按照频次均值从大到小的顺序进行排列,从而得到初始字典,将该初始字典作为对应局部数据段的初始字典。
进一步的,根据所述初始字典,对对应的所述局部数据段进行MTF编码。
本发明具有如下有益效果:通过利用健康数据序列中各个健康数据及其对应时间点之间的差异,构建层次聚类树,并根据层次聚类树中每个层的各个类别中的健康数据及其对应的时间点分布,确定每个类别的时间关联性较强的同时,类内数据点的相似度也较大的优选层,利用优选层的各个类别构造局部数据段并进行压缩,可以有效提高压缩效果。在构造局部数据段的过程中,对优选层中任意两个类别中数据点的分布一致性情况以及数据点对应的时间点的先后情况进行分析,将数据点分布一致性且数据点的时间衔接性较强的两个类别构成类别组,并进而构成局部数据段,局部数据段中的数据点分布具有较高的相似程度。根据局部数据段对应类别组中每种类别的数据点的频次,在初始字典中将频次相同或者接近的数据点放在一起,从而得到局部数据段对应的初始字典。对每个局部数据段利用其对应的初始字典进行编码,可以有效提高编码结果的规律性,从而提高数据压缩效果。本发明通过利用层次聚类树对健康数据序列进行分段,得到优选层的各个类别,进而构造局部数据段,并确定自适应确定局部数据段对应的初始字典,使得数据编码结果的规律性更强,最终提高了数据压缩效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例的肾移植术后电子健康记录数据智能管理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。另外,本文所涉及公式中的所有参数或者指标均为归一化之后的消除了量纲影响的数值。
为了解决现有对患者的健康记录数据进行压缩效果不佳的问题,本实施例提供了一种肾移植术后电子健康记录数据智能管理方法,该方法对应的流程如图1所示,包括以下步骤:
步骤S1:获取患者每种类型的健康数据序列,根据所述健康数据序列中各个健康数据之间的差异以及各个健康数据对应时间点之间的差异,对所述健康数据序列中的所有健康数据进行层次聚类,得到层次聚类树。
由于患者在肾移植后,需要对其健康情况进行监测,因此按照设定频率对肾移植后患者的血压、心率等健康数据进行采集,将每种健康数据按照采集时间顺序进行排列,从而得到每种健康数据对应的健康数据序列。在每种健康数据对应的健康数据序列中,每个健康数据均对应一个采集时刻,将该采集时刻作为对应健康数据的时间点。在对不同类型的健康数据对应的健康数据序列进行管理的过程中,需要对健康数据序列进行压缩存储。
MTF编码(move-to-front,前移编码)是一种给出初始字典,可以使得原始序列中数据最大程度的按照初始字典中的元素顺序进行排列的方法,但直接对整体数据序列进行排列,往往由于整体数据相似性较小,导致排列后数据规律性不强。因此,本发明实施例中结合数据序列中局部数据的相似性,对数据序列进行分段,得到局部数据段,每个局部数据段内的数据通过MTF编码后的规律性变强,进而增强压缩效果。
考虑到层次聚类可以得到多个层次的聚类情况,进而可以从中选择一个最佳聚类结果,因此本发明实施例中通过层次聚类得到数据相近性,进而完成对有时间顺序的健康数据序列的分段。由于常规的层次聚类方法在自下向上进行聚类的过程中,是通过数据值的相近性将数据划分到一个类别中,本发明实施例中为了满足时间顺序的需求,需要对常规的层次聚类进行改进,改进思路为:在层次聚类过程中,需要考虑时间上的相近性,将数据值相似度较高甚至较低,但是时间上相近性较大的数据先划分到一个类别中。
为此,根据健康数据序列中各个健康数据之间的差异以及各个健康数据对应时间点之间的差异,确定健康数据序列中任意两个健康数据之间的相似性指标,对应的计算公式为:
;
其中,表示健康数据序列中任意两个健康数据之间的相似性指标;/>表示健康数据序列中任意两个健康数据对应时间点的时间差,/>表示时间差映射值;/>表示健康数据序列中任意两个健康数据的相似度,即任意两个健康数据中的小值与大值的比值;e表示自然常数。
在上述的相似性指标的计算公式中,健康数据序列中任意两个健康数据之间的时间差越小,赋予越大相似性指标,从而使得时间差较小的健康数据尽可能被划分到同一个类别即同一个子序列段中。同时,通过计算健康数据序列中任意两个健康数据中小值与大值的比值,从而得到任意两个健康数据的相似度,相似度越接近于1,说明对应两个健康数据越接近,则赋予越大相似性指标,以便于将相似度较大的健康数据尽可能被划分到同一个类别中。
基于健康数据序列中任意两个健康数据之间的相似性指标,通过自下向上的层次聚类方法对健康数据序列中的所有健康数据进行层次聚类,从而得到层次聚类树。在层次聚类树中的每一层,均对应多个类别,每个类别对应健康数据序列的一段子序列,类别中的各个健康数据也称为数据点。
步骤S2:根据层次聚类树中每个层的各个类别中的健康数据及其对应的时间点分布,确定所述层次聚类树中每个层的优先性指标,并根据所述优先性指标,确定层次聚类树中的优选层。
后续希望通过聚类的方法可以更好的获取某些局部数据段,即如果某些类别中健康数据即数据点的时间关联性较强,且相似性也较大,则这些类别对应作为一个局部数据段进行压缩,压缩效果较好。
为此,以层次聚类树的任意一层A层为例,计算得到A层中所有类别的所有数据点对应时间点的方差值,记为时间总方差,计算得到A层中每个类别中所有数据点的时间点的方差值,记为类内时间方差,计算所有类内时间方差的和,记为类内时间方差和,将时间总方差与类内时间方差和的差值记为时间类间方差,从而得到A层对应的时间类间方差。
同时,计算A层中所有类别的所有数据点的方差值,记为数值总方差,计算得到A层中每个类别中所有数据点的方差值,记为类内数值方差,计算所有类内数值方差的和,记为类内数值方差和,将数值总方差与类内数值方差和的差值记为数值类间方差,从而得到A层对应的数值类间方差。
按照上述方式,可以确定层次聚类树的每个层对应的时间类间方差和数值类间方差,时间类间方差越大,说明该层中每个类别的时间关联性越强,数值类间方差越小,说明该层中每个类别的数据点的相似性也大。
在通过自下向上的方法对健康数据序列中的所有健康数据进行层次聚类得到层次聚类树的过程中,由于类别数量逐渐减少,因此向上聚类过程中,每个越迟出现的类别内数据点的相似度越小,即向上聚类过程中,每层中每个类别内数据点的相似度逐渐减小。当某个层的每个类别的时间关联性较强的同时,类内数据点的相似度也较大,才能便于后续的数据压缩。
因此,根据层次聚类树的每个层对应的时间类间方差和数值类间方差,确定层次聚类树的每个层对应的优先性指标,对应的计算公式为:
;
其中,表示层次聚类树的每个层对应的优先性指标;/>表示层次聚类树的每个层对应的数值类间方差;/>表示层次聚类树的每个层对应的时间类间方差;e表示自然常数。
在上述的优先性指标对应的计算公式中,当层次聚类树的某个层的各个类别的时间关联性较强,同时类内数据点的相似度也较大时,则说明该层的优先性越好,选择该层的各个类别参与后续的局部数据段的计算时,数据压缩效果较好。
在通过上述方式确定层次聚类树的各个层对应的优先性指标之后,确定最大的优先性指标所对应的层,并将该层作为层次聚类树中的优选层。通过利用优选层的各个类别构造局部数据段并进行压缩,可以有效提高压缩效果。
步骤S3:根据优选层中任意两个类别中数据点的分布一致性情况以及任意两个类别中数据点对应的时间点的先后情况,确定优选层中任意两个类别对应的构成类别组指标值,并根据所述构成类别组指标值,确定各个类别组。
由于本发明实施例中后续需要通过MTF编码对每个局部数据段进行排列,需要得到初始字典,初始字典可以使得每个局部数据段中的数据通过MTF编码后的结果具有较好的重复性,从而可以得到越好的压缩效果。要达到这个目的,需要使得初始字典中的相邻元素的重复性一致。
为此,对于层次聚类树中的优选层,确定该层中每个类别的每种数据点的频次,将频次按照从小到大的顺序排列,得到频次序列,然后通过频次序列分析该层中任意两个类别的时间衔接性和元素分布一致性得到各个类别组。应当理解的是,由于获取频次序列的目的是获取每个类别的各个数据点的频次所构成的频次集合,因此也可以将频次按照随意设定的顺序进行排列,从而得到频次序列。其中,时间衔接性是指两个类别的初始和结束时间的连接性,当两个类别中时间靠后的类别的初始时间与时间靠前的类别的结束时间之间的间隔时间越小时,则说明连接性越好,对应的时间衔接性就越好。元素分布一致性是指两个类别中频次序列的一致性,例如:类别a的频次序列为[11 20],类别b的频次序列也为[1120],则说明类别a和类别b的元素分布一致性较强,如果类别a和类别b的时间衔接性也较强,则可以将类别a和类别b组合为一个局部数据段,在MTF初始字典中只需将11对应的两个字母放到一起,将20对应的两个字母放到一起,即可通过MTF编码得到重复性较高的编码结果,达到提高压缩效果目的。
为此,对于层次聚类树中的优选层中的任意两个类别a和类别b,由于类别a和类别b均对应健康数据序列的一段子序列,因此可以确定类别a和类别b中时间靠前的类别,并记作类比c,并将时间靠后的类别记作类别d,计算类别d中数据点对应的最早的时间与类别c中数据点对应的最迟的时间点的时间差值,该时间差值也称为时间间隔,将该时间间隔的负相关映射结果记作两个类别a和类别b的时间衔接性指标。
同时,确定类别a对应的频次序列中所有元素值的均值,将小于均值的元素值从频次序列中剔除,从而得到类别a对应的更新后的频次序列,按照同样的方式确定类别b对应的更新后的频次序列。将类别a对应的更新后的频次序列中元素数量用v1表示,类别b对应的更新后的频次序列中元素数量用v2表示,将v1和v2中的较小值记为m1,将v1和v2中的较大值记为m2,此时m1对应的类别也称为第一类别,m2对应的类别也称为第二类别,将类别a和类别b的更新后的频次序列中元素数量的比值记作类别a和类别b的第一频次一致指标。第一频次一致指标越接近1,说明类别a和类别b的元素分布越相近,越大概率成为类别组,对后续的压缩效果越好。
将元素数量m1对应类别a的更新后的频次序列中的元素值作为KM匹配的左侧节点,由于类别b的更新后的频次序列中的元素数量为m2,为了保证数量一致,进而可以通过KM算法(Kuhn–Munkres,匈牙利算法)得到元素频次的分布一致性,从类别b的更新后的频次序列中的m2个元素值中随机抽取m1个元素值作为KM匹配的第一轮右侧节点,将左侧节点与右侧节点之间的差值绝对值作为对应两个节点之间的连线的边值,利用KM算法计算左侧节点与右侧节点的一对一匹配,得到各个一对一匹配频次值以及第一轮的匹配值。按照同样的方式通过次的匹配,即可得到每一轮的各个一对一匹配频次值以及匹配值,确定所有匹配值中的最大匹配值,将该最大匹配值记为k,并将该最大匹配值k记作类别a和类别b的第二频次一致指标。第二频次一致指标越大,说明类别a和类别b组合成的局部数据段的压缩效果越好。
按照上述方式,可以确定层次聚类树的优选层中的任意两个类别之间的时间衔接性指标、第一频次一致指标和第二频次一致指标,进而基于该时间衔接性指标、第一频次一致指标和第二频次一致指标,对任意两个类别构成类别组的可能性进行分析,得到任意两个类别对应的构成类别组指标值。
在本发明实施例中,确定层次聚类树的优选层中任意两个类别对应的构成类别组指标值,对应的计算公式为:
;
其中,表示层次聚类树的优选层中任意两个类别对应的构成类别组指标值;表示层次聚类树的优选层中任意两个类别对应的时间衔接性指标;/>表示层次聚类树的优选层中任意两个类别对应的时间间隔;/>表示层次聚类树的优选层中任意两个类别对应的第一频次一致指标;/>表示层次聚类树的优选层中任意两个类别对应的第二频次一致指标;/>表示自然常数。
在上述的构成类别组指标值的计算公式中,当两个类别对应的时间间隔越小时,时间衔接性指标越大,表示两个类别对应子序列的时间衔接性越强,两个类别越可能作为一个类别组以构成同一个局部数据段,对应的构成类别组指标值的取值就越大。同时,两个类别对应的第一频次一致指标和第二频次一致指标越大,说明两个类别对应子序列的元素分布一致性就越强,两个类别越可能组合形成一个局部数据段,对应的构成类别组指标值的取值也越大。
在通过上述方式确定层次聚类树的优选层中任意两个类别对应的构成类别组指标值之后,将大于设定构成类别组指标阈值的构成类别组指标值所对应的两个类别作为一个类别组,从而可以确定多个类别组。设定构成类别组指标阈值可以根据需要进行合理设定,本发明实施例设置该设定构成类别组指标阈值的取值为0.7。由于在确定任意两个类别对应的构成类别组指标值的过程中,当对应两个类别对应的时间差值越小时,对应的构成类别组指标值就越大,因此最终所确定的属于同一个类别组的两个类别为健康数据序列中的在时间上连续的两段子序列。
步骤S4:根据各个所述类别组中每个类别在所述健康数据序列上的分布情况,确定所述健康数据序列中由所述类别组构成的局部数据段,并根据构成所述局部数据段的所述类别组中每种类别的每种数据点的频次,确定所述局部数据段对应的初始字典。
对于通过上述步骤所得到的各个类别组,将各个类别组对应的两个类别所对应的在时间上连续的两段子序列放在同一个局部数据段中,从而得到各个局部数据段。也就是,由于属于同一个类别组的两个类别为健康数据序列中的在时间上连续的两段子序列, 若多个类别组对应的所有子序列在健康数据序列中能够构成连续序列段,一个连续序列段至少由一个类别组的两个类别所对应的子序列构成,则将每个连续序列段作为一个局部数据段。例如,健康数据序列由类别a、b、c、d、e、f、g对应的子序列构成,最终确定三个类别组,第一个类别组对应的两个类别分别为a和b,第二个类别组对应的两个类别分别为b和c,第三个类别组对应的两个类别分别为e和f,则将类别a、b和c对应的子序列所构成的连续序列段作为一个局部数据段,将类别e和f对应的子序列所构成的连续序列段作为一个局部数据段。
同时,对于每个局部数据段,在MTF编码的初始字典中,通过将构成该局部数据段的各个类别的相同频次的数据点在放到一起,可以大大增强后续的MTF编码结果的有效性,有助于增强编码结果的重复性,提高压缩效果。因此,对于构成每个局部数据段的各个类别组,在按照上述步骤S3中确定每个类别组的两个类别对应的第二频次一致指标的过程中,可以确定每个类别组的两个类别对应最大匹配值时的一对一匹配频次值,将各个类别组对应的一对一匹配频次值在对应的类别中的数据点即健康数据作为MTF编码的初始字典中的相邻元素,得到各个相邻元素组,确定每个相邻元素组中的各个元素所对应的频率均值,将各个相邻元素组按照频次均值从大到小的顺序进行排列,从而得到初始字典,将该初始字典作为局部数据段的初始字典。
具体的,对于构成每个局部数据段的各个类别组,根据各个类别组的两个类别对应最大匹配值时的一对一匹配频次值的匹配情况,可以确定一对一匹配频次链。为了便于理解,某个局部数据段由类别组1和类别组2构成,类别组1包括类别a和类别b,类别组2包括类别b和c,类别a的更新后的频次序列为(x1 x2 x3),类别b的更新后的频次序列为(y1 y2y3),类别c的更新后的频次序列为(z1 z2 z3),类别a和类别b对应最大匹配值时的对一匹配频次值分别为:x1-y1、x2-y2、x3-y3,类别b和类别c对应最大匹配值时的对一匹配频次值分别为:y1-z1、y2-z2、y3-z3,那么可以得到的一对一匹配频次链为:x1-y1-z1,x2-y2-z2,x3-y3-z3。
在得到构成每个局部数据段的各个类别组的各个一对一匹配频次链之后,计算属于同一个一对一匹配频次链的各个频次值的平均值,得到每个一对一匹配频次链的频次均值,将每个一对一匹配频次链上的各个频次值在对应的类别中的数据点即健康数据作为MTF编码的初始字典中的相邻元素,每个一对一匹配频次链对应的这些相邻元素即构成了一个相邻元素组,并将各个一对一匹配频次链对应的这些相邻元素组,按照各个一对一匹配频次链的频次均值从大到小的顺序进行排列,从而得到初始字典。
步骤S5:根据所述初始字典,对对应的所述局部数据段进行编码,得到各个所述局部数据段的编码结果,对各个所述局部数据段的编码结果进行压缩。
在得到每个局部数据段的初始字典之后,利用该初始字典,对每个局部数据段进行MTF编码,获得每个局部数据段的编码结果。由于初始字典可以使得每个局部数据段中的数据通过MTF编码后的结果具有较好的重复性,因此可以得到较好的压缩效果。
另外,将健康数据序列上不属于各个局部数据段的每个类别所对应的子序列作为一个非局部数据段,从而得到各个非局部数据段。对每个局部数据段的编码结果以及各个非局部数据段,通过LZW方法(Lempel-Ziv-Welch,串表压缩算法)进行压缩,最终得到压缩数据。
需要说明的是:以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种肾移植术后电子健康记录数据智能管理方法,其特征在于,包括以下步骤:
获取患者每种类型的健康数据序列,根据所述健康数据序列中各个健康数据之间的差异以及各个健康数据对应时间点之间的差异,对所述健康数据序列中的所有健康数据进行层次聚类,得到层次聚类树;
根据层次聚类树中每个层的各个类别中的健康数据及其对应的时间点分布,确定所述层次聚类树中每个层的优先性指标,并根据所述优先性指标,确定层次聚类树中的优选层;
根据优选层中任意两个类别中数据点的分布一致性情况以及任意两个类别中数据点对应的时间点的先后情况,确定优选层中任意两个类别对应的构成类别组指标值,并根据所述构成类别组指标值,确定各个类别组;
根据各个所述类别组中每个类别在所述健康数据序列上的分布情况,确定所述健康数据序列中由所述类别组构成的局部数据段,并根据构成所述局部数据段的所述类别组中每种类别的每种数据点的频次,确定所述局部数据段对应的初始字典;
根据所述初始字典,对对应的所述局部数据段进行编码,得到各个所述局部数据段的编码结果,对各个所述局部数据段的编码结果进行压缩。
2.根据权利要求1所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,对所述健康数据序列中的所有健康数据进行层次聚类,得到层次聚类树,包括:
根据所述健康数据序列中任意两个健康数据之间的差异以及任意两个健康数据对应时间点之间的时间差,确定所述健康数据序列中任意两个健康数据之间的相似性指标;
根据所述相似性指标,对所述健康数据序列中的所有健康数据进行自下向上的层次聚类,得到层次聚类树。
3.根据权利要求2所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,确定所述健康数据序列中任意两个健康数据之间的相似性指标,包括:
确定所述健康数据序列中任意两个健康数据的比值,所述比值的分子对应的健康数据小于或者等于分母对应的健康数据,得到所述健康数据序列中任意两个健康数据的相似度;
根据所述健康数据序列中任意两个健康数据对应的时间差和相似度,确定所述健康数据序列中任意两个健康数据之间的相似性指标,所述时间差与所述相似性指标成负相关关系,所述相似度与所述相似性指标成正相关关系。
4.根据权利要求1所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,确定所述层次聚类树中每个层的优先性指标,包括:
对于所述层次聚类树中的任意一层,根据该层中所有类别的所有数据点的时间点的分布离散情况以及每个类别的所有数据点的时间点的分布离散情况,确定该层对应的时间类间方差,并根据该层中所有类别的所有数据点的分布离散情况以及每个类别的所有数据点的分布离散情况,确定该层对应的数值类间方差;
根据所述层次聚类树中每个层对应的时间类间方差和数值类间方差,确定所述层次聚类树中每个层的优先性指标,所述时间类间方差与所述优先性指标成正相关关系,所述数值类间方差与所述优先性指标成负相关关系。
5.根据权利要求1所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,确定优选层中任意两个类别对应的构成类别组指标值,包括:
根据优选层中任意两个类别中数据点对应的时间点的先后情况,确定优选层中任意两个类别对应的时间间隔;
根据优选层中每种类别的各种数据点的频次,得到优选层中每种类别对应的频次序列;
根据优选层中任意两个类别对应的频次序列中元素值分布之间的差异情况,确定优选层中任意两个类别对应的第一频次一致指标,并根据优选层中任意两个类别对应的频次序列中元素值之间的匹配情况,确定优选层中任意两个类别对应的第二频次一致指标;
根据优选层中任意两个类别对应的时间间隔、第一频次一致指标和第二频次一致指标,确定优选层中任意两个类别对应的构成类别组指标值,所述时间间隔与所述构成类别组指标值成负相关关系,所述第一频次一致指标和第二频次一致指标均与所述构成类别组指标值成正相关关系。
6.根据权利要求5所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,确定优选层中任意两个类别对应的第一频次一致指标,包括:
确定优选层中任意一个类别对应的频次序列中所有元素值的均值,将频次序列中小于均值的元素值从频次序列中剔除,得到更新后的频次序列,并确定更新后的频次序列中的元素数量;
确定优选层中任意两个类别对应的元素数量中的最大值和最小值,将最小值与最大值的比值确定为优选层中任意两个类别对应的第一频次一致指标。
7.根据权利要求6所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,确定优选层中任意两个类别对应的第二频次一致指标,包括:
确定优选层中任意两个类别中的第一类别和第二类别,第一类别对应的更新后的频次序列中的元素数量小于或者等于第二类别对应的更新后的频次序列中的元素数量,在第二类别对应的更新后的频次序列中每次随机抽选元素,以使每次抽选出来的元素的数量与第一类别对应的更新后的频次序列中的元素数量相等,将每次抽选出来的元素与第一类别对应的更新后的频次序列中的元素进行匹配,得到每次抽选对应的匹配值;
确定优选层中任意两个类别对应的所有匹配值中的最大匹配值,将所述最大匹配值确定为优选层中任意两个类别对应的第二频次一致指标。
8.根据权利要求1所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,确定所述健康数据序列中由所述类别组构成的局部数据段,包括:
确定各个类别组对应的所有类别在所述健康数据序列中构成的连续序列段,将每个所述连续序列段确定为一个局部数据段,从而得到所述健康数据序列中由所述类别组构成的局部数据段。
9.根据权利要求7所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,确定所述局部数据段对应的初始字典,包括:
对于构成每个所述局部数据段的各个所述类别组,获取每个所述类别组的两个类别对应最大匹配值时的一对一匹配频次值;
将各个类别组对应最大匹配值时的一对一匹配频次值在对应的类别中的数据点作为初始字典中的相邻元素,得到各个相邻元素组,确定每个相邻元素组中的各个元素所对应的频率均值,将各个相邻元素组按照频次均值从大到小的顺序进行排列,从而得到初始字典,将该初始字典作为对应局部数据段的初始字典。
10.根据权利要求1所述的一种肾移植术后电子健康记录数据智能管理方法,其特征在于,根据所述初始字典,对对应的所述局部数据段进行MTF编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410417221.2A CN118016225B (zh) | 2024-04-09 | 一种肾移植术后电子健康记录数据智能管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410417221.2A CN118016225B (zh) | 2024-04-09 | 一种肾移植术后电子健康记录数据智能管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118016225A true CN118016225A (zh) | 2024-05-10 |
CN118016225B CN118016225B (zh) | 2024-06-25 |
Family
ID=
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800120A (zh) * | 2012-06-15 | 2012-11-28 | 北京理工大学 | 一种基于多智能体的应急灾情态势显示系统和方法 |
KR20140090483A (ko) * | 2013-01-09 | 2014-07-17 | 경희대학교 산학협력단 | 건강정보의 군집화 방법 |
CN110704408A (zh) * | 2019-09-10 | 2020-01-17 | 南京天数智芯科技有限公司 | 一种基于聚类的时序数据压缩方法及系统 |
WO2022126944A1 (zh) * | 2020-12-17 | 2022-06-23 | 上海朝阳永续信息技术股份有限公司 | 用于文本聚类的方法、电子设备和存储介质 |
CN114694841A (zh) * | 2022-03-30 | 2022-07-01 | 电子科技大学 | 一种基于患者电子健康记录的不良事件风险预测方法 |
CN116663069A (zh) * | 2023-08-01 | 2023-08-29 | 国家基础地理信息中心 | 基于数据编码的数据库安全加密方法及系统 |
CN116865765A (zh) * | 2023-06-21 | 2023-10-10 | 支付宝(杭州)信息技术有限公司 | 用于无损压缩编码的字典构建方法及装置 |
CN116886103A (zh) * | 2023-06-20 | 2023-10-13 | 浙江华电器材检测研究院有限公司 | 一种基于K-means聚类的数据压缩方法 |
CN117176175A (zh) * | 2023-11-01 | 2023-12-05 | 深圳对对科技有限公司 | 一种用于计算机的数据传输方法 |
CN117316301A (zh) * | 2023-11-22 | 2023-12-29 | 北华大学 | 一种基因检测数据智能压缩处理方法 |
US20240078330A1 (en) * | 2021-01-25 | 2024-03-07 | Red Bend Ltd. | A method and system for lossy compression of log files of data |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800120A (zh) * | 2012-06-15 | 2012-11-28 | 北京理工大学 | 一种基于多智能体的应急灾情态势显示系统和方法 |
KR20140090483A (ko) * | 2013-01-09 | 2014-07-17 | 경희대학교 산학협력단 | 건강정보의 군집화 방법 |
CN110704408A (zh) * | 2019-09-10 | 2020-01-17 | 南京天数智芯科技有限公司 | 一种基于聚类的时序数据压缩方法及系统 |
WO2022126944A1 (zh) * | 2020-12-17 | 2022-06-23 | 上海朝阳永续信息技术股份有限公司 | 用于文本聚类的方法、电子设备和存储介质 |
US20240078330A1 (en) * | 2021-01-25 | 2024-03-07 | Red Bend Ltd. | A method and system for lossy compression of log files of data |
CN114694841A (zh) * | 2022-03-30 | 2022-07-01 | 电子科技大学 | 一种基于患者电子健康记录的不良事件风险预测方法 |
CN116886103A (zh) * | 2023-06-20 | 2023-10-13 | 浙江华电器材检测研究院有限公司 | 一种基于K-means聚类的数据压缩方法 |
CN116865765A (zh) * | 2023-06-21 | 2023-10-10 | 支付宝(杭州)信息技术有限公司 | 用于无损压缩编码的字典构建方法及装置 |
CN116663069A (zh) * | 2023-08-01 | 2023-08-29 | 国家基础地理信息中心 | 基于数据编码的数据库安全加密方法及系统 |
CN117176175A (zh) * | 2023-11-01 | 2023-12-05 | 深圳对对科技有限公司 | 一种用于计算机的数据传输方法 |
CN117316301A (zh) * | 2023-11-22 | 2023-12-29 | 北华大学 | 一种基因检测数据智能压缩处理方法 |
Non-Patent Citations (1)
Title |
---|
FATIH PORIKLI: "Real-Time Video Object Segmentation for MPEG Encoded Video Sequences", <CONFERENCE ON REAL-TIME IMAGING VIII>, 31 December 2004 (2004-12-31), pages 195 - 203 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115882868B (zh) | 一种气体监测数据智能存储方法 | |
CN116153452B (zh) | 基于人工智能的医疗电子病历存储系统 | |
CN116828070A (zh) | 一种智慧电网数据优化传输方法 | |
CN116153453B (zh) | 基于云边协同的智能戒指信息管理方法及系统 | |
CN105139430A (zh) | 一种基于图熵的医学图像聚类方法 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN107610771A (zh) | 一种基于决策树的医学检测指标筛选方法 | |
CN107609105A (zh) | 大数据加速结构的构建方法 | |
CN117473351B (zh) | 基于物联网的电源信息远程传输系统 | |
CN117195006B (zh) | 一种鸡肉用兽药残留数据管理系统 | |
CN116662910A (zh) | 一种基于联邦学习的多临床分期疾病辅助分类方法及系统 | |
CN113674824B (zh) | 一种基于区域医疗大数据的疾病编码方法和系统 | |
CN118016225B (zh) | 一种肾移植术后电子健康记录数据智能管理方法 | |
CN109933680A (zh) | 图像数据筛选方法、装置、计算机设备及其存储介质 | |
CN107133335A (zh) | 一种基于分词与索引技术的重复记录检测方法 | |
CN117376430B (zh) | 基于dcs的工业数据快速传输方法及系统 | |
CN118016225A (zh) | 一种肾移植术后电子健康记录数据智能管理方法 | |
CN117743870A (zh) | 一种基于大数据的水利数据管理系统 | |
CN117481628A (zh) | 一种可穿戴式多参数无创血流动力学监测方法及系统 | |
CN117370565A (zh) | 一种信息检索方法及系统 | |
CN109446231B (zh) | 一种基于模式关联分析的实值时间序列规则发现方法和装置 | |
CN113706459B (zh) | 一种自闭症患者异常脑区的检测及模拟修复装置 | |
CN104751459A (zh) | 多维特征的相似性度量优化方法及图像匹配方法 | |
CN114168781A (zh) | 病理图像检索方法及装置 | |
CN117877686B (zh) | 一种中医护理数据智能管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |