CN117789999B - 一种医疗健康大数据优化采集方法 - Google Patents
一种医疗健康大数据优化采集方法 Download PDFInfo
- Publication number
- CN117789999B CN117789999B CN202410210792.9A CN202410210792A CN117789999B CN 117789999 B CN117789999 B CN 117789999B CN 202410210792 A CN202410210792 A CN 202410210792A CN 117789999 B CN117789999 B CN 117789999B
- Authority
- CN
- China
- Prior art keywords
- data
- normal distribution
- difference
- curve
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000036541 health Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005457 optimization Methods 0.000 title claims abstract description 9
- 230000002159 abnormal effect Effects 0.000 claims abstract description 72
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004140 cleaning Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 6
- 230000008859 change Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000005548 health behavior Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Landscapes
- Complex Calculations (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种医疗健康大数据优化采集方法,该方法获取初始医疗健康大数据,对初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取医疗健康大数据中的任一类目标数据;获取目标数据的平滑拟合曲线;将目标数据与平滑拟合曲线上对应的拟合值做差,得到差值集合,根据差值集合构建得到差值直方图,根据差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据正态分布时区间确定目标数据中的异常目标数据,对目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据,提高了对目标数据进行跳点数据清洗的效果,完成了对医疗健康大数据的优化采集。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种医疗健康大数据优化采集方法。
背景技术
在当今数字化时代,医疗健康领域积累了大量的数据,包括病患信息、医学影像、实验室结果等。这些大数据的采集、管理和分析对于医疗决策、科学研究以及患者个性化治疗具有重要意义。但医疗健康大数据在采集和传输过程中由于设备老化和噪声影响,往往会产生异常值,因此,在对医疗健康大数据采集时,需要对医疗健康大数据进行数据清洗。
传统数据清洗包括跳点数据的去除、缺失数据的填补、重复数据的剔除和漂移数据的对齐,其中缺失数据的填补、重复数据的剔除和漂移数据的对齐可以根据邻域数据的相似性进行处理,而跳点数据主要分为三类,分别为明显超出数据正常波动范围的“野点”、处于数据正常波动范围内但明显偏离整体变化趋势的异常点以及在数据变化趋势周围小范围波动的异常点。跳点去除难以根据邻域数据进行判定,传统跳点去除通常采用阈值法,阈值法对第一类跳点(突变式)效果较好,但对后两类跳点(渐进式)处理效果较差,渐进式跳点较难处理且在实际监测过程中也更为常见。
因此,如何提高对医疗健康大数据进行跳点数据清洗的效果,以优化对医疗健康大数据的采集成为亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种医疗健康大数据优化采集方法,以解决如何提高对医疗健康大数据进行跳点数据清洗的效果,以优化对医疗健康大数据的采集的问题。
本发明实施例中提供了一种医疗健康大数据优化采集方法,该医疗健康大数据优化采集方法包括以下步骤:
获取初始医疗健康大数据,对所述初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取所述医疗健康大数据中的任一类目标数据;
对所述目标数据进行数据值统计得到对应的直方图,获取所述直方图的正态分布曲线,将所述直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线;
将所述目标数据与所述平滑拟合曲线上对应的拟合值做差,得到差值集合,根据所述差值集合构建得到差值直方图,获取所述差值直方图的正态分布曲线和概率密度曲线,根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据所述正态分布时区间确定所述差值集合中的异常差值;
根据所述异常差值确定所述目标数据中的异常目标数据,对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据。
进一步的,所述根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线,包括:
利用DTW算法获取所述正态分布曲线与所述概率密度曲线之间的第一相似度,将所述第一相似度与预设的相似度阈值进行对比,得到对应的对比结果;
根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,将所述目标正态分布时区间内的数据作为所述目标数据的筛选数据,对所述筛选数据进行曲线拟合,得到的拟合曲线作为所述目标数据的平滑拟合曲线。
进一步的,所述根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,包括:
若所述对比结果为所述第一相似度大于或等于所述相似度阈值,则所述正态分布曲线上的目标正态分布时区间为三个标准差对应的正态分布时区间;
若所述对比结果为所述第一相似度小于所述相似度阈值,计算所述第一相似度和所述相似度阈值之间的乘积,获取所述乘积与常数3之间的比值,将所述比值作为标准差的第一数量,则所述正态分布曲线上的目标正态分布时区间为所述第一数量个标准差对应的正态分布时区间。
进一步的,所述根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,包括:
利用DTW算法获取所述差值直方图的正态分布曲线和概率密度曲线之间的第二相似度,将所述第二相似度与预设的相似度阈值进行对比,若所述第二相似度大于或等于所述相似度阈值,则所述正态分布时区间为所述差值直方图的正态分布曲线上的三个标准差所对应的正态分布时区间;
若所述第二相似度小于所述相似度阈值,根据所述差值集合中的差值类型,获取标准差的第二数量,则所述正态分布时区间为所述差值直方图的正态分布曲线上的第二数量个标准差所对应的正态分布时区间。
进一步的,所述根据所述差值集合中的差值类型,获取标准差的第二数量,包括:
针对所述差值集合中的任一类差值,根据所述类差值在所述差值集合中的位置,分别获取每两个相邻差值之间的位置距离,得到位置距离序列,统计所述位置距离序列中的每类位置距离的第三数量,得到第三数量的方差,对所述第三数量的方差进行负映射,得到对应的映射值,将常数1与所述映射值之间的差值作为所述类差值的规律性指标;
根据所述差值集合中的每类差值的规律性指标,获取规律性指标均值,将所述规律性指标均值与常数3的乘积作为标准差的第二数量。
进一步的,所述根据所述正态分布时区间确定所述差值集合中的异常差值,包括:
将所述差值直方图的正态分布曲线上的正态分布时区间之外的差值作为所述差值集合中的异常差值。
进一步的,所述根据所述异常差值确定所述目标数据中的异常目标数据,包括:
在所述目标数据中确定所述异常差值对应的数据,并将所述异常差值对应的数据作为异常目标数据。
进一步的,所述对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据,包括:
根据所述平滑拟合曲线获取所述异常目标数据对应的拟合值,将所述目标数据中的异常目标数据替换为对应的拟合值,得到优化后的医疗健康大数据。
进一步的,所述预设的数据预处理包括:缺失数据的填补、重复数据的剔除和漂移数据的对比。
进一步的,所述获取所述直方图的正态分布曲线,包括:
使用最小二乘法拟合得到所述直方图的正态分布曲线。
本发明实施例与现有技术相比存在的有益效果是:
本发明获取初始医疗健康大数据,对所述初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取所述医疗健康大数据中的任一类目标数据;对所述目标数据进行数据值统计得到对应的直方图,获取所述直方图的正态分布曲线,将所述直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线;将所述目标数据与所述平滑拟合曲线上对应的拟合值做差,得到差值集合,根据所述差值集合构建得到差值直方图,获取所述差值直方图的正态分布曲线和概率密度曲线,根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据所述正态分布时区间确定所述差值集合中的异常差值;根据所述异常差值确定所述目标数据中的异常目标数据,对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据。其中,通过对医疗健康大数据中的任一类目标数据进行概率统计,以拟合出符合目标数据真是走向趋势的平滑拟合曲线,通过平滑拟合曲线与目标数据中的数据值差异,获取差值集合,分析平滑拟合曲线的周期性,平滑拟合曲线越符合周期性,差值集合越呈现正态分布,由于拉依达准则对呈现正态分布的数据的处理效果较好,而对非正态分布数据需要自适应获取经验法则参数,因此,根据拉依达准则确定差值集合中的异常差值,进而根据异常差值确定目标数据中的异常目标数据,对异常目标数据进行剔除,提高了对目标数据进行跳点数据清洗的效果,完成了对医疗健康大数据的优化采集。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种医疗健康大数据优化采集方法的方法流程图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
需要说明的是,本公开的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与本公开的一些方面相一致的装置和方法的例子。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
参见图1,是本发明实施例一提供的一种医疗健康大数据优化采集方法的方法流程图,如图1所示,该医疗健康大数据优化采集方法可以包括:
步骤S101,获取初始医疗健康大数据,对初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取医疗健康大数据中的任一类目标数据。
医疗健康大数据是指在医疗健康领域生产的大规模、多样化的数据,这些数据涵盖了从患者临床记录到生物医学图像、基因组学数据以及健康行为等多个方面,以下时医疗健康大数据的部分示例:
临床数据:电子病历(EMR),包含患者的诊断、治疗记录、实验室结果等,可以通过医院信息系统中的电子病历系统进行采集;处方和药物数据,记录患者的药物处方和用药历史。这些数据可以通过医疗保健提供者的系统或电子处方系统收集。
生物医学图像:医学影像数据,如X射线、MRI、CT等图像数据,这些图像数据通常通过医学影像设备生成,并可以通过数字化系统进行存储和传输;病理学图像,包括组织切片的显微镜图像,用于疾病诊断,这些图像通常通过数字病理学系统获取。
基因组学数据:基因测序数据,包括患者基因组的全面或部分测序,这些数据通过高通量测序技术生成,如NGS(Next-Generation Sequencing);基因芯片数据,通过基因芯片测量基因表达水平,这些数据可用于研究基因与疾病之间的关系。
传感器数据:可穿戴设备数据,如智能手表、健康追踪器等收集的生理参数,如心率、步数、睡眠等,这些数据通过传感器技术采集;健康监测设备,如血压计、血糖仪等,这些设备可以提供患者在家中进行健康监测的数据。
其中,跳点数据通常出现在基因组学数据和传感器数据中,因此,在医疗健康数据采集完成之后,对医疗健康大数据进行预设的数据预处理,其中,为了方便理解,将数据预处理前的医疗健康大数据作为初始医疗健康大数据,将数据预处理后的医疗健康大数据作为医疗健康大数据。
本发明实施例中预设的数据预处理包括:缺失数据的填补、重复数据的剔除和漂移数据的对比,因此,在得到初始医疗健康大数据之后,对初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据。
其中,缺失数据的填补步骤,包括:
(1)理解缺失数据的模式:分析数据,确定缺失数据的模式,是随机的还是有规律的。
(2)统计缺失值:计算每列的缺失值数量和比例,以了解哪些特征受到影响。
(3)选择填补方法:根据数据的性质和模式选择适当的填补方法。常见的方法包括均值、中位数、众数填补、插值法等。
(4)填补缺失值:使用选定的方法填充缺失值,并确保填充后的数据仍然保持原有数据的分布特征。
重复数据的剔除步骤,包括:
(1)识别重复数据:检查数据中是否存在完全相同的行,或者部分相同的行。
(2)确定重复的标准:确定什么样的数据被认为是重复的,可以基于所有列或者特定列的数值。
(3)剔除重复数据:删除重复的行,保留唯一的记录。确保选择合适的方法,可以基于某一列的数值、时间戳等来决定保留哪一条记录。
漂移数据的对比步骤,包括:
(1)检查数据一致性:确保数据集中的数据是按照相同的标准或规范进行记录的。
(2)标准化数据:将数据标准化为相同的单位或格式,以确保它们在比较和分析时具有可比性。
(3)处理时间序列漂移:如果涉及时间序列数据,检查和处理数据在时间上的不一致性,例如不同时间戳的对齐问题。
(4)对齐数据:如果数据涉及多个源,确保它们的共同字段得到正确的对齐。可以使用合并或连接操作来实现对齐。
需要说明的是,缺失数据的填补、重复数据的剔除和漂移数据的对比都属于现有技术,此处不再详细赘述。
在对初始医疗健康大数据进行上述的缺失数据的填补、重复数据的剔除和漂移数据的对比之后,需要针对容易出现数据跳点异常的数据进行单独的跳点去除处理,将医疗健康大数据中需要进行跳点去除的任一类数据记为目标数据,其中目标数据包括但不限于基因组学数据和传感器数据。
步骤S102,对目标数据进行数据值统计得到对应的直方图,获取直方图的正态分布曲线,将直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据正态分布曲线和概率密度曲线,获取目标数据的平滑拟合曲线。
由于目标数据存在局部波动和异常跳点数据的存在,导致目标数据的变化曲线的平滑程度较低,不利于数据分析,因此,需要对目标数据进行曲线拟合,拟合获取目标数据的曲线走势,若目标数据中的数值为正常值,则其与拟合曲线中对应的数值之间的差异较小,若目标数据中的数值为跳点值,则其与拟合曲线中对应的数值之间的差异较大。
在获取目标数据的拟合曲线之前,首先对目标数据进行数据值统计,建立对应的直方图,直方图将目标数据划分成若干个区间,并统计每个区间内的数据点数量,将直方图中的每个区间的数据点数量转换为概率密度,概率密度是指每个区间内的数据点数量通过除以总数据点数量或区间宽度来计算,在得到直方图中的每个区间的概率密度之后,构建得到可视化的概率密度曲线。同时,使用最小二乘法拟合得到最符合直方图的正态分布曲线,值得说明的是,可以通过Python进行实现,在Python中,可以使用scipy.stats.norm.fit来估计正态分布的参数,然后使用scipy.stats.norm.pdf生成拟合的正态分布曲线。
在得到目标数据的直方图的概率密度曲线和正态分布曲线之后,若目标数据符合正态分布,则概率密度曲线和正态分布曲线之间的相似度较大,否则,相似度较小,若概率密度曲线和正态分布曲线之间的相似度越大,则说明目标数据的正态分布越符合准则,进而能够基于/>准则,根据概率密度曲线和正态分布曲线的相似度对目标数据进行平滑曲线的拟合,得到对应的平滑拟合曲线,反之,若概率密度曲线和正态分布曲线的相似度越小,则目标数据的正态分布越不符合/>准则,此时需要根据概率密度曲线和正态分布曲线的相似度,对目标数据进行平滑曲线的拟合,得到对应的平滑拟合曲线。则根据正态分布曲线和概率密度曲线,获取目标数据的平滑拟合曲线,包括:
利用DTW算法获取所述正态分布曲线与所述概率密度曲线之间的第一相似度,将所述第一相似度与预设的相似度阈值进行对比,得到对应的对比结果;
根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,将所述目标正态分布时区间内的数据作为所述目标数据的筛选数据,对所述筛选数据进行曲线拟合,得到的拟合曲线作为所述目标数据的平滑拟合曲线。
在一实施方式中,利用DTW算法计算正态分布曲线与概率密度曲线之间的第一相似度,并记为a,a的取值范围为[0,1],设置相似度阈值,相似度阈值/>的经验值取,将第一相似度与相似度阈值进行对比,以根据对比结果确定正态分布曲线上的目标正态分布时区间/>,其中,/>表示服从正态分布的随机变量的均值,/>表示随机变量的标准差,进而根据正态分布曲线上的目标正态分布时区间对目标数据进行筛选,将目标正态分布时区间内所包含的数据作为筛选数据。对筛选数据进行曲线拟合,通常采用三次样条曲线拟合方法进行曲线拟合,在采用三次样条曲线进行拟合时,通过获取局部极值点(局部极大值点和局部极小值点),通过局部极值点绘制上下包络线,然后计算数据点与上下包络线的均值,通过对均值拟合得到对应的拟合曲线,从而将对筛选数据进行曲线拟合得到的拟合曲线作为目标数据的平滑拟合曲线。
值得说明的是,DTW算法属于现有技术,此处不再赘述;正态分布时区间属于正态分布曲线中的现有技术,此处不再赘述;三次样条曲线拟合属于现有技术,此处不再赘述。
优选的,根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,包括:
若所述对比结果为所述第一相似度大于或等于所述相似度阈值,则所述正态分布曲线上的目标正态分布时区间为三个标准差对应的正态分布时区间;
若所述对比结果为所述第一相似度小于所述相似度阈值,计算所述第一相似度和所述相似度阈值之间的乘积,获取所述乘积与常数3之间的比值,将所述比值作为标准差的第一数量,则所述正态分布曲线上的目标正态分布时区间为所述第一数量个标准差对应的正态分布时区间。
在一实施方式中,在正态分布曲线中,曲线下68.268949%的面积在平均数左右的一个标准差的范围内,95.449974%的面积在平均数左右的两个标准差的范围内,99.730020%的面积在平均数左右的三个标准差的范围内,因此,在时,则b=3,也即是将3个标准差对应的正态分布时区间/>作为正态分布曲线上的目标正态分布时区间;
在时,首先,根据第一相似度a和相似度阈值/>,计算所需标准差的范围数量b(也即是第一数量),则范围数量b的计算表达式为:
此时,正态分布曲线上的目标正态分布时区间为。
至此,能够得到了目标数据的平滑拟合曲线。
步骤S103,将目标数据与平滑拟合曲线上对应的拟合值做差,得到差值集合,根据差值集合构建得到差值直方图,获取差值直方图的正态分布曲线和概率密度曲线,根据差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据正态分布时区间确定差值集合中的异常差值。
在得到目标数据的平滑拟合曲线之后,将目标数据与平滑拟合曲线上对应位置处的拟合值做差,得到对应的差值绝对值,例如,目标数据中的第i个数值为,平滑拟合曲线中的第i个拟合值为/>,则差值绝对值/>为/>,计算所有目标数据中的所有差值绝对值,组成差值集合,并对差值集合进行数据统计,以构建差值集合的差值直方图。
当目标数据不符合正态分布时,难以获取较为准确的正态分布时区间,因此,根据目标数据的平滑拟合曲线上的拟合值与目标数据之间的差异,得到差值集合,差值集合相较于目标数据更容易符合正态分布,故根据上述目标数据的直方图的正态分布曲线和概率密曲线的获取方法,获取差值直方图的正态分布曲线和概率密度曲线。
在得到差值直方图的正态分布曲线和概率密度曲线,根据差值直方图的正态分布曲线和概率密度曲线,确定差值直方图的正态分布曲线上的正态分布时区间,则具体获取正态分布时区间的方法为:
利用DTW算法获取所述差值直方图的正态分布曲线和概率密度曲线之间的第二相似度,将所述第二相似度与预设的相似度阈值进行对比,若所述第二相似度大于或等于所述相似度阈值,则所述正态分布时区间为所述差值直方图的正态分布曲线上的三个标准差所对应的正态分布时区间;
若所述第二相似度小于所述相似度阈值,根据所述差值集合中的差值类型,获取标准差的第二数量,则所述正态分布时区间为所述差值直方图的正态分布曲线上的第二数量个标准差所对应的正态分布时区间。
在一实施方式中,利用DTW算法获取差值直方图的正态分布曲线和概率密度曲线之间的第二相似度,记为A,将第二相似度与相似度阈值进行对比,若/>,则/>,也即是将差值直方图的正态分布曲线上的3个标准差所对应的正态分布时区间作为正态分布时区间/>;若/>,则需要根据差值集合中的差值类型,自适应获取/>,也即是标准差的第二数量,将差值直方图的正态分布曲线上的/>个标准差所对应的正态分布时区间作为正态分布时区间/>。
优选的,根据所述差值集合中的差值类型,获取标准差的第二数量,包括:
针对所述差值集合中的任一类差值,根据所述类差值在所述差值集合中的位置,分别获取每两个相邻差值之间的位置距离,得到位置距离序列,统计所述位置距离序列中的每类位置距离的第三数量,得到第三数量的方差,对所述第三数量的方差进行负映射,得到对应的映射值,将常数1与所述映射值之间的差值作为所述类差值的规律性指标;
根据所述差值集合中的每类差值的规律性指标,获取规律性指标均值,将所述规律性指标均值与常数3的乘积作为标准差的第二数量。
在一实施方式中,当时,说明差值集合的分布与正态分布存在差异,此类差异产生的原因可能是跳点较多产生的,也可能是差值存在多个峰导致的,即差值直方图呈现双峰或多峰,则获取差值集合中的每类差值的分布,每类差值的分布越均匀,则异常跳点的数量越小,(跳点时随机出现的,规律性较弱),此时正态分布时区间应越大;当每类差值的分布不均匀时,说明差值集合中有更多的数值可能属于异常跳点值,此时正态分布时区间应越小。
根据差值集合的差值直方图获取差值类型数量,记为m,从差值直方图中选择任一类差值,根据该类差值在差值集合中的位置,获取该类差值之间的每相邻两个差值之间的位置距离L,得到位置距离序列,例如差值集合为1、2、3、1、2、1、3、1,针对差值1,其对应的位置距离序列为2、1、1。统计位置距离序列中的位置距离的类型数量n,以及每类位置距离的数量,根据每类位置距离的数量,获取该类差值的规律性指标,则规律性指标的计算表达式为:
其中,表示差值集合中的第v类差值的规律性指标,/>表示以自然常数e为底数的指数函数,/>表示位置距离序列中包含的第j类位置距离的数量,/>表示位置距离序列中包含的第z类位置距离的数量,/>表示位置距离序列中的位置距离的类型数量,1表示常数,/>表示所有类位置距离的数量方差。
需要说明的是,的值越大,说明位置距离序列中某一类位置距离的数量远远大于其他类型的位置距离,此时说明差值集合中的第v类差值呈现集中分布或均匀分布;当/>的值很小时,说明位置距离序列中每类位置距离的数量相差不大,即差值集合中的第v类差值呈现随机分布,因此,/>的值越大,对应差值集合中的第v类差值的规律性指标越大。
同理,能够获取差值集合中的每类差值的规律性指标,规律性较强的差值类型越多,则说明差值直方图与正态分布差异较大的原因是多峰造成的,规律性较强的差值类型越少,说明差值直方图与正态分布差异较大的原因是异常跳点较多造成的,故根据差值集合中的每类差值的规律性指标,获取标准差的第二数量,则标准差的第二数量/>的计算表达式为:
其中,表示标准差的第二数量/>,/>表示差值集合中的第w类差值的规律性指标,m表示差值集合中的差值类型的数量。
至此,能够得到差值直方图的正态分布曲线上的正态分布时区间,进而根据正态分布时区间/>确定差值集合中的异常差值,也即是在差值直方图的正态分布曲线上,将正态分布曲线上的正态分布时区间之外的差值作为差值集合中的异常差值。
步骤S104,根据异常差值确定目标数据中的异常目标数据,对目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据。
在确定了差值集合中的异常差值之后,即可根据异常差值确定目标数据中的异常目标数据,也即是通过异常差值在差值集合中的位置,在目标数据中确定异常差值对应的数据,并将异常差值对应的数据作为异常目标数据,此时得到的异常目标数据即为异常跳点值。
进一步的,在得到目标数据中的异常目标数据之后,根据目标数据的平滑拟合曲线获取异常目标数据对应的拟合值,将目标数据中的异常目标数据替换为对应的拟合值,得到优化后的医疗健康大数据,在目标数据中的异常跳点值去除完成后,即可完成了对医疗健康大数据的优化采集。
综上所述,获取初始医疗健康大数据,对初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取医疗健康大数据中的任一类目标数据;对目标数据进行数据值统计得到对应的直方图,获取直方图的正态分布曲线,将直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据正态分布曲线和概率密度曲线,获取目标数据的平滑拟合曲线;将目标数据与平滑拟合曲线上对应的拟合值做差,得到差值集合,根据差值集合构建得到差值直方图,获取差值直方图的正态分布曲线和概率密度曲线,根据差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据正态分布时区间确定差值集合中的异常差值;根据异常差值确定目标数据中的异常目标数据,对目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据。其中,通过对医疗健康大数据中的任一类目标数据进行概率统计,以拟合出符合目标数据真是走向趋势的平滑拟合曲线,通过平滑拟合曲线与目标数据中的数据值差异,获取差值集合,分析平滑拟合曲线的周期性,平滑拟合曲线越符合周期性,差值集合越呈现正态分布,由于拉依达准则对呈现正态分布的数据的处理效果较好,而对非正态分布数据需要自适应获取经验法则参数,因此,根据拉依达准则确定差值集合中的异常差值,进而根据异常差值确定目标数据中的异常目标数据,对异常目标数据进行剔除,提高了对目标数据进行跳点数据清洗的效果,完成了对医疗健康大数据的优化采集。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (6)
1.一种医疗健康大数据优化采集方法,其特征在于,所述一种医疗健康大数据优化采集方法包括:
获取初始医疗健康大数据,对所述初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取所述医疗健康大数据中的任一类目标数据,所述目标数据为所述医疗健康大数据中需要进行跳点去除的任一类数据;
对所述目标数据进行数据值统计得到对应的直方图,获取所述直方图的正态分布曲线,将所述直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线;
将所述目标数据与所述平滑拟合曲线上对应的拟合值做差,得到差值集合,根据所述差值集合构建得到差值直方图,获取所述差值直方图的正态分布曲线和概率密度曲线,根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据所述正态分布时区间确定所述差值集合中的异常差值;
根据所述异常差值确定所述目标数据中的异常目标数据,对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据;
所述根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,包括:
利用DTW算法获取所述差值直方图的正态分布曲线和概率密度曲线之间的第二相似度,将所述第二相似度与预设的相似度阈值进行对比,若所述第二相似度大于或等于所述相似度阈值,则所述正态分布时区间为所述差值直方图的正态分布曲线上的三个标准差所对应的正态分布时区间;
若所述第二相似度小于所述相似度阈值,根据所述差值集合中的差值类型,获取标准差的第二数量,则所述正态分布时区间为所述差值直方图的正态分布曲线上的第二数量个标准差所对应的正态分布时区间;
所述根据所述差值集合中的差值类型,获取标准差的第二数量,包括:
针对所述差值集合中的任一类型的差值,根据所述类型的差值在所述差值集合中的位置,分别获取每两个相邻差值之间的位置距离,得到位置距离序列,统计所述位置距离序列中的每类位置距离的第三数量,得到第三数量的方差,对所述第三数量的方差进行负映射,得到对应的映射值,将常数1与所述映射值之间的差值作为所述类型的差值的规律性指标;
根据所述差值集合中的每类差值的规律性指标,获取规律性指标均值,将所述规律性指标均值与常数3的乘积作为标准差的第二数量;
所述根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线,包括:
利用DTW算法获取所述正态分布曲线与所述概率密度曲线之间的第一相似度,将所述第一相似度与预设的相似度阈值进行对比,得到对应的对比结果;
根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,将所述目标正态分布时区间内的数据作为所述目标数据的筛选数据,对所述筛选数据进行曲线拟合,得到的拟合曲线作为所述目标数据的平滑拟合曲线;
所述根据所述正态分布时区间确定所述差值集合中的异常差值,包括:
将所述差值直方图的正态分布曲线上的正态分布时区间之外的差值作为所述差值集合中的异常差值。
2.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,包括:
若所述对比结果为所述第一相似度大于或等于所述相似度阈值,则所述正态分布曲线上的目标正态分布时区间为三个标准差对应的正态分布时区间;
若所述对比结果为所述第一相似度小于所述相似度阈值,计算所述第一相似度和所述相似度阈值之间的乘积,获取所述乘积与常数3之间的比值,将所述比值作为标准差的第一数量,则所述正态分布曲线上的目标正态分布时区间为所述第一数量个标准差对应的正态分布时区间。
3.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述异常差值确定所述目标数据中的异常目标数据,包括:
在所述目标数据中确定所述异常差值对应的数据,并将所述异常差值对应的数据作为异常目标数据。
4.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据,包括:
根据所述平滑拟合曲线获取所述异常目标数据对应的拟合值,将所述目标数据中的异常目标数据替换为对应的拟合值,得到优化后的医疗健康大数据。
5.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述预设的数据预处理包括:缺失数据的填补、重复数据的剔除和漂移数据的对比。
6.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述获取所述直方图的正态分布曲线,包括:
使用最小二乘法拟合得到所述直方图的正态分布曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410210792.9A CN117789999B (zh) | 2024-02-27 | 2024-02-27 | 一种医疗健康大数据优化采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410210792.9A CN117789999B (zh) | 2024-02-27 | 2024-02-27 | 一种医疗健康大数据优化采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117789999A CN117789999A (zh) | 2024-03-29 |
CN117789999B true CN117789999B (zh) | 2024-05-03 |
Family
ID=90391356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410210792.9A Active CN117789999B (zh) | 2024-02-27 | 2024-02-27 | 一种医疗健康大数据优化采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117789999B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776480A (zh) * | 2015-11-25 | 2017-05-31 | 中国电力科学研究院 | 一种无线电干扰现场测量异常值的剔除方法 |
CN108171210A (zh) * | 2018-01-18 | 2018-06-15 | 中国地质科学院矿产资源研究所 | 一种植被覆盖区蚀变遥感异常信息的提取方法及系统 |
CN111815806A (zh) * | 2020-07-10 | 2020-10-23 | 中国人民解放军空军工程大学 | 一种基于野值剔除和特征提取的飞参数据预处理方法 |
CN114970688A (zh) * | 2022-05-10 | 2022-08-30 | 河海大学 | 基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 |
WO2023272851A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 异常数据检测方法、装置、设备及存储介质 |
CN115861011A (zh) * | 2023-02-15 | 2023-03-28 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN116089405A (zh) * | 2022-10-09 | 2023-05-09 | 国网江苏省电力有限公司营销服务中心 | 一种基于dbscan和knn算法的用电数据离群点检测与清洗方法 |
CN116562746A (zh) * | 2023-07-10 | 2023-08-08 | 深圳市辉熙智能科技有限公司 | 一种被服物流站点的被服数据监控方法及相关装置 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
CN117313009A (zh) * | 2023-09-20 | 2023-12-29 | 东风本田汽车有限公司 | 一种基于加工中心设备数据的预防故障方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI816078B (zh) * | 2021-01-05 | 2023-09-21 | 財團法人工業技術研究院 | 樣本分群探勘方法 |
CN114036974A (zh) * | 2021-10-15 | 2022-02-11 | 东南大学 | 一种基于健康监测数据的桥梁冲刷动力识别方法 |
-
2024
- 2024-02-27 CN CN202410210792.9A patent/CN117789999B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776480A (zh) * | 2015-11-25 | 2017-05-31 | 中国电力科学研究院 | 一种无线电干扰现场测量异常值的剔除方法 |
CN108171210A (zh) * | 2018-01-18 | 2018-06-15 | 中国地质科学院矿产资源研究所 | 一种植被覆盖区蚀变遥感异常信息的提取方法及系统 |
CN111815806A (zh) * | 2020-07-10 | 2020-10-23 | 中国人民解放军空军工程大学 | 一种基于野值剔除和特征提取的飞参数据预处理方法 |
WO2023272851A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 异常数据检测方法、装置、设备及存储介质 |
CN114970688A (zh) * | 2022-05-10 | 2022-08-30 | 河海大学 | 基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 |
CN116089405A (zh) * | 2022-10-09 | 2023-05-09 | 国网江苏省电力有限公司营销服务中心 | 一种基于dbscan和knn算法的用电数据离群点检测与清洗方法 |
CN115861011A (zh) * | 2023-02-15 | 2023-03-28 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN116562746A (zh) * | 2023-07-10 | 2023-08-08 | 深圳市辉熙智能科技有限公司 | 一种被服物流站点的被服数据监控方法及相关装置 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
CN117313009A (zh) * | 2023-09-20 | 2023-12-29 | 东风本田汽车有限公司 | 一种基于加工中心设备数据的预防故障方法 |
Non-Patent Citations (2)
Title |
---|
岩质高边坡稳定分析中的抗剪强度参数的概率统计方法;光耀华;广西科学;19950320(第01期);全文 * |
模型试验尺寸误差对结构周期分析的影响与修正;施卫星;丁美;耿磊;李阳;;同济大学学报(自然科学版);20070715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117789999A (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10872131B2 (en) | Progression analytics system | |
DE102012103089B4 (de) | System und maschinenlesbarer Datenträger zur Erstellung von Patientenprognosen | |
DE112014000897T5 (de) | Lernende Gesundheitssysteme und -verfahren | |
CN117115045B (zh) | 基于互联网生成式人工智能提升医学影像数据质量的方法 | |
CN110739076A (zh) | 一种医疗人工智能公共训练平台 | |
US20190156233A1 (en) | System monitor and method of system monitoring | |
CN116936104B (zh) | 一种基于人工智能的健康检测仪数据分析系统及方法 | |
US20170351822A1 (en) | Method and system for analyzing and displaying optimization of medical resource utilization | |
CN116185722B (zh) | 一种用于医疗保险主数据存储的数据安全管理系统 | |
CN111861989A (zh) | 一种脑中线检测方法、系统、终端及存储介质 | |
US20230181082A1 (en) | System and methods for electrocardiogram beat similarity analysis | |
EP2795493A2 (en) | Method and system for selection of patients to receive a medical device | |
CN117473351B (zh) | 基于物联网的电源信息远程传输系统 | |
CN116864104A (zh) | 基于人工智能的慢性血栓栓塞性肺动脉高压风险分级系统 | |
CN114926396A (zh) | 一种精神障碍类磁共振图像初步筛查模型构建方法 | |
CN114707608A (zh) | 医疗质控数据处理方法、装置、设备、介质及程序产品 | |
CN117789999B (zh) | 一种医疗健康大数据优化采集方法 | |
US20170364646A1 (en) | Method and system for analyzing and displaying optimization of medical resource utilization | |
Hong et al. | Personalized prediction of diabetic foot ulcer recurrence in elderly individuals using machine learning paradigms | |
CN116631563A (zh) | 一种医药行业大数据存储及智能匹配方法 | |
CN116564458A (zh) | 一种基于电子病历的数据处理方法、系统、设备及介质 | |
CN113066562B (zh) | 基于5g的医疗图像传输方法及系统 | |
CN118078215B (zh) | 一种生命体征监测方法及系统 | |
CN114711790B (zh) | 新生儿电惊厥类型确定方法、装置、设备和存储介质 | |
He et al. | An association rule analysis framework for complex physiological and genetic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |