CN112071432A - 医疗数据的分析方法、系统、介质及装置 - Google Patents
医疗数据的分析方法、系统、介质及装置 Download PDFInfo
- Publication number
- CN112071432A CN112071432A CN202011250091.6A CN202011250091A CN112071432A CN 112071432 A CN112071432 A CN 112071432A CN 202011250091 A CN202011250091 A CN 202011250091A CN 112071432 A CN112071432 A CN 112071432A
- Authority
- CN
- China
- Prior art keywords
- medical data
- variable
- continuous
- data set
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002159 abnormal effect Effects 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000011985 exploratory data analysis Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000009826 distribution Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 25
- 238000007621 cluster analysis Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 238000013450 outlier detection Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 12
- 238000007689 inspection Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 102100024222 B-lymphocyte antigen CD19 Human genes 0.000 description 4
- 101000980825 Homo sapiens B-lymphocyte antigen CD19 Proteins 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001422 normality test Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 208000007536 Thrombosis Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供一种医疗数据的分析方法、系统、介质及装置,所述医疗数据的分析方法包括:确定医疗数据集的连续变量统计指标和离散变量统计指标;根据所述连续变量统计指标和离散变量统计指标的离群情况,聚类情况,时间变化平稳性进行异常数据检测;结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。本发明针对数据探索性分析场景,在不需要专业IT技能和编程技能的情况下,使得业务人员能够自主完成探索性分析和数据异常检测。
Description
技术领域
本发明属于数据分析的技术领域,涉及一种数据分析方法,特别是涉及一种医疗数据的分析方法、系统、介质及装置。
背景技术
目前,在机器学习模型建立之前,能够充分的了解数据集的内容,并且识别潜在的数据质量问题,对于基于数据集的分析和建模项目的成功至关重要。
但现有的解决方案存在一些不足,主要包括以下几个方面:(1)Excel等软件尽管可以让不具备编程技能的业务人员也能进行一些数据分析,但是能够支持的分析的内容有很强的限制,尤其是在不使用vba编程的情况下难以实现批量的处理。(2)Excel以及类似的诸多软件,只能生成静态分析结果图,无法进行交互性探索。例如,对局部的放大,对特定条件的筛选,关闭、打开特定的数据集等。难以支持探索性分析的需要。(3)对于Jupyter等专业的分析工具,必须具备足够的编程技能(例如python)才能熟练应用。
因此,如何提供一种医疗数据的分析方法、系统、介质及装置,以解决现有技术无法突破专业技能限制,自动、全面地进行医疗数据分析等缺陷,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种医疗数据的分析方法、系统、介质及装置,用于解决现有技术无法突破专业技能限制,自动、全面地进行医疗数据分析的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种医疗数据的分析方法,所述医疗数据的分析方法包括:确定医疗数据集的连续变量统计指标和离散变量统计指标;根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。
于本发明的一实施例中,确定医疗数据集的连续变量统计指标和离散变量统计指标的步骤包括:分别确定所述医疗数据集中连续变量和离散变量的缺失率;对所述医疗数据集中连续变量和离散变量的数值进行去重处理,并统计各数值的个数;根据各数值的个数确定出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;确定所述医疗数据集中连续变量的数值型统计指标;确定所述医疗数据集中离散变量取值的占比。
于本发明的一实施例中,所述医疗数据集包括单变量数据和多元变量组;所述多元变量组是指变量个数大于一个的变量组合;根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测的步骤包括:对所述单变量数据进行时序稳定性检测和异常值检测;对所述多元变量组进行聚类分析和/或降维处理。
于本发明的一实施例中,时序稳定性检测的步骤包括:在业务场景条件未变化时,判断所述连续变量统计指标和离散变量统计指标是否发生变化;若是,判定所述医疗数据集出现异常数据;若否,判定所述医疗数据集的数据稳定。
于本发明的一实施例中,所述连续变量统计指标包括平均值和标准差;异常值检测的步骤包括:将所述医疗数据集中的连续变量的平均值与标准差整数倍的差值作为第一阈值,将所述连续变量的平均值与标准差整数倍的和作为第二阈值;判断所述医疗数据集中的连续变量是否集中于所述第一阈值与第二阈值确定的范围内;若是,判定所述连续变量未出现异常值;若否,判定所述连续变量出现异常值。
于本发明的一实施例中,对所述多元变量组进行聚类分析和/或降维处理的步骤包括:对二维或三维的多元变量组进行聚类分析;对超过三维的多元变量组直接进行聚类分析;或对超过三维的多元变量组进行降维处理,通过主成分分析将所述超过三维的多元变量组降为二维或三维的多元变量组,再进行聚类分析;根据聚类分析的结果识别异常聚类样本。
于本发明的一实施例中,结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度的步骤包括:对多个所述医疗数据集中连续变量和离散变量的通用统计指标进行比较,判断不同医疗数据集之间通用统计指标的差异程度;所述通用统计指标包括:缺失率、去重处理后各数值的个数、出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;对多个所述医疗数据集中的连续变量统计指标进行比较,判断不同医疗数据集之间连续变量统计指标的差异程度;对多个所述医疗数据集中离散变量取值的占比进行比较,判断不同医疗数据集之间取值分布的差异程度。
本发明另一方面提供一种医疗数据的分析系统,所述医疗数据的分析系统包括:探索性分析模块,用于确定医疗数据集的连续变量统计指标和离散变量统计指标;异常检测模块,用于根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;差异判断模块,用于结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。
本发明又一方面提供一种介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的医疗数据的分析方法。
本发明最后一方面提供一种装置,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述装置执行所述的医疗数据的分析方法。
如上所述,本发明所述的医疗数据的分析方法、系统、介质及装置,具有以下有益效果:
本发明针对不具备专业IT技术和编程技能的业务人员,提供了一种方便可以使用的医疗数据分析工具,使业务人员自动化获取数据集的探索性分析和异常样本检验的结果,并将数据集的探索性分析和异常样本检验的结果以数据图表方式进行可视化呈现,通过呈现结果的交互操作帮助业务人员快速理解数据集的情况和数据异常情况,并考虑对应处理方案。
附图说明
图1显示为本发明的医疗数据的分析方法于一实施例中的原理流程图。
图2显示为本发明的医疗数据的分析方法于一实施例中的统计指标分析流程图。
图3显示为本发明的医疗数据的分析方法于一实施例中的异常数值检测流程图。
图4显示为本发明的医疗数据的分析方法于一实施例中的二维变量聚类分析示意图。
图5显示为本发明的医疗数据的分析方法于一实施例中的三维变量聚类分析示意图。
图6显示为本发明的医疗数据的分析方法于一实施例中的模型取值分布对比图。
图7显示为本发明的医疗数据的分析方法于一实施例中的交互性探索界面图。
图8显示为本发明的医疗数据的分析系统于一实施例中的结构原理图。
图9显示为本发明的医疗数据的分析装置于一实施例中的结构连接示意图。
元件标号说明
8——医疗数据的分析系统;
81——探索性分析模块;
82——异常检测模块;
83——差异判断模块;
9——装置;
91——处理器;
92——存储器;
93——通信接口;
94——系统总线;
S11~S13——步骤。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明所述的医疗数据的分析方法针对数据探索性分析场景,在不需要专业IT技能和编程技能的情况下,使得业务人员能够自主完成探索性分析和数据异常检测。
以下将结合图1至图9详细阐述本实施例的一种医疗数据的分析方法、系统、介质及装置的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的医疗数据的分析方法、系统、介质及装置。
请参阅图1,显示为本发明的医疗数据的分析方法于一实施例中的原理流程图。如图1所示,所述医疗数据的分析方法具体包括以下几个步骤。
S11,确定医疗数据集的连续变量统计指标和离散变量统计指标。
请参阅图2,显示为本发明的医疗数据的分析方法于一实施例中的统计指标分析流程图。如图2所示,连续变量统计指标和离散变量的指标统计过程是一个数据探索性分析的过程,主要目的是帮助使用者快速的了解数据集的内容。
(1)针对单个数据集通用的计算指标包括:
分别确定所述医疗数据集中连续变量和离散变量的缺失率。
对所述医疗数据集中连续变量和离散变量的数值进行去重处理,并统计各数值的个数。
根据各数值的个数确定出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比。
具体地,于本实施例的一实际应用中,将上述通用的计算指标进行列表管理,形成表1。
表1中分别对医院A的性别、年龄和医院B的性别、年龄作了统计,该统计结果以表1的数据表或其他可视化的形式呈现给业务人员。
(2)确定所述医疗数据集中连续变量的数值型统计指标。
具体地,所述数值型统计指标包括:最小值、25%分位、中位数、平均值、75%分位、最大值、偏度、峰度、正态性检验。
以年龄这一连续的数值变量为例,将医院A和医院B的年龄形成的数值型统计指标进行列表管理,形成表2。
表2中分别对医院A和医院B的年龄进行统计,并将数值型统计结果以表2的数据表或其他可视化的形式呈现给业务人员。
(3)确定所述医疗数据集中离散变量取值的占比。
以性别这一离散变量取值为例,将医院A和医院B的性别形成的统计信息进行列表管理,形成表3。
表3中,性别这一离散变量取值包括:男、女和缺失三种情况。由表3中可看出,医院A和医院B性别取值为男和女的占比差异较大。
S12,根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测。其中,分布趋势包括数据集中各变量数据的离群情况,聚类情况,时间变化平稳性。
在本实施例中,所述医疗数据集包括单变量数据和多元变量组;所述多元变量组是指变量个数大于一个的变量组合。
请参阅图3,显示为本发明的医疗数据的分析方法于一实施例中的异常数值检测流程图。如图3所示,S12包括以下步骤。
(1)对所述单变量数据进行时序稳定性检测和异常值检测。
时序稳定性检测包括:
在业务场景条件未变化时,判断所述连续变量统计指标和离散变量统计指标是否发生变化。
若是,判定所述医疗数据集出现异常数据;若否,判定所述医疗数据集的数据稳定。
具体地,在业务场景条件没有发生剧烈变化的情况下,缺失率,中位数,25%分位,75%分位等统计指标,以及离散变量取值的分布应该随着时间稳定,如果发生突然的变动,那么很有可能相应数据出现异常。
在本实施例中,所述连续变量统计指标包括平均值和标准差。
异常值检测包括:
将所述医疗数据集中的连续变量的平均值与标准差整数倍的差值作为第一阈值,将所述连续变量的平均值与标准差整数倍的和作为第二阈值。
判断所述医疗数据集中的连续变量是否集中于所述第一阈值与第二阈值确定的范围内。
若是,判定所述连续变量未出现异常值;若否,判定所述连续变量出现异常值。
具体地,根据统计学原理,正常的数据变化会符合正态分布,例如对于数值型变量,大部分的数值应该集中在mean+-N * sd范围内(N默认数值为2)。其中,mean表示平均值,sd表示标准差,N表示标准差的倍数。
(2)对所述多元变量组进行聚类分析和/或降维处理。具体包括以下几个方面。
a.对二维或三维的多元变量组进行聚类分析。
b.对超过三维的多元变量组直接进行聚类分析;或对超过三维的多元变量组进行降维处理,通过主成分分析将所述超过三维的多元变量组降为二维或三维的多元变量组,再进行聚类分析。
根据聚类分析的结果识别异常聚类样本。
具体地,聚类分析的算法包括k-means聚类、基于滑窗的聚类算法、基于密度的聚类算法以及其他可实现聚类分析的算法。
请参阅图4,显示为本发明的医疗数据的分析方法于一实施例中的二维变量聚类分析示意图。如图4所示,该数据集聚类之后呈现出3个聚类区域:聚类a区、聚类b区和聚类c区,其中,A样本点位于在聚类a区内部,因此,判定A样本点的数据正常;B样本点偏离聚类b区的数据聚集区域,因此,判定B样本点的数据异常;C样本点偏离聚类c区的数据聚集区域,因此,判定C样本点的数据异常。
请参阅图5,显示为本发明的医疗数据的分析方法于一实施例中的三维变量聚类分析示意图。如图5所示,显示了结合CD3、CD5、 CD19三种肿瘤标志物对癌症患者进行的聚类分析。其中,CD3、CD5、 CD19对应的坐标轴表示CD3、CD5、 CD19三种肿瘤标志物的荧光强度,经过三维变量组的聚类分析后,图中呈现了四个比较集中的聚类区域,分别表示一类患者、二类患者、三类患者及四类患者,若属于同一个分类,则CD3、CD5、 CD19三个特征则比较接近,由此,根据医疗人员可根据聚类结果做进一步的医疗分析,比如每一类患者在临床上的症状及相关检测指标的共同点等。
具体地,如果多元变量组的维度超过3维,利用PCA(principal componentsanalysis,主成分分析)手段进行降维处理,基于前2个,或者前3个主成分进行分析,然后识别出少数样本并且可视化,若转换为二维变量,则对聚类分析结果进行二维可视化显示;若转换为三维变量,则对聚类分析结果进行三维可视化显示。需要说明的是,对于超过3维的多元变量组均可以正常进行聚类分析,只是具有可视化显示需求时,需要将超过3维的多元变量组进行降维处理后再进行聚类结果的可视化显示。
S13,结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。
在本实施例中,一方面对多个所述医疗数据集中连续变量和离散变量的通用统计指标进行比较,判断不同医疗数据集之间通用统计指标的差异程度;所述通用统计指标包括:缺失率、去重处理后各数值的个数、出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比。
具体地,对于医疗场景,许多检验指标的缺失程度,代表不同医院诊疗行为是否一致。如果诊疗行为不一致,那么不同的数据集并不具备可比性,模型可能无法推广或互相通用。因此缺失分析是很重要的环节。又比如,A医院数据集中出现个数最多的数值是血栓检测的其中一项指标,B医院数据集中出现个数最多的数值是肝功能检测的其中一项指标,因此,判定A医院数据集与B医院数据集差异较大,机器训练模型无法通用。
另一方面对多个所述医疗数据集中的连续变量统计指标进行比较,判断不同医疗数据集之间连续变量统计指标的差异程度。例如,对多个所述医疗数据集中的最小值、25%分位、中位数、平均值、75%分位、最大值、偏度、峰度、正态性检验进行比较,这些指标可以反应两个数据集是否接近。
具体地,例如A医院的数据集的平均年龄是33岁,B医院的数据集的平均年龄是56岁,因两者的平均年龄相差较大,那么用A医院数据集训练的模型,很可能无法应用在B医院的数据集上。
又一方面对多个所述医疗数据集中离散变量取值的占比进行比较,判断不同医疗数据集之间取值分布的差异程度。
具体地,通过PSI(Population Stability Index,稳定度指标)这一针对离散型变量,衡量两个数据集质检分布差异程度的指标进行离散变量的比较。若没有差异,则PSI=0;若PSI越大,则两个数据集分布的差异越大。
进一步地,PSI的计算公式为:,其中,Ac表示真实分布,Ex表示期望分布(期望分布作为比较基准的分布)。于实际应用中,将医院A中性别取值为男、女及缺失的占比作为期望分布Ex,将医院B中性别取值为男、女及缺失的占比作为真实分布Ac,对男、女及缺失三种取值的计算结果进行SUM求和,以求得PSI。设定一预设规则:若PSI小于10%,则医院A与医院B的数据集的训练模型可以通用;若PSI处于10%-25%之间,针对医院A与医院B的数据集的训练模型是否可以通用进行具体情况分析;若PSI大于25%,则医院A与医院B的数据集的训练模型不能通用。
请参阅图6,显示为本发明的医疗数据的分析方法于一实施例中的模型取值分布对比图。如图6所示,显示了性别这一离散变量取值的占比。A医院的男女占比为3:7,B医院的男女占比为1:1,因两个医院的数据集取值分布差异较大,因此,B医院的数据集可能无法利用A医院数据集训练出来的模型。
请参阅图7,显示为本发明的医疗数据的分析方法于一实施例中的交互性探索界面图。如图7所示,针对不同医疗数据集之间的比对信息或单个数据集的分析结果可通过可视化图表的形式进行动态显示,并且用户通可对显示的分析内容进行交互操作。例如,对局部的放大,对特定条件的筛选,关闭/打开特定的数据集等。图7中的(a)age-数值分布横坐标间隔为10,通过鼠标的带圈十字进行局部选中拖动后,则对数值分布进行放大,如图7中的(b)中,横坐标间隔变为2。
进一步地,将数据集的探索性分析和异常样本检验的结果以数据图表方式进行可视化呈现,可以帮助业务人员快速理解数据集的情况和数据异常情况,使业务人员考虑相应的处理方案。例如:如果数据集A某个检查指标的缺失率比数据集B高很多,有以下可能:(1)数据集A的医院较少的进行某一项检查。(2)数据集A的数据准备过程存在错误,导致数据丢失。(3)两个数据集的患者差异较大。但是究竟是哪种原因,需要业务人员进一步调查并处理。
本发明所述的医疗数据的分析方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本实施例提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述医疗数据的分析方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
以下将结合图示对本实施例所提供的医疗数据的分析系统进行详细描述。需要说明的是,应理解以下系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:某一模块可以为单独设立的处理元件,也可以集成在下述系统的某一个芯片中实现。此外,某一模块也可以以程序代码的形式存储于下述系统的存储器中,由下述系统的某一个处理元件调用并执行以下某一模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
以下这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个数字信号处理器(Digital Signal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以下某个模块通过处理元件调用程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(Central ProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
请参阅图8,显示为本发明的医疗数据的分析系统于一实施例中的结构原理图。如图8所示,所述医疗数据的分析系统8包括:探索性分析模块71、异常检测模块72和差异判断模块73。
所述探索性分析模块71用于确定医疗数据集的连续变量统计指标和离散变量统计指标。
在本实施例中,所述探索性分析模块71具体用于分别确定所述医疗数据集中连续变量和离散变量的缺失率;对所述医疗数据集中连续变量和离散变量的数值进行去重处理,并统计各数值的个数;根据各数值的个数确定出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;确定所述医疗数据集中连续变量的数值型统计指标;确定所述医疗数据集中离散变量取值的占比。
所述异常检测模块72用于根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测。
在本实施例中,所述医疗数据集包括单变量数据和多元变量组;所述多元变量组是指变量个数大于一个的变量组合。所述异常检测模块72具体用于对所述单变量数据进行时序稳定性检测和异常值检测;对所述多元变量组进行聚类分析和/或降维处理。
所述差异判断模块73用于结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。
在本实施例中,所述差异判断模块73具体用于对多个所述医疗数据集中连续变量和离散变量的通用统计指标进行比较,判断不同医疗数据集之间通用统计指标的差异程度;所述通用统计指标包括:缺失率、去重处理后各数值的个数、出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;对多个所述医疗数据集中的连续变量统计指标进行比较,判断不同医疗数据集之间连续变量统计指标的差异程度;对多个所述医疗数据集中离散变量取值的占比进行比较,判断不同医疗数据集之间取值分布的差异程度。
本发明所述的医疗数据的分析系统可以实现本发明所述的医疗数据的分析方法,但本发明所述的医疗数据的分析方法的实现装置包括但不限于本实施例列举的医疗数据的分析系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
请参阅图9,显示为本发明的医疗数据的分析装置于一实施例中的结构连接示意图。如图9所示,本实施例提供一种装置9,所述装置9包括:处理器91、存储器92、通信接口93或/和系统总线94;存储器92和通信接口93通过系统总线94与处理器91连接并完成相互间的通信,存储器92用于存储计算机程序,通信接口93用于和其他装置进行通信,处理器91用于运行计算机程序,使所述装置9执行所述医疗数据的分析方法的各个步骤。
上述提到的系统总线94可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。通信接口93用于实现数据库访问装置与其他装置(如客户端、读写库和只读库)之间的通信。存储器92可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器91可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(AlicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明所述医疗数据的分析方法、系统、介质及装置针对不具备专业IT技术和编程技能的业务人员,提供了一种方便可以使用的医疗数据分析工具,使业务人员自动化获取数据集的探索性分析和异常样本检验的结果,并将数据集的探索性分析和异常样本检验的结果以数据图表方式进行可视化呈现,通过呈现结果的交互操作帮助业务人员快速理解数据集的情况和数据异常情况,并考虑对应处理方案。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种医疗数据的分析方法,其特征在于,所述医疗数据的分析方法包括:
确定医疗数据集的连续变量统计指标和离散变量统计指标;
根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;
结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。
2.根据权利要求1所述的医疗数据的分析方法,其特征在于,确定医疗数据集的连续变量统计指标和离散变量统计指标的步骤包括:
分别确定所述医疗数据集中连续变量和离散变量的缺失率;
对所述医疗数据集中连续变量和离散变量的数值进行去重处理,并统计各数值的个数;
根据各数值的个数确定出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;
确定所述医疗数据集中连续变量的数值型统计指标;
确定所述医疗数据集中离散变量取值的占比。
3.根据权利要求1所述的医疗数据的分析方法,其特征在于,所述医疗数据集包括单变量数据和多元变量组;所述多元变量组是指变量个数大于一个的变量组合;根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测的步骤包括:
对所述单变量数据进行时序稳定性检测和异常值检测;
对所述多元变量组进行聚类分析和/或降维处理。
4.根据权利要求3所述的医疗数据的分析方法,其特征在于,时序稳定性检测的步骤包括:
在业务场景条件未变化时,判断所述连续变量统计指标和离散变量统计指标是否发生变化;
若是,判定所述医疗数据集出现异常数据;若否,判定所述医疗数据集的数据稳定。
5.根据权利要求3所述的医疗数据的分析方法,其特征在于,所述连续变量统计指标包括平均值和标准差;异常值检测的步骤包括:
将所述医疗数据集中的连续变量的平均值与标准差整数倍的差值作为第一阈值,将所述连续变量的平均值与标准差整数倍的和作为第二阈值;
判断所述医疗数据集中的连续变量是否集中于所述第一阈值与第二阈值确定的范围内;
若是,判定所述连续变量未出现异常值;若否,判定所述连续变量出现异常值。
6.根据权利要求3所述的医疗数据的分析方法,其特征在于,对所述多元变量组进行聚类分析和/或降维处理的步骤包括:
对二维或三维的多元变量组进行聚类分析;
对超过三维的多元变量组直接进行聚类分析;或
对超过三维的多元变量组进行降维处理,通过主成分分析将所述超过三维的多元变量组降为二维或三维的多元变量组,再进行聚类分析;
根据聚类分析的结果识别异常聚类样本。
7.根据权利要求2所述的医疗数据的分析方法,其特征在于,结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度的步骤包括:
对多个所述医疗数据集中连续变量和离散变量的通用统计指标进行比较,判断不同医疗数据集之间通用统计指标的差异程度;所述通用统计指标包括:缺失率、去重处理后各数值的个数、出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;
对多个所述医疗数据集中的连续变量统计指标进行比较,判断不同医疗数据集之间连续变量统计指标的差异程度;
对多个所述医疗数据集中离散变量取值的占比进行比较,判断不同医疗数据集之间取值分布的差异程度。
8.一种医疗数据的分析系统,其特征在于,所述医疗数据的分析系统包括:
探索性分析模块,用于确定医疗数据集的连续变量统计指标和离散变量统计指标;
异常检测模块,用于根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;
差异判断模块,用于结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。
9.一种介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的医疗数据的分析方法。
10.一种装置,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述装置执行如权利要求1至7中任一项所述的医疗数据的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250091.6A CN112071432B (zh) | 2020-11-11 | 2020-11-11 | 医疗数据的分析方法、系统、介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250091.6A CN112071432B (zh) | 2020-11-11 | 2020-11-11 | 医疗数据的分析方法、系统、介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112071432A true CN112071432A (zh) | 2020-12-11 |
CN112071432B CN112071432B (zh) | 2024-07-09 |
Family
ID=73655791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011250091.6A Active CN112071432B (zh) | 2020-11-11 | 2020-11-11 | 医疗数据的分析方法、系统、介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112071432B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768061A (zh) * | 2021-01-26 | 2021-05-07 | 武汉大学 | 提高医疗等级型数据矫正效率的方法、系统及存储介质 |
CN113010493A (zh) * | 2021-03-16 | 2021-06-22 | 北京云从科技有限公司 | 一种数据质量在线分析方法、装置、机器可读介质及设备 |
CN114707608A (zh) * | 2021-04-14 | 2022-07-05 | 内蒙古卫数数据科技有限公司 | 医疗质控数据处理方法、装置、设备、介质及程序产品 |
CN115083551A (zh) * | 2022-07-05 | 2022-09-20 | 上海柯林布瑞信息技术有限公司 | 自动化医学统计分析方法、系统、电子设备及存储介质 |
CN115631866A (zh) * | 2022-12-19 | 2023-01-20 | 成都瑞华康源科技有限公司 | 一种针对医疗大数据采集的快速精准去重方法 |
CN118039134A (zh) * | 2024-04-09 | 2024-05-14 | 达州市中心医院(达州市人民医院) | 基于大数据的医疗信息数据增强方法及系统 |
CN118507004A (zh) * | 2024-07-18 | 2024-08-16 | 江苏盖睿健康科技有限公司 | 基于多终端的智能医疗数据管控方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488889A (zh) * | 2013-09-18 | 2014-01-01 | 刘华锋 | 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统 |
US9514250B2 (en) * | 2010-07-29 | 2016-12-06 | General Electric Company | System and method for analyzing and visualizing enumerated information |
CN106599325A (zh) * | 2017-01-18 | 2017-04-26 | 河海大学 | 一种基于R和HighCharts的数据挖掘可视化平台的构建方法 |
CN110781021A (zh) * | 2019-10-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 异常检测方法、装置、计算机设备及存储介质 |
CN111090685A (zh) * | 2019-12-19 | 2020-05-01 | 第四范式(北京)技术有限公司 | 一种数据异常特征的检测方法及装置 |
CN111460777A (zh) * | 2020-03-12 | 2020-07-28 | 中国农业科学院蔬菜花卉研究所 | 一种植物品种dus测试方法 |
-
2020
- 2020-11-11 CN CN202011250091.6A patent/CN112071432B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514250B2 (en) * | 2010-07-29 | 2016-12-06 | General Electric Company | System and method for analyzing and visualizing enumerated information |
CN103488889A (zh) * | 2013-09-18 | 2014-01-01 | 刘华锋 | 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统 |
CN106599325A (zh) * | 2017-01-18 | 2017-04-26 | 河海大学 | 一种基于R和HighCharts的数据挖掘可视化平台的构建方法 |
CN110781021A (zh) * | 2019-10-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 异常检测方法、装置、计算机设备及存储介质 |
CN111090685A (zh) * | 2019-12-19 | 2020-05-01 | 第四范式(北京)技术有限公司 | 一种数据异常特征的检测方法及装置 |
CN111460777A (zh) * | 2020-03-12 | 2020-07-28 | 中国农业科学院蔬菜花卉研究所 | 一种植物品种dus测试方法 |
Non-Patent Citations (2)
Title |
---|
张文彤等: "SPSS统计分析基础教程", 《SPSS统计分析基础教程》 * |
张文彤等: "SPSS统计分析基础教程", 《SPSS统计分析基础教程》, 30 November 2011 (2011-11-30), pages 83 - 85 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768061A (zh) * | 2021-01-26 | 2021-05-07 | 武汉大学 | 提高医疗等级型数据矫正效率的方法、系统及存储介质 |
CN113010493A (zh) * | 2021-03-16 | 2021-06-22 | 北京云从科技有限公司 | 一种数据质量在线分析方法、装置、机器可读介质及设备 |
CN114707608A (zh) * | 2021-04-14 | 2022-07-05 | 内蒙古卫数数据科技有限公司 | 医疗质控数据处理方法、装置、设备、介质及程序产品 |
CN114707608B (zh) * | 2021-04-14 | 2023-08-01 | 内蒙古卫数数据科技有限公司 | 医疗质控数据处理方法、装置、设备、介质及程序产品 |
CN115083551A (zh) * | 2022-07-05 | 2022-09-20 | 上海柯林布瑞信息技术有限公司 | 自动化医学统计分析方法、系统、电子设备及存储介质 |
CN115631866A (zh) * | 2022-12-19 | 2023-01-20 | 成都瑞华康源科技有限公司 | 一种针对医疗大数据采集的快速精准去重方法 |
CN118039134A (zh) * | 2024-04-09 | 2024-05-14 | 达州市中心医院(达州市人民医院) | 基于大数据的医疗信息数据增强方法及系统 |
CN118039134B (zh) * | 2024-04-09 | 2024-06-04 | 达州市中心医院(达州市人民医院) | 基于大数据的医疗信息数据增强方法及系统 |
CN118507004A (zh) * | 2024-07-18 | 2024-08-16 | 江苏盖睿健康科技有限公司 | 基于多终端的智能医疗数据管控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112071432B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112071432A (zh) | 医疗数据的分析方法、系统、介质及装置 | |
US11709868B2 (en) | Landmark point selection | |
Gallego et al. | Bringing cohort studies to the bedside: framework for a ‘green button’to support clinical decision-making | |
US20170169174A1 (en) | Detection of fraud or abuse | |
US12079208B2 (en) | Data processing method, apparatus, and device | |
US20170083670A1 (en) | Drug adverse event extraction method and apparatus | |
US11087860B2 (en) | Pattern discovery visual analytics system to analyze characteristics of clinical data and generate patient cohorts | |
US11152087B2 (en) | Ensuring quality in electronic health data | |
WO2021126688A1 (en) | Automated chromatogram analysis for blood test evaluation | |
US20190154707A1 (en) | Smart Advisor for Blood Test Evaluation | |
CN113642672A (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
Zhang et al. | A visual analytics approach to high-dimensional logistic regression modeling and its application to an environmental health study | |
CN108447047A (zh) | 抗酸杆菌检测方法及装置 | |
US20220058749A1 (en) | Medical fraud, waste, and abuse analytics systems and methods | |
JP6602013B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN111858643B (zh) | 数据库变量生产方法、系统、计算机设备和存储介质 | |
Kalankesh et al. | Taming EHR data: using semantic similarity to reduce dimensionality | |
CN116431268A (zh) | 基于大数据处理的数据可视化分析方法、系统及存储介质 | |
CN111311201A (zh) | 一种智能化项目匹配分析工具及其实现方法 | |
CN111161881A (zh) | 一种疾病共现关系的识别方法、装置及存储介质 | |
Martinez et al. | Understanding and Predicting Cognitive Improvement of Young Adults in Ischemic Stroke Rehabilitation Therapy | |
Ambika et al. | Anaemia Estimation for Patients Using Lasso And Ridge Regression Algorithms | |
CN117099084A (zh) | 增量规则条件评估 | |
CN108461153B (zh) | 试验数据的管理方法/系统、计算机可读存储介质及设备 | |
Marlin et al. | Examining non-linear effects and effect modification in IPD meta-analysis part 2: guidance is available |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |