CN114925196A - 多层感知网络下糖尿病血检异常值辅助剔除方法 - Google Patents

多层感知网络下糖尿病血检异常值辅助剔除方法 Download PDF

Info

Publication number
CN114925196A
CN114925196A CN202210195966.XA CN202210195966A CN114925196A CN 114925196 A CN114925196 A CN 114925196A CN 202210195966 A CN202210195966 A CN 202210195966A CN 114925196 A CN114925196 A CN 114925196A
Authority
CN
China
Prior art keywords
data
values
outlier
inspection data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210195966.XA
Other languages
English (en)
Other versions
CN114925196B (zh
Inventor
潘铮
蔡淳
张天驰
陈诚
沈赟
曹川韡
钟翌曦
童庆
尚明曦
崔欣
黎衍云
刘月星
赵晓静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WONDERS INFORMATION CO Ltd
Health Cloud Shanghai Digital Technology Co ltd
Shanghai Sixth Peoples Hospital
Original Assignee
WONDERS INFORMATION CO Ltd
Health Cloud Shanghai Digital Technology Co ltd
Shanghai Sixth Peoples Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WONDERS INFORMATION CO Ltd, Health Cloud Shanghai Digital Technology Co ltd, Shanghai Sixth Peoples Hospital filed Critical WONDERS INFORMATION CO Ltd
Priority to CN202210195966.XA priority Critical patent/CN114925196B/zh
Publication of CN114925196A publication Critical patent/CN114925196A/zh
Application granted granted Critical
Publication of CN114925196B publication Critical patent/CN114925196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种多层感知网络下糖尿病血检异常值辅助剔除方法。本发明先根据无监督机器学习算法找出可能的异常值即离群值,根据是否是离群值分类,抽取数据后再交由专业医生对是否是异常值标注标签,从而变为分类任务,最后通过MLP模型(多层感知器)判断是否为异常数据。由于部分血液检查的结果数值分布比较特殊,单用无监督学习分离离群值,会导致离群的正常值被当作异常值,而本发明进行分层抽样后变为分类数据可以改善这种问题。另外本发明的分类任务还能考虑到不同变量对于检查值的影响,例如三甲医院的检验值可信度更高等。

Description

多层感知网络下糖尿病血检异常值辅助剔除方法
技术领域
本发明涉及一种用于处理糖尿病患者血液检查异常值的算法,属于医学数据异常值处理技术领域。
背景技术
异常值处理方法主要包括统计学方法以及机器学习方法。统计学方法通过对数据进行描述统计分析,观察其方差、标准差、均值等是否和常规值有所差异来判断异常值。机器学习方法通常采用聚类等无监督学习来分离离群值。
但对于医疗数据而言,不同的检验项目的异常值有着截然不同的分布,显然采用统计学方法无法应对。而某些检验项目的正常值可能恰好是分离值,因此采用无监督学习方式来判断异常值会导致离群的正常值被当作异常值。
发明内容
本发明要解决的技术问题是:现有的异常值处理方法无法全面应对医疗数据不同检验项目的异常值具有截然不同分布的问题。
为了解决上述技术问题,本发明的技术方案是提供了一种多层感知网络下糖尿病血检异常值辅助剔除方法,其特征在于,包括以下步骤:
步骤1、检查来自不同医院的各检查项名称,将属于同一检查项目的不同检查项名称归为同一组;
步骤2、获取来自不同医院的每个分组下的检查数据;
步骤3、对检查数据进行初步清洗;
步骤4、采用无监督学习方式分离每个分组下的离群数据,获得每个分组下的离群数据以及非离群数据;
步骤5、设定多个分类变量,并获取与检查数据相对应的分类变量的数据值,各分类变量的数据值包括医院的属性值、患者的属性值、检查时间的属性值以及检查项的属性值;
步骤6、从每个分组的离群数据以及非离群数据中分别抽取检查数据样本,并获得与每个检查数据样本相对应的分类变量的数据值;
步骤7、由医生判断步骤6抽取的检查数据样本是否为异常值,并打上标签;
步骤8、对每个检查数据样本相对应的所有分类变量的数据值做嵌入矩阵处理,其中,所有分类变量中的连续数据值在做嵌入矩阵处理前先进行标准化处理,将标准化处理后的连续数据值做嵌入矩阵处理,同时将检查数据样本也做嵌入矩阵处理,则对于每个检查数据样本都能够获得一个对应的输入矩阵,该输入矩阵包括检查数据样本以及对应的所有分类变量的数据值;
步骤9、将步骤8获得的输入矩阵作为输入,将步骤7获得的标签作为输出,对异常值分类器模型进行训练,获得训练后的异常值分类器模型;
步骤10、实时获得检查数据以及对应的各分类变量的数据值后,利用步骤8所记载的步骤获得实时输入矩阵,将实时输入矩阵输入训练后的异常值分类器模型后获得当前检查数据是否是异常值的判断结论。
优选地,步骤3中,清洗检查数据中的负数、中文以及符号。
优选地,步骤4中,无监督学习方式采用孤立森林算法。
优选地,步骤7中,抽取样本时,确保离群数据的样本数至少占总样本数的1/4。
优选地,步骤8中,做嵌入矩阵处理时,先将分类变量的数据值转换为单热编码向量,随后将单热编码向量乘以嵌入矩阵。
优选地,步骤9中,异常值分类器模型采用MLP分类器。
由于部分血液检查的结果数值分布比较特殊,单用无监督学习分离离群值,会导致离群的正常值被当作异常值,而本发明进行分层抽样后变为分类数据可以改善这种问题。另外本发明的分类任务还能考虑到不同变量对于检查值的影响,例如三甲医院的检验值可信度更高等。
附图说明
图1为本发明的流程图;
图2为MLP分类器的处理过程示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1所示,本发明公开了一种多层感知网络下糖尿病血检异常值辅助剔除方法,包括以下步骤:
步骤1、检查来自不同医院的各检查项名称(检查项名称包括检查项中文名称、检查项英文名称、检查项简称以及检查项代码),将属于同一检查项目的不同检查项名称归为同一组。
例如:同样是糖化血红蛋白,某些医院的检查项名称可能是“HBA1C”,另外一些医院的检查项名称可能是“GHB”。本实施例中,由医生判断收集来的所有检查项名称是否属于同一检查项目,从而归为不同的分组。
步骤2、获取来自不同医院的每个分组下的检查数据。
步骤3、对检查数据进行初步清洗,包括清洗检查数据中的负数、中文以及符号。
步骤4、采用无监督学习方式分离每个分组下的离群数据,获得每个分组下的离群数据以及非离群数据。
本实施例中,无监督学习方式采用孤立森林算法,孤立森林算法用于分离分布稀疏且离高密度群距离较远的相关数据,这些数据被称为前述的离群数据。
孤立森林算法中,单颗树算法流程包括以下步骤:
步骤1、从训练数据中随机选择n个原数据作为子样本,放入孤立树根节点;
步骤2、随机指定一个维度,在指定维度的最大值和最小值之间随机生成切割点m,用于分割当前节点数据;
步骤3、通过切割点生成一个超平面,将节点空间切分为2个子空间,当前所选维度下小于m的点放左分支,大于等于m的点放于右分支;
步骤4、在节点的左分支和右分支节点分别递归步骤2以及步骤3,一直到叶节点上只剩下一个样本,或节点上所有样本特征完全相同,或树已经达到了设定高度。
孤立森林算法中,整合多棵树的结果包括以下步骤:
Figure BDA0003525659520000031
式中:h(x)为样本点x的路径长度,E(h(x))为路径长度的期望值,c(n)为给定样本n的路径平均长度。
当E(h(x))→c(n)时,f(x,n)→0.5,不能区分样本点x是否异常,此时样本路径平均长度与一批孤立数中期望长度相近;
当E(h(x))→0时,f(x,n)→1,样本点x被判定为异常;
当E(h(x))→(n-1)时,f(x,n)→0,样本点x被判定为正常。
步骤5、设定多个分类变量,并获取与检查数据相对应的分类变量的数据值,各分类变量的数据值包括医院的属性值、患者的属性值、检查时间的属性值以及检查项的属性值。例如:
检查时间的属性值可以有:
星期几(例如星期3);
月份中的第几天(例如:第10天);
一年中的第几天(例如:第40天);
周(例如:第5周);
月份(例如:第2月);
年份(例如:2019年);
是月份开始(真/假);
是月末(真/假);
是医院假期吗(真/假)。
医院的属性值包括医院的分类,比如一二三级,若检查数据来自三甲医院,则该检查数据具有较高的可信度。
步骤6、从每个分组的离群数据以及非离群数据中分别抽取检查数据样本,并获得与每个检查数据样本相对应的分类变量的数据值。本实施例中,抽取样本时,尽量确保离群数据的样本数至少占总样本数的1/4。
步骤7、由医生判断步骤6抽取的检查数据样本是否为异常值,并打上标签。
步骤8、对每个检查数据样本相对应的所有分类变量的数据值做嵌入矩阵处理,其中,所有分类变量中的连续数据值在做嵌入矩阵处理前先进行标准化处理,将标准化处理后的连续数据值做嵌入矩阵处理,同时将检查数据样本也做嵌入矩阵处理,则对于每个检查数据样本都能够获得一个对应的输入矩阵,该输入矩阵包括检查数据样本以及对应的所有分类变量的数据值。
步骤9、将步骤8获得的输入矩阵作为输入,将步骤7获得的标签作为输出,对异常值分类器模型进行训练,获得训练后的异常值分类器模型。
步骤10、实时获得检查数据以及对应的各分类变量的数据值后,利用步骤8所记载的步骤获得实时输入矩阵,将实时输入矩阵输入训练后的异常值分类器模型后获得当前检查数据是否是异常值的判断结论
本实施例中,异常值分类器模型采用MLP分类器。MLP分类器的输入层输入的数据为通过步骤7获得的输入矩阵。在对所有分类变量的数据值做嵌入矩阵处理时,先将每个分类变量的数据值转换为单热编码向量,再将该单热编码向量乘以相应的嵌入矩阵(嵌入矩阵初始化为所有元素都为“1”的矩阵)。输入层的激活函数采用ReLU,并且加入BN层。MLP分类器的中间层与输入层类似,同样采用ReLU和BN,将输入层的输出部分作为中间层的输入部分。MLP分类器的输出层计算中间层的输出后生成最后的结果,输出层的激活函数为sigmoid。输出层输出的最终结果为二分类,即是否为异常数据。其中,为了防止整个MLP分类器过拟合,训练时,采用权重衰减和dropout的方法。
本发明先根据无监督机器学习算法找出可能的异常值即离群值,根据是否是离群值分类,抽取数据后再交由专业医生对是否是异常值标注标签,从而变为分类任务,最后通过MLP模型(多层感知器)判断是否为异常数据。

Claims (6)

1.一种多层感知网络下糖尿病血检异常值辅助剔除方法,其特征在于,包括以下步骤:
步骤1、检查来自不同医院的各检查项名称,将属于同一检查项目的不同检查项名称归为同一组;
步骤2、获取来自不同医院的每个分组下的检查数据;
步骤3、对检查数据进行初步清洗;
步骤4、采用无监督学习方式分离每个分组下的离群数据,获得每个分组下的离群数据以及非离群数据;
步骤5、设定多个分类变量,并获取与检查数据相对应的分类变量的数据值,各分类变量的数据值包括医院的属性值、患者的属性值、检查时间的属性值以及检查项的属性值;
步骤6、从每个分组的离群数据以及非离群数据中分别抽取检查数据样本,并获得与每个检查数据样本相对应的分类变量的数据值;
步骤7、由医生判断步骤6抽取的检查数据样本是否为异常值,并打上标签;
步骤8、对每个检查数据样本相对应的所有分类变量的数据值做嵌入矩阵处理,其中,所有分类变量中的连续数据值在做嵌入矩阵处理前先进行标准化处理,将标准化处理后的连续数据值做嵌入矩阵处理,同时将检查数据样本也做嵌入矩阵处理,则对于每个检查数据样本都能够获得一个对应的输入矩阵,该输入矩阵包括检查数据样本以及对应的所有分类变量的数据值;
步骤9、将步骤8获得的输入矩阵作为输入,将步骤7获得的标签作为输出,对异常值分类器模型进行训练,获得训练后的异常值分类器模型;
步骤10、实时获得检查数据以及对应的各分类变量的数据值后,利用步骤8所记载的步骤获得实时输入矩阵,将实时输入矩阵输入训练后的异常值分类器模型后获得当前检查数据是否是异常值的判断结论。
2.如权利要求1所述的一种多层感知网络下糖尿病血检异常值辅助剔除方法,其特征在于,步骤3中,清洗检查数据中的负数、中文以及符号。
3.如权利要求1所述的一种多层感知网络下糖尿病血检异常值辅助剔除方法,其特征在于,步骤4中,无监督学习方式采用孤立森林算法。
4.如权利要求1所述的一种多层感知网络下糖尿病血检异常值辅助剔除方法,其特征在于,步骤7中,抽取样本时,确保离群数据的样本数至少占总样本数的1/4。
5.如权利要求1所述的一种多层感知网络下糖尿病血检异常值辅助剔除方法,其特征在于,步骤8中,做嵌入矩阵处理时,先将分类变量的数据值转换为单热编码向量,随后将单热编码向量乘以嵌入矩阵。
6.如权利要求1所述的一种多层感知网络下糖尿病血检异常值辅助剔除方法,其特征在于,步骤9中,异常值分类器模型采用MLP分类器。
CN202210195966.XA 2022-03-01 2022-03-01 多层感知网络下糖尿病血检异常值辅助剔除方法 Active CN114925196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210195966.XA CN114925196B (zh) 2022-03-01 2022-03-01 多层感知网络下糖尿病血检异常值辅助剔除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210195966.XA CN114925196B (zh) 2022-03-01 2022-03-01 多层感知网络下糖尿病血检异常值辅助剔除方法

Publications (2)

Publication Number Publication Date
CN114925196A true CN114925196A (zh) 2022-08-19
CN114925196B CN114925196B (zh) 2024-05-21

Family

ID=82804670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210195966.XA Active CN114925196B (zh) 2022-03-01 2022-03-01 多层感知网络下糖尿病血检异常值辅助剔除方法

Country Status (1)

Country Link
CN (1) CN114925196B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408581A (zh) * 2023-12-15 2024-01-16 青岛海洋科技中心 潜浮标数据质量控制方法、系统、计算机及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004902A1 (en) * 2001-06-27 2003-01-02 Nec Corporation Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof
US20050160340A1 (en) * 2004-01-02 2005-07-21 Naoki Abe Resource-light method and apparatus for outlier detection
WO2017120519A1 (en) * 2016-01-07 2017-07-13 Amazon Technologies, Inc. Outlier detection for streaming data
WO2019233189A1 (zh) * 2018-06-04 2019-12-12 江南大学 一种传感网络异常数据检测方法
EP3620983A1 (en) * 2018-09-05 2020-03-11 Sartorius Stedim Data Analytics AB Computer-implemented method, computer program product and system for data analysis
CN111191726A (zh) * 2019-12-31 2020-05-22 浙江大学 一种基于弱监督学习多层感知器的故障分类方法
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
US20200379868A1 (en) * 2019-05-31 2020-12-03 Gurucul Solutions, Llc Anomaly detection using deep learning models
CN113076215A (zh) * 2021-04-08 2021-07-06 华南理工大学 一种独立于数据类型的无监督异常检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004902A1 (en) * 2001-06-27 2003-01-02 Nec Corporation Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof
US20050160340A1 (en) * 2004-01-02 2005-07-21 Naoki Abe Resource-light method and apparatus for outlier detection
WO2017120519A1 (en) * 2016-01-07 2017-07-13 Amazon Technologies, Inc. Outlier detection for streaming data
WO2019233189A1 (zh) * 2018-06-04 2019-12-12 江南大学 一种传感网络异常数据检测方法
EP3620983A1 (en) * 2018-09-05 2020-03-11 Sartorius Stedim Data Analytics AB Computer-implemented method, computer program product and system for data analysis
US20200379868A1 (en) * 2019-05-31 2020-12-03 Gurucul Solutions, Llc Anomaly detection using deep learning models
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111191726A (zh) * 2019-12-31 2020-05-22 浙江大学 一种基于弱监督学习多层感知器的故障分类方法
CN113076215A (zh) * 2021-04-08 2021-07-06 华南理工大学 一种独立于数据类型的无监督异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
生志荣;程龙生;: "基于多分类马田系统的半监督数据异常点检测方法", 数学的实践与认识, no. 10, 23 May 2018 (2018-05-23) *
苏加强;丁柳云;: "基于R的监督式AdaBoost异常值检测应用", 淮海工学院学报(自然科学版), no. 01, 15 March 2013 (2013-03-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408581A (zh) * 2023-12-15 2024-01-16 青岛海洋科技中心 潜浮标数据质量控制方法、系统、计算机及存储介质
CN117408581B (zh) * 2023-12-15 2024-03-26 青岛海洋科技中心 潜浮标数据质量控制方法、系统、计算机及存储介质

Also Published As

Publication number Publication date
CN114925196B (zh) 2024-05-21

Similar Documents

Publication Publication Date Title
US7174205B2 (en) Cardiac diagnostic system and method
CN110245657B (zh) 病理图像相似性检测方法及检测装置
CN111325103A (zh) 一种细胞标注系统和方法
CN109009102B (zh) 一种基于脑电图深度学习的辅助诊断方法及系统
CN111899866B (zh) 基于深度学习的外科手术并发症评测系统
CN112294341B (zh) 一种基于轻量卷积神经网络的睡眠脑电纺锤波识别方法及系统
CN112579808B (zh) 数据标注处理方法及装置、系统
CN111956214A (zh) 基于U-net端对端神经网络模型的QRS波自动检测方法
CN113284136A (zh) 一种双损失函数训练的残差网络和XGBoost的医学图像分类方法
CN114925196B (zh) 多层感知网络下糖尿病血检异常值辅助剔除方法
Ali et al. A novel approach for best parameters selection and feature engineering to analyze and detect diabetes: Machine learning insights
CN112926332A (zh) 一种实体关系联合抽取方法及装置
CN114519705A (zh) 一种用于医学选拔与鉴定的超声标准数据处理方法及系统
CN112990270B (zh) 一种传统特征与深度特征的自动融合方法
Breve et al. Visual ECG Analysis in Real-world Scenarios.
Maithili et al. Optimized CNN model for diabetic retinopathy detection and classification
Bajcsi et al. Towards feature selection for digital mammogram classification
US6941288B2 (en) Online learning method in a decision system
CN109378082A (zh) 互联网医疗问诊的监管方法、电子装置及可读存储介质
CN116504392A (zh) 一种基于数据分析的智能辅助诊断提示系统
CN107122394A (zh) 异常数据检测方法和装置
CN113838018B (zh) 基于Cnn-former的肝纤维化病变检测模型训练方法与系统
CN114707608A (zh) 医疗质控数据处理方法、装置、设备、介质及程序产品
CN114300122A (zh) 基于电子病历的作物病害诊断方法及系统
Tobias et al. Android Application for Chest X-ray Health Classification From a CNN Deep Learning TensorFlow Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant