CN113838018A - 基于Cnn-former的肝纤维化病变检测模型训练方法与系统 - Google Patents
基于Cnn-former的肝纤维化病变检测模型训练方法与系统 Download PDFInfo
- Publication number
- CN113838018A CN113838018A CN202111085690.1A CN202111085690A CN113838018A CN 113838018 A CN113838018 A CN 113838018A CN 202111085690 A CN202111085690 A CN 202111085690A CN 113838018 A CN113838018 A CN 113838018A
- Authority
- CN
- China
- Prior art keywords
- cnn
- former
- layer
- lesion detection
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 230000003902 lesion Effects 0.000 title claims abstract description 59
- 206010019668 Hepatic fibrosis Diseases 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000001575 pathological effect Effects 0.000 claims abstract description 28
- 208000019425 cirrhosis of liver Diseases 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 208000019423 liver disease Diseases 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 24
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 13
- 229960004072 thrombin Drugs 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 108090000190 Thrombin Proteins 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 235000012000 cholesterol Nutrition 0.000 claims description 9
- 201000010099 disease Diseases 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 claims description 8
- 108010082126 Alanine transaminase Proteins 0.000 claims description 8
- 102000009027 Albumins Human genes 0.000 claims description 8
- 108010088751 Albumins Proteins 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 108060003951 Immunoglobulin Proteins 0.000 claims description 7
- 210000003743 erythrocyte Anatomy 0.000 claims description 7
- 102000018358 immunoglobulin Human genes 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 7
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 claims description 6
- 102000012192 Cystatin C Human genes 0.000 claims description 6
- 108010061642 Cystatin C Proteins 0.000 claims description 6
- 238000008789 Direct Bilirubin Methods 0.000 claims description 6
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 6
- 206010061218 Inflammation Diseases 0.000 claims description 6
- 238000008050 Total Bilirubin Reagent Methods 0.000 claims description 6
- 102000013529 alpha-Fetoproteins Human genes 0.000 claims description 6
- 108010026331 alpha-Fetoproteins Proteins 0.000 claims description 6
- 210000001772 blood platelet Anatomy 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 claims description 6
- 239000008103 glucose Substances 0.000 claims description 6
- 230000004054 inflammatory process Effects 0.000 claims description 6
- 102000006395 Globulins Human genes 0.000 claims description 5
- 108010044091 Globulins Proteins 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 210000000265 leukocyte Anatomy 0.000 claims description 5
- 150000003626 triacylglycerols Chemical class 0.000 claims description 5
- 102000003914 Cholinesterases Human genes 0.000 claims description 4
- 108090000322 Cholinesterases Proteins 0.000 claims description 4
- 102000001554 Hemoglobins Human genes 0.000 claims description 4
- 108010054147 Hemoglobins Proteins 0.000 claims description 4
- 102000007584 Prealbumin Human genes 0.000 claims description 4
- 108010071690 Prealbumin Proteins 0.000 claims description 4
- 239000003613 bile acid Substances 0.000 claims description 4
- 229940048961 cholinesterase Drugs 0.000 claims description 4
- 230000035622 drinking Effects 0.000 claims description 4
- 239000004220 glutamic acid Substances 0.000 claims description 4
- 229940027941 immunoglobulin g Drugs 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- HSINOMROUCMIEA-FGVHQWLLSA-N (2s,4r)-4-[(3r,5s,6r,7r,8s,9s,10s,13r,14s,17r)-6-ethyl-3,7-dihydroxy-10,13-dimethyl-2,3,4,5,6,7,8,9,11,12,14,15,16,17-tetradecahydro-1h-cyclopenta[a]phenanthren-17-yl]-2-methylpentanoic acid Chemical compound C([C@@]12C)C[C@@H](O)C[C@H]1[C@@H](CC)[C@@H](O)[C@@H]1[C@@H]2CC[C@]2(C)[C@@H]([C@H](C)C[C@H](C)C(O)=O)CC[C@H]21 HSINOMROUCMIEA-FGVHQWLLSA-N 0.000 claims description 3
- NTDFJPCHHGBHCO-UHFFFAOYSA-N 7,9-dihydro-3H-purine-2,6,8-trione Chemical compound OC1=NC(O)=C2NC(O)=NC2=N1.N1C(=O)NC(=O)C2=C1NC(=O)N2 NTDFJPCHHGBHCO-UHFFFAOYSA-N 0.000 claims description 3
- 208000007848 Alcoholism Diseases 0.000 claims description 3
- 108010003415 Aspartate Aminotransferases Proteins 0.000 claims description 3
- 102000004625 Aspartate Aminotransferases Human genes 0.000 claims description 3
- 108010028780 Complement C3 Proteins 0.000 claims description 3
- 102000016918 Complement C3 Human genes 0.000 claims description 3
- 108010028778 Complement C4 Proteins 0.000 claims description 3
- 206010016654 Fibrosis Diseases 0.000 claims description 3
- 108090000340 Transaminases Proteins 0.000 claims description 3
- 206010001584 alcohol abuse Diseases 0.000 claims description 3
- 208000025746 alcohol use disease Diseases 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 229920001436 collagen Polymers 0.000 claims description 3
- 229940109239 creatinine Drugs 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004761 fibrosis Effects 0.000 claims description 3
- 208000006454 hepatitis Diseases 0.000 claims description 3
- 231100000283 hepatitis Toxicity 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 102000004169 proteins and genes Human genes 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000003238 somatosensory effect Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 102000014898 transaminase activity proteins Human genes 0.000 claims description 3
- 108010035532 Collagen Proteins 0.000 claims description 2
- 102000008186 Collagen Human genes 0.000 claims description 2
- 102100024295 Maltase-glucoamylase Human genes 0.000 claims description 2
- 108010050808 Procollagen Proteins 0.000 claims description 2
- 101000693619 Starmerella bombicola Lactone esterase Proteins 0.000 claims description 2
- 239000002253 acid Substances 0.000 claims description 2
- 108010028144 alpha-Glucosidases Proteins 0.000 claims description 2
- 210000003714 granulocyte Anatomy 0.000 claims description 2
- 210000004698 lymphocyte Anatomy 0.000 claims description 2
- 210000000440 neutrophil Anatomy 0.000 claims description 2
- 108010034596 procollagen Type III-N-terminal peptide Proteins 0.000 claims description 2
- 238000011425 standardization method Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 7
- 210000004185 liver Anatomy 0.000 abstract 1
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 102000012086 alpha-L-Fucosidase Human genes 0.000 description 3
- 108010061314 alpha-L-Fucosidase Proteins 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 2
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 2
- 108020004206 Gamma-glutamyltransferase Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- CVSVTCORWBXHQV-UHFFFAOYSA-N creatine Chemical compound NC(=[NH2+])N(C)CC([O-])=O CVSVTCORWBXHQV-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 102000006640 gamma-Glutamyltransferase Human genes 0.000 description 2
- 235000018102 proteins Nutrition 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- KIUKXJAPPMFGSW-DNGZLQJQSA-N (2S,3S,4S,5R,6R)-6-[(2S,3R,4R,5S,6R)-3-Acetamido-2-[(2S,3S,4R,5R,6R)-6-[(2R,3R,4R,5S,6R)-3-acetamido-2,5-dihydroxy-6-(hydroxymethyl)oxan-4-yl]oxy-2-carboxy-4,5-dihydroxyoxan-3-yl]oxy-5-hydroxy-6-(hydroxymethyl)oxan-4-yl]oxy-3,4,5-trihydroxyoxane-2-carboxylic acid Chemical compound CC(=O)N[C@H]1[C@H](O)O[C@H](CO)[C@@H](O)[C@@H]1O[C@H]1[C@H](O)[C@@H](O)[C@H](O[C@H]2[C@@H]([C@@H](O[C@H]3[C@@H]([C@@H](O)[C@H](O)[C@H](O3)C(O)=O)O)[C@H](O)[C@@H](CO)O2)NC(C)=O)[C@@H](C(O)=O)O1 KIUKXJAPPMFGSW-DNGZLQJQSA-N 0.000 description 1
- ITZMJCSORYKOSI-AJNGGQMLSA-N APGPR Enterostatin Chemical compound C[C@H](N)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N1[C@H](C(=O)N[C@@H](CCCN=C(N)N)C(O)=O)CCC1 ITZMJCSORYKOSI-AJNGGQMLSA-N 0.000 description 1
- 102000004266 Collagen Type IV Human genes 0.000 description 1
- 108010042086 Collagen Type IV Proteins 0.000 description 1
- 208000004930 Fatty Liver Diseases 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 206010019708 Hepatic steatosis Diseases 0.000 description 1
- SHGAZHPCJJPHSC-NUEINMDLSA-N Isotretinoin Chemical compound OC(=O)C=C(C)/C=C/C=C(C)C=CC1=C(C)CCCC1(C)C SHGAZHPCJJPHSC-NUEINMDLSA-N 0.000 description 1
- 102000003855 L-lactate dehydrogenase Human genes 0.000 description 1
- 108700023483 L-lactate dehydrogenases Proteins 0.000 description 1
- 238000012352 Spearman correlation analysis Methods 0.000 description 1
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 229960003624 creatine Drugs 0.000 description 1
- 239000006046 creatine Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 102000018146 globin Human genes 0.000 description 1
- 108060003196 globin Proteins 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002440 hepatic effect Effects 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 229920002674 hyaluronan Polymers 0.000 description 1
- 229960003160 hyaluronic acid Drugs 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 229960005280 isotretinoin Drugs 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 231100000240 steatosis hepatitis Toxicity 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30056—Liver; Hepatic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明公开了一种基于Cnn‑former的肝纤维化病变检测模型训练方法与系统,属于深度学习结合多模态医疗领域。本发明首先构建包含病理生化特征、生理特征、CT图像特征的多模态数据集;进而对所整合数据集进行预处理得到数值化的特征序列;再通过Spearman相关系数结合特征权重影响图检测相关特征,提取有效特征;最后构建基于Cnn‑former模型的肝纤维化病变检测网络,在数据集上进行训练,同时完成模型评估。相比于传统通过“肝穿刺”方式检测肝病,基于Cnn‑former模型的肝纤维化病变检测方法,在实现AI无痛检测的同时对病变具有较高检测精度。
Description
技术领域
本发明属于深度学习结合多模态医疗技术领域,具体涉及基于Cnn-former的肝纤维化病变检测模型训练方法与系统。
背景技术
人口数量与结构的改变以及不可控的环境因素导致了医疗行业面对的压力逐年上升。但随着人工智能技术的突破与推广,其应用的场景也越来越丰富化、普遍化。借助计算机高性能、高效率的数据处理优势,再结合大数据分析和深度学习,人工智能在很大程度上改变医疗现状、显著降低成本提高效率。
目前我们已经实现了肝纤维化检测领域内MLP、决策树、SVM、K-Means等机器学习算法的训练,但训练结果表明,这些算法在准确性上不能得到令人满意的结果,在模型准确率和效率上还有提升的空间。
因此,构建一种高效深度学习算法辅助肝纤维化检测是必要的。本发明所构建的Cnn-former是一种基于Informer的长序列时间序列预测(Long sequence time-seriesforecasting,LSTF)改进后的模型。与传统的Informer相比,该模型具有三个显著特征:(1)在模型的最外层加入一维卷积层,可以使得模型在训练集输入网络后快速提取特征,更快完成收敛;(2)去除掉词嵌入embedding层与相对位置编码层后,Informer不再局限于自然语言处理任务,从而可以更好的应用在病理检测中;(3)在本发明数据集上的实验表明,Cnn-former方法损失函数收敛速度显著优于现有方法,为本研究提供了一种新的解决方案。
随着医疗与人工智能结合的必然趋势,本发明立足于充足的数据储备支撑,率先将在Informer模型基础上改进的Cnn-former算法模型使用在肝纤维化检测领域,旨在提高医疗质量和服务效率,减少误诊误治,为医疗与人工智能多学科交叉做出贡献。
发明内容:
发明目的:本发明目的在于提供一种基于Cnn-former模型的肝纤维化病变检测模型训练方法与系统,构建融合医疗健康与现代科学的人工智能技术体系,为突发肝纤维化预测、减少患者痛苦、提高医疗人员效率和准确率提供辅助支持。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
基于Cnn-former的肝纤维化病变检测模型训练方法,包括以下步骤:
(1)获取电子病历,包括生化特征、生理特征和CT图像特征;
(2)对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;
(3)绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;
(4)根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证步骤(3)中筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;
(5)使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpareself-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;
(6)对步骤(5)所获得的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。
进一步地,所述步骤(2)中对生化特征的处理包括::
对所得数据样本的所有属性进行缺失值处理,主要字段采用均值插补的方法,如果字段可用常数度量,则使用该属性有效值的平均值来插补缺失值,如果该属性由数值等级度量,则使用该属性有效值的众数来插补缺失值;
根据Z-Score标准化方法对补全后的数据进行标准化处理,经过处理的数据符合标准正态分布,从而取消由于量纲不同引起的误差;
基于Isolation Forest异常检测算法的思想,递归随机划分肝纤维化病变数据集并建立局部模型,其中每棵孤立树用来识别特定属性子样本;计算出每个样本点的异常得分进行排序,将异常得分接近于1的样本点断为异常点;将标记为异常点的样本点直接删除,从而去除分布稀疏且离密度高的群体较远的异常数据。
进一步地,所述步骤(2)中对生理特征的处理包括:
对病理信息的医嘱、病情描述部分,通过Lac工具完成自定义实体提取,获得“是否酗酒”、“是否有过刺痛感”信息,再将特征处理为数据,用0/1区分无酗酒/有酗酒,用1~12标定疼痛等级,将提取出的病理信息进一步转化为数据特征。
进一步地,所述步骤(2)对CT图像的处理包括:
使用ResNet网络对CT图像进行分类,将图像转化为疑似病例和未疑似病例,作为一维特征加入训练数据集中。
进一步地,经过步骤(3)、(4)后,筛选后的有效特征包括:年龄(age)、性别(sex)、G值(肝炎炎症)、S值(炎症程度)、总胆红素(Total-bilirubin)、直接胆红素(Direct-bilirubin)、间接胆红素(Indirect-bilirubin)、总蛋白(Total-protein)、白蛋白(albumin)、球蛋白(globulin)、白球比(White-ball-ratio)、谷丙转氨酶(Alanine-aminotransferase)、谷草转氨酶(Aspartate-aminotransferase)、谷草/谷丙(Cereal-grass/grain-c)、碱性磷酸酶(Alkaline-phosphatase)、谷氨酰转肽酶(Glutamyl-transpeptidase)、总胆汁酸(Total-bile-acid)、前白蛋白(Prealbumin)、胆碱酯酶(Cholinesterase)、α岩藻糖苷酶(Alpha-Fucosidase)、乳酸脱氢酶(Lactate-dehydrogenase)、尿素氮(Urea-Nitrogen)、肌酐(Creatinine)、尿酸(Uric-acid)、β微球蛋白(beta-microglobulin)、胱抑素C(Cystatin-C)、葡萄糖(glucose)、总胆固醇(Total-cholesterol)、甘油三酯(Triglycerides)、高密度胆固醇(High-density-cholesterol)、低密度胆固醇(Low-density-cholesterol)、甲胎蛋白(Alpha-fetoprotein)、III型前胶原PIIINP(Type-III-procollagen-PIIINP)、IV型胶原IV型胶原(IV-ColIV-Col)、层粘蛋白(LNLN)、透明质酸(HAHA)、红细胞(RBC)、血红蛋白(Hemoglobin)、白细胞(WBC)、中性粒细胞(Neutrophils)、淋巴细胞(Lymphocytes)、血小板(platelet)、凝血酶原时间(Prothrombin-time)、INR、免疫球蛋白(IgG)、免疫球蛋白(IgA)、免疫球蛋白(IgM)、补体C3、补体C4、纤维化(target),有无酗酒史、有无肝病史、体感疼痛等级、CT特征;
其中,“sex”的值为1时表示男性,为0时表示女性;“target”的值为0时表示肝纤维化病变率低,为1时表示肝纤维化病变率高。
进一步地,所述步骤(5)中,将筛选后的训练集中的数值化病理特征输入进一维CNN卷积,卷积后的结果加入ProbSpare Self-attention层中,其中ProbSparse Self-Attention取代了标准的self-attention,多头自注意力层自主计算输入数据的自注意力权重,并分配权重,数据经过多头自注意力层处理,传输给全连接前馈神经网络;decoder接受encoder的输出结果与decoder第一个子层的输出结果,对数据进行层标准化处理,经过SoftMax层激活函数后最后得到患病与否的概率。
进一步地,所述步骤(6)中基于测试集和混淆矩阵计算模型的正确率和灵敏度对模型进行评估。
基于Cnn-former的肝纤维化病变检测模型训练系统,包括以下模块:
数据采集模块,用于获取电子病历,包括生化特征、生理特征和CT图像特征;
预处理模块,用于对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;
特征筛选模块,用于绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;并根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;
模型构建与训练模块,用于使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;
以及评估模块,用于对训练好的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。
基于Cnn-former的肝纤维化病变检测模型训练系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于Cnn-former的肝纤维化病变检测模型训练方法。
基于Cnn-former的肝纤维化病变检测系统,包括采用所述基于Cnn-former的肝纤维化病变检测模型训练方法得到的肝纤维化病变检测模型;以及检测模块,用于从患者体检的生化特征、生理特征和CT图像特征中提取出筛选的有效特征,输入肝纤维化病变检测模型得到是否患病的概率。
有益效果:与现有技术相比,本发明具有如下优点:
1、本发明整合了肝病生理、生化、影像特征信息,通过相关技术手段进行数据预处理,提高了数据的全面性和有效性,贡献了一份真实有效的肝病数据集。
2、本发明首次将Cnn-former与医疗领域的肝纤维化病变检测相结合,有效避免了传统深度学习必须结合MLP、RNN神经网络模型的弊端,在保障准确率的同时,可观地加快了计算效率。通过体检数据进行肝纤维化病变检测,避免了传统的“肝穿刺”方式给患者带来的生理与心理方面的负担,同时也减轻了医疗系统的负担。目前医疗AI已在医疗成像、体外诊断、辅助治疗等多个方面取得了实际应用,本发明紧跟科技发展前沿,基于实际新增临床医学数据预测模型,构建本土医疗数据库,助力AI医疗新发展。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例中根据相关系数绘制的特征热力图。
图3为本发明实施例中采用特征工程绘制的特征权重影响图。
图4为本发明实施例中改进的适用于肝纤维化病理特征数据的Cnn-former网络结构图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实施例,进一步阐述本发明。
如图1所示,本发明实施例公开的一种基于Cnn-former的肝纤维化检测模型训练方法,包括以下步骤:
(1)获取电子病历,包括生化特征、生理特征和CT图像特征,将其整理为CSV格式数据样表;
(2)对上述生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;
(3)绘制出Features Importance Plot特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选,去除掉无意义特征,保留下有效特征;
(4)根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证上述步骤(3)中筛选的特征是否有效,如果出现不一致,则针对该特征进行专家分析,根据专家分析结果决定是否将其判定为有效特征;
(5)使用Cnn-former构建肝纤维化病变检测模型,使用构建的训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征。其次,在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率。经实验证明,加入CNN一维卷积后的网络可以使得模型聚焦特征,快速完成收敛。
(6)对步骤(5)所获得的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。
具体地,步骤(1)中构建的数据集具有不同的表征方式,将人工收集到的电子病历经过统一化处理存入CSV数据集中,包含病历的生化特征、生理特征、CT图像特征。
步骤(2)中对数据进行分类,对文本数据与图像数据进行预处理,提取文本和图像中的特征,最终得到病理特征矩阵。具体处理过程包括:
(2.1)生理特征预处理:
(2.1.1)对所得数据样本的所有属性进行缺失值处理,主要字段采用均值插补的方法,如果字段可用常数度量,则使用该属性有效值的平均值来插补缺失值,如果该属性由数值等级度量,则使用该属性有效值的众数来插补缺失值;
(2.1.2)根据Z-Score标准化方法对步骤(2.1.1)得到的数据进行标准化处理,经过处理的数据符合标准正态分布,从而取消由于量纲不同引起的误差。
(2.1.3)基于Isolation Forest异常检测算法的思想,递归随机划分肝纤维化病变数据集并建立局部模型,其中每棵孤立树用来识别特定属性子样本。计算出每个样本点的异常得分进行排序,将异常得分接近于1的样本点断为异常点。将标记为异常点的样本点直接删除,从而去除分布稀疏且离密度高的群体较远的异常数据。
(2.2)生理特征预处理
对病理信息的医嘱、病情描述等部分,通过Lac工具完成自定义实体提取,获得“是否酗酒”、“是否有过刺痛感”等信息,再将特征处理为数据,例如:用0/1区分无酗酒/有酗酒,用1~12标定疼痛等级,将提取出的病理信息进一步转化为数据特征。
(2.3)CT图像信息预处理
(2.3.1)将已有图像按是否确诊为肝纤维化病变分为两个目录,并将两个目录下的图像均按9:1分成训练集和测试集。建立训练集文件和测试集文件记录目录图片路径,便于数据读取器读取。
(2.3.2)用python搭建ResNet网络并进行训练;
(2.3.3)使用训练好的ResNet网络对CT图像进行分类,将图像转化为疑似病例和未疑似病例,作为一维特征加入训练数据集中。
在得到数值化的病理特征数据集后,利用Pycaret工具进行特征工程分析,绘制Features Importance Plot图,根据特征影响权重调整特征,从而完成特征筛选工程。此外基于Spearman相关分析算法思想,衡量分级定序过后的肝纤维化属性等级变量之间的相关程度,获取其等级相关系数并评价其相关性,绘制相应热力图,从而辅助特征选择。在特征筛选出现不一致时,则进行专家分析,决定是否为有效特征,以确保数据分析的全面性和有效性(特征筛选过程辅助图如2、3)。
基于本发明的数据集,最终筛选得到以下特征:年龄(age)、性别(sex)、G值(肝炎炎症)、S值(炎症程度)、总胆红素(Total-bilirubin)、直接胆红素(Direct-bilirubin)、间接胆红素(Indirect-bilirubin)、总蛋白(Total-protein)、白蛋白(albumin)、球蛋白(globulin)、白球比(White-ball-ratio)、谷丙转氨酶(Alanine-aminotransferase)、谷草转氨酶(Aspartate-aminotransferase)、谷草/谷丙(Cereal-grass/grain-c)、碱性磷酸酶(Alkaline-phosphatase)、谷氨酰转肽酶(Glutamyl-transpeptidase)、总胆汁酸(Total-bile-acid)、前白蛋白(Prealbumin)、胆碱酯酶(Cholinesterase)、α岩藻糖苷酶(Alpha-Fucosidase)、乳酸脱氢酶
(Lactate-dehydrogenase)、尿素氮(Urea-Nitrogen)、肌酐(Creatinine)、尿酸(Uric-acid)、β微球蛋白(beta-microglobulin)、胱抑素C(Cystatin-C)、葡萄糖(glucose)、总胆固醇(Total-cholesterol)、甘油三酯(Triglycerides)、高密度胆固醇(High-density-cholesterol)、低密度胆固醇(Low-density-cholesterol)、甲胎蛋白(Alpha-fetoprotein)、III型前胶原PIIINP(Type-III-procollagen-PIIINP)、IV型胶原IV型胶原(IV-ColIV-Col)、层粘蛋白(LNLN)、透明质酸(HAHA)、红细胞(RBC)、血红蛋白(Hemoglobin)、白细胞(WBC)、中性粒细胞(Neutrophils)、淋巴细胞(Lymphocytes)、血小板(platelet)、凝血酶原时间(Prothrombin-time)、INR、免疫球蛋白(IgG)、免疫球蛋白(IgA)、免疫球蛋白(IgM)、补体C3、补体C4、纤维化(target)、有无酗酒史、有无其他肝病(例如:乙肝病史、脂肪肝病史)、体感疼痛等级、CT特征。
其中,“sex”的值为1时表示男性,为0时表示女性;“target”的值为0时表示肝纤维化病变率低,为1时表示肝纤维化病变率高。
传统的深度学习模型在处理一些长特征时存在如下不足:
(a)传统深度学习模型采用self-attention导致的二次计算复杂度,由于self-attention计算机制的操作,会导致我们模型的时间复杂度为O(L*L),L表示特征的长度。
(b)特征输入的内存瓶颈:J个encoder/decoder的叠加会导致内存的使用为O(J*L*L),预测输出的速度骤降,输入的特征越长,预测时间也就越长。
(c)模型不适配性,Informer模型作为自然语言处理领域的模型,在医疗深度学习预测任务上具有很大的不适配性,需要对模型进行一些适配改进,才能将其应用在医疗深度学习预测上。
为了解决这些问题,本发明步骤(5)中改进了一个有效的基于LSTF(长特征预测)模型Cnn-former,改进后的模型结构图如图4所示。改进包括:
(a)自注意机制,使用一种ProbSpare自注意机制来代替传统的自注意机制,使它在序列的依赖性对齐上具有更好的性能。通过self-attention蒸馏机制来缩短每一层的输入特征长度,从而降低计算量与空间复杂度,进而完成后续计算。
(b)去除最外层的词嵌入(Embedding)层以及相对位置编码层,将最后一层的激活函数由Softplus更改为SoftMax层,使得Cnn-former网络层可以输入病理特征,改进前的Informer网络用来解决自然语言处理领域的问题,需要对模型的框架进行修改,才能保证模型可以在本发明的任务中适用。
(c)在网络的最外层加入Cnn一维卷积层,可以使得网络识别主要特征,加快模型的收敛速度。
将筛选后的训练集中的数值化病理特征输入进一维CNN卷积,卷积后的结果加入ProbSpare Self-attention层中,数据经过多头自注意力层处理,传输给全连接前馈神经网络;decoder接受encoder的输出结果与decoder第一个子层的输出结果,对数据进行层标准化处理,经过SoftMax层激活函数后最后得到患病与否的概率。
步骤(6)中基于测试集和混淆矩阵计算模型的正确率、灵敏度等评价指标,比较多种模型在预测肝纤维化概率问题的性能,实现最终预测性能期望。证明本发明使用的基于Cnn-former的肝纤维化病变检测模型与传统模型相比具有较好的准确性和泛化性。具体地,评价方法为:
分类目标只有两类,计为正例(positive)和负例(negtive)分别是:
True positives(TP):被正确地划分为正例的个数,即将确诊患病的病理样本预测为患病;
False positives(FP):被错误地划分为正例的个数,即将未患病的病理样本预测为患病;
False negatives(FN):被错误地划分为负例的个数,即将实际患病的病理样本预测为未患病;
True negatives(TN):被正确地划分为负例的个数,即将未患病的病理样本预测为未患病。
然后根据上述两类分类目标计算如下评价指标:
(6.1)正确率(accuracy)
正确率accuracy=(TP+TN)/(P+N),代表正确预测患病与未患病的概率,是重点关注的评价指标,越高越好。
(6.2)灵敏度(sensitive)
灵敏度sensitive=TP/P,表示的是所有患病病例被分对的比例,衡量分类器对正例的识别能力,我们更关注于患病的预测概率,因而灵敏度也是重点评判指标。
表1模型评估结果表
由表1可以看出,本发明使用的Cnn-former模型相比于其他模型在各项评价指标上具有明显的优势。
基于相同的发明构思,本发明实施例公开的基于Cnn-former的肝纤维化病变检测模型训练系统,包括以下模块:
数据采集模块,用于获取电子病历,包括生化特征、生理特征和CT图像特征;
预处理模块,用于对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;
特征筛选模块,用于绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;并根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;
模型构建与训练模块,用于使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;
以及评估模块,用于对训练好的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。
基于相同的发明构思,本发明实施例公开的基于Cnn-former的肝纤维化病变检测模型训练系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于Cnn-former的肝纤维化病变检测模型训练方法。
本发明实施例还提供的基于Cnn-former的肝纤维化病变检测系统,包括采用所述基于Cnn-former的肝纤维化病变检测模型训练方法得到的肝纤维化病变检测模型;以及检测模块,用于从患者体检的生化特征、生理特征和CT图像特征中提取出筛选的有效特征,输入肝纤维化病变检测模型得到是否患病的概率。
Claims (10)
1.基于Cnn-former的肝纤维化病变检测模型训练方法,其特征在于:包括以下步骤:
(1)获取电子病历,包括生化特征、生理特征和CT图像特征;
(2)对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;
(3)绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;
(4)根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证步骤(3)中筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;
(5)使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;
(6)对步骤(5)所获得的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。
2.根据权利要求1所述的基于Cnn-former的肝纤维化病变检测模型训练方法,其特征在于:所述步骤(2)中对生化特征的处理包括:
对所得数据样本的所有属性进行缺失值处理,采用均值插补的方法,如果字段可用常数度量,则使用该属性有效值的平均值来插补缺失值,如果该属性由数值等级度量,则使用该属性有效值的众数来插补缺失值;
根据Z-Score标准化方法对补全后的数据进行标准化处理,经过处理的数据符合标准正态分布,从而取消由于量纲不同引起的误差;
基于Isolation Forest异常检测算法的思想,递归随机划分肝纤维化病变数据集并建立局部模型,其中每棵孤立树用来识别特定属性子样本;计算出每个样本点的异常得分进行排序,将异常得分接近于1的样本点断为异常点;将标记为异常点的样本点直接删除,从而去除分布稀疏且离密度高的群体较远的异常数据。
3.根据权利要求1所述的基于Cnn-former的肝纤维化病变检测模型训练方法,其特征在于:所述步骤(2)中对生理特征的处理包括:
对生理特征描述信息,通过已有的Lac工具完成实体提取,获得“是否酗酒”、“是否有过刺痛感”信息,再将特征处理为数据特征,区分无酗酒和有酗酒,标定疼痛等级。
4.根据权利要求1所述的基于Cnn-former的肝纤维化病变检测模型训练方法,其特征在于:使用ResNet网络对CT图像进行分类,将图像转化为疑似病例和未疑似病例,作为一维特征加入训练数据集中。
5.根据权利要求1所述的基于Cnn-former的肝纤维化病变检测模型训练方法,其特征在于:经过步骤(3)、(4)筛选后的特征包括:
年龄(age)、性别(sex)、G值(肝炎炎症)、S值(炎症程度)、总胆红素(Total-bilirubin)、直接胆红素(Direct-bilirubin)、间接胆红素(Indirect-bilirubin)、总蛋白(Total-protein)、白蛋白(albumin)、球蛋白(globulin)、白球比(White-ball-ratio)、谷丙转氨酶(Alanine-aminotransferase)、谷草转氨酶(Aspartate-aminotransferase)、谷草/谷丙(Cereal-grass/grain-c)、碱性磷酸酶(Alkaline-phosphatase)、谷氨酰转肽酶(Glutamyl-transpeptidase)、总胆汁酸(Total-bile-acid)、前白蛋白(Prealbumin)、胆碱酯酶(Cholinesterase)、α岩藻糖苷酶(Alpha-Fucosidase)、乳酸脱氢酶(Lactate-dehydrogenase)、尿素氮(Urea-Nitrogen)、肌酐(Creatinine)、尿酸(Uric-acid)、β微球蛋白(beta-microglobulin)、胱抑素C(Cystatin-C)、葡萄糖(glucose)、总胆固醇(Total-cholesterol)、甘油三酯(Triglycerides)、高密度胆固醇(High-density-cholesterol)、低密度胆固醇(Low-density-cholesterol)、甲胎蛋白(Alpha-fetoprotein)、III型前胶原PIIINP(Type-III-procollagen-PIIINP)、IV型胶原IV型胶原(IV-ColIV-Col)、层粘蛋白(LNLN)、透明质酸(HAHA)、红细胞(RBC)、血红蛋白(Hemoglobin)、白细胞(WBC)、中性粒细胞(Neutrophils)、淋巴细胞(Lymphocytes)、血小板(platelet)、凝血酶原时间(Prothrombin-time)、INR、免疫球蛋白(IgG)、免疫球蛋白(IgA)、免疫球蛋白(IgM)、补体C3、补体C4、纤维化(target)、有无酗酒史、有无肝病史、体感疼痛等级、CT特征;
其中,“sex”的值为1时表示男性,为0时表示女性;“target”的值为0时表示肝纤维化病变率低,为1时表示肝纤维化病变率高。
6.根据权利要求1所述的基于Cnn-former的肝纤维化病变检测模型训练方法,其特征在于:所述步骤(5)中,将筛选后的训练集中的数值化病理特征输入进一维CNN卷积,卷积后的结果加入ProbSpare Self-attention层中,其中ProbSparse Self-Attention取代了标准的self-attention,多头自注意力层自主计算输入数据的自注意力权重,并分配权重,数据经过多头自注意力层处理,传输给全连接前馈神经网络;decoder接受encoder的输出结果与decoder第一个子层的输出结果,对数据进行层标准化处理,经过SoftMax层激活函数后最后得到患病与否的概率。
7.根据权利要求1所述的基于Cnn-former的肝纤维化病变检测模型训练方法,其特征在于:所述步骤(6)中基于测试集和混淆矩阵计算模型的正确率和灵敏度对模型进行评估。
8.基于Cnn-former的肝纤维化病变检测模型训练系统,其特征在于:包括以下模块:
数据采集模块,用于获取电子病历,包括生化特征、生理特征和CT图像特征;
预处理模块,用于对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;
特征筛选模块,用于绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;并根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;
模型构建与训练模块,用于使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;
以及评估模块,用于对训练好的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。
9.基于Cnn-former的肝纤维化病变检测模型训练系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于Cnn-former的肝纤维化病变检测模型训练方法。
10.基于Cnn-former的肝纤维化病变检测系统,其特征在于,包括采用根据权利要求1-7任一项所述的基于Cnn-former的肝纤维化病变检测模型训练方法得到的肝纤维化病变检测模型;以及检测模块,用于从患者体检的生化特征、生理特征和CT图像特征中提取出筛选的有效特征,输入肝纤维化病变检测模型得到是否患病的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085690.1A CN113838018B (zh) | 2021-09-16 | 2021-09-16 | 基于Cnn-former的肝纤维化病变检测模型训练方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085690.1A CN113838018B (zh) | 2021-09-16 | 2021-09-16 | 基于Cnn-former的肝纤维化病变检测模型训练方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838018A true CN113838018A (zh) | 2021-12-24 |
CN113838018B CN113838018B (zh) | 2024-01-23 |
Family
ID=78959482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111085690.1A Active CN113838018B (zh) | 2021-09-16 | 2021-09-16 | 基于Cnn-former的肝纤维化病变检测模型训练方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838018B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809853A (zh) * | 2024-02-29 | 2024-04-02 | 首都医科大学附属北京友谊医院 | 一种肝细胞癌病理识别模型的构建方法及电子设备 |
CN117894477A (zh) * | 2024-03-13 | 2024-04-16 | 西安工会医院 | 基于带状疱疹后遗神经痛预测评估模型的构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200085382A1 (en) * | 2017-05-30 | 2020-03-19 | Arterys Inc. | Automated lesion detection, segmentation, and longitudinal identification |
CN113052857A (zh) * | 2021-03-22 | 2021-06-29 | 山西三友和智慧信息技术股份有限公司 | 一种基于CovSegNet的肺部病变图像分割方法 |
CN113052228A (zh) * | 2021-03-22 | 2021-06-29 | 山西三友和智慧信息技术股份有限公司 | 一种基于SE-Inception的肝癌病理切片分类方法 |
-
2021
- 2021-09-16 CN CN202111085690.1A patent/CN113838018B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200085382A1 (en) * | 2017-05-30 | 2020-03-19 | Arterys Inc. | Automated lesion detection, segmentation, and longitudinal identification |
CN113052857A (zh) * | 2021-03-22 | 2021-06-29 | 山西三友和智慧信息技术股份有限公司 | 一种基于CovSegNet的肺部病变图像分割方法 |
CN113052228A (zh) * | 2021-03-22 | 2021-06-29 | 山西三友和智慧信息技术股份有限公司 | 一种基于SE-Inception的肝癌病理切片分类方法 |
Non-Patent Citations (1)
Title |
---|
曹路阳: "糖尿病视网膜病变检测", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑(月刊)》, pages 19 - 55 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809853A (zh) * | 2024-02-29 | 2024-04-02 | 首都医科大学附属北京友谊医院 | 一种肝细胞癌病理识别模型的构建方法及电子设备 |
CN117894477A (zh) * | 2024-03-13 | 2024-04-16 | 西安工会医院 | 基于带状疱疹后遗神经痛预测评估模型的构建方法 |
CN117894477B (zh) * | 2024-03-13 | 2024-05-31 | 西安工会医院 | 基于带状疱疹后遗神经痛预测评估模型的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113838018B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247881B (zh) | 一种多模态智能分析方法及系统 | |
Dissanayake et al. | A robust interpretable deep learning classifier for heart anomaly detection without segmentation | |
LaFreniere et al. | Using machine learning to predict hypertension from a clinical dataset | |
US7174205B2 (en) | Cardiac diagnostic system and method | |
CN113838018B (zh) | 基于Cnn-former的肝纤维化病变检测模型训练方法与系统 | |
CN113855038B (zh) | 基于多模型集成的心电信号危急值的预测方法及装置 | |
CN111312399A (zh) | 一种早期预测妊娠糖尿病模型的建立方法 | |
CN113077434A (zh) | 基于多模态信息的肺癌识别方法、装置及存储介质 | |
CN113643756A (zh) | 一种基于深度学习的蛋白质相互作用位点预测方法 | |
CN116386856B (zh) | 基于医生决策模式识别的多标签疾病辅助诊断系统 | |
CN113470816A (zh) | 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置 | |
CN112926332A (zh) | 一种实体关系联合抽取方法及装置 | |
CN117116477A (zh) | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 | |
Pandya et al. | Unveiling the Power of Collective Intelligence: A Voting-based Approach for Dementia Classification | |
CN114519705A (zh) | 一种用于医学选拔与鉴定的超声标准数据处理方法及系统 | |
CN117238510A (zh) | 一种基于深度学习的脓毒症预测方法及系统 | |
CN112700859A (zh) | 一种基于医学影像的医疗诊断辅助方法及系统 | |
CN116228731A (zh) | 一种多对比学习冠状动脉高危斑块检测方法、系统及终端 | |
CN113197578B (zh) | 一种基于多中心模型的精神分裂症分类方法及系统 | |
Mareeswari et al. | Predicting Chronic Kidney Disease Using KNN Algorithm | |
CN115527031B (zh) | 骨髓细胞图像分割方法、计算机设备以及可读存储介质 | |
CN117893528B (zh) | 一种心脑血管疾病分类模型的构建方法及装置 | |
CN117954085A (zh) | 一种生理状况预测方法、装置及可读存储介质 | |
Pal et al. | Pathologist-Like Explanations Unveiled: an Explainable Deep Learning System for White Blood Cell Classification | |
Krishnan et al. | Advancing Ischemic Stroke Diagnosis: A Novel Two-Stage Approach for Blood Clot Origin Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |