CN114529755A - 用于测试甲状腺乳头状癌的工具及系统 - Google Patents
用于测试甲状腺乳头状癌的工具及系统 Download PDFInfo
- Publication number
- CN114529755A CN114529755A CN202210082476.9A CN202210082476A CN114529755A CN 114529755 A CN114529755 A CN 114529755A CN 202210082476 A CN202210082476 A CN 202210082476A CN 114529755 A CN114529755 A CN 114529755A
- Authority
- CN
- China
- Prior art keywords
- data
- papillary thyroid
- unit
- thyroid carcinoma
- lectin chip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010033701 Papillary thyroid cancer Diseases 0.000 title claims abstract description 95
- 208000030045 thyroid gland papillary carcinoma Diseases 0.000 title claims abstract description 95
- 238000012360 testing method Methods 0.000 title claims abstract description 52
- 102000004856 Lectins Human genes 0.000 claims abstract description 97
- 108090001090 Lectins Proteins 0.000 claims abstract description 97
- 239000002523 lectin Substances 0.000 claims abstract description 97
- 210000003296 saliva Anatomy 0.000 claims abstract description 39
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 238000003860 storage Methods 0.000 claims abstract description 17
- 238000012706 support-vector machine Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 15
- 238000011534 incubation Methods 0.000 claims description 14
- 238000007477 logistic regression Methods 0.000 claims description 13
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000003908 quality control method Methods 0.000 claims description 6
- 238000010191 image analysis Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000011282 treatment Methods 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 abstract description 7
- 238000005070 sampling Methods 0.000 abstract description 5
- 238000003745 diagnosis Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 238000000034 method Methods 0.000 description 14
- 208000024770 Thyroid neoplasm Diseases 0.000 description 10
- 201000002510 thyroid cancer Diseases 0.000 description 8
- 206010004412 Benign neoplasm of thyroid gland Diseases 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001035 drying Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 3
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 3
- 208000009453 Thyroid Nodule Diseases 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- UQLDLKMNUJERMK-UHFFFAOYSA-L di(octadecanoyloxy)lead Chemical compound [Pb+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O UQLDLKMNUJERMK-UHFFFAOYSA-L 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 3
- 101710186708 Agglutinin Proteins 0.000 description 2
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 2
- 238000000018 DNA microarray Methods 0.000 description 2
- 101710146024 Horcolin Proteins 0.000 description 2
- WTDHULULXKLSOZ-UHFFFAOYSA-N Hydroxylamine hydrochloride Chemical compound Cl.ON WTDHULULXKLSOZ-UHFFFAOYSA-N 0.000 description 2
- 101710189395 Lectin Proteins 0.000 description 2
- 101710179758 Mannose-specific lectin Proteins 0.000 description 2
- 101710150763 Mannose-specific lectin 1 Proteins 0.000 description 2
- 101710150745 Mannose-specific lectin 2 Proteins 0.000 description 2
- 229940124158 Protease/peptidase inhibitor Drugs 0.000 description 2
- 229920005654 Sephadex Polymers 0.000 description 2
- 239000012507 Sephadex™ Substances 0.000 description 2
- 239000000910 agglutinin Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 229940098773 bovine serum albumin Drugs 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000003828 downregulation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000006735 epoxidation reaction Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 201000010198 papillary carcinoma Diseases 0.000 description 2
- 239000000137 peptide hydrolase inhibitor Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 230000003827 upregulation Effects 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 206010054107 Nodule Diseases 0.000 description 1
- 229920001213 Polysorbate 20 Polymers 0.000 description 1
- 102000007365 Sialoglycoproteins Human genes 0.000 description 1
- 108010032838 Sialoglycoproteins Proteins 0.000 description 1
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 1
- 230000004520 agglutination Effects 0.000 description 1
- 210000003050 axon Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 239000012152 bradford reagent Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 102000023852 carbohydrate binding proteins Human genes 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000006059 cover glass Substances 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011461 current therapy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011033 desalting Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- BFMYDTVEBKDAKJ-UHFFFAOYSA-L disodium;(2',7'-dibromo-3',6'-dioxido-3-oxospiro[2-benzofuran-1,9'-xanthene]-4'-yl)mercury;hydrate Chemical compound O.[Na+].[Na+].O1C(=O)C2=CC=CC=C2C21C1=CC(Br)=C([O-])C([Hg])=C1OC1=C2C=C(Br)C([O-])=C1 BFMYDTVEBKDAKJ-UHFFFAOYSA-L 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005485 electric heating Methods 0.000 description 1
- 210000000750 endocrine system Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 150000002772 monosaccharides Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000000256 polyoxyethylene sorbitan monolaurate Substances 0.000 description 1
- 235000010486 polyoxyethylene sorbitan monolaurate Nutrition 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000017854 proteolysis Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 108010038196 saccharide-binding proteins Proteins 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000009210 therapy by ultrasound Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
- 229910021642 ultra pure water Inorganic materials 0.000 description 1
- 239000012498 ultrapure water Substances 0.000 description 1
- 238000004506 ultrasonic cleaning Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
- G01N33/57488—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites involving compounds identifable in body fluids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/58—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances
- G01N33/582—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances with fluorescent label
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10064—Fluorescence image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30072—Microarray; Biochip, DNA array; Well plate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Immunology (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Hematology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Urology & Nephrology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Cell Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Artificial Intelligence (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Microbiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种用于测试甲状腺乳头状癌的工具及系统,包括:处理器和存储介质;存储介质与所述处理器进行数据交互,用于在所述存储介质内存储的程序被所述处理器加载时执行以下步骤:通过甲状腺乳头状癌鉴别模型对待诊断患者的唾液的凝集素芯片数据进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者。本发明所述的用于测试甲状腺乳头状癌的工具,通过甲状腺乳头状癌诊断模块对待诊断患者的唾液进行鉴别,确定所述待诊断样本是否为甲状腺乳头状癌样本,具有采样方便、灵敏度高的特点,能够快速鉴别受试者是否患有甲状腺乳头状癌。
Description
技术领域
本发明涉及生物计算机领域,尤其涉及一种用于测试甲状腺乳头状癌的工具及系统。
背景技术
甲状腺癌(thyroid cancer,TC)是内分泌系统最常见的恶性肿瘤,随着诊断技术的进步,其发病率迅速增加,据2020年全球癌症统计报告显示,甲状腺癌以超过58万的新发病例排在前十名癌症发病率第九位。乳头状癌(papillary thyroid cancer,PTC)是最常见的亚型,80%的新发病例都是乳头状癌,总体预后最好,转移最常见于颈部淋巴结,较少涉及远端。通过对有风险的患者进行早期监测仍然是防治甲状腺癌最好的方式,并且目前的治疗手段可以有效地治疗甲状腺癌。
目前临床用来诊断甲状腺癌的金标准为超声引导下的细针穿刺细胞学检查(FNA),有文章指出其诊断准确率高达70%-97%,绝大多数甲状腺癌患者表现为颈部影像学检查发现的甲状腺结节。超声引导下的细针穿刺细胞学检查,即通过超声检查可确定是否存在甲状腺结节,随后利用穿刺针在甲状腺结节内来回抽吸以获得小部分病变组织,随即涂片获得良好的细胞学涂片,以此判断结节的良恶性。FNA活检结果不确定的患者需要进行甲状腺切除手术,以排除患有甲状腺癌的可能性,但只有20%的肿瘤是恶性的,意味着大约80%的患者需要进行不必要的手术,同时此种方法具有取样难、创伤大等特点。因此,需要一种快速、准确且无损伤的检测手段来区分良恶性结节以提高诊断准确率。
已有的唾液癌症筛查主要通过凝集素芯片进行,凝集素(Lectin)是非免疫来源的、不具有酶活性的一类糖结合蛋白,能专一地识别某一特殊结构的单糖或聚糖中特定的糖链序列并与之结合,而凝集素芯片是一种将各种不同来源的凝集素固定于环氧化修饰的芯片片基上制成的生物芯片。
现有的凝集素芯片鉴别癌症的方法主要是:选定对照组,将待检测临床样本的凝集素芯片结果同健康对照组的凝集素芯片结果进行对比,得到每种凝集素的Fold-change值,以Fold-change>1.5和Fold-change<0.67作为选择标准,Fold-change>1.5为上调糖链,Fold-change<0.67为下调糖链,筛选出表达上调和下调的糖链组合,利用这些糖链的组合来判断某种癌症。这种方法应用的凝集素数据不全面,仅应用了显示糖链结构上调或下调的凝集素数据,复杂情景下缺乏实际应用价值。因此,一种准确性高的甲状腺乳头状癌识别系统亟待研发。
发明内容
为了克服现有技术的不足,本发明提供了一种用于测试甲状腺乳头状癌的工具及系统,用于解决前述技术问题中的至少一个。
具体地,其技术方案如下:
一种用于测试甲状腺乳头状癌的工具,包括:
处理器;
存储介质,与所述处理器进行数据交互,用于在所述存储介质内存储的程序被所述处理器加载时执行以下步骤:
通过甲状腺乳头状癌鉴别模型对待诊断患者的唾液的凝集素芯片数据进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者。
所述的一种用于测试甲状腺乳头状癌的工具,还包括:
采集模块采集外界样本,用于获取预处理后的唾液样本:
预处理模块,与所述采集模块连接,用于接收经过所述采集模块预处理后的唾液样本获得所述凝集素芯片数据;
所述预处理模块与所述存储介质进行数据交互,将所述凝集素芯片数据存储在所述存储介质内。
一种用于测试甲状腺乳头状癌的系统,包括:
数据采集模块,用于根据唾液样本获取凝集素芯片数据;
模型构建模块,与所述数据采集模块进行数据交互,用于利用所述凝集素芯片数据形成分类标签和特征,从而构建和训练甲状腺乳头状癌鉴别模型;
如权利要求1或2所述的用于测试甲状腺乳头状癌的工具,与所述数据采集模块进行数据交互,用于利用已训练的甲状腺乳头状癌鉴别模型对待诊断患者的唾液进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者。
所述模型构建模块,包括:
数据预处理单元,与所述数据采集模块进行数据交互,用于将所述凝集素芯片数据进行归一化处理,得到归一化后的凝集素芯片数据;
数据分类单元,与所述数据预处理单元进行数据交互,用于将所述归一化后的凝集素芯片数据随机排序,获取所述归一化后的凝集素芯片数据的特征和标签,并按照所述标签随机选取一部分所述归一化后的凝集素芯片数据作为所述甲状腺乳头状癌鉴别模型的训练集,另一部分所述归一化后的凝集素芯片数据作为所述甲状腺乳头状癌鉴别模型的测试集;
构建单元,与所述甲状腺乳头状癌测试工具连接,用于得到所述训练后的甲状腺乳头状癌鉴别模型并存储在所述甲状腺乳头状癌测试工具内。
所述数据预处理单元,采集所述数据采集模块的数据,用于进行如下步骤,从而得到所述归一化后的凝集素芯片数据:
收集凝集素与唾液样本结合点的荧光信号中值、背景值的中值,以及背景值的标准偏差;
通过所述荧光信号中值、背景值的中值,以及所述背景值的标准偏差进行有效数据的筛选预处理;
每种凝集素对应的三个点求中值,剔除阴性质控与阳性质控,进行归一化处理,获得所述凝集素芯片数据。
所述“通过所述荧光信号中值、背景值的中值,以及所述背景值的标准偏差进行有效数据的筛选预处理”,包括:
所述荧光信号中值减去背景值的中值,并且与2倍的所述背景值的标准偏差继续比对,大于两倍背景值标准偏差的数据为有效数据,否则记为0。
所述构建单元与所述数据分类单元连接,用于利用所述特征和标签通过K最近邻算法、支撑向量机、多层感知器、逻辑回归以及随机森林中的任一种算法依据所述凝集素芯片数据构建所述甲状腺乳头状癌鉴别模型。
所述构建单元接收所述标签和所述特征,用于通过以下步骤依据所述凝集素芯片数据构建所述甲状腺乳头状癌鉴别模型:
根据需要构造N个SVM支持向量机,N为正整数且N≥1;
将所述数据分类单元中的特征输入所述SVM支持向量机中,通过投票得到所述样本的类别。
所述模型构建模块,还包括:超参数选择与优化单元;
所述参数选择与优化单元与所述构建单元进行数据交互,用于通过以下步骤对所述甲状腺乳头状癌鉴别模型进行调整:
设置所述SVM支持向量机惩罚系数;
在进行核函数选取时,采用径向基核(RBF)作为所述SVM支持向量机的核函数,设置所述核函数下的最优参数Gamma。
所述数据采集模块,包括:
采集单元,用于收集唾液样本;
标记单元,与所述采集单元连接,用于对所述唾液样本进行荧光标记;
凝集素芯片单元,与所述标记单元连接,用于放置荧光标记后的唾液样本;
孵育单元,与所述凝集素芯片单元连接,用于孵育放置有荧光标记唾液样本的凝集素芯片单元;
数据获取单元,与所述孵育单元连接,用于扫描孵育后的凝集素芯片单元后,进行图像分析获取所述凝集素芯片数据;
所述数据获取单元与所述数据预处理单元连接,用于获取所述归一化后的凝集素芯片数据。
本发明至少具有以下有益效果:
本发明所述的用于测试甲状腺乳头状癌的工具,能够对待诊断患者的唾液进行鉴别,通过甲状腺乳头状癌诊断模块确定所述待诊断患者是否为甲状腺乳头状癌患者;本发明所述的用于测试甲状腺乳头状癌的工具,采样方便、灵敏度高,适合对病人进行早、中期甲状腺乳头状癌的筛查,能够快速鉴别受试者是否患病。
本发明所述的系统,通过数据采集模块对唾液样本进行预处理和荧光标记后,利用点制好的凝集素芯片,进行凝集素芯片检测,以获取凝集素芯片数据;通过已训练的甲状腺乳头状癌鉴别模型对待诊断患者的唾液进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者;本发明所述的系统全面应用凝集素数据,结合机器算法,具有检测客观、准确的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明所述系统的系统框图;
图2为凝集素芯片示意图;
图3为样本与凝结素检测点结合的示意图;
图4为凝集素芯片结果的数据分析流程图;
图5为KNN模型的混淆矩阵图;
图6为KNN模型的ROC曲线图;
图7为SVM模型的混淆矩阵图;
图8为SVM模型的ROC曲线图;
图9为MLP模型的混淆矩阵图;
图10为MLP模型的ROC曲线图;
图11为LR模型的混淆矩阵图;
图12为LR模型的ROC曲线图;
图13为RF模型的混淆矩阵图;
图14为RF模型的ROC曲线图;
其中,100.数据采集模块;200.模型构建模块;300.甲状腺乳头状癌测试工具;
101.采集单元;102.标记单元;103.凝集素芯片单元;104.孵育单元;105.数据获取单元;
201.数据预处理单元;202.数据分类单元;203.构建单元;204.参数选择与优化单元;
其中,图3中的A处代表荧光信号F532;B处代表背景值B532。
具体实施方式
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
为了解决现有技术中的缺点,本实施例引入机器学习进行甲状腺乳头状癌识别,能够完美解决凝集素芯片数据的实际应用问题。
具体实施例:
本发明提供一种实施例:
如图1,一种用于测试甲状腺乳头状癌的系统,包括:用于根据唾液样本获取凝集素芯片数据的数据采集模块100、模型构建模块200以及如上所述的甲状腺乳头状癌测试工具300;其中,模型构建模块200与所述数据采集模块100进行数据交互,用于利用所述凝集素芯片数据形成分类标签和特征,从而构建和训练甲状腺乳头状癌鉴别模型;如上所述的甲状腺乳头状癌测试工具300,与所述数据采集模块100进行数据交互,用于利用已训练的甲状腺乳头状癌鉴别模型对待诊断患者的唾液进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者;具体的,所述数据采集模块100用于采集样本,模型构建模块200用于通过数据采集模块100采集的样本进行数据处理,获取甲状腺乳头状癌鉴别模型。
具体的,所述模型构建模块200,包括:数据预处理单元201、数据分类单元202、构建单元203以及参数选择与优化单元204;其中,数据预处理单元201与所述数据采集模块进行数据交互,用于将所述凝集素芯片数据进行归一化处理,得到归一化后的凝集素芯片数据;数据分类单元202与所述数据预处理单元201进行数据交互,用于将所述归一化后的凝集素芯片数据随机排序,获取所述归一化后的凝集素芯片数据的特征和标签,并按照标签随机选取一部分所述归一化后的凝集素芯片数据作为训练集,另一部分所述归一化后的凝集素芯片数据作为测试集;构建单元203与所述数据分类单元202连接,用于根据所述特征和所述标签构建所述甲状腺乳头状癌鉴别模型,并利用所述训练集训练所述甲状腺乳头状癌鉴别模型,得到所述训练后的甲状腺乳头状癌鉴别模型;所述参数选择与优化单元204与所述构建单元203进行数据交互,用于先后调整所述甲状腺乳头状癌鉴别模型中影响最大的参数和最大特征数,对所述甲状腺乳头状癌鉴别模型进行调整。
所述数据采集模块100,包括:采集单元101、标记单元102、凝集素芯片单元103、孵育单元104以及数据获取单元105;其中,采集单元101用于收集唾液样本;标记单元102与所述采集单元101连接,用于对所述唾液样本进行荧光标记;凝集素芯片单元103与所述标记单元102连接,用于放置荧光标记后的唾液样本;孵育单元104与所述凝集素芯片单元103连接,用于孵育放置有荧光标记唾液样本的凝集素芯片单元103;数据获取单元105与所述孵育单元104连接,用于扫描孵育后的凝集素芯片单元103后,进行图像分析获取所述凝集素芯片数据。
如图2所示的凝集素芯片单元103的制备过程如下:
凝集素芯片选用:环氧基硅烷试剂(GPTS),Bradford试剂,蛋白酶抑制剂,DMSO,Tween-20,盐酸羟胺均购自美国Sigma公司,Cy3、Cy5荧光染料构自美国Amerhsam公司,Sephadex G-25柱购自美国GE Healthcare公司,384孔板构自英国Genetix公司,牛血清白蛋白(BSA)购自德国Calbiochem公司,玻璃片基购自Gold Seal公司,0.2μm滤膜,0.45μm滤膜购自日本Sartorius公司,其他常用试剂购自国产分析纯。37种凝集素,见表1,分别购自Vector公司和Sigma公司。
表1 凝集素对照表
使用的设备,包括:电热鼓风干燥箱:天津泰斯特公司;高压灭菌锅:日本TOMY公司;超速冷冻离心机5804R:德国Eppendorf公司;微量核酸蛋白测定仪:德国Implen公司;生物芯片扫描仪4000B:美国Axon公司;芯片点样仪:博奥晶芯SmartArrayer48点样仪;芯片杂交箱HL-2000:美国UVP公司。
凝集素芯片的制备过程,包括:
将未处理的玻片用无水乙醇清洗三次,每次10min。离心甩干后,将玻片浸泡入250mL 10%NaOH溶液中,摇床上轻摇反应,避光过夜。反应后,超声15min,再用超纯水清洗四次,每次2min,无水乙醇清洗两次,每次2min。离心甩干后,再将玻片浸泡到200mL 10%GPTS溶液中,摇床上轻摇,避光反应3h。反应后,超声清洗15min,无水乙醇清洗三次,每次10min。离心甩干后,芯片的环氧化修饰完成,并将修饰好的玻片放置于4℃干燥器中保存备用。制备好的凝集素芯片的点样设计如图1,每张芯片共分为4个矩阵,每个矩阵规格为12*10,每个样品点重复三次。
在采集单元101进行唾液样品采集时,包括:
健康志愿者(Healthy Volunteers,HV),无其它基础疾病,一周之内没有服用任何药物;已确诊的良性甲状腺结节(Benign Thyroid Nodule,BTN)患者,甲状腺乳头状癌(papillary thyroid cancer,PTC)患者。饭后两小时,约9点到10点之间,生理盐水漱口三次后迅速采集自然分泌的全唾液。唾液采集至少1mL并立即置于冰上,加入蛋白酶抑制剂,每毫升唾液加入1μL,防止蛋白降解。
表2 临床样本信息表
标记单元102的工作过程是:将收集到的全唾液经12,000rpm 4℃离心10min后吸取上清弃去沉淀。上清再经0.22μm孔径的滤膜过滤掉细菌和其他微生物。样本经Cy3荧光染料标记后用Sephadex G-25除盐柱去掉游离荧光。标记好的蛋白准备用于凝集素芯片孵育。
孵育单元104的工作过程是:将上文所述点制好的凝集素芯片从4℃干燥器中取出,回温;首先用PBST、PBS各清洗芯片一次,每次3min,离心甩干。将凝集素芯片与600μL封闭缓冲液在芯片杂交盒中孵育,25℃旋转反应1h。封闭结束后用PBST、PBS各清洗芯片两次,每次3min,甩干。用Genepix4000B芯片扫描仪扫描封闭后芯片,检查封闭效果。
将荧光标记的唾液蛋白3μg与孵育缓冲液混匀,配置成600μL上样体系。并均匀加载在盖玻片上,盖上封闭后的凝集素芯片,于芯片杂交仪中25℃避光旋转孵育3h。孵育结束后用PBST、PBS各清洗玻片两次,每次5min,离心甩干;在数据获取单元105的工作过程中,使用Genepix4000B芯片扫描仪扫描芯片,GenePix3.0软件从芯片扫描结果图进行圈点导出GPR文件,根据其中的数据信息进行分析。
通过数据预处理单元201将数据信息进行预处理:
如图3,首先是收集凝集素与样本结合点(圆圈)的荧光信号中值(F532 median),背景值(正方形内除去圆圈的部分)的中值(B532 median),以及背景值的标准偏差(B532SD);
其次是有效数据的筛选与处理,荧光信号中值减去背景值的中值,并且与2倍的背景值的标准偏差继续比对,大于两倍背景值标准偏差的数据则认为是有效数据,否则记为0;
接着,每三个凝集点(每种凝集素存在三个点)求中值,剔除阴性质控与阳性质控,进行归一化处理,获得凝集素芯片数据,用作后续分析;如图4为凝集素芯片结果的数据分析流程图;
通过数据分类单元202对所有病例进行随机排序,为尽可能保证每一类别在训练集与测试集中的比例一致,本发明分别随机选取每一标签(类别)中的70%的数据(健康志愿者21例,良性甲状腺结节患者15例,甲状腺乳头状癌患者19例),总计55例拼接后作为机器学习的训练集,其余30%数据拼接后(24例,包括健康志愿者9例,良性甲状腺结节患者7例,甲状腺乳头状癌患者8例)作为机器学习的测试集;所述的三个类别可以是:健康、良性甲状腺结节患者以及甲状腺乳头状癌患者。具体流程如下:
a.类别名称映射为数字:
data["class"]=data["class"].map({"HV":0,"BTN":1,"PTC":2,});
b.提取每个类别的数据:
t0=data[data['class']==0]
t1=data[data['class']==1]
t2=data[data['class']==2]
c.随机打乱数据:
r=1(r可为任意自然数)
t0=t0.sample(len(t0),random_state=r)
t1=t1.sample(len(t1),random_state=r)
t2=t2.sample(len(t2),random_state=r)
d.数据分组与拼接:
p=0.70
train_X=pd.concat([t0.iloc[:int(len(t0)*p),2:39],t1.iloc[:int(len(t1)*p),2:39],t2.iloc[:int(len(t2)*p),2:39]],axis=0)
train_y=pd.concat([t0.iloc[:int(len(t0)*p),1],t1.iloc[:int(len(t1)*p),1],t2.iloc[:int(len(t2)*p),1]],axis=0)
test_X=pd.concat([t0.iloc[int(len(t0)*p):len(t0),2:39],t1.iloc[int(len(t1)*p):len(t1),2:39],t2.iloc[int(len(t2)*p):len (t2),2:39]],axis=0)
test_y=pd.concat([t0.iloc[int(len(t0)*p):len(t0),1],t1.iloc[int(len(t1)*p):len(t1),1],t2.iloc[int(len(t2)*p):len(t2),1]],axis =0)
优选的,构建单元203利用支持向量机(SVM)构建乳腺癌鉴别模型;SVM的算法思路是:本质上是一种实现二分类的模型,也是在特征空间上,寻找一个能够使两个类别产生最大分类间隔的线性分类器,还可通过核技巧将其拓展到非线性情形。
本优选方案的实现步骤:输入训练集中病例特征,由于SVM本质是实现二分类,所以需要在任意两类样本之间设计一个SVM。为实现3个类别的分类就需要构造3*(3-1)/2=3个SVM,输入测试集中病例特征到已训练好的SVM中,最后得票最多的类别即为该未知样本的类别,测试集数据的标签预测与比对。
超参数选择与优化:
C:惩罚系数,即对误差的宽容度。C过大或过小,泛化能力变差。
核函数(Kernel)的选择:常用核函数包括,线性核函数,多项式核,径向基核(RBF),傅里叶核等,采用Cross-Validation方法,即在进行核函数选取时,分别试用不同的核函数,归纳误差最小的核函数就是最好的核函数。本研究最好的核函数为RBF。选择RBF函数作为kernel后,该函数自带的一个参数Gamma。决定了数据映射到新的特征空间后的分布,Gamma越大,支持向量越少,Gamma值越小,支持向量越多,RBF宽度越大。支持向量的个数影响训练与预测的速度。进行RBF最优参数的选择:最优参数为kernel=rbf,gamma=1,C=11。
本发明公开一种实施例:
一种用于测试甲状腺乳头状癌的工具,包括:处理器、存储介质以及采集模块、预处理模块;存储介质,用于在存储的程序被所述处理器加载时执行以下步骤:利用甲状腺乳头状癌鉴别模型对待诊断患者的唾液的凝集素芯片数据进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者;为了使用方便所述采集模块采集外界样本,用于得到荧光标记的预处理后的唾液样本,具体参照“用于测试甲状腺乳头状癌的系统”的实施例中记述的“标记单元102的工作过程”和“凝集素芯片单元103的制备”过程。
所述预处理模块与所述采集单元和所述存储介质进行数据交互,用于获取凝集素芯片数据,具体步骤参照“用于测试甲状腺乳头状癌的系统”的实施例中记述的“孵育单元104”和“数据预处理单元201”的工作过程。通过该凝集素芯片数据,可以利用已训练好的甲状腺乳头状癌鉴别模型对待诊断患者进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者。
准确度验证:
机器学习包括多种方法,现通过:构建单元203采用K最近邻算法、支撑向量机、多层感知器、逻辑回归分别建模与本实施例的逻辑森林的建模结果进行比较,对本实施例的准确性进行检验。
K最近邻算法(K-Nearest Neighbor,KNN)是一种简单、直观、实用的及其算法,广泛应用于分类问题,主要思路:计算已知类别数据集中的点与当前点之间的距离;按照距离递增排序;选取与当前点距离最近的k个点;确定前k个点所在类别出现的频率;返回前k个点所出现频率最高的类别作为当前点的预测分类。
K最近邻算法的实现步骤:
通过输入训练集中病例的所有特征以及标签,构建KNN分类器;通过测试集中病例的特征,将输出的预测结果与测试集的标签进行比对,衡量算法表现;其中,KNN中最为重要的几个参数包括K值,权重以及距离的计算方式:
K:为选取与当前点距离最近的k个点,如k太小,不具有抗干扰性,这时模型的偏差bias减小,方差variance增大,模型容易过拟合;k太大,相当于用较大邻域中的训练实例进行预测,学习的近似误差会增大,因此不具有代表性。
weights:不考虑距离权重和考虑距离权两种形式;
距离度量方式P:包括闵可夫斯基距离、欧氏距离、曼哈顿距离等等;
利用GridSearch对weights,p,K值进行遍历,结果表明最佳参数为weights="distance",p=1,k=4。
如图5-6和表3,KNN模型的表现如下:准确性为:84.0%;查准率为:82.01%;查全率为:84.24%;ROC线下面积:0.88;敏感度0.84,特异性:0.92。
表3 KNN模型数据汇总
如图7-8和表4,SVM模型的表现如下:准确性为:92.00%;查准率为:90.48%;查全率为:93.94%;ROC线下面积:0.94;敏感度:0.92,特异性:0.96。
表4 SVM模型数据汇总
多层感知器(Multilayer Perceptron,MLP)算法思路:是一种浅层神经网络算法,由输入层(Input Layer)、隐藏层(Hidden Layer)、输出层(Output Layer)组成,每层由单元组成,输入层是由训练集的实例特征向量传入,经过连接节点的权重(Weight)传入下一层,上一层的输出是下一层的输入,隐藏层的个数是任意的,输出层和输入层只有一个。
实现步骤:通过输入训练集中病例的所有特征以及标签,构建MLP模型;通过测试集中病例的特征,将输出的预测结果与测试集的标签进行比对,衡量算法表现。
超参数选择与优化:MLP有超过20余个超参数,但是最重要的参数为隐藏层的层数和每一个隐藏层中的神经元数量。因此在参数选择上主要考虑了权重优化的求解器(slover),hidden_layer_sizes(隐藏层的层数和神经元数量)。slover包括了'lbfgs’,'sgd’和'adam’。'lbfgs’是准牛顿方法族的优化器,对于小型数据集,可以更快地收敛并且表现更好。'sgd’指的是随机梯度下降。'adam’是基于随机梯度的优化器,在相对较大的数据集方面在训练时间和验证分数方面都能很好地工作。
利用GridSearch进行最优参数的选择包括优化器的选择,隐藏层的数量和神经元个数:得到的最佳参数为slover='adam’,hidden_layer_sizes(7,5,),包含两层隐藏层,第一层7个神经元,第二层5个神经元。
如图9-10和表5,准确性为:84.00%;查准率为:82.01%;查全率为:83.33%;ROC线下面积:0.88,敏感度:0.84,特异性:0.92。
表5 MLP模型数据汇总
逻辑回归(Logistic Regression,LR)算法思路:LR属于监督学习,是一种“分类”算法,LR的回归实质是发生概率除以没有发生概率再取对数。
实现步骤:通过输入训练集中病例的所有特征以及标签,构建LR模型;通过测试集中病例的特征,将输出的预测结果与测试集的标签进行比对,衡量算法表现。
超参数选择与优化:
正则化选择参数penalty:penalty参数可选择的值为"l1"和"l2",分别对应L1的正则化和L2的正则化。优化算法选择参数solver:当penalty选择L1时候solver只能选择‘liblinear’,当penalty选择L2时,solve可选择liblinear,lbfgs,newton-cg,sag;分类方式选择参数multi_class:有ovr和multinomial两个值可以选择。在Python的sklearn中,LRlogisticRegressionCV使用了交叉验证来选择正则化系数C,因此正则化系数C的的系数不需要再进行优化;最优参数为penalty="l2",solver="lbfgs",class_weight=None,multi_class="multinomial"。
如图11-12和表6,LR模型的表现如下:准确性为:76.00%;查准率为:73.54%;查全率为:73.20%;ROC线下面积:0.82,敏感度:0.76,特异性:0.88。
表6 LR模型数据汇总
随机森林(Random Forest,RF)算法思路:指的是利用多棵决策树对样本进行训练并预测的一种分类器。
实施过程:从原始训练集中使用Bootstraping方法随机有放回采样取出m个样本,共进行n_tree次采样。生成n_tree个训练集;对n_tree个训练集,我们分别训练n_tree个决策树模型;对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数,选择最好的特征进行分裂;每棵树都已知这样分裂下去,知道该节点的所有训练样例都属于同一类;将生成的多颗决策树组成随机森林,按照多棵树分类器投票决定最终分类结果;通过测试集中病例的特征,将输出的预测结果与测试集的标签进行比对,衡量算法表现。
超参数选择与优化:先调对模型影响最大的参数n_estimators,用Gridsearch探索n_estimators得出最佳值;再对树的最大深度进行调节,在不改变模型效果的前提下搜索更小的max_depth有利于模型的简化,进行网格搜索,得出max_depth最优参数;再对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参,得出的最佳参数min_samples_split的值和min_samples_leaf的值;最后再对最大特征数max_features做调参,得出的最佳参数max_features的值。
本实施例中最优参数n_estimators=34,max_depth=3,min_samples_split=2,min_samples_leaf=1,max_features=6。
如图13-14和表7,本实施例中利用随机森林构建甲状腺乳头状癌鉴别模型,RF模型的表现如下:准确性为:84.00%;查准率为:82.01%;查全率为:84.24%;ROC线下面积:0.88,敏感度:0.84,特异性:0.92。
表7 RF模型数据汇总
将上述各种算法的结果进行统计,如表8:
表8 不同模型效果的比较
由表8可见,基于凝集素芯片数据的甲状腺乳头状癌患者识别,SVM支持向量机的表现更为优异,在测试集中的准确率达到了92.00%,能够正确区分9例HV中的9例,7例BTN中的5例,9例PTC中的9例。此外RF,MLP和KNN在测试集中的准确率达到了84.00%,而LR模型的表现则较差,在测试集中的准确率为76.00%。
由此可知,本发明提供的系统能够提升甲状腺乳头状癌检测的准确度,而且由于采用了唾液进行检测,具有取样方便的优点。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。上述本发明序号仅仅为了描述,不代表实施场景的优劣。
Claims (10)
1.一种用于测试甲状腺乳头状癌的工具,其特征在于,包括:
处理器;
存储介质,与所述处理器进行数据交互,用于在所述存储介质内存储的程序被所述处理器加载时执行以下步骤:
通过甲状腺乳头状癌鉴别模型对待诊断患者的唾液的凝集素芯片数据进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者。
2.根据权利要求1所述的一种用于测试甲状腺乳头状癌的工具,其特征在于,还包括:
采集模块采集外界样本,用于获取预处理后的唾液样本:
预处理模块,与所述采集模块连接,用于接收经过所述采集模块预处理后的唾液样本获得所述凝集素芯片数据;
所述预处理模块与所述存储介质进行数据交互,将所述凝集素芯片数据存储在所述存储介质内。
3.一种用于测试甲状腺乳头状癌的系统,其特征在于,包括:
数据采集模块,用于根据唾液样本获取凝集素芯片数据;
模型构建模块,与所述数据采集模块进行数据交互,用于利用所述凝集素芯片数据形成分类标签和特征,从而构建和训练甲状腺乳头状癌鉴别模型;
如权利要求1或2所述的用于测试甲状腺乳头状癌的工具,与所述数据采集模块进行数据交互,用于利用已训练的甲状腺乳头状癌鉴别模型对待诊断患者的唾液进行鉴别,确定所述待诊断患者是否为甲状腺乳头状癌患者。
4.根据权利要求3所述的用于测试甲状腺乳头状癌的系统,其特征在于,所述模型构建模块,包括:
数据预处理单元,与所述数据采集模块进行数据交互,用于将所述凝集素芯片数据进行归一化处理,得到归一化后的凝集素芯片数据;
数据分类单元,与所述数据预处理单元进行数据交互,用于将所述归一化后的凝集素芯片数据随机排序,获取所述归一化后的凝集素芯片数据的特征和标签,并按照所述标签随机选取一部分所述归一化后的凝集素芯片数据作为所述甲状腺乳头状癌鉴别模型的训练集,另一部分所述归一化后的凝集素芯片数据作为所述甲状腺乳头状癌鉴别模型的测试集;
构建单元,与所述甲状腺乳头状癌测试工具连接,用于得到所述训练后的甲状腺乳头状癌鉴别模型并存储在所述甲状腺乳头状癌测试工具内。
5.根据权利要求4所述的用于测试甲状腺乳头状癌的系统,其特征在于:
所述数据预处理单元,采集所述数据采集模块的数据,用于进行如下步骤,从而得到所述归一化后的凝集素芯片数据:
收集凝集素与唾液样本结合点的荧光信号中值、背景值的中值,以及背景值的标准偏差;
通过所述荧光信号中值、背景值的中值,以及所述背景值的标准偏差进行有效数据的筛选预处理;
每种凝集素对应的三个点求中值,剔除阴性质控与阳性质控,进行归一化处理,获得所述凝集素芯片数据。
6.根据权利要求5所述的用于测试甲状腺乳头状癌的系统,其特征在于,所述“通过所述荧光信号中值、背景值的中值,以及所述背景值的标准偏差进行有效数据的筛选预处理”,包括:
所述荧光信号中值减去背景值的中值,并且与2倍的所述背景值的标准偏差继续比对,大于两倍背景值标准偏差的数据为有效数据,否则记为0。
7.根据权利要求4所述的用于测试甲状腺乳头状癌的系统,其特征在于:
所述构建单元与所述数据分类单元连接,用于利用所述特征和标签通过K最近邻算法、支撑向量机、多层感知器、逻辑回归以及随机森林中的任一种算法依据所述凝集素芯片数据构建所述甲状腺乳头状癌鉴别模型。
8.根据权利要求7所述的用于测试甲状腺乳头状癌的系统,其特征在于:
所述构建单元接收所述标签和所述特征,用于通过以下步骤依据所述凝集素芯片数据构建所述甲状腺乳头状癌鉴别模型:
根据需要构造N个SVM支持向量机,N为正整数且N≥1;
将所述数据分类单元中的特征输入所述SVM支持向量机中,通过投票得到所述样本的类别。
9.根据权利要求4所述的用于测试甲状腺乳头状癌的系统,其特征在于,所述模型构建模块,还包括:超参数选择与优化单元;
所述参数选择与优化单元与所述构建单元进行数据交互,用于通过以下步骤对所述甲状腺乳头状癌鉴别模型进行调整:
设置所述SVM支持向量机惩罚系数;
在进行核函数选取时,采用径向基核(RBF)作为所述SVM支持向量机的核函数,设置该核函数下的最优参数Gamma。
10.根据权利要求3所述的用于测试甲状腺乳头状癌的系统,其特征在于:
所述数据采集模块,包括:
采集单元,用于收集唾液样本;
标记单元,与所述采集单元连接,用于对所述唾液样本进行荧光标记;
凝集素芯片单元,与所述标记单元连接,用于放置荧光标记后的唾液样本;
孵育单元,与所述凝集素芯片单元连接,用于孵育放置有荧光标记唾液样本的凝集素芯片单元;
数据获取单元,与所述孵育单元连接,用于扫描孵育后的凝集素芯片单元后,进行图像分析获取所述凝集素芯片数据;
所述数据获取单元与所述数据预处理单元连接,用于获取所述归一化后的凝集素芯片数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210082476.9A CN114529755B (zh) | 2022-01-24 | 2022-01-24 | 用于测试甲状腺乳头状癌的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210082476.9A CN114529755B (zh) | 2022-01-24 | 2022-01-24 | 用于测试甲状腺乳头状癌的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114529755A true CN114529755A (zh) | 2022-05-24 |
CN114529755B CN114529755B (zh) | 2024-04-09 |
Family
ID=81621319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210082476.9A Active CN114529755B (zh) | 2022-01-24 | 2022-01-24 | 用于测试甲状腺乳头状癌的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529755B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010068747A1 (en) * | 2008-12-12 | 2010-06-17 | University Of Florida Research Foundation, Inc. | Cell-based detection of apf through its interaction with ckap4 for diagnosis of interstitial cystitis |
CN105652002A (zh) * | 2016-01-07 | 2016-06-08 | 西北大学 | 一种基于唾液蛋白检测糖链标志物的凝集素芯片及其方法 |
CN105929162A (zh) * | 2016-05-13 | 2016-09-07 | 西北大学 | 一种基于唾液蛋白鉴别乳腺癌的凝集素芯片和试剂盒及其应用 |
US20170191111A1 (en) * | 2015-12-31 | 2017-07-06 | Roche Molecular Systems, Inc. | Detecting an analyte in a flash and glow reaction |
CN113721029A (zh) * | 2021-08-25 | 2021-11-30 | 西北大学 | 特定凝集素组合鉴别肝硬化、肝癌的测试工具及系统 |
CN113723488A (zh) * | 2021-08-23 | 2021-11-30 | 西北大学 | 基于唾液凝集素芯片数据的疾病区分工具及系统 |
-
2022
- 2022-01-24 CN CN202210082476.9A patent/CN114529755B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010068747A1 (en) * | 2008-12-12 | 2010-06-17 | University Of Florida Research Foundation, Inc. | Cell-based detection of apf through its interaction with ckap4 for diagnosis of interstitial cystitis |
US20170191111A1 (en) * | 2015-12-31 | 2017-07-06 | Roche Molecular Systems, Inc. | Detecting an analyte in a flash and glow reaction |
CN105652002A (zh) * | 2016-01-07 | 2016-06-08 | 西北大学 | 一种基于唾液蛋白检测糖链标志物的凝集素芯片及其方法 |
CN105929162A (zh) * | 2016-05-13 | 2016-09-07 | 西北大学 | 一种基于唾液蛋白鉴别乳腺癌的凝集素芯片和试剂盒及其应用 |
CN113723488A (zh) * | 2021-08-23 | 2021-11-30 | 西北大学 | 基于唾液凝集素芯片数据的疾病区分工具及系统 |
CN113721029A (zh) * | 2021-08-25 | 2021-11-30 | 西北大学 | 特定凝集素组合鉴别肝硬化、肝癌的测试工具及系统 |
Non-Patent Citations (3)
Title |
---|
汪颖;孙玉发;柴宁莉;徐伟;冯佳;王向东;唐平;杨晶;张伟;令狐恩强;: "黏液性/浆液性胰腺囊性肿瘤囊液蛋白质糖基化差异表达研究", 生物化学与生物物理进展, no. 12, 31 December 2016 (2016-12-31), pages 64 - 71 * |
董晓霞;王莹莹;孟璐;沈力;: "应用凝集素芯片检测胃癌细胞膜表面糖链表达", 湖北医药学院学报, no. 01, 25 February 2017 (2017-02-25), pages 12 - 15 * |
龚晓波;廖阮颖子;孟标;郭道军;胡阳;凌亚军;: "长寿地区土壤重金属元素污染特征及评价", 四川地质学报, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN114529755B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3776337B1 (en) | Systems for cell shape estimation | |
Rathore et al. | A recent survey on colon cancer detection techniques | |
JP2018502275A (ja) | 分析の最適化および相関性の利用を含む、生体試料の分類方法および分類システム | |
WO2003041562A2 (en) | Molecular cancer diagnosis using tumor gene expression signature | |
Kezlarian et al. | Artificial intelligence in thyroid fine needle aspiration biopsies | |
CN114664413A (zh) | 在治疗前对直肠癌治疗抵抗及其分子机制的预测系统 | |
CN107208131A (zh) | 用于肺癌分型的方法 | |
CN115715416A (zh) | 基于机器学习的医学数据检查器 | |
Abbasi-Sureshjani et al. | Molecular subtype prediction for breast cancer using H&E specialized backbone | |
Papini et al. | Breast cancer detection using machine learning approaches on microwave-based data | |
Gasmi et al. | Multi-input cnn for molecular classification in breast cancer | |
Mamun et al. | Recognition of human skin diseases using inception-v3 with transfer learning | |
CN113723488A (zh) | 基于唾液凝集素芯片数据的疾病区分工具及系统 | |
Baroni et al. | Optimizing Vision Transformers for Histopathology: Pretraining and Normalization in Breast Cancer Classification | |
CN114529755B (zh) | 用于测试甲状腺乳头状癌的系统 | |
Lang et al. | Breast cancer magnification-independent multi-class histopathology classification using dual-step model | |
Gavade et al. | Cancer cell detection and classification from digital whole slide image | |
CN114755425A (zh) | 基于唾液凝集素芯片数据的肺病识别工具及系统 | |
CN116718573A (zh) | 基于唾液凝集素芯片数据的乳腺癌识别工具及系统 | |
Selcuk et al. | Automated HER2 Scoring in Breast Cancer Images Using Deep Learning and Pyramid Sampling | |
Rajakumaran et al. | Improvement in tongue color image analysis for disease identification using deep learning based depthwise separable convolution model | |
Feng et al. | Flexible diagnostic measures and new cut‐point selection methods under multiple ordered classes | |
CN116718572A (zh) | 基于唾液凝集素芯片数据的胃癌识别系统 | |
Nalla et al. | Influence of Convolutional Neural Network Depth on the Efficacy of Automated Breast Cancer Screening Systems | |
Kate et al. | A new approach to breast cancer analysis through histopathological images using MI, MD binary, and eight class classifying techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |