CN113721029B

CN113721029B - 特定凝集素组合鉴别肝硬化、肝癌的测试工具及系统

Info

Publication number: CN113721029B
Application number: CN202110984286.1A
Authority: CN
Inventors: 李铮; 唐振; 于汉杰; 舒健; 张宸
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-06-06
Anticipated expiration: 2041-08-25
Also published as: CN113721029A

Abstract

本发明公开了一种凝集素组合鉴别肝硬化、肝癌的测试工具及系统，包括：PHA‑E+L、VVA、ACA等37种凝集素。本发明从唾液诊断入手，利用凝集素芯片技术，选取PHA‑E+L、VVA、ACA，以及LCA、NPA、GSL‑Ⅰ、SJA、BS‑Ⅰ，共计8种凝集素作为训练集中各模型的候选变量，并结合机器学习算法建立辅助肝硬化和肝癌鉴别诊断的模型，本发明的测试工具及系统具有采样方便、灵敏度高的特点，适合对病人进行早、中期筛查，能够快速鉴别受试者是否患有肝硬化、肝癌。

Description

特定凝集素组合鉴别肝硬化、肝癌的测试工具及系统

技术领域

本发明涉及一种特定凝集素组合构建基于唾液糖蛋白糖链鉴别肝硬化、肝癌的测试工具及系统。

背景技术

肝癌(Hepatocellular Carcinoma，HCC)是医学领域内致死率最高的肿瘤之一，其在早期没有表现出明显的临床症状，而在晚期表现出明显的临床症状，导致疗效不理想。通过对有风险的患者进行早期监测仍然是防治肝癌最好的方式，并且目前的治疗手段可以有效地治疗早期肝癌。

肝癌发病隐蔽，发病速度快，给治疗带来一定的困难。众所周知，血清中的糖蛋白水平的检测对原发性肝癌的诊断有重要的预测价值，但也有一定的局限性。由于影像学检查手段的进步，利用B型超声检测肝癌的方法也得到了广泛的应用，但诊断的解读还是依靠临床医生的肉眼；当前用于肝硬化(Hepatic Cirrhosis，HC)诊断手段也受目前医学水平的约束，均存在难以进行早期筛查、灵敏性低等不足。

鉴于此，一种基于唾液糖蛋白糖链鉴别肝硬化、肝癌的测试工具亟待研发。

发明内容

为了克服现有技术的不足，本发明提供了一种特定凝集素组合鉴别肝硬化、肝癌的测试工具及系统，用于解决前述技术问题中的至少一个。

具体地，其技术方案如下：

一种特定凝集素组合在制备基于唾液糖蛋白糖链鉴别肝硬化、肝癌的测试工具中的应用，所述特定凝集素组合，包括：PHA-E+L、VVA、ACA。

一种基于唾液糖蛋白糖链鉴别肝硬化、肝癌的测试工具，包括：获取唾液样本的凝集素芯片荧光信号值，所述凝集素测试结果体现特定凝集素组合： PHA-E+L、VVA、ACA等凝集素结合的糖蛋白糖链的表达水平，并通过随机森林算法构建诊断模型获得检测结果。

一种基于唾液糖蛋白糖链鉴别肝硬化、肝癌的系统，包括：

采集装置，用于获取唾液样本中如上所述的特定凝集素组合中的任一凝集素结合的特定糖蛋白糖链的表达水平；

如上所述的测试工具，与所述采集装置连接，用于通过所述存储介质收集所述采集装置中的特定糖蛋白糖链的表达水平，从而在所述处理器中进行肝硬化、肝癌鉴别。

所述采集装置，包括：

凝集素芯片、孵育单元以及生物芯片扫描模块，其中凝集素芯片上设置有所述特定凝集素组合。

所述凝集素芯片与所述孵育单元连接，用于使所述凝集素芯片在所述孵育单元中进行孵育反应；

所述生物芯片扫描模块与所述孵育单元连接，用于读取所述孵育单元内的凝集素芯片上各凝集素结合的糖蛋白糖链的表达数据。

所述测试工具，包括：

处理器，与所述采集装置连接，用于获取凝集素芯片数据作为训练集中的候选变量，构建鉴别模型；

所述候选变量包括如上所述的特定凝集素组合。

所述处理器获取所述采集装置中的凝集素芯片数据，用于通过以下步骤构建鉴别模型；

采用randomForest包构建初步的RF模型；

利用mtry定义在每个拆分中随机抽取为候选变量的数量，其代表节点中二叉树的变量个数；

通过设置种子数，以确保设置同样的程序每次结果一致，然后寻找最优参数ntree；

通过所述RF模型构建模型第一模型和第二模型，分别查看样本的间距，将proximity matrix转化成distance matrix，计算每个MDS轴占据的百分比，然后用MDSplot函数实现随机森林的可视化。

所述处理器与所述采集装置连接，用于根据凝集素芯片数据作为训练数据集；然后，通过主成分分析选取包括所述特定凝集素组合的特征及三组间均具有差异的凝集素作为候选变量；然后采用随机森林法构建所述鉴别模型。

所述处理器获取所述采集装置中的凝集素芯片数据，还包括以下构建鉴别模型的步骤；

通过以准确率递减的方法计算所述第一模型和第二模型中每种凝集素的重要性值，并对上述第一模型和第二模型的准确度通过验证集进行验证。

所述候选变量，还包括：LCA、NPA、GSL-Ⅰ、SJA、BS-Ⅰ中的一种或多种。

本发明至少具有以下有益效果：

本发明从唾液诊断入手，利用凝集素芯片技术，根据患者唾液糖蛋白聚糖水平的变化，并结合机器学习(Machine Learning)算法建立辅助HC和HCC鉴别诊断的数学模型，以期进一步为HC和HCC患者的筛查与监测提供辅助支持；本发明具有采样方便、灵敏度高的特点，适合对病人进行早、中期筛查，能够快速鉴别受试者是否患有肝硬化或肝癌。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为凝集素芯片的点样设计图。

图2为各组组间均有统计学差异的凝集素信号值的箱型图和芯片图。

图3为构建基于唾液糖蛋白糖型的LD、HCC鉴别模型的流程图。

图4为凝集素芯片训练数据集的PCA分析图。

图5为LR-LD模型在训练集中的ROC曲线图。

图6为LR-HCC模型在训练集中的ROC曲线图。

图7为随机森林鉴别模型及其拟合效果图。

图8为支持向量机在训练集中的分类效果表现图。

图9为基于三种算法构建的LD、HCC模型在验证集中的ROC曲线图。

具体实施方式

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

为了解决现有技术的问题，本发明公开以下实施例：

本实施例利用包含37种凝集素的芯片，对118例唾液样本(HV，35、HCC， 43、HC，40)逐例检测，以期进一步理解肝硬化、肝癌发展过程中唾液蛋白质糖基化水平的变化。

本实施例主要应用仪器

表1实验主要应用仪器表

本实施例所需试剂与耗材

表2凝集素微阵列试验所需试剂及材料表

本实施例中主要实验溶液的配制

(1)凝集素点样液：配置不同的凝集素要根据其各自的产品说明书要求，加入其对单糖以及BSA溶于相应的不同pH的磷酸盐缓冲液或Hepes缓冲液，此外还需要重金属离子如镁离子或者钠离子来维持活跃的结合部位。配制完毕的点样液用0.22μm滤膜过滤后，保存于-80℃冰箱中。

(2)凝集素芯片的封闭缓冲液：0.2g BSA与0.75g甘氨酸溶于1mL 10×PBS(pH＝7.4)，而后加入5μL的Tween-20，用纯水定容至10mL，配制完毕后的封闭缓冲液用0.22μm滤膜过滤后，于-20℃保存备用。

(3)凝集素芯片的孵育缓冲液：0.3g BSA、1.125g甘氨酸溶于 1.5mL10×PBS(pH＝7.4),再加入7.5μL Tween-20，纯水定容至10mL，配制完毕后经0.22μm滤膜过滤后，于-20℃保存备用。

(4)10×PBS：1.37mol/L NaCl、0.1mol/L Na₂HPO₄、0.027mol/L KCl、0.0176 mol/LKH₂PO₄至无菌水中，调至pH为7.4，室温保存，使用时按需稀释即可。

(5)10×PBST：10×PBS中加入0.2％Tween-20。

(6)4M羟胺：盐酸羟胺2.779g，用1×PBS定容至10mL经0.22μm滤膜过滤，于4℃保存。

(7)10％GPTS溶液：30mL GPTS，450μL冰醋酸，加无水乙醇补足体积至300mL。

(8)碳酸钠/碳酸氢钠缓冲液：1mol/L Na₂CO₃溶于无菌水中，然后加入 NaHCO₃调pH为9.3，经0.22μm滤膜过滤，于4℃保存。

(9)Cy3荧光染剂：根据其各自产品说明书要求，每管加入120μL的DMSO 溶液以溶解荧光干粉，室温避光反应40分钟后分进行装，置于-20℃保存备用。

(10)piranha溶液：在通风橱内配制该溶液，150mL 98％浓硫酸中烧杯中后放入冰上，将150mL 30％过氧化氢慢慢的加入150mL 98％浓硫酸中，待完全冷却后加热使用，现配现用，此溶液用于清洗片基表面的杂质。

本实施例中唾液样本的收集

为了减少样本所属者年龄差异过大而给实验中的芯片结果分析带来复杂性，本实施例选择的样本中健康志愿者与肝硬化和肝癌患者的年龄段尽可能地相近。所有健康志愿者需满足无重大疾病史及药物过敏史，不吸烟、不长期饮酒等条件，肝硬化患者、肝癌患者需满足除肝脏外其他相关身体健康指标无异常(包含但不限于且糖尿病和高血压等慢性病)。在采集唾液样本前，捐赠唾液样品的志愿者，以及协助采样说明的临床医生，均被告知，并在统一采样要求下完成了唾液样品的收集。在收集唾液前30分钟内，要求请勿吃饭、喝酒、吸烟等。因为未受刺激的唾液比受刺激的唾液含有更高浓度的诊断性生物标志物，所以采取无刺激的采样方法。采集时需用生理盐水多次漱口，以减少唾液中食物残渣的混入，唾液样本如明显被血液污染，应丢弃并重新采集。每份样本采集在5 分钟内完成，且规定时间内至少采集2mL。在盖上试管盖子之前先让泡沫沉淀，否则泡沫会溢出。收集前要将试管放于冰上，预冷试管中以保持低温，收集后尽快冷冻样品，避免多次冻融。样本随后用高速冷冻离心机调至转速12,000g于 4℃下离心20分钟，取上清液。唾液含有许多蛋白质降解酶，在牙周病患者中这些酶的水平升高，所以要按照1μL/mL的比例立即加入蛋白酶抑制剂以防止唾液中的蛋白水解，涡旋均匀后分装于-80℃储存。

本实施例涉及的所有唾液样本的采集均通过所涉及单位的伦理委员会审批，符合规范。肝硬化和肝癌患者的唾液样本于2018年9月至2020年1月在某医院肝病感染科处收集，健康志愿者的唾液样本在某大学处收集。本实施例中共计处理分析118例唾液样本，将其整理为三组：健康志愿者组(Healthy Volunteer， HV)35例、肝硬化患者组(HepaticCirrhosis，HC)40例和肝癌患者组 (Hepatocellular Carcinoma，HCC)43例，样品性别、年龄信息见表3。

表3用于凝集素芯片逐例检测的唾液样本信息表

本实施例中唾液蛋白的处理

(1)使用BCA蛋白定量检测试剂盒测定唾液蛋白浓度：设定BSA的浓度梯度为0mg/mL(以超纯水作为BSA浓度为0mg/mL的溶液)，0.05mg/mL， 0.10mg/mL，0.20mg/mL，0.4mg/mL。提早将唾液样本稀释三倍为了保证唾液蛋白的浓度在标准回归曲线的线性范围内。随后取BSA标准品和待测样品各20μL 到96孔板孔内，配制BCA工作液，按50体积的BCA试剂A中加入1体积的 BCA试剂B(A/B＝50/1)的比列关系，计算好所需的试剂体积，加入后充分混匀。向96孔板中每孔加入200μL的BCA工作液，盖上96孔板盖子。将96孔板放于恒温摇床上控制温度为37℃，设定时间为30分钟。摇床停止后，用光吸收酶标仪测标准品和待测样本波长为562nm处的光吸收值。根据蛋白标品浓度与光吸收值的线性关系绘制标准回归曲线并得出公式，最后计算待测样品中的蛋白质浓度。

(2)对唾液蛋白进行荧光标记：标记实验过程严格根据产品说明书进行，每个样本对应加入5μL左右Cy3荧光染料(根据说明书标记效率)，混合摇匀，然后放在摇床上避光孵育约3-4h。随后向试管中加入20μL 4mol/L的羟胺溶液，混匀后立即插入冰盒中孵育10min。标记时先用磷酸缓冲盐预平衡Sephadex G-25柱，洗脱蛋白质使用经0.22μm滤膜过滤后的PBS缓冲液。洗脱过程中出现两条粉红色条带，下降快的粉色移动带是用标记上的唾液蛋白，而较慢的带是未结合蛋白质的游离荧光。用无菌离心管收集被移动较快的粉红色条带约 500μL体积，然后使用微量核酸蛋白质检测仪，以10mmol/L PBS(pH＝6.8)作为空白对照，检测收集液中蛋白质的浓度，被荧光标记的唾液蛋白质可以储存在4℃冰箱中，无需进一步操作，如较长时间储藏，需置于-20℃避光环境中。

本实施例中凝集素芯片检测唾液蛋白聚糖结构的获取步骤：

(1)环氧化玻璃片基的制备：制备前，对后续片基清洗过程中所用到的洗缸，镊子，玻片架等进行酒精超声清洗。挑选出40张表面无损伤划痕的芯片片基置于专用的玻片架上，然后将其放于洗缸中，加入300mL超纯水，保证水面完全覆盖所有玻片，摇床调至100r/min摇速清洗3次，每次5min；在300mL 超纯水中加入5mL片基清洁剂，75℃水浴加热1h后超声清洗15min，取出片基后，用超纯水清洗3次，保证无泡沫，每次5min。然后将片基放入于300mL piranha 溶液，注意中piranha溶液现配现用，其作用是除去片基表面所有的有机物，同时使片基表面发生羟基化。洗缸不能密封，随后将其放于95℃水浴锅中水浴2h，然后超声15min，待piranha溶液冷却后回收。片基超纯水反复摇洗3次，无水乙醇摇洗3次，每次5min。然后将片基放于配制好的10％γ-2,3-环氧丙氧-丙基三甲氧基硅烷溶液中(现配现用)，37℃，45r/min避光环境中摇洗6h，之后超声清洗20min，再用无水乙醇摇洗3次，每次10min。随后把片基放在恒温干燥箱中后调整温度至37℃，3h后取出修饰好的片基，于4℃避光环境保存。

(2)凝集素芯片的点制：凝集素芯片矩阵的设计：此款芯片包含Jacalin、 ECA等37种凝集素，阳性质控Marker为经Cy3标记后的BSA，2个阴性质控为未被标记的1mg/mL BSA，每个质控同凝集素一致连续重复点样3次，构成 12×10的芯片规格，每张片基上重复点制4个此规格的矩阵，其具体点样矩阵设计如图1所示。根据点样仪的操作规范，在384孔板上按照次序在每孔加入配制好的凝集素点样液50μL，确保顺序正确，将4孔板与已经制备完毕的环氧化修饰后的片基装载于微阵列点样仪上，使用微阵列点样系统，设置环境程序参数，保证点样环境为25℃，湿度为55-65％，运行软件，开始进行点样。程序运行结束后将芯片缓慢放在芯片专用湿盒中，正面点有凝集素，朝上。在25℃、 55-65％的湿度条件下，避光6h后置于37℃真空干燥箱中干燥3h，之后于4℃避光环境保存。

(3)凝集素芯片检测样本：先打开恒温真空干燥箱，设置37℃，取4℃保存的凝集素芯片数张，在芯片正面(点制有凝集素)的右下角刻上标记相应阿拉伯数字区分芯片正反面并确定芯片顺序,刻好之后放入干燥箱，30min后取出。封闭前先用1xPBST和1xPBS各清洗芯片一次，摇床摇速控制在75次/min，每次5min,然后用芯片离心机快速甩干，在微阵列芯片孵育盒中加入封闭缓冲液 600μL，盖好芯片，旋转拧紧拍打，让气泡能自由运动，以保证封闭液与芯片能充分反应。放入分子杂交炉中25℃避光低速旋转反应1h。封闭完成后摇速控制在85次/min，再用1×PBST、1×PBS各清洗芯片两次，每次5min，甩干。接下来进行凝集素芯片孵育和扫描，取经Cy3荧光标记后的蛋白样本6μg所需体积，孵育缓冲液80μL，取2μL10％Tween-20，4mol/L盐酸羟胺取8μL，最后用超纯水补足体积至120μL，配制成凝集素芯片孵育体系，放于冰上静置5min。在微阵列芯片孵育盒中加入孵育体系,盖好后拍打以使气泡活动，随后将孵育盒置于分子杂交炉中，设置参数25℃，在避光环境下孵育3h即可。等孵育反应结束后先用1×PBST清洗芯片三次、再用1×PBS清洗芯片三次，摇速控制在85 次/min，每次5min，甩干后避光等待扫描。

(4)读取凝集素芯片数据：打开GenPix4000B微阵列芯片扫描仪，将凝集素芯片正面朝下放入仪器中。运行GenePix Pro微阵列分析软件进行参数设置，选择Cy3荧光对应的激发光波长为532nm，设置好光电倍增管和激光强度等参数，调整扫描位置后圈定4个凝集素阵列区域精扫，保存图像后再进行实验数据读取和处理，得到肝硬化、肝癌患者唾液蛋白质糖链结构差异表，见表4。

表4凝集素识别的聚糖结构及芯片分析结果汇总表

/>

/>

在表4中：第一列为芯片阵列所含的37种凝集素，第二列为37种凝集素特异识别的主要聚糖结构，第三列为芯片数据归一化处理后的荧光信号归一化值 (NormalizedFluorescent Intensities，NFIs)的平均值和标准差。

其中三种凝集素(ACA、VVA、PHA-E+L)的芯片归一化信号值在三组间均有显著差异如图2所示。识别Bisecting GlcNAc,bi-/tri-/tetra-antennary N-glycan 结构的凝集素PHA-E+L在HC中显著上调，与HV有极显著差异(p<0.0001)，与HCC有显著差异(p＝0.0408)，凝集素VVA识别的Terminal GalNAc、 GalNAcα-Ser/Thr(Tn)、GalNAcα1-3Gal结构相较于HV，其在HCC中显著降低，有极显著差异(p<0.0001)，相较于HC也显著降低(p＝0.0127)。凝集素 ACA识别的Galβ1-3GalNAcα-Ser/Thr(T),sialyl-T(ST)结构相较于HV和HC均显著升高。

表5三组唾液蛋白样本芯片NFIratio值及其统计学差异分析汇总表

/>

其中，Not Statistically Significant(ns)表示无显著性差异；在图2中，(A) 各盒须图与散点图相嵌套能直观展示数据的分布特征，箱线图内的点表示均值，箱外的散点表示异常值。通过Kruskal–Wallis ANOVA，post-hoc Dunn’s multiple comparison test得出p值。*P<0.05；**P<0.01；***P<0.001；****P<0.0001。(B) 凝集素芯片扫描图。在HC、HCC组中与HV相比NFI具有显著差异的6种凝集素用方框标出；在HC和HCC患者组间NFI具有显著差异的4种凝集素被方框标出。

本实施例，通过包含37种不同凝集素的微阵列芯片技术对HV、HC以及 HCC患者唾液中蛋白质聚糖结构进行分析和鉴别，随后通过主成分分析选取对鉴别诊断HC和HCC贡献度较大的变量(变化的糖链结构及其结合的凝集素) 作为候选变量构建鉴别模型。

HV、HC和HCC患者的唾液样本于2019年9月至2020年12月于某医院肝病感染科处和某大学处采集，共采集到唾液样本85例，HV组31例、HC组28 例、HCC组26例。样本提供者的性别、年龄信息如表6所示。

表6验证集中用凝集素芯片检测的唾液样本信息表

本实施例利用GenePix Pro微阵列图像分析软件获取和分析相应的芯片实验数据；数据分析、数据挖掘以及可视化过程均在R语言中完成。在进行数据挖掘过程中，使用相关R语言机器学习包，以帮助完成的整个数据分析流程。

在本实施例中采集的样本共118例唾液样本，HV组35例、HC组40例、 HCC组43例。将所有样本归一化后的凝集素荧光信号中值作为训练数据集，构建鉴别模型的同时深度筛选变量特征。对训练集的中的类别进行梳理，在肝病模型LR-LD中，将HC与HCC归为肝病LD一类，与HV做以区分。此外，在肝癌模型LR-HCC中，把HCC作为一个类别，将HV和HC作为另一个类别，记为Others，再利用LR、RF和SVM机三种机器学习算法建立LD、HCC鉴别模型。

最终，如图4，选取了LCA、NPA、GSL-Ⅰ、SJA、BS-Ⅰ这5种对主成分贡献前五的变量，以及在健康志愿者、肝硬化、肝癌组均有显著差异的三种凝集素PHA-E+L、VVA、ACA，选取共计8种凝集素作为训练集中模型的候选变量。其中，在图4中，(A)为排名前10的变量在解释给定主成分中的可变性方面的贡献，纵坐标contribution表示变量对主成分的贡献，以百分比表示，横坐标为各个凝集素，中间红色虚线表示37种凝集素贡献度的平均值。其余为对主成分贡献度前五的凝集素的散点图，由Kruskal–Wallis ANOVA，得出p值。(B) 左图为变量相关图，表示凝集素之间的关联性。正负相关变量位于相对区域。 cos2表示因子质量，cos2值高的变量用蓝色表示，cos2位于中间值的变量用红色表示，cos2值低的变量用白色表示。向量的长度代表差异贡献。右图为选取贡献度前五凝集素的主成分个例数据分布图，每个组别周围添加一个浓度椭圆，以展示数据的分布情况，各椭圆中间较大的点表示各组的平均点。

本实施例提供一种利用逻辑回归构建鉴别模型的具体步骤：

逻辑回归(LR)作为一种二分类算法被广泛应用于评估危险因素、辅助临床诊断、进行预后预测分析等方面，利用R语言glm函数通过逐步逻辑回归的方法，各选取了三种凝集素分别建模并在训练集中进行ROC分析，对比模型分类指标。在LD模型中单一凝集素ACA的AUC值为0.960，特异性是0.971，灵敏度是0.855；凝集素PHA-E+L的AUC值为0.878，特异性是1，灵敏度是 0.651；凝集素SJA的AUC值为0.867，特异性是0.914，灵敏度是0.699。而三种凝集素的组合LR-LD模型的AUC值为0.990，特异性是1，灵敏度是0.928。这说明3种凝集素组合所建的模型LR-LD要优于单一凝集素建立的鉴别模型。模型LR-LD是用以鉴别健康志愿者与肝病患者(肝硬化患者和肝癌患者)样本，计算公式如下：

LR-HCC模型包含了3种凝集素：通过ROC分析，如图5，凝集素ACA的 AUC值为0.838，特异性是0.667，灵敏度是0.907；凝集素VVA的AUC值为0.767，特异性是0.840，灵敏度是0.651；凝集素SJA的AUC值为0.738，特异性是0.627，灵敏度是0.67；而LR-HCC模型的AUC值为0.851，特异性是 0.640，灵敏度是0.953；经过全面评估后，在诊断效率方面强于单一凝集素明显差于多凝集素组合LR-HCC，并且LR-HCC模型具备了在肝癌患者、健康志愿者和肝硬化患者中正确鉴别出肝癌患者的能力，其计算公式如下：

综上所述，用以鉴别HV与LD(HC&HCC)样本的模型LR-LD和用以鉴别HCC与Others(HC和HV)样本的模型LR-LD均比各自单一凝集素建立的鉴别模型更优，如图6所示。在图5～6中，AUC(Area Under Curve)表示接收者操作特征曲线下的面积，是一个用于在机器学习种评估二分类模型的常见指标。 AUC达到0.70及以上说明模型有诊断意义；AUC大于0.90说明模型对疾病预测效率比较高。

本实施例提供一种利用随机森林构建鉴别模型的具体步骤：

RF是一种利用多分类树识别和分类数据的技术，其变量间互不干扰，将数据集根据变量特征随机分为多种再对其结果总结归纳。可以使用R中的 randomForest包(其中应用Breiman的经典算法)或R party包中的cforest函数来拟合一个用于分类或回归的模型，采用randomForest包构建初步的RF模型。 mtry定义在每个拆分中随机抽取为候选变量的数量，代表节点中二叉树的变量个数。令mtry＝3，大约为总变量数量的1/3。通过设置种子数，以确保设置同样的程序每次结果一致。然后寻找最优参数ntree，即表示randomForest包所包含的最优决策树的数目；根据程辑包的建议，不应将这个数字设置得太小，以确保每个输入行至少被预测几次，首先使用默认的参数为ntree＝500，取使模型内误差基本稳定的最小值，经过比较后在肝病第一模型，即RF-LD模型，设置 ntree＝65。同理，在第二模型，即RF-HCC模型，中，经过比较后设置ntree＝200。随后构建模型RF-LD模型和RF-HCC模型。然后应用多维尺度变换(MDS)查看样本的间距，即拟合效果。将proximity matrix转化成distance matrix，计算每个MDS轴占据的百分比，然后用MDS plot函数实现随机森林的可视化。

如图7，通过以准确率递减的方法计算RF模型中每种凝集素的重要性值，查看模型中每个变量的重要性评分发现无论在RF-LD模型还是在RF-HCC模型中，ACA对两个模型的构建都非常重要，而LCA对模型的影响较小。观察拟合效果图，图7可知，在RF-LD模型中分类效果不错，HV分成一类，LD分成一类，能够对肝病起到预测作用。

本实施例提供一种利用支持向量机构建鉴别模型的具体步骤：

支持向量机(SVM)使用分类算法来处理两组分类问题。在给SVM模型提供每个类别的标记训练数据集后，它们能够对新的文本进行分类。

在本实施例中，参数Kernel不需要再进行设置，cost能实现SVM对分类误差及分离边界的控制，如果它的值相对较小，那么分离间隔可能比较大，导致很多样本被错误判别；相反当加大cost的值时，会收缩分类的间距，从而相对减小被错误判别样本的数量。gamma是除线性支持向量机外其余所有支持向量机都使用的参数。以上3个参数是用支持向量机建模的重要参数，下面对具体的设置调优过程及结果作以说明。

同样把选取的8个特征凝集素作为模型的变量。调整支持向量机运用试错法来挑选最优的gamma和cost，将gamma参数的可能范围设定为10-6～10-1，惩罚因子选择了10和100。然后获取SVM分类器相关系数，在SVM-LD模型中筛选后可知gamma等于0.01和惩罚因子cost为10时，算法模型的性能是最优的。重新设置好最佳参数，再构建一个新的支持向量机模型。用summary函数得到模型相关信息，结果显示SVM-Type项目说明本模型的类别为C分类器模型，支持向量数为18(10，8)，对应两个水平HV和LD。在SVM-HCC模型中的最佳参数为gamma等于0.01，惩罚因子cost为10时。根据以上信息，再次构建一个SVM模型，用summary函数得到模型相关信息，结果显示支持向量数为66(35，31)对应HCC和Others水平。调用plot函数绘制一个二维的散点图，如图8所示，SVM-LD模型对HV和LD有清晰的分割空间，而SVM-HCC 模型可能受到数据噪音的影响，对个别的标签判断错误。

在训练集中，支持向量机的分类效果表现如图8所示，其中，(A)为SVM-LD 模型二维分类图和SVM-HCC模型二维分类图均是以PHA-E+L作为x轴，以 ACA作为y轴。其中x代表支持向量，o代表个例数据，选择不同颜色显示， SVM-LD模型(白色代表LD，黑色代表HV)，SVM-HCC模型(黑色代表LD，白色代表others)。(B)为SVM-LD模型和SVM-HCC模型在训练集中的ROC 曲线分析。SVM-LD模型能从83例肝病样本中正确鉴别82例，从35例HV样本中正确鉴别34，总计判断错误的只有两例，灵敏性为0.99，特异性为0.97，模型准确度为0.98，AUC值为0.980。SVM-HCC模型能从43例HCC样本中正确鉴别11例，从75例Others(HV&HCC)正确鉴别67例，模型准确度为0.84， AUC值为0.819。

本发明所述特定凝集素组合包括：三种凝集素(PHA-E+L、VVA、ACA) 的芯片归一化信号值在健康志愿者、肝硬化、肝癌均有显著差异，然后选取了 LCA、NPA、GSL-Ⅰ、SJA、BS-Ⅰ这5种对主成分贡献前五的变量，与上述的三种凝集素(PHA-E+L、VVA、ACA)，共计8种凝集素作为训练集中各模型的候选变量。

所以，本发明所述的鉴别模型具有采样方便、灵敏度高的特点，适合对病人进行早、中期筛查，能够快速鉴别受试者是否患有肝病或肝癌。

诊断模型的评估和验证

使用模型验证集(HV：31例、HC：28例和HCC：26例)共85例新收集的唾液样本进行凝集素芯片检测，将验证集分别整理为LD组验证集和HCC组验证集，即在肝病组验证集中HC和HCC合并为一类为LD，HV为另一类；在肝癌组验证集中，肝癌HCC为一类，健康HV和HC合并为一类为Others；以方便我们计算各自的二分类模型指标；通过取得每个样本凝集素所对应的归一化荧光强度数值，然后分别代入基于三种算法构建的诊断模型进行验证，记录预测标签与真实标签的个数，根据混淆矩阵计算灵敏性，特异性和准确度，以及比较基于三种算法构建的LD、HCC模型在验证集中的ROC-AUC值，以此评估模型的区分效率，检验结果如下表7：

表7验证集中LD、HCC模型的ROC结果分析表

表8基于三种算法的诊断模型在验证集中的混淆矩阵结果表

经过对比发现，在LD验证集中，基于逻辑回归算法构建的LR-LD模型，其AUC值为0.888，具体来看，它在54名LD患者中，正确判断出52名，在 31名HV中，正确判断出16例，灵敏性达到了0.963，特异性仅为0.677，准确度为0.86；而在SVM-LD模型中其AUC值为0.740，具体而言，它在54名LD 患者中，正确判断出52名，在31名HV中，正确判断出21例，灵敏性达到了 0.963，特异性为0.677，准确度为0.86。由此我们认为RF-LD模型更适合作为临床诊断的应用模型；在HCC验证集中，基于支持向量机建立的SVM-HCC模型仅特异性高于LR-HCC模型，其他评估指标均低于其他算法建立的HCC模型，其AUC值为0.73，在26例HCC患者样本中，正确判断出19例，其他类别正确判断出43例，错误判断了16例，灵敏性为0.73，特异性为0.73，准确度为 0.73。LR-HCC模型和RF-HCC模型的AUC值相同均为0.859，LR-HCC模型将HCC验证集中26例HCC全部诊断正确，但特异性较低，整体的准确度为0.79；而RF-HCC模型预测结果，敏感度为0.77，其准确度为0.89，在89例样本中将9例诊断错误，小于在LR-HCC模型中误诊18例。综合考虑到模型的可靠性，我们选择基于随机森林建立的肝癌诊断模型RF-HCC为最优模型。

本发明还提供一种实施例：一种基于唾液糖蛋白糖链鉴别肝病的智能终端，包括：处理器和存储介质；所述存储介质用于在存储的程序被处理器加载时执行以下步骤：获取唾液样本的凝集素测试结果，所述凝集素测试结果体现特定凝集素组合：PHA-E+L、VVA、ACA等凝集素结合的糖蛋白糖链的表达水平，并通过随机森林算法构建鉴别模型获得检测结果。

本发明提供还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序；所述计算机程序在运行时，执行如上所述的甄别肝硬化、肝癌的步骤。在本发明中，计算机可读的存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。上述本发明序号仅仅为了描述，不代表实施场景的优劣。

Claims

1.一种特定凝集素组合在制备基于唾液糖蛋白糖链鉴别肝硬化、肝癌的测试工具中的应用，其特征在于：

所述特定凝集素组合，由PHA-E+L、VVA、ACA组成。

2.一种基于唾液糖蛋白糖链鉴别肝硬化、肝癌的测试工具，其特征在于，包括：

处理器；

存储介质，用于在存储的程序被处理器加载时执行以下步骤：

获取唾液样本的凝集素测试结果，所述凝集素测试结果体现特定凝集素组合：PHA-E+L、VVA、ACA凝集素结合的糖蛋白糖链的表达水平，并通过随机森林算法构建鉴别模型获得检测结果。

3.一种基于唾液糖蛋白糖链鉴别肝硬化、肝癌的系统，其特征在于，包括：

采集装置，用于获取唾液样本中如权利要求2所述的特定凝集素组合：PHA-E+L、VVA、ACA凝集素结合的特定糖蛋白糖链的表达水平；

如权利要求2所述的测试工具，与所述采集装置连接，用于通过所述存储介质收集所述采集装置中的特定糖蛋白糖链的表达水平，从而在所述处理器中进行肝硬化、肝癌鉴别。

4.根据权利要求3所述的系统，其特征在于，所述采集装置，包括：

5.根据权利要求4所述的系统，其特征在于：

6.根据权利要求3所述的系统，其特征在于，所述测试工具，包括：

所述候选变量包括如权利要求2所述的特定凝集素组合。

7.根据权利要求6所述的系统，其特征在于：

采用了randomForest包构建初步的RF模型；

通过所述初步的RF模型构建模型第一模型和第二模型，分别查看样本的间距，将proximity matrix转化成distance matrix，计算每个MDS轴占据的百分比，然后用MDSplot函数实现随机森林的可视化。

8.根据权利要求7所述的系统，其特征在于，所述处理器获取所述采集装置中的凝集素芯片数据，还包括以下构建鉴别模型的步骤；

9.根据权利要求6所述的系统，其特征在于：

所述处理器与所述采集装置连接，用于根据凝集素芯片数据作为训练数据集；然后通过主成分分析选取包括所述特定凝集素组合的特征作为候选变量；最后结合训练集数据，采用随机森林算法，构建所述鉴别模型。

10.根据权利要求7～9任一项所述的系统，其特征在于，所述候选变量，还包括凝集素：LCA、NPA、GSL-Ⅰ、SJA、BS-Ⅰ中的一种或多种。