CN114512232A - 基于级联机器学习模型的爱德华氏综合征筛查系统 - Google Patents

基于级联机器学习模型的爱德华氏综合征筛查系统 Download PDF

Info

Publication number
CN114512232A
CN114512232A CN202210140826.2A CN202210140826A CN114512232A CN 114512232 A CN114512232 A CN 114512232A CN 202210140826 A CN202210140826 A CN 202210140826A CN 114512232 A CN114512232 A CN 114512232A
Authority
CN
China
Prior art keywords
feature
data
edward
edward syndrome
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210140826.2A
Other languages
English (en)
Inventor
李玲
宋柬霏
荆瑞航
黄玉兰
张海蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yancheng Jiyan Intelligent Technology Co ltd
Original Assignee
Yancheng Jiyan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Jiyan Intelligent Technology Co ltd filed Critical Yancheng Jiyan Intelligent Technology Co ltd
Priority to CN202210140826.2A priority Critical patent/CN114512232A/zh
Publication of CN114512232A publication Critical patent/CN114512232A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于医学筛查方法技术领域,具体涉及一种基于级联机器学习模型的爱德华氏综合征筛查系统;是基于相关性的特征选择算法(CFS)、随机森林RF机器学习模型和K近邻机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块、模型最终判决模块,对产前筛查数据集学习并分类,从而达到提高诊断准确率,筛选出与结局强相关的变量的效果。

Description

基于级联机器学习模型的爱德华氏综合征筛查系统
技术领域
本发明属于医学筛查方法技术领域,具体涉及一种基于级联机器学习模型的爱德华氏综合征筛查系统。
背景技术
爱德华氏综合征也称为18-三体综合征,是由染色体异常而导致的疾病。该疾病是继21-三体之后第二常见的常染色体三体综合征。活产患病率估计为1/6000-1/8000,但总体患病率较高(1/2500-1/2600),爱德华氏综合征的患病率随着母亲年龄的增加而增加。60%以上的患儿在胎内早期即流产,存活者有明显的智能障碍、特殊面容、生长发育迟缓和多发畸形。目前爱德华氏综合征尚缺乏有效的治疗方法,因此产前筛查是防止爱德华氏综合征患儿出生的有效措施。我国目前主要采用测定孕妇血清标记物、孕中期和晚期超声异常检测,并结合孕妇的年龄、孕妇外周血细胞染色体核型分析以及羊水细胞染色体检查来进行爱德华氏综合征筛查。
由于中国没有自己的筛查软件,目前,我国的产前筛查方案以及计算软件大多采用国外统计数据的标准。由于种族以及自身体质的不同,这些产前筛查软件应用到国内会出现准确率降低的问题,据统计爱德华氏综合征筛查的准确率仅为65%左右。目前我国普遍采用的产前筛查方法是羊膜穿刺术或绒毛取样(CVS)检测,这一度被称为染色体异常检测的“金标准”。然而,这种方法是侵入性的,检查过程中胎儿损伤、羊膜穿刺术的流产率约为0.4%,绒毛取样的流产率约为1.1%。因此在使用上收到了极大地限制。
近年来,随着机器学习技术的发展,机器学习方法已广泛应用于癌症诊断以及其他常见疾病的预测。精确的计算机辅助工具有助于加快疾病的诊断,减少医生工作量的同时提高工作效率,带来更精确、更高效的诊断结果。
产前筛查数据是医疗数据中一类较为特殊的数据,具有严重的非均衡性。基于上述原因,机器学习在爱德华氏综合征筛查中的应用鲜有报道。相关文献考虑数据量较少,未能充分体现出产前筛查数据的严重非均衡性。与均衡数据的分类问题相比,很明显非均衡数据的分类问题要困难得多。传统的机器学习模型针对非均衡数据集的分类效果并不好,难以应用于爱德华氏综合征的筛查。
级联式机器学习模型是一种适用于非均衡数据集的融合式机器学习算法。该算法的本质是针对不同机器学习模型的优缺点,将两种不同的机器学习算法相结合,将第一阶段未能筛选出的阳性样本送入到第二阶段继续筛选,从而尽可能达到在误检率低的前提下筛出绝大多数阳性样本的效果。两种机器学习模型能够将各自的优势互补,结合后的算法在非均衡数据集的分类准确率方面有了很大提升。目前,该方法大多用于工业界,还没有应用于爱德华氏综合征的筛查。
发明内容
为了克服上述问题,本发明提供一种基于级联机器学习模型的爱德华氏综合征筛查系统,是基于相关性的特征选择算法(CFS)、随机森林RF机器学习模型和K近邻机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块、模型最终判决模块,对产前筛查数据集学习并分类,从而达到提高诊断准确率,筛选出与结局强相关的变量的效果。
一种基于级联机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块和模型最终判决模块,其中数据预处理模块用于接收爱德华氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;
特征选择模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法进行与爱德华氏综合征筛查结果相关特征的选取;
模型预筛选模块使用随机森林RF模型对特征选择模块提取出的特征所对应的数据进行爱德华氏综合征的筛查,在得出预测结果的同时找出随机森林RF模型预测错误的爱德华氏综合征文本数据,以进行下一阶段模型的最终判决;
模型最终判决模块使用K近邻模型对模型预筛选模块得到的诊断错误的爱德华氏综合征文本数据进行最终判决,将诊断错误的爱德华氏综合征文本数据进行重新分类。
所述数据预处理模块接收的爱德华氏综合征筛查结果的文本数据是指孕妇中孕期的爱德华氏综合征筛查结果的文本数据,每一结果的文本数据看作一条爱德华氏综合征样本,每个爱德华氏综合征样本均包含58维特征;所述将数据进行标准化处理采用Min-Max标准化方法对每一维特征进行标准化,公式如下:
Figure BDA0003506838040000031
其中:xj代表标准化后的一维特征,xi代表原始的一维特征,min(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最小值,max(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最大值;
所述一维特征中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Min-Max标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补;对于离散型数据,采用众数填补的方式填补。
所述特征选择模块选取与爱德华氏综合征筛查结果相关的特征,具体采用的是基于相关性的特征选择算法,具体过程如下:
步骤一,从数据预处理模块输出的标准化后的爱德华氏综合征样本中分别计算出每一维特征分别与其他维特征之间的相关性,以及每一维特征与爱德华氏综合征预测类别的相关性,进而得到两个相关性矩阵;
其中每一维特征分别与其他维特征之间的相关性按下式计算:
Figure BDA0003506838040000032
其中:X1代表全部爱德华氏综合征样本中某一维特征下的所有数据,E(X1)代表该维特征下所有数据的数学期望,D(X1)对应的是该维特征下所有数据的方差,X2代表全部爱德华氏综合征样本中另一维特征下的所有数据,E(X2)对应的是该维特征下所有数据的数学期望,D(X2)对应的是该维特征下所有数据的方差;
每一维特征与爱德华氏综合征预测类别的相关性按下式计算:
Figure BDA0003506838040000041
其中,X代表全部爱德华氏综合征样本中一维特征下的所有数据,E(X)代表该维特征下所有数据的数学期望,D(X)对应的是该维特征下所有数据的方差,Y代表每维特征的诊断结局,1为爱德华氏综合征,0为非爱德华氏综合征,E(Y)代表诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;
步骤二,采用最佳优先搜索搜索特征子集,具体内容如下:
首先给定一个空集M,接着依次向空集M中有放回的放入每一维特征并计算每维特征的估计值merit,选择估计值最大的一维特征进入M,然后选择估计值第二大的一维特征进入M,此时在M中形成一个组合特征,计算该组合特征的估计值,如果该组合特征的估计值小于最先进入M中估计值最大的特征原来的估计值,则去除这个估计值第二大的特征,如果该组合特征的估计值不小于最先进入M中估计值最大的特征原来的估计值,则将这个估计值第二大的特征保留在M中;继续将估计值第三大的一维特征进入M,此时估计值第三大的特征与保留在M中的其他特征形成一个组合特征,计算该组合特征的估计值,如果该组合特征的估计值小于M中未放入该特征时存在的组合特征的估计值,则去除这个最新加入到M中的特征,如果该组合特征的估计值不小于M中未放入该特征时存在的组合特征的估计值,则将这个最新加入到M中的特征保留在M中,这样依次递进,直至每一维特征均处理完毕,得到估计值最大的特征组合;其中估计值Merit按下式计算:
Figure BDA0003506838040000042
其中,k代表估计值最大的特征组合中的特征数量;
Figure BDA0003506838040000043
代表该特征集合中的特征与爱德华氏综合征预测类别相关性的平均值;
Figure BDA0003506838040000051
代表该特征集合中的特征分别与其他特征之间相关性的平均值。
所述的模型预筛选模块采用由200棵决策树构成的随机森林RF模型,该模型的训练过程如下:
步骤一:将选取的爱德华氏综合征样本输入到数据预处理模块,将经过数据预处理模块处理后的爱德华氏综合征样本作为训练集;
步骤二:人工标注出训练集中每个爱德华氏综合征样本属于非爱德华氏综合征或者是爱德华氏综合征,得到标注训练集;
步骤三:在标注训练集中有放回的采集10528条爱德华氏综合征样本,并将该10528条爱德华氏综合征样本作为一棵决策树的根节点样本训练该棵决策树,形成训练后的决策树;
步骤四:重复200次步骤三,形成由200棵训练后的决策树构成的随机森林分类模型,200棵训练后的决策树会有200个分类结果,分别对每个爱德华氏综合征样本的这200个分类结果进行投票,将投票次数最多的类别指定为对应爱德华氏综合征样本最终的输出结果;
当随机森林分类模型对标注训练集中采集的数据分类准确率达到85%时,得到训练好的随机森林分类模型;其中该模型对标注训练集中采集的数据分类准确率是指该模型分类出标注训练集中全部爱德华氏综合征样本的数量/人工标注的标注训练集中全部爱德华氏综合征样本的数量*100%。
所述的模型最终判决模块采用的是K近邻机器学习方法,具体过程如下:
步骤一:选取模型预筛选模块预测错误的爱德华氏综合征样本,并人工标注出这些样本属于非爱德华氏综合征或者是爱德华氏综合征,得到标注训练集;
步骤二:在标注训练集中有放回的采集1263条爱德华氏综合征样本,并计算每个样本分别与其他1262条样本之间的欧氏距离,分别将每个样本与其他样本之间的欧式距离从小到大进行排序,选出K个距离对应样本最近邻的样本,并将最近邻样本中分类结果数量多的分类结果作为对应样本的分类结果;
步骤三:重复10次步骤二,每一条爱德华氏综合征样本经过10次最近邻对象的选取后会产生10个分类结果,分别对每一条爱德华氏综合征样本的这10个分类结果进行投票,将投票次数最多的类别指定为对应爱德华氏综合征样本最终的输出结果;
当模型最终判决模块对标注训练集中采集的数据分类准确率达到92%时,得到训练好的模型最终判决模块;其中模型最终判决模块对标注训练集中采集的数据分类准确率是指模型最终判决模块分类出标注训练集中全部爱德华氏综合征文本数据的数量/人工标注的标注训练集中全部爱德华氏综合征文本数据的数量*100%。
与现有技术相比本发明的有益效果是:
1.本发明所述的基于级联机器学习模型的爱德华氏综合征筛查方法采用了融合式机器学习算法,将随机森林RF模型与K近邻模型相结合,从而达到提高检出率,降低误检率的效果。该融合算法结合了随机森林RF模型的鲁棒性强以及支持K近邻模型时间复杂度低的优点,在分类准确率方面有了很大程度的提升。并且将该融合算法成功地应用到爱德华氏综合征的筛查当中。
2.本发明所述的基于级联机器学习模型的爱德华氏综合征筛查方法在采用基于相关性的特征选择算法筛选出最优特征子集后,结合融合式机器学习算法,应用到爱德华氏综合征的筛查预测中,预测检出率高于目前医院使用产前筛查风险评估软件得到的检出率65.0%,同时误检率低于医院使用产前筛查风险评估软件得到的误检率11.3%,提高了检出率的同时也降低了误检率。
具体实施方式
本发明所述的爱德华氏综合征筛查方法,是将融合式机器学习算法应用于爱德华氏综合征的筛查预测,根据数据的特征相关性适当地选取基于相关性的特征选择算法以达到筛选出最优特征子集的目的。最后采用融合式机器学习算法,结合随机森林RF模型以及K近邻模型的使用,将预筛选阶段筛选错误的样本送入到第二阶段进行进一步的筛选,使本发明所述的爱德华氏综合征筛查方法能够尽可能筛选出全部的阳性样本,在提高检出率的同时降低误检率。
实施例1
一种基于级联机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块和模型最终判决模块,其中数据预处理模块用于接收爱德华氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;
特征选择模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法(CFS)进行与爱德华氏综合征筛查结果相关特征的选取;
使用CFS算法的目的是需要首先过滤掉与结局不相关的特征,因为下一模块采用的随机森林RF模型的程序运行时间较长,提前过滤出一些明显与结局无关的特征可以减少随机森林RF模型的训练时间,这一步骤主要是从节省时间的角度考虑的;
模型预筛选模块使用随机森林RF模型对特征选择模块提取出的与爱德华氏综合征筛查结果相关的特征所对应的数据进行爱德华氏综合征的筛查,在得出预测结果的同时找出随机森林RF模型预测错误的爱德华氏综合征文本数据,以进行下一阶段模型的最终判决;
模型最终判决模块使用K近邻模型对模型预筛选模块得到的诊断错误的爱德华氏综合征文本数据进行最终判决,将诊断错误的爱德华氏综合征文本数据进行重新分类,以达到提升诊断精度的效果。
所述的数据预处理模块接收爱德华氏综合征筛查结果的文本数据是指孕妇中孕期的爱德华氏综合征筛查结果的文本数据,每一结果的文本数据看作一条爱德华氏综合征样本,每个爱德华氏综合征样本均包含58维特征;所述将数据进行标准化处理就是通过缩放数据进某个特定的区间,以消除特征间量纲和分布差异的影响,使机器学习模型对所有特征等同对待。采用Min-Max标准化方法对每一维特征进行标准化,Min-Max标准化的公式如下:
Figure BDA0003506838040000071
其中:xj代表标准化后的一维特征,xi代表原始的一维特征,min(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最小值,max(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最大值;其中全部爱德华氏综合征样本中的一维特征包含一列数据(每一列数据是指全部爱德华氏综合征样本中在每一个维度上的取值),最小值和最大值是每一列数据的最小值和最大值,有多少列(特征)数据就有多少个最小值和最大值;
由于录入信息的疏忽或者患者没有做该项检查,导致了某些特征值的缺失,针对此问题我们采用了缺失值填补的方法,所谓缺失值填补,就是用特定的值去填补空缺的数据。
所述一维特征中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Min-Max标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补(将该维度特征中未缺失的数据排序,找出其中位数然后把这个数作为缺失数据);对于离散型数据,采用众数填补的方式填补(找出该维度特征中出现最多次的数据作为缺失数据)。
所述特征选择模块选取与爱德华氏综合征筛查结果相关的特征,具体采用的是基于相关性的特征选择算法(CFS),具体过程如下:
步骤一,从数据预处理模块输出的标准化后的爱德华氏综合征样本中分别计算出每一维特征分别与其他维特征之间的相关性,以及每一维特征与爱德华氏综合征预测类别(指的是该特征是否为爱德华氏综合征的典型病征)的相关性,进而得到两个相关性矩阵;
其中每一维特征分别与其他维特征之间的相关性按下式计算:
Figure BDA0003506838040000081
其中:X1代表全部爱德华氏综合征样本中一维特征下的所有数据,E(X1)代表该维特征下所有数据的数学期望,D(X1)对应的是该维特征下所有数据的方差,X2代表全部爱德华氏综合征样本中另一维特征下的所有数据,E(X2)对应的是该维特征下所有数据的数学期望,D(X2)对应的是该维特征下所有数据的方差;
每一维特征与爱德华氏综合征预测类别的相关性按下式计算:
Figure BDA0003506838040000082
其中,X代表全部爱德华氏综合征样本中一维特征下的所有数据,E(X)代表该维特征下所有数据的数学期望,D(X)对应的是该维特征下所有数据的方差,Y代表每维特征的诊断结局,1为爱德华氏综合征,0为非爱德华氏综合征,E(Y)代表诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;
爱德华氏综合征文本数据的每一个特征与特征之间,以及每一维特征与诊断结局都有一定的关联程度,相关性矩阵就是计算出这个关联程度的值。
步骤二,采用最佳优先搜索(best first search)搜索特征子集,具体内容如下:
首先给定一个空集M,接着依次向空集M中有放回的放入每一维特征并计算每维特征的估计值merit,选择估计值最大的一维特征进入M,然后选择估计值第二大的一维特征进入M,此时在M中形成一个组合特征,计算该组合特征的估计值,如果该组合特征的估计值小于最先进入M中估计值最大的特征原来的估计值,则去除这个估计值第二大的特征,如果该组合特征的估计值不小于最先进入M中估计值最大的特征原来的估计值,则将这个估计值第二大的特征保留在M中;继续将估计值第三大的一维特征进入M,此时估计值第三大的特征与保留在M中的其他特征形成一个组合特征,计算该组合特征的估计值,如果该组合特征的估计值小于M中未放入该特征时存在的组合特征的估计值,则去除这个最新加入到M中的特征,如果该组合特征的估计值不小于M中未放入该特征时存在的组合特征的估计值,则将这个最新加入到M中的特征保留在M中,这样依次递进,直至每一维特征均处理完毕,得到估计值最大的特征组合;其中估计值Merit按下式计算:
Figure BDA0003506838040000091
其中,k代表估计值最大的特征组合中的特征数量;
Figure BDA0003506838040000092
代表该特征集合中的特征与爱德华氏综合征预测类别相关性的平均值;
Figure BDA0003506838040000093
代表该特征集合中的特征分别与其他特征之间相关性的平均值。
这里的估计值可以理解为使用该特征时诊断的准确率,如果是使用A特征和B特征的诊断准确率小于仅使用A特征时的诊断准确率,那么我们就去除掉B特征,继续考虑其他的特征并依次进行比较。
依次递进指的是先考虑在一个特征的情况下,选择哪个特征诊断准确率最高,然后保留该特征,再往里加入诊断准确率第二高的特征,如果这两个特征的诊断准确率高于第一个特征的诊断准确率,那么我们就将第二个特征放入,然后再继续加入诊断准确率第三高的特征继续进行比较;如果这两个特征的诊断准确率低于第一个特征的诊断准确率,那么我们就不加入该特征,而继续加入诊断准确率第三高的特征,依次递进。
所述的模型预筛选模块采用由200棵决策树构成的随机森林RF模型,该模型的训练过程如下:
步骤一:将选取的爱德华氏综合征样本输入到数据预处理模块,将经过数据预处理模块处理后的爱德华氏综合征样本作为训练集;
步骤二:人工标注出训练集中每个爱德华氏综合征样本属于非爱德华氏综合征或者是爱德华氏综合征,得到标注训练集;
步骤三:在标注训练集中有放回的采集10528条爱德华氏综合征样本,并将该10528条爱德华氏综合征样本作为一棵决策树的根节点样本训练该棵决策树,形成训练后的决策树;
步骤四:重复200次步骤三,形成由200棵训练后的决策树构成的随机森林分类模型,200棵训练后的决策树会有200个分类结果,分别对每个爱德华氏综合征样本的这200个分类结果进行投票,将投票次数最多的类别指定为对应爱德华氏综合征样本最终的输出结果;
当随机森林分类模型对标注训练集中采集的数据分类准确率达到85%时,得到训练好的随机森林分类模型;其中该模型对标注训练集中采集的数据分类准确率是指该模型分类出标注训练集中全部爱德华氏综合征样本的数量/人工标注的标注训练集中全部爱德华氏综合征样本的数量*100%。
所述的模型最终判决模块采用的是K近邻机器学习方法,具体过程如下:
步骤一:选取模型预筛选模块预测错误的爱德华氏综合征样本,并人工标注出这些样本属于非爱德华氏综合征或者是爱德华氏综合征,得到标注训练集;
步骤二:在标注训练集中有放回的采集1263条爱德华氏综合征样本,并计算每个样本分别与其他1262条样本之间的欧氏距离,分别将每个样本与其他样本之间的欧式距离从小到大进行排序,选出K个距离对应样本最近邻的样本,并将最近邻样本中分类结果数量多的分类结果作为对应样本的分类结果;
步骤三:重复10次步骤二,每一条爱德华氏综合征样本经过10次最近邻对象的选取后会产生10个分类结果,分别对每一条爱德华氏综合征样本的这10个分类结果进行投票,将投票次数最多的类别指定为对应爱德华氏综合征样本最终的输出结果;
当模型最终判决模块对标注训练集中采集的数据分类准确率达到92%时,得到训练好的模型最终判决模块;其中模型最终判决模块对标注训练集中采集的数据分类准确率是指模型最终判决模块分类出标注训练集中全部爱德华氏综合征文本数据的数量/人工标注的标注训练集中全部爱德华氏综合征文本数据的数量*100%。
实施例2
一种基于级联机器学习模型的爱德华氏综合征筛查系统,具体包括数据预处理模块、特征选择模块、模型预筛选模块和模型最终判决模块,其中:
数据预处理模块是指对爱德华氏综合征文本数据进行清洗,具体包括缺失值填补以及数据的标准化。对爱德华氏综合征文本数据进行处理后,我们得到了10528条爱德华氏综合征文本数据以及可能与爱德华氏综合征相关的58维特征。
特征选择模块使用基于相关性的特征选择方法(CFS),该算法的具体过程如下:首先从爱德华氏综合征文本数据中计算出每个特征与类别以及每个特征与特征的相关性矩阵,然后采用最佳优先搜索(best first search)搜索特征子集。我们使用估计值Merit来评价特征子集的优劣,最终选取估计值最高的特征子集。
模型预筛选模块采用了随机森林RF模型,我们将经过特征选择模块提取出的最优特征后的数据进行爱德华氏综合征的筛查,在得出预测结果的同时找出随机森林模型预测错误的爱德华氏综合征文本数据。
模型最终判决模块采用了K近邻模型,对模型预筛选模块诊断错误的爱德华氏综合征文本数据进行最终判决,其目的是将上一阶段分类错误的数据进行重新分类,以达到提升诊断精度的效果。
所述的数据预处理模块包括缺失值填补以及爱德华氏综合征文本数据的标准化。所谓缺失值填补,就是用特定的值去填补空缺的数据。对于连续型数据,我们采用中位数填补的方式;对于离散型数据,我们采用众数填补的方式。所谓数据标准化,就是通过缩放数据进某个特定的区间,以消除特征间量纲和分布差异的影响,使机器学习模型可以对所有特征等同对待。我们采用Min-Max标准化方法对爱德华氏综合征文本数据进行标准化,Min-Max标准化的公式如下:
Figure BDA0003506838040000121
其中:xj代表标准化后的一维特征,xi代表原始的一维特征,min(x)为该维度特征中所有数据的最小值,max(x)为该维度特征中所有数据的最大值;其中一维特征包含一列数据,最小值和最大值是每一列数据的最小值和最大值,有多少列(特征)数据就有多少个最小值和最大值。
所述的特征选择模块采用的是基于相关性的特征选择算法(CFS),该算法的具体过程如下:首先从爱德华氏综合征文本数据中计算出每个特征与类别以及每个特征与特征的相关性矩阵,然后采用最佳优先搜索(best first search)搜索特征子集。最佳优先搜索是指首先给定一个空集M,接着依次向空集M中有放回的放入所有特征并计算每个特征的估计值(merit),选择估计值最大的特征进入M,然后选择第二个拥有最大的估计值的特征进入M,如果这两个特征的估计值小于原来的估计值,则去除这个第二个最大的估计值的特征,然后在进行下一个,这样依次递进,找出使估计值最大的特征组合。特征集合的估计值Merit的公式定义如下:
Figure BDA0003506838040000122
其中,k代表当前特征集合的特征数量;
Figure BDA0003506838040000131
代表该特征集合中的每个特征与爱德华氏综合征预测类别的相关性的平均值;
Figure BDA0003506838040000132
代表该特征集合中每个特征之间的相关性的平均值。
所述的模型预筛选模块采用由200棵决策树构成的随机森林RF模型,该模型的训练过程如下:
步骤一:将选取的爱德华氏综合征文本数据输入到数据预处理模块,将经过数据预处理模块处理后的爱德华氏综合征文本数据作为训练集;
步骤二:人工标注出训练集中每个文本数据属于正常(非爱德华氏综合征)文本数据或者是异常(爱德华氏综合征)文本数据,得到标注训练集;
步骤三:在标注训练集中有放回的采集10528条数据,并将该10528条数据作为一棵决策树的根节点样本训练该棵决策树,形成训练后的决策树;
步骤四:重复200次步骤三,形成由200棵训练后的决策树构成的随机森林分类模型,200棵训练后的决策树会有200个分类结果,对200个分类结果进行投票,将投票次数最多的类别指定为最终的输出;
当随机森林分类模型对标注训练集中采集的数据分类准确率达到85%时,得到训练好的随机森林分类模型;其中该模型对标注训练集中采集的数据分类准确率是指该模型分类出标注训练集中全部爱德华氏综合征文本数据的数量/人工标注的标注训练集中全部爱德华氏综合征文本数据的数量*100%。
所述步骤三中训练一棵决策树的过程如下:
(1)在爱德华氏综合征样本数据集中有放回的随机采集10528条数据,将这些选择好的样本用来训练一棵决策树,并将该样本作为决策树根节点处的样本。
(2)当从步骤(1)中选出的爱德华氏综合征样本有M维特征时,在决策树的每个节点需要分裂的过程中,随机从这M为特征中选取m个,此时注意必须要满足的一个条件是m<<M。然后使用基尼系数来选择一个特征作为该节点的分裂标准,选取基尼指数最小的特征作为该决策树的分割点。
(3)重复步骤(2)将每个节点进行分裂形成决策树,一直到不能够在分裂为止,此时就形成了训练后的决策树。
所述的随机森林模型的基尼指数(Gini)的公式定义如下:
Figure BDA0003506838040000141
其中,K代表爱德华氏综合征的预测类别数;pk表示选中的样本属于第k类别的概率;(1-pk)表示该样本被错误分类的概率。
所述的模型最终判决模块采用的是K近邻预测模型,模型训练的具体过程如下:
步骤一:选取模型预筛选模块预测错误的爱德华氏综合征文本数据,并按照8:2的比例划分得到标注训练集和测试集;
步骤二:在标注训练集中有放回的采集1263条数据,并计算该1263条数据之间的欧氏距离,并将该距离从小到大进行排序,选出K个最近邻的对象,并将他们大多数的分类作为该对象的分类;
步骤三:重复10次步骤二,每一条爱德华氏综合征文本数据经过10次最近邻对象的选取后会产生10个分类结果,对这10个分类结果进行投票,将投票次数最多的类别指定为最终的输出。
所述步骤二中两条爱德华氏综合征文本数据的欧氏距离的计算公式如下:
Figure BDA0003506838040000142
其中,M代表经过特征选择模块后的爱德华氏综合征文本数据的维度;A代表第一条爱德华氏综合征文本数据;B代表第二条爱德华氏综合征文本数据;ai代表第一条爱德华氏综合征文本数据的第i维特征;bi代表第二条爱德华氏综合征文本数据的第i维特征。
本发明研究在临床病例获得的数据集上进行了验证,这些方法的泛化能力和推广能力可靠性较强。基于级联机器学习模型可以通过对爱德华氏综合征进行分类来帮助进行爱德华氏综合征的产前筛查工作。

Claims (5)

1.一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于包括数据预处理模块、特征选择模块、模型预筛选模块和模型最终判决模块,其中数据预处理模块用于接收爱德华氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;
特征选择模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法进行与爱德华氏综合征筛查结果相关特征的选取;
模型预筛选模块使用随机森林RF模型对特征选择模块提取出的特征所对应的数据进行爱德华氏综合征的筛查,在得出预测结果的同时找出随机森林RF模型预测错误的爱德华氏综合征文本数据,以进行下一阶段模型的最终判决;
模型最终判决模块使用K近邻模型对模型预筛选模块得到的诊断错误的爱德华氏综合征文本数据进行最终判决,将诊断错误的爱德华氏综合征文本数据进行重新分类。
2.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述数据预处理模块接收的爱德华氏综合征筛查结果的文本数据是指孕妇中孕期的爱德华氏综合征筛查结果的文本数据,每一结果的文本数据看作一条爱德华氏综合征样本,每个爱德华氏综合征样本均包含58维特征;所述将数据进行标准化处理采用Min-Max标准化方法对每一维特征进行标准化,公式如下:
Figure FDA0003506838030000011
其中:xj代表标准化后的一维特征,xi代表原始的一维特征,min(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最小值,max(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最大值;
所述一维特征中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Min-Max标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补;对于离散型数据,采用众数填补的方式填补。
3.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述特征选择模块选取与爱德华氏综合征筛查结果相关的特征,具体采用的是基于相关性的特征选择算法,具体过程如下:
步骤一,从数据预处理模块输出的标准化后的爱德华氏综合征样本中分别计算出每一维特征分别与其他维特征之间的相关性,以及每一维特征与爱德华氏综合征预测类别的相关性,进而得到两个相关性矩阵;
其中每一维特征分别与其他维特征之间的相关性按下式计算:
Figure FDA0003506838030000021
其中:X1代表全部爱德华氏综合征样本中某一维特征下的所有数据,E(X1)代表该维特征下所有数据的数学期望,D(X1)对应的是该维特征下所有数据的方差,X2代表全部爱德华氏综合征样本中另一维特征下的所有数据,E(X2)对应的是该维特征下所有数据的数学期望,D(X2)对应的是该维特征下所有数据的方差;
每一维特征与爱德华氏综合征预测类别的相关性按下式计算:
Figure FDA0003506838030000022
其中,X代表全部爱德华氏综合征样本中一维特征下的所有数据,E(X)代表该维特征下所有数据的数学期望,D(X)对应的是该维特征下所有数据的方差,Y代表每维特征的诊断结局,1为爱德华氏综合征,0为非爱德华氏综合征,E(Y)代表诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;
步骤二,采用最佳优先搜索搜索特征子集,具体内容如下:
首先给定一个空集M,接着依次向空集M中有放回的放入每一维特征并计算每维特征的估计值merit,选择估计值最大的一维特征进入M,然后选择估计值第二大的一维特征进入M,此时在M中形成一个组合特征,计算该组合特征的估计值,如果该组合特征的估计值小于最先进入M中估计值最大的特征原来的估计值,则去除这个估计值第二大的特征,如果该组合特征的估计值不小于最先进入M中估计值最大的特征原来的估计值,则将这个估计值第二大的特征保留在M中;继续将估计值第三大的一维特征进入M,此时估计值第三大的特征与保留在M中的其他特征形成一个组合特征,计算该组合特征的估计值,如果该组合特征的估计值小于M中未放入该特征时存在的组合特征的估计值,则去除这个最新加入到M中的特征,如果该组合特征的估计值不小于M中未放入该特征时存在的组合特征的估计值,则将这个最新加入到M中的特征保留在M中,这样依次递进,直至每一维特征均处理完毕,得到估计值最大的特征组合;其中估计值Merit按下式计算:
Figure FDA0003506838030000031
其中,k代表估计值最大的特征组合中的特征数量;
Figure FDA0003506838030000032
代表该特征集合中的特征与爱德华氏综合征预测类别相关性的平均值;
Figure FDA0003506838030000033
代表该特征集合中的特征分别与其他特征之间相关性的平均值。
4.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述的模型预筛选模块采用由200棵决策树构成的随机森林RF模型,该模型的训练过程如下:
步骤一:将选取的爱德华氏综合征样本输入到数据预处理模块,将经过数据预处理模块处理后的爱德华氏综合征样本作为训练集;
步骤二:人工标注出训练集中每个爱德华氏综合征样本属于非爱德华氏综合征或者是爱德华氏综合征,得到标注训练集;
步骤三:在标注训练集中有放回的采集10528条爱德华氏综合征样本,并将该10528条爱德华氏综合征样本作为一棵决策树的根节点样本训练该棵决策树,形成训练后的决策树;
步骤四:重复200次步骤三,形成由200棵训练后的决策树构成的随机森林分类模型,200棵训练后的决策树会有200个分类结果,分别对每个爱德华氏综合征样本的这200个分类结果进行投票,将投票次数最多的类别指定为对应爱德华氏综合征样本最终的输出结果;
当随机森林分类模型对标注训练集中采集的数据分类准确率达到85%时,得到训练好的随机森林分类模型;其中该模型对标注训练集中采集的数据分类准确率是指该模型分类出标注训练集中全部爱德华氏综合征样本的数量/人工标注的标注训练集中全部爱德华氏综合征样本的数量*100%。
5.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述的模型最终判决模块采用的是K近邻机器学习方法,具体过程如下:
步骤一:选取模型预筛选模块预测错误的爱德华氏综合征样本,并人工标注出这些样本属于非爱德华氏综合征或者是爱德华氏综合征,得到标注训练集;
步骤二:在标注训练集中有放回的采集1263条爱德华氏综合征样本,并计算每个样本分别与其他1262条样本之间的欧氏距离,分别将每个样本与其他样本之间的欧式距离从小到大进行排序,选出K个距离对应样本最近邻的样本,并将最近邻样本中分类结果数量多的分类结果作为对应样本的分类结果;
步骤三:重复10次步骤二,每一条爱德华氏综合征样本经过10次最近邻对象的选取后会产生10个分类结果,分别对每一条爱德华氏综合征样本的这10个分类结果进行投票,将投票次数最多的类别指定为对应爱德华氏综合征样本最终的输出结果;
当模型最终判决模块对标注训练集中采集的数据分类准确率达到92%时,得到训练好的模型最终判决模块;其中模型最终判决模块对标注训练集中采集的数据分类准确率是指模型最终判决模块分类出标注训练集中全部爱德华氏综合征文本数据的数量/人工标注的标注训练集中全部爱德华氏综合征文本数据的数量*100%。
CN202210140826.2A 2022-02-16 2022-02-16 基于级联机器学习模型的爱德华氏综合征筛查系统 Pending CN114512232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210140826.2A CN114512232A (zh) 2022-02-16 2022-02-16 基于级联机器学习模型的爱德华氏综合征筛查系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210140826.2A CN114512232A (zh) 2022-02-16 2022-02-16 基于级联机器学习模型的爱德华氏综合征筛查系统

Publications (1)

Publication Number Publication Date
CN114512232A true CN114512232A (zh) 2022-05-17

Family

ID=81551668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210140826.2A Pending CN114512232A (zh) 2022-02-16 2022-02-16 基于级联机器学习模型的爱德华氏综合征筛查系统

Country Status (1)

Country Link
CN (1) CN114512232A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847285A (zh) * 2018-05-09 2018-11-20 吉林大学 基于机器学习的孕前期及孕中期唐氏综合征筛查方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN111524606A (zh) * 2020-04-24 2020-08-11 郑州大学第一附属医院 一种基于随机森林算法的肿瘤数据统计方法
CN111709460A (zh) * 2020-05-27 2020-09-25 西安理工大学 基于相关系数的互信息特征选择方法
CN113128654A (zh) * 2021-05-06 2021-07-16 中山大学 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
TWI740647B (zh) * 2020-09-15 2021-09-21 宏碁股份有限公司 疾病分類方法及疾病分類裝置
CN113505826A (zh) * 2021-07-08 2021-10-15 西安电子科技大学 基于联合特征选择的网络流量异常检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847285A (zh) * 2018-05-09 2018-11-20 吉林大学 基于机器学习的孕前期及孕中期唐氏综合征筛查方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN111524606A (zh) * 2020-04-24 2020-08-11 郑州大学第一附属医院 一种基于随机森林算法的肿瘤数据统计方法
CN111709460A (zh) * 2020-05-27 2020-09-25 西安理工大学 基于相关系数的互信息特征选择方法
TWI740647B (zh) * 2020-09-15 2021-09-21 宏碁股份有限公司 疾病分類方法及疾病分類裝置
CN113128654A (zh) * 2021-05-06 2021-07-16 中山大学 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
CN113505826A (zh) * 2021-07-08 2021-10-15 西安电子科技大学 基于联合特征选择的网络流量异常检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
施苑英: "《大数据技术及应用》", 30 November 2021, 机械工业出版社, pages: 85 - 87 *
李锋刚: "《基于案例推理的智能决策技术》", 31 January 2011, 安徽大学出版社, pages: 45 - 46 *
肖峰: "《Python商业数据分析基础》", 28 February 2021, 湖南大学出版社, pages: 226 - 227 *
饶绍奇: "《中华医学统计百科全书•遗传统计分册》", 31 May 2013, 中国统计出版社, pages: 193 - 194 *

Similar Documents

Publication Publication Date Title
CN107133495B (zh) 一种非整倍性生物信息的分析方法和分析系统
CN110866893B (zh) 基于病理图像的tmb分类方法、系统及tmb分析装置
CN110689089A (zh) 用于深度学习多类别医疗图像分类的主动增量训练方法
CN110705403A (zh) 细胞分类方法、装置、介质及电子设备
WO2020168511A1 (zh) 染色体异常检测模型、其检测系统及染色体异常检测方法
CN110827922B (zh) 基于循环神经网络的羊水蛋白质的预测方法
CN111276252A (zh) 一种肿瘤良恶性鉴别模型的构建方法及装置
JP7467504B2 (ja) 染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
Fulcher et al. Highly comparative fetal heart rate analysis
CN111696670A (zh) 一种基于深度森林的产前胎儿监护智能判读方法
CN113456064B (zh) 一种产前胎心监护信号智能判读方法
Zhang et al. Application of intelligent algorithms in Down syndrome screening during second trimester pregnancy
Yang et al. Chromosome classification via deep learning and its application to patients with structural abnormalities of chromosomes
US6941288B2 (en) Online learning method in a decision system
CN116189909B (zh) 基于推举算法的临床医学判别方法及系统
CN114512231A (zh) 基于级联特征选择算法的唐氏综合征筛查系统
CN117095745A (zh) 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用
CN114512232A (zh) 基于级联机器学习模型的爱德华氏综合征筛查系统
CN113593629B (zh) 基于半导体测序的降低无创产前检测假阳性假阴性的方法
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
CN114219752B (zh) 一种针对血清蛋白电泳的异常区域检测方法
Mendis et al. The Effect of Fetal Heart Rate Segment Selection on Deep Learning Models for Fetal Compromise Detection
KR102532991B1 (ko) 태아의 염색체 이수성 검출방법
CN117594133A (zh) 用于判别子宫病变类别的生物标志物的筛选方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination