CN113035363B - 一种概率密度加权的遗传代谢病筛查数据混合采样方法 - Google Patents
一种概率密度加权的遗传代谢病筛查数据混合采样方法 Download PDFInfo
- Publication number
- CN113035363B CN113035363B CN202110320400.0A CN202110320400A CN113035363B CN 113035363 B CN113035363 B CN 113035363B CN 202110320400 A CN202110320400 A CN 202110320400A CN 113035363 B CN113035363 B CN 113035363B
- Authority
- CN
- China
- Prior art keywords
- positive
- samples
- sample
- data
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002068 genetic effect Effects 0.000 title claims abstract description 24
- 208000030159 metabolic disease Diseases 0.000 title claims abstract description 24
- 208000016097 disease of metabolism Diseases 0.000 title claims abstract description 22
- 238000012216 screening Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000001819 mass spectrum Methods 0.000 claims description 6
- 238000004885 tandem mass spectrometry Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Abstract
本发明公开了一种概率密度加权的遗传代谢病筛查数据混合采样方法,该方法利用基于特征惩罚的方法估计每个特征的重要性,在采样时对特征空间的各个方向进行加权;同时,估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,使得采样生成的样本与整体阳性样本分布较为一致。本发明的方法能够根据不同疾病的特征重要性在特征空间上进行加权,且所生成的阳性样本更加符合真实的人口统计学分布情况。相比于现有采样方法,采用本发明所生成的数据进行建模,初筛阳性率能降低约0.5%左右。
Description
技术领域
本发明属于采样方法技术领域,涉及一种混合采样方法,尤其涉及一种概率密度加权的遗传代谢病筛查数据混合采样方法。
背景技术
串联质谱技术是一种高敏感性、高选择性和高通量的血液生化物质浓度检测技术,在一次实验室检验中,串联质谱法可以同时测定几十种遗传代谢病相关代谢物的血液浓度(筛查指标),对几十种遗传代谢病做出同步诊断。随着人工智能技术的发展,近年来越来越多的学术研究和商业化产品将机器学习、数据挖掘等方法应用于医疗行业,旨在打造新一代智慧医疗模式,让机器更加精准高效地辅助医生判读和诊断疾病。然而,遗传代谢病的人群发病率较低,使得各医院或筛查中心积攒的阳性样本数量十分有限,无法满足许多机器学习特别是深度学习方法对数据量的要求,导致模型无法达到实际性能,甚至预测失败。
目前针对正负样本不均衡和阳性样本过少的问题,采样方法是一个常用的解决手段。现有的采样方法大多使用欧氏距离对正负样本点进行度量,这默认了特征空间的所有方向具有相同的重要性,但在遗传代谢病筛查数据中,病种对特征的响应各不相同,简单地使用欧式距离对数据采样反而容易产生噪音数据;另外,现有的采样方法一般随机地对数据进行采样,或者特别关注正负样本边界的情况,但在遗传代谢病筛查数据中,这些假设没有考虑人群分布规律,不符合实际情况,随机采样产生的数据将导致数据集的分布出现变化,容易对模型产生负面影响。在遗传代谢病筛查这个场景中,现有采样方法存在两个问题:特征空间的所有方向重要性相同、采样的随机性影响数据分布,导致采样生成的样本不符合数据的实际分布,影响建模的效果。
发明内容
本发明的目的在于针对现有技术的不足,提供一种概率密度加权的遗传代谢病筛查数据混合采样方法,利用基于特征惩罚的方法估计每个特征的重要性,在采样时对特征空间的各个方向进行加权;同时,估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,使得采样生成的样本与整体阳性样本分布较为一致。最终使生成的采样数据更符合人口统计学的真实情况,从而提高建模的准确度。
本发明采用的技术方案如下:
一种概率密度加权的遗传代谢病筛查数据混合采样方法,包括:首先针对一种遗传代谢病,计算历史数据库中串联质谱检测数据的阳性样本数量、阴性样本数量,并分割获得训练数据集、测试集,确定混合采样的迭代次数和每次迭代的采样数量;使用串联质谱检测数据对逻辑回归算法进行训练,基于特征惩罚的方法估计每个特征的重要性;估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,根据采样概率随机生成阳性样本,获得混合采样结果。
具体的,所述混合采样方法包括如下:
首先确定全局参数
确定混合采样的迭代次数i,确定本次采样方法所针对的一种遗传代谢病D,计算历史数据库中串联质谱检测数据的阳性样本数量阴性样本数量/>并分割获得训练数据集、测试数据集;
每次迭代的采样数量为:
对于每次迭代,重复进行以下步骤:
(1)数据特征重要性评估
对于遗传代谢病D,使用串联质谱检测数据对逻辑回归算法进行训练,并将算法的损失函数定义为:
其中J为交叉熵函数,X为训练数据集,y为数据标签,y=1表示阳性数据,y=0表示阴性数据,W为数据特征对应的权重,λ>0为惩罚系数。
上述逻辑回归算法使用随机梯度下降法作为模型优化器,该模型迭代次数由输入数据量的大小及拟合曲线决定。
上述逻辑回归算法完成模型参数优化后,将每个特征的最优权重值W作为面向D的数据特征重要性评估。
(2)阳性样本分布估计
D的阳性样本先验分布设定为:
Xpos~Np(μ,Σ)
其中p表示样本Xpos=(X1,…,Xp)中筛查指标的数量,μ,Σ为待确定参数。
对于先验分布参数估计为:
其中是μ的估计值,/>是Σ的估计值,X(m)是Xpos中第m个标记为阳性的样本。
(3)单个阳性样本生成方法
对于一个阳性样本X(m),执行以下步骤:
计算该阳性样本与剩余所有阳性样本之间的距离,距离的计算方法为:
其中X(n)表示除X(m)以外任意一个标记为阳性的样本,°表示哈达玛积,表示2范数。
选出与X(m)距离最小的k个阳性样本(k>1),然后从k个阳性样本中随机挑选一个阳性样本用于生成新的阳性样本X*,计算方法为:
其中标量δ的取值范围为(0,1)。
(4)阳性样本生成方法
重复执行步骤(3)次,其中g为一个大于0.5的浮点数,共计得到/>个备选阳性样本。
对于一个备选阳性样本X*,计算相应的采样概率R*:
其中F表示标准正态分布的累积分布函数。
计算所有备选阳性样本的采样概率,并根据采样概率随机选择个样本作为生成的阳性样本。
(5)混合采样
将步骤(4)生成的阳性样本和对应的标签(y=1)加入训练数据集X中;随机从阴性样本中删除个样本,并更新训练数据集X。
本发明的有益效果是:
本发明设计了一种针对遗传代谢病筛查场景的数据混合采样方法,能够根据不同疾病的特征重要性在特征空间上进行加权,同时基于分布估计方法的采样所生成的阳性样本更加符合真实的人口统计学分布情况。相比于现有采样方法,采用本发明所生成的数据进行建模,初筛阳性率能降低约0.5%左右。
附图说明
图1是本发明方法的流程示意图;
具体实施方式
下面结合附图和具体实例对本发明做进一步的说明。
本发明的一种概率密度加权的遗传代谢病筛查数据混合采样方法,利用基于特征惩罚的方法估计每个特征的重要性,在采样时对特征空间的各个方向进行加权;同时,估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,如图1所示,本发明方法具体包括如下:
一、确定全局参数
确定混合采样的迭代次数i,i越大采样方法的计算速度越慢,得到采样结果的分布越符合真实情况;i越小采样方法的计算速度越快,得到采样结果包含的噪音数据越多;(本实例中i=1000)
确定本次采样方法所针对的一种遗传代谢病D,计算历史数据库中串联质谱检测数据的阳性样本数量阴性样本数量/>并分割获得训练数据集、测试数据集;
每次迭代的采样数量为:
二、对于每次迭代,重复进行以下步骤:
(1)数据特征重要性评估
对于遗传代谢病D,使用串联质谱检测数据对逻辑回归算法进行训练,并将算法的损失函数定义为:
其中J为交叉熵函数,X为训练数据集,y为数据标签(y=1表示阳性数据,y=0表示阴性数据),W为数据特征对应的权重,λ>0为惩罚系数。(本实例中λ=0.1)
上述逻辑回归算法使用随机梯度下降法作为模型优化器,该模型迭代次数由输入数据量的大小及拟合曲线决定。
上述逻辑回归算法完成模型参数优化后,将每个特征的最优权重值W作为面向D的数据特征重要性评估。
(2)阳性样本分布估计
D的阳性样本先验分布设定为:
Xpos~Np(μ,Σ)
其中p表示样本Xpos=(X1,…,Xp)中筛查指标的数量,μ,Σ为待确定参数。
对于先验分布参数估计为:
其中是μ的估计值,/>是Σ的估计值,x(m)是xpos中第m个标记为阳性的样本。
(3)单个阳性样本生成方法
对于一个阳性样本X(m),执行以下步骤:
计算该阳性样本与剩余所有阳性样本之间的距离,距离的计算方法为:
其中X(n)表示除X(m)以外任意一个标记为阳性的样本,°表示哈达玛积,表示2范数。
选出与X(m)距离最小的k个阳性样本(k>1),然后从k个阳性样本中随机挑选一个阳性样本用于生成新的阳性样本X*,计算方法为:
其中标量δ的取值范围为(0,1)。(本实例中k=5)
(4)阳性样本生成方法
重复执行步骤(3)次,其中g为一个大于0.5的浮点数,共计得到/>个备选阳性样本。(本实例中g=1.5)
对于一个备选阳性样本X*,计算相应的采样概率R*:
其中F表示标准正态分布的累积分布函数。
计算所有备选阳性样本的采样概率,并根据采样概率随机选择个样本作为生成的阳性样本。
(5)混合采样
将步骤(4)生成的阳性样本和对应的标签(y=1)加入训练数据集X中;随机从阴性样本中删除个样本,并更新训练数据集X。
采用本发明所生成的数据进行建模,初筛阳性率能降低约0.5%左右。
Claims (2)
1.一种概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,包括:首先针对一种遗传代谢病,计算历史数据库中串联质谱检测数据的阳性样本数量、阴性样本数量,并分割获得训练数据集、测试集,确定混合采样的迭代次数和每次迭代的采样数量;使用串联质谱检测数据对逻辑回归算法进行训练,基于特征惩罚的方法估计每个特征的重要性;估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,根据采样概率随机生成阳性样本,获得混合采样结果;
首先确定全局参数:确定本次采样方法所针对的一种遗传代谢病D,计算历史数据库中串联质谱检测数据的阳性样本数量阴性样本数量/>并分割获得训练数据集、测试数据集;确定混合采样的迭代次数i,
每次迭代的采样数量为:
对于每次迭代,首先进行数据特征重要性评估:
对于遗传代谢病D,使用串联质谱检测数据对逻辑回归算法进行训练,并将算法的损失函数定义为:
其中J为交叉熵函数,X为训练数据集,y为数据标签,y=1表示阳性数据,y=0表示阴性数据,W为数据特征对应的权重,λ>0为惩罚系数,完成模型参数优化后,将每个特征的最优权重值W作为面向D的数据特征重要性评估;
每次迭代中,在数据特征重要性评估后,进行阳性样本分布估计并生成单个阳性样本:
D的阳性样本先验分布设定为:
Xpos~Np(μ,Σ)
其中p表示样本Xpos=(X1,…,Xp)中筛查指标的数量,μ,Σ为待确定参数;
对于先验分布参数估计为:
其中是μ的估计值,/>是Σ的估计值,X(m)是Xpos中第m个标记为阳性的样本;
对于一个阳性样本X(m),执行以下步骤:
计算该阳性样本与剩余所有阳性样本之间的距离,距离的计算方法为:
其中X(n)表示除X(m)以外任意一个标记为阳性的样本,°表示哈达玛积,表示2范数;
选出与X(m)距离最小的k个阳性样本(k>1),然后从k个阳性样本中随机挑选一个阳性样本用于生成新的阳性样本X*,计算方法为:
其中标量δ的取值范围为(0,1);
基于概率密度生成阳性样本:
重复执行生成单个阳性样本的步骤次,其中g为一个大于0.5的浮点数,共计得到个备选阳性样本;
对于一个备选阳性样本X*,计算相应的采样概率R*:
其中F表示标准正态分布的累积分布函数;
计算所有备选阳性样本的采样概率,并根据采样概率随机选择个样本作为生成的阳性样本。
2.根据权利要求1所述的概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,将生成的阳性样本和对应的数据标签加入训练数据集X中;随机从阴性样本中删除个样本,并更新训练数据集X。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110320400.0A CN113035363B (zh) | 2021-03-25 | 2021-03-25 | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110320400.0A CN113035363B (zh) | 2021-03-25 | 2021-03-25 | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035363A CN113035363A (zh) | 2021-06-25 |
CN113035363B true CN113035363B (zh) | 2024-01-02 |
Family
ID=76473765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110320400.0A Active CN113035363B (zh) | 2021-03-25 | 2021-03-25 | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035363B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN110033860A (zh) * | 2019-02-27 | 2019-07-19 | 杭州贝安云科技有限公司 | 一种基于机器学习的遗传代谢病检出率提升方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN112151193A (zh) * | 2020-10-22 | 2020-12-29 | 浙江大学 | 一种基于二次过滤的遗传代谢病特异性指标挖掘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718744B (zh) * | 2016-01-25 | 2018-05-29 | 深圳大学 | 一种基于深度学习的代谢质谱筛查方法及系统 |
-
2021
- 2021-03-25 CN CN202110320400.0A patent/CN113035363B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100844A1 (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN110033860A (zh) * | 2019-02-27 | 2019-07-19 | 杭州贝安云科技有限公司 | 一种基于机器学习的遗传代谢病检出率提升方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN112151193A (zh) * | 2020-10-22 | 2020-12-29 | 浙江大学 | 一种基于二次过滤的遗传代谢病特异性指标挖掘方法 |
Non-Patent Citations (2)
Title |
---|
基于概率密度估计的SMOTE改进算法研究;李涛;郑尚;邹海涛;于化龙;;南京师大学报(自然科学版)(01);全文 * |
基于重采样技术在医学不平衡数据分类中的应用研究;闫慈;田翔华;阿拉依・阿汗;张伟文;曹明芹;;中国卫生统计(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113035363A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427654B (zh) | 一种基于敏感状态的滑坡预测模型构建方法及系统 | |
CN108595916B (zh) | 基于生成对抗网络的基因表达全谱推断方法 | |
CN106022954B (zh) | 基于灰色关联度的多重bp神经网络负荷预测方法 | |
CN107798383B (zh) | 改进的核极限学习机定位方法 | |
CN110880369A (zh) | 基于径向基函数神经网络的气体标志物检测方法及应用 | |
CN106682454A (zh) | 一种宏基因组数据分类方法和装置 | |
CN110082738B (zh) | 基于高斯混合和张量循环神经网络的雷达目标识别方法 | |
CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
CN108399434A (zh) | 基于特征提取的高维时间序列数据的分析预测方法 | |
CN115906954A (zh) | 一种基于图神经网络的多变量时间序列预测方法及装置 | |
CN106599610A (zh) | 预测长链非编码rna和蛋白质联系的方法及系统 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN115982141A (zh) | 一种针对时序数据预测的特征优化方法 | |
CN116304546A (zh) | 基于声音信号的供热系统热力站故障诊断方法及系统 | |
Richards et al. | Optimisation of competition indices using simulated annealing and artificial neural networks | |
CN113035363B (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN112163632A (zh) | 基于蝙蝠算法的半监督极限学习机在工业检测中的应用 | |
CN116842358A (zh) | 一种基于多尺度卷积和自适应特征融合的软测量建模方法 | |
CN113868597B (zh) | 一种用于年龄估计的回归公平性度量方法 | |
CN113177608B (zh) | 一种针对不完整数据的近邻模型特征选择方法及装置 | |
CN115470863A (zh) | 一种基于双重监督的领域泛化脑电信号分类方法 | |
US20230214668A1 (en) | Hyperparameter adjustment device, non-transitory recording medium in which hyperparameter adjustment program is recorded, and hyperparameter adjustment program | |
CN104616656A (zh) | 一种基于改进abc算法的朱鹮鸣声码书设计方法 | |
CN114692507A (zh) | 基于堆叠泊松自编码器网络的计数数据软测量建模方法 | |
Andersson et al. | Inference for cluster point processes with over-or under-dispersed cluster sizes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |