CN117238380A - 宏基因组病原识别的ai推荐方法、装置、设备及介质 - Google Patents
宏基因组病原识别的ai推荐方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117238380A CN117238380A CN202311520926.9A CN202311520926A CN117238380A CN 117238380 A CN117238380 A CN 117238380A CN 202311520926 A CN202311520926 A CN 202311520926A CN 117238380 A CN117238380 A CN 117238380A
- Authority
- CN
- China
- Prior art keywords
- sample data
- model
- data
- recommendation
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 244000052769 pathogen Species 0.000 title claims abstract description 42
- 230000001717 pathogenic effect Effects 0.000 title claims abstract description 40
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 86
- 230000035945 sensitivity Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 30
- 230000002068 genetic effect Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 20
- 238000005070 sampling Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 244000000010 microbial pathogen Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- JEYCTXHKTXCGPB-UHFFFAOYSA-N Methaqualone Chemical compound CC1=CC=CC=C1N1C(=O)C2=CC=CC=C2N=C1C JEYCTXHKTXCGPB-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本申请公开了宏基因组病原识别的AI推荐方法、装置、设备及介质,涉及宏基因组病原技术领域,该方法包括:获取样本数据和样本数据的基因特征信息;将样本数据输入至推荐模型,在通过推荐模型的优化目标函数,得到与基因特征信息匹配度最高的模型参数后,基于样本数据、基因特征信息和模型参数对推荐模型进行训练,输出推荐结果,该推荐模型的模型算法为包括二阶导数的高维算法。由此,通过包含二阶导数的高维算法,能够避免当样本的数据集较为庞大,或,模型结构较为复杂时出现的可扩展性较差的问题,同时提升了宏基因组病原识别的人工智能推荐的准确度和灵敏度。
Description
技术领域
本申请涉及宏基因组病原技术领域,特别是涉及宏基因组病原识别的AI推荐方法、装置、设备及介质。
背景技术
随着医疗行业的发展,如何将来源众多、结构复杂的病原微生物样本进行感染性的识别,使得识别出的感染性结果能够转化为临床辅助诊疗信息,是宏基因组病原技术领域中的技术难点。
相关技术中,为了对病原微生物样本进行感染性的识别,通常是以迭代的用于高维数据的梯度提升决策树为算法构建病原识别的推荐模型,推荐模型输出的推荐结果即为感染性的识别结果。并且在实际执行中,通常是通过优化目标函数的负梯度去执行上述的梯度提升决策树算法。
然而,由于现有的优化目标函数中只包括一阶导数信息,从而导致当样本的数据集较为庞大,或,模型结构较为复杂时,构建出的推荐模型的可扩展性较差,进而导致病原感染性识别的准确度和灵敏度均较差。
发明内容
本申请提供了宏基因组病原识别的AI推荐方法、装置、设备及介质,能够提升病原感染性识别的准确度和灵敏度。
本申请公开了如下技术方案:
第一方面,本申请提供了宏基因组病原识别的AI推荐方法,该方法包括:
获取样本数据和所述样本数据的基因特征信息;
将所述样本数据输入至推荐模型,在通过所述推荐模型的优化目标函数,得到与所述基因特征信息匹配度最高的模型参数后,基于所述样本数据、所述基因特征信息和所述模型参数对所述推荐模型进行训练,输出推荐结果,所述推荐模型的模型算法为包括二阶导数的高维算法。
可选的,所述通过所述推荐模型的优化目标函数,得到与所述基因特征信息匹配度最高的模型参数,包括:
通过所述样本数据和所述推荐模型的优化目标函数,得到目标模型参数,所述目标模型参数是将参数值代入所述推荐模型后,使得所述推荐模型的准确率、灵敏度、特异度均大于第一预设阈值的参数,所述准确率为推荐正确的样本数据的个数与总样本数据的个数的比值,所述灵敏度为推荐出表征为阳性特征的样本数据与真实表征为阳性特征的样本数据的比值,所述特异度为推荐出表征为阴性特征的样本数据与真实表征为阴性特征的样本数据的比值。
可选的,所述将所述样本数据输入推荐模型,包括:
将所述样本数据根据第一预设比例,拆分出原始训练数据集;
将所有表征为阴性特征的所述样本数据根据第二预设比例,加入所述原始训练数据集中,得到最终训练数据集;
将所述最终训练数据集输入推荐模型。
可选的,所述方法还包括:
将所述样本数据根据第三预设比例,拆分出测试数据集;
将所述测试数据集输入至所述推荐模型,通过所述推荐模型输出测试推荐结果;
根据所述测试数据集的真实推荐结果和所述测试推荐结果,得到损失函数值;
根据所述损失函数值,对所述推荐模型进行更新。
可选的,所述获取样本数据和所述样本数据的基因特征信息,包括:
获取样本数据;
对所述样本数据执行去均值处理,得到第一处理数据;
根据所述第一处理数据的特征信息,获取所述样本数据的基因特征信息,所述第一处理数据的特征信息包括协方差矩阵、特征值和特征向量。
可选的,所述获取样本数据,包括:
获取原始数据;
去除所述原本数据中与基因无关的原始数据,得到第二处理数据;
去除所述第二处理数据中基因个数小于第二预设阈值的第二处理数据,得到样本数据。
第二方面,本申请提供了宏基因组病原识别的AI推荐装置,该装置包括:数据获取模块和结果输出模块;
所述数据获取模块,用于获取样本数据和所述样本数据的基因特征信息;
所述结果输出模块,用于将所述样本数据输入至推荐模型,在通过所述推荐模型的优化目标函数,得到与所述基因特征信息匹配度最高的模型参数后,基于所述样本数据、所述基因特征信息和所述模型参数对所述推荐模型进行训练,输出推荐结果,所述推荐模型的模型算法为包括二阶导数的高维算法。
可选的,所述结果输出模块,具体用于:通过所述样本数据和所述推荐模型的优化目标函数,得到目标模型参数,所述目标模型参数是将参数值代入所述推荐模型后,使得所述推荐模型的准确率、灵敏度、特异度均大于第一预设阈值的参数,所述准确率为推荐正确的样本数据的个数与总样本数据的个数的比值,所述灵敏度为推荐出表征为阳性特征的样本数据与真实表征为阳性特征的样本数据的比值,所述特异度为推荐出表征为阴性特征的样本数据与真实表征为阴性特征的样本数据的比值。
可选的,所述结果输出模块具体包括:第一输出模块、第二输出模块和第三输出模块;
所述第一输出模块,用于将所有所述样本数据根据第一预设比例,拆分出原始训练数据集;
所述第二输出模块,用于将表征为阴性特征的所述样本数据根据第二预设比例,加入所述原始训练数据集中,得到最终训练数据集;
所述第三输出模块,用于将所述最终训练数据集输入推荐模型。
可选的,所述装置还包括:数据拆分模块、测试结果模块、损失获取模块和模型更新模块;
所述数据拆分模块,用于将所述样本数据根据第三预设比例,拆分出测试数据集;
所述结果测试模块,用于将所述测试数据集输入至所述推荐模型,通过所述推荐模型输出测试推荐结果;
所述损失获取模块,用于根据所述测试数据集的真实推荐结果和所述测试推荐结果,得到损失函数值;
所述模型更新模块,用于根据所述损失函数值,对所述推荐模型进行更新。
可选的,所述数据获取模块,具体包括:第一获取模块、第二获取模块和第三获取模块;
所述第一获取模块,用于获取样本数据;
所述第二获取模块,用于对所述样本数据执行去均值处理,得到第一处理数据;
所述第三获取模块,用于根据所述第一处理数据的特征信息,获取所述样本数据的基因特征信息,所述第一处理数据的特征信息包括协方差矩阵、特征值和特征向量。
可选的,所述第一获取模块具体包括:第一获取子模块、第二获取子模块和第三获取子模块;
所述第一获取子模块,用于获取原始数据;
所述第二获取子模块,用于去除所述原本数据中与基因无关的原始数据,得到第二处理数据;
所述第三获取子模块,用于去除所述第二处理数据中基因个数小于第二预设阈值的第二处理数据,得到样本数据。
第三方面,本申请提供了宏基因组病原识别的AI推荐设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述计算机程序时实现上述宏基因组病原识别的人工智能推荐方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述宏基因组病原识别的人工智能推荐方法的步骤。
相较于现有技术,本申请具有以下有益效果:
本申请提供了宏基因组病原识别的AI推荐方法、装置、设备及介质,该方法包括:获取样本数据和样本数据的基因特征信息;将样本数据输入至推荐模型,在通过推荐模型的优化目标函数,得到与基因特征信息匹配度最高的模型参数后,基于样本数据、基因特征信息和模型参数对推荐模型进行训练,输出推荐结果,该推荐模型的模型算法为包括二阶导数的高维算法。由此,通过包含二阶导数的高维算法,能够避免当样本的数据集较为庞大,或,模型结构较为复杂时出现的可扩展性较差的问题,同时提升了宏基因组病原识别的人工智能推荐的准确度和灵敏度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的宏基因组病原识别的AI推荐方法的流程图;
图2为本申请实施例提供的一种自动划分数据集模型性能评估指标结果的示意图;
图3为本申请实施例提供的一种手动划分数据模型性能评估指标结果的示意图;
图4为本申请实施例提供的第一种模型灵敏度结果的示意图;
图5为本申请实施例提供的第二种模型灵敏度结果的示意图;
图6为本申请实施例提供的第三种模型灵敏度结果的示意图;
图7为本申请实施例提供的第四种模型灵敏度结果的示意图;
图8为本申请实施例提供的第五种模型灵敏度结果的示意图;
图9为本申请实施例提供的第六种模型灵敏度结果的示意图;
图10为本申请实施例提供的宏基因组病原识别的AI推荐装置的示意图。
具体实施方式
正如前文描述,为了对病原微生物样本进行感染性的识别,通常是以迭代的用于高维数据的梯度提升决策树为算法构建病原识别的推荐模型,推荐模型输出的推荐结果即为感染性的识别结果。并且在实际执行中,通常是通过优化目标函数的负梯度去执行上述的梯度提升决策树算法。
然而,由于现有的优化目标函数中只包括一阶导数信息,从而导致当样本的数据集较为庞大,或,模型结构较为复杂时,构建出的推荐模型的可扩展性较差,进而导致病原感染性识别的准确度和灵敏度均较差。
有鉴于此,本申请提供了宏基因组病原识别的AI推荐方法、装置、设备及介质,该方法包括:获取样本数据和样本数据的基因特征信息;将样本数据输入至推荐模型,在通过推荐模型的优化目标函数,得到与基因特征信息匹配度最高的模型参数后,基于样本数据、基因特征信息和模型参数对推荐模型进行训练,输出推荐结果,推荐模型的模型算法为包括二阶导数的高维算法。由此,通过包含二阶导数的高维算法,能够避免当样本的数据集较为庞大,或,模型结构较为复杂时出现的可扩展性较差的问题,同时提升了宏基因组病原识别的人工智能推荐的准确度和灵敏度。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的宏基因组病原识别的AI推荐方法的流程图。该方法包括:
S101:获取样本数据和样本数据的基因特征信息。
首先,需要获取样本数据和样本数据的基因特征信息。其中,基因特征信息可以是阳性类基因和阴性类基因等。对于具体的基因特征信息,本申请不做限定。在一些具体的实现方式中,可以通过如下A11-A12步骤执行样本数据的基因特征信息的获取步骤:
A11:获取样本数据。
通过基因预测软件,即可生成样本数据。在一些具体的实现方式中,样本数据除了可以指的是根据基因预测软件直接生成的样本数据,还可以是对原始的样本数据经过处理后的样本数据。
示例性的,上述处理可以具体如下:首先,对原始的样本数据进行过滤处理,通过过滤可以将例如模糊值数据(ambiguous)、非对齐值数据(not_aligned)、无特征值数据(nofeature)、非唯一对齐值数据(alignment not unique)、低质量值数据(too low aQual)等与基因无关的样本数据进行过滤。随后,将过滤后的数据进行转置之后,统计每个样本数据包含的基因个数,并筛选出基因个数大于或等于预设阈值的数据作为最终的样本数据。
需要说明的是,上述预设阈值可以是30、40或50等,对于具体的预设阈值,本申请不做限定。
A12:提取样本数据中的基因主成分特征。
由于样本数据是基因个数大于或等于预设阈值的数据,因此样本数据中会有非常多的基因特征信息。由于基因特征信息之间通常会互相影响,因此可以先提取样本数据中的基因主成分特征。那么,在经过主成分分析后,有限的几个主成分就可以表征样本数据的基因特征信息。由此,通过提取样本数据中的基因主成分特征,可以将样本数据的基因特征信息之间的相互影响消除,从而提高后续的推荐精度。
在一些具体的实现方式中,可以通过如下方法提取样本数据中的基因主成分特征:
第一步,对样本数据进行去均值处理。具体的,去均值指的是先求得每一个样本数据中的基因个数的平均值,然后对所有的样本数据的基因个数都减去该平均值,也即是将基因个数进行均质化。
可以理解的是,进行去均值操作的目的是防止过分捕捉某些基因个数的数值大的样本数据。通过上述的去均值处理,可以使得样本数据的基因个数都在相同的范围内。
第二步,通过去均值后的样本数据,计算协方差矩阵C。具体的,上述协方差矩阵C的计算公式可以如下公式(1)所示:
(1)
其中,C为协方差矩阵,N为基因名称,X为去均值后的样本数据,XT为去均值后的样本数据的转置数据。
第三步,在计算得到协方差矩阵C后,即可根据协方差矩阵求得特征值λ和特征向量P。
第四步,对所有的特征值λ进行从大到小的排序后,将特征值λ对应的特征向量P依次作为行向量,组成特征向量矩阵D。随后,再对特征向量矩阵D基于主成分分析技术(Principal Components Analysis,PCA)进行变换,变换结果即为基因主成分特征。
S102:构建推荐模型。
在本申请实施例提供的宏基因组病原识别的AI推荐方法中,在结合样本数据大小,和,基因特征信息的质量和性质后,以高维算法(Algorithm of High Dimensional,AlHD)作为构建出的推荐模型的算法。AlHD算法是机器学习中一种基于梯度提升决策树的算法,是一种包括一阶和二阶导数、能并行优化、可以自定义函数的模型算法。
在本申请实施例提供的宏基因组病原识别的AI推荐方法中,推荐模型中附带学习器(booster)和优化目标函数(objective)。并且,在进行后续的模型训练之前,还需要设置多组不同的模型参数。通过模型参数的不同,可以表征性能不同的推荐模型。
在一些具体的实现方式中,推荐模型中的模型参数可以包括类别数参数(numclass)、树最大深度参数(max_depth)、学习率参数(eta)、分裂节点参数(gamma)、正则化权重参数(lambda)、样本采样率参数(sample)、特征采样率参数(colsample bytree)、随机种子参数(seed)、迭代次数参数(nunm iteration)和叶子节点中样本的权重参数(min childweight)中的一种或多种。
示例性的,该推荐模型中的原始模型参数可以如下设置:类别数参数设置为3、树最大深度参数设置为6、学习率参数设置为0.1、分裂节点参数设置为0.1、正则化权重参数设置为2、样本采样率参数设置为0.9、特征采样率参数设置为0.7、随机种子参数设置为1000、叶子节点中样本的权重参数设置为3。
并且,还可以在上述原始模型参数的基础上,对模型参数进行更改。示例性的,还可以如下六种条件构建不同的模型参数。条件一:不改变其他原始模型参数,设置及调整叶子节点中样本的权重参数为0、1、2、3。条件二:不改变其他原始模型参数,设置及调整学习率参数为0.1、0.2、0.3、0.4。条件三:不改变其他原始模型参数,设置及调整样本采样率参数为0.4、0.5、0.6、0.7、0.8、0.9。条件四:不改变其他原始模型参数,设置及调整特征采样率参数为0.5、0.6、0.7、0.8、0.9、1。条件五:不改变其他原始模型参数,设置及调整树最大深度参数为3、4、5、6。条件六:不改变其他原始模型参数,设置及调整分裂节点参数为0.1,0.01,0.001。
需要说明的是,对于具体的原始模型参数,和修改的模型参数,本申请不做限定。
S103:将样本数据输入推荐模型,通过推荐模型的优化目标函数,得到与样本数据的基因特征信息匹配度最高的模型参数。
在一些具体的实现方式中,若样本数据的基因特征信息是表征阴性或阳性的特征信息,那么可以将阴性类特征标记为0,阳性类特征标记为1后,将带有标记的样本数据输入至推荐模型,以便后续更方便的对推荐模型的准确性进行验证。
在一些具体的实现方式中,可以将样本数据划分为训练数据集和测试数据集,训练数据集用于后续对推荐模型进行训练,测试数据集用于后续对推荐模型进行测试。示例性的,可以自动划分出训练数据集和测试数据集,也可以手动拆分出训练数据集和测试数据集。
具体的,自动划分出训练数据集和测试数据集的方式可以是使用机器学习工具sklearn中的函数test_train_split(),将样本数据按比例随机划分为80%的训练数据集T1=[D1,L1],其余作为测试数据集T2=[D2,L2]。需要说明的是,对于具体的划分比例,本申请不做限定。
具体的,手动拆分数据集的方式可以是,先按照第一预设比例将基因主成分特征划分为训练数据集和测试数据集后,再对所有的基因特征信息表征为阴性的样本数据根据第二预设比例进行重新划分。示例性的,可以通过如下三种方式划分:
方式一:按照训练数据集与测试数据集占比为0.4,将60个样本划分为48个样本为训练数据集,12个样本为测试数据集。随后,在13个阴性里随机选取6个给测试数据集T1=[D1,L1],剩余的7个阴性分配给训练数据集T2=[D2,L2]。方式二:按照训练数据集与测试数据集占比为0.4,将60个样本划分为48个样本为训练数据集,12个样本为测试数据集,在13个阴性里随机选取4个给测试数据集T1=[D1,L1],剩余的9个阴性分配给训练数据集T2=[D2,L2]。方式三:按照训练数据集与测试数据集占比为0.4,将60个样本划分为48个样本为训练数据集,12个样本为测试数据集,按照测试数据集阴性个数按比例(13/60*12=2.6≈3)选取,在13个阴性里随机选取3个给测试集T1=[D1,L1],剩余的10个阴性分配给训练集T2=[D2,L2]。需要说明的是,对于具体的划分方法,本申请不做限定。
在划分出训练数据集后,即可将训练数据集输入至S102步骤构建的推荐模型中,通过推荐模型的优化目标函数objective,即可得到与其基因特征信息匹配度最高的模型参数。
在一些具体的实现方式中,判断模型参数是否与基因特征信息匹配度最高的方法,可以是通过模型性能评估指标,例如准确率、灵敏度、特异度和ROC曲线下与坐标轴围成的面积(AUC)度量。
第一,准确率(Accuracy)是推荐模型推荐正确的样本数量所占总样本量的比例。其公式如下公式(2)所示:
(2)
其中,Acc为准确率,为推荐正确的样本个数,/>为总样本个数。
第二,灵敏度(sensitivity)是阳性宏基因组病原识别的人工智能推荐正确个数占所有真实阳性样本量的比例。其公式如下公式(3)所示:
(3)
其中,Sen为灵敏度,为阳性宏基因组病原识别的人工智能推荐正确个数,/>为所有真实阳性样本个数。
第三,特异度(specificity)是阴性宏基因组病原识别的人工智能推荐正确个数占所有真实阴性样本量的比例。其公式如下公式(4)所示:
(4)
其中,Spe为特异度,为阴性宏基因组病原识别的人工智能推荐正确个数,/>为所有真实阴性样本个数。
第四,AUC是正样本的推荐值大于负样本的概率。其公式如下公式(5)所示:
(5)
其中,AUC是ROC曲线下与坐标轴围成的面积,为阳性样本的推荐值,/>为阴性样本的推荐值,/>为真实阳性样本总数,/>为真实阴性样本总数。
需要说明的是,对于具体的判断匹配度的方法,本申请不做限定。例如,可以是若上述的模型性能评估指标均大于第一预设阈值,则判断为该参数是与基因特征信息匹配度最高的模型参数。上述第一预设阈值可以是95%,对于具体的第一预设阈值,本申请不做限定。
S104:基于样本数据、基因特征信息和模型参数对推荐模型进行训练,输出推荐结果。
基于样本数据、基因特征信息和模型参数对所述推荐模型进行训练后,即可输出推荐结果。在一些具体的实现方式中,上述推荐结果的输出公式可以如下公式(6)所示:
(6)
其中,为推荐结果,/>为第i个样本数据的偏差,/>为第i个样本数据的权重,/>为第i个样本数据。
S105:根据测试数据集,对推荐模型进行更新。
在一些具体的实现方式中,还可以根据S103步骤中拆分出的测试数据集,将测试数据集输入至推荐模型,得到测试推荐结果,并将真实推荐结果和测试推荐结果进行对比,从而得到损失函数值,并基于该损失函数值,对推荐模型进行更新,以降低推荐模型的损失为最小。
参见图2,该图为本申请实施例提供的一种自动划分数据集模型性能评估指标结果的示意图。从图2结果看出,基因个数>=30和基因个数>=35在所有条件下表现最优,其模型结果表现一致,准确率均为91.67%,由于阴性样本数量太少,故而使特异性结果为0。
参见图3,该图为本申请实施例提供的一种手动划分数据模型性能评估指标结果的示意图。从图3结果看出,方式三在其他方式中表现最优,其准确率为75%,由于数据集中阴性样本太少,故而使特异性为0。
参见图4,该图为本申请实施例提供的第一种模型灵敏度结果的示意图。该图为当其他参数不变,调整叶子节点中样本的权重参数为0、1、2、3时(即参数设置条件一),模型灵敏度对比示意图。从图4结果看出,其他参数不变的情况下,叶子节点中样本的权重参数为3时,模型表现结果最好,数据基因个数=全部、数据基因个数>=40、数据基因个数>=35、数据基因个数>=30的灵敏度的灵敏度分别为92.86%,85.71%,78.57%,78.57%。
参见图5,该图为本申请实施例提供的第二种模型灵敏度结果的示意图。图5为当其他参数不变,调整学习率参数为0.1,0.01,0.001时(即参数设置条件二),模型灵敏度对比示意图。从图5结果看出,其他参数不变的情况下,学习率参数为0.3时,模型表现结果最好,数据基因个数=全部、数据基因个数>=40、数据基因个数>=35、数据基因个数>=30的灵敏度的灵敏度分别为100%,92.86%,78.57%,85.57%。
参见图6,该图为本申请实施例提供的第三种模型灵敏度结果的示意图。图6为当其他参数不变,调整样本采样率参数为0.4、0.5、0.6、0.7、0.8、0.9时(即参数设置条件三),模型灵敏度对比示意图。从图6结果看出,其他参数不变的情况下,样本采样率参数为0.8时,模型表现结果最好,数据基因个数=全部、数据基因个数>=40、数据基因个数>=35、数据基因个数>=30的灵敏度的灵敏度分别为100%,100%,78.57%,85.71%。
参见图7,该图为本申请实施例提供的第四种模型灵敏度结果的示意图。图7为当其他参数不变,调整特征采样率参数为0.5、0.6、0.7、0.8、0.9、1时(即参数设置条件四),模型灵敏度对比示意图。从图7结果看出,其他参数不变的情况下,特征采样率参数为0.8时,模型表现结果最好,数据基因个数=全部、数据基因个数>=40、数据基因个数>=35、数据基因个数>=30的灵敏度的灵敏度分别为100%,85.71%,78.57%,78.57%。
参见图8,该图为本申请实施例提供的第五种模型灵敏度结果的示意图。图8为当其他参数不变,调整树最大深度参数为3、4、5、6时(即参数设置条件五),模型灵敏度对比示意图。参见图9,该图为本申请实施例提供的第六种模型灵敏度结果的示意图。图9为当其他参数不变,调整分裂节点参数为0.1,0.01,0.001时(即参数设置条件六),模型灵敏度对比示意图。从图8、图9结果看出,其他参数不变的情况下,模型结果表现一致,数据基因个数=全部、数据基因个数>=40、数据基因个数>=35、数据基因个数>=30的灵敏度的灵敏度均分别为92.86%,85.71%,78.57%,78.57%。
综上所述,本申请公开了宏基因组病原识别的AI推荐方法。该方法包括:获取样本数据和样本数据的基因特征信息;将样本数据输入至推荐模型,在通过推荐模型的优化目标函数,得到与基因特征信息匹配度最高的模型参数后,基于样本数据、基因特征信息和模型参数对推荐模型进行训练,输出推荐结果,推荐模型的模型算法为包括二阶导数的高维算法。由此,通过包含二阶导数的高维算法,能够避免当样本的数据集较为庞大,或,模型结构较为复杂时出现的可扩展性较差的问题,同时提升了宏基因组病原识别的人工智能推荐的准确度和灵敏度。
参见图10,该图为本申请实施例提供的宏基因组病原识别的AI推荐装置的示意图。该宏基因组病原识别的人工智能推荐装置1000包括:数据获取模块1001和结果输出模块1002;
数据获取模块1001,用于获取样本数据和样本数据的基因特征信息;
结果输出模块1002,用于将样本数据输入至推荐模型,在通过推荐模型的优化目标函数,得到与基因特征信息匹配度最高的模型参数后,基于样本数据、基因特征信息和模型参数对推荐模型进行训练,输出推荐结果,推荐模型的模型算法为包括二阶导数的高维算法。
在一些具体的实现方式中,上述结果输出模块1002,具体用于:通过样本数据和推荐模型的优化目标函数,得到目标模型参数,目标模型参数是将参数值代入推荐模型后,使得推荐模型的准确率、灵敏度、特异度均大于第一预设阈值的参数,准确率为推荐正确的样本数据的个数与总样本数据的个数的比值,灵敏度为推荐出表征为阳性特征的样本数据与真实表征为阳性特征的样本数据的比值,特异度为推荐出表征为阴性特征的样本数据与真实表征为阴性特征的样本数据的比值。
在一些具体的实现方式中,上述结果输出模块1002具体包括:第一输出模块、第二输出模块和第三输出模块;
具体的,第一输出模块,用于将所有样本数据根据第一预设比例,拆分出原始训练数据集;第二输出模块,用于将所有表征为阴性特征的样本数据根据第二预设比例,加入原始训练数据集中,得到最终训练数据集;第三输出模块,用于将最终训练数据集输入推荐模型。
在一些具体的实现方式中,该宏基因组病原识别的人工智能推荐装置1000还包括:数据拆分模块、测试结果模块、损失获取模块和模型更新模块;
具体的,数据拆分模块,用于将所有样本数据根据第三预设比例,拆分出测试数据集;结果测试模块,用于将测试数据集输入至推荐模型,通过推荐模型输出测试推荐结果;损失获取模块,用于根据测试数据集的真实推荐结果和测试推荐结果,得到损失函数值;模型更新模块,用于根据损失函数值,对推荐模型进行更新。
在一些具体的实现方式中,数据获取模块1001,具体包括:第一获取模块、第二获取模块和第三获取模块;
具体的,第一获取模块,用于获取样本数据;第二获取模块,用于对样本数据执行去均值处理,得到第一处理数据;第三获取模块,用于根据第一处理数据的特征信息,获取样本数据的基因特征信息,第一处理数据的特征信息包括协方差矩阵、特征值和特征向量。
在一些具体的实现方式中,第一获取模块具体包括:第一获取子模块、第二获取子模块和第三获取子模块;
具体的,第一获取子模块,用于获取原始数据;第二获取子模块,用于去除原本数据中与基因无关的原始数据,得到第二处理数据;第三获取子模块,用于去除第二处理数据中基因个数小于第二预设阈值的第二处理数据,得到样本数据。
综上所述,本申请公开了宏基因组病原识别的AI推荐装置。由此,通过包含二阶导数的高维算法,能够避免当样本的数据集较为庞大,或,模型结构较为复杂时出现的可扩展性较差的问题,同时提升了宏基因组病原识别的人工智能推荐的准确度和灵敏度。
本申请实施例还提供了对应的生成设备以及计算机存储介质,用于实现本申请实施例提供的方案。
其中,设备包括存储器和处理器,存储器用于存储指令或代码,处理器用于执行指令或代码,以使设备执行本申请任一实施例的一种灯光控制方法。
计算机存储介质中存储有代码,当代码被运行时,运行代码的设备实现本申请任一实施例所述的方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.宏基因组病原识别的AI推荐方法,其特征在于,所述方法包括:
获取样本数据和所述样本数据的基因特征信息;
将所述样本数据输入至推荐模型,在通过所述推荐模型的优化目标函数,得到与所述基因特征信息匹配度最高的模型参数后,基于所述样本数据、所述基因特征信息和所述模型参数对所述推荐模型进行训练,输出推荐结果,所述推荐模型的模型算法为包括二阶导数的高维算法。
2.根据权利要求1所述的方法,其特征在于,所述通过所述推荐模型的优化目标函数,得到与所述基因特征信息匹配度最高的模型参数,包括:
通过所述样本数据和所述推荐模型的优化目标函数,得到目标模型参数,所述目标模型参数是将参数值代入所述推荐模型后,使得所述推荐模型的准确率、灵敏度、特异度均大于第一预设阈值的参数,所述准确率为推荐正确的样本数据的个数与总样本数据的个数的比值,所述灵敏度为推荐出表征为阳性特征的样本数据与真实表征为阳性特征的样本数据的比值,所述特异度为推荐出表征为阴性特征的样本数据与真实表征为阴性特征的样本数据的比值。
3.根据权利要求1所述的方法,其特征在于,所述将所述样本数据输入推荐模型,包括:
将所述样本数据根据第一预设比例,拆分出原始训练数据集;
将所有表征为阴性特征的所述样本数据根据第二预设比例,加入所述原始训练数据集中,得到最终训练数据集;
将所述最终训练数据集输入推荐模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述样本数据根据第三预设比例,拆分出测试数据集;
将所述测试数据集输入至所述推荐模型,通过所述推荐模型输出测试推荐结果;
根据所述测试数据集的真实推荐结果和所述测试推荐结果,得到损失函数值;
根据所述损失函数值,对所述推荐模型进行更新。
5.根据权利要求1所述的方法,其特征在于,所述获取样本数据和所述样本数据的基因特征信息,包括:
获取样本数据;
对所述样本数据执行去均值处理,得到第一处理数据;
根据所述第一处理数据的特征信息,获取所述样本数据的基因特征信息,所述第一处理数据的特征信息包括协方差矩阵、特征值和特征向量。
6.根据权利要求5所述的方法,其特征在于,所述获取样本数据,包括:
获取原始数据;
去除所述原本数据中与基因无关的原始数据,得到第二处理数据;
去除所述第二处理数据中基因个数小于第二预设阈值的第二处理数据,得到样本数据。
7.宏基因组病原识别的AI推荐装置,其特征在于,所述装置包括:数据获取模块和结果输出模块;
所述数据获取模块,用于获取样本数据和所述样本数据的基因特征信息;
所述结果输出模块,用于将所述样本数据输入至推荐模型,在通过所述推荐模型的优化目标函数,得到与所述基因特征信息匹配度最高的模型参数后,基于所述样本数据、所述基因特征信息和所述模型参数对所述推荐模型进行训练,输出推荐结果,所述推荐模型的模型算法为包括二阶导数的高维算法。
8.根据权利要求7所述的装置,其特征在于,所述结果输出模块,具体用于:通过所述样本数据和所述推荐模型的优化目标函数,得到目标模型参数,所述目标模型参数是将参数值代入所述推荐模型后,使得所述推荐模型的准确率、灵敏度、特异度均大于第一预设阈值的参数,所述准确率为推荐正确的样本数据的个数与总样本数据的个数的比值,所述灵敏度为推荐出表征为阳性特征的样本数据与真实表征为阳性特征的样本数据的比值,所述特异度为推荐出表征为阴性特征的样本数据与真实表征为阴性特征的样本数据的比值。
9.宏基因组病原识别的AI推荐设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至6中任一项所述的方法的各个步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6任一项所述的方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311520926.9A CN117238380A (zh) | 2023-11-15 | 2023-11-15 | 宏基因组病原识别的ai推荐方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311520926.9A CN117238380A (zh) | 2023-11-15 | 2023-11-15 | 宏基因组病原识别的ai推荐方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117238380A true CN117238380A (zh) | 2023-12-15 |
Family
ID=89086560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311520926.9A Pending CN117238380A (zh) | 2023-11-15 | 2023-11-15 | 宏基因组病原识别的ai推荐方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117238380A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018226880A1 (en) * | 2017-06-06 | 2018-12-13 | Zymergen Inc. | A htp genomic engineering platform for improving escherichia coli |
US20200381083A1 (en) * | 2019-05-31 | 2020-12-03 | 410 Ai, Llc | Estimating predisposition for disease based on classification of artificial image objects created from omics data |
CN113159325A (zh) * | 2020-01-07 | 2021-07-23 | 罗伯特·博世有限公司 | 处理基于损失函数被训练的模型 |
CN115064218A (zh) * | 2022-08-17 | 2022-09-16 | 中国医学科学院北京协和医院 | 一种构建病原微生物数据鉴定平台的方法及装置 |
-
2023
- 2023-11-15 CN CN202311520926.9A patent/CN117238380A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018226880A1 (en) * | 2017-06-06 | 2018-12-13 | Zymergen Inc. | A htp genomic engineering platform for improving escherichia coli |
US20200381083A1 (en) * | 2019-05-31 | 2020-12-03 | 410 Ai, Llc | Estimating predisposition for disease based on classification of artificial image objects created from omics data |
CN113159325A (zh) * | 2020-01-07 | 2021-07-23 | 罗伯特·博世有限公司 | 处理基于损失函数被训练的模型 |
CN115064218A (zh) * | 2022-08-17 | 2022-09-16 | 中国医学科学院北京协和医院 | 一种构建病原微生物数据鉴定平台的方法及装置 |
Non-Patent Citations (1)
Title |
---|
史蒂文•L.布伦顿等: "《数据驱动的科学和工程》", vol. 1, 机械工业出版社, pages: 16 - 20 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111888A (zh) | 一种XGBoost疾病概率预测方法、系统及存储介质 | |
CN108960269B (zh) | 数据集的特征获取方法、装置及计算设备 | |
CN113705092B (zh) | 基于机器学习的疾病预测方法及装置 | |
CN106202999B (zh) | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 | |
CN112508063A (zh) | 基于增量学习的医学图像分类方法 | |
CN112597827A (zh) | 一种基于大数据的植物物候期预测方法和系统 | |
CN111260056B (zh) | 一种网络模型蒸馏方法及装置 | |
CN116993548A (zh) | 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统 | |
JP2005519394A (ja) | 実験の自動計画方法およびそのシステム | |
Alber et al. | Backprop evolution | |
CN116805533A (zh) | 一种基于数据收集与模拟的脑出血手术风险预测系统 | |
CN112184412A (zh) | 一种信用评分卡模型的建模方法、装置、介质及电子设备 | |
CN116129189A (zh) | 一种植物病害识别方法、设备、存储介质及装置 | |
CN110796268A (zh) | 确定业务处理模型超参数的方法和装置 | |
CN117238380A (zh) | 宏基因组病原识别的ai推荐方法、装置、设备及介质 | |
CN114091794A (zh) | 专利价值评估模型训练方法、评估方法、装置及其设备 | |
CN116910210A (zh) | 基于文档的智能问答模型训练方法、装置及其应用 | |
KR100597089B1 (ko) | 유전자 발현 프로파일을 이용한 유사 유전자 그룹의 탐색방법 | |
CN116756662A (zh) | 基于哈里斯鹰算法优化随机森林的良率预测方法及系统 | |
CN116861358A (zh) | 基于bp神经网络与多源数据融合的计算思维评测方法 | |
CN115910217A (zh) | 一种碱基确定方法、装置、计算机设备及存储介质 | |
CN114400043A (zh) | 基于孪生神经网络的半监督宏基因组分箱方法 | |
CN115174170A (zh) | 一种基于集成学习的vpn加密流量识别方法 | |
CN114328221A (zh) | 基于特征和实例迁移的跨项目软件缺陷预测方法及系统 | |
CN109308936B (zh) | 一种粮食作物产地的识别方法、识别装置及终端识别设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20231215 |