CN115579066A - 基于机器学习寻找影响猪脂肪沉积的候选基因的方法 - Google Patents

基于机器学习寻找影响猪脂肪沉积的候选基因的方法 Download PDF

Info

Publication number
CN115579066A
CN115579066A CN202211577145.9A CN202211577145A CN115579066A CN 115579066 A CN115579066 A CN 115579066A CN 202211577145 A CN202211577145 A CN 202211577145A CN 115579066 A CN115579066 A CN 115579066A
Authority
CN
China
Prior art keywords
sample
machine learning
pig
candidate genes
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211577145.9A
Other languages
English (en)
Other versions
CN115579066B (zh
Inventor
刘华涛
刘年丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Xingmu Animal Husbandry Technology Development Co ltd
Original Assignee
Qingdao Xingmu Animal Husbandry Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Xingmu Animal Husbandry Technology Development Co ltd filed Critical Qingdao Xingmu Animal Husbandry Technology Development Co ltd
Priority to CN202211577145.9A priority Critical patent/CN115579066B/zh
Publication of CN115579066A publication Critical patent/CN115579066A/zh
Application granted granted Critical
Publication of CN115579066B publication Critical patent/CN115579066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及生物信息学领域,具体为一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,主要包括以下步骤:步骤一:收集猪肌肉样本,通过FOSS机测定肌内脂肪含量,作为样本标签,根据肌内脂肪含量大小分为高低组转化为二分类处理问题;步骤二:提取样本RNA,进行mRNA建库得到测序数据;步骤三:对步骤二中的测序数据进行质控和比对处理,并标准化得到样本基因表达TPM值;步骤四:利用数据集通过交叉验证的方式进行神经网络机器学习训练;步骤五:对特征基因进行重要性排序从而确定候选基因。有益效果为,通过模型预测准确性的变化筛选影响肌内脂肪含量的重要候选基因。

Description

基于机器学习寻找影响猪脂肪沉积的候选基因的方法
技术领域
本发明涉及生物信息学领域,具体为一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法。
背景技术
脂肪沉积是养猪生产中复杂的数量性状和重要的经济性状,其与生猪的生产效率、猪肉品质和繁殖性状密切相关。近年来,人们开始更加关注猪肉的质量,因此脂肪含量作为影响肉质的主要指标显得越来越重要。随着基因组时代的来临,挖掘影响猪脂肪沉积性状的分子标记和基因成为加快肉质改良的一个重要途径,所以寻找影响猪脂肪沉积的候选基因成为当前养猪业进行肉质遗传改良的重要目标。
脂肪沉积是一个动态平衡的过程,受多种基因的时空调控。通过RNA-seq深度测序技术能够进行转录组测序,进而体现特定时间点特定组织的基因表达状态。因此,利用转录组数据对于准确挖掘影响猪脂肪沉积的候选基因至关重要。
然而,目前大多数在这方面的转录组研究均使用很少的重复,只能识别表达变化最大的基因,因此缺乏在生物学意义水平上检测能力。也有研究表明,不同的检测差异表达基因的方法缺乏足够的统计力,存在一定的假阳性率和假阴性率。因此,增加样本量和寻找新的分析策略是克服传统转录组分析局限性的关键。
发明内容
本发明的目的在于提出一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,该方法基于机器学习算法,能够同时利用大量的样本,准确地寻找到候选基因。机器学习作为一种新兴大数据分析方法,能有效拟合复杂数据并能精确地识别样本和基因,能够有效克服传统转录组分析方法可利用样本量少和结果假阳性高的局限性。
本发明所采取的技术方案是:构建包含样本基因表达量和表型的数据集,利用前馈神经网络对数据集进行训练和测试,利用最佳参数模型基于Permutation Importance的方法通过交叉验证对基因的重要性进行排序以筛选影响目标性状的候选基因。
一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,主要包括以下步骤:
步骤一:收集猪肌肉样本,通过FOSS机测定肌内脂肪含量,作为样本标签,根据肌内脂肪含量大小分为高低组转化为二分类处理问题;
步骤二:提取样本RNA,进行mRNA建库得到测序数据;
步骤三:对步骤二中的测序数据进行质控和比对处理得到基因的count值,所述count值为比对到的reads数,并标准化得到样本基因表达TPM值;
所述TPM值计算公式为:
Figure 442562DEST_PATH_IMAGE001
上述公式中各字母的含义:
Figure 625282DEST_PATH_IMAGE002
: 比对到基因
Figure 516271DEST_PATH_IMAGE003
上的read数,即基因的count值;
Figure 911480DEST_PATH_IMAGE004
: 基因
Figure 663536DEST_PATH_IMAGE003
的外显子长度的总和,根据参考基因组Sus Sscrofa11.1的注释计算;
Figure 423681DEST_PATH_IMAGE005
:所有基因比对read数和其外显子长度总和之比的和;
将基因表达TPM值作为样本特征,并设置与样本特征一一对应的标签值,将样本特征和标签值构建成数据集。
步骤四:利用数据集通过交叉验证的方式进行神经网络机器学习训练;
步骤五:基于Permutation Importance的方法计算神经网络模型特征的重要性。
进一步,步骤一中猪肌肉样本来自屠宰后的大白猪,每只大白猪的重量在100±5kg,取100g背最长肌搅碎,再利用FOSS NIRS DS 2500近红外光谱仪测定背最长肌的肌内脂肪含量。
进一步,步骤二中的测序数据的获取,通过如下步骤:
1) 将上述背最长肌样本,取适量采用TRIzol 试剂盒提取总 RNA,用1.5%的琼脂糖凝胶电泳检测其RNA 的完整性,用 NanoDrop 检测总 RNA浓度,放入到-80℃保存;
2) 对上述获得总RNA浓度的样品,进行反转录得到cDNA,构建cDNA 文库并进行质量检测,利用 Illumina Hiseq2500测序仪进行双端测序。
进一步,所述步骤三中对测序数据的清洗处理过程具体如下:
1) reads质控:利用FastQC软件检测测序数据的质量,之后利用Trimmomatic软件去除接头序列,并去除未知序列大于10%和质量评分小于20的reads;
2) 比对:下载猪的参考基因组序列及注释(版本Sus Sscrofa11.1),并利用hisat2-build建立索引序列,之后利用hisat2进行序列比对,得到比对之后的bam文件;
3) 基因表达水平的检测:将bam文件用samtools软件转化为sam文件后,使用HTSeq软件进行计数,得到样本基因的表达量count值。
进一步,所述步骤四中的神经网络机器学习训练模型中的损失函数为二分类交叉熵函数,损失函数公式如下:
Figure 126933DEST_PATH_IMAGE006
其中:
Figure 591412DEST_PATH_IMAGE007
: 真实标签值,为0或者1;
Figure 260291DEST_PATH_IMAGE008
: 预测值,范围在0-1之间;
Figure 863442DEST_PATH_IMAGE009
:权重,这里采用默认值,为1/n,n为总特征数;
在进行损失函数处理前用Sigmoid函数对数据集进行激活分类处理。
进一步,步骤五中的特征的重要性判断步骤如下:
选择步骤四中训练好的神经网络模型进行交叉验证,再次利用数据集输入进行交叉验证,通过随机化特征值获取最佳神经网络模型的最终预测结果的变化,以此结果衡量特征的重要性,即基因对于脂肪沉积重要性的排序,具体步骤如下:
1)每次从输入数据集中获取一个特征列,然后对所述特征列进行随机打乱,再用训练好的神经网络模型对其进行预测并得到损失值;
2)记录每个特征列以及其对应的损失值,每个损失值就是该特征对应的特征重要性,如果损失值越大,说明该特征对于神经网络模型越加重要;反之,则越加不重要;
3)根据样本基因对应的特征重要性的排序,挑选排名靠前的基因作为影响脂肪沉积的候选基因。
本发明的有益效果:
(1)本发明所提供的转录组数据分析的新方法因为其模型的复杂性和灵活性保证了其模型能够更精确地拟合复杂的基因表达数据,能够针对不同的数据集通过机器学习训练为复杂数据建立拟合模型,以便于更准确地筛选出影响目标性状的候选基因;
(2)通过本发明可以增加分析的样本量,提供新的分析策略,能有效拟合复杂数据并能精确地识别样本和基因,能够有效克服传统转录组分析方法可利用样本量少和结果假阳性高的局限性;
(3)本发明利用前馈神经网络对数据集进行训练和测试,通过最佳参数模型利用Permutation Importance的方式对基因进行排序以筛选影响目标性状的候选基因,能够利用大量样本进行分析,更准确地定位影响猪脂肪沉积的候选基因,从而有助于猪肉品质的分子育种和遗传改良;
(4)通过结合猪肌肉转录组表达数据和肌内脂肪含量表型建立两者的非线性关系,通过模型预测准确性的变化筛选影响肌内脂肪含量的重要候选基因。
附图说明
图1是本发明实施例提供的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法流程图;
图2是基于机器学习寻找影响猪脂肪沉积的候选基因的方法的神经网络机器学习训练模式图;
图3 是基于机器学习寻找影响猪脂肪沉积的候选基因的方法的进行神经网络机器学习训练测试的AUC变化图;
图4 是基于机器学习寻找影响猪脂肪沉积的候选基因的方法的进行神经网络机器学习训练测试的损失变化图;
图5是特征重要性排序图。
具体实施方式
一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,主要包括以下步骤:
步骤一:收集猪肌肉样本,通过FOSS机测定肌内脂肪含量,作为样本标签,根据肌内脂肪含量大小分为高低组转化为二分类处理问题;
其中猪肌肉样本来自大白猪进行屠宰后,每只猪的重量在100±5kg,取100g背最长肌用搅拌机搅碎,再利用FOSS NIRS DS 2500近红外光谱仪测定背最长肌的肌内脂肪含量。
步骤二:提取样本RNA,进行mRNA建库得到测序数据;
对于上述背最长肌样本,取适量采用TRIzol 试剂盒提取总 RNA,用1.5%的琼脂糖凝胶电泳检测其RNA 的完整性,用 NanoDrop 检测总 RNA浓度,放入到-80℃保存。
对已挑选样本的总RNA样品,进行反转录得到cDNA,构建cDNA 文库并进行质量检测,利用 Hiseq2500测序仪进行双端测序。
步骤三:对步骤二中的测序数据进行处理得到基因的count值(比对到的reads数),并标准化得到样本基因表达TPM值;
得到测序数据后进行数据清洗处理,测序数据到基因表达水平主要三个阶段 :
① reads质控:利用FastQC软件检测测序数据的质量,之后利用Trimmomatic软件去除接头序列,并去除未知序列大于10%和质量评分小于20的reads;
② 比对:下载猪的参考基因组序列及注释(版本Sus Sscrofa11.1),并利用hisat2-build建立索引序列,之后利用hisat2进行序列比对,得到比对之后的bam文件;
③ 基因表达水平的检测:将bam文件用samtools软件转化为sam文件后,使用HTSeq软件进行计数,得到样本基因的表达量count值。
通过上述方法得到各样本所有表达基因的表达count值后,进行标准化得到基因的表达TPM值(每千个碱基的转录每百万映射读取的转录本数)。各表达基因作为样本的特征,TPM值作为特征值。TPM计算公式如下:
Figure 555454DEST_PATH_IMAGE001
上述公式中各字母的含义:
Figure 558045DEST_PATH_IMAGE002
: 比对到基因
Figure 186823DEST_PATH_IMAGE003
上的read数,即基因的count值;
Figure 616667DEST_PATH_IMAGE004
: 基因
Figure 795976DEST_PATH_IMAGE003
的外显子长度的总和,根据参考基因组Sus Sscrofa11.1的注释计算;
Figure 8782DEST_PATH_IMAGE010
:所有基因比对read数和其外显子长度总和之比的和。
经上标准化处理后得到如表1和2的数据集,其中:
表1是标准化处理后的序号为1-50的数据集;
Figure 88472DEST_PATH_IMAGE011
表2是标准化处理后的序号为51-100的数据集;
Figure 423638DEST_PATH_IMAGE012
Groups:为样本标签,1代表脂肪含量高的样本,0代表脂肪含量低的样本;
KDM2A,NCOA4,PCED1A,SDHD,THOC3,IGFBP5,PELP1,RTKN,TMCC2,TRIP6,ACADL,AGAP3,AKAP8L,ANKRD54,ARMC9,ATM,BAG6,BEX3,C12orf50和CA11均代表样本的表达基因,作为样本的特征。
构建数据集,将表1和2中的一一对应的样本特征和标签共同作为样本信息构建样本的数据集。
步骤四:利用数据集通过交叉验证的方式进行神经网络机器学习训练;
利用前馈神经网络机器学习模型对数据集进行训练,神经网络是机器学习的一个重要组成部分,是由多个处理层组成的计算模型,可以用于学习具有抽象特征的数据。神经网络对于深度学习的构建发挥了重要的作用,深度学习通过使用反向传播算法,可以指示机器应该如何更改其内部参数来发现大数据集中的复杂结构,这些内部参数可以根据上一层的指示来计算每一层的指示,该过程利用Python语言引入pytorch包建立神经网络模型,再利用Backpropagation算法通过迭代来处理训练集中的实例,得到每个输入基因的权重值,对比经过神经网络后输入层预测值与真实值之间的差反方向(从输出层=>隐藏层=>输入层)来以最小化误差(error)来更新每个连接点的权重(weight)和偏向。具体过程如下:
1. 输入层的每个节点都要与隐藏层的每个节点做点对点的计算,输出成→隐藏层;
2.残差全部计算好后,更新权重;
3.把数据集的每条记录都计算一遍,把更新的增值全部累加起来求平均值
损失函数为二分类交叉熵函数,常用于二分类任务。在使用此函数之前先用Sigmoid函数进行激活分类,损失函数公式如下,
Figure 90243DEST_PATH_IMAGE006
其中:
Figure 106740DEST_PATH_IMAGE007
: 真实标签值,为0或者1;
Figure 542401DEST_PATH_IMAGE008
: 预测值,范围在0-1之间;
Figure 579627DEST_PATH_IMAGE009
:权重,这里采用默认值,为1/n,n为总特征数;
如图2所示,将数据集按3:1的比例划分为训练集和测试集,采用交叉验证的方式训练和评估模型,计算测试集的平均准确性,并做出AUC以及损失的变化图,以此来评估模型的拟合效果。
在训练过程中通过设置不同的节点数和连接层数的参数,按照上述方式反复训练模型。根据模型预测的平均准确性和AUC值选留最优预测模型,固定该模型的所有参数,如图3所示,AUC指ROC曲线(受试者工作特征曲线)下面积,其值越大说明模型效果越好。图中虚线为正例,即真实标签为1的样本的预测AUC值,实线为负例,即真实标签为0的预测的AUC值。横坐标为重复训练轮数值,重复训练轮数是一个超参数,它定义了学习算法在整个训练数据集中的工作次数,即训练轮数。批次样本数为表示单次传递给程序用以训练的数据(样本)个数。如图4所示,虚线为正例,即真实标签为1的样本的预测损失,实线为负例,即真实标签为0的预测损失。
步骤五:基于Permutation Importance的方法计算神经网络模型特征的重要性。
利用上述训练好的神经网络模型,再次利用全部数据集通过交叉验证以特征值的变化对于模型最终预测结果的变化来衡量特征的重要性,即基因对于脂肪沉积重要性的排序,具体步骤如下:
1.对于已经训练好的神经网路,每次获取一个特征列,然后对其进行随机打乱,使用模型对其进行预测并得到损失值;
2.记录每个特征列以及其对应的损失值,每个损失值就是该特征对应的特征重要性,如果损失值越大,说明该特征对于神经网络模型越加重要;反之,则越加不重要。
根据样本基因重要性的排序和生物信息学分析挑选排名靠前的基因作为影响脂肪沉积的候选基因。
如图5所示,横坐标为平均损失值,其平均损失越大则说明其改变对于模型预测结果的影响越大,从图5中可以看出PELP1这个基因的改变对于预测结果影响最大,表明其是作为影响脂肪沉积最重要的候选基因。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,主要包括以下步骤:
步骤一:收集猪肌肉样本,通过FOSS机测定肌内脂肪含量,作为样本标签,根据肌内脂肪含量大小分为高低组转化为二分类处理问题;
步骤二:提取样本RNA,进行mRNA建库得到测序数据;
步骤三:对步骤二中的测序数据进行质控和比对处理得到基因的count值,所述count值为比对到的reads数,并标准化得到样本基因表达TPM值;
所述TPM值计算公式为:
Figure DEST_PATH_IMAGE002AAA
上述公式中各字母的含义:
Figure 651944DEST_PATH_IMAGE004
: 比对到基因
Figure 469596DEST_PATH_IMAGE006
上的read数,即基因的count值;
Figure 872764DEST_PATH_IMAGE008
: 基因
Figure 807134DEST_PATH_IMAGE006
的外显子长度的总和,根据参考基因组Sus Sscrofa11.1的注释计算;
Figure 612148DEST_PATH_IMAGE010
:所有基因比对read数和其外显子长度总和之比的和;
将基因表达TPM值作为样本特征,并设置与样本特征一一对应的标签值,将样本特征和标签值构建成数据集;
步骤四:利用数据集通过交叉验证的方式进行神经网络机器学习训练;
步骤五:基于Permutation Importance的方法计算神经网络模型特征的重要性。
2.根据权利要求1所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,其特征在于,所述步骤一中猪肌肉样本来自屠宰后的大白猪进行,每只大白猪的重量在100±5kg,取100g背最长肌搅碎,再利用FOSS NIRS DS 2500近红外光谱仪测定背最长肌的肌内脂肪含量。
3.根据权利要求2所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,其特征在于,步骤二中的测序数据的获取,通过如下步骤:
1) 将上述背最长肌样本,取适量采用TRIzol 试剂盒提取总 RNA,用1.5%的琼脂糖凝胶电泳检测其RNA 的完整性,用 NanoDrop 检测总 RNA浓度,放入到-80℃保存;
2) 对上述获得总RNA浓度的样品,进行反转录得到cDNA,构建cDNA 文库并进行质量检测,利用 Illumina Hiseq2500测序仪进行双端测序。
4.根据权利要求3所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,其特征在于,所述步骤三中对测序数据的清洗处理过程具体如下:
1) reads质控:利用FastQC软件检测测序数据的质量,之后利用Trimmomatic软件去除接头序列,并去除未知序列大于10%和质量评分小于20的reads;
2) 比对:下载猪的参考基因组序列及注释,所述猪的参考基因组序列及注释的版本为Sus Sscrofa11.1,并利用hisat2-build建立索引序列,之后利用hisat2进行序列比对,得到比对之后的bam文件;
3) 基因表达水平的检测:将bam文件用samtools软件转化为sam文件后,使用HTSeq软件进行计数,得到样本基因的表达量count值。
5.根据权利要求4所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,其特征在于,所述步骤四中的神经网络机器学习训练模型中的损失函数为二分类交叉熵函数,损失函数公式如下,
Figure DEST_PATH_IMAGE012A
其中:
Figure 31060DEST_PATH_IMAGE014
: 真实标签值,为0或者1;
Figure 780579DEST_PATH_IMAGE016
: 预测值,范围在0-1之间;
Figure DEST_PATH_IMAGE018
:权重,这里采用默认值,为1/n,n为总特征数;
在进行损失函数处理前用Sigmoid函数对数据集进行激活分类处理。
6.根据权利要求5所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法,其特征在于,所述步骤五中进行的特征重要性判断步骤如下:
选择步骤四中训练好的神经网络模型再次利用数据集 输入进行交叉验证,通过随机化特征值获取训练好的神经网络模型的最终预测结果的变化,以此结果衡量特征的重要性,即基因对于脂肪沉积重要性的排序,具体步骤如下:
1)每次从输入的数据集中获取一个特征列,然后对所述特征列进行随机打乱,再用训练好的神经网络模型对其进行预测并得到损失值;
2)记录每个特征列以及其对应的损失值,每个损失值就是该特征对应的特征重要性,如果损失值越大,说明该特征对于神经网络模型越加重要;反之,则越加不重要;
根据样本基因对应的特征重要性的排序,挑选排名靠前的基因作为影响脂肪沉积的重要候选基因。
CN202211577145.9A 2022-12-09 2022-12-09 基于机器学习寻找影响猪脂肪沉积的候选基因的方法 Active CN115579066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211577145.9A CN115579066B (zh) 2022-12-09 2022-12-09 基于机器学习寻找影响猪脂肪沉积的候选基因的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211577145.9A CN115579066B (zh) 2022-12-09 2022-12-09 基于机器学习寻找影响猪脂肪沉积的候选基因的方法

Publications (2)

Publication Number Publication Date
CN115579066A true CN115579066A (zh) 2023-01-06
CN115579066B CN115579066B (zh) 2023-04-18

Family

ID=84590785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211577145.9A Active CN115579066B (zh) 2022-12-09 2022-12-09 基于机器学习寻找影响猪脂肪沉积的候选基因的方法

Country Status (1)

Country Link
CN (1) CN115579066B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706749A (zh) * 2019-09-10 2020-01-17 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测系统和方法
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN111625953A (zh) * 2020-05-21 2020-09-04 中国石油大学(华东) 气体高压等温吸附曲线预测方法、系统、存储介质、终端
AU2020101763A4 (en) * 2020-08-11 2020-09-17 Institute Of Animal Husbandry And Veterinary, Hubei Academy Of Agricultural Sciences SNP Genetic Marker of Fat Deposition Traits in Pigs and Its Application
CN112391479A (zh) * 2020-05-09 2021-02-23 南阳师范学院 基于多组学的南阳黑猪脂肪沉积性状关键基因挖掘方法
CN113151274A (zh) * 2021-04-15 2021-07-23 贵州省畜牧兽医研究所 一种调控猪脂肪沉积性能的新LncRNA应用、挖掘及鉴定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706749A (zh) * 2019-09-10 2020-01-17 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测系统和方法
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN112391479A (zh) * 2020-05-09 2021-02-23 南阳师范学院 基于多组学的南阳黑猪脂肪沉积性状关键基因挖掘方法
CN111625953A (zh) * 2020-05-21 2020-09-04 中国石油大学(华东) 气体高压等温吸附曲线预测方法、系统、存储介质、终端
AU2020101763A4 (en) * 2020-08-11 2020-09-17 Institute Of Animal Husbandry And Veterinary, Hubei Academy Of Agricultural Sciences SNP Genetic Marker of Fat Deposition Traits in Pigs and Its Application
CN113151274A (zh) * 2021-04-15 2021-07-23 贵州省畜牧兽医研究所 一种调控猪脂肪沉积性能的新LncRNA应用、挖掘及鉴定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TASFIN JAYED: "Predicting N1-and N6-methyladenosine RNA Modifications using Hybrid Feature Selection Approach", 《2019 5TH INTERNATIONAL CONFERENCE ON ADVANCES IN ELECTRICAL ENGINEERING (ICAEE)》 *
顾丽菊;任丽群;燕志宏;张依裕;宋高翔;田松军;刘华钧;杨秀江;杨通斌;: "宗地花猪和从江香猪ADRP基因多态性及生物信息学分析", 基因组学与应用生物学 *

Also Published As

Publication number Publication date
CN115579066B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111304303B (zh) 微卫星不稳定的预测方法及其应用
CN109545278B (zh) 一种鉴定植物lncRNA与基因互作的方法
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
CN116596933B (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
CN115579066B (zh) 基于机器学习寻找影响猪脂肪沉积的候选基因的方法
CN113096737A (zh) 一种用于对病原体类型进行自动分析的方法及系统
CN114005489B (zh) 基于三代测序数据检测点突变的分析方法和装置
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN110751985B (zh) 与大体重鸡只高度关联的肠道微生物标记物
CN114420214A (zh) 核酸测序数据的质量评估方法和筛选方法
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
Alberdi et al. Captivity systematically alters the composition yet not the diversity of vertebrate gut microbiomes
CN118230820A (zh) 基于宏基因测序数据的耐药基因物种来源鉴定方法
CN103559425B (zh) 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法
CN115662507B (zh) 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统
CN117577179B (zh) 一种基于转录组和dna甲基化组的基因挖掘方法及系统
CN117976042A (zh) 确定读段质量分数的方法、测序方法及装置
Pfeil Development of a novel barcode calling algorithm for long error-prone reads
CN110066862B (zh) 一种基于高通量测序读数的重复dna序列识别方法
CN114882944A (zh) 基于Metagenome测序的肠道微生物样品宿主性别鉴定方法、装置及应用
Wang Improved Basecalling and Base Modification Detection Through Signal-level Analysis of Nanopore Direct RNA Data
CN116855596A (zh) 水稻品种同质性评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant