CN115579066B

CN115579066B - 基于机器学习寻找影响猪脂肪沉积的候选基因的方法

Info

Publication number: CN115579066B
Application number: CN202211577145.9A
Authority: CN
Inventors: 刘华涛; 刘年丰
Original assignee: Qingdao Xingmu Animal Husbandry Technology Development Co ltd
Current assignee: Qingdao Zhongwo Xingmu Food Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-18
Anticipated expiration: 2042-12-09
Also published as: CN115579066A

Abstract

本发明涉及生物信息学领域，具体为一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，主要包括以下步骤：步骤一：收集猪肌肉样本，通过FOSS机测定肌内脂肪含量，作为样本标签，根据肌内脂肪含量大小分为高低组转化为二分类处理问题；步骤二：提取样本RNA，进行mRNA建库得到测序数据；步骤三：对步骤二中的测序数据进行质控和比对处理，并标准化得到样本基因表达TPM值；步骤四：利用数据集通过交叉验证的方式进行神经网络机器学习训练；步骤五：对特征基因进行重要性排序从而确定候选基因。有益效果为，通过模型预测准确性的变化筛选影响肌内脂肪含量的重要候选基因。

Description

基于机器学习寻找影响猪脂肪沉积的候选基因的方法

技术领域

本发明涉及生物信息学领域，具体为一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法。

背景技术

脂肪沉积是养猪生产中复杂的数量性状和重要的经济性状，其与生猪的生产效率、猪肉品质和繁殖性状密切相关。近年来，人们开始更加关注猪肉的质量，因此脂肪含量作为影响肉质的主要指标显得越来越重要。随着基因组时代的来临，挖掘影响猪脂肪沉积性状的分子标记和基因成为加快肉质改良的一个重要途径，所以寻找影响猪脂肪沉积的候选基因成为当前养猪业进行肉质遗传改良的重要目标。

脂肪沉积是一个动态平衡的过程，受多种基因的时空调控。通过RNA-seq深度测序技术能够进行转录组测序，进而体现特定时间点特定组织的基因表达状态。因此，利用转录组数据对于准确挖掘影响猪脂肪沉积的候选基因至关重要。

然而，目前大多数在这方面的转录组研究均使用很少的重复，只能识别表达变化最大的基因，因此缺乏在生物学意义水平上检测能力。也有研究表明，不同的检测差异表达基因的方法缺乏足够的统计力，存在一定的假阳性率和假阴性率。因此，增加样本量和寻找新的分析策略是克服传统转录组分析局限性的关键。

发明内容

本发明的目的在于提出一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，该方法基于机器学习算法，能够同时利用大量的样本，准确地寻找到候选基因。机器学习作为一种新兴大数据分析方法，能有效拟合复杂数据并能精确地识别样本和基因，能够有效克服传统转录组分析方法可利用样本量少和结果假阳性高的局限性。

本发明所采取的技术方案是：构建包含样本基因表达量和表型的数据集，利用前馈神经网络对数据集进行训练和测试，利用最佳参数模型基于Permutation Importance的方法通过交叉验证对基因的重要性进行排序以筛选影响目标性状的候选基因。

一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，主要包括以下步骤：

步骤一：收集猪肌肉样本，通过FOSS机测定肌内脂肪含量，作为样本标签，根据肌内脂肪含量大小分为高低组转化为二分类处理问题；

步骤二：提取样本RNA，进行mRNA建库得到测序数据；

步骤三：对步骤二中的测序数据进行质控和比对处理得到基因的count值，所述count值为比对到的reads数，并标准化得到样本基因表达TPM值；

所述TPM值计算公式为：

上述公式中各字母的含义：

: 比对到基因上的read数，即基因的count值；

: 基因的外显子长度的总和，根据参考基因组Sus Sscrofa11.1的注释计算；

:所有基因比对read数和其外显子长度总和之比的和；

将基因表达TPM值作为样本特征，并设置与样本特征一一对应的标签值，将样本特征和标签值构建成数据集。

步骤四：利用数据集通过交叉验证的方式进行神经网络机器学习训练；

步骤五：基于Permutation Importance的方法计算神经网络模型特征的重要性。

进一步，步骤一中猪肌肉样本来自屠宰后的大白猪，每只大白猪的重量在100±5kg，取100g背最长肌搅碎，再利用FOSS NIRS DS 2500近红外光谱仪测定背最长肌的肌内脂肪含量。

进一步，步骤二中的测序数据的获取，通过如下步骤：

1) 将上述背最长肌样本，取适量采用TRIzol 试剂盒提取总 RNA，用1.5%的琼脂糖凝胶电泳检测其RNA 的完整性，用 NanoDrop 检测总 RNA浓度，放入到-80℃保存；

2) 对上述获得总RNA浓度的样品，进行反转录得到cDNA，构建cDNA 文库并进行质量检测，利用 Illumina Hiseq2500测序仪进行双端测序。

进一步，所述步骤三中对测序数据的清洗处理过程具体如下：

1) reads质控：利用FastQC软件检测测序数据的质量，之后利用Trimmomatic软件去除接头序列，并去除未知序列大于10%和质量评分小于20的reads；

2) 比对：下载猪的参考基因组序列及注释（版本Sus Sscrofa11.1），并利用hisat2-build建立索引序列，之后利用hisat2进行序列比对，得到比对之后的bam文件；

3) 基因表达水平的检测：将bam文件用samtools软件转化为sam文件后，使用HTSeq软件进行计数，得到样本基因的表达量count值。

进一步，所述步骤四中的神经网络机器学习训练模型中的损失函数为二分类交叉熵函数，损失函数公式如下：

其中：

: 真实标签值，为0或者1；

: 预测值，范围在0-1之间；

:权重，这里采用默认值，为1/n，n为总特征数；

在进行损失函数处理前用Sigmoid函数对数据集进行激活分类处理。

进一步，步骤五中的特征的重要性判断步骤如下：

选择步骤四中训练好的神经网络模型进行交叉验证，再次利用数据集输入进行交叉验证，通过随机化特征值获取最佳神经网络模型的最终预测结果的变化，以此结果衡量特征的重要性，即基因对于脂肪沉积重要性的排序，具体步骤如下：

1)每次从输入数据集中获取一个特征列，然后对所述特征列进行随机打乱，再用训练好的神经网络模型对其进行预测并得到损失值；

2)记录每个特征列以及其对应的损失值，每个损失值就是该特征对应的特征重要性，如果损失值越大，说明该特征对于神经网络模型越加重要；反之，则越加不重要；

3)根据样本基因对应的特征重要性的排序，挑选排名靠前的基因作为影响脂肪沉积的候选基因。

本发明的有益效果：

（1）本发明所提供的转录组数据分析的新方法因为其模型的复杂性和灵活性保证了其模型能够更精确地拟合复杂的基因表达数据，能够针对不同的数据集通过机器学习训练为复杂数据建立拟合模型，以便于更准确地筛选出影响目标性状的候选基因；

（2）通过本发明可以增加分析的样本量，提供新的分析策略，能有效拟合复杂数据并能精确地识别样本和基因，能够有效克服传统转录组分析方法可利用样本量少和结果假阳性高的局限性；

（3）本发明利用前馈神经网络对数据集进行训练和测试，通过最佳参数模型利用Permutation Importance的方式对基因进行排序以筛选影响目标性状的候选基因，能够利用大量样本进行分析，更准确地定位影响猪脂肪沉积的候选基因，从而有助于猪肉品质的分子育种和遗传改良；

（4）通过结合猪肌肉转录组表达数据和肌内脂肪含量表型建立两者的非线性关系，通过模型预测准确性的变化筛选影响肌内脂肪含量的重要候选基因。

附图说明

图1是本发明实施例提供的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法流程图；

图2是基于机器学习寻找影响猪脂肪沉积的候选基因的方法的神经网络机器学习训练模式图；

图3 是基于机器学习寻找影响猪脂肪沉积的候选基因的方法的进行神经网络机器学习训练测试的AUC变化图；

图4 是基于机器学习寻找影响猪脂肪沉积的候选基因的方法的进行神经网络机器学习训练测试的损失变化图；

图5是特征重要性排序图。

具体实施方式

其中猪肌肉样本来自大白猪进行屠宰后，每只猪的重量在100±5kg，取100g背最长肌用搅拌机搅碎，再利用FOSS NIRS DS 2500近红外光谱仪测定背最长肌的肌内脂肪含量。

步骤二：提取样本RNA，进行mRNA建库得到测序数据；

对于上述背最长肌样本，取适量采用TRIzol 试剂盒提取总 RNA，用1.5%的琼脂糖凝胶电泳检测其RNA 的完整性，用 NanoDrop 检测总 RNA浓度，放入到-80℃保存。

对已挑选样本的总RNA样品，进行反转录得到cDNA，构建cDNA 文库并进行质量检测，利用 Hiseq2500测序仪进行双端测序。

步骤三：对步骤二中的测序数据进行处理得到基因的count值（比对到的reads数），并标准化得到样本基因表达TPM值；

得到测序数据后进行数据清洗处理，测序数据到基因表达水平主要三个阶段：

① reads质控：利用FastQC软件检测测序数据的质量，之后利用Trimmomatic软件去除接头序列，并去除未知序列大于10%和质量评分小于20的reads；

② 比对：下载猪的参考基因组序列及注释（版本Sus Sscrofa11.1），并利用hisat2-build建立索引序列，之后利用hisat2进行序列比对，得到比对之后的bam文件；

③ 基因表达水平的检测：将bam文件用samtools软件转化为sam文件后，使用HTSeq软件进行计数，得到样本基因的表达量count值。

通过上述方法得到各样本所有表达基因的表达count值后，进行标准化得到基因的表达TPM值（每千个碱基的转录每百万映射读取的转录本数）。各表达基因作为样本的特征，TPM值作为特征值。TPM计算公式如下：

上述公式中各字母的含义：

: 比对到基因上的read数，即基因的count值；

:所有基因比对read数和其外显子长度总和之比的和。

经上标准化处理后得到如表1和2的数据集，其中：

表1是标准化处理后的序号为1-50的数据集；

表2是标准化处理后的序号为51-100的数据集；

Groups:为样本标签，1代表脂肪含量高的样本，0代表脂肪含量低的样本；

KDM2A,NCOA4,PCED1A,SDHD,THOC3,IGFBP5,PELP1,RTKN,TMCC2,TRIP6,ACADL，AGAP3,AKAP8L,ANKRD54,ARMC9,ATM,BAG6,BEX3,C12orf50和CA11均代表样本的表达基因，作为样本的特征。

构建数据集，将表1和2中的一一对应的样本特征和标签共同作为样本信息构建样本的数据集。

利用前馈神经网络机器学习模型对数据集进行训练，神经网络是机器学习的一个重要组成部分，是由多个处理层组成的计算模型，可以用于学习具有抽象特征的数据。神经网络对于深度学习的构建发挥了重要的作用，深度学习通过使用反向传播算法，可以指示机器应该如何更改其内部参数来发现大数据集中的复杂结构，这些内部参数可以根据上一层的指示来计算每一层的指示，该过程利用Python语言引入pytorch包建立神经网络模型，再利用Backpropagation算法通过迭代来处理训练集中的实例，得到每个输入基因的权重值，对比经过神经网络后输入层预测值与真实值之间的差反方向（从输出层=>隐藏层=>输入层）来以最小化误差(error)来更新每个连接点的权重(weight)和偏向。具体过程如下：

1. 输入层的每个节点都要与隐藏层的每个节点做点对点的计算，输出成→隐藏层；

2.残差全部计算好后，更新权重；

3.把数据集的每条记录都计算一遍，把更新的增值全部累加起来求平均值

损失函数为二分类交叉熵函数，常用于二分类任务。在使用此函数之前先用Sigmoid函数进行激活分类，损失函数公式如下，

其中：

: 真实标签值，为0或者1；

: 预测值，范围在0-1之间；

:权重，这里采用默认值，为1/n，n为总特征数；

如图2所示，将数据集按3：1的比例划分为训练集和测试集，采用交叉验证的方式训练和评估模型，计算测试集的平均准确性，并做出AUC以及损失的变化图，以此来评估模型的拟合效果。

在训练过程中通过设置不同的节点数和连接层数的参数，按照上述方式反复训练模型。根据模型预测的平均准确性和AUC值选留最优预测模型，固定该模型的所有参数，如图3所示，AUC指ROC曲线（受试者工作特征曲线）下面积，其值越大说明模型效果越好。图中虚线为正例，即真实标签为1的样本的预测AUC值，实线为负例，即真实标签为0的预测的AUC值。横坐标为重复训练轮数值，重复训练轮数是一个超参数，它定义了学习算法在整个训练数据集中的工作次数，即训练轮数。批次样本数为表示单次传递给程序用以训练的数据（样本）个数。如图4所示，虚线为正例，即真实标签为1的样本的预测损失，实线为负例，即真实标签为0的预测损失。

利用上述训练好的神经网络模型，再次利用全部数据集通过交叉验证以特征值的变化对于模型最终预测结果的变化来衡量特征的重要性，即基因对于脂肪沉积重要性的排序，具体步骤如下：

1.对于已经训练好的神经网路，每次获取一个特征列，然后对其进行随机打乱，使用模型对其进行预测并得到损失值；

2.记录每个特征列以及其对应的损失值，每个损失值就是该特征对应的特征重要性，如果损失值越大，说明该特征对于神经网络模型越加重要；反之，则越加不重要。

根据样本基因重要性的排序和生物信息学分析挑选排名靠前的基因作为影响脂肪沉积的候选基因。

如图5所示，横坐标为平均损失值，其平均损失越大则说明其改变对于模型预测结果的影响越大，从图5中可以看出PELP1这个基因的改变对于预测结果影响最大，表明其是作为影响脂肪沉积最重要的候选基因。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，主要包括以下步骤：

步骤二：提取样本RNA，进行mRNA建库得到测序数据；

所述TPM值计算公式为：

；

上述公式中各字母的含义：

: 比对到基因上的read数，即基因的count值；

:所有基因比对read数和其外显子长度总和之比的和；

将基因表达TPM值作为样本特征，并设置与样本特征一一对应的标签值，将样本特征和标签值构建成数据集；

步骤四：利用数据集通过交叉验证的方式进行神经网络机器学习训练，在训练过程中通过设置不同的节点数和连接层数的参数，根据模型预测的平均准确性和AUC值选留最优预测模型，固定该模型的所有参数；

步骤五：基于Permutation Importance的方法计算神经网络模型特征的重要性；

通过步骤五确定猪脂肪沉积的候选基因重要由高到低的排序为：PELP1、THOC3、KDM2A、AGAP3、C12orf50、SDHD、NCOA4、PCEDIA、ACADL、AKAP8L、ARMC9、TMCC2、IGFBP5、RTKN、CA11、BAG6、TRIP6、ATM、BEX3、ANKRD54。

2.根据权利要求1所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，其特征在于，所述步骤一中猪肌肉样本来自屠宰后的大白猪进行，每只大白猪的重量在100±5kg，取100g背最长肌搅碎，再利用FOSS NIRS DS 2500近红外光谱仪测定背最长肌的肌内脂肪含量。

3.根据权利要求2所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，其特征在于，步骤二中的测序数据的获取，通过如下步骤：

4.根据权利要求3所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，其特征在于，所述步骤三中对测序数据的清洗处理过程具体如下：

2) 比对：下载猪的参考基因组序列及注释，所述猪的参考基因组序列及注释的版本为Sus Sscrofa11.1，并利用hisat2-build建立索引序列，之后利用hisat2进行序列比对，得到比对之后的bam文件；

5.根据权利要求4所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，其特征在于，所述步骤四中的神经网络机器学习训练模型中的损失函数为二分类交叉熵函数，损失函数公式如下，

；

其中：

: 真实标签值，为0或者1；

: 预测值，范围在0-1之间；

:权重，这里采用默认值，为1/n，n为总特征数；

6.根据权利要求5所述的一种基于机器学习寻找影响猪脂肪沉积的候选基因的方法，其特征在于，所述步骤五中进行的特征重要性判断步骤如下：

选择步骤四中训练好的神经网络模型再次利用数据集输入进行交叉验证，通过随机化特征值获取训练好的神经网络模型的最终预测结果的变化，以此结果衡量特征的重要性，即基因对于脂肪沉积重要性的排序，具体步骤如下：

1)每次从输入的数据集中获取一个特征列，然后对所述特征列进行随机打乱，再用训练好的神经网络模型对其进行预测并得到损失值；

根据样本基因对应的特征重要性的排序，挑选排名靠前的基因作为影响脂肪沉积的重要候选基因。