CN116246705A

CN116246705A - 全基因组测序数据的分析方法和装置

Info

Publication number: CN116246705A
Application number: CN202310523080.8A
Authority: CN
Inventors: 李孟寒; 白莉; 韩小敏; 徐进; 闫韶飞; 徐文静
Original assignee: China National Center For Food Safety Risk Assessment
Current assignee: China National Center For Food Safety Risk Assessment
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-06-09
Anticipated expiration: 2043-05-10
Also published as: CN116246705B

Abstract

本申请公开了全基因组测序数据的分析方法和装置，包括：获取全基因组的测序序列数据；根据测序序列数据，确定融合特征数据集和特征字典；将融合特征数据集输入到预先建立的预测模型，得到与测序序列数据对应的表型预测数据；根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列，提高检测结果的准确率，提高计算资源的效率、应用的可延展性和完善流程的完整性。

Description

全基因组测序数据的分析方法和装置

技术领域

本申请属于生物信息技术领域，尤其涉及一种全基因组测序数据的分析方法和装置。

背景技术

基于全基因组序列比对技术对微生物的表型特征和分类进行预测，能够在不依赖实验室检验的情况下，精准识别微生物的分类、分型、耐药性、毒力、致病性等多种特征，在公共卫生、食品安全、临床诊断等领域具有广阔的应用意义。这一技术基于一套特征基因的基因型与表型对应参考数据集，通过基于局部比对算法的搜索工具（Basic LocalAlignment Search Tool，BLAST）等序列比对方法，在目标基因组中检索对应基因序列，以序列相似度和覆盖率进行筛选，再根据检索结果与参考数据集的匹配情况预测表型特征。

这一技术面临的主要问题是对参考数据集的依赖性。对于序列比对的预测方法，完整且功能已知的参比基因是必要的。因此，基于全基因组序列比对技术的微生物特性预测方法无法解决未知基因型或新发现物种的微生物特性预测。

这一技术面临的另一问题是预测的准确性受限。生物的基因型对表型的影响是多方面的，虽然非核心基因的存在与否是微生物表型的重要影响因素，但并不是全部因素。序列比对的预测方法仅从目标基因组与参考基因的核酸序列相似度和覆盖率两方面识别功能基因以预测表型，即便拥有完善的参考序列数据库，其预测准确度也无法进一步提升。

基于机器学习技术构建全基因组特征微生物表型预测模型，用于挖掘关联基因型的方法，称为微生物的全基因组关联研究技术（Genome-Wide Association Studies，GWAS）。现有的微生物GWAS技术方法主要为针对细菌的抗生素耐药基因预测方法。这些方法对大样本量的细菌基因组，采用核酸序列BLAST算法（BLASTN），获取核酸序列相似度，匹配并构建基因型数据特征矩阵。通过对应的抗生素耐药性检测数据训练机器学习模型，将基因型特征加以人工召回，以筛选细菌的非核心耐药基因。此外，一些不具备GWAS分析的细菌耐药性机器学习预测方法，采用单核苷酸多态性（Single Nucleotide Polymorphism，SNP），k-mer等基因型特征，构建分类或回归模型，对细菌的耐药性表型进行预测。

这几种方法存在较为明显的局限性：其一，仅使用基因的核酸序列相似度筛选基因型特征，无法涵盖所有基因组信息。关键的非编码区基因型特征，如基因表达调控区等，在该技术中被忽略。此外，在基因注释的选择上，具有人为干涉，如以现有参考数据库的匹配作为筛选标准等，会使分析结果具有倾向性。其二，采用BLASTN算法设定序列相似度和覆盖率阈值并筛选功能基因的方法，是一种理想化的简化筛选模型。基因组中关键位置的SNP，插入或删除（Insertion/deletion，INDEL）等失效突变，并不会使基因序列相似度和覆盖率低于阈值，但会导致基因失去功能。缺乏对此类基因特征的甄别会影响模型精度。其三，目的基因筛选策略适用性有限。现有技术采用的相关系数权重排序、拉索（Lasso）回归等特征筛选方法，适用于连续型数值（continuous numerical）参数。在类别（categorical）参数及分类（classification）模型的应用中效果相对较差。其四，基因型特征通常数量庞大，尤其是k-mer特征，对于一个序列长度为500万bp的细菌基因组，能够产生的k-mer特征数量在十万到百万级，而真菌基因组k-mer特征数量甚至能够达到细菌的数十倍。直接使用k-mer特征将导致显著的过拟合，依靠拉索回归和权重排序等训练后筛选又会严重影响模型训练速度，占据大量计算资源。其五，使用单一学习算法构建的细菌表型进行预测模型，尤其是回归方法，结果较难收敛，容易陷入局部最优解（local optimal solution）。

综上所述，现有的基于基因组序列比对的微生物表型和分类预测方法，以及基于机器学习模型构建的GWAS分析方法，均在技术层面存在局限性。同时，上述方法的应用范围主要为细菌的抗生素耐药性表型研究。对于其他微生物基因组，如真菌、病毒，以及其他的表型，如生物学分类、质粒型、毒力型、致病型、产毒能力、持留能力、生物膜形成能力、地理溯源、传播途径等，该技术的可延展性欠佳。如何能够对微生物全基因组序列进行全面检测，是目前亟需解决的问题。

发明内容

本申请意在提供一种全基因组测序数据的分析方法、装置、终端设备和存储介质，以解决现有技术中存在的不足，本申请要解决的技术问题通过以下技术方案来实现。

第一个方面，本申请实施例提供一种全基因组测序数据的分析方法，所述方法包括：

获取全基因组的测序序列数据；

根据所述测序序列数据，确定融合特征数据集和特征字典；

将所述融合特征数据集输入到预先建立的预测模型，得到与所述测序序列数据对应的表型预测数据；其中，所述预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；

根据所述融合特征数据集和所述预测模型，确定与所述预测模型对应的权重数据；

根据所述权重数据、预先设置的拟合度和准确度阈值，对所述融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；

根据所述融合特征评价排序列表和所述特征字典，确定所述全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列。

可选地，所述预先建立的预测模型通过如下方式获得：

获取样本集的全基因组核酸序列的样本特征数据；

对相同模式的所述样本特征数据进行数据融合，得到融合样本特征数据集；所述样本特征数据至少包括数值型表型特征数据或分类型表型特征数据；

根据所述数值型表型特征数据，对初始回归模型进行训练，得到表型目标回归模型；

根据所述分类型表型特征数据，对初始分类模型进行训练，得到表型目标分类模型；

将所述表型目标回归模型和所述表型目标分类模型确定为所述预测模型。

可选地，所述方法还包括：

若所述融合特征评价排序列表包括k-mer特征数据，将k-mer特征数据通过序列比对检索匹配到所述全基因组的测序序列数据的基因序列或非编码功能区序列，对区域覆盖度或匹配次数再次排序和筛选后，获取关联分析数据集；

根据所述测序序列数据中的目标基因序列和所述关联分析数据集，或者根据所述测序序列数据中的目标非编码功能区序列和所述关联分析数据集，确定关联分析基因结果。

可选地，所述样本特征数据至少包括如下中的一种或多种，其中：

从核酸序列直接提取指定k-值的k-mer计数列表；

由核酸序列基因注释后计算核心基因组得到的泛基因组基因存在-缺失矩阵；

由核心基因组获得的核心基因组单核苷酸多态性列表；

由核心基因组基因注释获得的蛋白质序列计算得到的蛋白质PSSM特征描述矩阵。

可选地，所述对相同模式的所述样本特征数据进行数据融合，得到融合样本特征数据集，包括：

对样本集中的每一个样本特征数据的特征值进行判断；

将具有相同特征值的样本特征数据，确定为具有相同模式；

将与所述特征值对应的特征名称、特征描述文本和特征类型，确定为特征字典；

将所述特征字典中的特征名称替换为特征标识；

根据各个样本特征数据的模式，对具有相同模式的样本特征数据进行合并，并将所述特征字典中具有相同模式的特征名称对应的特征标识更改为统一标识。

可选地，所述根据所述数值型表型特征数据，对初始回归模型进行训练，得到表型目标回归模型，包括：

在所述数值型表型特征数据为连续型数值表型数据的情况下，将所述融合特征数据集中的分类型特征数据转换成布尔矩阵；

根据所述连续型数值表型数据和所述融合样本特征数据集，对如下的一个或多个初始回归模型进行训练，得到所述目标回归模型，其中，所述连续型数值表型数据至少包括样本的耐药性MIC值、耐药性MBC值、生长温度区间、生长曲线、菌落总数、突变率、致病率、致死率的一种或多种，所述初始回归模型至少包括多元线性回归模型、岭回归模型、拉索回归模型、弹性网络回归模型、贝叶斯岭回归模型。

可选地，所述根据所述分类型表型特征数据，对初始分类模型进行训练，得到表型目标分类模型，包括：

所述分类型表型特征数据至少包括样本生物学分类、耐药型、血清型、质粒型、毒力型、致病型、产毒能力、持留能力、生物膜形成能力、来源溯源、地理溯源、传播途径中的一种或多种；

根据所述分类型表型特征数据和所述融合样本特征数据集，对所述初始分类模型进行训练，得到目标分类模型，其中，所述初始分类模型至少包括随机森林模型、神经网络模型、K-NN模型、决策树模型、逻辑回归模型或SVM模型。

第二个方面，本申请实施例提供一种全基因组测序数据的分析装置，所述装置包括：

获取模块，用于获取全基因组的测序序列数据；

融合模块，用于根据所述测序序列数据，确定融合特征数据集和特征字典；

第一处理模块，用于将所述融合特征数据集输入到预先建立的预测模型，得到与所述测序序列数据对应的表型预测数据；其中，所述预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；

第二处理模块，用于根据所述融合特征数据集和所述预测模型，确定与所述预测模型对应的权重数据；

第三处理模块，用于根据所述权重数据、预先设置的拟合度和准确度阈值，对所述融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；

确定模块，用于根据所述融合特征评价排序列表和所述特征字典，确定所述全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列。

可选地，所述获取模块还用于：

获取样本集的全基因组核酸序列的样本特征数据；

可选地，所述确定模块还用于：

从核酸序列直接提取指定k-值的k-mer计数列表；

由核心基因组获得的核心基因组单核苷酸多态性列表；

可选地，所述获取模块具体用于：

对样本集中的每一个样本特征数据的特征值进行判断；

将具有相同特征值的样本特征数据，确定为具有相同模式；

将所述特征字典中的特征名称替换为特征标识；

可选地，所述获取模块具体用于：

在所述数值型表型特征数据为连续型数值表型数据的情况下，将所述融合特征数据集中的分类型特征数据转换成布尔矩阵，根据所述连续型数值表型数据和所述融合样本特征数据集，对如下的一个或多个初始回归模型进行训练，得到所述目标回归模型，其中，所述连续型数值表型数据至少包括样本的耐药性MIC值、耐药性MBC值、生长温度区间、生长曲线、菌落总数、突变率、致病率、致死率的一种或多种，所述初始回归模型至少包括多元线性回归模型、岭回归模型、拉索回归模型、弹性网络回归模型、贝叶斯岭回归模型。

可选地，所述获取模块具体用于：

第三个方面，本申请实施例提供一种终端设备，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现第一个方面提供的全基因组测序数据的分析方法。

第四个方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现第一个方面提供的全基因组测序数据的分析方法。

本申请实施例包括以下优点：

本申请实施例提供的全基因组测序数据的分析方法、装置、终端设备和存储介质，通过获取全基因组的测序序列数据；根据测序序列数据，确定融合特征数据集和特征字典；将融合特征数据集输入到预先建立的预测模型，得到与测序序列数据对应的表型预测数据；其中，预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列，针对基于全基因组序列的微生物表型预测、分子分型、GWAS分析等应用场景下，特征采集、模型训练、目的基因筛选的生物信息分析全流程中，通过采用模式融合方法对特征数据进行处理，压缩合并特征信息维度，同时通过构建特征字典的方法保留特征信息，能够实现从微生物全基因组拼接序列开始，构建微生物表型预测模型，同时获得表型相关的重要的基因组学特征，提高检测结果的准确率，提高计算资源的效率、应用的可延展性和完善流程的完整性。

附图说明

为了更清楚地说明本申请实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例中一种全基因组测序数据的分析方法的流程图；

图2为本申请一实施例中基因组特征采集和数据集矩阵融合构建模块执行的方法流程图；

图3为本申请一实施例中机器学习模型训练和评价模块执行的方法流程图；

图4为本申请一实施例中目的基因型特征排序筛选与关联分析模块执行的方法流程图；

图5是本申请的一种全基因组测序数据的分析装置实施例的结构框图；

图6是本申请的一种终端设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请一实施例提供一种全基因组测序数据的分析方法，用于对全基因组测序数据进行分析。本实施例的执行主体为全基因组测序数据的分析装置，设置在终端设备上，例如，终端设备至少包括计算机终端等。

参照图1，示出了本申请的一种全基因组测序数据的分析方法实施例的步骤流程图，该方法具体可以包括如下步骤：

S101、获取全基因组的测序序列数据；

具体地，终端设备获取待分析的全基因组的测序序列数据；

S102、根据所述测序序列数据，确定融合特征数据集和特征字典；

具体地，判断每一个测序序列数据的特征值，若特征值相同，则认为测序序列数据为相同模式，将相同模式的测序序列数据进行数据融合，得到融合后的测序序列数据，对通过创建特征字典，将相同模式的基因组特征融合的同时，仍保留全部特征的信息，可用于特征关联分析。

S103、将融合特征数据集输入到预先建立的预测模型，得到与所述测序序列数据对应的表型预测数据；其中，预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；

具体地，在终端设备上预先建立预测模型，该预测模型至少包括表型目标回归模型或表型目标分类模型，其中，表型目标回归模型包括多元线性回归（Multiple LinearRegression，MLR）、岭回归（Ridge Regression）、拉索回归（Lasso Regression）、弹性网络回归（Elastic Net Regression）、贝叶斯岭回归（BayesianRidge Regression）中的一种或多种，表型目标分类模型至少包括随机森林、神经网络、K-NN、决策树、逻辑回归、SVM等模型。

终端设备根据不同的融合后的测序序列数据输入到对应的预测模型中，得到测序序列数据中的各个融合特征数据。

S104、根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；

具体地，融合特征数据对各个模型准确性影响的斜率系数（回归模型）、信息增益（分类模型）等特征重要性描述变量，按模型在集成中的权重，对特征对模型的重要性排序，并给出各个模型对应的特征重要性描述值，创建融合特征评价排序列表。

S105、根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；

具体地，根据特征重要性排序计算模型准确度或拟合度的累积分布，按用户指定的累积准确度阈值（默认为80%）或拟合度阈值（默认为95%）筛选融合特征评价排序列表。

S106、根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列。

具体地，根据融合特征评价排序列表对应特征字典对应，获得原始特征评价排序列表；对原始特征评价排序列表进行关联分析，确定与表型预测模型相关的全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列。

创建特征字典和筛选后的融合特征评价排序列表的连接表，将融合特征拆解为原始特征，创建原始特征评价排序列表。整合用户指定的特征描述信息（如基因名称、信号通路等），生成特征关联分析数据集，即得到测序序列数据中的目标基因序列或目标非编码功能区序列。

本申请实施例提供的全基因组测序数据的分析方法，通过获取全基因组的测序序列数据；根据测序序列数据，确定融合特征数据集和特征字典；将融合特征数据集输入到预先建立的预测模型，得到与测序序列数据对应的表型预测数据；其中，预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列，针对基于全基因组序列的微生物表型预测、分子分型、GWAS分析等应用场景下，特征采集、模型训练、目的基因筛选的生物信息分析全流程中，通过采用模式融合方法对特征数据进行处理，压缩合并特征信息维度，同时通过构建特征字典的方法保留特征信息，能够实现从微生物全基因组拼接序列开始，构建微生物表型预测模型，同时获得表型相关的重要的基因组学特征，提高检测结果的准确率，提高计算资源的效率、应用的可延展性和完善流程的完整性。

本申请又一实施例对上述实施例提供的全基因组测序数据的分析方法做进一步补充说明。

可选地，预先建立的预测模型通过如下方式获得：

获取样本集的全基因组核酸序列的样本特征数据；

对相同模式的样本特征数据进行数据融合，得到融合样本特征数据集；样本特征数据至少包括数值型表型特征数据或分类型表型特征数据；

具体地，对所述全基因组的测序序列数据构建基因组特征数据集；整合所述基因组特征数据集与其他样本特征数据构建特征数据集；对相同模式的特征数据进行融合，得到融合特征数据集；

根据数值型表型特征数据，对初始回归模型进行训练，得到表型目标回归模型；

根据分类型表型特征数据，对初始分类模型进行训练，得到表型目标分类模型；

将表型目标回归模型或表型目标分类模型确定为预测模型。

可选地，该方法还包括：

若融合特征评价排序列表包括k-mer特征数据，将k-mer特征数据通过序列比对检索匹配到全基因组的测序序列数据的基因序列或非编码功能区序列，对区域覆盖度或匹配次数再次排序和筛选后，获取关联分析数据集；

可选地，样本特征数据至少包括如下中的一种或多种，其中：

从核酸序列直接提取指定k-值的k-mer计数列表；

由核心基因组获得的核心基因组单核苷酸多态性列表；

具体地，由全基因组数据生成特征原始数据集包括k-mer计数、泛基因组基因存在-缺失、核心基因组单核苷酸多态性、核心基因蛋白质序列的PSSM特征描述，并且可由用户指定选择其中的任意特征组合。其中，K-mer计数采用Jellyfish对基因组核酸序列数据进行处理；核心基因组的构建和基因存在-缺失描述采用Roary对基因组注释文件进行处理；核心基因组单核苷酸多态性采用Snippy对核心基因组序列进行处理；PSSM特征描述采用POSSUM算法对注释的核心基因组蛋白序列进行处理。

特征关联分析数据集的构建包含原特征数据集中的泛基因组基因存在-缺失特征用以描述基因的有或无对表型的影响，并通过k-mer的二次关联分析对非编码区特征予以补充，以及用SNP和蛋白质PSSM对基因突变对基因功能造成的影响予以补充。其中，k-mer的二次关联分析是指在获得表型数据关联的k-mer数据集之后，将其匹配到基因组，进而通过对功能区的覆盖率或匹配次数，筛选出对应的基因、调控区域、可移动元件等。因而本方法能够涵盖基因组的全部基因型特征，并且减小因基因的失效突变导致的噪声。

可选地，对相同模式的样本特征数据进行数据融合，得到融合样本特征数据集，包括：

对样本集中的每一个样本特征数据的特征值进行判断；

将具有相同特征值的样本特征数据，确定为具有相同模式；

将与特征值对应的特征名称、特征描述文本和特征类型，确定为特征字典；

将特征字典中的特征名称替换为特征标识；

根据各个样本特征数据的模式，对具有相同模式的样本特征数据进行合并，并将特征字典中具有相同模式的特征名称对应的特征标识更改为统一标识。

可选地，根据数值型表型特征数据，对初始回归模型进行训练，得到表型目标回归模型，包括：

在数值型表型特征数据为连续型数值表型数据的情况下，将融合特征数据集中的分类型特征数据转换成布尔矩阵，所述融合特征数据集中的分类型特征数据至少包括泛基因组基因存在-缺失矩阵，单核苷酸多态性列表中的一种或多种；

根据连续型数值表型数据和融合样本特征数据集，对如下的一个或多个初始回归模型进行训练，得到目标回归模型，其中，连续型数值表型数据至少包括样本的耐药性MIC值、耐药性MBC值、生长温度区间、生长曲线、菌落总数、突变率、致病率、致死率的一种或多种，初始回归模型至少包括多元线性回归模型、岭回归模型、拉索回归模型、弹性网络回归模型、贝叶斯岭回归模型。

可选地，根据分类型表型特征数据，对初始分类模型进行训练，得到表型目标分类模型，包括：

分类型表型特征数据至少包括样本生物学分类、耐药型、血清型、质粒型、毒力型、致病型、产毒能力、持留能力、生物膜形成能力、来源溯源、地理溯源、传播途径中的一种或多种；

根据所述分类型表型特征数据和所述融合样本特征数据集，对所述初始分类模型进行训练，得到目标分类模型，其中，初始分类模型至少包括随机森林模型、神经网络模型、K-NN模型、决策树模型、逻辑回归模型或SVM模型。

本发明实施例提供了一套涵盖3个模块共6个功能的流程模式。整套流程可以设定参数完整执行；每个模块及功能也可以单独执行，或配合其他方法的流程执行。本发明实施例包含的模块及功能如下：

一、基因组特征采集和数据集融合构建模块，如图2所示：

1.基因组特征采集功能

从微生物全基因组核酸序列拼接数据（FASTA格式）采集可用于机器学习的基因组特征数据集。本功能所构建的特征数据包括但不限于：

（1）从核酸序列直接提取用户指定k-值的k-mer计数列表；

（2）由核心基因基因注释获得的蛋白质序列（FASTA格式）计算得到的蛋白质PSSM特征描述矩阵;

（3）由核酸序列基因注释后计算核心基因组得到的泛基因组（Pan-genome）基因存在-缺失矩阵；

（4）由核心基因组获得的核心基因组单核苷酸多态性（cgSNP）列表。

本发明实施例所构建的特征数据集为上述基因组特征数据根据用户选择的任意组合，并可根据用户需求与其它特征数据（如环境参数特征、样本采集信息特征等）合并。此法构建的数据集可兼容本发明或其他方法的机器学习模型构建。

2.基因组特征融合功能

对相同模式的特征数据集进行数据融合，以减少特征数量，同时保留全部融合前的特征描述信息，以在后续目的基因型筛选步骤中能够还原原始特征。流程如下：

（1）读取特征数据集。在特征数据集中，如果多于一个不同名称的特征在每一个样本的特征值都完全一致，则认为这两些特征具有相同的模式；

（2）创建特征字典，以特征ID一一对应特征名称、特征描述文本及特征类别（分类/数字）；

（3）将特征数据集中特征名称替换为特征ID；

（4）对特征数据集按照特征模式排序，相同模式的特征合并，同时在特征字典中以将相同模式的特征名称对应ID更改为统一ID。

这一功能兼容本发明构建的基因组特征数据集或其他任何以文本形式记录特征名称的特征数据集。

二、机器学习模型训练和评价模块，如图3所示：

1.模型训练功能

将特征数据集对表型数据进行拟合训练，构建预测模型。根据用户指定的预测表型数据的不同类别，采用两种不同的技术路径训练模型：

（1）数值型表型数据

对于连续型数值表型数据（如微生物耐药性MIC值或MBC值、最适生长温度等），采用回归模型，包括但不限于多元线性回归（Multiple Linear Regression，MLR）、岭回归（Ridge Regression）、拉索回归（Lasso Regression）、弹性网络回归（Elastic NetRegression）、贝叶斯岭回归（BayesianRidge Regression）的单独使用、优选或结合。

其中，对于特征数据集中的分类特征，需先转化为数值。对于排序分类特征，可转化为序数；对于非排序分类特征，需转化为布尔矩阵。

当将非排序分类特征转化为布尔矩阵处理时，创建特征转化字典，记录下本转化操作中生成的布尔矩阵名称与原特征ID对应关系，用于后续的排序和关联分析。

（2）分类型表型数据：

对于分类型表型数据（如微生物的生物学分类、耐药性的S/I/R分类、血清型、毒力型等），采用分类器包括但不限于随机森林、神经网络、K-NN、决策树、逻辑回归、SVM等模型的单独使用、优选或集成。

根据用户选择，可使用GridSearchCV进行模型参数调优；可使用用户指定的K进行K-fold交叉验证。

本发明实施例中构建机器学习模型所使用的数据集可选择本发明构建的基因组特征数据集，本发明构建的融合数据集，同时兼容其他任何以特征矩阵表示的分类特征、排序特征或数字特征的数据集或其与本方法构建的基因组数据集的结合。

2.模型评价功能

对本发明中构建的机器学习模型进行验证，获取评价指标。包括：

（1）回归模型的拟合度（R平方）和显著性（SIG）;

（2）分类模型的准确性（ACC）、相关系数（MCC）、接受者操作特征曲线（ROC）下方面积（AUC）等。

以用户所选评价指标反馈上述拟合训练的算法加权集成以优选模型或调整集成模型的权重组合。本功能亦可单独用于对机器学习模型生成评价报告。

三、目的基因型特征排序筛选与关联分析模块，如图4所示：

1.特征排序和筛选功能

综合集成模型中的融合特征数据对各个模型准确性影响的斜率系数（回归模型）、信息增益（分类模型）等特征重要性描述变量，按模型在集成中的权重，对特征对模型的重要性排序，并给出各个模型对应的特征重要性描述值，创建融合特征评价排序列表。

根据特征重要性排序计算模型准确度或拟合度的累积分布，按用户指定的累积准确度阈值（默认为80%）或拟合度阈值（默认为95%）筛选融合特征评价排序列表。

2.特征关联分析功能

创建特征字典和筛选后的融合特征评价排序列表的连接表，将融合特征拆解为原始特征，创建原始特征评价排序列表。整合用户指定的特征描述信息（如基因名称、信号通路等），生成特征关联分析数据集。

进一步，对于k-mer特征，由于本身不具备意义，需要二次关联分析：将k-mer通过序列比对检索匹配到原基因组的基因或非编码功能区，对区域覆盖度或匹配次数再次排序和筛选后，获取二次关联分析数据集。可将两次关联分析的数据集合并，生成分析结果。

本发明实施例可使用本方法获得的特征集，也可适用于其他方法构建的特征集的关联分析或二次关联分析。

具体地，应用本发明提供的方法对109株单核细胞增生李斯特菌全基因组二代测序序列数据，构建了针对杀菌剂BAC的耐受性表型模型构建和关联分析，用于筛选出潜在的杀菌剂抗性关联基因。

其中，表型为连续型数值数据（MIC值）。用户选取k-mer数量+泛基因组基因存在-缺失的组合构建特征集，其中，选取k=13。

共检测出391万条原始特征，构建原始特征集，并进行特征融合。融合后的特征集为18227条。

选择采用多元线性回归方法构建模型，经累积拟合度分布对模型进行评价。用户选择0.95的拟合度阈值作为特征筛选阈值并对筛选得到的特征进行排序。当特征数量累计达到99条时，模型的拟合度首次超过阈值，因此选择斜率系数排名前99条融合特征构建特征排序列表。

经关联分析和二次关联分析，特征排序列表共匹配到46条基因编码区。取k-mer二次关联分析覆盖度和基因存在-缺失分别构建关联分析数据集，取其交集作为最终筛选结果，共筛选到11个潜在杀菌剂抗性关联基因。

本发明针对基于全基因组序列的微生物表型预测、分子分型、GWAS分析等应用场景下，特征采集、模型训练、目的基因筛选的生物信息分析全流程中，现有技术在结果的准确率、计算资源的效率、应用的可延展性和流程的完整性等多方面的技术缺陷，提出了一套基于数据融合的微生物全基因组表型预测及GWAS分析方法。

应用本发明实施例，能够实现从微生物全基因组拼接序列开始，构建微生物表型预测模型，同时获得表型相关的重要的基因组学特征。这一方法与现存微生物基因组机器学习分析方法相比，具有以下优势：

1.因不再需要对现有参考基因数据库的依赖，其应用范围不局限于对细菌耐药性，而是扩展到包括真菌、病毒在内的全部微生物的任何分类属性，排序属性或数值属性；

2.不局限于使用k-mer或基因存在-缺失特征，同时综合了位置特异性评分矩阵（Position-specific scoring matrix，PSSM），SNP，泛基因组基因模式特征，尽可能覆盖全部基因型特征信息，并排除失效突变对模型精度的影响；

3.不采用单一回归或分类算法，采用多算法加权集成，避免了过拟合的同时提升了模型的准确性，较单一算法更易突破局部最优解；

4.采用模式融合方法对特征数据进行处理，压缩合并特征信息维度（数量），同时通过构建特征字典的方法保留特征信息。

本发明为微生物全基因组的表型预测模型构建和GWAS分析提供了一套完整的方法流程，将现有的全基因组机器学习方法从细菌耐药性研究扩展到病毒、真菌、古细菌等全部微生物种类的任意表型或分类特征研究，比现有方法需要更少的计算资源，更加精准，覆盖更多的基因组信息。本发明能够在细菌、病毒、真菌等微生物的分类、溯源、耐药性和毒力预测、环境抗性评估、致病原理分析等研究中进行应用，对临床诊疗、公共卫生、食品安全、环境监测、养殖生产中微生物危害的风险识别和评估具有重要应用意义。

本申请另一实施例提供一种全基因组测序数据的分析装置，用于执行上述实施例提供的全基因组测序数据的分析方法。

参照图5，示出了本申请的一种全基因组测序数据的分析装置实施例的结构框图，该装置具体可以包括如下模块：获取模块501、融合模块502、第一处理模块503、第二处理模块504、第三处理模块505和确定模块506，其中：

获取模块501用于获取全基因组的测序序列数据；

融合模块502用于根据所述测序序列数据，确定融合特征数据集和特征字典；

第一处理模块503用于将融合特征数据集输入到预先建立的预测模型，得到与所述测序序列数据对应的表型预测数据；其中，预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；

第二处理模块504用于根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；

第三处理模块505用于根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；

确定模块506用于根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列。

本申请实施例提供的全基因组测序数据的分析装置，通过获取全基因组的测序序列数据；根据测序序列数据，确定融合特征数据集和特征字典；将融合特征数据集输入到预先建立的预测模型，得到与测序序列数据对应的表型预测数据；其中，预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列，针对基于全基因组序列的微生物表型预测、分子分型、GWAS分析等应用场景下，特征采集、模型训练、目的基因筛选的生物信息分析全流程中，通过采用模式融合方法对特征数据进行处理，压缩合并特征信息维度，同时通过构建特征字典的方法保留特征信息，能够实现从微生物全基因组拼接序列开始，构建微生物表型预测模型，同时获得表型相关的重要的基因组学特征，提高检测结果的准确率，提高计算资源的效率、应用的可延展性和完善流程的完整性。

本申请又一实施例对上述实施例提供的全基因组测序数据的分析装置做进一步补充说明。

可选地，获取模块还用于：

获取样本集的全基因组核酸序列的样本特征数据；

将表型目标回归模型或表型目标分类模型确定为预测模型。

可选地，确定模块还用于：

从核酸序列直接提取指定k-值的k-mer计数列表；

由核心基因组获得的核心基因组单核苷酸多态性列表；

可选地，获取模块具体用于：

对样本集中的每一个样本特征数据的特征值进行判断；

将具有相同特征值的样本特征数据，确定为具有相同模式；

将特征字典中的特征名称替换为特征标识；

可选地，获取模块具体用于：

在数值型表型特征数据为连续型数值表型数据的情况下，将融合特征数据集中的分类型特征数据转换成布尔矩阵，根据连续型数值表型数据和融合样本特征数据集，对如下的一个或多个初始回归模型进行训练，得到目标回归模型，其中，连续数值型表型数据至少包括样本的耐药性MIC值、耐药性MBC值、生长温度区间、生长曲线、菌落总数、突变率、致病率、致死率的一种或多种，初始回归模型至少包括多元线性回归模型、岭回归模型、拉索回归模型、弹性网络回归模型、贝叶斯岭回归模型。

可选地，获取模块具体用于：

根据所述分类型表型特征数据和所述融合样本特征数据集，对初始分类模型进行训练，得到目标分类模型，其中，初始分类模型至少包括随机森林模型、神经网络模型、K-NN模型、决策树模型、逻辑回归模型或SVM模型。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请再一实施例提供一种终端设备，用于执行上述实施例提供的全基因组测序数据的分析方法。

图6是本申请的一种终端设备的结构示意图，如图6所示，该终端设备包括：至少一个处理器601和存储器602；

存储器存储计算机程序；至少一个处理器执行存储器存储的计算机程序，以实现上述实施例提供的全基因组测序数据的分析方法。

本实施例提供的终端设备，通过获取全基因组的测序序列数据；根据测序序列数据，确定融合特征数据集和特征字典；将融合特征数据集输入到预先建立的预测模型，得到与测序序列数据对应的表型预测数据；其中，预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列，针对基于全基因组序列的微生物表型预测、分子分型、GWAS分析等应用场景下，特征采集、模型训练、目的基因筛选的生物信息分析全流程中，通过采用模式融合方法对特征数据进行处理，压缩合并特征信息维度，同时通过构建特征字典的方法保留特征信息，能够实现从微生物全基因组拼接序列开始，构建微生物表型预测模型，同时获得表型相关的重要的基因组学特征，提高检测结果的准确率，提高计算资源的效率、应用的可延展性和完善流程的完整性。

本申请又一实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被执行时实现上述任一实施例提供的全基因组测序数据的分析方法。

根据本实施例的计算机可读存储介质，通过获取全基因组的测序序列数据；根据测序序列数据，确定融合特征数据集和特征字典；将融合特征数据集输入到预先建立的预测模型，得到与测序序列数据对应的表型预测数据；其中，预先建立的预测模型至少包括表型目标回归模型或表型目标分类模型；根据融合特征数据集和预测模型，确定与预测模型对应的权重数据；根据权重数据、预先设置的拟合度和准确度阈值，对融合特征数据集中的融合数据进行筛选和排序，得到融合特征评价排序列表；根据融合特征评价排序列表和特征字典，确定全基因组的测序序列数据中的目标基因序列或目标非编码功能区序列，针对基于全基因组序列的微生物表型预测、分子分型、GWAS分析等应用场景下，特征采集、模型训练、目的基因筛选的生物信息分析全流程中，通过采用模式融合方法对特征数据进行处理，压缩合并特征信息维度，同时通过构建特征字典的方法保留特征信息，能够实现从微生物全基因组拼接序列开始，构建微生物表型预测模型，同时获得表型相关的重要的基因组学特征，提高检测结果的准确率，提高计算资源的效率、应用的可延展性和完善流程的完整性。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种全基因组测序数据的分析方法，其特征在于，所述方法包括：

获取全基因组的测序序列数据；

根据所述测序序列数据，确定融合特征数据集和特征字典；

2.根据权利要求1所述的全基因组测序数据的分析方法，其特征在于，所述预先建立的预测模型通过如下方式获得：

获取样本集的全基因组核酸序列的样本特征数据；

3.根据权利要求1所述的全基因组测序数据的分析方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的全基因组测序数据的分析方法，其特征在于，所述样本特征数据至少包括如下中的一种或多种，其中：

从核酸序列直接提取指定k-值的k-mer计数列表；

由核心基因组获得的核心基因组单核苷酸多态性列表；

5.根据权利要求2所述的全基因组测序数据的分析方法，其特征在于，所述对相同模式的所述样本特征数据进行数据融合，得到融合样本特征数据集，包括：

对样本集中的每一个样本特征数据的特征值进行判断；

将具有相同特征值的样本特征数据，确定为具有相同模式；

将所述特征字典中的特征名称替换为特征标识；

6.根据权利要求2所述的全基因组测序数据的分析方法，其特征在于，所述根据所述数值型表型特征数据，对初始回归模型进行训练，得到表型目标回归模型，包括：

在所述数值型表型特征数据为连续型数值表型数据的情况下，将所述融合特征数据集中的分类型特征数据转换成布尔矩阵；所述融合特征数据集中的分类型特征数据至少包括泛基因组基因存在-缺失矩阵，单核苷酸多态性列表中的一种或多种；

7.根据权利要求2所述的全基因组测序数据的分析方法，其特征在于，所述根据所述分类型表型特征数据，对初始分类模型进行训练，得到表型目标分类模型，包括：

8.一种全基因组测序数据的分析装置，其特征在于，所述装置包括：

获取模块，用于获取全基因组的测序序列数据；

9.一种终端设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现权利要求1-7中任一项所述的全基因组测序数据的分析方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任一项所述的全基因组测序数据的分析方法。