CN115440299A

CN115440299A - 确定背景微生物的方法、设备、介质和程序产品

Info

Publication number: CN115440299A
Application number: CN202211032338.6A
Authority: CN
Inventors: 王晶; 房柯池
Original assignee: Institute of Psychology of CAS
Current assignee: Institute of Psychology of CAS
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-12-06

Abstract

本发明涉及一种确定背景微生物的方法、设备、介质和程序产品。该方法包括：获取关于背景微生物的历史样本数据，所述历史样本数据包括关于病原微生物的阳性样本数据和阴性样本数据；基于历史样本数据，确定目标微生物集合；基于所确定的目标微生物集合，在关于目标微生物的多个检出特征中确定符合预定条件的目标特征；基于所确定的目标特征，确定不同类型微生物所对应的密度分布数据，以便确定与物种类型相关联的背景微生物阈值；以及基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。本发明能够准确地确定背景微生物，以用于有效过滤背景微生物。

Description

确定背景微生物的方法、设备、介质和程序产品

技术领域

本发明总体上涉及数据处理，并且具体地，涉及用于确定背景微生物的方法、计算设备、计算机存储介质和计算机程序产品。

背景技术

基于宏基因组新一代测序技术(metagenomics next generation sequencing,mNGS)不依赖于传统的微生物培养，直接对临床样本中的核酸进行高通量测序，因而能够快速、客观的检测临床样本中的多种病原微生物(包括病毒、细菌、真菌、寄生虫)，因此，mNGS在临床上的运用将日益广泛。应当理解，背景微生物的核酸污染无处不在，可在湿实验各个步骤引入。如果不能有效处理背景微生物的核酸污染，将可能导致假阳性结果，甚至会掩盖低剂量生物样本信号。以mNGS为例，mNGS中的污染类型主要包括两种：外部污染和内部污染。外部污染源于样本外微生物，例如操作者身体、实验室环境、耗材和试剂。内部污染主要是在样本处理或测序过程中由同批次其它样本交叉污染导致的。

传统的用于确定和过滤背景微生物的方法例如包括：通过过滤低于相对丰度阈值的序列来去除背景微生物的方法、以及通过设置空白阴性对照直接过滤背景微生物的方法。对于前者而言，当致病微生物的序列检出相对丰度较低时，通过过滤低于相对丰度阈值的序列的方法会导致真实存在的致病微生物的低频序列被丢弃，而大量污染序列会被保留，从而干扰下游分析。对于后者而言，设置空白对照仅可过滤掉每个批次中稳定存在的试剂、环境污染菌，但对实验室偶发性污染和人体定值这种背景微生物不能有效的进行过滤。

综上，传统的用于确定背景微生物的方法存在的不足之处在于：对于致病微生物的序列检出相对丰度较低、实验室偶发性污染等背景微生物，难以准确地确定背景微生物，不利于有效过滤背景微生物。

发明内容

本发明提供一种确定背景微生物的方法、计算设备、计算机存储介质和计算机程序产品，能够准确地确定背景微生物，以用于有效过滤背景微生物。

根据本发明的第一方面，提供了一种用于确定背景微生物的方法。该方法包括：获取关于背景微生物的历史样本数据，所述历史样本数据包括关于病原微生物的阳性样本数据和阴性样本数据；基于历史样本数据，确定与样本类型相关联的目标微生物集合，目标微生物集合包括多种目标微生物；在关于目标微生物的多个检出特征中，基于检出特征对于关于背景微生物的属性结果的贡献度，确定目标特征；基于所确定的目标特征，确定目标微生物所对应的密度分布数据，以便确定与目标微生物相关联的背景微生物阈值；以及基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。

根据本发明的第二方面，还提供了一种计算设备，该设备包括：存储器，被配置为存储一个或多个计算机程序；以及处理器，耦合至存储器并且被配置为执行一个或多个程序使装置执行本发明的第一方面的方法。

根据本发明的第三方面，还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令，该机器可执行指令在被执行时使机器执行本发明的第一方面的方法。

根据本发明的第四方面，还提供了一种计算机程序产品。该计算机程序产品包括计算机程序，该包括计算机程序在被执行时使机器执行本发明的第一方面的方法。

在一些实施例中，基于所确定的目标特征确定目标微生物所对应的密度分布数据包括：基于所确定的目标特征，经由概率密度分布函数，计算与目标微生物所对应的概率密度分布曲线，所述概率密度分布曲线指示目标微生物的分布状态；以及针对概率密度分布曲线进行拟合，以便获得拟合后的微生物概率密度分布曲线。

在一些实施例中，确定与目标微生物相关联的背景微生物阈值包括：针对目标微生物，确定拟合后的微生物概率密度分布曲线中符合第一预定条件的区段；基于所确定的、符合第一预定条件的区段的右边界，确定阈值点；以及基于阈值点在微生物概率密度分布曲线中所对应的纵坐标，确定与目标微生物相关联的背景微生物阈值。

在一些实施例中，基于历史样本数据确定与样本类型相关联的目标微生物集合包括：基于历史样本数据，确定符合预定质量条件的候选历史样本数据；以及在候选历史样本数据中，至少基于微生物的检出频率与预定检出频率阈值的比较结果，确定与样本类型相关联的目标微生物集合。

在一些实施例中，至少基于微生物的检出频率与预定检出频率阈值的比较结果确定与样本类型相关联的目标微生物集合包括：确定候选历史样本数据中的每一种微生物的检出频率是否大于或者等于预定检出频率阈值；如果确定当前微生物的检出频率大于或者等于预定检出频率阈值，确定当前微生物是否属于预定致病微生物集合；如果确定当前微生物不属于预定致病微生物集合，确定当前微生物为目标微生物；以及基于候选历史样本数据中被确定的所有目标微生物，生成与样本类型相关联的目标微生物集合。

在一些实施例中，基于检出特征对于关于背景微生物的属性结果的贡献度确定目标特征包括：基于关于目标微生物的所有检出特征的对应特征值，生成用于输入预测模型的样本数据；基于所生成的样本数据，训练预测模型，以便经由预测模型输出的、关于目标微生物的预测结果与历史样本数据中的、关于背景微生物的属性结果相匹配；基于经训练的预测模型的参数，计算所有检出特征中每一个检出特征对于关于背景微生物的属性结果的贡献度；以及基于所计算的贡献度，在所有检出特征中确定目标特征。

在一些实施例中，生成用于输入预测模型的样本数据包括：将历史样本数据分为关于目标微生物的阳性样本数据和阴性样本数据；以及针对每一种目标微生物，基于阳性样本数据中关于所述每一种目标微生物的所有检出特征的对应特征值生成阳性样本输入数据，以及基于阴性样本数据中关于所述每一种目标微生物的所有检出特征的对应特征值生成阴性样本输入数据，以用于分别输入预测模型。

在一些实施例中，计算所有检出特征中每一个检出特征对于关于背景微生物的属性结果的贡献度包括：基于经由阳性样本输入数据和阴性样本输入数据训练后的预测模型，确定每一个检出特征对于关于背景微生物的属性结果的权重数据，以便基于所述权重数据确定所述每一个检出特征所对应的贡献度。

在一些实施例中，基于所述权重数据确定所述每一个检出特征所对应的贡献度包括：确定每一个检出特征所对应的贡献度是否大于或者等于预定贡献度阈值；以及如果确定当前检出特征的贡献度值大于或等于预定贡献度阈值，将当前检出特征确定为候选目标特征；确定候选目标特征是否符合第二预定条件；如果确定候选目标特征符合第二预定条件，将候选目标特征确定为目标特征。

在一些实施例中，所确定的目标特征包括：样本中每百万测序数据中当前物种的序列数目与总检出物种序列数目的比值、样本中每百万测序数据中当前物种的序列数目与非冗余序列数目的比值和样本中每百万测序数据中当前物种的序列数目与非人源序列数目的比值历史样本数据包括关于脑脊液的历史样本数据、关于肺泡灌洗液的历史样本数据、关于血液的历史样本数据和关于痰液的历史样本数据中的多种。

在一些实施例中，样本类型包括肺泡灌洗液、痰液、血液和脑脊液中的多种，目标微生物集合所包括的多种目标微生物属于多种物种类型。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本发明的关键特征或主要特征，也无意限制本发明的范围。

附图说明

图1示出了根据本发明的实施例的用于实施确定背景微生物的方法的系统的示意图。

图2示出了根据本发明的实施例的用于确定背景微生物的方法的流程图。

图3示出了根据本发明的实施例的用于评估背景微生物的确定结果的ROC曲线的示意图。

图4示出了根据本发明的实施例的用于确定目标特征的方法的流程图。

图5示出了根据本发明的实施例的用于确定与目标微生物相关联的背景微生物阈值的方法的流程图。

图6示出了根据本发明的实施例的用于对概率密度分布曲线进行拟合的方法的示意图。

图7示意性示出了适于用来实现本发明实施例的电子设备的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施例。虽然附图中显示了本发明的优选实施例，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

如前文所描述，对于传统的、通过过滤低于相对丰度阈值的序列来去除背景微生物的方法，当致病微生物的序列检出相对丰度较低时，通过过滤低于相对丰度阈值的序列会导致真实存在的致病微生物的低频序列被丢弃，而大量污染序列会保留，进而干扰下游分析。对于传统的、通过设置空白阴性对照直接过滤背景微生物的方法，设置空白对照仅可过滤掉每个批次中稳定存在的试剂、环境污染菌，但对实验室偶发性污染和人体定值这种背景微生物不能有效的进行过滤。因此，传统的用于确定背景微生物的方法存在的不足之处在于：对于致病微生物的序列检出相对丰度较低、实验室偶发性污染等背景微生物等特殊情形，难以准确地确定背景微生物，不利于有效过滤背景微生物。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本发明的示例实施例提出了一种用于确定背景微生物的方案。在该方案中，通过基于所获取的、包括阳性样本数据和阴性样本数据的关于病原微生物的历史样本数据来确定与样本类型相关联的目标微生物集合，以及基于检出特征对于关于背景微生物的属性结果的贡献度确定目标特征，本发明不仅可以避免由于所纳入的阴性样本过少而导致的判定误差，而且可以针对目标微生物确定微生物检出特征中贡献度高的关键特征。另外，通过基于所确定的目标特征，确定目标微生物所对应的密度分布数据，以便确定与目标微生物相关联的背景微生物阈值；以及基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。本发明即使面临待测样本的致病微生物检出相对丰度较低的情形，其检出的待测物种的密度分布数据也是偏离正常分布情况的，通过比较待测物种的密度分布数据和目标微生物独有的背景微生物阈值，能够实现对背景微生物的准确判断。因而，本发明能够准确地确定背景微生物，以用于有效过滤背景微生物。

图1示出了根据本发明的实施例的用于实施确定背景微生物的方法的系统100的示意图。如图1所示，系统100包括：计算设备110、服务器130、测序设备140、网络150。在一些实施例中，计算设备110、服务器130、测序设备140、经由网络150进行数据交互。

关于服务器130，其例如用于提供关于背景微生物的历史样本数据。其中，历史样本数据包括关于病原微生物的阳性样本数据和阴性样本数据。

关于测序设备140，其例如用于提供待测样本的检出数据。该待测样本的检出数据例如是基于宏基因组新一代测序技术的检出数据。

关于计算设备110，其例如用于确定背景微生物。具体而言，计算设备110可以获取关于病原微生物的的历史样本数据；基于历史样本数据，确定与样本类型相关联的目标微生物集合；以及在关于目标微生物的多个检出特征中，基于检出特征对于关于背景微生物的属性结果的贡献度，确定目标特征。计算设备110还可以基于所确定的目标特征，确定目标微生物所对应的密度分布数据，以便确定与目标微生物相关联的背景微生物阈值；以及基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。

在一些实施例中，计算设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括：历史样本数据获取单元112、目标微生物集合确定单元114、目标特征确定单元116、背景微生物阈值确定单元118、背景微生物确定单元120。上述历史样本数据获取单元112、目标微生物集合确定单元114、目标特征确定单元116、背景微生物阈值确定单元118、背景微生物确定单元120可以配置在一个或者多个计算设备110上。

关于历史样本数据获取单元112，其用于获取关于背景微生物的历史样本数据，所述历史样本数据包括关于病原微生物的阳性样本数据和阴性样本数据。

关于目标微生物集合确定单元114，其用于基于历史样本数据，确定与样本类型相关联的目标微生物集合，目标微生物集合包括多种目标微生物。

关于目标特征确定单元116，其用于在关于目标微生物的多个检出特征中，基于检出特征对于关于背景微生物的属性结果的贡献度，确定目标特征。

关于背景微生物阈值确定单元118，其用于基于所确定的目标特征，确定目标微生物所对应的密度分布数据，以便确定与目标微生物相关联的背景微生物阈值。

关于背景微生物确定单元120，其用于基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。

以下将结合图2和图3描述根据本发明的实施例的用于确定背景微生物的方法。图2示出了根据本发明的实施例的用于确定背景微生物的方法200的流程图。应当理解，方法200例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本发明的范围在此方面不受限制。

在步骤202处，计算设备110获取关于背景微生物的历史样本数据，所述历史样本数据包括关于病原微生物的阳性样本数据和阴性样本数据。

关于历史样本数据，其例如包括多种样本类型的历史样本数据。历史样本数据例如包括：关于脑脊液的历史样本数据、关于肺泡灌洗液的历史样本数据、关于血液的历史样本数据和关于痰液的历史样本数据中的多种。在一些实施例中，历史样本数据包括不同样本类型的无菌液的历史样本数据和有菌液的历史样本数据。在一些实施例中，历史样本数据根据样本类型划分为：脑脊液数据子集、肺泡灌洗液数据子集、血液数据子集、组织数据子集、痰液数据子集等等多个数据子集。

应当理解，本发明所获取的历史样本数据包括关于病原微生物的阳性样本数据和阴性样本数据(即，未检出病原微生物的阴性样本数据)，即，不做阴性样本以及阳性样本的区分，因此可以避免传统的用于确定背景微生物的方法所存在的、由于纳入阴性样本过少而导致的判定误差。另外，通过采用上述手段，即便当实验条件或环境发生改变时，也无需单独制作在变化的实验条件或环境下的关于病原微生物的阴性样本。因此，本发明可以冗余实验条件或环境的改变。

在步骤204处，计算设备110基于历史样本数据，确定与样本类型相关联的目标微生物集合，目标微生物集合包括多种目标微生物。

关于与样本类型相关联的目标微生物集合，其例如包括：多个不同样本类型的背景集数据库，例如，与肺泡灌洗液相关联的目标微生物集合、与痰液相关联的目标微生物集合、与血液相关联的目标微生物集合、与脑脊液相关联的目标微生物集合。每个样本类型的背景集数据库是独立的。目标微生物集合例如是关于背景微生物的核心菌群清单，其是在历史样本数中高频且稳定存在的微生物的集合。微生物集合所包括的多种目标微生物属于多种物种类型

关于确定目标微生物集合，其例如包括：计算设备110确定候选历史样本数据中的每一种微生物的检出频率是否大于或者等于预定检出频率阈值；如果确定当前微生物的检出频率大于或者等于预定检出频率阈值，确定当前微生物是否属于预定致病微生物集合；如果确定当前微生物不属于预定致病微生物集合，确定当前微生物为目标微生物；以及基于候选历史样本数据中被确定的所有目标微生物，生成目标微生物集合。

关于预定检出频率阈值，其例如是与致病微生物的临床致病性和历史样本的纳入容量有关联。例如，如果历史样本的纳入容量较少，则预定检出频率阈值相对较低；如果历史样本的纳入容量较多，则预定检出频率阈值相对较高。再例如，致病微生物的临床致病性很高，其在历史样本中的检出频率较低，为了构建关于该致病微生物的背景微生物，需要使得预定检出频率阈值相对较低。在一些实施例中，其例如而不限于是20-50％。在一些实施例中，预定检出频率阈值为30％。应当理解，计算设备110通过将当前微生物的检出频率与预定检出频率阈值进行比较，有利于筛选出质量合格的临床样本进行后续分析。

关于预定致病微生物集合，其例如而不限于是实验室的红名单微生物，或者，重点关注的临床微生物。其例如是致病性非常高的临床微生物，例如HIV、结核分枝杆菌、肺炎链球菌等等。通过在检出频率高于预定检出频率阈值的微生物中排除预定致病微生物集合，本发明使得目标微生物集合所指示的核心菌群更为准确。

在步骤206处，计算设备110在关于目标微生物的多个检出特征中，基于检出特征对于关于背景微生物的属性结果的贡献度，确定目标特征。

关于目标特征，其例如是对微生物的物种判定贡献度高，并且可在样本之间进行比较的特征。在一些实施例中，所确定的目标特征包括：RPM(micro)_sample、RPM(uniq)_sample和RPM(nohuman)_sample。其中，RPM(micro)_sample代表样本中每百万测序数据中当前物种的序列数目与总检出物种序列数目的比值。RPM(uniq)_sample代表样本中每百万测序数据中该物种的序列数目与非冗余序列数目的比值。RPM(nohuman)_sample代表样本中每百万测序数据中该物种的序列数目与非人源序列数目的比值。

在一些实施例中，计算设备110基于待检测的微生物的基因组的大小或者物种类型，确定目标特征。例如，如果待检测的微生物的物种类型为细菌、真菌时，所确定的目标特征例如为RPM(micro)_sample。如果待检测的微生物的物种类型为寄生虫时，所确定的目标特征例如为RPM(uniq)_sample。

关于确定目标特征的方法，其例如包括：计算设备110应用机器学习技术针对目标微生物的所有检出特征的各个特征进行关键因子分析，以便计算所有检出特征中对关于背景微生物的属性结果判定的贡献度，以用于基于贡献度的大小确定目标特征。

在一些实施例中，关于基于检出特征对于关于背景微生物的属性结果的贡献度确定目标特征的方法包括：计算设备110基于关于目标微生物的所有检出特征的对应特征值，生成用于输入预测模型的样本数据；基于所生成的样本数据，训练预测模型，以便经由预测模型输出的、关于目标微生物的预测结果与历史样本数据中的、关于背景微生物的属性结果相匹配；基于经训练的预测模型的参数，计算所有检出特征中每一个检出特征对于关于背景微生物的属性结果的贡献度；以及基于所计算的贡献度，在所有检出特征中确定目标特征。

关于预测模型，其例如是基于机器学习模型所构建的。在一些实施例中，预测模型例如是基于随机森林模型而构建的。

下文将结合图4说明用于确定目标特征的方法400，在此，不再赘述。

在步骤208处，计算设备110基于所确定的目标特征，确定目标微生物所对应的密度分布数据，以便确定与目标微生物相关联的背景微生物阈值。通过采用上述手段，本发明能够基于丰富的历史样本数据对每个目标微生物的检出确定出独有的密度分布数据。

关于目标微生物所对应的密度分布数据，其例如而不限于是与目标微生物相关联的概率密度分布曲线。图6示出了根据本发明的实施例的用于对概率密度分布曲线进行拟合的方法的示意图。如图6所示，标记620指示微生物概率密度分布曲线。应当理解，微生物的分布情况为右侧偏移的正态分布模型，微生物在阴性样本中的分布情况应该符合正态分布模型，因此，计算设备110可以根据正态分布特征，确定微生物概率密度分布曲线中标记622所指示的端点为分布显著差异的阈值点，并且计算设备110可以基于阈值点在微生物概率密度分布曲线620中对应的纵坐标，确定与目标微生物相关联的背景微生物阈值。

关于确定与目标微生物相关联的背景微生物阈值的方法，其例如包括：计算设备110基于所确定的目标特征，经由概率密度分布函数，计算与不同物种类型的微生物所对应的概率密度分布曲线，所述概率密度分布曲线指示不同物种类型的微生物的分布状态；针对概率密度分布曲线进行拟合，以便获得拟合后的微生物概率密度分布曲线；以及确定拟合后的微生物概率密度分布曲线中的、符合预定条件的阈值点，以用于确定与物种类型相关联的背景微生物阈值，所述阈值点指示微生物密度分布的变化超过预定范围。下文将结合图5说明用于确定与目标微生物相关联的背景微生物阈值的方法500，在此，不再赘述。

在步骤210处，计算设备110基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。

例如，计算设备110基于待测样本的检出数据，计算待测物种的密度分布数据；确定待测物种的密度分布数据是否小于或者等于背景微生物阈值；如果确定待测物种的密度分布数据小于或者等于背景微生物阈值，则确定待测样本中的待测物种为背景微生物。通过采用上述手段，即使当待测样本的致病微生物检出相对丰度较低时，其检出的待测物种的密度分布数据也是偏离正常分布情况的，通过比较待测物种的密度分布数据和与目标微生物相关联的背景微生物阈值，能够实现对这类病原体的有效判断。

为了测试本发明的技术效果，在肺泡灌洗液样本类型中各选取了21例纹带棒杆菌阳性和阴性的临床样本数据，通过所确定的背景微生物阈值来确定临床样本数据中的背景微生物。图3示出了根据本发明的实施例的用于评估背景微生物的确定结果的ROC曲线的示意图。如图3所示，AUC(Area Under Curve，其指示ROC曲线下与坐标轴围成的面积，AUC越接近1.0，检测方法真实性越高)为0.9925。此外，敏感性为100％，特异性为95.23％。由此可见，通过本发明的方法所确定的待测样本中的背景微生物的真实性、准确性很高。

在上述方案中，通过基于所获取的包括阳性样本数据和阴性样本数据的关于病原微生物历史样本数据来确定与样本类型相关联的目标微生物集合，以及基于检出特征对于关于背景微生物的属性结果的贡献度确定目标特征，本发明不仅可以避免由于所纳入的阴性样本过少而导致的判定误差，而且可以针对目标微生物确定微生物检出特征中贡献度高的关键特征。另外，通过基于所确定的目标特征，确定目标微生物所对应的密度分布数据，以便确定与目标微生物相关联的背景微生物阈值；以及基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。本发明即使面临待测样本的致病微生物检出相对丰度较低的情形，其检出的待测物种的密度分布数据也是偏离正常分布情况的，通过比较待测物种的密度分布数据和目标微生物独有的背景微生物阈值，能够实现对背景微生物的准确判断。因而，本发明能够准确地确定背景微生物，以用于有效过滤背景微生物。

以下将结合图4描述根据本发明的实施例的用于确定符合预定条件的目标特征的方法400。图4示出了根据本发明的实施例的用于确定目标特征的方法400的流程图。应当理解，方法400例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法400还可以包括未示出的附加动作和/或可以省略所示出的动作，本发明的范围在此方面不受限制。

在步骤402处，计算设备110基于关于目标微生物的所有检出特征的对应特征值，生成用于输入预测模型的样本数据。

关于检出特征，其例如包括：读长数量、碱基质量值(例如而不限于是Q30)、基因/基因组覆盖度、平均测序深度、物种相对丰度、绝对丰度、RPM(micro)_sample)、RPM(uniq)_sample和RPM(nohuman)_sample等等。

关于生成用于输入预测模型的样本数据的方法，其例如包括：计算设备110将历史样本数据分为关于目标微生物的阳性样本数据和阴性样本数据；以及针对每一种目标微生物，基于阳性样本数据中关于每一种目标微生物的所有检出特征的对应特征值生成阳性样本输入数据，以及基于阴性样本数据中关于每一种目标微生物的所有检出特征的对应特征值生成阴性样本输入数据，以用于分别输入预测模型。

关于预测模型，其具有基于由目标微生物的所有检出特征的对应特征值所生成样本数据预测对应的目标微生物的关于背景微生物的属性结果(即，预测对应的目标微生物属于关于背景微生物的阳性样本还是阴性样本)。在一些实施例中，预测模型是基于随机森林模型而构建的。通过采用随机森林模型能够更为准确地对目标微生物的关于背景微生物的属性结果进行分类预测。

在步骤404处，计算设备110基于所生成的样本数据，训练预测模型，以便经由预测模型输出的、关于目标微生物的预测结果与历史样本数据中的、关于背景微生物的属性结果相匹配。

在步骤406处，计算设备110基于经训练的预测模型的参数，计算所有检出特征中每一个检出特征对于关于背景微生物的属性结果的贡献度。每一个检出特征对于关于背景微生物的属性结果的贡献度例如是基于每一个检出特征对于关于背景微生物的属性结果的权重数据而确定的。

关于计算所有检出特征对于关于背景微生物的属性结果的贡献度的方法，其例如包括：计算设备110基于经由阳性样本输入数据和阴性样本输入数据训练后的预测模型，确定每一个检出特征对于关于背景微生物的属性结果的权重数据，以便基于所述权重数据确定所述每一个检出特征所对应的贡献度。

在步骤408处，计算设备110基于所计算的贡献度，在所有检出特征中确定目标特征。

关于在所有检出特征中确定目标特征的方法，其例如包括，计算设备110计算确定每一个检出特征所对应的贡献度是否大于或者等于预定贡献度阈值；如果确定当前检出特征的贡献度值大于或等于预定贡献度阈值，将当前检出特征确定为候选目标特征；确定候选目标特征是否符合第二预定条件；如果确定候选目标特征符合第二预定条件，将候选目标特征确定为目标特征。

在一些实施例中，候选目标特征满足第二预定条件例如包括：候选目标特征能反映微生物真实检出情况以及在历史样本中是否有可比性。如果当前候选目标特征满足第二预定条件，则将当前候选目标特征确定为目标特征；如果当前候选目标特征不能满足第二预定条件，则确定下一个候选目标特征是否符合第二预定条件。例如，候选目标特征为微生物的分类、微生物的致病性、基因组的长度、基因组的组装水平，由于该等候选目标特征无法反映微生物真实检出情况，因此不满足第二预定条件，无法作为目标特征。再例如，候选目标特征RPM(micro)_sample、RPM(uniq)_sample和RPM(nohuman)_sample是基于测序数据计算而获得的，因而能反映微生物真实检出情况以及在历史样本中是否有可比性，因而被确定为目标表特征。

关于目标特征，在一些实施例中，其例如包括：RPM(micro)_sample、RPM(uniq)_sample和RPM(nohuman)_sample。

通过采用上述手段，本发明可以提取出既对物种属性判定贡献度高又可在样本间进行比较的特征，进而有利于提高背景微生物判定的准确性。

以下将结合图5和图6描述根据本发明的实施例的用于确定与目标微生物相关联的背景微生物阈值的方法500。图5示出了根据本发明的实施例的用于确定与目标微生物相关联的背景微生物阈值的方法500的流程图。应当理解，方法500例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法500还可以包括未示出的附加动作和/或可以省略所示出的动作，本发明的范围在此方面不受限制。

在步骤502处，计算设备110基于所确定的目标特征，经由概率密度分布函数，计算与目标微生物所对应的概率密度分布曲线，概率密度分布曲线指示目标微生物的分布状态。

关于概率密度分布曲线，其横坐标代表目标特征的对应特征值，纵坐标代表概率。

例如，计算设备110将步骤206处所确定的目标特征通过密度分布函数进行计算，获得不同微生物类型所对应的微生物概率密度分布曲线，从而反映微生物的分布情况。

应当理解，密度分布，也叫概率密度分布。对于均匀分布函数，密度分布等于一段区间(事件的取值范围)的概率除以该段区间的长度。

以下结合公式(1)说明概率密度分布函数的算法。

在上述公式(1)中，x代表连续型随机变量。f(t)代表非负可积函数。F(x)代表对于随机变量x的概率密度分布函数。

在步骤504处，计算设备110针对概率密度分布曲线进行拟合，以便获得拟合后的微生物概率密度分布曲线。

例如，计算设备110经由最小二乘法，针对概率密度分布曲线进行拟合，以便使得每个样本点的目标值与预测值之间的误差最小，进而获得拟合后的微生物概率密度分布曲线。在一些实施例中，计算设备110建立损失函数用于测量每个样本点目标值与预测值之间的误差。

以下结合公式(2)和(3)说明利用最小二乘法对概率密度分布曲线进行拟合的方法。

在上述公式(2)中，

代表一组线性无关的函数。a(a₁…a_k…a_m)代表待定系数。n代表拟合次数。k为1至m中的数，m小于n。f(x)代表拟合函数。最小二乘法是求解一组待定系数a(a₁…a_k…a_m)，使得损失函数最小，即，经由拟合函数确定的拟合值f(x_i)与观测值Y_i之间的距离的平方和(残差平方和)最小。

以下结合公式(3)说明损失函数的算法。

在上述公式(3)中，L(x)代表损失函数。af(x_i)代表经由拟合函数确定的第i个拟合值。Y_i代表第i个观测值。

如图6所示，标记610指示历史样本数据中目标微生物对应的概率密度分布曲线上的各个样本点。标记620指示拟合后的微生物概率密度分布曲线。

在步骤506处，计算设备110针对目标微生物，确定拟合后的微生物概率密度分布曲线中符合第一预定条件的区段。

关于确定符合第一预定条件的区段的方法，其例如包括：计算设备110基于标准差法针对拟合后的微生物概率密度分布曲线确定因子值的合理区段，以便将该合理区段确定为符合第一预定条件的区段。

在步骤508处，计算设备110基于所确定的、符合第一预定条件的区段的右边界，确定阈值点。所述阈值点指示微生物密度分布的变化超过预定范围。

在步骤510处，计算设备110基于阈值点在微生物概率密度分布曲线中所对应的纵坐标，确定与目标微生物相关联的背景微生物阈值。

通过采用上述方案，本发明能够确定目标微生物独有的背景微生物阈值，以便准确判定背景微生物。

图7示意性示出了适于用来实现本发明实施例的电子设备700的框图。电子设备700可以是用于实现执行图2、图4、图5所示的方法200、400、500。如图所示，电子设备700包括中央处理单元(即，CPU 701)，其可以根据存储在只读存储器(即，ROM 702)中的计算机程序指令或者从存储单元708加载到随机访问存储器(即，RAM703)中的计算机程序指令，来执行各种适当的动作和处理。在RAM703中，还可存储电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出接口(即，I/O接口705)也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708，CPU 701执行上文所描述的各个方法和处理，例如执行方法200、400、500。例如，在一些实施例中，方法200、400、500可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法200、400、500的一个或多个操作。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、400、5000的一个或多个动作。

需要进一步说明的是，本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本发明的可选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于确定背景微生物的方法，其特征在于，包括：

获取关于背景微生物的历史样本数据，所述历史样本数据包括关于病原微生物的阳性样本数据和阴性样本数据；

基于历史样本数据，确定与样本类型相关联的目标微生物集合，目标微生物集合包括多种目标微生物；

在关于目标微生物的多个检出特征中，基于检出特征对于关于背景微生物的属性结果的贡献度，确定目标特征；

基于所确定的目标特征，确定目标微生物所对应的密度分布数据，以便确定与目标微生物相关联的背景微生物阈值；以及

基于待测样本的检出数据和背景微生物阈值，确定待测样本中的背景微生物。

2.根据权利要求1所述的方法，其特征在于，基于所确定的目标特征确定目标微生物所对应的密度分布数据包括：

基于所确定的目标特征，经由概率密度分布函数，计算与目标微生物所对应的概率密度分布曲线，所述概率密度分布曲线指示目标微生物的分布状态；以及

针对概率密度分布曲线进行拟合，以便获得拟合后的微生物概率密度分布曲线。

3.根据权利要求2所述的方法，其特征在于，确定与目标微生物相关联的背景微生物阈值包括：

针对目标微生物，确定拟合后的微生物概率密度分布曲线中符合第一预定条件的区段；

基于所确定的、符合第一预定条件的区段的右边界，确定阈值点；以及

基于阈值点在微生物概率密度分布曲线中所对应的纵坐标，确定与目标微生物相关联的背景微生物阈值。

4.根据权利要求1所述的方法，其特征在于，基于历史样本数据确定与样本类型相关联的目标微生物集合包括：

基于历史样本数据，确定符合预定质量条件的候选历史样本数据；以及

在候选历史样本数据中，至少基于微生物的检出频率与预定检出频率阈值的比较结果，确定与样本类型相关联的目标微生物集合。

5.根据权利要求4所述的方法，其特征在于，至少基于微生物的检出频率与预定检出频率阈值的比较结果确定与样本类型相关联的目标微生物集合包括：

确定候选历史样本数据中的每一种微生物的检出频率是否大于或者等于预定检出频率阈值；

如果确定当前微生物的检出频率大于或者等于预定检出频率阈值，确定当前微生物是否属于预定致病微生物集合；

如果确定当前微生物不属于预定致病微生物集合，确定当前微生物为目标微生物；以及

基于候选历史样本数据中被确定的所有目标微生物，生成与样本类型相关联的目标微生物集合。

6.根据权利要求1所述的方法，其特征在于，基于检出特征对于关于背景微生物的属性结果的贡献度确定目标特征包括：

基于关于目标微生物的所有检出特征的对应特征值，生成用于输入预测模型的样本数据；

基于所生成的样本数据，训练预测模型，以便经由预测模型输出的、关于目标微生物的预测结果与历史样本数据中的、关于背景微生物的属性结果相匹配；

基于经训练的预测模型的参数，计算所有检出特征中每一个检出特征对于关于背景微生物的属性结果的贡献度；以及

基于所计算的贡献度，在所有检出特征中确定目标特征。

7.根据权利要求6所述的方法，其特征在于，生成用于输入预测模型的样本数据包括：

将历史样本数据分为关于目标微生物的阳性样本数据和阴性样本数据；以及

针对每一种目标微生物，基于阳性样本数据中关于所述每一种目标微生物的所有检出特征的对应特征值生成阳性样本输入数据，以及基于阴性样本数据中关于所述每一种目标微生物的所有检出特征的对应特征值生成阴性样本输入数据，以用于分别输入预测模型。

8.根据权利要求7所述的方法，其特征在于，计算所有检出特征中每一个检出特征对于关于背景微生物的属性结果的贡献度包括：

基于经由阳性样本输入数据和阴性样本输入数据训练后的预测模型，确定每一个检出特征对于关于背景微生物的属性结果的权重数据，以便基于所述权重数据确定所述每一个检出特征所对应的贡献度。

9.根据权利要求8所述的方法，其特征在于，基于所述权重数据确定所述每一个检出特征所对应的贡献度包括：

确定每一个检出特征所对应的贡献度是否大于或者等于预定贡献度阈值；以及

如果确定当前检出特征的贡献度值大于或等于预定贡献度阈值，将当前检出特征确定为候选目标特征；

确定候选目标特征是否符合第二预定条件；

如果确定候选目标特征符合第二预定条件，将候选目标特征确定为目标特征。

10.根据权利要求1所述的方法，其特征在于，所确定的目标特征包括：样本中每百万测序数据中当前物种的序列数目与总检出物种序列数目的比值、样本中每百万测序数据中当前物种的序列数目与非冗余序列数目的比值和样本中每百万测序数据中当前物种的序列数目与非人源序列数目的比值，历史样本数据包括关于脑脊液的历史样本数据、关于肺泡灌洗液的历史样本数据、关于血液的历史样本数据和关于痰液的历史样本数据中的多种。

11.根据权利要求1所述的方法，其特征在于，样本类型包括肺泡灌洗液、痰液、血液和脑脊液中的多种，微生物集合所包括的多种目标微生物属于多种物种类型。

12.一种计算设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行根据权利要求1至11任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被机器执行时实现根据权利要求1至11中任一项所述的方法。

14.一种计算机程序产品，其包括计算机程序，所述计算机程序被机器执行时实现根据权利要求1至11中任一项所述的方法。