CN112631562B

CN112631562B - 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质

Info

Publication number: CN112631562B
Application number: CN202011383260.3A
Authority: CN
Inventors: 蔡志强; 闵运丰; 李晖; 徐天生; 吴学标; 肖云平; 史贤俊
Original assignee: Shanghai Oe Biotech Co ltd
Current assignee: Shanghai Oe Biotech Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-08-23
Anticipated expiration: 2040-12-01
Also published as: CN112631562A

Abstract

本发明公开了一种基于python的二代测序样本混样方法，包括以下步骤：文件读取并解析，样品排序到流通槽，样品添加接头序列，计算样本混样体积，输出混样表格。本发明方法可以自动检测每个流通槽是否含有接头重复，计算流通槽中最优组合的样本，并自动计算最优混样体积，输出结果清晰明了，提高生产中样本混样的效率和精确性。本发明还公开了一种上述方法在二代测序混样中的应用。

Description

基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质

技术领域

本发明属于高通量测序技术领域，具体涉及一种基于python的二代测序样本混样方法。

背景技术

Python是一种解释性和面对对象的计算机程序设计语言，由于其语法简约和清晰且拥有丰富和强大的库被广泛应用于数据分析领域。

目前，由于在实际生产中往往会遇到不同物种样本或数据量不相同的样本在一次上机中混合在同一条流通槽，且要满足在同一个流通槽中样本接头不能重复和总数据量足够的情况，会出现由于样本量较大，人工组合排序并计算混样体积速度较慢，易出错，且会剩余大量样本无法进行混样等问题。

发明内容

为了解决现有技术的不足，本发明的目的是提供一种基于python的二代测序样本混样方法。

本发明解决其技术问题所采用的技术方案：

本发明提供了一种基于python的二代测序样本混样方法，包括如下步骤：文件读取并解析、样品排序到流通槽、样品添加接头序列、计算样本混样体积、输出混样表格；

所述文件为含有二代测序样本基本信息的标准格式excel表格，并自动解析多个表单，将表单数据分类成常规样品数据和补测样品数据；

所述样品为待测序的核酸样本，将其依次填充到流通槽；

所述流通槽需保持完整；所述完整为确保同一条流通槽的接头名称不重复；和/或，数据总量不低于最低下限和不高于最高上限；和/或，补测样品数不超过上限；和/或，选择剩余样本数最少的排序组合方式；

所述接头序列为根据样本接头名称判断类型，并通过区分单双端接头进行查询获得的唯一对应序列；

所述混样体积为每条合格的流通槽，根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积；所述最优混样体积为大于下限总体积V_min且小于上限总体积V_max的最大正整数T；所述正整数T满足公式：

其中，n表示一条流通槽中的样本数，m_n表示该样品的数据量，c_n表示该样品的文库浓度；

根据T值计算出各样本混样体积v_n，其公式为：

所述混样表格为拆分合格和非合格的流通槽数据，并进行自动输出后导出的同一excel表格；

所述二代测序样本基本信息包含：编号、序号、样本分析名、样品名称、接头、数据量/G、合同号、任务单号、物种、项目类型、文库浓度、混样体积、建库人和备注。

本发明还提出了一种设备，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述的方法。

本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的方法。

本发明的有益效果包括：本发明可以自动检测每个流通槽是否含有接头重复，计算流通槽中最优组合的样本，并自动计算最优混样体积，输出结果清晰明了，提高生产中样本混样的效率和精确性。其中计算最优混样体积公式解决了实际生产中不同物种或数据量不相同的样本在一次上机中不能混合在同一条流通槽的难题，且加入的计算程序自动化计算避免了人工计算和排序出错的可能。

附图说明

图1为本发明实施例所提供的流程图；

图2为本发明实施例所提供的开始分析界面；

图3为本发明实施例所提供的输入表格截图；

图4为本发明实施例所提供的输出表格截图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例

所述样品为待测序的核酸样本，将其依次填充到流通槽；

所述混样体积为每条合格的流通槽，根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积；

所述混样表格为拆分合格和非合格的流通槽数据，并进行自动输出后导出的同一excel表格。在一个具体的实施过程中，在如图2的开始界面点击“输入混样表格”的“选择文件”，上传一个样本信息表格，同时在“第一条lane编号”填入“OE202000”并点击“提交”开始运行。

首先程序从上传的样本信息表格中读取多个表单信息并解析，识别常规样本和补测样本并按照时间顺序对每个样本进行排序。接着循环所有样本依次放入新建的流通槽中，所述流通槽中每添加一个样本都进行判断该流通槽中接头是否重复，且总数据量范围在90G至150G之间，保证总数据量在仪器最佳检测数据量范围内；补测样本数不超过最大补充数20，否则将该样本放置在其他流通槽中，避免了由于同条流通槽中补测样本太多导致该条流通槽总样本数过多。

接下来判断每个一个流通槽是否满足为完整的，将不完整的流通槽的样本取出再依次投放到已完整的流通槽中，在不超过每个流通槽的上限值下添加这些样本。然后对所有完整的流通槽中的样本查询其接头名称，并添加每个接头的唯一接头序列，当查询出错时该任务结束并生成报错。

根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积，计算最优混样体积实现了不同物种和数据量大小的样本能混合在一条流通槽，确保了实际的检测效果。最后将混样的结果信息自动生成表格输出，如图4，完成二代测序样本混样的操作。

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于python的二代测序样本混样方法，其特征在于，所述混样方法包括如下步骤：

步骤1，文件读取并解析：所述文件为含有二代测序样本基本信息的标准格式excel表格，并自动解析多个表单，将表单数据分类成常规样品数据和补测样品数据；

步骤2，样品排序到流通槽：所述样品为待测序的核酸样本，将其依次填充到流通槽；所述流通槽需保持完整；所述完整的条件为确保同一条流通槽的接头名称不重复；和/或，数据总量不低于最低下限和不高于最高上限；和/或，补测样品数不超过上限；和/或，选择剩余样本数最少的排序组合方式；

步骤3，样品添加接头序列：所述接头序列为根据样本接头名称判断类型，并通过区分单双端接头进行查询获得的唯一对应序列；

步骤4，计算样本混样体积：所述混样体积为每条合格的流通槽，根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积；所述最优混样体积为大于下限总体积V_min且小于上限总体积V_max的最大正整数T；所述正整数T满足公式：

根据T值计算出各样本混样体积v_n，其公式为：

步骤5，输出混样表格：所述混样表格为拆分合格和非合格的流通槽数据，并进行自动输出后导出的同一excel表格。

2.如权利要求1所述的方法，其特征在于，所述二代测序样本基本信息包含：编号、序号、样本分析名、样品名称、接头、数据量/G、合同号、任务单号、物种、项目类型、文库浓度、混样体积、建库人和备注。

3.如权利要求1所述的方法，其特征在于，步骤2中，所述数据总量的上限为150G，下限为90G。

4.一种设备，其特征在于，包括：存储器和处理器；

所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1-3之任一项所述的方法。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-3之任一项所述的方法。