CN112631562B - 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质 - Google Patents

基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质 Download PDF

Info

Publication number
CN112631562B
CN112631562B CN202011383260.3A CN202011383260A CN112631562B CN 112631562 B CN112631562 B CN 112631562B CN 202011383260 A CN202011383260 A CN 202011383260A CN 112631562 B CN112631562 B CN 112631562B
Authority
CN
China
Prior art keywords
sample
volume
data
samples
sample mixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011383260.3A
Other languages
English (en)
Other versions
CN112631562A (zh
Inventor
蔡志强
闵运丰
李晖
徐天生
吴学标
肖云平
史贤俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Oe Biotech Co ltd
Original Assignee
Shanghai Oe Biotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Oe Biotech Co ltd filed Critical Shanghai Oe Biotech Co ltd
Priority to CN202011383260.3A priority Critical patent/CN112631562B/zh
Publication of CN112631562A publication Critical patent/CN112631562A/zh
Application granted granted Critical
Publication of CN112631562B publication Critical patent/CN112631562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/315Object-oriented languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于python的二代测序样本混样方法,包括以下步骤:文件读取并解析,样品排序到流通槽,样品添加接头序列,计算样本混样体积,输出混样表格。本发明方法可以自动检测每个流通槽是否含有接头重复,计算流通槽中最优组合的样本,并自动计算最优混样体积,输出结果清晰明了,提高生产中样本混样的效率和精确性。本发明还公开了一种上述方法在二代测序混样中的应用。

Description

基于python的二代测序样本混样方法、应用、设备、计算机可 读存储介质
技术领域
本发明属于高通量测序技术领域,具体涉及一种基于python的二代测序样本混样方法。
背景技术
Python是一种解释性和面对对象的计算机程序设计语言,由于其语法简约和清晰且拥有丰富和强大的库被广泛应用于数据分析领域。
目前,由于在实际生产中往往会遇到不同物种样本或数据量不相同的样本在一次上机中混合在同一条流通槽,且要满足在同一个流通槽中样本接头不能重复和总数据量足够的情况,会出现由于样本量较大,人工组合排序并计算混样体积速度较慢,易出错,且会剩余大量样本无法进行混样等问题。
发明内容
为了解决现有技术的不足,本发明的目的是提供一种基于python的二代测序样本混样方法。
本发明解决其技术问题所采用的技术方案:
本发明提供了一种基于python的二代测序样本混样方法,包括如下步骤:文件读取并解析、样品排序到流通槽、样品添加接头序列、计算样本混样体积、输出混样表格;
所述文件为含有二代测序样本基本信息的标准格式excel表格,并自动解析多个表单,将表单数据分类成常规样品数据和补测样品数据;
所述样品为待测序的核酸样本,将其依次填充到流通槽;
所述流通槽需保持完整;所述完整为确保同一条流通槽的接头名称不重复;和/或,数据总量不低于最低下限和不高于最高上限;和/或,补测样品数不超过上限;和/或,选择剩余样本数最少的排序组合方式;
所述接头序列为根据样本接头名称判断类型,并通过区分单双端接头进行查询获得的唯一对应序列;
所述混样体积为每条合格的流通槽,根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积;所述最优混样体积为大于下限总体积Vmin且小于上限总体积Vmax的最大正整数T;所述正整数T满足公式:
Figure GDA0003720936760000011
其中,n表示一条流通槽中的样本数,mn表示该样品的数据量,cn表示该样品的文库浓度;
根据T值计算出各样本混样体积vn,其公式为:
Figure GDA0003720936760000021
其中,n表示一条流通槽中的样本数,mn表示该样品的数据量,cn表示该样品的文库浓度;
所述混样表格为拆分合格和非合格的流通槽数据,并进行自动输出后导出的同一excel表格;
所述二代测序样本基本信息包含:编号、序号、样本分析名、样品名称、接头、数据量/G、合同号、任务单号、物种、项目类型、文库浓度、混样体积、建库人和备注。
本发明还提出了一种设备,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述的方法。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的方法。
本发明的有益效果包括:本发明可以自动检测每个流通槽是否含有接头重复,计算流通槽中最优组合的样本,并自动计算最优混样体积,输出结果清晰明了,提高生产中样本混样的效率和精确性。其中计算最优混样体积公式解决了实际生产中不同物种或数据量不相同的样本在一次上机中不能混合在同一条流通槽的难题,且加入的计算程序自动化计算避免了人工计算和排序出错的可能。
附图说明
图1为本发明实施例所提供的流程图;
图2为本发明实施例所提供的开始分析界面;
图3为本发明实施例所提供的输入表格截图;
图4为本发明实施例所提供的输出表格截图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例
本发明提供了一种基于python的二代测序样本混样方法,包括如下步骤:文件读取并解析、样品排序到流通槽、样品添加接头序列、计算样本混样体积、输出混样表格;
所述文件为含有二代测序样本基本信息的标准格式excel表格,并自动解析多个表单,将表单数据分类成常规样品数据和补测样品数据;
所述样品为待测序的核酸样本,将其依次填充到流通槽;
所述流通槽需保持完整;所述完整为确保同一条流通槽的接头名称不重复;和/或,数据总量不低于最低下限和不高于最高上限;和/或,补测样品数不超过上限;和/或,选择剩余样本数最少的排序组合方式;
所述接头序列为根据样本接头名称判断类型,并通过区分单双端接头进行查询获得的唯一对应序列;
所述混样体积为每条合格的流通槽,根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积;
所述混样表格为拆分合格和非合格的流通槽数据,并进行自动输出后导出的同一excel表格。在一个具体的实施过程中,在如图2的开始界面点击“输入混样表格”的“选择文件”,上传一个样本信息表格,同时在“第一条lane编号”填入“OE202000”并点击“提交”开始运行。
首先程序从上传的样本信息表格中读取多个表单信息并解析,识别常规样本和补测样本并按照时间顺序对每个样本进行排序。接着循环所有样本依次放入新建的流通槽中,所述流通槽中每添加一个样本都进行判断该流通槽中接头是否重复,且总数据量范围在90G至150G之间,保证总数据量在仪器最佳检测数据量范围内;补测样本数不超过最大补充数20,否则将该样本放置在其他流通槽中,避免了由于同条流通槽中补测样本太多导致该条流通槽总样本数过多。
接下来判断每个一个流通槽是否满足为完整的,将不完整的流通槽的样本取出再依次投放到已完整的流通槽中,在不超过每个流通槽的上限值下添加这些样本。然后对所有完整的流通槽中的样本查询其接头名称,并添加每个接头的唯一接头序列,当查询出错时该任务结束并生成报错。
根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积,计算最优混样体积实现了不同物种和数据量大小的样本能混合在一条流通槽,确保了实际的检测效果。最后将混样的结果信息自动生成表格输出,如图4,完成二代测序样本混样的操作。
本发明还提出了一种设备,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述的方法。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的方法。
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (5)

1.一种基于python的二代测序样本混样方法,其特征在于,所述混样方法包括如下步骤:
步骤1,文件读取并解析:所述文件为含有二代测序样本基本信息的标准格式excel表格,并自动解析多个表单,将表单数据分类成常规样品数据和补测样品数据;
步骤2,样品排序到流通槽:所述样品为待测序的核酸样本,将其依次填充到流通槽;所述流通槽需保持完整;所述完整的条件为确保同一条流通槽的接头名称不重复;和/或,数据总量不低于最低下限和不高于最高上限;和/或,补测样品数不超过上限;和/或,选择剩余样本数最少的排序组合方式;
步骤3,样品添加接头序列:所述接头序列为根据样本接头名称判断类型,并通过区分单双端接头进行查询获得的唯一对应序列;
步骤4,计算样本混样体积:所述混样体积为每条合格的流通槽,根据其中每个样品的数据量计算保持总体积趋近上限的最优混样体积;所述最优混样体积为大于下限总体积Vmin且小于上限总体积Vmax的最大正整数T;所述正整数T满足公式:
Figure FDA0003720936750000011
其中,n表示一条流通槽中的样本数,mn表示该样品的数据量,cn表示该样品的文库浓度;
根据T值计算出各样本混样体积vn,其公式为:
Figure FDA0003720936750000012
其中,n表示一条流通槽中的样本数,mn表示该样品的数据量,cn表示该样品的文库浓度;
步骤5,输出混样表格:所述混样表格为拆分合格和非合格的流通槽数据,并进行自动输出后导出的同一excel表格。
2.如权利要求1所述的方法,其特征在于,所述二代测序样本基本信息包含:编号、序号、样本分析名、样品名称、接头、数据量/G、合同号、任务单号、物种、项目类型、文库浓度、混样体积、建库人和备注。
3.如权利要求1所述的方法,其特征在于,步骤2中,所述数据总量的上限为150G,下限为90G。
4.一种设备,其特征在于,包括:存储器和处理器;
所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-3之任一项所述的方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-3之任一项所述的方法。
CN202011383260.3A 2020-12-01 2020-12-01 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质 Active CN112631562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011383260.3A CN112631562B (zh) 2020-12-01 2020-12-01 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011383260.3A CN112631562B (zh) 2020-12-01 2020-12-01 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112631562A CN112631562A (zh) 2021-04-09
CN112631562B true CN112631562B (zh) 2022-08-23

Family

ID=75307630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011383260.3A Active CN112631562B (zh) 2020-12-01 2020-12-01 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112631562B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108949941A (zh) * 2018-06-25 2018-12-07 北京莲和医学检验所有限公司 低频突变检测方法、试剂盒和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103088120B (zh) * 2012-11-29 2014-10-15 北京百迈客生物科技有限公司 基于SLAFseq技术的大规模样品基因分型方法
JP7008407B2 (ja) * 2014-06-06 2022-01-25 コーネル・ユニバーシティー ヌクレアーゼ、リガーゼ、ポリメラーゼ、及び配列決定反応の組み合わせを用いた、核酸配列、発現、コピー、またはdnaのメチル化変化の識別及び計数方法
NL2014107B1 (en) * 2015-01-09 2016-09-29 Limgroup B V New methods and products for breeding of asparagus.
CN105671644A (zh) * 2016-02-26 2016-06-15 武汉冰港生物科技有限公司 一种基因组混样测序文库的制备方法
JP7036438B2 (ja) * 2016-05-06 2022-03-15 リージェンツ オブ ザ ユニバーシティ オブ ミネソタ 分析標準及びその使用方法
CN109439729A (zh) * 2018-12-27 2019-03-08 上海鲸舟基因科技有限公司 检测低频变异用的接头、接头混合物及相应方法
CN109887548B (zh) * 2019-01-18 2022-11-08 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置
CN110444255B (zh) * 2019-08-30 2023-06-13 深圳裕策生物科技有限公司 基于二代测序的生物信息质控方法、装置和存储介质
CN110970091B (zh) * 2019-12-20 2023-05-23 北京优迅医学检验实验室有限公司 标签质控的方法及装置
CN111326213B (zh) * 2020-02-20 2023-10-03 苏州金唯智生物科技有限公司 一种数据分析方法、装置、设备及存储介质
CN111826429B (zh) * 2020-07-28 2022-06-17 辽宁省果树科学研究所 一种基于简化基因组测序和snp次等位基因频率的非杂交后代鉴定方法
CN111961710B (zh) * 2020-08-12 2024-04-26 苏州金唯智生物科技有限公司 一种样本处理方法及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108949941A (zh) * 2018-06-25 2018-12-07 北京莲和医学检验所有限公司 低频突变检测方法、试剂盒和装置

Also Published As

Publication number Publication date
CN112631562A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN105302719B (zh) 一种变异测试方法及装置
CN104268073A (zh) 一种批量生成测试用例的方法
CN104239219B (zh) 一种基于覆盖的软件缺陷定位技术的在线评测与实验平台及方法
CN103728891A (zh) 水质在线监测数据的控制方法及装置
CN110727603A (zh) 一种基于ui自动化测试定位元素的改进方法
CN109388573B (zh) 一种无漏报的中断驱动型程序运行时错误检测方法和系统
CN115458052B (zh) 基于一代测序的基因突变分析方法、设备和存储介质
CN112631562B (zh) 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质
CN113793644A (zh) 一种dna检测数据的质量评估方法
CN102929612B (zh) 互动教学平台导入txt题库的方法
CN115798590A (zh) 一种样本溯源方法、样本保存器皿、设备及可读存储介质
CN115586019A (zh) 一种车辆的自动化测试方法、装置、设备及存储介质
CN115309661A (zh) 一种应用测试方法、装置、电子设备及可读存储介质
CN113434385A (zh) 一种针对软件模型检查工具的测试用例自动生成方法和系统
CN112328951B (zh) 一种分析样品的实验数据的处理方法
CN112967756B (zh) 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法
CN115357494A (zh) 功能覆盖率代码的自动生成方法及装置
CN108388771A (zh) 一种生物多样性自动分析方法
CN115938480A (zh) 长读长测序对基因组组装结果纠错方法优化装置和系统
CN114116498A (zh) 基于Excel文件加载的测试方法、系统及设备
CN113505283A (zh) 一种测试数据的筛选方法及系统
CN113658635B (zh) 核酸检测结果的自动判定方法、装置及其应用
Izu et al. Exploring CS1 Student's Notions of Code Quality
CN113190514B (zh) 一种电子文档按照优先顺序录入数据的方法
CN111459788A (zh) 一种基于支持向量机的测试程序抄袭检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant