CN115376612B - 一种数据评测方法、装置、电子设备及存储介质 - Google Patents

一种数据评测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115376612B
CN115376612B CN202211111810.5A CN202211111810A CN115376612B CN 115376612 B CN115376612 B CN 115376612B CN 202211111810 A CN202211111810 A CN 202211111810A CN 115376612 B CN115376612 B CN 115376612B
Authority
CN
China
Prior art keywords
data
sequencing
evaluated
output
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211111810.5A
Other languages
English (en)
Other versions
CN115376612A (zh
Inventor
王丹阳
陈懂懂
袁静贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Sikun Biological Engineering Co ltd
Original Assignee
Zhengzhou Sikun Biological Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Sikun Biological Engineering Co ltd filed Critical Zhengzhou Sikun Biological Engineering Co ltd
Priority to CN202211111810.5A priority Critical patent/CN115376612B/zh
Publication of CN115376612A publication Critical patent/CN115376612A/zh
Application granted granted Critical
Publication of CN115376612B publication Critical patent/CN115376612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开提供了一种数据评测方法、装置、电子设备及存储介质,该方法包括:获取待评测特征数据,其中,所述待评测特征数据为测序仪器对任一批次的样本基因数据进行测序后得到的;利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果;其中,所述数据测试结果用于指示所述待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果。

Description

一种数据评测方法、装置、电子设备及存储介质
技术领域
本公开涉及高通量测序技术领域,具体而言,涉及一种数据评测方法、装置、电子设备及存储介质。
背景技术
随着高通量测序技术的研究与发展,测序的数据量在不断的增加,测序数据会存在质量好坏的差别,其中,高质量的测序数据是科学研究和临床诊断的保障;低质量的测序数据能够影响试验结果的准确性,且对于后续分析也会造成较大的失误,造成人力成本浪费,故对测序数据的质量控制尤为重要。
因此,提出一种可以较快速和较准确地对测序数据进行评测的方法尤为重要。
发明内容
有鉴于此,本公开至少提供一种数据评测方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种数据评测方法,包括:
获取待评测特征数据,其中,所述待评测特征数据为测序仪器对任一批次的样本基因数据进行测序后得到的;
利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果;其中,所述数据测试结果用于指示所述待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;
基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果。
上述方法中,在测序仪器对任一批次的样本基因数据进行测序后,可以获取到样本基因数据对应的待评测特征数据;再利用至少一种异常值检测算法,对待评测特征数据进行检测,确定待评测特征数据对应的数据测试结果;异常值检测算法为常见的数据处理算法,该算法能够在普通计算机上实现,且该算法处理数据的效率较高,实现较快速、较高效的确定数据测试结果。再可以基于待评测特征数据对应的数据检测结果,较准确的生成针对测序仪器的测序评测结果;在保障评测准确度的前提,实现了对测序仪器输出数据的快速评估。同时,该数据测试结果能够用于指示待评测特征数据内处于异常状态的拍摄视场的视场标识和/或视场数量,故基于该数据检测结果可以实现异常定位,比如确定存在异常的拍摄视场Grid。
一种可能的实施方式中,在生成针对所述测序仪器的测序评测结果之后,所述方法还包括:
在所述测序评测结果指示所述测序仪器输出数据合格的情况下,生成第一反馈信息,其中所述第一反馈信息用于指示对所述测序仪器的输出数据进行生物学信息评估;
在所述测序评测结果指示所述测序仪器输出数据不合格的情况下,生成第二反馈信息,其中,所述第二反馈信息用于指示基于所述数据测试结果确定测试调整策略。
上述方法中,基于针对测序仪器的测序评测结果,可以较快速的确定是否能够对测序仪器的输出数据进行生物学信息评估。比如,若测序评测结果指示测序仪器输出数据合格,则可以生成用于指示对测序仪器的输出数据进行生物学信息评估的第一反馈信息;若测序评测结果指示测序仪器输出数据不合格,则表示该输出数据存在异常,无需对测序仪器的输出数据进行生物学信息评估,并可以生成用于指示基于数据测试结果确定测试调整策略的第二反馈信息,再次进行样本基因数据的测序,减小了测序的时间成本。
一种可能的实施方式中,所述获取待评测特征数据,包括:
在所述测序仪器对所述任一批次的样本基因数据进行测序,得到输出数据之后,从所述输出数据中获取与本次测序结果相关的至少一个测序文件;
基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
这里,从输出数据中获取与本次测序结果相关的至少一个测序文件;并基于至少一个测序文件包括的测序信息,生成待评测特征数据,以便后续利用待评测特征数据对测序仪器的本次测序过程进行评测。
一种可能的实施方式中,在从所述输出数据中获取与本次测序结果相关的至少一个测序文件之后,所述方法还包括:
确定至少一个待测参数;
针对每个所述待测参数,确定所述至少一个测序文件包括的测序信息中,与所述待测参数匹配的目标信息是否存在缺失,得到信息检查结果;
所述基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据,包括:
响应于所述信息检查结果指示为不存在缺失,基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
一种可能的实施方式中,所述基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据,包括:
针对各个最小拍摄视场中每个测序循环数,从所述至少一个测序文件包括的测序信息中,确定与所述测序循环数匹配的至少一种特征数据的特征值;
基于各个所述测序循环数对应的所述至少一种特征数据的特征值,生成所述待评测特征数据。
一种可能的实施方式中,所述利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果,包括:
利用至少一种异常值检测算法,对所述待评测特征数据包括的各种特征数据进行异常值检测,确定每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值;
基于每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值,确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果。
本公开实施例中,通过采用至少一种异常值检测算法对待评测特征数据进行异常值检测,可以较快速的得到异常值检测算法输出的各种特征数据分别对应的异常值;并利用各种特征数据分别对应的异常值,能够较快速和较准确的确定待评测特征数据对应的数据测试结果,以便可以利用数据测试结果对测序仪器的输出数据的质量进行检测。
一种可能的实施方式中,所述异常值检测算法为多种,所述基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果,包括:
将各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果进行取交集处理,确定所述待评测特征数据对应的目标检测结果;
在所述目标检测结果指示所述待评测特征数据内处于异常状态的拍摄视场的视场数量大于设置的数量阈值,生成用于指示所述测序仪器输出数据不合格的测序评测结果。
这里,在异常值检测算法为多种的情况下,通过对各种异常值检测算法输出的待评测特征数据对应的数据检测结果进行取交集处理,可以较准确的确定待评测特征数据对应的目标检测结果;并基于目标检测结果指示待评测特征数据内处于异常状态的拍摄视场的视场数量和设置的数量阈值,较准确的生成针对测序仪器的测序评测结果,在保障评测准确度的基础上提高了评测效率。同时,本方案使用异常值检测算法对待评测特征数据进行检测,无需专业人员进行评测,降低了评测的难度,提高了评测的灵活性和广泛性。
一种可能的实施方式中,所述异常值检测算法为多种,在确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果之后,所述方法还包括:
基于各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果,生成并展示结果统计信息。
这里,通过展示结果统计信息,可以更加直观的展示、比对各种异常值检测算法输出的待评测特征数据对应的数据检测结果,提高展示效果。
以下装置、电子设备等的效果描述参见上述方法的说明,这里不再赘述。
第二方面,本公开提供了一种数据评测装置,包括:
获取模块,用于获取待评测特征数据,其中,所述待评测特征数据为测序仪器对任一批次的样本基因数据进行测序后得到的;
检测模块,用于利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果;其中,所述数据测试结果用于指示所述待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;
第一生成模块,用于基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果。
一种可能的实施方式中,所述第一生成模块,在生成针对所述测序仪器的测序评测结果之后,还用于:
在所述测序评测结果指示所述测序仪器输出数据合格的情况下,生成第一反馈信息,其中所述第一反馈信息用于指示对所述测序仪器的输出数据进行生物学信息评估;
在所述测序评测结果指示所述测序仪器输出数据不合格的情况下,生成第二反馈信息,其中,所述第二反馈信息用于指示基于所述数据测试结果确定测试调整策略。
一种可能的实施方式中,所述获取模块,在获取待评测特征数据时,用于:
在所述测序仪器对所述任一批次的样本基因数据进行测序,得到输出数据之后,从所述输出数据中获取与本次测序结果相关的至少一个测序文件;
基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
一种可能的实施方式中,所述获取模块,在从所述输出数据中获取与本次测序结果相关的至少一个测序文件之后,还用于:
确定至少一个待测参数;
针对每个所述待测参数,确定所述至少一个测序文件包括的测序信息中,与所述待测参数匹配的目标信息是否存在缺失,得到信息检查结果;
所述获取模块,在基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据时,用于:
响应于所述信息检查结果指示为不存在缺失,基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
一种可能的实施方式中,所述获取模块,在基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据时,用于:
针对各个最小拍摄视场中每个测序循环数,从所述至少一个测序文件包括的测序信息中,确定与所述测序循环数匹配的至少一种特征数据的特征值;
基于各个所述测序循环数对应的所述至少一种特征数据的特征值,生成所述待评测特征数据。
一种可能的实施方式中,所述检测模块,在利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果时,用于:
利用至少一种异常值检测算法,对所述待评测特征数据包括的各种特征数据进行异常值检测,确定每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值;
基于每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值,确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果。
一种可能的实施方式中,所述异常值检测算法为多种,所述第一生成模块,在基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果时,用于:
将各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果进行取交集处理,确定所述待评测特征数据对应的目标检测结果;
在所述目标检测结果指示所述待评测特征数据内处于异常状态的拍摄视场的视场数量大于设置的数量阈值,生成用于指示所述测序仪器输出数据不合格的测序评测结果。
一种可能的实施方式中,所述异常值检测算法为多种,所述装置还包括:第二生成模块,在确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果之后,所述第二生成模块,用于:
基于各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果,生成并展示结果统计信息。
第三方面,本公开提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的数据评测方法的步骤。
第四方面,本公开提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的数据评测方法的步骤。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据评测方法的流程示意图;
图2示出了本公开实施例所提供的一种数据评测方法中,待评测特征数据示意图;
图3示出了本公开实施例所提供的一种数据评测方法中,数据测试结果的示意图;
图4a示出了本公开实施例所提供的一种数据评测方法中,一种结果统计信息的示意图;
图4b示出了本公开实施例所提供的一种数据评测方法中,另一种结果统计信息的示意图;
图4c示出了本公开实施例所提供的一种数据评测方法中,另一种结果统计信息的示意图;
图5示出了本公开实施例所提供的一种数据评测装置的架构示意图;
图6示出了本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
高通量测序技术又称“下一代”测序技术或深度测序技术,可以一次性对几十万至几百万条脱氧核糖核酸(DeoxyriboNucleic Acid,DNA)分子进行序列测定。DNA分子的序列测定可借助能将DNA的化学信号转变为计算机可处理的数字信号的测序仪器实现。
随着高通量测序技术的改进和提升,测序的数据量在不断的增加,由于人为操作、环境因素、试剂反应、光学系统、和信号转换等因素可能会影响测序数据的质量,使得测序数据会存在质量好坏的差别,其中,高质量的测序数据是科学研究和临床诊断的保障;低质量的测序数据能够影响试验结果的准确性,且对于后续分析也会造成较大的失误,造成人力成本浪费。因此,质量检测是高通量测序数据分析和应用的前提。
一般的,在高通量测序领域中,测序仪器数据的质量检验主要通过以下过程实现:利用生物信息软件对测序数据进行处理,得到测序后的原始测序序列;再可以采用质控软件(比如fastqc或者fastp等)对原始测序序列进行初步评估;并使用基因测序软件(Burrows-Wheeler-Alignment,BWA)工具对初步评估后的测序序列进行二次评估,得到评估结果。
但是,该方法利用超级计算机需要花费1小时到20小时等时间才能得到评估结果,如一个30×的全基因组测序数据从测序完成至借助生物信息软件完成分析需要18小时以上,同时海量的测序数据也需要花费较多的存储与计算资源,增加了硬件资源的成本和时间成本,仪器评价周期长、效率低,进而增加了项目研发与测序仪生产质检的成本。
同时,上述方法还需要具备一定的专业知识以及实操技能分析人员对数据进行分析评估,使得评估过程受限,且该方法也无法直接定位测序过程中的异常信息,不能及时反馈研发人员,测序方法的灵活性较低。
为了缓解上述问题,本公开实施例提出一种数据评测方法、装置、电子设备及存储介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本公开实施例进行理解,首先对本公开实施例所公开的一种数据评测方法进行详细介绍。本公开实施例所提供的数据评测方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器。在一些可能的实现方式中,该数据评测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
此处,对本公开中涉及的词语进行解释说明。
高通量测序技术:以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志的技术。
拍摄视场Grid:每一次测序时荧光扫描或者拍照的最小视场。
测序循环数Cycle:测序过程的测序循环数,一般是按照高通量测序所选择的测序读长执行。
测序芯片流通槽:一个载玻片状的载体,提供测序文库与试剂反应的场所。
参见图1所示,为本公开实施例所提供的数据评测方法的流程示意图,该方法包括:S101-S103,具体的:
S101,获取待评测特征数据,其中,待评测特征数据为测序仪器对任一批次的样本基因数据进行测序后得到的。
S102,利用至少一种异常值检测算法,对待评测特征数据进行检测,确定待评测特征数据对应的数据测试结果;其中,数据测试结果用于指示待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种。
S103,基于待评测特征数据对应的数据检测结果,生成针对测序仪器的测序评测结果。
上述方法中,在测序仪器对任一批次的样本基因数据进行测序后,可以获取到样本基因数据对应的待评测特征数据;再利用至少一种异常值检测算法,对待评测特征数据进行检测,确定待评测特征数据对应的数据测试结果;异常值检测算法为常见的数据处理算法,该算法能够在普通计算机上实现,且该算法处理数据的效率较高,实现较快速、较高效的确定数据测试结果。再可以基于待评测特征数据对应的数据检测结果,较准确的生成针对测序仪器的测序评测结果;在保障评测准确度的前提,实现了对测序仪器输出数据的快速评估。同时,该数据测试结果能够用于指示待评测特征数据内处于异常状态的拍摄视场的视场标识和/或视场数量,故基于该数据检测结果可以实现异常定位,比如确定存在异常的拍摄视场Grid。
下述对S101-S103进行具体说明。
针对S101:
测序仪器可以对任一批次的样本基因数据进行测序,得到测序仪器的输出数据,其中,输出数据的内容与测序仪器和样本基因等信息相关,此处不进行具体限定。该样本基因数据可以为任一对象的基因数据,该对象可以为人类、老鼠、猴子等动物,也可以为小麦、猕猴桃等植物。
在得到测序仪器的输出数据之后,可以从该输出数据中获取待评测特征数据。比如,待评测特征数据可以包括有效通量信息(ValidDensity),有效通量比例(ValidRatio)、测序循环数(Cycle)、错误率(Errorratio)、碱基识别质量百分比(Q20,Q30)等特征数据的特征值。
一种可能的实施方式中,获取待评测特征数据,包括:在测序仪器对任一批次的样本基因数据进行测序,得到输出数据之后,从输出数据中获取与本次测序结果相关的至少一个测序文件;基于至少一个测序文件包括的测序信息,生成待评测特征数据。
在利用测序仪器对任一批次的样本基因数据进行测序,得到输出数据之后,可以从输出数据中获取与本次测序结果相关的至少一个测序文件。比如可以确定所需的测序信息,在从输出数据中获取包括所需的测序信息的测序文件。其中,该测序信息为与本次测序相关的数据信息,比如测序信息可以包括测序结果信息、和能够对测序结果产生影响的数据信息。
示例性的,测序信息包括但不限于:测序芯片流通槽的信息(lane)、流动槽包含的结构信息、每个lane包含的最小拍摄视场(grid)、测序循环数(Cycle)、有效通量信息(ValidDensity)、有效通量比例(ValidRatio)、错误率(Errorratio)、碱基识别质量百分比(Q20,Q30)等等。存储测序信息的测序文件的数据信息存储格式可以为可读文本格式、二进制文本格式等等。
进而可以基于至少一个测序文件包括的测序信息,生成待评测特征数据。比如可以从至少一个测序文件中提取测序信息,按照设置的格式将提取到的测序信息进行记录,生成待评测特征数据。
或者,也可以基于测序仪器的测序原理、测序过程以及文库信息等因素筛选出与本次测序实验关联度较高的特征数据,提取的特征数据要与测序反应中拍照成像视场相对应。利用提取的特征数据的特征值,生成待评测特征数据。比如,特征数据包括但不限于技术路线中提到的通量、有效通量、碱基识别质量百分比、准确率等数据。其中,特征数据可以根据需要进行设置,比如特征数据还可以包括测序芯片流通槽的信息(lane)、流动槽包含的结构信息等。
示例性的,参见图2所示的待评测特征数据,该待评测特征数据包括:最小拍摄视场(Grid1至Grid47)、测序循环数(Cycle:1至149)、有效通量信息(ValidDensity)、有效通量比例(ValidRatio)、准确率(Accruacy)、错误率(Errorratio)、和碱基识别质量百分比(Q20,Q30)。
这里,从输出数据中获取与本次测序结果相关的至少一个测序文件;并基于至少一个测序文件包括的测序信息,生成待评测特征数据,以便后续利用待评测特征数据对测序仪器的本次测序过程进行评测。
一种可能的实施方式中,在从输出数据中获取与本次测序结果相关的至少一个测序文件之后,该方法还包括:确定至少一个待测参数;针对每个待测参数,确定至少一个测序文件包括的测序信息中,与待测参数匹配的目标信息是否存在缺失,得到信息检查结果。
基于至少一个测序文件包括的测序信息,生成待评测特征数据,包括:响应于信息检查结果指示为不存在缺失,基于至少一个测序文件包括的测序信息,生成待评测特征数据。
实施时,在从输出数据中获取与本次测序结果相关的至少一个测序文件之后,可以确定至少一个待测参数;待测参数可以根据测序仪器的特性进行确定,比如,待测参数可以包括但不限于:最小视场信息、测序流通槽信息、测序循环数、有效通量信息(ValidDensity)、有效通量比例(ValidRatio)、和碱基识别质量百分比(Q20)等。再可以针对每个待测参数,确定至少一个测序文件包括的测序信息中,与待测参数匹配的目标信息是否存在缺失,得到信息检查结果。
比如,若测序循环数包括150个,则可以检测每个测序循环数下是否存在有效通量信息,若均存在,则确定信息检查结果为不存在缺失。若实际的测序循环数包括500个,但至少一个测序文件中包括400个测序循环数,则确定该信息检查结果为存在缺失。
若信息检查结果指示为不存在缺失,可以基于至少一个测序文件包括的测序信息,生成待评测特征数据;若信息检查结果指示为存在缺失,可以对缺失的信息进行记录,并生成提示信息,以提示质检人员存在信息缺失。
或者,在信息检查结果指示为存在缺失时,也可以基于至少一个测序文件包括的测序信息,生成待评测特征数据;后续在基于待评测特征数据对应的数据检测结果,生成针对测序仪器的测序评测结果可以为:数据不合格且存在数据缺失;或者,数据合格但存在数据缺失。
一种可能的实施方式中,基于至少一个测序文件包括的测序信息,生成待评测特征数据,包括:
步骤A1,针对各个最小拍摄视场中每个测序循环数,从至少一个测序文件包括的测序信息中,确定与测序循环数匹配的至少一种特征数据的特征值。
步骤A2,基于各个测序循环数对应的至少一种特征数据的特征值,生成待评测特征数据。
一个测序芯片流通槽的信息(lane)下包括多个最小拍摄视场(Grid),每个Grid包括多个测序循环数。实施时,可以针对各个最小拍摄视场中每个测序循环数,从至少一个测序文件包括的测序信息中,确定与测序循环数匹配的至少一种特征数据的特征值。比如,在特征数据包括有效通量信息(ValidDensity)、有效通量比例(ValidRatio)、准确率(Accuracy)时,可以获取每个测序循环数对应的有效通量信息的特征值、有效通量比例的特征值、准确率的特征值。再基于各个测序循环数对应的至少一种特征数据的特征值,生成待评测特征数据。比如,可以按照设置的数据记录格式,将各个测序循环数对应的至少一种特征数据的特征值进行记录,得到待评测特征数据。
针对S102:
在获取到待评测特征数据之后,可以利用至少一种异常值检测算法,对待评测特征数据进行检测,确定待评测特征数据对应的数据测试结果;该数据测试结果用于指示待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;比如,数据测试结果可以包括:处于异常状态的拍摄视场的视场数量为38个,和/或,处于异常状态的拍摄视场的视场标识包括:grid1、grid3、grid10、…、grid130,和/或,处于异常状态的测序流通槽信息lane1、lane2等。
异常值检测算法可以根据需要进行选取,比如,异常值检测算法可以包括但不限于:标准差3σ原则检测算法、箱线图四分位检测算法、和Z-score检测算法等等。
示例性的,针对待评测特征数据包括的各种特征数据,标准差3σ原则检测算法可以先假设特征数据仅含有随机误差,对其进行计算处理得到标准偏差;再可以按照标准偏差的1至3倍确定区间范围;确定位于该区间范围之外的特征数据处于异常状态。
箱线图四分位检测算法,即把特征数据的所有特征值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数,利用箱线图的四分位距(IQR)对异常值进行检测,提供了识别异常值的一个标准。具体的,异常值区间可以为小于QL-k*IQR或大于QU+k*IQR,其中,QL为下四分位数,表示全部特征值中有四分之一的数据取值小于QL;QU为上四分位数,表示全部特征值中有四分之一的数据取值大于QU;IQR为四分位间距,即上四分位数QU与下四分位数QL之间的差值;k为系数,可以根据实际需求进行确定,比如,k可以为1.5、2等;将位于该异常值区间的特征值确定为异常值,即处于异常状态。
Z-score检测算法可以通过公式(x-μ)/σ将特征数据的特征值转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性;其中,x为特征值,u为特征数据的均值,σ为特征数据的标准差;再根据设置的绝对值阈值,确定处于异常状态的特征数据,其中,绝对值阈值可以根据实际情况进行设置,比如,可以为2等,即在Z-Score分值小于-2或大于2时,该Z-Score分值对应的特征值属于异常值。
实施时,在异常值检测算法为一种,特征数据包括:有效通量信息、有效通量比例和碱基识别质量百分比时,可以利用该异常值检测算法分别对有效通量信息、有效通量比例和碱基识别质量百分比进行异常值检测,得到每种特征数据对应的异常值,即可以得到有效通量信息对应的第一异常值、以及第一异常值所匹配的最小拍摄视场,有效通量比例对应的第二异常值和第二异常值所匹配的最小拍摄视场,和碱基识别质量百分比对应的第三异常值和第三异常值所匹配的最小拍摄视场。再将第一异常值所匹配的最小拍摄视场、第二异常值所匹配的最小拍摄视场和第三异常值所匹配的最小拍摄视场取并集,得到待评测特征数据对应的数据测试结果。
在异常值检测算法为多种时,针对每种异常值检测算法执行上述示例过程,得到每种异常值检测算法对应的数据测试结果。并将多种异常值检测算法对应的数据测试结果取交集,得到待评测特征数据对应的数据测试结果。
一种可能的实施方式中,利用至少一种异常值检测算法,对待评测特征数据进行检测,确定待评测特征数据对应的数据测试结果,包括:
步骤B1,利用至少一种异常值检测算法,对待评测特征数据包括的各种特征数据进行异常值检测,确定每种异常值检测算法输出的各种特征数据分别对应的异常值。
步骤B2,基于每种异常值检测算法输出的各种特征数据分别对应的异常值,确定异常值检测算法输出的待评测特征数据对应的数据测试结果。
实施时,针对每种异常值检测算法,利用该异常值检测算法,对待评测特征数据包括的各种特征数据进行异常值检测,确定异常值检测算法输出的每种特征数据分别对应的异常值;比如可以得到有效通量信息对应的异常值、准确率对应的异常值等。
再可以将各种特征数据对应的异常值所属的cycle取并集,得到该异常值检测算法对应的中间测试结果,比如,中间测试结果可以包括grid1-cycle1、grid1-cycle3、grid1-cycle10、grid2-cycle15、grid5-cycle70异常;再将异常值检测算法对应的中间测试结果进行去重处理,得到该异常值检测算法输出的待评测特征数据对应的数据测试结果;比如,若cycle1、cycle3、cycle10均属于grid1,则得到的数据测试结果可以为:grid1、grid2、grid5异常,和/或异常的视场数量为3。再或者,若grid1、grid2、grid5均属于lane1,则数据测试结果还可以包括:lane1异常。
在待评测特征数据对应的数据测试结果包括处于异常状态的最小拍摄视场的视场数量时,数据测试结果如图3所示,标准差3σ原则检测算法对应的数据测试结果指示处于异常状态的最小拍摄视场的视场数量为38(即异常grid数量),箱线图四分位检测算法对应的数据测试结果指示处于异常状态的最小拍摄视场的视场数量为47,Z-score检测算法对应的数据测试结果指示处于异常状态的最小拍摄视场的视场数量为38。
本公开实施例中,通过采用至少一种异常值检测算法对待评测特征数据进行异常值检测,可以较快速的得到异常值检测算法输出的各种特征数据分别对应的异常值;并利用各种特征数据分别对应的异常值,能够较快速和较准确的确定待评测特征数据对应的数据测试结果,以便可以利用数据测试结果对测序仪器的输出数据的质量进行检测。
针对S103:
实施时,在待评测特征数据对应的数据检测结果指示处于异常状态的grid的视场数量大于或等于设置的阈值时,确定的测序评测结果指示测序仪器输出数据不合格;在待评测特征数据对应的数据检测结果指示处于异常状态的grid的视场数量小于设置的阈值时,确定的测序评测结果指示测序仪器输出数据合格。
在异常值检测算法为多种时,可以将多种异常值检测算法输出的处于异常状态的grid取交集,得到融合后的检测结果,若融合后的检测结果指示处于异常状态的grid的视场数量小于设置的阈值时,确定的测序评测结果指示测序仪器输出数据合格。
一种可能的实施方式中,异常值检测算法为多种,基于待评测特征数据对应的数据检测结果,生成针对测序仪器的测序评测结果,包括:
步骤C1,将各种异常值检测算法输出的待评测特征数据对应的数据检测结果进行取交集处理,确定待评测特征数据对应的目标检测结果。
步骤C2,在目标检测结果指示待评测特征数据内处于异常状态的拍摄视场的视场数量大于设置的数量阈值,生成用于指示测序仪器输出数据不合格的测序评测结果。
实施时,在异常值检测算法为多种的情况下,S102中,可以得到每种异常值检测算法输出的数据检测结果。将多种异常值检测算法输出的待评测特征数据对应的数据检测结果取交集;比如,将各种异常值检测算法对应的数据检测结果中,基于视场标识对grid取交集,得到待评测特征数据对应的目标检测结果。
参见图3所示的数据测试结果,标准差3σ原则检测算法对应的数据测试结果指示异常grid的数量为38,箱线图四分位检测算法对应的数据测试结果指示异常grid的数量为47,Z-score检测算法对应的数据测试结果指示异常grid的数量为38。确定标准差3σ原则检测算法对应的数据测试结果、箱线图四分位检测算法对应的数据测试结果、和Z-score检测算法对应的数据测试结果中,异常grid的重叠数量,将该重叠数量,确定为目标检测结果,比如图3所示的目标检测结果指示的异常grid数量为38。
在目标检测结果指示待评测特征数据内处于异常状态的拍摄视场的视场数量大于设置的数量阈值,生成用于指示测序仪器输出数据不合格的测序评测结果;并输出待评测特征数据内处于异常状态的拍摄视场的视场数量和/或视场标识。在目标检测结果指示待评测特征数据内处于异常状态的拍摄视场的视场数量小于或等于设置的数量阈值,生成用于指示测序仪器输出数据合格的测序评测结果;其中,数量阈值可以根据实际需求进行设置,比如,可以为0、1等。
这里,在异常值检测算法为多种的情况下,通过对各种异常值检测算法输出的待评测特征数据对应的数据检测结果进行取交集处理,可以较准确的确定待评测特征数据对应的目标检测结果;并基于目标检测结果指示待评测特征数据内处于异常状态的拍摄视场的视场数量和设置的数量阈值,较准确的生成针对测序仪器的测序评测结果,在保障评测准确度的基础上提高了评测效率。同时,本方案使用异常值检测算法对待评测特征数据进行检测,无需专业人员进行评测,降低了评测的难度,提高了评测的灵活性和广泛性。
一种可能的实施方式中,在生成针对测序仪器的测序评测结果之后,该方法还包括:
步骤D1,在测序评测结果指示测序仪器输出数据合格的情况下,生成第一反馈信息,其中第一反馈信息用于指示对测序仪器的输出数据进行生物学信息评估;
步骤D2,在测序评测结果指示测序仪器输出数据不合格的情况下,生成第二反馈信息,其中,第二反馈信息用于指示基于数据测试结果确定测试调整策略。
实施时,在生成针对测序仪器的测序评测结果之后,在测序评测结果指示测序仪器输出数据合格的情况下,生成第一反馈信息,其中第一反馈信息用于指示对测序仪器的输出数据进行生物学信息评估,即可以基于测序仪器的输出数据进行全面的评估。在测序评测结果指示测序仪器输出数据不合格的情况下,生成第二反馈信息,其中,第二反馈信息用于指示基于数据测试结果确定测试调整策略,比如,测试调整策略可以包括对测序仪器的测试参数进行调整,或者可以对样本基因数据进行调整;以便后续再次利用测序仪器对样本基因数据进行测序。
上述方法中,基于针对测序仪器的测序评测结果,可以较快速的确定是否能够对测序仪器的输出数据进行生物学信息评估。比如,若测序评测结果指示测序仪器输出数据合格,则可以生成用于指示对测序仪器的输出数据进行生物学信息评估的第一反馈信息;若测序评测结果指示测序仪器输出数据不合格,则表示该输出数据存在异常,无需对测序仪器的输出数据进行生物学信息评估,并可以生成用于指示基于数据测试结果确定测试调整策略的第二反馈信息,再次进行样本基因数据的测序,减小了测序的时间成本。
一种可能的实施方式中,异常值检测算法为多种,在确定异常值检测算法输出的待评测特征数据对应的数据测试结果之后,该方法还包括:基于各种异常值检测算法输出的待评测特征数据对应的数据检测结果,生成并展示结果统计信息。
实施时,在异常值检测算法包括标准差3σ原则检测算法、箱线图四分位检测算法、和Z-score检测算法的情况下,在确定异常值检测算法输出的待评测特征数据对应的数据测试结果之后,可以基于各种异常值检测算法输出的待评测特征数据对应的数据检测结果,生成并展示结果统计信息。
示例性的,在生成第一反馈信息或第二反馈信息之后,可以将第一反馈信息、第二反馈信息反馈给质检系统,以便质检系统进行后续的处理。同时,在反馈第二反馈信息时,还可以反馈数据测试结果、结果统计信息等等,以便质检系统能够响应于第二反馈信息,基于数据测试结果和/或结果统计信息,快速定位拍照问题、测序流通槽问题等。
本公开在测序仪器测序完成后,能够在较短的时间内(在普通电脑下1分钟至10分钟不等即可实现)定位到当前测序过程中是否存在异常,若存在异常,则可以定位到测序流通槽具体异常位置信息,具体拍照视场标识等。进而可以根据第一反馈信息、第二反馈信息评估是否需要进行生物信息学二级分析,即确定是否需要全面评估测序数据的质量,以及还可以快速反馈当前测序实验异常信息,节省时间成本以及人力成本。
示例性的,参见图4a所示的结果统计信息,图中1对应为标准差3σ原则检测算法的数据检测结果,图中2对应为箱线图四分位检测算法的数据检测结果,图中3对应为Z-score检测算法的数据检测结果;其中,标准差3σ原则检测算法、箱线图四分位检测算法、和Z-score检测算法的数据检测结果中包括相同视场标识的grid的视场数量为38,箱线图四分位检测算法的数据检测结果中还存在其他视场标识的grid的视场数量为9,且其他视场标识的grid在标准差3σ原则检测算法和Z-score检测算法的数据检测结果中不存在。
参见图4b所示的结果统计信息,图中横轴表示异常值检测算法的种类,1对应为标准差3σ原则检测算法的数据检测结果,2对应为箱线图四分位检测算法的数据检测结果,3对应为Z-score检测算法的数据检测结果;图中纵轴表示待评测特征数据内处于异常状态的grid的视场数量,其中,标准差3σ原则检测算法和Z-score检测算法的数据检测结果指示异常grid的视场数量为38,箱线图四分位检测算法的数据检测结果指示异常grid的视场数量为47。
参见图4c所示的结果统计信息,表示有3种异常值检测算法的数据检测结果中存在相同视场标识的grid,且相同视场标识的grid的视场数量为38,有1种异常值检测算法的数据检测结果中存在其他视场标识,该其他视场标识的grid的视场数量为9。
这里,通过展示结果统计信息,可以更加直观的展示、比对各种异常值检测算法输出的待评测特征数据对应的数据检测结果,提高展示效果。
针对高通量测序领域,本公开提出的方法可以对测序仪器产出数据自适应智能化分析,快速定位数据异常信息。并且,本公开考虑到测序数据可能会受各种因素的影响,为了缓解上述问题,从输出数据中筛选了不同的特征数据,使其能够初步全面的评估实验数据的优劣。同时,本公开中无需借助生物信息软件即可快速初步确定当前测序仪器是否需要进行二级生物信息学分析,降低了时间成本、人力成本和硬件资源消耗。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于相同的构思,本公开实施例还提供了一种数据评测装置,参见图5所示,为本公开实施例提供的数据评测装置的架构示意图,包括获取模块501、检测模块502、第一生成模块503,具体的:
获取模块501,用于获取待评测特征数据,其中,所述待评测特征数据为测序仪器对任一批次的样本基因数据进行测序后得到的;
检测模块502,用于利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果;其中,所述数据测试结果用于指示所述待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;
第一生成模块503,用于基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果。
一种可能的实施方式中,所述第一生成模块503,在生成针对所述测序仪器的测序评测结果之后,还用于:
在所述测序评测结果指示所述测序仪器输出数据合格的情况下,生成第一反馈信息,其中所述第一反馈信息用于指示对所述测序仪器的输出数据进行生物学信息评估;
在所述测序评测结果指示所述测序仪器输出数据不合格的情况下,生成第二反馈信息,其中,所述第二反馈信息用于指示基于所述数据测试结果确定测试调整策略。
一种可能的实施方式中,所述获取模块501,在获取待评测特征数据时,用于:
在所述测序仪器对所述任一批次的样本基因数据进行测序,得到输出数据之后,从所述输出数据中获取与本次测序结果相关的至少一个测序文件;
基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
一种可能的实施方式中,所述获取模块501,在从所述输出数据中获取与本次测序结果相关的至少一个测序文件之后,还用于:
确定至少一个待测参数;
针对每个所述待测参数,确定所述至少一个测序文件包括的测序信息中,与所述待测参数匹配的目标信息是否存在缺失,得到信息检查结果;
所述获取模块501,在基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据时,用于:
响应于所述信息检查结果指示为不存在缺失,基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
一种可能的实施方式中,所述获取模块501,在基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据时,用于:
针对各个最小拍摄视场中每个测序循环数,从所述至少一个测序文件包括的测序信息中,确定与所述测序循环数匹配的至少一种特征数据的特征值;
基于各个所述测序循环数对应的所述至少一种特征数据的特征值,生成所述待评测特征数据。
一种可能的实施方式中,所述检测模块502,在利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果时,用于:
利用至少一种异常值检测算法,对所述待评测特征数据包括的各种特征数据进行异常值检测,确定每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值;
基于每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值,确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果。
一种可能的实施方式中,所述异常值检测算法为多种,所述第一生成模块503,在基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果时,用于:
将各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果进行取交集处理,确定所述待评测特征数据对应的目标检测结果;
在所述目标检测结果指示所述待评测特征数据内处于异常状态的拍摄视场的视场数量大于设置的数量阈值,生成用于指示所述测序仪器输出数据不合格的测序评测结果。
一种可能的实施方式中,所述异常值检测算法为多种,所述装置还包括:第二生成模块504,在确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果之后,所述第二生成模块504,用于:
基于各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果,生成并展示结果统计信息。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
基于同一技术构思,本公开实施例还提供了一种电子设备。参照图6所示,为本公开实施例提供的电子设备600的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当电子设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:
获取待评测特征数据,其中,所述待评测特征数据为测序仪器对任一批次的样本基因数据进行测序后得到的;
利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果;其中,所述数据测试结果用于指示所述待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;
基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果。
其中,处理器601的具体处理流程可以参照上述方法实施例的记载,这里不再赘述。
此外,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据评测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据评测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据评测方法,其特征在于,包括:
获取待评测特征数据,其中,所述待评测特征数据为从测序仪器对任一批次的样本基因数据进行测序后得到的输出数据中获取得到的;
利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果;其中,所述数据测试结果用于指示所述待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;
基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果,其中在所述待评测数据对应的数据检测结果指示的异常值的数量大于设置的阈值时,所述测序仪器的测序评测结果指示所述测试仪器输出数据不合格;
其中所述利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果,包括:利用至少一种异常值检测算法,对所述待评测特征数据包括的各种特征数据进行异常值检测,确定每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值;基于每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值,确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果。
2.根据权利要求1所述的方法,其特征在于,在生成针对所述测序仪器的测序评测结果之后,所述方法还包括:
在所述测序评测结果指示所述测序仪器输出数据合格的情况下,生成第一反馈信息,其中所述第一反馈信息用于指示对所述测序仪器的输出数据进行生物学信息评估;
在所述测序评测结果指示所述测序仪器输出数据不合格的情况下,生成第二反馈信息,其中,所述第二反馈信息用于指示基于所述数据测试结果确定测试调整策略。
3.根据权利要求1所述的方法,其特征在于,所述获取待评测特征数据,包括:
在所述测序仪器对所述任一批次的样本基因数据进行测序,得到输出数据之后,从所述输出数据中获取与本次测序结果相关的至少一个测序文件;
基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
4.根据权利要求3所述的方法,其特征在于,在从所述输出数据中获取与本次测序结果相关的至少一个测序文件之后,所述方法还包括:
确定至少一个待测参数;
针对每个所述待测参数,确定所述至少一个测序文件包括的测序信息中,与所述待测参数匹配的目标信息是否存在缺失,得到信息检查结果;
所述基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据,包括:
响应于所述信息检查结果指示为不存在缺失,基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据。
5.根据权利要求3或4所述的方法,其特征在于,所述基于所述至少一个测序文件包括的测序信息,生成所述待评测特征数据,包括:
针对各个最小拍摄视场中每个测序循环数,从所述至少一个测序文件包括的测序信息中,确定与所述测序循环数匹配的至少一种特征数据的特征值;
基于各个所述测序循环数对应的所述至少一种特征数据的特征值,生成所述待评测特征数据。
6.根据权利要求1所述的方法,其特征在于,所述异常值检测算法为多种,所述基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果,包括:
将各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果进行取交集处理,确定所述待评测特征数据对应的目标检测结果;
在所述目标检测结果指示所述待评测特征数据内处于异常状态的拍摄视场的视场数量大于设置的数量阈值,生成用于指示所述测序仪器输出数据不合格的测序评测结果。
7.根据权利要求1所述的方法,其特征在于,所述异常值检测算法为多种,在确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果之后,所述方法还包括:
基于各种所述异常值检测算法输出的所述待评测特征数据对应的数据检测结果,生成并展示结果统计信息。
8.一种数据评测装置,其特征在于,包括:
获取模块,用于获取待评测特征数据,其中,所述待评测特征数据为从测序仪器对任一批次的样本基因数据进行测序后得到的输出数据中获取得到的;
检测模块,用于利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果;其中,所述数据测试结果用于指示所述待评测特征数据内处于异常状态的测序流通槽信息、拍摄视场的视场标识、视场数量、测序循环数的循环标识、循环数量中的至少一种;
第一生成模块,用于基于所述待评测特征数据对应的数据检测结果,生成针对所述测序仪器的测序评测结果,其中在所述待评测数据对应的数据检测结果指示的异常值的数量大于设置的阈值时,所述测序仪器的测序评测结果指示所述测试仪器输出数据不合格;
其中所述检测模块,在利用至少一种异常值检测算法,对所述待评测特征数据进行检测,确定所述待评测特征数据对应的数据测试结果时,用于:利用至少一种异常值检测算法,对所述待评测特征数据包括的各种特征数据进行异常值检测,确定每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值;基于每种所述异常值检测算法输出的各种所述特征数据分别对应的异常值,确定所述异常值检测算法输出的所述待评测特征数据对应的数据测试结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的数据评测方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的数据评测方法的步骤。
CN202211111810.5A 2022-09-13 2022-09-13 一种数据评测方法、装置、电子设备及存储介质 Active CN115376612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211111810.5A CN115376612B (zh) 2022-09-13 2022-09-13 一种数据评测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211111810.5A CN115376612B (zh) 2022-09-13 2022-09-13 一种数据评测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115376612A CN115376612A (zh) 2022-11-22
CN115376612B true CN115376612B (zh) 2023-10-13

Family

ID=84071106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211111810.5A Active CN115376612B (zh) 2022-09-13 2022-09-13 一种数据评测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115376612B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831219B (zh) * 2022-12-22 2024-05-28 郑州思昆生物工程有限公司 一种质量预测方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1444601A (zh) * 2000-05-26 2003-09-24 基因组治疗公司 通过Zmax1或HBM基因调节脂质水平
CN101617051A (zh) * 2006-05-01 2009-12-30 奥胡斯大学 动物模型以及用于产生动物模型的方法
CN108319813A (zh) * 2017-11-30 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna拷贝数变异的检测方法和装置
CN111128304A (zh) * 2019-12-16 2020-05-08 神州数码医疗科技股份有限公司 一种二代测序数据的质量检测方法及装置
CN111238927A (zh) * 2019-12-30 2020-06-05 中汽检测技术有限公司 疲劳耐久性评测方法、装置、电子设备和计算机可读介质
WO2020249774A1 (en) * 2019-06-14 2020-12-17 Cray Innovation Ab Method of stratifying subjects into sub-groups for therapeutic treatment
CN112669906A (zh) * 2020-11-25 2021-04-16 深圳华大基因股份有限公司 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质
CN113724791A (zh) * 2021-09-09 2021-11-30 天津华大医学检验所有限公司 Cyp21a2基因ngs数据分析的方法、装置及应用
CN114595124A (zh) * 2022-05-09 2022-06-07 北京瑞莱智慧科技有限公司 时序异常检测模型评估方法、相关装置及存储介质
CN114706886A (zh) * 2022-03-22 2022-07-05 中国平安人寿保险股份有限公司 一种评测方法和装置、计算机设备、存储介质
CN114974412A (zh) * 2022-07-05 2022-08-30 至本医疗科技(上海)有限公司 生成目标对象的肿瘤检测数据的方法、设备和介质
CN115018777A (zh) * 2022-05-26 2022-09-06 深圳供电局有限公司 电网设备状态评估方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130174297A1 (en) * 2011-10-18 2013-07-04 The Board Of Regents For Oklahoma State University CONTROLLING TGBp3 AND SILENCING bZIP60 TO REGULATE UPR
WO2019170773A1 (en) * 2018-03-06 2019-09-12 Cancer Research Technology Limited Improvements in variant detection

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1444601A (zh) * 2000-05-26 2003-09-24 基因组治疗公司 通过Zmax1或HBM基因调节脂质水平
CN101617051A (zh) * 2006-05-01 2009-12-30 奥胡斯大学 动物模型以及用于产生动物模型的方法
CN108319813A (zh) * 2017-11-30 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna拷贝数变异的检测方法和装置
WO2020249774A1 (en) * 2019-06-14 2020-12-17 Cray Innovation Ab Method of stratifying subjects into sub-groups for therapeutic treatment
CN111128304A (zh) * 2019-12-16 2020-05-08 神州数码医疗科技股份有限公司 一种二代测序数据的质量检测方法及装置
CN111238927A (zh) * 2019-12-30 2020-06-05 中汽检测技术有限公司 疲劳耐久性评测方法、装置、电子设备和计算机可读介质
CN112669906A (zh) * 2020-11-25 2021-04-16 深圳华大基因股份有限公司 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质
CN113724791A (zh) * 2021-09-09 2021-11-30 天津华大医学检验所有限公司 Cyp21a2基因ngs数据分析的方法、装置及应用
CN114706886A (zh) * 2022-03-22 2022-07-05 中国平安人寿保险股份有限公司 一种评测方法和装置、计算机设备、存储介质
CN114595124A (zh) * 2022-05-09 2022-06-07 北京瑞莱智慧科技有限公司 时序异常检测模型评估方法、相关装置及存储介质
CN115018777A (zh) * 2022-05-26 2022-09-06 深圳供电局有限公司 电网设备状态评估方法、装置、计算机设备和存储介质
CN114974412A (zh) * 2022-07-05 2022-08-30 至本医疗科技(上海)有限公司 生成目标对象的肿瘤检测数据的方法、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Study on identifying the C677T polymorphism of mthfr gene by pcr-rflp technique in patients with abnormal semen analysis;Ha Thi Minh Thi等;《Journal of Medicine and Pharmacy》;第142-150页 *
中药质量一致性评价体系-基于定量指纹图谱检查的中药标准制剂控制模式的解析;孙国祥等;《中南药学》;第16卷(第1期);第2-13页 *

Also Published As

Publication number Publication date
CN115376612A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
US20200035329A1 (en) Methods and systems for visualizing and evaluating data
CN115376612B (zh) 一种数据评测方法、装置、电子设备及存储介质
CN112634987B (zh) 一种单样本肿瘤dna拷贝数变异检测的方法和装置
KR20150107718A (ko) 디지털 pcr 데이터를 위한 시각화 툴
Sriyudthsak et al. Mathematical modeling and dynamic simulation of metabolic reaction systems using metabolome time series data
Stoyanov et al. Predictive analytics methodology for smart qualification testing of electronic components
CN115575322A (zh) 一种直插led灯珠的出厂质检方法及系统
CN114492764A (zh) 人工智能模型测试方法、装置、电子设备和存储介质
Coma et al. Statistics and decision making in high-throughput screening
CN115902227A (zh) 一种免疫荧光试剂盒的检测评估方法及系统
Jaeger et al. Statistical and multivariate analysis of MS-based plant metabolomics data
CN117330882B (zh) 一种用于滤波器的自动化测试方法及系统
CN113742248A (zh) 一种基于项目测量数据进行组织过程预测的方法及系统
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及系统
CN112505337B (zh) 一种辅助分析样品的数据处理方法
Uhlig et al. Validation of binary non-targeted approaches: mathematical framework and experimental designs
CN109920474A (zh) 绝对定量方法、装置、计算机设备和存储介质
CN117571742B (zh) 基于人工智能实现芯片质检的方法及装置
CN114580982B (zh) 一种工业设备的数据质量的评估方法、装置及设备
Hu et al. Detecting differential alternative splicing events in scRNA-seq with or without UMIs
CN116884478B (zh) 蛋白质组学数据分析方法、装置、电子设备及存储介质
CN113793641B (zh) 一种从fastq文件中快速判断样本性别的方法
CN117760760A (zh) 仪器状态确定方法、装置、计算机设备和存储介质
CN107025268A (zh) 电池参数的导入方法、导入系统及导入设备
CN109542793B (zh) 一种程序性能分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant