CN117473444A - 基于CNN和SVM的Sanger测序结果质检方法 - Google Patents

基于CNN和SVM的Sanger测序结果质检方法 Download PDF

Info

Publication number
CN117473444A
CN117473444A CN202311817769.8A CN202311817769A CN117473444A CN 117473444 A CN117473444 A CN 117473444A CN 202311817769 A CN202311817769 A CN 202311817769A CN 117473444 A CN117473444 A CN 117473444A
Authority
CN
China
Prior art keywords
signal
peak
sequencing
base
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311817769.8A
Other languages
English (en)
Other versions
CN117473444B (zh
Inventor
张萱
严金阳
周鑫峰
陈广华
王柏婧
修志华
王晚春
刘博�
王丽娜
杜文权
张延明
侯全民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinogenomax Co Ltd
Original Assignee
Sinogenomax Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinogenomax Co Ltd filed Critical Sinogenomax Co Ltd
Priority to CN202311817769.8A priority Critical patent/CN117473444B/zh
Publication of CN117473444A publication Critical patent/CN117473444A/zh
Application granted granted Critical
Publication of CN117473444B publication Critical patent/CN117473444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供基于CNN和SVM的Sanger测序结果质检方法,包括解析Sanger测序仪生成的测序样本.ab1测序结果文件、测序信号完整性识别、测序信号异常识别和染料峰的测序结果判别。本发明可以用于辅助Sanger测序结果质检,大幅度提升质检的可靠性和效率,大幅提高了Sanger测序结果质检的自动化程度。

Description

基于CNN和SVM的Sanger测序结果质检方法
技术领域
本发明涉及生物技术领域,具体涉及基于CNN和SVM的Sanger测序结果质检方法。
背景技术
Sanger测序是1975年提出的第一代测序技术,因其强大的准确性和可靠性被誉为行业“黄金标准”,至今仍被广泛应用与农、林、牧、渔、医疗健康、环境监测、食品安全和石油勘探等领域。然而,在实际的测序过程中,Sanger测序信号可能会受到测序仪器、试剂、模板和引物等多方面因素影响而产生各种测序异常。识别具体的异常类型可以帮助实验人员排除异常产生的原因,以获取合格可用的测序结果。然而,目前Sanger测序结果的质检主要由人工目视检查完成。由于Sanger测序信号的复杂性和多样性,人工质检效率低下且质检结果的准确性严重依赖于人员经验,在面临大通量测序结果时,容易产生疲劳带来的主观误差。因此,开发一种Sanger测序结果智能质检方法,对于测序序列的后续应用极为重要。
发明内容
在一种实施方式中,基于CNN和SVM的Sanger测序结果质检方法,所述方法包括以下步骤:
步骤S1,解析Sanger测序仪生成的测序样本.ab1测序结果文件,获取所述测序结果质检所需的数据,所述数据包括Raw信号有效段的起点位Start参数和止点位Stop参数,和每个碱基峰点在Analyzed信号中的位置和每个碱基对应的QV值;
步骤S2,测序信号完整性识别,包括判断所述Raw信号从所述起点位Start参数到所述止点位Stop参数是否完整覆盖所述Raw信号有效信号段;对于有效信号段不完整的测序结果,重新截取Raw信号有效段并生成包含完整信息的Analyzed信号,直至得到有效信号段完整的测序结果;对于有效信号段完整的测序结果,可以直接进入测序信号异常识别;
步骤S3,在测序信号完整后,进行所述测序信号异常识别,具体包括:
步骤S31,对步骤2得到的所述Raw信号和所述Analyzed信号进行预处理,其中对所述Raw信号预处理包括Raw信号标准化和统一信号长度;
对所述Analyzed信号预处理包括:a. 根据步骤S1中每个碱基峰点在Analyzed信号中的位置,截取Analyzed信号的50-750bp,对于不足750bp的Aanlyzed信号,截取50bp至最后一个碱基;b. 根据步骤S1中每个碱基峰点位置,进行基于平均峰高的标准化;和c.对样本的Analyzed信号进行信号长度统一;
步骤S32,使用两个一维CNN分别对所述测序样本的Raw信号和Analyzed信号进行分类,分类的类型包括正常和多种异常类型,并结合所述两个一维CNN的分类结果确定最终结果,若两个CNN均输出同一类型,且置信概率均大于0.9,则认为分类的类型准确,否则认为分类的类型不准确,转为人工识别,直接判断所述测序结果是否合格;和
步骤4:对于分类类型准确的测序结果,如果分类为非染料峰的测序结果,根据质检规程直接判定所述测序结果是否合格;若分类为染料峰的测序结果,使用SVM1判断所述染料峰是否严重和使用SVM2判断是否存在染料峰导致的碱基错读,若SVM1判断染料峰严重,和/或SVM2判断存在染料峰导致的碱基错读,则判断所述染料峰测序结果不合格,反之认为所述染料峰测序结果合格。
在一种实施方式中,在步骤S2中,绘制带颜色标记的待测样本的Raw信号图像,将所述Raw信号的起点位Start参数的信号点值和止点位Stop参数的信号点值之间和之外的信号点值分别以不同颜色绘制,将绘制的带颜色标记的Raw信号图像输入至轻量级图像分类网络MobileNetV3进行分类,判断所述Raw信号有效信号段是否完整。
在一种实施方式中,对于有效段不完整的测序结果,使用Sequence Analysis 5.2人工设定所述Raw信号的起点位Start参数和止点位Stop参数,直至所述Raw信号有效信号段完整。
在一种实施方式中,在步骤S31中,对所述Raw信号标准化采用Z-Score方法进行标准化;和/或,使用线性插值方法对每个Raw信号重采样至20000点。
在一种实施方式中,在步骤S31中进行基于平均峰高的标准化使用修改的Max-Min方法进行标准化:
x表示输入信号,l表示Analyzed信号总碱基个数,hi表示第i个碱基峰的峰高,hi根据步骤S1中每个碱基峰点在Analyzed信号中的位置得到。
在一种实施方式中,在步骤S31中对样本的Analyzed信号进行信号长度统一时,采用末尾补零的方式,对每个Analyzed信号补零至10000点。
在一种实施方式中,分别使用两个SVM判断所述染料峰是否严重和是否存在染料峰导致的碱基错读,包括以下步骤;
步骤a: 输入所述染料峰的Analyzed信号;
步骤b:对所述Analyzed信号截取65-95bp片段;
步骤c:进行特征提取,SVM1判断所述染料峰是否严重时,所述染料峰提取的特征包括:该片段中T峰和C峰中的最大峰值与所有碱基峰平均峰值之比,该片段中超过1.5倍平均峰高的T峰和C峰采样点数与总采样点数之比;和SVM2判断是否存在染料峰导致的碱基错读时,所述染料峰提取的特征包括:该片段中最小碱基间距与平均碱基间距之比,和最小间距对应的两个碱基QV的平均值。
缩略语、英文和关键术语定义列表
卷积神经网络(Convolutional Neural Network,CNN)
碱基质量值(quality value,QV)
支持向量机(Support Vector Machine,SVM)
Raw信号: 测序仪生成的荧光电泳信号,存储在.ab1测序结果文件中。
Analyzed信号: 测序仪生成的荧光电泳信号,由Raw信号经过一定变换得到的更为规整、可读性更强的测序信号。这种变换包括Raw信号有效段的截取(有效段的起始点位记录为.ab1文件中的Start参数和Stop参数)、基线漂移消除、信号平滑、峰形分离度加强、碱基峰位漂移修正等。
本发明可以用于辅助Sanger测序结果质检,大幅度提升质检的可靠性和效率,大幅提高了Sanger测序结果质检的自动化程度。具体来说:在本发明中使用带颜色标记的Raw信号图像,将复杂的信号完整性识别问题转化为简单的图像二分类问题,进而可以使用经典的图像分类CNN判断测序信号是否完整,大大简化了工作流程,减少了工作量,极大地提升了检测的自动化程度。特别是在本发明中同时使用二个CNN基础上,再结合两个SVM,实现对染料峰的自动识别,大幅提高了Sanger测序结果质检的自动化程度,解决了自动化识别中染料峰识别的难点。
考虑到实际质检工作中对准确性的高度要求,本发明通过两个CNN分别对两种测序信号进行识别,并根据两个CNN的分类结果判定测序信号的类型。尽管这种方法牺牲了一定的检出率(即有一部分的样本分类可信度不高,需要交给人工识别类型),但能保证能够识别出的样本类型具有很高的可信度。通过实践验证,日常质检工作中的80%以上的测序结果在本发明步骤S3中可以判定出具体类型,并且准确率高达99%。本发明方法兼顾了检测的效率,同时保证了自动检测结果的准确性。
此外,在本发明之前,没有任何用于Sanger测序信号识别的CNN结构可供参考,本发明通过大量实验确定了一种在测序信号上表现较好的CNN结构。
在本发明中,针对Sanger测序实践中常见的“染料峰”异常,本发明使用两个SVM分别进行判断,提出了四种特征参数可以实现对严重染料峰和染料峰导致的碱基错读的识别,进而实现了染料峰质检结果输出的自动化,解决了人工判定染料峰质检结果时需要进行复杂的目视检查的缺点,大大提升了检测的效率和提升了检测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明方法的质检流程示意图;
图2是本发明方法的染料峰合格判定流程示意图;
图3是样本X-19-(1492R)(2022-01-04 4584(20220105-021))获取的数据示意图,其中图3a为Raw信号缩略图,图3b为Analyzed信号局部图,图3c展示了Analyzed信号中每个碱基峰对应的QV,图3d展示了该样本的Start和Stop参数;
图4是样本11707-(-)-20230202-M13E04获取的数据示意图,图4a是文件中解析出的原始Raw信号,图4b是经过标记的Raw最大值信号,和图4c是重新分析后,经过标记的Raw最大值信号;
图5是本发明的1D-CNN结构图;
图6是三个样本的异常识别结果均为染料峰的示意图,图6a是样本11707-(-)-20230202-M13E04,图6b是样本20230317-M01D09和图6c是样本VT2214-1(CMV-Profor(CMV-F))(2023-03-11 86290)(20230310-008-Q0311)。
具体实施方式
为了使本领域技术领域人员更好地理解本申请中的技术方案,下面将结合实施例对本发明作进一步说明,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。下面结合附图及实施例对本发明作进一步描述。
实施例一 本发明基于CNN和SVM的Sanger测序结果质检方法
本发明方法基于Python语言、Pytorch深度学习框架和Sklearn机器学习框架实现,本发明基于CNN和SVM的Sanger测序结果质检方法的流程如图1所示,具体说明如下。
骤S1,解析Sanger测序仪生成的测序样本.ab1测序结果文件,获取所述测序样本质检所需的数据,所述数据包括Raw信号有效段的起点位Start参数和止点位Stop参数,和每个碱基峰点在Analyzed信号中的位置和每个碱基对应的QV值。
步骤S2,测序信号完整性识别,包括判断所述Raw信号从所述起点位Start参数到所述止点位Stop参数是否完整覆盖所述Raw信号有效信号段;对于有效信号段不完整的测序结果,重新截取Raw信号有效段并生成包含完整信息的Analyzed信号,直至得到有效信号段完整的测序结果;对于有效信号段完整的测序结果,可以直接进入测序信号异常识别。
Raw信号是测序生成的原始信号,而Analyzed信号是测序仪内部对Raw信号有效段进行一定处理得到的。Raw信号有效段指其信号较强、存在可识别的碱基信号峰的部分。测序仪内部会自动检测Raw信号有效段,生成起点位Start参数和止点位Stop参数用于表示有效段在Raw信号中的起止点位,并截取这部分信号进行一定处理,生成碱基峰形、间距、高度更为规整的Analyzed信号,便于人工读取碱基序列。然而,测序仪生成的起点位Start参数和止点位Stop参数,可能出现没有完整覆盖Raw信号有效段的情况,这会导致Analyzed信号包含的信息不完整,使得后续异常识别结果不准确。因此,在进行异常识别之前,首先需要判断起点位Start参数和止点位Stop参数是否完整覆盖Raw信号有效信号段。
首先绘制带颜色标记的Raw信号图像。具体来说,绘制带颜色标记的待测样本的Raw信号图像,将所述Raw信号的起点位Start参数的信号点值和止点位Stop参数的信号点值之间和之外的信号点值分别以不同颜色绘制,将绘制的带颜色标记的Raw信号图像输入至轻量级图像分类网络MobileNetV3进行分类,判断所述Raw信号有效信号段是否完整。这样绘制的图像可以更直观地体现有效段是否完整。将绘制的带颜色标记的Raw信号图像输入至轻量级图像分类网络MobileNetV3进行分类,判断有效段是否完整。对于有效段不完整的测序结果,需要使用Sequence Analysis 5.2人工设定起点位Start参数和止点位Stop参数,重新截取Raw信号有效段并生成包含完整信息的Analyzed信号,直至得到有效段完整的测序结果;对于有效段完整的测序结果,可以直接进入后续异常识别环节。
步骤S3,在测序信号完整后,进行所述测序信号异常识别,具体包括如下。
步骤S31,对步骤2得到的所述Raw信号和所述Analyzed信号进行预处理,其中对所述Raw信号预处理包括Raw信号标准化和统一信号长度;
标准化:为了提高模型的训练效率和泛化性能,通常需要对输入数据进行标准化处理。由于Raw信号中包含了显著的信号强度信息,并且可能存在突出的离群信号峰,因此选用能够保留信号强度差异并且对信号峰干扰不敏感的Z-Score方法进行标准化。
统一信号长度:在训练深度神经网络时,通常将输入信号的采样点个数统一,以实现批量训练。由于不同测序结果的Raw信号具有相近的信号长度,通常在15000-20000点之间,因此直接使用线性插值方法对每个Raw信号重采样至20000点。
对所述Analyzed信号预处理包括:a. 根据步骤S1中每个碱基峰点在Analyzed信号中的位置,截取Analyzed信号的50-750bp,对于不足750bp的Aanlyzed信号,截取50至最后一个碱基;b. 根据步骤S1中每个碱基峰点位置,进行基于平均峰高的标准化;和c.对样本的Analyzed信号进行信号长度统一。
截取可用段:由于测序信号50bp之前和750bp之后的碱基峰通常质量不佳,在人工识别时,通常只对50bp-750bp之间的碱基信号进行异常识别。为了符合人工划分标准,首先根据S1中提取的每个碱基峰点在Analyzed信号中的位置,截取Analyzed信号的50-750bp;对于不足750bp的Aanlyzed信号,截取50bp至最后一个碱基。
基于平均峰高的标准化:Analyzed信号由于在生成时就经过了一定标准化处理,尽管不同的Analyzed信号之间的信号强度分布存在差异,但这种差异并不能体现出测序反应的强度。为了消除不同Analyzed信号中信号强度信息的冗余,同时防止离群信号峰的干扰,使用修改的Max-Min方法进行标准化:
x表示输入信号,l表示Analyzed信号总碱基个数,hi表示第i个碱基峰的峰高,可以根据S1中提取的每个碱基峰点位置得到。
信号长度统一:与Raw信号一致,不同样本的Analyzed信号在输入至分类模型之前也需要统一采样点个数。然而与Raw信号不同,由于Analyzed测序样本包含的碱基个数不同,不同Aanlyzed信号之间的长度差异较大,使用插值进行重采样会导致Analyzed信号中的碱基峰尺度发生较大变化而产生失真。因此,本发明采用末尾补零的方式,对每个Analyzed信号补零至10000点。
步骤S32,使用两个一维CNN分别对所述测序样本的Raw信号和Analyzed信号进行分类,分类的类型包括正常和多种异常类型,并结合所述两个一维CNN的分类结果确定最终结果,若两个CNN均输出同一类型,且置信概率均大于0.9,则认为分类的类型准确,否则认为分类的类型不准确,转为人工识别,直接判断所述测序样本是否合格。
步骤S4:对于分类类型准确的测序样本,如果分类为非染料峰的测序结果,根据质检规程直接判定所述测序样本是否合格;若分类为染料峰的测序结果,使用SVM1判断所述染料峰是否严重和使用SVM2判断是否存在染料峰导致的碱基错读,若SVM1判断染料峰严重,和/或SVM2判断存在染料峰导致的碱基错读,则判断所述染料峰测序样本不合格,反之认为所述染料峰测序样本合格。
对于分类类型准确的测序样本,如果分类为非染料峰的测序结果,根据质检规程直接判定所述测序结果是否合格;例如被分类为正常的样本,可以直接判定为合格;被分类为poly结构、GC含量高等类型的样本,由于这些异常是由样品本身引起的,与测序实验无关,通常也可以判定为合格;被分类为信号干扰、模板过量、信号降解等类型的样本,由于是测序实验中试剂、模板、人员操作等原因引起的,通常可以判定为不合格。除了上述可以直接确定质检结果的异常类型外,个别异常类型需要叠加额外条件判断是否合格。例如,对于被分类为引物不纯的测序结果,当引物由客户自备时判定为合格,当引物由实验室合成时判定为不合格。
若分类为染料峰的测序结果,使用SVM1判断所述染料峰是否严重和使用SVM2判断是否存在染料峰导致的碱基错读,若SVM1判断染料峰严重,和/或SVM2判断存在染料峰导致的碱基错读,则判断所述染料峰测序样本不合格,反之认为所述染料峰测序样本合格。
染料峰的质检结果判定无法直接通过逻辑判断实现,而人工在判断染料峰时,除了需要检查染料峰的严重程度,还需要对染料峰附近每个碱基进行单独检查,这使得染料峰的合格判定是一项极其复杂的工作。此外,染料峰是Sanger测序中非常常见的一种异常,许多被判定为合格的样本都会存在轻微的染料峰。因此,实现染料峰的质检结果自动判定,对于提高Sanger测序质检效率至关重要。
本发明针对染料峰开发了一种基于SVM的合格判定方法,具体方法如下:染料峰被判定为不合格的情况有两种:一是染料峰出现较为严重,高度过高导致下方碱基QV值降低;二是染料峰导致碱基的错误读取。因此,需要将染料峰分为三种类型:染料峰合格、染料峰严重、染料峰导致碱基错读。由于染料峰错读样本收集较为困难,本发明选用适合小样本的SVM作为分类器。此外,由于SVM是一种二分类模型,因此分别使用两个SVM判断染料峰是否严重和是否存在染料峰导致的碱基错读。分类流程如图2所示,若两个SVM判断染料峰严重或存在碱基错读,认为该染料峰样本不合格,反之认为合格。
SVM的分类性能取决于提取的特征。由于染料峰主要出现在80bp附近,因此对识别为染料峰的测序结果的Analyzed信号截取65-95bp片段进行特征提取。
对于SVM1,提取的特征包括:特征A:该片段T、C通道中的最大信号值与Analyzed信号整体平均峰高之比;特征B:该片段中超过1.5倍全局平均峰高的T、C信号点数,与该片段中总T、C信号点数之比。
对于SVM2,提取的特征包括:特征C:该片段中最小碱基间距,与Analyzed信号整体平均碱基间距之比;特征D:该片段中最小的碱基间距对应的两个碱基的平均QV值。
实施例二:解析Sanger测序仪生成的测序样本.ab1测序结果文件
测序结果由ABI 3730XL测序仪生成,保存为.ab1格式的测序结果文件。使用BioPython的SeqIO模块对.ab1文件进行解析,获取所需数据。以样本X-19-(1492R)(2022-01-04 4584(20220105-021))为例,获取的数据如图3所示。图3a为Raw信号缩略图(人工质检时通常看Raw整体);图3b为Analyzed信号局部图(人工质检时通常看Analyzed局部);图3c展示了Analyzed信号中每个碱基峰对应的QV;图3d展示了该样本的Start和Stop参数。
实施例三:S2中MobileNetV3的训练
MobileNetV3是一种经典的轻量级图像分类网络,本发明直接使用MobileNetV3的small版本进行训练,以实现对Raw信号有效段完整性的识别,MobileNetV3的训练步骤如下:
1. 数据集构建和预处理
数据集包含8296个.ab1格式测序结果文件,由人工划分为有效段完整和不完整两类。两类的样本数分别为7043和1253。由于样本类型不均衡可能会影响分类性能,因此需要对数据集进行扩充。具体来说,对于有效段不完整的样本,在绘制带颜色标记的Raw信号图像时,保持Start参数不变,通过随机生成4种与原始Stop参数不同的Stop参数值,并分别用包含原始Stop参数在内的5个Stop参数值绘制带颜色标记的Raw信号图像,实现将有效段不完整的带颜色标记Raw信号图像数量扩充为原来的5倍。上述带颜色标记的Raw信号图像绘制的分辨率均为448×224。
经过扩充后绘制的带颜色标记Raw图像数据集中,包含7043个有效段完整图像和6465个有效段不完整图像,并按照8:2的比例随机划分为训练集和验证集。
每个样本在输入至神经网络之前,还需要进行标准化处理。统计扩充后的数据集中所有带颜色标记Raw信号图像R、G、B通道的均值和标准差,分别为[0.91192062、0.98947678、0.92240627]和[0.25798888、0.06350485、 0.23926936],进一步地使用各个通道的均值和标准差,对每个图片的每个颜色通道进行Z-Score标准化处理。
2. 训练参数设置
模型基于Pytorch深度学习框架搭建。训练的epochs设置为100,初始学习率设置为0.001,优化器使用Adam,Batch Size设置为16。
实施例四:Raw信号有效段完整性识别
以样本11707-(-)-20230202-M13E04为例,使用训练好的MobileNetV3进行识别。首先对.ab1文件中解析出的原始Raw信号(图4a)和Start、Stop参数,其中Start参数和Stop参数分别为2411和12870。将Start至Stop之间的信号以红色绘制,将其余部分信号以蓝色绘制(图4b),绘制的图像分辨率为448×224。然后按照训练数据集总体均值和标准差,对图像进行标准化操作。
将样本预处理后的带颜色标记Raw信号图像输入至训练好的MobileNetV3中进行分类,分类结果为“有效段不完整”,需要进行重新提取有效段。将该样本的.ab1文件输入至Sequence Analysis 5.2重新提取有效段。重新提取后的Stop参数变为18774,Start参数不变,再次绘制带颜色标记信号(图4c)并在进行预处理后再次输入MobileNetV3,被分类为“有效段完整”,进入后续异常识别环节。
实施例五:用于异常识别的1D-CNN构建
本发明使用两个1D-CNN,分别实现对Raw信号和Analyzed信号的异常识别,并综合两个CNN的识别结果判断最终异常,以保证识别结果的准确性。由于Raw信号和Analyzed具有相似的尺度,因此两个1D-CNN具有相同的结构和参数(图5)。实验表明复杂的卷积结构并不会对异常识别的性能来带显著提升,并且将复杂的结构用于两个卷积神经网络会来带巨大的计算量,因此本发明设计的1D-CNN中仅使用了基础的卷积特征提取模块。由于Raw信号和Analyzed信号中一个碱基信号峰约占有10-20个采样点,而一些测序异常往往需要考虑几个甚至十几个碱基信号峰才能够正确识别,因此为了使特征图具有更大的感受野,所设计的1DCNN模型包含的四个卷积层中,第一个卷积层卷积核大小设置为7,后续卷积层卷积核大小设置为5。
两个CNN的训练步骤如下:
(1)数据集构建和预处理
数据集包含17000个来源于PCR产物、质粒、菌液的测序结果的Raw信号和Analyzed信号,人工划分为17种异常类型,并按照8:2的比例随机划分训练集和验证集。每个样本的Raw信号和Analyzed信号在输入1D-CNN之前按照S3所述进行预处理。
(2)训练参数设置
两个1D-CNN采用相同的训练超参数,训练的epochs设置为100,初始学习率设置为0.001,优化器使用Adam,Batch Size设置为32。
实施例六:测序信号异常识别实例
以样本6e-16(CrETT-F)(2021-01-09 7289)(20210109-066)、9-Dcm-Tpm1-40(TPM1-TetON)(2021-01-07 26523)(20210106-088-J0107)、1B4(ARF-5F3)(2023-01-049468)(20230105-035)、1(F)(2022-03-17 43773)(20220317-077)和11707-(-)-20230202-M13E04为例,分别提取每个样本Raw信号和Analyzed信号。对Raw信号和Analyzed信号进行S3所述预处理后,分别输入至两个训练好的1D-CNN识别异常类型。
表1展示了CNN对三个样本Raw信号和Analyzed信号的分类结果和置信概率,以及最终判断的异常结果。
第一个样本的Raw和Analyzed信号识别结果不一致,认为识别可信度低,故转人工进行质检,由人工直接判断测试样品是否合格;
第二个样本的Raw和Analyzed信号识别类型相同,但Raw信号置信度仅有0.78,认为可信度低,故转人工进行质检,由人工直接判断测试样品是否合格;
第三、四、五个样本的Raw和Analyzed信号识别类型相同且置信度均大于0.9,因此认为可信度较高,使用CNN输出的类型作为识别结果,并进一步地进入S4判定最终质检结果。
表1
实施例七:质检结果判定
以实施例五的后三个样本和表2所示质检规程为例:
样本1B4(ARF-5F3)(2023-01-04 9468)(20230105-035)类型为poly结构,直接判定为合格;
样本9-Dcm-Tpm1-40(TPM1-TetON)(2021-01-07 26523)(20210106-088-J0107)类型为引物不纯,引物为实验室合成引物,故判定为不合格;
样本11707-(-)-20230202-M13E04为染料峰,对染料峰进行进一步识别(见实施例九)。
表2 质检规程样例
实施例八:用于染料峰分类的SVM构建
S4所述两个SVM的训练步骤如下:
(1)数据集构建
训练数据包含三种由人工划分的类型染料峰样本,分别是合格染料峰、严重染料峰、导致碱基错读的染料峰,样本数量分别为124、135和87,按照9:1的比例随机划分训练集和验证集。
(2)特征提取和预处理
截取每个样本Analyed信号的65-95bp所在片段,对所截取片段提取S4所述特征A、B、C、D。对于每个特征,统计所有样本中该特征的最大值和最小值作为归一化参数,并使用Max-Min方法对每个样本的特征归一化。
(3)训练SVM分类器
两个SVM基于Python+Sklearn实现,均采用相同的参数设置,核函数采用线性核函数,惩罚因子C设置为1.0。
实施例九:染料峰识别
以样本11707-(-)-20230202-M13E04、样本20230317-M01D09和样本VT2214-1(CMV-Profor(CMV-F))(2023-03-11 86290)(20230310-008-Q0311)为例,三个样本的异常识别结果均为染料峰,包含染料峰的片段如图6所示。
表3展示了三个样本所提取的特征A、特征B、特征C、特征D(未经归一化),以及将归一化的特征A、B输入至SVM1和将归一化的特征C、D输入至SVM2的分类结果。如表3所示,样本3与样本1、2的特征A和特征B表现出较大差异,并被SVM1分类为严重染料峰,而样本1、2被分类为轻微染料峰;样本2的特征C和特征D与样本1、3表现出较大差异,并被SVM2分类为有碱基错读,而样本1,3被分类为无碱基错读。
对于样本1,由于两个SVM未识别出严重染料峰和碱基错读,因此判定为合格;
对于样本2,由于被SVM2分类为碱基错读,因此判定为不合格;
对于样本3,由于被SVM1分类为严重染料峰,因此判定为不合格。
表3
应该理解到披露的本发明不仅仅限于描述的特定的方法、方案和物质,因为这些均可变化。还应理解这里所用的术语仅仅是为了描述特定的实施方式方案的目的,而不是意欲限制本发明的范围,本发明的范围仅受限于所附的权利要求。
本领域的技术人员还将认识到,或者能够确认使用不超过常规实验,在本文中所述的本发明的具体的实施方案的许多等价物。这些等价物也包含在所附的权利要求中。

Claims (7)

1.基于CNN和SVM的Sanger测序结果质检方法,其特征在于,所述方法包括以下步骤:
步骤S1,解析Sanger测序仪生成的测序样本.ab1测序结果文件,获取所述测序结果质检所需的数据,所述数据包括Raw信号有效段的起点位Start参数和止点位Stop参数,和每个碱基峰点在Analyzed信号中的位置和每个碱基对应的QV值;
步骤S2,测序信号完整性识别,包括判断所述Raw信号从所述起点位Start参数到所述止点位Stop参数是否完整覆盖所述Raw信号有效信号段;对于有效信号段不完整的测序结果,重新截取Raw信号有效段并生成包含完整信息的Analyzed信号,直至得到有效信号段完整的测序结果;对于有效信号段完整的测序结果,可以直接进入测序信号异常识别;
步骤S3,在测序信号完整后,进行所述测序信号异常识别,具体包括:
步骤S31,对步骤2得到的所述Raw信号和所述Analyzed信号进行预处理,其中对所述Raw信号预处理包括Raw信号标准化和统一信号长度;
对所述Analyzed信号预处理包括:a. 根据步骤S1中每个碱基峰点在Analyzed信号中的位置,截取Analyzed信号的50-750bp,对于不足750bp的Aanlyzed信号,截取50bp至最后一个碱基;b. 根据步骤S1中每个碱基峰点位置,进行基于平均峰高的标准化;和c.对样本的Analyzed信号进行信号长度统一;
步骤S32,使用两个一维CNN分别对所述测序样本的Raw信号和Analyzed信号进行分类,分类的类型包括正常和多种异常类型,并结合所述两个一维CNN的分类结果确定最终结果,若两个CNN均输出同一类型,且置信概率均大于0.9,则认为分类的类型准确,否则认为分类的类型不准确,转为人工识别,直接判断所述测序结果是否合格;和
步骤4:对于分类类型准确的测序结果,如果分类为非染料峰的测序结果,根据质检规程直接判定所述测序结果是否合格;若分类为染料峰的测序结果,使用SVM1判断所述染料峰是否严重和使用SVM2判断是否存在染料峰导致的碱基错读,若SVM1判断染料峰严重,和/或SVM2判断存在染料峰导致的碱基错读,则判断所述染料峰测序结果不合格,反之认为所述染料峰测序结果合格。
2.根据权利要求1所述的方法,其特征在于,在步骤S2中,绘制带颜色标记的待测样本的Raw信号图像,将所述Raw信号的起点位Start参数的信号点值和止点位Stop参数的信号点值之间和之外的信号点值分别以不同颜色绘制,将绘制的带颜色标记的Raw信号图像输入至轻量级图像分类网络MobileNetV3进行分类,判断所述Raw信号有效信号段是否完整。
3.根据权利要求2所述的方法,其特征在于,对于有效段不完整的测序结果,使用Sequence Analysis 5.2人工设定所述Raw信号的起点位Start参数和止点位Stop参数,直至所述Raw信号有效信号段完整。
4.根据权利要求1所述的方法,其特征在于,在步骤S31中,对所述Raw信号标准化采用Z-Score方法进行标准化;和/或,使用线性插值方法对每个Raw信号重采样至20000点。
5.根据权利要求1所述的方法,其特征在于,在步骤S31中进行基于平均峰高的标准化使用修改的Max-Min方法进行标准化:
,x表示输入信号,l表示Analyzed信号总碱基个数,hi表示第i个碱基峰的峰高,hi根据步骤S1中每个碱基峰点在Analyzed信号中的位置得到。
6.根据权利要求1所述的方法,其特征在于,在步骤S31中对样本的Analyzed信号进行信号长度统一时,采用末尾补零的方式,对每个Analyzed信号补零至10000点。
7.根据权利要求1所述的方法,其特征在于,分别使用两个SVM判断所述染料峰是否严重和是否存在染料峰导致的碱基错读,包括以下步骤;
步骤a: 输入所述染料峰的Analyzed信号;
步骤b:对所述Analyzed信号截取65-95bp片段;
步骤c:进行特征提取,SVM1判断所述染料峰是否严重时,所述染料峰提取的特征包括:该片段中T峰和C峰中的最大峰值与所有碱基峰平均峰值之比,该片段中超过1.5倍平均峰高的T峰和C峰采样点数与总采样点数之比;和SVM2判断是否存在染料峰导致的碱基错读时,所述染料峰提取的特征包括:该片段中最小碱基间距与平均碱基间距之比,和最小间距对应的两个碱基QV的平均值。
CN202311817769.8A 2023-12-27 2023-12-27 基于CNN和SVM的Sanger测序结果质检方法 Active CN117473444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311817769.8A CN117473444B (zh) 2023-12-27 2023-12-27 基于CNN和SVM的Sanger测序结果质检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311817769.8A CN117473444B (zh) 2023-12-27 2023-12-27 基于CNN和SVM的Sanger测序结果质检方法

Publications (2)

Publication Number Publication Date
CN117473444A true CN117473444A (zh) 2024-01-30
CN117473444B CN117473444B (zh) 2024-03-01

Family

ID=89640031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311817769.8A Active CN117473444B (zh) 2023-12-27 2023-12-27 基于CNN和SVM的Sanger测序结果质检方法

Country Status (1)

Country Link
CN (1) CN117473444B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718270A (zh) * 2018-06-27 2020-01-21 苏州金唯智生物科技有限公司 基因测序结果类型的检测方法、装置、设备及存储介质
CN112243463A (zh) * 2018-04-09 2021-01-19 小利兰·斯坦福大学托管委员会 原位基因测序方法
CN112313666A (zh) * 2019-03-21 2021-02-02 因美纳有限公司 用于基于人工智能的测序的训练数据生成
US20210183472A1 (en) * 2018-08-18 2021-06-17 Sf17 Therapeutics, Inc. Artificial intelligence analysis of rna transcriptome for drug discovery
CN113571132A (zh) * 2021-09-24 2021-10-29 苏州赛美科基因科技有限公司 一种基于cnv结果判定样本降解的方法
US20230028790A1 (en) * 2019-11-29 2023-01-26 GC Genome Corporation Artificial intelligence-based chromosomal abnormality detection method
WO2023133093A1 (en) * 2022-01-04 2023-07-13 Cornell University Machine learning guided signal enrichment for ultrasensitive plasma tumor burden monitoring
CN116935959A (zh) * 2023-04-25 2023-10-24 山东省农业科学院畜牧兽医研究所 Sanger基因测序结果快速判读方法、系统及介质
CN116959560A (zh) * 2023-03-16 2023-10-27 西安交通大学 基于第三代测序的基因组短变异深度学习检测方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112243463A (zh) * 2018-04-09 2021-01-19 小利兰·斯坦福大学托管委员会 原位基因测序方法
CN110718270A (zh) * 2018-06-27 2020-01-21 苏州金唯智生物科技有限公司 基因测序结果类型的检测方法、装置、设备及存储介质
US20210183472A1 (en) * 2018-08-18 2021-06-17 Sf17 Therapeutics, Inc. Artificial intelligence analysis of rna transcriptome for drug discovery
CN112313666A (zh) * 2019-03-21 2021-02-02 因美纳有限公司 用于基于人工智能的测序的训练数据生成
US20230028790A1 (en) * 2019-11-29 2023-01-26 GC Genome Corporation Artificial intelligence-based chromosomal abnormality detection method
CN113571132A (zh) * 2021-09-24 2021-10-29 苏州赛美科基因科技有限公司 一种基于cnv结果判定样本降解的方法
WO2023133093A1 (en) * 2022-01-04 2023-07-13 Cornell University Machine learning guided signal enrichment for ultrasensitive plasma tumor burden monitoring
CN116959560A (zh) * 2023-03-16 2023-10-27 西安交通大学 基于第三代测序的基因组短变异深度学习检测方法及系统
CN116935959A (zh) * 2023-04-25 2023-10-24 山东省农业科学院畜牧兽医研究所 Sanger基因测序结果快速判读方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢山;焦李成;吴家骥;邓晓政;: "基于图像帧间信息和FS-KFDA的极光序列图像检测算法", 计算机应用研究, no. 01, 15 January 2013 (2013-01-15) *
吴钟佳: "基于特征挖掘的基因组倒位变异检测研究", 《中国优秀硕士论文全文数据库 基础科学辑》, no. 06, 15 June 2020 (2020-06-15) *

Also Published As

Publication number Publication date
CN117473444B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN111242961B (zh) 一种用于pd-l1抗体染色切片的自动读片方法及其系统
CN102687007B (zh) 利用分层标准化切割的高处理量生物标志物分割
US20030091221A1 (en) Method for quantitative video-microscopy and associated system and computer software program product
US20230417700A1 (en) Automated analysis of analytical gels and blots
CN107679569A (zh) 基于自适应超图算法的拉曼光谱物质自动识别方法
CN116287138B (zh) 基于fish的细胞检测系统及其方法
CN113393443A (zh) 一种he病理图像细胞核分割方法及系统
CN116559111A (zh) 一种基于高光谱成像技术的高粱品种识别方法
CN115393645A (zh) 一种土壤自动分类定名方法、系统、存储介质及智能终端
CN117473444B (zh) 基于CNN和SVM的Sanger测序结果质检方法
CN117152152B (zh) 检测试剂盒的生产管理系统及方法
CN114332856A (zh) 一种血型卡图像的特征提取方法、装置及血型判读系统
CN113567605A (zh) 质量色谱图的自动化解释模型构建方法、装置和电子设备
US20040215401A1 (en) Computerized analysis of forensic DNA evidence
CN112613505A (zh) 一种基于深度学习的细胞微核识别、定位和计数方法
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及系统
CN112505337B (zh) 一种辅助分析样品的数据处理方法
CN113850762A (zh) 基于眼前节图像的眼病识别方法、装置、设备及存储介质
CN109829513B (zh) 一种顺序式波长色散x射线荧光光谱智能分析方法
Félix et al. Harmonization of PFGE profile analysis by using bioinformatics tools: example of the Listeria monocytogenes European Union Reference Laboratory network
CN112966789A (zh) 一种烟叶成熟度识别方法、装置及设备
CN117575993B (zh) 一种基于深度学习的滴度值的处理方法及系统
US20220334141A1 (en) Method for classifying an identification tag on a sample tube containing a sample and an automated laboratory system
US20240153112A1 (en) Specimen image registration method and recording medium
EP4246468A1 (en) Method for training an artificial intelligence system, method for recognizing and classifying cells for pathological cell and tissue examination, classifying system, computer-readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant