CN109753939B - 一种hla测序峰图识别方法 - Google Patents

一种hla测序峰图识别方法 Download PDF

Info

Publication number
CN109753939B
CN109753939B CN201910026426.7A CN201910026426A CN109753939B CN 109753939 B CN109753939 B CN 109753939B CN 201910026426 A CN201910026426 A CN 201910026426A CN 109753939 B CN109753939 B CN 109753939B
Authority
CN
China
Prior art keywords
peak
data
peak image
hla
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910026426.7A
Other languages
English (en)
Other versions
CN109753939A (zh
Inventor
丛华剑
王连水
洪轲
徐�明
张倩
李庆林
张琛
齐效乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinfeng Gene Technology Co ltd
Yinfeng Biological Group Ltd
Original Assignee
Yinfeng Gene Technology Co ltd
Yinfeng Biological Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinfeng Gene Technology Co ltd, Yinfeng Biological Group Ltd filed Critical Yinfeng Gene Technology Co ltd
Priority to CN201910026426.7A priority Critical patent/CN109753939B/zh
Publication of CN109753939A publication Critical patent/CN109753939A/zh
Application granted granted Critical
Publication of CN109753939B publication Critical patent/CN109753939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种HLA测序峰图识别方法:(1)构建峰图识别模型:①收集已有的HLA下机峰图数据,②进行预处理,完成二进制ab1文件的信息提取,原始序列比对,序列分割以及错位修复工作;③特征提取;④收集大量人工已识别数据,利用随机森林算法训练数据,构建峰图识别模型;(2)利用峰图识别模型,对待测的HLA一代测序原始下机数据进行碱基识别;(3)整理识别好的碱基序列,将单链与双链部分序列重新组装;(4)输出识别结果。本发明的识别方法可准确获得峰图序列信息,整体准确率在99.5%以上,大大提高了HLA数据判读人员的工作效率。

Description

一种HLA测序峰图识别方法
技术领域
本发明涉及一种HLA测序峰图识别方法,应用于HLA一代(Sanger)测序的峰图识别。
背景技术
目前,开发峰图识别技术是当前的研究热点之一,研发人员开发了多种峰图识别技术,比如:中国发明专利CN 102676657 B公开了一种测序图像的识别系统及方法,是一种根据图像识别判断碱基类型的识别系统。中国发明专利申请CN 108351917 A公开了一种用于高精度识别变体的系统和方法,是一种根据患者序列读段和已知HLA等位基因的参考序列进行匹配并分型的方法;此外,uTYPE HLA Sequencing Software采用了对峰图设定阈值的方法来识别碱基情况。
虽然现有技术存在多种峰图识别技术,但仍存在以下几方面的问题:1.很多方案中不支持复杂的杂合峰识别,而实际HLA分型结果峰图中,杂合峰是较多的,因此会大大影响识别的准确性。2.大部分方案采用设定阈值的方法来进行峰图碱基识别,这种方法对复杂的杂合峰以及因实验引起的干扰峰的识别能力较差,因而无法准确获得峰图序列信息。
发明内容
针对上述现有技术,为了解决HLA一代测序峰图在传统方法中无法准确识别其序列的问题,本发明提供了一种HLA测序峰图识别方法。
本发明是通过以下技术方案实现的:
一种HLA测序峰图识别方法,包括以下步骤:
(1)构建峰图识别模型:
①收集大量人工已识别数据,并导入峰图识别系统的预处理模块中;
②对导入的HLA下机峰图数据进行预处理,完成二进制ab1文件的信息提取,原始序列比对,序列分割以及错位修复工作;
所述“预处理”包括对峰图数据的多项处理:峰图读取、序列比对、错位修复、数据整理;在峰图读取阶段,主要完成下机测序文件的数据识别与读取(将二进制峰图数据文件转换为普通文本数据),根据数据标签提取出需要进一步处理的峰图数据,主要包括峰高值、位置值、质量值与初步的碱基识别信息等;在序列比对阶段,主要完成峰图与参考序列的比对,根据设定好的阈值,截取需要完成分型的主要外显子区域,并对正向测序峰图与反向测序峰图进行匹配;在错位修复阶段,根据上一阶段比对中存在的gap区域进行分析,通过参考序列的比对情况以及正、反向序列的匹配情况,对峰图错位进行识别与修复,避免出现峰图与序列不匹配的情况,识别并删除干扰峰;
③对上述预处理后的峰图信息进行特征提取:将影响峰图判断的关键数据提取出来,用于训练峰图模型;为了准确地表示峰图特征,选择两种特征值进行提取,一种是峰图的有效信号值,该信号值包含了峰的波动信息,从下机文件信息中自动提取;另一种是峰图的位置信息,该信息通过对这段峰图序列的参考序列进行统计获取;最终将峰图的有效信号值与峰位置信息提取成特定格式的信息文件;
④利用随机森林算法训练数据,结合上述提取的信息,构建峰图识别模型;
随机森林算法是机器学习的一种算法,它是一种利用多棵树对样本进行训练并预测的一种分类器;其训练过程主要是:先从训练样本中有放回地随机选择一定数量的样本,生成一个训练集,重复该过程可生成多个这样的训练集,对每个训练集分别构建决策树,多颗决策树形成随机森林,模型构建完成;
(2)利用上述构建好的峰图识别模型,对待测的HLA一代测序原始下机数据进行碱基识别;
(3)整理识别好的碱基序列,将单链与双链部分序列重新组装;
(4)输出识别结果。
本发明的HLA测序峰图识别方法,技术关键点是HLA峰图预处理方法、特征提取方法与随机森林模型的构建与识别。
本发明的HLA测序峰图识别方法,可对杂合峰进行识别,排除干扰峰的影响,准确获得峰图序列信息,从而可解决HLA一代测序峰图无法准确识别其序列的问题,具有识别准确率高、易用性强的特点。本发明的HLA测序峰图识别方法,已在申请人所在公司HLA部门投入使用,在正常峰图情况下已经可以基本替代人工判读,复杂情况下也可以保证较高的识别效果,整体准确率在99.5%以上,大大提高了HLA数据判读人员的工作效率,解决了以往判读数据耗时长、工作量大的难题。
本发明所引述的所有文献,它们的全部内容通过引用并入本文,并且如果这些文献所表达的含义与本发明不一致时,以本发明的表述为准。此外,本发明使用的各种术语和短语具有本领域技术人员公知的一般含义。本发明未详尽描述之处,均为现有技术中已有的方法、技术。
附图说明
图1:本发明的HLA测序峰图识别方法的流程示意图。
图2:峰图预处理的流程示意图。
图3:在专业峰图查看软件中打开峰图。
图4:将二进制峰图数据文件转换为普通文本数据。
图5:在峰图文本数据中找到的部分数据标签。
图6:对峰图进行比对后,根据参考序列与规定参数对峰图进行分割。
图7:对峰图数据进行特征提取,将重要数据经过转换,整理成固定格式。
图8:根据大量已知数据构建的全位点模型。
图9:对未知峰图进行识别,可识别出峰图对应的碱基序列。
具体实施方式
下面结合实施例对本发明作进一步的说明。然而,本发明的范围并不限于下述实施例。本领域的专业人员能够理解,在不背离本发明的精神和范围的前提下,可以对本发明进行各种变化和修饰。
实施例HLA测序峰图识别方法
步骤如下(流程图如图1所示):
(1)构建峰图识别模型:
①收集大量人工已识别数据,并导入峰图识别系统的预处理模块中,如图3所示;
②对导入的HLA下机峰图数据进行预处理,完成二进制ab1文件的信息提取,原始序列比对,序列分割以及错位修复工作;
所述“预处理”包括对峰图数据的多项处理(流程图如图2所示):峰图读取、序列比对、错位修复、数据整理;在峰图读取阶段,主要完成下机测序文件的数据识别与读取(将二进制峰图数据文件转换为普通文本数据,如图4所示),根据数据标签(如图5所示)提取出需要进一步处理的峰图数据,主要包括峰高值、位置值、质量值与初步的碱基识别信息等;在序列比对阶段,主要完成峰图与参考序列的比对,根据设定好的阈值,截取需要完成分型的主要外显子区域,并对正向测序峰图与反向测序峰图进行匹配;在错位修复阶段,根据上一阶段比对中存在的gap区域进行分析,通过参考序列的比对情况以及正、反向序列的匹配情况,对峰图错位进行识别与修复,避免出现峰图与序列不匹配的情况,识别并删除干扰峰,如图6所示;
③对上述预处理后的峰图信息进行特征提取:将影响峰图判断的关键数据提取出来,用于训练峰图模型;为了准确地表示峰图特征,选择两种特征值进行提取,一种是峰图的有效信号值,该信号值包含了峰的波动信息,从下机文件信息中自动提取;另一种是峰图的位置信息,该信息通过对这段峰图序列的参考序列进行统计获取;最终将峰图的有效信号值与峰位置信息提取成特定格式的信息文件,如图7所示;
④利用随机森林算法训练数据,结合上述提取的信息,构建峰图识别模型,如图8所示;
随机森林算法是机器学习的一种算法,它是一种利用多棵树对样本进行训练并预测的一种分类器;其训练过程主要是:先从训练样本中有放回地随机选择一定数量的样本,生成一个训练集,重复该过程可生成多个这样的训练集,对每个训练集分别构建决策树,多颗决策树形成随机森林,模型构建完成;
(2)利用上述构建好的峰图识别模型,对待测的HLA一代测序原始下机数据进行碱基识别,如图9所示;
(3)整理识别好的碱基序列,将单链与双链部分序列重新组装;
(4)输出识别结果。
为了验证该系统的识别能力,对一批HLA一代测序下机数据进行统计,分别采用传统识别软件(由One Lambda开发的uTYPETM HLA Sequence Analysis Software)与本发明的峰图智能识别方法对一共78193个峰图进行了识别,本发明的峰图智能识别方法准确识别了其中78147个峰图,准确率达到99.9%(以人工判读结果为准),传统识别软件准确识别了76129个峰图,准确率为97.4%。
给本领域技术人员提供上述实施例,以完全公开和描述如何实施和使用所主张的实施方案,而不是用于限制本文公开的范围。对于本领域技术人员而言显而易见的修饰将在所附权利要求的范围内。

Claims (5)

1.一种HLA测序峰图识别方法,其特征在于:包括以下步骤:
(1)构建峰图识别模型:
①收集大量人工已识别数据,并导入峰图识别系统的预处理模块中;
②对导入的HLA下机峰图数据进行预处理,完成二进制ab1文件的信息提取,原始序列比对,序列分割以及错位修复工作;
③对上述预处理后的峰图信息进行特征提取:将影响峰图判断的关键数据提取出来,用于训练峰图模型;选择两种特征值进行提取,一种是峰图的有效信号值,该信号值包含了峰的波动信息,从下机文件信息中自动提取;另一种是峰图的位置信息,该信息通过对这段峰图序列的参考序列进行统计获取;最终将峰图的有效信号值与峰位置信息提取成信息文件;
④利用随机森林算法训练数据,结合上述提取的信息,构建峰图识别模型;
(2)利用上述构建好的峰图识别模型,对待测的HLA一代测序原始下机数据进行碱基识别;
(3)整理识别好的碱基序列,将单链与双链部分序列重新组装;
(4)输出识别结果。
2.根据权利要求1所述的HLA测序峰图识别方法,其特征在于:所述步骤②“预处理”包括对峰图数据的多项处理:峰图读取、序列比对、错位修复、数据整理;在峰图读取阶段,主要完成下机测序文件的数据识别与读取,根据数据标签提取出需要进一步处理的峰图数据,主要包括峰高值、位置值、质量值与初步的碱基识别信息;在序列比对阶段,主要完成峰图与参考序列的比对,根据设定好的阈值,截取需要完成分型的主要外显子区域,并对正向测序峰图与反向测序峰图进行匹配;在错位修复阶段,根据上一阶段比对中存在的gap区域进行分析,通过参考序列的比对情况以及正、反向序列的匹配情况,对峰图错位进行识别与修复,避免出现峰图与序列不匹配的情况。
3.根据权利要求2所述的HLA测序峰图识别方法,其特征在于:在峰图读取阶段,进行数据识别时,将二进制峰图数据文件转换为普通文本数据。
4.根据权利要求2所述的HLA测序峰图识别方法,其特征在于:在错位修复阶段,识别并删除干扰峰。
5.根据权利要求1所述的HLA测序峰图识别方法,其特征在于:所述步骤④中训练过程是:先从训练样本中有放回地随机选择一定数量的样本,生成一个训练集,重复该过程可生成多个这样的训练集,对每个训练集分别构建决策树,多颗决策树形成随机森林,模型构建完成。
CN201910026426.7A 2019-01-11 2019-01-11 一种hla测序峰图识别方法 Active CN109753939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910026426.7A CN109753939B (zh) 2019-01-11 2019-01-11 一种hla测序峰图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910026426.7A CN109753939B (zh) 2019-01-11 2019-01-11 一种hla测序峰图识别方法

Publications (2)

Publication Number Publication Date
CN109753939A CN109753939A (zh) 2019-05-14
CN109753939B true CN109753939B (zh) 2021-04-20

Family

ID=66405544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910026426.7A Active CN109753939B (zh) 2019-01-11 2019-01-11 一种hla测序峰图识别方法

Country Status (1)

Country Link
CN (1) CN109753939B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322931B (zh) * 2019-05-29 2024-05-14 南昌大学 一种碱基识别方法、装置、设备及存储介质
CN112669903B (zh) * 2020-12-29 2024-04-02 北京旌准医疗科技有限公司 基于Sanger测序的HLA分型方法及设备
CN114854737B (zh) * 2022-03-11 2023-07-14 郑州大学 基于三代测序平台的i类hla基因扩增引物、试剂盒及分型方法
CN115684606B (zh) * 2022-10-21 2023-11-28 南方医科大学珠江医院 一种m蛋白检测的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101910399A (zh) * 2007-10-30 2010-12-08 考利达基因组股份有限公司 用于核酸高通量测序的装置
CN101984445A (zh) * 2010-03-04 2011-03-09 深圳华大基因科技有限公司 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
CN102676657A (zh) * 2012-04-18 2012-09-19 盛司潼 一种测序图像的识别系统及方法
CN103593659A (zh) * 2013-11-26 2014-02-19 华南农业大学 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法
EP2844769A1 (en) * 2012-05-03 2015-03-11 Zhong Wu Gene expression signature for il-6/stat3 signaling pathway and use thereof
CN105256021A (zh) * 2015-10-16 2016-01-20 福建医科大学 基于Sanger测序灵敏检测人类EGFR基因突变的方法及其试剂盒
CN105303187A (zh) * 2015-12-10 2016-02-03 北京中科紫鑫科技有限责任公司 一种dna测序的图像识别方法及装置
WO2017077499A1 (en) * 2015-11-04 2017-05-11 Genomics Applications And Informatics Technology (Ganit) Labs Biomarkers of squamous cell carcinoma of head and neck, prognostic markers of recurrence in squamous cell carcinoma of head and neck, and methods thereof
CN107841538A (zh) * 2017-11-23 2018-03-27 合肥金域医学检验所有限公司 用于检测cebpa基因突变的引物及检测方法
CN108350494A (zh) * 2015-08-06 2018-07-31 阿柯生物有限公司 用于基因组分析的系统和方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101910399A (zh) * 2007-10-30 2010-12-08 考利达基因组股份有限公司 用于核酸高通量测序的装置
CN101984445A (zh) * 2010-03-04 2011-03-09 深圳华大基因科技有限公司 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
CN102676657A (zh) * 2012-04-18 2012-09-19 盛司潼 一种测序图像的识别系统及方法
EP2844769A1 (en) * 2012-05-03 2015-03-11 Zhong Wu Gene expression signature for il-6/stat3 signaling pathway and use thereof
CN103593659A (zh) * 2013-11-26 2014-02-19 华南农业大学 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法
CN108350494A (zh) * 2015-08-06 2018-07-31 阿柯生物有限公司 用于基因组分析的系统和方法
CN105256021A (zh) * 2015-10-16 2016-01-20 福建医科大学 基于Sanger测序灵敏检测人类EGFR基因突变的方法及其试剂盒
WO2017077499A1 (en) * 2015-11-04 2017-05-11 Genomics Applications And Informatics Technology (Ganit) Labs Biomarkers of squamous cell carcinoma of head and neck, prognostic markers of recurrence in squamous cell carcinoma of head and neck, and methods thereof
CN105303187A (zh) * 2015-12-10 2016-02-03 北京中科紫鑫科技有限责任公司 一种dna测序的图像识别方法及装置
CN107841538A (zh) * 2017-11-23 2018-03-27 合肥金域医学检验所有限公司 用于检测cebpa基因突变的引物及检测方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"32-OR: Clustering HLA alleles by sequence feature variant type (SFVT)";Loren Gragert 等;《Human Immunology》;20111031;第72卷(第S1期);S177 *
"桉树基因测序数据SNP的模式识别方法的研究";林伟森;《中国优秀硕士学位论文全文数据库-农业科技辑》;20170315;第2017年卷(第3期);D049-276 *

Also Published As

Publication number Publication date
CN109753939A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109753939B (zh) 一种hla测序峰图识别方法
CA2152211C (en) System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing networks
CN111352971A (zh) 银行系统监控数据异常检测方法及系统
CN110705607B (zh) 一种基于循环重标注自助法的行业多标签降噪方法
CN110807098A (zh) 基于BiRNN深度学习的DGA域名检测方法
CN110909224B (zh) 一种基于人工智能的敏感数据自动分类识别方法及系统
CN114297987B (zh) 基于文本分类和阅读理解的文档信息抽取方法及系统
CN113434685A (zh) 一种资讯分类处理的方法及系统
CN111273911A (zh) 基于双向lstm和注意力机制的软件技术债务识别方法
CN110909542A (zh) 智能语义串并分析方法及系统
CN110990711B (zh) 基于机器学习的微信公众号推荐方法及系统
CN111899027A (zh) 一种反欺诈模型的训练方法及装置
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN110516722B (zh) 一种基于主动学习的需求与代码之间可追踪性的自动生成方法
CN117093260A (zh) 一种基于决策树分类算法的融合模型网站结构解析方法
CN110718270B (zh) 基因测序结果类型的检测方法、装置、设备及存储介质
CN114519343A (zh) 基于95598的重复来电预处理方法、装置、设备及存储介质
CN113658108A (zh) 一种基于深度学习的玻璃缺陷检测方法
CN113269101A (zh) 一种票据识别方法、装置和设备
CN113657373A (zh) 一种文书自动编目方法
CN111651960A (zh) 一种从合同简体迁移到繁体的光学字符联合训练及识别方法
CN105537131A (zh) 一种基于多样化信息协同的邮件分拣系统
CN112748951B (zh) 基于XGBoost的自承认技术债务多分类方法
CN1235319A (zh) 对被显示的一个项目上的模式进行识别的设备和方法
KR20040038384A (ko) 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Cong Hua Jian

Inventor after: Wang Lianshui

Inventor after: Hong Ke

Inventor after: Xu Ming

Inventor after: Zhang Qian

Inventor after: Li Qinglin

Inventor after: Zhang Chen

Inventor after: Qi Xiaoqian

Inventor before: Cong Hua Jian

Inventor before: Wang Lianshui

Inventor before: Xu Ming

Inventor before: Zhang Qian

Inventor before: Li Qinglin

Inventor before: Zhang Chen

Inventor before: Qi Xiaoqian

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant