CN114841294B - 一种检测染色体结构异常的分类器模型训练方法及装置 - Google Patents

一种检测染色体结构异常的分类器模型训练方法及装置 Download PDF

Info

Publication number
CN114841294B
CN114841294B CN202210776303.7A CN202210776303A CN114841294B CN 114841294 B CN114841294 B CN 114841294B CN 202210776303 A CN202210776303 A CN 202210776303A CN 114841294 B CN114841294 B CN 114841294B
Authority
CN
China
Prior art keywords
chromosome
normal
real
defect
artificial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210776303.7A
Other languages
English (en)
Other versions
CN114841294A (zh
Inventor
宋宁
韦然
晏青
吕明
马伟旗
贾瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Daigens Biotech Ltd
Original Assignee
Hangzhou Daigens Biotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Daigens Biotech Ltd filed Critical Hangzhou Daigens Biotech Ltd
Priority to CN202210776303.7A priority Critical patent/CN114841294B/zh
Publication of CN114841294A publication Critical patent/CN114841294A/zh
Application granted granted Critical
Publication of CN114841294B publication Critical patent/CN114841294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种检测染色体结构异常的分类器模型训练方法及装置。上述训练方法包括:获取真实正常染色体,并获取真实正常同源染色体对之间的第一差异矩阵,真实正常同源染色体对中互为同源的两个染色体均为真实正常染色体;基于真实正常染色体构造人造缺陷染色体,并获取人造缺陷同源染色体对之间的第二差异矩阵,人造缺陷同源染色体对中互为同源的两个染色体中的至少一个为人造缺陷染色体;至少以第一差异矩阵和第二差异矩阵为样本进行训练,以获得检测染色体结构异常的分类器模型;以基于分类器模型判断待诊断用户是否存在染色体异常。本发明通过人为构造不同种类和数量丰富的结构异常染色体,为分类器模型训练提供足量且均衡的样本。

Description

一种检测染色体结构异常的分类器模型训练方法及装置
技术领域
本发明涉及染色体的结构异常的检测,尤其涉及检测染色体结构异常的分类器模型训练方法及装置。
背景技术
染色体异常,包括染色体DNA的缺失、重复或不规则部分,是各种遗传疾病的根本原因。大约0.6%的活产婴儿会出现染色体异常,这通常会导致畸形和/或发育障碍。染色体异常引起的疾病会导致严重后果,比如:由染色体异常造成的流产和死产占25%,以及妊娠早期流产的50%-60%。在染色体异常检测的帮助下,临床医生可以识别所有可能导致出生缺陷的异常。根据对染色体异常的一般理解,它们大致可分为两种类型:数量异常和结构异常。前者指染色体数量上出现的异常。一个健康的人类细胞包含23或24种类型的46条染色体。因此,通过精确观察染色体数量,可以很容易地检测到数量异常。而结构异常是一个更具挑战性的类型。
染色体结构异常指的是大的染色体突变引起的染色体异常。基于现有的染色体核型分类与成像技术,染色体数量异常可以较为直观、容易地识别出来。而不同于染色体数量异常的直观检测,由于染色体结构异常表现在单个或多个染色体核型的图像局部上,与数量异常只需要普通人借助显微镜就可以观察得到相比,结构异常需要具有足够的关于核型知识的人类专家才能检测得出来。更具体地说,结构异常包括各种形式,基于领域知识的检测过程不能用具体规则代替。另一方面,人类专家诊断结构异常也需要很长时间。根据医生的真实检测过程,每个潜在患者都有10多张核型照片,每张核型照片中最多有46条染色体。因此,人工检测结构异常既复杂又耗时。
有鉴于此,希望能够借助于深度学习算法实现染色体结构异常的自动筛查,从而能够有效地提高染色体结构异常的筛查效率。在借助于深度学习算法实现染色体结构异常的自动筛查时,最终需要经过检测染色体结构异常的分类器模型来实现正常染色体和异常染色体的分类筛查。
受限于客观真实结构异常染色体种类和数量的不丰富以及获取的高成本和难度,仅使用现有少量真实结构异常染色体,无法支撑复杂深度识别模型的构建,因此,如何对分类器模型进行训练,从而形成能够准确地筛查出染色体异常的分类器模型则是本领域技术人员急需要解决的问题。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
为了解决现有技术中,若需要借助于深度学习算法自动筛查染色体结构异常的检测方法,则需要训练能够精准分类正常、异常结构染色体的分类器模型,而受限客观真实结构异常染色体种类和数量的不丰富以及获取的高成本和难度,仅使用现有少量真实结构异常染色体,无法支撑复杂深度识别模型的构建的问题,本发明提供了一种检测染色体结构异常的分类器模型训练方法及装置。
本发明的一方面所提供的检测染色体结构异常的分类器模型训练方法包括:获取真实正常染色体,并获取真实正常同源染色体对之间的第一差异矩阵,所述真实正常同源染色体对中互为同源的两个染色体均为真实正常染色体;基于所述真实正常染色体构造人造缺陷染色体,并获取人造缺陷同源染色体对之间的第二差异矩阵,所述人造缺陷同源染色体对中互为同源的两个染色体中的至少一个为所述人造缺陷染色体;至少以所述第一差异矩阵和所述第二差异矩阵为样本进行训练,以获得检测染色体结构异常的分类器模型;其中所述分类器模型被配置为,响应于接收到待诊断用户的同源染色体对之间的差异矩阵,判断所述待诊断用户是否存在染色体异常。
在上述分类器模型训练方法的一实施例中,可选的,所述分类器模型训练方法还包括:获取真实缺陷染色体,并获取真实缺陷同源染色体对之间的第三差异矩阵,所述真实缺陷同源染色体对中互为同源的两个染色体分别为所述真实缺陷染色体和所述真实正常染色体;以及以所述第三差异矩阵为样本对所述分类器模型进行训练,以优化所述分类器模型。
在上述分类器模型训练方法的一实施例中,可选的,所述分类器模型训练方法还包括:对来自同一位真实用户的多个细胞中的真实缺陷染色体,基于多个细胞中同一类型、同一缺陷的真实缺陷同源染色体对的多个第三差异矩阵获取该真实用户的该种类的第三差异组合矩阵;将该真实用户的该种类的第三差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的真实缺陷同源染色体对的第三差异特征矩阵;其中以不同真实用户的、不同种类、不同缺陷的用户级别的第三差异特征矩阵为所述样本进行训练。
在上述分类器模型训练方法的一实施例中,可选的,获取真实正常染色体,并获取真实正常同源染色体对之间的第一差异矩阵进一步包括:获取多位真实用户的染色体图像数据,并根据所述染色体图像数据获取各所述真实用户的各细胞的至少一条真实正常染色体中的姐妹染色单体的真实正常单体序列数据;对于各所述真实正常染色体,合并其姐妹染色单体的真实正常单体序列数据为所述真实正常染色体的真实正常序列数据,并在所述真实正常序列数据中拼接所述真实正常染色体的类型数据和条带数数据,以获取表征所述真实正常染色体的真实正常特征矩阵;以及对各所述细胞中互为同源的真实正常同源染色体对,对所述真实正常同源染色体对的两个真实正常特征矩阵进行自适应结构对齐的相似度计算,以获取表征所述真实正常同源染色体对之间差异的所述第一差异矩阵。
在上述分类器模型训练方法的一实施例中,可选的,所述基于所述真实正常染色体构造人造缺陷染色体进一步包括:根据至少一个缺陷构造参数对所述真实正常染色体的真实正常单体序列数据进行修改,以获取对应于所述真实正常染色体的至少一条人造缺陷染色体的缺陷姐妹染色单体的人造缺陷单体序列数据;以及对于各所述人造缺陷染色体,合并所述缺陷姐妹染色单体的人造缺陷单体序列数据为所述人造缺陷染色体的人造缺陷序列数据,并在所述人造缺陷序列数据中拼接所述人造缺陷染色体的类型数据和条带数数据,以获取表征所述人造缺陷染色体的人造缺陷特征矩阵。
在上述分类器模型训练方法的一实施例中,可选的,所述根据所述染色体图像数据获取各所述真实用户的各细胞的至少一条真实正常染色体中的姐妹染色单体的真实正常单体序列数据进一步包括:图像细化所述染色体图像数据以提取所述真实正常染色体的骨架线;以及基于所述骨架线的延伸方向,获取所述骨架线上预定数量的垂直扫描线的灰度平均值,以获得表征所述延伸方向的、预定数量长度的灰度平均值的数列为所述真实正常单体序列数据。
在上述分类器模型训练方法的一实施例中,可选的,所述根据至少一个缺陷构造参数对所述真实正常染色体的真实正常单体序列数据进行修改进一步包括:将所述真实正常单体序列数据转化为真实正常灰度值曲线;根据所述缺陷构造参数确定所述真实正常灰度值曲线上的至少一个断裂点和缺陷曲线片段;基于所述断裂点在所述真实正常灰度值曲线上增加和/或删减所述缺陷曲线片段,以获取人造缺陷灰度值曲线;对所述人造缺陷灰度值曲线进行平滑处理和/或长度标准化处理;以及将经过平滑处理和/或长度标准化处理的人造缺陷灰度值曲线转化为所述人造缺陷单体序列数据。
在上述分类器模型训练方法的一实施例中,可选的,获取所述真实正常单体序列数据进一步包括:根据所述染色体图像数据确定所述真实正常染色体的着丝粒位置以及所述真实正常染色体的长、短臂;其中根据所述缺陷构造参数确定所述真实正常灰度值曲线上的至少一个断裂点和缺陷曲线片段进一步包括:根据所述缺陷构造参数确定所述至少一个断裂点的数量和位置,所述位置表征相对于所述着丝粒和/或长、断臂的位置;以及根据所述缺陷构造参数确定所述缺陷曲线片段的染色体来源、长度、方向中的至少一者。
在上述分类器模型训练方法的一实施例中,可选的,响应于已经构造了所述人造缺陷染色体,所述获取人造缺陷同源染色体对之间的第二差异矩阵进一步包括:对所述人造缺陷特征矩阵和与所述人造缺陷染色体互为同源的正常同源染色体的特征矩阵进行自适应结构对齐的相似度计算,以获取所述第二差异矩阵,所述第二差异矩阵表征所述人造缺陷染色体和正常同源染色体之间的差异;其中所述正常同源染色体为构造所述人造缺陷染色体所依据的真实正常染色体;和/或,所述正常同源染色体为基于所述人造缺陷染色体构造的人造正常染色体。
在上述分类器模型训练方法的一实施例中,可选的,所述分类器模型训练方法还包括:基于所述断裂点在经过平滑处理和/或长度标准化处理的人造缺陷灰度值曲线上删减和/或增加所述缺陷曲线片段,以对所述人造缺陷灰度值曲线逆修改得到人造正常灰度值曲线;对所述人造正常灰度值曲线进行平滑处理和/或长度标准化处理;将经过平滑处理和/或长度标准化处理的人造正常灰度值曲线转化为人造正常单体序列数据;以及合并所述人造正常单体序列数据为所述人造正常染色体的人造正常序列数据,并在所述人造正常染色体的序列数据中拼接所述人造正常染色体的类型数据和条带数数据,以获取表征所述人造正常染色体的人造正常特征矩阵。
在上述分类器模型训练方法的一实施例中,可选的,所述分类器模型训练方法还包括:对于互为同源的所述人造正常染色体和所述真实正常染色体构成的人造-真实正常同源染色体对,对所述人造正常特征矩阵和所述真实正常特征矩阵进行自适应结构对齐的相似度计算,以获取表征人造-真实正常同源染色体对之间差异的第四差异矩阵;其中至少以所述第一差异矩阵和所述第二差异矩阵为样本对所述原始模型进行训练,以获得所述分类器模型进一步包括:以所述第一差异矩阵、所述第二差异矩阵和所述第四差异矩阵为样本对所述原始模型进行训练,以获得所述分类器模型。
在上述分类器模型训练方法的一实施例中,可选的,所述分类器模型训练方法还包括:对来自同一位所述真实用户的多个细胞中的真实正常染色体,基于多个细胞中同一类型的真实正常同源染色体对的多个第一差异矩阵获取该真实用户的该种类的第一差异组合矩阵;将该真实用户的该种类的第一差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的真实正常同源染色体对的第一差异特征矩阵;其中以不同真实用户的、不同种类的用户级别的第一差异特征矩阵为所述样本进行训练。
在上述分类器模型训练方法的一实施例中,可选的,所述分类器模型训练方法还包括:对于同一位所述真实用户,基于相同的缺陷构造参数对该真实用户的多个细胞中同一类型的真实正常染色体进行修改,以获取该真实用户对应同一种类、同一缺陷的多个细胞的人造缺陷染色体,并基于多个人造缺陷同源染色体对的第二差异矩阵获取该真实用户的该种类、该缺陷的第二差异组合矩阵;将该真实用户的该种类、该缺陷的第二差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的人造缺陷同源染色体对的第二差异特征矩阵;其中以不同真实用户的、不同种类的、不同缺陷的用户级别的第二差异特征矩阵为所述样本进行训练。
在上述分类器模型训练方法的一实施例中,可选的,所述分类器模型训练方法还包括:基于该真实用户对应同一种类、同一缺陷的多个细胞的人造缺陷染色体获取对应的多个人造真实染色体,并基于该真实用户的多个细胞的人造-真实正常同源染色体对的多个第四差异矩阵获取该真实用户的该种类的第四差异组合矩阵;将该真实用户的该种类的第四差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的人造-真实正常同源染色体对的第四差异特征矩阵;其中以不同真实用户的、不同种类的用户级别的第四差异特征矩阵为所述样本进行训练。
本发明的另一方面还提供了一种检测染色体结构异常的分类器模型训练装置,所述分类器模型训练装置包括:至少一个处理器;以及与所述至少一个处理器耦合的存储器,所述存储器包含有存储于其中的指令,所述指令在被所述至少一个处理器执行时,使得所述分类器模型训练装置执行如本发明中任意一项实施例所描述的检测染色体结构异常的分类器模型训练方法。
本发明的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明中任意一项实施例所描述的检测染色体结构异常的分类器模型训练方法。
根据本发明所提供的检测染色体结构异常的分类器模型训练方法及装置,通过人为构造种类和数量丰富的结构异常的染色体样本作为数据增强手段,为分类器模型训练提供足量且均衡的样本,有助于基于深度学习算法实现自动筛查染色体结构异常的检测方法。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的一方面所提供的检测染色体结构异常的分类器模型训练方法的流程图。
图2A示出了真实染色体的图像示意图。
图2B示意了根据真实染色体的图像提取序列数据。
图3A示出了真实正常染色体的灰度值曲线。
图3B示意了人造臂间倒位类型的缺陷染色体。
图3C示出了人造臂间倒位类型的缺陷染色体对应的灰度值曲线。
图3D示出了真实臂间倒位缺陷类型的染色体的灰度值曲线。
图4示出了真实正常染色体和人造正常染色体的灰度值曲线的对比。
图5示出了本发明的另一方面所提供的检测染色体结构异常的分类器模型训练装置的一实施例的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
给出以下描述以使得本领域技术人员能够实施和使用本发明并将其结合到具体应用背景中。各种变型、以及在不同应用中的各种使用对于本领域技术人员将是容易显见的,并且本文定义的一般性原理可适用于较宽范围的实施例。由此,本发明并不限于本文中给出的实施例,而是应被授予与本文中公开的原理和新颖性特征相一致的最广义的范围。
在以下详细描述中,阐述了许多特定细节以提供对本发明的更透彻理解。然而,对于本领域技术人员显而易见的是,本发明的实践可不必局限于这些具体细节。换言之,公知的结构和器件以框图形式示出而没有详细显示,以避免模糊本发明。
请读者注意与本说明书同时提交的且对公众查阅本说明书开放的所有文件及文献,且所有这样的文件及文献的内容以参考方式并入本文。除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。
注意,在使用到的情况下,标志左、右、前、后、顶、底、正、反、顺时针和逆时针仅仅是出于方便的目的所使用的,而并不暗示任何具体的固定方向。事实上,它们被用于反映对象的各个部分之间的相对位置和/或方向。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
注意,在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
人体的体细胞染色体数目为23对、46条,除去性染色体外,其余的22对常染色体(同源染色体对)的结构在正常情况下具有较高的相似度,当染色体存在结构异常时,通常来说,会表现为互为同源的同源染色体对之间的结构存在差异。一般来说,两个染色体分别发生基本完全相同的缺陷,从而使得具有结构缺陷的同源染色体对之间的结构相似度较高的可能性非常小。因此,本发明创新性地想到通过深度学习同源染色体对之间的差异程度来检测是否存在染色体结构异常。为了能够使得在获取到待诊断用户的同源染色体对之间的差异后,能够基于该差异来判断该差异是否表征该待诊断用户存在染色体结构异常,需要能够基于同源染色体对之间差异实现精准分类正常、异常结构染色体的分类器模型。
而分类器模型的训练需要大量的分别表征结构正常和缺陷的同源染色体对之间差异的数据。而受限于客观真实结构异常染色体种类和数量的不丰富以及获取的高成本和难度,仅使用现有少量真实结构异常染色体,无法支撑复杂深度识别模型的构建。因此,本发明提供了一种检测染色体结构异常的分类器模型训练方法及装置,为借助于深度学习算法自动筛查染色体结构异常提供了可能。
请参考图1来理解本发明的一方面所提供的检测染色体结构异常的分类器模型训练方法。如图1所示出的,本发明的一方面所提供的检测染色体结构异常的分类器模型训练方法包括:
步骤S100:获取真实正常染色体,并获取真实正常同源染色体对之间的第一差异矩阵;
步骤S200:基于所述真实正常染色体构造人造缺陷染色体,并获取人造缺陷同源染色体对之间的第二差异矩阵;以及
步骤S300:以所述第一差异矩阵和所述第二差异矩阵为样本进行训练,以获得检测染色体结构异常的分类器模型。
根据上述的分类器模型训练方法,通过人为构造不同种类和数量丰富的结构异常染色体,已经能够为分类器模型训练提供足量且缺陷均衡的样本,从而使得训练得到的分类器模型能够响应于接收到待诊断用户的同源染色体对之间的差异矩阵,判断待诊断用户是否存在染色体结构异常。
进一步的,在一优选的实施例中,本发明所提供的分类器模型训练方法还包括步骤S400:获取真实缺陷染色体,并获取真实缺陷同源染色体对之间的第三差异矩阵;以及
步骤S500:以所述第三差异矩阵为样本对所述分类器模型进行训练,以优化所述分类器模型。
在上述优选的实施例中,由于还基于真实缺陷染色体对经过步骤S300训练得到的分类器模型进行优化,从而能够更好地使最终得到的分类器模型能够准确地筛选出符合真实客观规律的结构异常染色体。
而在另一优选的实施例中,本发明所提供的分类器模型训练方法还包括步骤S210,基于人造缺陷染色体逆向构造人造正常染色体,并获取人造-真实正常同源染色体对之间的第四差异矩阵;其中
响应于执行了步骤S210,上述步骤S300进一步具体为:以所述第一差异矩阵、所述第二差异矩阵和所述第四差异矩阵为样本进行训练,以获得检测染色体结构异常的分类器模型。
由于在步骤S200中可以基于真实正常染色体构造出类型和数量丰富的人造缺陷染色体,一方面来说,基于人造缺陷染色体的人造缺陷同源染色体对(表征结构缺陷)的数量将大于真实正常同源染色体对(表征结构正常)的数量,为了使表征结构缺陷的同源染色体对和表征结构正常的同源染色体对的数量相互匹配,需要构造人造正常染色体,并基于人造正常染色体形成表征结构正常的人造-真实正常同源染色体对。从而能够基于人造-真实正常同源染色体对之间的第四差异矩阵一并训练分类器模型。
另一方面来说,在构造人造缺陷染色体时,不可避免地将会出现人为构造痕迹。若人造缺陷同源染色体对中的另一个染色体始终是真实正常的染色体,可能会由于人为构造痕迹导致同源染色体对之间的差异噪声。因此,通过构造人造正常染色体,在步骤S200中获取人造缺陷同源染色体对的差异矩阵时,可以选择性地使人造缺陷同源染色体对中的另一个染色体为人造正常染色体,从而使人造缺陷同源染色体对的配对更为科学合理。
客观真实的染色体是分类器训练的基础。另外,根据步骤S200可以知道,本发明中的人造缺陷染色体也需要基于真实正常染色体来构建。因此,本发明在步骤S100和步骤S400中分别需要获取真实正常染色体和真实缺陷染色体。
细胞学家发现在经荧光染料染色后的染色体标本中,能够清楚地观察到各条染色体的形态状态。因此,真实正常染色体和真实缺陷染色体均是以图像数据的形式表示的,如图2A中的真实染色体100。在本发明中,首先需要对图像数据100进行处理,从而能够便于基于真实正常染色体构建人造缺陷、人造正常染色体,便于描述同源染色体对之间的差异。
具体得,首先需要根据图像数据提取可以进行运算的数据。在本发明中,首先需要基于图像数据提取真实(正常或缺陷)染色体各个区域的灰度值。进一步的,在本发明中,需要根据所述染色体图像数据获取各所述真实用户的各细胞的至少一条真实(正常或缺陷)染色体中的姐妹染色单体的真实(正常或缺陷)单体序列数据。
具体的,上述获得真实(正常或缺陷)单体序列数据的过程进一步包括:图像细化所述染色体图像数据以提取所述真实(正常或缺陷)染色体的骨架线;以及基于所述骨架线的延伸方向,获取所述骨架线上预定数量的垂直扫描线的灰度平均值,以获得表征所述延伸方向的、预定数量长度的灰度平均值的数列为所述真实(正常或缺陷)单体序列数据。
请结合图2A、2B来理解上述对于染色体的序列数据的提取过程。如图2A、2B所示出的,对于真实染色体100,首先可以通过现有或将有的技术(包括但不限于图像细化)确定该真实染色体100的骨架线110以及延伸方向,可以认为骨架线110是由预定数量个骨架关键点构成的,且该骨架线110将真实染色体100区分为了左右两侧,即骨架线110将真实染色体100区分为了两条姐妹染色单体120、130。对于骨架线110上的各个骨架关键点,都可以形成一条垂直于骨架线的垂直扫描线111,通过获取各垂直扫描线111上的灰度平均值,可以获取得到一组序列数据(假设预定数量为512,则可以认为序列数据为[1,512]的向量)。
对于常染色体而言,每条染色体都含有两条姐妹单色单体,两条姐妹染色单体并列在一起,由同一个着丝粒连接着,两条姐妹染色单体的DNA序列完全一致,理论上来说,同一条染色体图像应当时左右对称的。然而,由于染色体在活细胞中可以自由摆动或者可以弯曲,这将压缩某一侧的染色体信息。此外,染料可能不能完全附着在染色体上,在某些部位可能会有或多或少的染料,这都导致染色体图像左右是不对称的。
而优选的,在本发明中,首先对于真实染色体100基于骨架线110自适应划分出两条姐妹染色单体区域,即姐妹染色单体120、130,随后,在基于骨架线110进行垂直扫描时,分别获取垂直扫描线111上骨架线110左侧的灰度平均值和骨架线110右侧的灰度平均值,可以获取得到两组序列数据,这两组序列数据分别对应姐妹染色单体120、130的单体序列数据,即两组[1,512]的向量。
因为左右姐妹染色单体可能因为扭曲、染色差异等因素导致多数情况下非完全对称,直接采用平均灰度来表征单个染色体会损失很多信息,因此本发明采用姐妹染色单体序列输入再合并形式。作为更为优选的实施例,输入部分还可以采用更多信息输入形式,如采用更多序列进行输入(而非上文描述的2条序列),然后再通过模型自适应合并。
也就是说,姐妹染色单体序列数据可以认为是机器语言表征染色体的基础。真实(正常或缺陷)染色体的姐妹染色单体序列数据是通过真实(正常或缺陷)染色体的图像数据提取得到的。在本发明中,需要基于真实正常染色体的姐妹染色单体序列数据构造人造缺陷染色体的姐妹染色单体序列数据,并根据人造缺陷染色体的姐妹染色单体序列数据逆构造人造正常染色体的姐妹染色单体序列数据,从而实现人造(正常或缺陷)染色体的构建。
请进一步结合图3A-3D、图4来理解本发明中基于真实正常染色体的姐妹染色单体序列数据构造人造缺陷染色体的姐妹染色单体序列数据,并根据人造缺陷染色体的姐妹染色单体序列数据逆构造人造正常染色体的姐妹染色单体序列数据的过程。
在本发明中,根据至少一个缺陷构造参数对所述真实正常染色体的真实正常单体序列数据进行修改进一步包括:将所述真实正常单体序列数据转化为真实正常灰度值曲线;根据所述缺陷构造参数确定所述真实正常灰度值曲线上的至少一个断裂点和缺陷曲线片段;基于所述断裂点在所述真实正常灰度值曲线上增加和/或删减所述缺陷曲线片段,以获取人造缺陷灰度值曲线;对所述人造缺陷灰度值曲线进行平滑处理和/或长度标准化处理;以及将经过平滑处理和/或长度标准化处理的人造缺陷灰度值曲线转化为所述人造缺陷单体序列数据。
进一步的,在获取真实正常单体序列数据,还需要根据所述染色体图像数据确定所述真实正常染色体的着丝粒位置以及所述真实正常染色体的长、短臂。在根据所述缺陷构造参数确定所述真实正常灰度值曲线上的至少一个断裂点和缺陷曲线片段时,则需要根据所述缺陷构造参数确定所述至少一个断裂点的数量和位置,所述位置表征相对于所述着丝粒和/或长、断臂的位置;以及根据所述缺陷构造参数确定所述缺陷曲线片段的染色体来源、长度、方向中的至少一者。
在本发明中,为了构造类型和数量丰富的人造缺陷染色体,本发明按照染色体缺陷生成时断裂点位置的不同,分别构造缺失(4种)、倒位(3种)、重复(34种)、插入(14种)和易位(20种)不同的缺陷染色体,从而能够覆盖常见染色体结构缺陷种类。
无论时那种类型的缺陷,在确定了缺陷构造参数后,都可以确定至少一个断裂点,从而明确是对真实正常染色体的灰度值曲线的哪一个片段进行操作。根据断裂点相对于着丝粒的位置,上述的五大种缺陷又可细分为多种子类型。因此,精确定位着丝粒对于人工构造符合客观真实的染色体结构缺陷样本至关重要。在传统只基于原始染色体轮廓信息推断溢痕位置的基础上,本发明优选地同时参考宽度标准化染色体深浅条带序列信息,从而精准定位着丝粒。同时还根据着丝粒两侧染色体长度和深浅条带分布确定p臂(短臂)和q臂(长臂),为人工生成缺陷染色体时断裂点位置的准确分布提供基础。
进一步的,为了使得人造(正常或缺陷)染色体的构造具有统一的标准,在确定同一个染色体的两条姐妹染色单体基于断裂点定义的异常片段时,需要以染色体的2处条带最深位置为标志位,以标志位对边界对姐妹染色单体的灰度值曲线进行分段,并基于相似性度量理论,匹配、对齐断裂点位置在特征曲线上的分布,保证2条姐妹染色单体上由断裂点界定的异常片段包含一致的条带信息。优选的,在对多个细胞的同一条染色体基于同一组缺陷构造参数进行人造缺陷染色体的构造时,也需要度量不同染色体间特征曲线的相似性,匹配、对齐断裂点位置,确保同病例、同编号、同缺陷类型的所有染色体的断裂点位置一致。
以下将具体展开五种类型的缺陷染色体时如何构造的。
1、染色体缺失。染色体缺失是指染色体片段的丢失。缺失可能发生于任何一条染色体的任何位置(一般不含着丝粒),根据丢失片段的位置不同,可分为中间缺失和末端缺失两大类。
对于中间缺失,可以确定断裂点数量为2个,并且由于是中间缺失,断裂点的位置为均在p臂内部或均在q臂内部(可位于不同的深带或浅带,也可位于同一条带)。构造方法是,删除灰度值曲线上断裂点之间的片段,并对两个断裂点进行直接拼接。其中的直接拼接指的是,需要对删除片段之后的染色体将原本两个断裂点合并。在此处可以理解的是,通常来说,在进行直接拼接时,两个断裂点对应的位置通常是跳跃的,因此,需要基于端粒点对灰度值曲线进行平滑优化处理,上述的平滑优化处理可以是Savitzky-Golay等滤波平滑算法对1D曲线重连处进行平滑处理,确保构造曲线真实、自然。同时,又由于缺少了一段数据,灰度值曲线的长度是小于对应的真实染色体的灰度值曲线,因此,还需要通过调整构造出的人造缺陷染色体的长度。例如,可以对人工构造的灰度值曲线进行B样条插值,统一标准化长度为512像素。
对于末端缺失,可以确定断裂点数量为1个,断裂点位置:p臂/q臂内部。末端缺失的构造方式是,根据灰度值曲线波形信息,自适应保留末端若干像素长度(一般3~5像素)。确定额外的隐性断裂点,删除特征曲线上断裂点和隐性断裂点间的片段,直接拼接。隐性断裂点可以保留染色体末端或端粒独有的特征,保证构造曲线末端与真实染色体特征相符。
2、染色体倒位。染色体倒位是指同一条染色体上存在两个断裂点A、B,产生片段ab在颠倒180度后,重新连接,即形成了片段ba,片段ba的端点b与断裂点A拼接,并作平滑处理,片段BA的端点a与断裂点B拼接,并作平滑处理。如果倒位区间不包含着丝粒区,称为臂内倒位;如果倒位区间包含着丝粒区,则称为臂间倒位。
对于臂内倒位,可以确定断裂点数量为2个,并且断裂点的位置均位于p臂内部或者均位于q臂内部。在构造人造缺点的壁内到位时,首先将提取出来的片段ab前后翻转(此处的前后指的是根据单体序列数据排列的前后),形成片段ba后再直接拼接至原本的断裂点A、B。对于臂内倒位,需要进行两次平滑处理。可以理解的而是,臂内倒位不会引起染色体的长度变化,不需要对长度进行标准化。
对于臂间倒位,可以确定断裂点数量为2个,并且断裂点的位置分别位于着丝粒两侧,也就是分别位于p臂和q臂。在构造人造缺点的壁内到位时,首先将提取出来的片段ab前后翻转(此处的前后指的是根据单体序列数据排列的前后),形成片段ba后再直接拼接至原本的断裂点A、B。对于臂内倒位,需要进行两次平滑处理。可以理解的而是,臂内倒位不会引起染色体的长度变化,不需要对长度进行标准化。
3、染色体重复。染色体重复是指染色体上复制插入了一份或多份来自自身或其他源染色体的片段,同时源染色体对应片段无变化。也就是从自身或者其他源染色体中复制了重复片段。
由于是在真实正常染色体上复制插入了一个染色体片段,根据该复制插入的染色体片段的来段,首先可以将染色体重复区分为染色体内重复(复制插入的染色体片段来自自身)和染色体间重复(复制插入的染色体片段来自同源/非同源染色体的p臂/q臂),因此,缺陷曲线片段的染色体来源来时缺陷构造参数中的一者。
3.1、染色体内重复。对于染色体内重复,还可以进一步区分为中间重复、末端重复和臂间重复。
对于中间重复,指的是,重复片段来自自身染色体的p臂或者q臂,也就是说,重复片段是自身染色体的p臂中的一部分或者q臂中的一部分。因此,会存在两个断裂点来定义重复片段。需要注意的是,虽称之为断裂点,实际上只为了复制出重复片段,原染色体在重复片段复制出后、重复偏差插入前无变化。
进一步的,重复片段在复制插入到原染色体时,可以进一步地调整重复片段插入的插入方向(正向重复:重复片段的顺序和方向与原染色体相同;反向重复:重复片段的顺序和方向与原染色体相反)、插入位置(邻接重复:插入点位于重复片段的末端(插入点为两个断裂点中的一个);插入重复:插入点位于重复片段的中间(存在位于重复片段中的第三个断裂点为插入点);移位重复:插入点不位于重复片段上(存在位于重复片段以外的第三个断裂点为插入点))和插入次数(一次重复:插入一次重复片段;一次重复:在相同位置连续插入多次重复片段,可以为2或者3)。
在构造中间重复的人造缺陷染色体时,选取得到灰度值曲线上断裂点间的重复片段后,还可以对重复片段进行随机水平及垂直尺度缩放、相似变换、随机扰动/平滑等操作,保证重复片段保持原始主要特征的同时,具有多样性和变异性,并且也可以消除人为构造痕迹,使构造出的人造缺陷染色体更符合客观真实。随后根据上述插入方向、插入位置和插入次数的组合,将重复片段拼接到插入点位置。可以理解的是,在将重复片段拼接到插入点时,需要对曲线进行至少两次平滑处理。同时,由于是插入了额外的片段,会导致染色体长度的增加,因此,还需要对插入了重复片段后的染色体进行长度标准化处理,从而得到最终的人造缺陷染色体。
对于末端重复,指的是,重复片段来自自身染色体的p臂或者q臂的末端,也就是说,仅存在一个断裂点即可定义重复片段。同样需要注意的是,虽称之为断裂点,实际上只为了复制出重复片段,原染色体在重复片段复制出后、重复偏差插入前无变化。
进一步的,重复片段在复制插入到原染色体时,可以进一步地调整重复片段插入的插入方向(正向重复:重复片段的顺序和方向与原染色体相同;反向重复:重复片段的顺序和方向与原染色体相反)、插入位置(邻接重复:插入点位于重复片段的末端(插入点为两个断裂点中的一个);插入重复:插入点位于重复片段的中间(存在位于重复片段中的第三个断裂点为插入点))。在构造末端重复时,默认插入次数为一次重复,即仅插入一次重复片段。
在构造中间重复的人造缺陷染色体时,选取得到灰度值曲线上断裂点间的重复片段后,还可以对重复片段进行随机水平及垂直尺度缩放、相似变换、随机扰动/平滑等操作,保证重复片段保持原始主要特征的同时,具有多样性和变异性,并且也可以消除人为构造痕迹,使构造出的人造缺陷染色体更符合客观真实。因为染色体端部特征独特或有端粒,所以根据特征曲线波形信息,自适应删除末端若干像素长度,以保证构造曲线末端与真实染色体特征相符。根据上述插入方向、插入位置和插入次数的组合,进行拼接重组。在将重复片段拼接到插入点时,需要对曲线进行至少两次平滑处理。同时,由于是插入了额外的片段,会导致染色体长度的增加,因此,还需要对插入了重复片段后的染色体进行长度标准化处理,从而得到最终的人造缺陷染色体。
对于臂间重复,指的是,重复片段来自自身染色体中p臂、q臂之间包含着丝粒片段。也就是说,重复片段由两个分别位于p臂、q臂的断裂点所定义。同样需要注意的是,虽称之为断裂点,实际上只为了复制出重复片段,原染色体在重复片段复制出后、重复偏差插入前无变化。
进一步的,重复片段在复制插入到原染色体时,可以进一步地调整重复片段插入的插入方向,即调整插入方向为正向重复(重复片段的顺序和方向与原染色体相同)或者反向重复(重复片段的顺序和方向与原染色体相反)。在构造臂间重复时,默认插入位置为邻接重复,即插入点位于重复片段的末端(插入点为两个断裂点中的一个),默认插入次数为一次重复,即仅插入一次重复片段。
在构造中间重复的人造缺陷染色体时,选取得到灰度值曲线上断裂点间的重复片段后,还可以对重复片段进行随机水平及垂直尺度缩放、相似变换、随机扰动/平滑等操作,保证重复片段保持原始主要特征的同时,具有多样性和变异性,并且也可以消除人为构造痕迹,使构造出的人造缺陷染色体更符合客观真实。随后根据上述的插入方向、插入位置和插入次数的组合,将重复片段拼接到插入点位置。
由于原染色体的结构不变,又插入了一段包含有着丝粒的重复片段,因此,所构造的臂间重复类型的人造缺陷染色体具有两个着丝粒。在将重复片段拼接到插入点时,需要对曲线进行至少两次平滑处理。同时,由于是插入了额外的片段,会导致染色体长度的增加,因此,还需要对插入了重复片段后的染色体进行长度标准化处理,从而得到最终的人造缺陷染色体。
3.2、染色体间重复。染色体间重复指的是,在原染色体中插入从外部染色体的p臂或q臂复制得到的一个片段(复制片段不包括外部染色体的着丝粒)。因此,对于原染色体(受体染色体),需要确定一个插入点。对于外部染色体(供体染色体),需要在p臂或q臂内确定两个断裂点以定义重复片段。
进一步的,重复片段在插入到受体染色体时,可以进一步地调整重复片段插入的插入方向,即调整插入方向为正向重复(重复片段的顺序和方向与受体染色体相同)或者反向重复(重复片段的顺序和方向与受体染色体相反)。在构造臂间重复时,默认插入位置为移位重复,即在受体染色体上确定的断裂点为插入位置。默认插入次数为一次重复,即仅插入一次重复片段。
在构造染色体间重复的人造缺陷染色体时,选取得到供体染色体的灰度值曲线上断裂点间的重复片段后,还可以对重复片段进行随机水平及垂直尺度缩放、相似变换、随机扰动/平滑等操作,保证重复片段保持原始主要特征的同时,具有多样性和变异性,并且也可以消除人为构造痕迹,使构造出的人造缺陷染色体更符合客观真实。随后根据上述的插入方向、插入位置和插入次数的组合,将重复片段拼接到插入点位置。
在将重复片段拼接到插入点时,需要对曲线进行至少两次平滑处理。同时,由于是插入了额外的片段,会导致染色体长度的增加,因此,还需要对插入了重复片段后的染色体进行长度标准化处理,从而得到最终的人造缺陷染色体。
4、插入。染色体插入是指目标染色体上个别区段多出一份来自自身或其他源染色体的片段,同时源染色体缺失对应片段。也就是说,从自身或者其他原染色体上剪切了插入片段。
由于是在真实正常染色体上剪切插入了一个染色体片段,根据该插入的染色体片段的来段,首先可以将染色体插入区分为染色体内插入(剪切插入的染色体片段来自自身)和染色体间插入(剪切插入的染色体片段来自同源/非同源/未知来源的染色体的p臂/q臂),因此,缺陷曲线片段的染色体来源来时缺陷构造参数中的一者。
4.1、染色体内插入
需要在本体染色体上确定三个断裂点,其中两个断裂点定义了插入片段,另一个断裂点定义了插入位置。
在插入特征也就是缺陷构造参数的确定上,可以调整插入方向为正向重复(插入片段的顺序和方向与原染色体相同)或者反向重复(插入片段的顺序和方向与原染色体相反)。在构造染色体内插入的人造缺陷染色体时,选取染色体灰度值曲线上两个断裂点间不包含着丝粒部位的待插入片段,将其正向/反向移动到另一个断裂点定义的插入点位置。
由于插入片段会从原染色体中删除,因此对于定义了插入片段的两个断裂点,需要进行拼接,即需要进行平滑处理。另外,在将插入片段插入至指定的插入点位置时,还需要对曲线进行平滑处理。可以理解的时,染色体内插入不会引起染色体的长度变化,因此不需要进行染色体长度标准化。
4.2、染色体间插入
需要在本体染色体上确定一个定义了插入位置的断裂点。需要在供体染色体的p臂或q臂上确认两个断裂点,以定义p臂或q臂的一部分为待插入片段。
在插入特征也就是缺陷构造参数的确定上,可以调整插入方向为正向重复(插入片段的顺序和方向与受体染色体相同)或者反向重复(插入片段的顺序和方向与受体染色体相反)。在构造染色体内插入的人造缺陷染色体时,选取同源/非同源/未知来源染色体对的染色体灰度值曲线上两个断裂点间不包含着丝粒部位的待插入片段,将其正向/反向移动到受体染色体的插入点位置。其中未知来源染色体选用同病例不同细胞中的随机编号染色体。
由于插入片段会从供体染色体中删除,因此对于供体染色体上定义了插入片段的两个断裂点,需要进行拼接,即需要进行平滑处理。另外,在将插入片段插入至受体染色体指定的插入点位置时,还需要对曲线进行平滑处理。可以理解的时,染色体间插入会导致供体染色体的长度变短,导致受体染色体的长度边长,因此,需要对供体染色体和受体染色体均进行长度标准化处理。
5、易位
染色体易位是指染色体内或染色体间发生片段交换。交换片段正反向组合共4种,会大大增加易位样本的种类和数量,故只对交换片段等概率正向、反向排列,而没有细分交换方向子类。
5.1、相互易位。两条染色体间相互交换了片段。A染色体的片段交换到了B染色体,B染色体的片段交换到A染色体,并且,上述片段的长度可以不相同。相互易位还可以分为平衡易位和罗氏易位。
其中平衡易位进一步包括中间平衡易位、末端平衡易位和整臂易位。
中间平衡易位的交换片段来源:同源/非同源染色体的无着丝粒中间片段。中间平衡易位的交换特征:插入方向:随机正向/反向。插入位置:p臂/q臂。中间平衡易位的构造方式:在同源/非同源染色体对的特征曲线中的不包含着丝粒中间部位分别选取待交换片段,随机翻转正反方向并交换重组。需要进行平滑处理和长度标准化处理。
末端平衡易位的交换片段来源:同源/非同源染色体的无着丝粒末端片段。末端平衡易位的交换特征:插入方向:随机正向/反向。插入位置:p臂/q臂。末端平衡易位的构造方式:在同源/非同源染色体对的特征曲线中的不包含着丝粒末端部位分别选取待交换片段,随机旋转正反方向并交换重组。需要进行平滑处理和长度标准化处理。
整臂易位的交换片段来源:非同源染色体的整臂。整臂易位的交换特征:插入方向:正向。插入位置:p臂/q臂。整臂易位的构造方式:在非同源染色体对的特征曲线中分别选取待交换完整p臂/q臂,交换重组。需要进行平滑处理和长度标准化处理。
其中,罗氏易位是指两个近端着丝粒染色体(13/14/15/21/22号染色体)在着丝粒或其附近断裂后,染色体短臂丢失,长臂融合成为一条染色体。罗氏易位的交换片段来源:同源/非同源近端着丝粒染色体的q臂。罗氏易位交换特征:插入方向:正向。插入位置:p臂。罗氏易位的构造方式为:在同源/非同源近端着丝粒染色体对的特征曲线中分别选取待交换完整q臂,组合而成。
5.2、转位
一条染色体的某一片段转移到了另一条染色体上,即单向易位。进一步分为中间转位、末端转位(简单易位)。
其中,中间转位的交换片段来源:同源/非同源染色体的无着丝粒中间部位。中间转位的交换特征:插入方向:随机正向/反向。插入位置:p臂/q臂。中间转位的构造方式:在同源/非同源染色体对的特征曲线中分别选取无着丝粒的p臂/q臂中间部位,替换一个片段的同时,删除另一片段。需要进行平滑处理和长度标准化处理。
末端转位的交换片段来源:同源/非同源染色体的无着丝粒末端部位。末端转位的交换特征:插入方向:正向。插入位置:p臂/q臂。末端转位构造方式:在同源/非同源染色体对的特征曲线中分别选取无着丝粒的p臂/q臂末端部位,替换一个片段的同时,删除另一片段。需要进行平滑处理和长度标准化处理。
至此,已经描述了本发明中构造人造染色体缺陷的具体实施方式。本发明能够基于不同的缺陷构造参数(包括缺陷类型、断裂点位置、配对染色体等)对同一条真实正常染色体构造多种类型的缺陷染色体。对于同一种缺陷类型,也可以使用不同的参数,生成任意多种样本。
为便于理解,图3A-3D示意了臂间倒位缺陷的构造以具体实现过程。
首先,请结合图3A来理解上述的将真实正常单体序列数据转化为真实正常灰度值曲线。以形状为[1,512]的单体序列数据
Figure DEST_PATH_IMAGE001
为例,从图3A可以看出,可以将单体序列数据
Figure 534143DEST_PATH_IMAGE001
转化为纵坐标对应平均灰度值,横坐标为序列中的位置的灰度值曲线,图3A在同一个坐标系中同时示出了两条姐妹染色单体对应的灰度值曲线。人造染色体的构建就是对灰度值曲线进行处理,从而得到人造染色体对应的灰度值曲线,再基于灰度值曲线转化为序列数据的过程。
随后请结合图3B来理解臂间倒位缺陷的构造。如前文所描述的,臂间倒位指的是在着丝粒两侧的p臂和q臂分别确定一个断裂点A、B。从而确定倒位的片段ab。在构造人造缺点的臂间倒位时,首先将提取出来的片段ab前后翻转(此处的前后指的是根据单体序列数据排列的前后,对应到图3B中,为左右翻转),形成片段ba后再直接拼接至原本的断裂点A、B。
对应到灰度值曲线上,参考图3C,对于臂间倒位,需要进行两次平滑处理。即Ab之间的平滑处理和aB之间的平滑处理。同时,请参考图3D,图3D示意了臂间倒位的真实缺陷染色体的灰度值曲线。由于染色体细节表现上的多样性,由图3A中的真实正常染色体构造的图3C中的人造倒位缺陷不可能与图3D中的真实倒位染色体完全相同,但二者的整体表现形式和统计特征是一致的:即表征正常染色体结构的图3A中的灰度值曲线具有8个波谷,而表征缺陷染色体结构的图3C和图3D中的灰度值曲线均有9个波谷,其中多出来的一个波谷特征是由倒位造成的,证实了人工缺陷构造算法的正确性和有效性。
对于图3C中构造得到的已经经过平滑处理和/或长度标准化处理的人造灰度值曲线,可以将其再转化为人造正常单体序列数据,从而基于序列数据继续后续的步骤。
如上文所描述的,本发明中还包括基于人造缺陷染色体,使用适当的逆变换,还原出人造正常染色体的过程。为消除人工构造痕迹,确保真实正常、人造异常和人造正常样本的整体滤波次数一致。由于人工缺陷构造及人工正常构造过程均涉及复杂的平滑处理,而平滑处理是非可逆的,所以人造正常和真实正常在保证整体趋势和统计特征一致的前提下,涉及变换部位的细节会有所不同。这在确保人造缺陷和人造正常具有相同人造痕迹的同时(事实上,通过构建深度识别模型,已很难区分去真实正常和人造正常样本,证明构造样本中的人造痕迹可以忽略),增加了正常样本的多样性。具体逆变换方法如下:
基于人造缺失:从真实正常染色体中选取已缺失片段,插入到缺失位置,并进行平滑及长度标准化;
基于人造倒位:对倒位片段再进行一次倒位,并进行平滑及长度标准化;
基于人造重复:缺失重复片段,并进行平滑及长度标准化;
基于人造插入:缺失插入片段,并进行平滑及长度标准化;
基于人造易位:对易位片段再进行一次易位,并进行平滑及长度标准化。
图4则示意了真实正常染色体和人造正常染色体的灰度值曲线对比。其中,虚线表征的是真实正常染色体的灰度值曲线,实线表征的是人造正常染色体的灰度值曲线。从图4中可以看出,即便真实正常染色体和人造正常染色体的灰度值曲线在一些细节上略有不同,但两者的整体趋势和特征均一致,证实了人工构造算法的正确性和有效性。
不论是真实(正常或缺陷)染色体,还是人造(正常或缺陷)染色体,在获取得到对应的姐妹染色单体序列数据后,都需要将两组姐妹染色单体序列数据进行合并,从而形成表征染色体的序列数据
Figure 26305DEST_PATH_IMAGE002
。更进一步的,除了序列数据外,为了更好地描述染色体,还需要在合并的序列数据
Figure 267930DEST_PATH_IMAGE002
上拼接染色体类型(c)和条带数信息(bi)得到该染色体的特征矩阵
Figure DEST_PATH_IMAGE003
,即描述染色体的机器语言。
举例来说,在该合并步骤中,输入形状为两条形状为[1,512]的
Figure 356103DEST_PATH_IMAGE001
,即可以认为输入形状为[2,512],其中每条序列数据长度为512。输出形状为[14,64],其中14(通道数)可理解为14种不同的特征,64可理解为输入序列长度512压缩为64。进一步的,在该步骤,可以基于卷积的方式进行合并,可将两条序列合并近似理解为通用卷积网络中图片RGB三通道类似的多通道输入进行模型自动卷积合并序列。
在对应到机器语言时,所输入的染色体类型形状为[1,24](对应24种染色体类别的onehot向量),此部分数据通过在对染色体图像进行染色体实例分割和识别时获取得到色体类别,本领域技术人员可以通过现有和将有的方法来获得到染色体类型,并通过机器语言来表达染色体类型。所输入的条带数形状为[1,5](对应5种不同条带的onehot向量),通过染色体带型识别模块自动获得染色体带型,同样,本领域技术人员可以通过现有和将有的方法来获得到染色体带型,并通过机器语言来表达染色体带型。在合并步骤中,合并方式为
Figure 61891DEST_PATH_IMAGE004
,其中
Figure DEST_PATH_IMAGE005
得到的形状为[1,29],经过
Figure 445992DEST_PATH_IMAGE006
处理得到形状[14,64]的特征矩阵,即,
Figure DEST_PATH_IMAGE007
至此,无论是真实(正常或缺陷)染色体还是人造(正常或缺陷)染色体,都可以利用特征矩阵来描述。需要注意的是,上述关于如何形成描述染色体的特征矩阵的举例仅为示意性,本领域技术人员可以通过现有或将有的方法,只要能够形成描述染色体的机器语言,从而能够获取描述同源染色体之间差异的对应的机器语言即可。
随后,本发明需要基于各个染色体的特征矩阵来进一步描述同源染色体对之间的差异。如前文所描述的,在本发明中,存在真实正常同源染色体对、人造缺陷同源染色体对和真实缺陷同源染色体对。
其中,真实正常同源染色体对中互为同源的两个染色体均为真实正常染色体。真实缺陷同源染色体对中互为同源的两个染色体分别为真实缺陷染色体和真实正常染色体(通常来说,缺陷同时产生在两个同源染色体中的可能性很小,若的确两个同源染色体均发生了异常,则真实缺陷同源染色体对即为该两个发生异常的同源染色体)。人造缺陷同源染色体对中互为同源的两个染色体中的至少一个为人造缺陷染色体,另一个可以是形成该人造缺陷染色体时使用的真实正常染色体,也可以是基于该人造缺陷染色体经过逆向操作后得到的人造正常染色体。在另一些情况下,也可以是基于不同的缺陷构造参数所构成的不同的人造缺陷染色体。
不论是哪种类型的同源染色体对,都通过两个特征矩阵来描述其中的两个同源染色体,因此,可以对同源染色体对的两个特征矩阵进行自适应结构对齐的相似度计算,以获取表征同源染色体对之间差异的差异矩阵。
在一实施例中,由于同源染色体对之间往往特征无法直接对齐,因此通过引入同源染色体间自适应结构对齐的相似度计算,让每一个核型区(染色体核型照片中具有多个灰度带,各个灰度带可以认为是各个核型区,表征染色体的部分特征)自动更多地关注另一条同源染色体种对应地相似地区域,从而实现同源染色体对的自适应对齐及捕捉各个核型区的异常。
对所述同源染色体对的两个特征矩阵进行自适应结构对齐的相似度计算,以获取表征所述同源染色体对之间差异的差异矩阵进一步包括:将所述同源染色体的两个特征矩阵
Figure 502810DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别卷积得到各自的查询矩阵
Figure 394674DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
,键值矩阵
Figure 266552DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
和特征值矩阵
Figure 100516DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
;基于
Figure 926521DEST_PATH_IMAGE011
Figure 809026DEST_PATH_IMAGE012
Figure 210445DEST_PATH_IMAGE014
得到差异加权后的特征矩阵
Figure 480889DEST_PATH_IMAGE016
,基于
Figure 731873DEST_PATH_IMAGE010
Figure 949228DEST_PATH_IMAGE013
Figure 421798DEST_PATH_IMAGE015
得到差异加权后的特征矩阵
Figure DEST_PATH_IMAGE017
;以及基于经过差异加权后的特征矩阵
Figure 174728DEST_PATH_IMAGE016
Figure 913008DEST_PATH_IMAGE017
和预先训练得到的对应的特征聚合模型
Figure 199633DEST_PATH_IMAGE018
获取同表征源染色体之间差异的差异矩阵。从而能够获取得到真实正常同源染色体对之间的第一差异矩阵、人造缺陷同源染色体对之间的第二差异矩阵、真实缺陷同源染色体对之间的第三差异矩阵、人造-真实正常同源染色体对之间差异的第四差异矩阵。
需要注意的是,上述关于如何形成描述同源染色体对之间差异的差异矩阵的举例仅为示意性,本领域技术人员可以通过现有或将有的方法,只要能够形成描述同源染色体对之间差异的可供分类器学习的机器语言即可。
至此,已经描述了能够基于单个细胞的同源染色体对之间的差异来对分类器进行训练。但是,在进行染色体结构异常检测时,若只考虑某个细胞内的某一对同源染色体的差异数据,可能因为有噪音而干扰结果,从而降低预测的准确性。
因此,在一优选的实施例中,本发明所提供的分类器训练方法来对分类器进行训练时,还包括:
对来自同一位所述真实用户的多个细胞中的真实正常染色体,基于多个细胞中同一类型的真实正常同源染色体对的多个第一差异矩阵获取该真实用户的该种类的第一差异组合矩阵;将该真实用户的该种类的第一差异组合矩阵输入预先训练得到的差异特征聚合模型,以获取用户级别的多个细胞的真实正常同源染色体对的第一差异特征矩阵。
对于同一位所述真实用户,基于相同的缺陷构造参数对该真实用户的多个细胞中同一类型的真实正常染色体进行修改,以获取该真实用户对应同一种类、同一缺陷的多个细胞的人造缺陷染色体,并基于多个人造缺陷同源染色体对的第二差异矩阵获取该真实用户的该种类、该缺陷的第二差异组合矩阵;将该真实用户的该种类、该缺陷的第二差异组合矩阵输入预先训练得到的差异特征聚合模型,以获取用户级别的多个细胞的人造缺陷同源染色体对的第二差异特征矩阵。
对来自同一位所述真实用户的多个细胞中的真实缺陷染色体,基于多个细胞中同一类型、同一缺陷的真实缺陷同源染色体对的多个第三差异矩阵获取该真实用户的该种类的第三差异组合矩阵;将该真实用户的该种类的第三差异组合矩阵输入预先训练得到的差异特征聚合模型,以获取用户级别的多个细胞的真实缺陷同源染色体对的第三差异特征矩阵。
基于该真实用户对应同一种类、同一缺陷的多个细胞的人造缺陷染色体获取对应的多个人造真实染色体,并基于该真实用户的多个细胞的人造-真实正常同源染色体对的多个第四差异矩阵获取该真实用户的该种类的第四差异组合矩阵;将该真实用户的该种类的第四差异组合矩阵输入预先训练得到的差异特征聚合模型,以获取用户级别的多个细胞的人造-真实正常同源染色体对的第四差异特征矩阵。
举例来说,若已经获得到了多个差异矩阵
Figure DEST_PATH_IMAGE019
,首先可以通过自适应加权求和的构成获取多个差异矩阵的差异组合矩阵
Figure 626242DEST_PATH_IMAGE020
,可以认为是多个差异矩阵进行简单地叠加的过程。优选的,本发明中,为了更好地训练分类器,还将差异组合矩阵
Figure 910593DEST_PATH_IMAGE020
输入预先训练得到的差异特征聚合模型
Figure DEST_PATH_IMAGE021
,该差异特征聚合模型至少对所输入的差异组合矩阵进行矩阵乘法处理,以获取基于用户级别的差异特征矩阵(
Figure DEST_PATH_IMAGE023
)。也就是说,对于病例级别的多个细胞的同一种类的同源染色体对的差异组合矩阵再次进行特征提取的过程,从而通过一个差异特征矩阵来表征病例级别的、某一病例的某一种类型的同源染色体对之间的差异。
如果一个用户的一条染色体结构异常,同样类型的结构异常染色体也会出现在其他地方。因此,在诊断染色体结构异常时,若根据多个细胞进行综合诊断,可以提高诊断结果的可靠性。所以在训练分类器模型时,可以基于同一个用户多个细胞中的同源染色体对之间聚合起来后的差异来进行训练。
也就是说,在本发明中,不仅仅基于单个细胞的单条真实正常染色体构建了多个人造缺陷染色体,还会基于同一种缺陷,对基于多个细胞的多条真实正常染色体所得到的人造缺陷染色体进行整合、配对,从而构造了具有某一种缺陷的人造病例,该人造病例的多个细胞中的特定染色体具有特定的缺陷。而由于本发明能够基于单条真实正常染色体构建了多个种类的人造缺陷染色体,并且即便时同一个种类,也可以基于不同参数,构造多种样本,相当于认为构造了多个人造病例。多个人造病例发生异常的染色体类型覆盖了全部23种染色体类型。并且对于各个染色体类型,也构造了分别发生不同缺陷(上文所描述的70余种缺陷)的人造病例。从而能够一方面为训练分类器提供了足量且均衡的样本,另一方面,通过病例级的样本,还可以降低细胞级样本由于噪声等因素引发的数据样本误差,避免分类器训练出现偏差的问题。
需要注意的是,上述关于如何形成描述病例级别的同源染色体对之间差异的差异特征矩阵的举例仅为示意性,本领域技术人员可以通过现有或将有的方法,只要能够形成描述病例级别的同源染色体对之间差异的可供分类器学习的机器语言即可。
至此,已经描述了本发明所提供的检测染色体结构异常的分类器模型训练方法及装置,通过人为构造种类和数量丰富的结构异常的染色体样本作为数据增强手段,为分类器模型训练提供足量且均衡的样本,有助于基于深度学习算法实现自动筛查染色体结构异常的检测方法。
本发明的另一方面还提供了一种检测染色体结构异常的分类器模型训练装置,所述分类器模型训练装置包括:至少一个处理器;以及与所述至少一个处理器耦合的存储器,所述存储器包含有存储于其中的指令,所述指令在被所述至少一个处理器执行时,使得所述分类器模型训练装置执行如本发明中任意一项实施例所描述的检测染色体结构异常的分类器模型训练方法。
请结合图5来理解本发明所提供的基于深度学习的染色体结构异常的分类器模型训练装置。如图5所示,本实施例中,分类器模型训练装置500以通用的计算机设备的形式表现,用于实现上述任意一种实施例所描述的检测染色体结构异常的分类器模型训练方法的步骤。具体请详见上文关于检测染色体结构异常的分类器模型训练方法的描述,在此不再赘述。
该分类器模型训练装置500的组件可以包括一个或者多个存储器501,一个或多个处理器502,以及连接不同系统组件(包括存储器501和处理器502)的总线503。
总线503包括数据总线、地址总线以及控制总线。数据总线的位数与工作频率的乘积正比于数据传输率,地址总线的位数决定了可寻址的最大内存空间,控制总线(读/写)指出总线周期的类型和本次输入/输出操作完成的时刻。处理器502通过总线503连接存储器501,并配置用于实施上述任意一个实施例所提供的检测染色体结构异常的分类器模型训练方法。
处理器502作为分类器模型训练装置500的运算和控制核心,是信息处理、程序运行的最终执行单元。计算机系统中所有软件层的操作,最终都将通过指令集映射为处理器502的操作。处理器502的功效主要为处理指令、执行操作、控制时间、处理数据。
存储器501是指计算机中由存放程序和数据的各种存储设备。存储器501可以包括存储易失性存储器形式的计算机系统可读介质。例如随机存取存储器(RAM)504和/或高速缓存存储器505。
随机存取存储器(RAM)504是与处理器502直接交换数据的内部存储器。它可以随时读写(刷新时除外),而且速度很快,通常作为操作系统或其他正在运行中的程序的临时数据存储介质,一旦断电其中所存储的数据将随之丢失。高速缓存存储器(Cache)505是存在于主存与处理器502之间的一级存储器,其容量比较小但速度比主存高得多,接近于处理器502的速度。
需要注意的是,在分类器模型训练装置500包括多个存储器501和多个处理器502的情况下,多个存储器501之间和多个处理器502之间都可以具有分布式的结构,例如,可以包括分别位于多个本地端的或者是分别位于本地端和后台云端的存储器和处理器,由多个本地端的或者是本地端和后台云端共同实现上述的检测染色体结构异常的分类器模型训练方法。更进一步的,在采用分布式结构的实施例中,各个步骤可以根据实际情况调整具体的执行终端,各个步骤在特定终端实现的具体方案不应不当地限制本发明的保护范围。
上述的多个存储器501可以存储有多个真实染色体数据,可以存储有多个经过处理器502处理而构造得到的人造染色体数据,从而能够进一步地使得多个处理器502基于这些真实、人造染色体数据对分类器模型进行训练。
分类器模型训练装置500还可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。本实施例中,存储系统506可以用于读写不可移动的、非易失性磁介质。
存储器501还可以包括至少一组程序模块507。程序模块507可以存储在存储器501中。程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
分类器模型训练装置500也可以与一个或多个外部设备508通信。本实施例中的外部设备508包括显示器509,或者其他用于与用户交互的交互设备,从而能够便于用户基于分类器模型训练装置查看相关人造染色体的构成情况。
分类器模型训练装置500也可与一个或者多个使得用户能与该分类器模型训练装置500交互的设备通信,和/或与使得该分类器模型训练装置500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口510进行。
分类器模型训练装置500还可以通过网络适配器511与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,如因特网)通信。如图5所示,网络适配器511通过总线503与分类器模型训练装置500的其它模块通信。应当明白,尽管图中未示出,可以结合分类器模型训练装置500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本发明的另一方面还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现如上文任意一项实施例所描述的检测染色体结构异常的分类器模型训练方法的步骤,具体请参考上文的描述,在此不再赘述。另外,可以理解的是,上述的计算机可读存储介质亦可以是系统形式,即包括有多个计算机可读存储子介质,以通过多个计算机可读存储介质共同实现上文所描述的检测染色体结构异常的分类器模型训练方法的步骤。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解,本发明的保护范围应当以所附权利要求书为准,而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内,可以对各实施例进行各种变动和修改,这些变动和修改也落在本发明的保护范围之内。

Claims (15)

1.一种检测染色体结构异常的分类器模型训练方法,其特征在于,所述分类器模型训练方法包括:
获取真实正常染色体,并获取真实正常同源染色体对之间的第一差异矩阵,所述真实正常同源染色体对中互为同源的两个染色体均为真实正常染色体;
基于所述真实正常染色体构造人造缺陷染色体,并获取人造缺陷同源染色体对之间的第二差异矩阵,所述人造缺陷同源染色体对中互为同源的两个染色体中的至少一个为所述人造缺陷染色体;
至少以所述第一差异矩阵和所述第二差异矩阵为样本进行训练,以获得检测染色体结构异常的分类器模型;其中
所述分类器模型被配置为,响应于接收到待诊断用户的同源染色体对之间的差异矩阵,判断所述待诊断用户是否存在染色体异常,
所述基于所述真实正常染色体构造人造缺陷染色体进一步包括:
根据至少一个缺陷构造参数对所述真实正常染色体的真实正常单体序列数据进行修改,以获取对应于所述真实正常染色体的至少一条人造缺陷染色体的缺陷姐妹染色单体的人造缺陷单体序列数据;以及
对于各所述人造缺陷染色体,合并所述缺陷姐妹染色单体的人造缺陷单体序列数据为所述人造缺陷染色体的人造缺陷序列数据,并在所述人造缺陷序列数据中拼接所述人造缺陷染色体的类型数据和条带数数据,以获取表征所述人造缺陷染色体的人造缺陷特征矩阵。
2.如权利要求1所述的分类器模型训练方法,其特征在于,所述分类器模型训练方法还包括:
获取真实缺陷染色体,并获取真实缺陷同源染色体对之间的第三差异矩阵,所述真实缺陷同源染色体对中互为同源的两个染色体分别为所述真实缺陷染色体和所述真实正常染色体;以及
以所述第三差异矩阵为样本对所述分类器模型进行训练,以优化所述分类器模型。
3.如权利要求2所述的分类器模型训练方法,其特征在于,所述分类器模型训练方法还包括:
对来自同一位真实用户的多个细胞中的真实缺陷染色体,基于多个细胞中同一类型、同一缺陷的真实缺陷同源染色体对的多个第三差异矩阵获取该真实用户的该类型的第三差异组合矩阵;
将该真实用户的该类型的第三差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的真实缺陷同源染色体对的第三差异特征矩阵;其中
以不同真实用户的、不同类型、不同缺陷的用户级别的第三差异特征矩阵为所述样本进行训练。
4.如权利要求1-3中任意一项所述的分类器模型训练方法,其特征在于,获取真实正常染色体,并获取真实正常同源染色体对之间的第一差异矩阵进一步包括:
获取多位真实用户的染色体图像数据,并根据所述染色体图像数据获取各所述真实用户的各细胞的至少一条真实正常染色体中的姐妹染色单体的真实正常单体序列数据;
对于各所述真实正常染色体,合并其姐妹染色单体的真实正常单体序列数据为所述真实正常染色体的真实正常序列数据,并在所述真实正常序列数据中拼接所述真实正常染色体的类型数据和条带数数据,以获取表征所述真实正常染色体的真实正常特征矩阵;以及
对各所述细胞中互为同源的真实正常同源染色体对,对所述真实正常同源染色体对的两个真实正常特征矩阵进行自适应结构对齐的相似度计算,以获取表征所述真实正常同源染色体对之间差异的所述第一差异矩阵。
5.如权利要求4所述的分类器模型训练方法,其特征在于,所述根据所述染色体图像数据获取各所述真实用户的各细胞的至少一条真实正常染色体中的姐妹染色单体的真实正常单体序列数据进一步包括:
图像细化所述染色体图像数据以提取所述真实正常染色体的骨架线;以及
基于所述骨架线的延伸方向,获取所述骨架线上预定数量的垂直扫描线的灰度平均值,以获得表征所述延伸方向的、预定数量长度的灰度平均值的数列为所述真实正常单体序列数据。
6.如权利要求5所述的分类器模型训练方法,其特征在于,所述根据至少一个缺陷构造参数对所述真实正常染色体的真实正常单体序列数据进行修改进一步包括:
将所述真实正常单体序列数据转化为真实正常灰度值曲线;
根据所述缺陷构造参数确定所述真实正常灰度值曲线上的至少一个断裂点和缺陷曲线片段;
基于所述断裂点在所述真实正常灰度值曲线上增加和/或删减所述缺陷曲线片段,以获取人造缺陷灰度值曲线;
对所述人造缺陷灰度值曲线进行平滑处理和/或长度标准化处理;以及
将经过平滑处理和/或长度标准化处理的人造缺陷灰度值曲线转化为所述人造缺陷单体序列数据。
7.如权利要求6所述的分类器模型训练方法,其特征在于,获取所述真实正常单体序列数据进一步包括:
根据所述染色体图像数据确定所述真实正常染色体的着丝粒位置以及所述真实正常染色体的长、短臂;其中
根据所述缺陷构造参数确定所述真实正常灰度值曲线上的至少一个断裂点和缺陷曲线片段进一步包括:
根据所述缺陷构造参数确定所述至少一个断裂点的数量和位置,所述位置表征相对于所述着丝粒和/或长、断臂的位置;以及
根据所述缺陷构造参数确定所述缺陷曲线片段的染色体来源、长度、方向中的至少一者。
8.如权利要求6所述的分类器模型训练方法,其特征在于,响应于已经构造了所述人造缺陷染色体,所述获取人造缺陷同源染色体对之间的第二差异矩阵进一步包括:
对所述人造缺陷特征矩阵和与所述人造缺陷染色体互为同源的正常同源染色体的特征矩阵进行自适应结构对齐的相似度计算,以获取所述第二差异矩阵,所述第二差异矩阵表征所述人造缺陷染色体和正常同源染色体之间的差异;其中
所述正常同源染色体为构造所述人造缺陷染色体所依据的真实正常染色体;和/或,
所述正常同源染色体为基于所述人造缺陷染色体构造的人造正常染色体。
9.如权利要求8所述的分类器模型训练方法,其特征在于,所述分类器模型训练方法还包括:
基于所述断裂点在经过平滑处理和/或长度标准化处理的人造缺陷灰度值曲线上删减和/或增加所述缺陷曲线片段,以对所述人造缺陷灰度值曲线逆修改得到人造正常灰度值曲线;
对所述人造正常灰度值曲线进行平滑处理和/或长度标准化处理;
将经过平滑处理和/或长度标准化处理的人造正常灰度值曲线转化为人造正常单体序列数据;以及
合并所述人造正常单体序列数据为所述人造正常染色体的人造正常序列数据,并在所述人造正常染色体的序列数据中拼接所述人造正常染色体的类型数据和条带数数据,以获取表征所述人造正常染色体的人造正常特征矩阵。
10.如权利要求9所述的分类器模型训练方法,其特征在于,所述分类器模型训练方法还包括:
对于互为同源的所述人造正常染色体和所述真实正常染色体构成的人造-真实正常同源染色体对,对所述人造正常特征矩阵和所述真实正常特征矩阵进行自适应结构对齐的相似度计算,以获取表征人造-真实正常同源染色体对之间差异的第四差异矩阵;其中
至少以所述第一差异矩阵和所述第二差异矩阵为样本进行训练,以获得检测染色体结构异常的分类器模型进一步包括:
以所述第一差异矩阵、所述第二差异矩阵和所述第四差异矩阵为样本进行训练,以获得所述分类器模型。
11.如权利要求10所述的分类器模型训练方法,其特征在于,所述分类器模型训练方法还包括:
对来自同一位所述真实用户的多个细胞中的真实正常染色体,基于多个细胞中同一类型的真实正常同源染色体对的多个第一差异矩阵获取该真实用户的该类型的第一差异组合矩阵;
将该真实用户的该类型的第一差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的真实正常同源染色体对的第一差异特征矩阵;其中
以不同真实用户的、不同类型的用户级别的第一差异特征矩阵为所述样本进行训练。
12.如权利要求10所述的分类器模型训练方法,其特征在于,所述分类器模型训练方法还包括:
对于同一位所述真实用户,基于相同的缺陷构造参数对该真实用户的多个细胞中同一类型的真实正常染色体进行修改,以获取该真实用户对应同一类型、同一缺陷的多个细胞的人造缺陷染色体,并基于多个人造缺陷同源染色体对的第二差异矩阵获取该真实用户的该类型、该缺陷的第二差异组合矩阵;
将该真实用户的该类型、该缺陷的第二差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的人造缺陷同源染色体对的第二差异特征矩阵;其中
以不同真实用户的、不同类型的、不同缺陷的用户级别的第二差异特征矩阵为所述样本进行训练。
13.如权利要求12所述的分类器模型训练方法,其特征在于,所述分类器模型训练方法还包括:
基于该真实用户对应同一类型、同一缺陷的多个细胞的人造缺陷染色体获取对应的多个人造真实染色体,并基于该真实用户的多个细胞的人造-真实正常同源染色体对的多个第四差异矩阵获取该真实用户的该类型的第四差异组合矩阵;
将该真实用户的该类型的第四差异组合矩阵输入预先训练得到的特征聚合模型,以获取用户级别的多个细胞的人造-真实正常同源染色体对的第四差异特征矩阵;其中
以不同真实用户的、不同类型的用户级别的第四差异特征矩阵为所述样本进行训练。
14.一种检测染色体结构异常的分类器模型训练装置,其特征在于,所述分类器模型训练装置包括:至少一个处理器;以及
与所述至少一个处理器耦合的存储器,所述存储器包含有存储于其中的指令,所述指令在被所述至少一个处理器执行时,使得所述分类器模型训练装置执行如权利要求1-13中任一项所述的检测染色体结构异常的分类器模型训练方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-13中任一项所述的检测染色体结构异常的分类器模型训练方法。
CN202210776303.7A 2022-07-04 2022-07-04 一种检测染色体结构异常的分类器模型训练方法及装置 Active CN114841294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210776303.7A CN114841294B (zh) 2022-07-04 2022-07-04 一种检测染色体结构异常的分类器模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210776303.7A CN114841294B (zh) 2022-07-04 2022-07-04 一种检测染色体结构异常的分类器模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN114841294A CN114841294A (zh) 2022-08-02
CN114841294B true CN114841294B (zh) 2022-10-28

Family

ID=82574284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210776303.7A Active CN114841294B (zh) 2022-07-04 2022-07-04 一种检测染色体结构异常的分类器模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN114841294B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063411A (zh) * 2022-08-04 2022-09-16 湖南自兴智慧医疗科技有限公司 一种染色体异常区域分割检测方法和系统
CN115375682B (zh) * 2022-10-24 2023-01-20 湖南自兴智慧医疗科技有限公司 一种染色体罗氏易位异常检测方法、系统及存储介质
CN117095747B (zh) * 2023-08-29 2024-04-30 广东省农业科学院水稻研究所 一种基于线性泛基因组和人工智能模型检测群体倒位或转座子端点基因型的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392246A (zh) * 2014-12-03 2015-03-04 北京理工大学 一种基于类间类内面部变化字典的单样本人脸识别方法
CN108388674A (zh) * 2018-03-26 2018-08-10 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN112289382A (zh) * 2020-10-28 2021-01-29 天津诺禾致源生物信息科技有限公司 多倍体基因组同源染色体的拆分方法、装置及其应用
CN114480667A (zh) * 2022-01-21 2022-05-13 复旦大学附属妇产科医院 一种通过孕妇外周血游离dna检测胎儿染色体平衡性结构变异的方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0603251D0 (en) * 2006-02-17 2006-03-29 Isis Innovation DNA conformation
WO2015051163A2 (en) * 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN104745718B (zh) * 2015-04-23 2018-02-16 北京中仪康卫医疗器械有限公司 一种检测人类胚胎染色体微缺失和微重复的方法
JP2018068268A (ja) * 2016-11-04 2018-05-10 株式会社Gsp研究所 染色体の構造異常を迅速に検出するための方法、促進剤およびそれを含むキット
CN110265087A (zh) * 2018-10-05 2019-09-20 中国医药大学附设医院 染色体异常检测模型、其检测系统及染色体异常检测方法
CN116933166A (zh) * 2019-11-28 2023-10-24 太原理工大学 一种面向脑卒中非平衡数据集的分类方法及系统
CN111105032B (zh) * 2019-11-28 2022-08-30 华南师范大学 基于gan的染色体结构异常检测方法、系统及存储介质
CN111462823B (zh) * 2020-04-08 2022-07-12 西安交通大学 一种基于dna测序数据的同源重组缺陷判定方法
CN111899882B (zh) * 2020-08-07 2021-06-18 北京科技大学 一种预测癌症的方法及系统
EP4254418A4 (en) * 2020-11-27 2024-03-27 Bgi Shenzhen METHOD AND SYSTEM FOR DETECTING CHROMOSOMAL ANOMALIES IN FETUS
CN112226495B (zh) * 2020-12-18 2021-03-16 北京迈基诺基因科技股份有限公司 一种dna同源重组异常的检测方法及其应用
CN114693685B (zh) * 2022-06-02 2022-08-09 深圳市华汉伟业科技有限公司 无监督的缺陷检测模型的训练方法、缺陷检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392246A (zh) * 2014-12-03 2015-03-04 北京理工大学 一种基于类间类内面部变化字典的单样本人脸识别方法
CN108388674A (zh) * 2018-03-26 2018-08-10 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN112289382A (zh) * 2020-10-28 2021-01-29 天津诺禾致源生物信息科技有限公司 多倍体基因组同源染色体的拆分方法、装置及其应用
CN114480667A (zh) * 2022-01-21 2022-05-13 复旦大学附属妇产科医院 一种通过孕妇外周血游离dna检测胎儿染色体平衡性结构变异的方法

Also Published As

Publication number Publication date
CN114841294A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN114841294B (zh) 一种检测染色体结构异常的分类器模型训练方法及装置
Zhang et al. Mdnet: A semantically and visually interpretable medical image diagnosis network
US11935644B2 (en) Deep learning automated dermatopathology
CN110853022B (zh) 病理切片图像的处理方法、装置、系统及存储介质
Wells et al. Artificial intelligence in dermatopathology: Diagnosis, education, and research
EP3938948A1 (en) Multiple instance learner for prognostic tissue pattern identification
CN114842472B (zh) 一种基于深度学习的染色体结构异常的检测方法及装置
CN110175502A (zh) 一种脊柱Cobb角测量方法、装置、可读存储介质及终端设备
Binder et al. Multi-organ gland segmentation using deep learning
CN111488921A (zh) 一种全景数字病理图像智能分析系统及方法
US9424460B2 (en) Tumor plus adjacent benign signature (TABS) for quantitative histomorphometry
CN113221978A (zh) 基于弱监督学习的结直肠癌数字病理图像判别方法及系统
CN111340937A (zh) 一种脑肿瘤医学影像三维重建显示交互方法及系统
Kromp et al. Deep Learning architectures for generalized immunofluorescence based nuclear image segmentation
CN113538422B (zh) 一种基于染色强度矩阵的病理图像自动分类方法
CN108447047A (zh) 抗酸杆菌检测方法及装置
Yang et al. Preparation of image databases for artificial intelligence algorithm development in gastrointestinal endoscopy
Somasundaram et al. Straightening of highly curved human chromosome for cytogenetic analysis
Jing et al. A comprehensive survey of intestine histopathological image analysis using machine vision approaches
Robertson et al. Comprehensive, population-based sensitivity analysis of a two-mass vocal fold model
Cengizler et al. A nature-inspired search space reduction technique for spine identification on ultrasound samples of spina bifida cases
CN117079291A (zh) 图像轨迹确定方法、装置、计算机设备和存储介质
CN112734707B (zh) 一种3d内窥镜辅助检测方法、系统、装置及存储介质
Chen et al. An interpretable Algorithm for uveal melanoma subtyping from whole slide cytology images
Liu et al. A gastric cancer recognition algorithm on gastric pathological sections based on multistage attention‐DenseNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant