CN112052813A - 染色体间易位识别方法、装置、电子设备及可读存储介质 - Google Patents

染色体间易位识别方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112052813A
CN112052813A CN202010964014.0A CN202010964014A CN112052813A CN 112052813 A CN112052813 A CN 112052813A CN 202010964014 A CN202010964014 A CN 202010964014A CN 112052813 A CN112052813 A CN 112052813A
Authority
CN
China
Prior art keywords
translocation
chromosome
image
sequencing
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010964014.0A
Other languages
English (en)
Other versions
CN112052813B (zh
Inventor
陈河兵
洪浩
李�昊
江帅
黄昕
杜桂芳
陶欢
孙昱
王军婷
许康
李雅儒
伯晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Pharmacology and Toxicology of AMMS
Original Assignee
Institute of Pharmacology and Toxicology of AMMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Pharmacology and Toxicology of AMMS filed Critical Institute of Pharmacology and Toxicology of AMMS
Priority to CN202010964014.0A priority Critical patent/CN112052813B/zh
Publication of CN112052813A publication Critical patent/CN112052813A/zh
Application granted granted Critical
Publication of CN112052813B publication Critical patent/CN112052813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification

Abstract

本申请提供了一种染色体间易位识别方法、装置、电子设备及可读存储介质,易位识别方法包括:对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。这样,通过区域分类模型和位置检测模型对染色体片段进行分类和检测,能够准确的对染色体片段发生易位的情况进行识别,从而确定出染色体片段发生易位的易位起始位置,提高易位识别的精确度。

Description

染色体间易位识别方法、装置、电子设备及可读存储介质
技术领域
本申请涉及染色体易位识别技术领域,具体而言,涉及染色体间易位识别方法、装置、电子设备及可读存储介质。
背景技术
染色体结构变异是癌症细胞基因组的显著特征,其中,染色体结构变异主要表现为染色体间易位。
现有技术中,常采用HiCtrans算法和HiNT算法来鉴定癌细胞中染色体间易位的断点位置,并将染色体间Hi-C矩阵的行、列和向量发生变化的位置作为染色体间易位的断点位置。
但现有算法在识别处于染色体两端的断点位置时,识别的准确率较低。
发明内容
有鉴于此,本申请的目的在于提供一种染色体间易位识别方法、装置、电子设备及可读存储介质,通过区域分类模型和位置检测模型对染色体片段进行分类和检测,能够准确的对染色体片段发生易位的情况进行识别,从而确定出染色体片段发生易位的易位起始位置,提高易位识别的精确度。
本申请实施例提供一种染色体间易位识别方法,所述易位识别方法包括:
对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;
将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;
将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。
优选地,所述对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像,包括:
基于预设分辨率,将获取到的待识别染色体的初始测序数据转化成表示染色体片段间的交互频率的测序交互矩阵;
通过图像处理库中的图片格式将所述测序交互矩阵转化成染色体交互图像。
优选地,通过以下步骤训练所述区域分类模型:
获取染色体片段发生易位的第一测序图像样本和所述第一测序图像样本的真实分类结果,以及与所述第一测序图像样本相对应的染色体片段未发生易位的第二测序图像样本;
通过所述第一测序图像样本、所述第一测序图像样本的真实分类结果和所述第二测序图像样本对构建好的神经网络进行训练,直至达到第一预设训练次数,确定构建好的神经网络训练完毕,得到训练好的区域分类模型。
优选地,通过以下步骤对神经网络进行训练:
将所述第一测序图像样本和所述第二测序图像样本分别输入至所述神经网络的特征层中,分别提取所述第一测序图像样本对应的第一图像特征和所述第二测序图像样本对应的第二图像特征;
若所述特征层只提取到所述第一测序图像样本对应的第一图像特征,则将所述特征层输出的第一图像特征输入至所述神经网络的全连接层中,所述全连接层对所述第一图像特征进行线性组合处理,得到与所述第一图像特征对应的第一图像分类结果;
若所述第一图像分类结果为所述第一测序图像样本的真实分类结果,则确定对神经网络的训练完成。
优选地,通过以下步骤训练所述位置检测模型:
获取染色体片段发生易位的第三测序图像样本,以及所述第三测序图像样本中染色体片段发生易位的真实起始位置;
通过所述第三测序图像样本和所述第三测序图像样本中染色体片段发生易位的真实起始位置对构建好的神经网络进行训练,直至达到第二预设训练次数,确定构建好的神经网络训练完毕,得到训练好的位置检测模型。
优选地,通过以下步骤对神经网络进行训练:
将所述第三测序图像样本输入至所述神经网络的特征提取层中,提取所述第三测序图像样本对应的易位位置图像特征;
将所述特征提取层输出的易位位置图像特征输入至所述神经网络的边界框识别层中,所述边界框识别层对所述易位位置图像特征进行分类和回归,得到所述易位位置图像特征对应的易位边界图像特征;
将所述边界框识别层输出的易位边界图像特征输入至所述神经网络的预测层中,得到与所述易位边界图像特征对应的染色体片段发生易位的易位起始位置。
优选地,在所述将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置之后,所述易位识别方法还包括:
基于所述染色体片段发生易位的易位起始位置,确定染色体片段发生易位的易位起始位置的位置坐标。
第二方面,本申请实施例提供一种染色体间易位识别装置,所述易位识别装置包括:
处理模块,用于对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;
区域分类模块,用于将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;
位置检测模块,用于将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。
优选地,所述处理模块在用于对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像时,所述处理模块包括:
基于预设分辨率,将获取到的待识别染色体的初始测序数据转化成表示染色体片段间的交互频率的测序交互矩阵;
通过图像处理库中的图片格式将所述测序交互矩阵转化成染色体交互图像。
优选地,所述区域分类模块用于通过以下步骤训练所述区域分类模型:
获取染色体片段发生易位的第一测序图像样本和所述第一测序图像样本的真实分类结果,以及与所述第一测序图像样本相对应的染色体片段未发生易位的第二测序图像样本;
通过所述第一测序图像样本、所述第一测序图像样本的真实分类结果和所述第二测序图像样本对构建好的神经网络进行训练,直至达到第一预设训练次数,确定构建好的神经网络训练完毕,得到训练好的区域分类模型。
优选地,所述区域分类模块用于通过以下步骤对神经网络进行训练:
将所述第一测序图像样本和所述第二测序图像样本分别输入至所述神经网络的特征层中,分别提取所述第一测序图像样本对应的第一图像特征和所述第二测序图像样本对应的第二图像特征;
若所述特征层只提取到所述第一测序图像样本对应的第一图像特征,则将所述特征层输出的第一图像特征输入至所述神经网络的全连接层中,所述全连接层对所述第一图像特征进行线性组合处理,得到与所述第一图像特征对应的第一图像分类结果;
若所述第一图像分类结果为所述第一测序图像样本的真实分类结果,则确定对神经网络的训练完成。
优选地,所述位置检测模块用于通过以下步骤训练所述位置检测模型:
获取染色体片段发生易位的第三测序图像样本,以及所述第三测序图像样本中染色体片段发生易位的真实起始位置;
通过所述第三测序图像样本和所述第三测序图像样本中染色体片段发生易位的真实起始位置对构建好的神经网络进行训练,直至达到第二预设训练次数,确定构建好的神经网络训练完毕,得到训练好的位置检测模型。
优选地,所述位置检测模块用于通过以下步骤对神经网络进行训练:
将所述第三测序图像样本输入至所述神经网络的特征提取层中,提取所述第三测序图像样本对应的易位位置图像特征;
将所述特征提取层输出的易位位置图像特征输入至所述神经网络的边界框识别层中,所述边界框识别层对所述易位位置图像特征进行分类和回归,得到所述易位位置图像特征对应的易位边界图像特征;
将所述边界框识别层输出的易位边界图像特征输入至所述神经网络的预测层中,得到与所述易位边界图像特征对应的染色体片段发生易位的易位起始位置。
优选地,所述易位识别装置还包括:
坐标确定模块,用于基于所述染色体片段发生易位的易位起始位置,确定染色体片段发生易位的易位起始位置的位置坐标。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的染色体间易位识别方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的染色体间易位识别方法的步骤。
本申请实施例提供一种染色体间易位识别方法、装置、电子设备及可读存储介质,其中,易位识别方法包括:对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。这样,通过区域分类模型和位置检测模型对染色体片段进行分类和检测,能够准确的对染色体片段发生易位的情况进行识别,从而确定出染色体片段发生易位的易位起始位置,提高易位识别的精确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种染色体间易位识别方法的流程图;
图2为本申请实施例提供的另一种染色体间易位识别方法的流程图;
图3为本申请实施例提供的一种染色体间易位识别装置的结构示意图之一;
图4为本申请实施例提供的一种染色体间易位识别装置的结构示意图之二;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种染色体间易位识别方法的流程图。如图1中所示,本申请实施例提供的易位识别方法,包括:
S110、对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像。
该步骤中,通过Hi-C技术对待识别染色体进行处理,通过超声波手段打碎DNA片段得到测序片段,基于测序片段得到初始测序数据,对初始测序数据进行预处理,预处理的过程包括数据预处理,数据集的构建和Hi-C矩阵的处理过程,通过对初始测序数据的预处理可以得到待识别染色体的染色体交互图像。
这里,通过Python中的Pillow工具包将初始测序数据对应的Hi-C矩阵转换成RGB三通道的图像,以使后期的处理模型基于RGB三通道的图像进行训练。
S120、将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域。
该步骤中,预先训练好区域分类模型,在实际应用区域分类模型时,只需要将染色体交互图像输入至预先训练好的区域分类模型中,然后通过区域分类模型对染色体交互图像进行处理,进而从中识别出染色体片段发生易位的高频区域。
这里,当染色体片段发生易位时,发生易位的位置会出现高交互频率的区块,进而,区域分类模型主要用于判断染色体交互图像中是否出现染色体片段发生易位的高频区域,若出现,则说明染色体片段发生易位。
其中,本申请实施例中的染色体易位为染色体间易位,染色体间易位为发生在两条同源或非同源染色体之间的易位。
S130、将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。
该步骤中,预先训练好位置检测模型,在实际应用位置检测模型时,只需要将染色体交互图像输入至预先训练好的位置检测模型中,然后通过位置检测模型对染色体交互图像进行处理,进而根据染色体片段发生易位的高频区域确定出染色体交互图像中存在染色体片段发生易位的易位起始位置。
这里,位置检测模型主要用于检测染色体交互图像中存在染色体片段发生易位的易位起始位置,并且输入至位置检测模型中的染色体交互图像是从区域分类模型中输出的染色体交互图像。
本申请实施例提供一种染色体间易位识别方法,所述易位识别方法包括:对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。这样,通过区域分类模型和位置检测模型对染色体片段进行分类和检测,能够准确的对染色体片段发生易位的情况进行识别,从而确定出染色体片段发生易位的易位起始位置,提高易位识别的精确度。
请参阅图2,图2为本申请实施例提供的另一种染色体间易位识别方法的流程图。如图2中所示,本申请实施例提供的易位识别方法,包括:
S210、对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;
S220、将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;
S230、将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。
其中,S210至S230的描述可以参照S110至S130的描述,并且能达到相同的技术效果,对此不做赘述。
S240、基于所述染色体片段发生易位的易位起始位置,确定染色体片段发生易位的易位起始位置的位置坐标。
该步骤中,当位置检测模块找到染色体片段发生易位的易位起始位置时,即可根据染色体片段发生易位的易位起始位置确定染色体片段发生易位的易位起始位置的位置坐标。
在本申请实施例中,作为一种优选地实施例,步骤S210包括:
基于预设分辨率,将获取到的待识别染色体的初始测序数据转化成表示染色体片段间的交互频率的测序交互矩阵。
该步骤中,基于HiC-Pro软件对待识别染色体的初始测序数据进行处理,HiC-Pro是一个高效的Hi-C数据分析软件,提供了从原始数据到归一化之后的Hi-C图谱构建的完成功能,运行效率高,用法简便。进而,根据指定的分辨率,构建原始的交互矩阵,采用迭代校正的归一化算法对原始的交互矩阵进行归一化,矫正系统误差。
这里,经过Hi-C技术测序、基因组比对以及相应的预处理操作,可以将初始测序数据(Hi-C数据)转化为一个m×m大小的矩阵。即将全基因组按照固定长度划分为等间距的区间,矩阵中(i,j)位置的数值表示基因组区间i与基因组区间j中DNA片段的交互频率。举例说明,假设全基因组就一个染色体,长度是1000kb,如果把基因组划分成1kb的等长区间,就获得了1000*1000的一个邻接矩阵,理论上是测一个细胞,但并不是空间邻近就一定能被捕捉到,所以测一群细胞,得到一个统计学上的频率。进而,Hi-C测序的时候测定了一万个细胞的细胞核内的DNA片段的交互频率,其中,Hi-C测定的交互频率表示染色体上两个不同的位置的DNA片段在细胞核内空间邻近,易于被捕捉到并测序,因此交互频率的高低反映了一群细胞内两个片段是否空间邻近。
由于染色体疆域的存在,测序交互矩阵呈现染色体间交互频率远小于染色体内交互频率的特征。染色体结构变异是癌症细胞系基因组的显著特征,尤其染色体间易位会使得不同染色体的DNA片段形成新的变异染色体。而对于癌症细胞系样本的初始测序数据,我们仍以参考基因组为模板处理Hi-C数据为测序交互矩阵,则对于发生染色体间易位的染色体间测序交互矩阵,可以观察到其染色体间测序交互矩阵出现高交互频率的区块,而高频区块对应不同染色体的DNA序列区间,即为发生染色体间易位的染色体片段。
需要说明的是,本申请实施例中的预设分辨率为500kb,但是不仅限于此。
本申请实施例中,基于预设分辨率,并使用HiC-Pro软件对获取到的待识别染色体的初始测序数据进行处理,从而将初始测序数据转化成表示染色体片段间的交互频率的测序交互矩阵。
通过图像处理库中的图片格式将所述测序交互矩阵转化成染色体交互图像。
该步骤中,将测序交互矩阵通过Python中的Pillow工具包转化为RGB三通道的.png图像,得到染色体交互图像,使用转换后的染色体交互图像进行模型训练和应用。
在本申请实施例中,作为一种优选地实施例,步骤S220通过以下步骤训练所述区域分类模型:
获取染色体片段发生易位的第一测序图像样本和所述第一测序图像样本的真实分类结果,以及与所述第一测序图像样本相对应的染色体片段未发生易位的第二测序图像样本。
该步骤中,第一测序图像样本的真实分类结果为第一测序图像样本上存在染色体片段发生易位的结果。
通过所述第一测序图像样本、所述第一测序图像样本的真实分类结果和所述第二测序图像样本对构建好的神经网络进行训练,直至达到第一预设训练次数,确定构建好的神经网络训练完毕,得到训练好的区域分类模型。
该步骤中,基于迁移学习技术,构建好神经网络,将第一测序图像样本和第二测序图像样本分别输入至构建好的神经网络中进行训练,使得第一测序图像样本的训练结果与第一测序图像样本的真实分类结果相匹配,当训练次数达到第一预设训练次数时,完成训练,得到训练好的区域分类模型。其中,区域分类模型主要用于检测染色体交互图像是否发生易位。其中,在本申请实施例中应用迁移学习技术,可以解决可训练样本较少的问题。
优选地,第一预设训练次数为10至15轮次,当第一预设训练次数为10至15轮次时,训练出的区域分类模型效果较佳。
优选地,步骤S220通过以下步骤对神经网络进行训练:
将所述第一测序图像样本和所述第二测序图像样本分别输入至所述神经网络的特征层中,分别提取所述第一测序图像样本对应的第一图像特征和所述第二测序图像样本对应的第二图像特征。
该步骤中,所述神经网络的特征层为ResNet或VGG模型的特征层,基于该特征层提取第一测序图像样本对应的第一图像特征和第二测序图像样本对应的第二图像特征。
若所述特征层只提取到所述第一测序图像样本对应的第一图像特征,则将所述特征层输出的第一图像特征输入至所述神经网络的全连接层中,所述全连接层对所述第一图像特征进行线性组合处理,得到与所述第一图像特征对应的第一图像分类结果。
该步骤中,将特征层提取出的第一测序图像样本对应的第一图像特征作为神经网络的全连接层的输入,然后经过全连接层的线性组合处理,得到全连接层的输出结果,其中,全连接层的输出结果为第一图像特征对应的第一图像分类结果。
这里,全连接层不是ResNet或VGG模型中的全连接层,而是在ResNet或VGG模型中的特征层后面新添加的全连接层,并且该全连接层为二分类的全连接层。
若所述第一图像分类结果为所述第一测序图像样本的真实分类结果,则确定对神经网络的训练完成。
该步骤中,针对单次训练来说,每次训练完的结果为第一图像分类结果,若第一图像分类结果为第一测序图像样本的真实分类结果,则完成对神经网络的训练。
在本申请实施例中,作为一种优选地实施例,步骤S230通过以下步骤训练所述位置检测模型:
获取染色体片段发生易位的第三测序图像样本,以及所述第三测序图像样本中染色体片段发生易位的真实起始位置;
通过所述第三测序图像样本和所述第三测序图像样本中染色体片段发生易位的真实起始位置对构建好的神经网络进行训练,直至达到第二预设训练次数,确定构建好的神经网络训练完毕,得到训练好的位置检测模型。
该步骤中,基于迁移学习技术,构建好神经网络,将第三测序图像样本输入至构建好的神经网络中进行训练,当训练次数达到第二预设训练次数时,完成训练,得到训练好的位置检测模型。其中,位置检测模型主要用于检测染色体交互图像发生易位的易位起始位置,且位置检测模型可以选用Mask-RCNN模型。
这里,第一测序图像样本与第三测序图像样本属同类别样本,均是染色体片段发生易位的测序图像样本。
优选地,第二预设训练次数可以为10轮次,当第二预设训练次数为10轮次时,训练出的位置检测模型效果较佳。
优选地,步骤S230通过以下步骤对神经网络进行训练:
将所述第三测序图像样本输入至所述神经网络的特征提取层中,提取所述第三测序图像样本对应的易位位置图像特征。
该步骤中,基于神经网络的特征提取层提取第三测序图像样本对应的易位位置图像特征,并将易位位置图像特征作为该特征提取层的输出,输入至下一层神经网络中。
将所述特征提取层输出的易位位置图像特征输入至所述神经网络的边界框识别层中,所述边界框识别层对所述易位位置图像特征进行分类和回归,得到所述易位位置图像特征对应的易位边界图像特征。
该步骤中,将特征提取层输出的易位位置图像特征作为神经网络的边界框识别层的输入,利用边界框识别层对易位位置图像特征进行分类和回归处理,得到易位位置图像特征对应的易位边界图像特征。
将所述边界框识别层输出的易位边界图像特征输入至所述神经网络的预测层中,得到与所述易位边界图像特征对应的染色体片段发生易位的易位起始位置。
该步骤中,将边界框识别层输出的易位边界图像特征作为神经网络的预测层的输入,利用预测层对易位边界图像特征进行处理,得到与易位边界图像特征对应的染色体片段发生易位的易位起始位置。
本申请实施例提供的染色体间易位识别方法,通过区域分类模型和位置检测模型对染色体片段进行分类和检测,能够准确的对染色体片段发生易位的情况进行识别,同时本申请实施例利用位置检测模型定位染色体间易位的高频区域,根据高频区域的定位可以得到染色体片段发生易位的易位起始位置的位置坐标,可以检测到单个测序交互矩阵中的多个易位起始位置的位置坐标,提高了识别的精确度和灵敏度。
基于同一发明构思,本申请实施例中还提供了与染色体间易位识别方法对应的染色体间易位识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述染色体间易位识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3和图4,图3为本申请实施例提供的一种染色体间易位识别装置的结构示意图之一,图4为本申请实施例提供的一种染色体间易位识别装置的结构示意图之二。如图3所示,所述易位识别装置300包括:
处理模块310,用于对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;
区域分类模块320,用于将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;
位置检测模块330,用于将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。
优选地,所述处理模块310在用于对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像时,所述处理模块310用于:
基于预设分辨率,将获取到的待识别染色体的初始测序数据转化成表示染色体片段间的交互频率的测序交互矩阵;
通过图像处理库中的图片格式将所述测序交互矩阵转化成染色体交互图像。
优选地,所述区域分类模块320用于通过以下步骤训练所述区域分类模型:
获取染色体片段发生易位的第一测序图像样本和所述第一测序图像样本的真实分类结果,以及与所述第一测序图像样本相对应的染色体片段未发生易位的第二测序图像样本;
通过所述第一测序图像样本、所述第一测序图像样本的真实分类结果和所述第二测序图像样本对构建好的神经网络进行训练,直至达到第一预设训练次数,确定构建好的神经网络训练完毕,得到训练好的区域分类模型。
优选地,所述区域分类模块320用于通过以下步骤对神经网络进行训练:
将所述第一测序图像样本和所述第二测序图像样本分别输入至所述神经网络的特征层中,分别提取所述第一测序图像样本对应的第一图像特征和所述第二测序图像样本对应的第二图像特征;
若所述特征层只提取到所述第一测序图像样本对应的第一图像特征,则将所述特征层输出的第一图像特征输入至所述神经网络的全连接层中,所述全连接层对所述第一图像特征进行线性组合处理,得到与所述第一图像特征对应的第一图像分类结果;
若所述第一图像分类结果为所述第一测序图像样本的真实分类结果,则确定对神经网络的训练完成。
优选地,所述位置检测模块330用于通过以下步骤训练所述位置检测模型:
获取染色体片段发生易位的第三测序图像样本,以及所述第三测序图像样本中染色体片段发生易位的真实起始位置;
通过所述第三测序图像样本和所述第三测序图像样本中染色体片段发生易位的真实起始位置对构建好的神经网络进行训练,直至达到第二预设训练次数,确定构建好的神经网络训练完毕,得到训练好的位置检测模型。
优选地,所述位置检测模块330用于通过以下步骤对神经网络进行训练:
将所述第三测序图像样本输入至所述神经网络的特征提取层中,提取所述第三测序图像样本对应的易位位置图像特征;
将所述特征提取层输出的易位位置图像特征输入至所述神经网络的边界框识别层中,所述边界框识别层对所述易位位置图像特征进行分类和回归,得到所述易位位置图像特征对应的易位边界图像特征;
将所述边界框识别层输出的易位边界图像特征输入至所述神经网络的预测层中,得到与所述易位边界图像特征对应的染色体片段发生易位的易位起始位置。
进一步的,如图4所示,所述易位识别装置300还包括坐标确定模块340,所述坐标确定模块340用于:
基于所述染色体片段发生易位的易位起始位置,确定染色体片段发生易位的易位起始位置的位置坐标。
本申请实施例提供的染色体间易位识别装置,包括处理模块、区域分类模块和位置检测模块,其中,处理模块用于对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;区域分类模块用于将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;位置检测模块用于将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。这样,通过区域分类模型和位置检测模型对染色体片段进行分类和检测,能够准确的对染色体片段发生易位的情况进行识别,从而确定出染色体片段发生易位的易位起始位置,提高易位识别的精确度。
请参阅图5,图5为本申请实施例提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1和图2所示方法实施例中的一种染色体间易位识别方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1和图2所示方法实施例中的一种染色体间易位识别方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种染色体间易位识别方法,其特征在于,所述易位识别方法包括:
对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;
将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;
将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。
2.根据权利要求1所述的易位识别方法,其特征在于,所述对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像,包括:
基于预设分辨率,将获取到的待识别染色体的初始测序数据转化成表示染色体片段间的交互频率的测序交互矩阵;
通过图像处理库中的图片格式将所述测序交互矩阵转化成染色体交互图像。
3.根据权利要求1所述的易位识别方法,其特征在于,通过以下步骤训练所述区域分类模型:
获取染色体片段发生易位的第一测序图像样本和所述第一测序图像样本的真实分类结果,以及与所述第一测序图像样本相对应的染色体片段未发生易位的第二测序图像样本;
通过所述第一测序图像样本、所述第一测序图像样本的真实分类结果和所述第二测序图像样本对构建好的神经网络进行训练,直至达到第一预设训练次数,确定构建好的神经网络训练完毕,得到训练好的区域分类模型。
4.根据权利要求3所述的易位识别方法,其特征在于,通过以下步骤对神经网络进行训练:
将所述第一测序图像样本和所述第二测序图像样本分别输入至所述神经网络的特征层中,分别提取所述第一测序图像样本对应的第一图像特征和所述第二测序图像样本对应的第二图像特征;
若所述特征层只提取到所述第一测序图像样本对应的第一图像特征,则将所述特征层输出的第一图像特征输入至所述神经网络的全连接层中,所述全连接层对所述第一图像特征进行线性组合处理,得到与所述第一图像特征对应的第一图像分类结果;
若所述第一图像分类结果为所述第一测序图像样本的真实分类结果,则确定对神经网络的训练完成。
5.根据权利要求1所述的易位识别方法,其特征在于,通过以下步骤训练所述位置检测模型:
获取染色体片段发生易位的第三测序图像样本,以及所述第三测序图像样本中染色体片段发生易位的真实起始位置;
通过所述第三测序图像样本和所述第三测序图像样本中染色体片段发生易位的真实起始位置对构建好的神经网络进行训练,直至达到第二预设训练次数,确定构建好的神经网络训练完毕,得到训练好的位置检测模型。
6.根据权利要求5所述的易位识别方法,其特征在于,通过以下步骤对神经网络进行训练:
将所述第三测序图像样本输入至所述神经网络的特征提取层中,提取所述第三测序图像样本对应的易位位置图像特征;
将所述特征提取层输出的易位位置图像特征输入至所述神经网络的边界框识别层中,所述边界框识别层对所述易位位置图像特征进行分类和回归,得到所述易位位置图像特征对应的易位边界图像特征;
将所述边界框识别层输出的易位边界图像特征输入至所述神经网络的预测层中,得到与所述易位边界图像特征对应的染色体片段发生易位的易位起始位置。
7.根据权利要求1所述的易位识别方法,其特征在于,在所述将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置之后,所述易位识别方法还包括:
基于所述染色体片段发生易位的易位起始位置,确定染色体片段发生易位的易位起始位置的位置坐标。
8.一种染色体间易位识别装置,其特征在于,所述易位识别装置包括:
处理模块,用于对获取到的待识别染色体的初始测序数据进行预处理,得到所述待识别染色体的染色体交互图像;
区域分类模块,用于将所述染色体交互图像输入至预先训练好的区域分类模型中,从所述染色体交互图像中识别出染色体片段发生易位的高频区域;
位置检测模块,用于将所述染色体交互图像输入至预先训练好的位置检测模型中,根据所述高频区域确定出所述染色体交互图像中存在染色体片段发生易位的易位起始位置。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一所述染色体间易位识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述染色体间易位识别方法的步骤。
CN202010964014.0A 2020-09-15 2020-09-15 染色体间易位识别方法、装置、电子设备及可读存储介质 Active CN112052813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010964014.0A CN112052813B (zh) 2020-09-15 2020-09-15 染色体间易位识别方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010964014.0A CN112052813B (zh) 2020-09-15 2020-09-15 染色体间易位识别方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112052813A true CN112052813A (zh) 2020-12-08
CN112052813B CN112052813B (zh) 2023-12-19

Family

ID=73611107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010964014.0A Active CN112052813B (zh) 2020-09-15 2020-09-15 染色体间易位识别方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112052813B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992267A (zh) * 2021-04-13 2021-06-18 中国人民解放军军事科学院军事医学研究院 一种单细胞的转录因子调控网络预测方法及装置
CN113192557A (zh) * 2021-06-03 2021-07-30 中国人民解放军军事科学院军事医学研究院 一种染色体变异检测方法、装置、电子设备及介质
CN115375682A (zh) * 2022-10-24 2022-11-22 湖南自兴智慧医疗科技有限公司 一种染色体罗氏易位异常检测方法、系统及存储介质
CN116583905A (zh) * 2021-11-23 2023-08-11 染色质(北京)科技有限公司 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质
WO2023240820A1 (zh) * 2022-06-17 2023-12-21 广州智睿医疗科技有限公司 一种染色体核型分析模块

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108449995A (zh) * 2015-11-06 2018-08-24 文塔纳医疗系统公司 代表性诊断
CN109242842A (zh) * 2018-08-31 2019-01-18 郑州金域临床检验中心有限公司 基于图像识别的人类染色体分析装置、设备及存储介质
CN110610757A (zh) * 2019-09-24 2019-12-24 电子科技大学 基于人工智能与图形学结合的染色体图像处理方法
CN110870020A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 利用卷积神经网络(cnns)进行异常剪接检测
EP3633682A1 (en) * 2018-10-05 2020-04-08 China Medical University Hospital Chromosome abnormality detecting model, detecting system thereof, and method for detecting chromosome abnormality
US20200152289A1 (en) * 2018-11-09 2020-05-14 The Broad Institute, Inc. Compressed sensing for screening and tissue imaging

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108449995A (zh) * 2015-11-06 2018-08-24 文塔纳医疗系统公司 代表性诊断
CN110870020A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 利用卷积神经网络(cnns)进行异常剪接检测
CN109242842A (zh) * 2018-08-31 2019-01-18 郑州金域临床检验中心有限公司 基于图像识别的人类染色体分析装置、设备及存储介质
EP3633682A1 (en) * 2018-10-05 2020-04-08 China Medical University Hospital Chromosome abnormality detecting model, detecting system thereof, and method for detecting chromosome abnormality
US20200152289A1 (en) * 2018-11-09 2020-05-14 The Broad Institute, Inc. Compressed sensing for screening and tissue imaging
CN110610757A (zh) * 2019-09-24 2019-12-24 电子科技大学 基于人工智能与图形学结合的染色体图像处理方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HAO HONG等: "DeepHiC: A generative adversarial network for enhancing Hi-C data resolution", PLOS COMPUTATIONAL BIOLOGY, vol. 16, no. 2, pages 1 - 28 *
JIAHE YAN等: "Detection of t(9;22) Chromosome Translocation Using Deep Residual Neural Network", JOURNAL OF COMPUTER AND COMMUNICATIONS, vol. 7, no. 12, pages 102 - 111 *
MONIKA SHARMA等: "Crowdsourcing for Chromosome Segmentation and Deep Classification", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), pages 786 - 793 *
ROSARME VETRO等: "TIDE: Inter-chromosomal translocation and insertion detection using embeddings", 2014 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA), pages 64 - 70 *
胡学芳: "芥菜型油菜A09染色体长臂BAC重叠群的构建", 中国优秀硕士学位论文全文数据库 农业科技辑, no. 9, pages 047 - 86 *
陈河兵: "基于整合组学策略的人类基因组功能元件的识别与注释", 中国博士学位论文全文数据库 基础科学辑, no. 1, pages 006 - 105 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992267A (zh) * 2021-04-13 2021-06-18 中国人民解放军军事科学院军事医学研究院 一种单细胞的转录因子调控网络预测方法及装置
CN112992267B (zh) * 2021-04-13 2024-02-09 中国人民解放军军事科学院军事医学研究院 一种单细胞的转录因子调控网络预测方法及装置
CN113192557A (zh) * 2021-06-03 2021-07-30 中国人民解放军军事科学院军事医学研究院 一种染色体变异检测方法、装置、电子设备及介质
CN113192557B (zh) * 2021-06-03 2022-01-25 中国人民解放军军事科学院军事医学研究院 一种染色体变异检测方法、装置、电子设备及介质
CN116583905A (zh) * 2021-11-23 2023-08-11 染色质(北京)科技有限公司 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质
WO2023240820A1 (zh) * 2022-06-17 2023-12-21 广州智睿医疗科技有限公司 一种染色体核型分析模块
CN115375682A (zh) * 2022-10-24 2022-11-22 湖南自兴智慧医疗科技有限公司 一种染色体罗氏易位异常检测方法、系统及存储介质

Also Published As

Publication number Publication date
CN112052813B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN112052813B (zh) 染色体间易位识别方法、装置、电子设备及可读存储介质
US10410292B2 (en) Method, system, apparatus, and storage medium for realizing antifraud in insurance claim based on consistency of multiple images
EP3550473A1 (en) Character identification method and device
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN109543647B (zh) 一种道路异常识别方法、装置、设备及介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN113420756B (zh) 证件图像的识别方法和装置、存储介质及电子装置
CN109685805B (zh) 一种图像分割方法及装置
CN103383732A (zh) 图像处理方法和装置
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
JP2021135993A (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN116311214B (zh) 车牌识别方法和装置
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN112001200A (zh) 识别码识别方法、装置、设备、存储介质和系统
US10970531B2 (en) Digitization of industrial inspection sheets by inferring visual relations
CN106709490B (zh) 一种字符识别方法和装置
CN111401438B (zh) 图像分拣方法、装置及系统
CN113486715A (zh) 图像翻拍识别方法、智能终端以及计算机存储介质
CN111626313B (zh) 一种特征提取模型训练方法、图像处理方法及装置
CN114445716B (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
JP6405603B2 (ja) 情報処理装置、情報処理システム及びプログラム
CN115205619A (zh) 检测模型的训练方法、检测方法、装置和存储介质
CN114332809A (zh) 一种图像识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant