CN117392155B

CN117392155B - 基于图像处理的高通量基因测序数据处理方法

Info

Publication number: CN117392155B
Application number: CN202311685051.8A
Authority: CN
Inventors: 赵英浩; 陈树; 李金东; 王锦程
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-02-09
Anticipated expiration: 2043-12-11
Also published as: CN117392155A

Abstract

本发明涉及图像处理技术领域，具体涉及基于图像处理的高通量基因测序数据处理方法，包括：采集高通量基因灰度图像；根据高通量基因灰度图像得到延伸像素点；根据延伸像素点得到邻域方向差异程度；根据邻域方向差异程度得到初始区域可能性；根据初始区域可能性得到区域可能性；根据高通量基因灰度图像得到碱基区域灰度分界值以及深色区域灰度区间；根据深色区域灰度区间以及碱基区域灰度分界值得到区间分界值；根据区间分界值对深色区域灰度区间进行修正得到修正灰度值；根据修正灰度值得到碱基区域。本发明使分割出的碱基区域更加完整，提高了分割结果的准确性，提高了获取基因序列信息的效率。

Description

基于图像处理的高通量基因测序数据处理方法

技术领域

本发明涉及图像处理技术领域，具体涉及基于图像处理的高通量基因测序数据处理方法。

背景技术

高通量基因测序技术是现代生物学和医学研究的核心技术之一，通过对高通量基因图像进行信息提取，从而快速获得大量的基因序列信息，以便后续对基因序列进行分析；而为了可以快速获得大量的基因序列信息，需要将高通量基因图像中的碱基区域提取出来。

传统方法通过大津阈值分割算法将高通量基因图像中的碱基区域分割出来，但由于高通量基因图像中碱基区域同时存在亮白区域与深色区域，传统的大津阈值分割算法只能分割出一部分亮白区域或者一部分深色区域的碱基区域，无法将整个碱基区域有效分割出来，导致获取基因序列信息的效率降低。

发明内容

本发明提供基于图像处理的高通量基因测序数据处理方法，以解决现有的问题：传统的大津阈值分割算法只能分割出亮白区域的碱基区域，无法将整个碱基区域有效分割出来，导致获取基因序列信息的效率降低。

本发明的基于图像处理的高通量基因测序数据处理方法采用如下技术方案：

包括以下步骤：

采集若干张高通量基因灰度图像；

对高通量基因灰度图像进行连通域分析得到每个像素点的若干邻域方向以及每个邻域方向上的若干延伸像素点；根据每个邻域方向上的若干延伸像素点之间的差异得到每个像素点的邻域方向差异程度；根据邻域方向差异程度以及延伸像素点之间的灰度差异得到每个像素点的初始区域可能性，所述初始区域可能性用于描述像素点经初步判断后属于碱基区域的可能性；

根据初始区域可能性之间的差异得到每个像素点的区域可能性，所述区域可能性用于描述像素点经修正判断后属于碱基区域的可能性；对高通量基因灰度图像进行区间划分得到每张高通量基因灰度图像的若干碱基区域灰度分界值以及深色区域灰度区间；根据深色区域灰度区间以及碱基区域灰度分界值进行灰度判定得到每张高通量基因灰度图像的区间分界值；

对于任意一张高通量基因灰度图像，在高通量基因灰度图像的深色区域灰度区间中，将第一个碱基区域灰度分界值与高通量基因灰度图像的区间分界值之间的每个灰度值记为深色区域灰度值；将高通量基因灰度图像的区间分界值与第二个碱基区域灰度分界值之间的每个灰度值记为亮白区域灰度值；根据区间分界值对深色区域灰度值进行修正得到每个深色区域灰度值的修正灰度值；根据区间分界值对亮白区域灰度值进行修正得到每个亮白区域灰度值的修正灰度值；根据修正灰度值进行阈值分割得到若干碱基区域。

优选的，所述对高通量基因灰度图像进行连通域分析得到每个像素点的若干邻域方向以及每个邻域方向上的若干延伸像素点，包括的具体方法为：

将任意一张高通量基因灰度图像中任意一个像素点记为目标像素点，将目标像素点的八邻域内的每个像素点记为目标像素点的一个邻域像素点；对于目标像素点的任意一个邻域像素点，将目标像素点到邻域像素点的方向记为目标像素点的邻域方向；将目标像素点作为起点，在邻域方向上依次获取灰度值连续递增的像素点，并记为延伸像素点。

优选的，所述根据每个邻域方向上的若干延伸像素点之间的差异得到每个像素点的邻域方向差异程度，包括的具体方法为：

对于任意一张高通量基因灰度图像中任意一个像素点，在像素点的所有邻域方向中，将延伸像素点数量最多的邻域方向记为最大延伸邻域方向；

式中，表示像素点的邻域方向差异程度；/>表示像素点的所有邻域方向；/>表示像素点在最大延伸邻域方向上所有延伸像素点的数量；/>表示像素点在第/>个邻域方向上所有延伸像素点的数量。

优选的，所述根据邻域方向差异程度以及延伸像素点之间的灰度差异得到每个像素点的初始区域可能性，包括的具体方法为：

式中，表示像素点的初始区域可能性；/>表示像素点的邻域方向差异程度；/>表示在像素点在最大延伸邻域方向上第一个延伸像素点的灰度值；/>表示像素点在最大延伸邻域方向上最后一个延伸像素点的灰度值；/>表示预设的超参数；/>表示像素点在最大延伸邻域方向上所有延伸像素点的数量；/>表示取绝对值。

优选的，所述根据初始区域可能性之间的差异得到每个像素点的区域可能性，包括的具体方法为：

将任意一张高通量基因灰度图像中任意一个像素点记为第一目标像素点，式中，表示第一目标像素点的区域可能性；/>表示第一目标像素点八邻域内所有像素点的数量；/>表示第一目标像素点八邻域内第/>个像素点的初始区域可能性；/>表示第一目标像素点八邻域内所有像素点的初始区域可能性的均值；/>表示第一目标像素点八邻域内第/>个像素点的初始区域可能性；/>表示第一目标像素点的初始区域可能性；/>表示取绝对值。

优选的，所述对高通量基因灰度图像进行区间划分得到每张高通量基因灰度图像的若干碱基区域灰度分界值以及深色区域灰度区间，包括的具体方法为：

对于任意一张高通量基因灰度图像，获取高通量基因灰度图像的灰度直方图，利用最小二乘法对灰度直方图中所有灰度值的频次进行拟合得到一条频次拟合曲线，将频次拟合曲线上极大值最大的极大值点记为第一分界值，将极大值仅小于第一分界值的极大值点记为第二分界值，将第一分界值与第二分界值均记为碱基区域灰度分界值；在高通量基因灰度图像的灰度直方图中，将两个碱基区域灰度分界值之间的所有灰度值构成的灰度区间记为高通量基因灰度图像的深色区域灰度区间。

优选的，所述根据深色区域灰度区间以及碱基区域灰度分界值进行灰度判定得到每张高通量基因灰度图像的区间分界值，包括的具体方法为：

对于任意一张高通量基因灰度图像的深色区域灰度区间中任意一个灰度值，在高通量基因灰度图像中，将灰度值对应的所有像素点的区域可能性的均值记为灰度值的整体区域可能性因子，获取深色区域灰度区间内所有灰度值的整体区域可能性因子，利用最小二乘法对深色区域灰度区间内所有灰度值的整体区域可能性因子进行拟合得到一条因子拟合曲线；

将深色区域灰度区间内每个灰度值在因子拟合曲线上的值记为映射因子，将因子拟合曲线上第一个极大值点记为初始区间分界值；在第一个碱基区域灰度分界值与初始区间分界值之间的所有映射因子中，将任意一个映射因子记为目标映射因子，目标映射因子的后一个映射因子与目标映射因子的差值记为目标映射因子的斜率；获取所有映射因子的斜率；

将斜率最大的映射因子对应的灰度值记为高通量基因灰度图像的区间分界值。

优选的，所述根据区间分界值对深色区域灰度值进行修正得到每个深色区域灰度值的修正灰度值，包括的具体方法为：

对于任意一张高通量基因灰度图像中任意一个深色区域灰度值，式中，表示深色区域灰度值的修正灰度值；/>表示深色区域灰度值；/>表示高通量基因灰度图像的第一个碱基区域灰度分界值；/>表示高通量基因灰度图像的区间分界值；/>表示向下取整。

优选的，所述根据区间分界值对亮白区域灰度值进行修正得到每个亮白区域灰度值的修正灰度值，包括的具体方法为：

对于任意一张高通量基因灰度图像中任意一个亮白区域灰度值，式中，表示亮白区域灰度值的修正灰度值；/>表示亮白区域灰度值；/>表示高通量基因灰度图像的第二个碱基区域灰度分界值；/>表示高通量基因灰度图像的区间分界值；/>表示向上取整。

优选的，所述根据修正灰度值进行阈值分割得到若干碱基区域，包括的具体方法为：

对于任意一张高通量基因灰度图像，在高通量基因灰度图像的深色区域灰度区间内所有灰度值中，将每个灰度值的修正灰度值作为每个灰度值上对应的每个像素点新的灰度值，将替换后新灰度值后的高通量基因灰度图像记为高通量基因灰度图像的调整灰度图像，对调整灰度图像进行大津阈值分割得到二值图像，将二值图像中灰度值不为0的连通域记为碱基区域。

本发明的技术方案的有益效果是：根据高通量基因灰度图像得到像素点的邻域方向差异程度，根据邻域方向差异程度得到像素点的初始区域可能性，根据初始区域可能性得到像素点的区域可能性，根据区域可能性得到区间分界值，根据区间分界值进行修正得到修正灰度值，根据修正灰度值进行分割得到碱基区域；相较于现有技术大津阈值分割算法只能分割出亮白区域的碱基区域，无法将整个碱基区域有效分割出来；本发明的邻域方向差异程度反映了像素点周围灰度变化最明显的方向与其他方向的整体差异，初始区域可能性反映了像素点经初步判断后属于碱基区域的可能性，区域可能性反映了像素点经修正判断后属于碱基区域的可能性；使分割出的碱基区域更加完整，提高了分割结果的准确性，提高了获取基因序列信息的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于图像处理的高通量基因测序数据处理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于图像处理的高通量基因测序数据处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于图像处理的高通量基因测序数据处理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于图像处理的高通量基因测序数据处理方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集若干张高通量基因灰度图像。

需要说明的是，传统方法通过大津阈值分割算法将高通量基因图像中的碱基区域分割出来，但由于高通量基因图像中碱基区域同时存在亮白区域与深色区域，传统的大津阈值分割算法只能分割出一部分亮白区域或者一部分深色区域的碱基区域，无法将整个碱基区域有效分割出来，导致获取基因序列信息的效率降低。为此，本实施例提出了基于图像处理的高通量基因测序数据处理方法。

具体的，为了实现本实施例提出的基于图像处理的高通量基因测序数据处理方法，首先需要采集高通量基因灰度图像，具体过程为：获取基因检测工程图像库中若干张高通量基因图像，将每张高通量基因图像进行灰度化处理得到若干灰度图像，记为高通量基因灰度图像。其中灰度化处理是公知技术，本实施例不再赘述。

至此，通过上述方法得到若干张高通量基因灰度图像。

步骤S002：对高通量基因灰度图像进行连通域分析得到每个像素点的若干邻域方向以及每个邻域方向上的若干延伸像素点；根据每个邻域方向上的若干延伸像素点之间的差异得到每个像素点的邻域方向差异程度；根据邻域方向差异程度以及延伸像素点之间的灰度差异得到每个像素点的初始区域可能性。

需要说明的是，高通量基因灰度图像中碱基区域是由亮白区域与深色区域共同构成，传统的大津阈值分割算法只能将碱基区域中的亮白区域分割出来；由于深色区域的灰度值比亮白区域的灰度值小，所以传统大津阈值分割算法的大津阈值偏大；为了将碱基区域完整分割出来，需要分析亮白区域周围的灰度分布，将大津阈值自适应调节，从而分割出完整的碱基区域。

进一步需要说明的是，一般情况下，碱基区域都是亮白区域在内部，深色区域在外部；而碱基区域中亮白区域与深色区域交界处的灰度值是渐变的，并且都是从碱基区域的外围向碱基区域的中心不断渐变的，所以本实施例可以根据碱基区域的灰度变化特征初步判断出属于像素点属于碱基区域的可能性。

具体的，以该高通量基因灰度图像中任意一个像素点为例，将该像素点的八邻域内的每个像素点记为该像素点的一个邻域像素点；以该像素点的任意一个邻域像素点为例，将该像素点到该邻域像素点的方向记为该像素点的邻域方向；将该像素点作为起点，在该邻域方向上依次获取灰度值连续递增的像素点，并将这些像素点记为延伸像素点；获取该像素点在所有邻域方向上所有的延伸像素点；将延伸像素点数量最多的邻域方向记为最大延伸邻域方向。其中每个像素点都有一个最大延伸邻域方向。另外需要说明的是，该像素点在该邻域方向撒上的延伸像素点数量中不包含该像素点。

进一步的，根据该像素点在所有邻域方向上延伸像素点的数量得到该像素点的邻域方向差异程度。其中该像素点的邻域方向差异程度的计算方法为：

式中，表示该像素点的邻域方向差异程度；/>表示该像素点的所有邻域方向；/>表示该像素点在最大延伸邻域方向上所有延伸像素点的数量；/>表示该像素点在第/>个邻域方向上所有延伸像素点的数量。其中该像素点的邻域方向差异程度越大，说明该像素点周围的灰度变化趋势越明显，反映该像素点周围灰度变化最明显的方向与其他方向的整体差异越大。

进一步的，根据该像素点的邻域方向差异程度得到该像素点的初始区域可能性。其中该像素点的初始区域可能性的计算方法为：

式中，表示该像素点的初始区域可能性；/>表示该像素点的邻域方向差异程度；表示在该像素点在最大延伸邻域方向上第一个延伸像素点的灰度值；/>表示该像素点在最大延伸邻域方向上最后一个延伸像素点的灰度值；/>表示预设的超参数，本实施例预设，用于防止分母为0或者负数；/>表示该像素点在最大延伸邻域方向上所有延伸像素点的数量；/>表示在该像素点在最大延伸邻域方向上第一个延伸像素点与最后一个延伸像素点的数量；/>表示取绝对值。其中若该像素点的初始区域可能性越大，说明该像素点周围方向的灰度变化特征与碱基区域的灰度变化特征越相似，反映该像素点经初步判断后属于碱基区域的可能性越大。获取所有像素点的初始区域可能性。

至此，通过上述方法得到所有像素点的初始区域可能性。

步骤S003：根据初始区域可能性之间的差异得到每个像素点的区域可能性；对高通量基因灰度图像进行区间划分得到每张高通量基因灰度图像的若干碱基区域灰度分界值以及深色区域灰度区间；根据深色区域灰度区间以及碱基区域灰度分界值进行灰度判定得到每张高通量基因灰度图像的区间分界值。

需要说明的是，对于任意一个像素点而言，该像素点的初始区域可能性虽然是通过周围像素点的灰度关系获取的，可以一定程度地表示该像素点属于碱基区域的可能性；但是由于该像素点周围的像素点也都有自己的初始区域可能性，周围像素点的初始区域可能性与该像素点的初始区域可能性共同分析了一部分像素点的灰度值，会导致该像素点的初始区域可能性与周围像素点的初始区域可能性存在一定的关联，所以周围像素点的初始区域可能性会一定程度地影响该像素点的初始区域可能性，所以需要根据周围像素点的初始区域可能对该像素点的初始区域可能性进行修正，进而获取该像素点最终的区域可能性，以便后续根据区域可能性进行阈值调整。

具体的，以该高通量基因灰度图像中任意一个像素点为例，根据该像素点八邻域内所有初始区域可能性得到该像素点的区域可能性。其中该像素点的区域可能性的计算方法为：

式中，表示该像素点的区域可能性；/>表示该像素点八邻域内所有像素点的数量；/>表示该像素点八邻域内第/>个像素点的初始区域可能性；/>表示该像素点八邻域内所有像素点的初始区域可能性的均值；/>表示该像素点八邻域内第/>个像素点的初始区域可能性；/>表示该像素点的初始区域可能性；/>表示取绝对值。其中该像素点的区域可能性越大，说明在考虑周围像素点的影响下，该像素点周围方向的灰度变化特征与碱基区域的灰度变化特征越相似，反映该像素点经修正判断后属于碱基区域的可能性越大。

进一步的，获取该高通量基因灰度图像的灰度直方图，利用最小二乘法对该灰度直方图中所有灰度值的频次进行拟合得到一条频次拟合曲线，将该频次拟合曲线上极大值最大的极大值点记为第一分界值，将极大值仅小于第一分界值的极大值点记为第二分界值，将第一分界值与第二分界值均记为碱基区域灰度分界值；在该高通量基因灰度图像的灰度直方图中，将这两个碱基区域灰度分界值之间的所有灰度值构成的灰度区间记为该高通量基因灰度图像的深色区域灰度区间。其中深色区域灰度区间包含多个灰度值；灰度直方图中横坐标表示灰度值，纵坐标表示的对应灰度值的频次；最小二乘法是公知技术，本实施例不再赘述。另外需要说明的是，这两个碱基区域灰度分界值是按照碱基区域灰度分界值从小到大的顺序排序。

进一步的，以该高通量基因灰度图像的深色区域灰度区间中任意一个灰度值为例，在该高通量基因灰度图像中，将该灰度值对应的所有像素点的区域可能性的均值记为该灰度值的整体区域可能性因子，获取该深色区域灰度区间内所有灰度值的整体区域可能性因子，利用最小二乘法对该深色区域灰度区间内所有灰度值的整体区域可能性因子进行拟合得到一条因子拟合曲线，将该深色区域灰度区间内每个灰度值在因子拟合曲线上的值记为映射因子，将该因子拟合曲线上第一个极大值点记为初始区间分界值；在第一个碱基区域灰度分界值与初始区间分界值之间的所有映射因子中，以任意一个映射因子为例，该映射因子的后一个映射因子与该映射因子的差值记为该映射因子的斜率，获取所有映射因子的斜率；将斜率最大的映射因子对应的灰度值记为该高通量基因灰度图像的区间分界值；获取所有高通量基因灰度图像的区间分界值。

至此，通过上述方法得到所有高通量基因灰度图像的区间分界值。

步骤S004：获取若干深色区域灰度值以及若干亮白区域灰度值；根据区间分界值对深色区域灰度值进行修正得到每个深色区域灰度值的修正灰度值；根据区间分界值对亮白区域灰度值进行修正得到每个亮白区域灰度值的修正灰度值；根据修正灰度值进行阈值分割得到若干碱基区域。

具体的，以任意一张高通量基因灰度图像为例，在该高通量基因灰度图像的深色区域灰度区间中，将第一个碱基区域灰度分界值与该高通量基因灰度图像的区间分界值之间的每个灰度值记为深色区域灰度值；将该高通量基因灰度图像的区间分界值与第二个碱基区域灰度分界值之间的每个灰度值记为亮白区域灰度值。

进一步的，以任意一个深色区域灰度值为例，根据该深色区域灰度值以及区间分界值得到该深色区域灰度值的修正灰度值。其中该深色区域灰度值的修正灰度值的计算方法为：

式中，表示该深色区域灰度值的修正灰度值；/>表示该深色区域灰度值；/>表示该高通量基因灰度图像的第一个碱基区域灰度分界值；/>表示该高通量基因灰度图像的区间分界值；/>表示向下取整。获取所有深色区域灰度值的修正灰度值。

进一步的，以任意一个亮白区域灰度值为例，根据该亮白区域灰度值以及区间分界值得到该亮白区域灰度值的修正灰度值。其中该亮白区域灰度值的修正灰度值的计算方法为：

式中，表示该亮白区域灰度值的修正灰度值；/>表示该亮白区域灰度值；/>表示该高通量基因灰度图像的第二个碱基区域灰度分界值；/>表示该高通量基因灰度图像的区间分界值；/>表示向上取整。获取所有亮白区域灰度值的修正灰度值。

进一步的，在该高通量基因灰度图像的深色区域灰度区间内所有灰度值中，将每个灰度值的修正灰度值作为每个灰度值上对应的每个像素点新的灰度值，此时将该高通量基因灰度图像记为该高通量基因灰度图像的调整灰度图像，对该调整灰度图像进行大津阈值分割得到二值图像，将二值图像中灰度值不为0的连通域记为碱基区域。其中每个灰度值在高通量基因灰度图像中对应有多个像素点；大津阈值分割算法是公知技术，本实施例不再赘述。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于图像处理的高通量基因测序数据处理方法，其特征在于，该方法包括以下步骤：

采集若干张高通量基因灰度图像；

2.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述对高通量基因灰度图像进行连通域分析得到每个像素点的若干邻域方向以及每个邻域方向上的若干延伸像素点，包括的具体方法为：

3.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述根据每个邻域方向上的若干延伸像素点之间的差异得到每个像素点的邻域方向差异程度，包括的具体方法为：

4.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述根据邻域方向差异程度以及延伸像素点之间的灰度差异得到每个像素点的初始区域可能性，包括的具体方法为：

5.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述根据初始区域可能性之间的差异得到每个像素点的区域可能性，包括的具体方法为：

6.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述对高通量基因灰度图像进行区间划分得到每张高通量基因灰度图像的若干碱基区域灰度分界值以及深色区域灰度区间，包括的具体方法为：

7.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述根据深色区域灰度区间以及碱基区域灰度分界值进行灰度判定得到每张高通量基因灰度图像的区间分界值，包括的具体方法为：

8.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述根据区间分界值对深色区域灰度值进行修正得到每个深色区域灰度值的修正灰度值，包括的具体方法为：

9.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述根据区间分界值对亮白区域灰度值进行修正得到每个亮白区域灰度值的修正灰度值，包括的具体方法为：

10.根据权利要求1所述基于图像处理的高通量基因测序数据处理方法，其特征在于，所述根据修正灰度值进行阈值分割得到若干碱基区域，包括的具体方法为：