CN116363403B - 用于基因样本的图像识别方法、图像识别系统和存储介质 - Google Patents

用于基因样本的图像识别方法、图像识别系统和存储介质 Download PDF

Info

Publication number
CN116363403B
CN116363403B CN202310607791.3A CN202310607791A CN116363403B CN 116363403 B CN116363403 B CN 116363403B CN 202310607791 A CN202310607791 A CN 202310607791A CN 116363403 B CN116363403 B CN 116363403B
Authority
CN
China
Prior art keywords
brightness
image
training
recognition
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310607791.3A
Other languages
English (en)
Other versions
CN116363403A (zh
Inventor
彭宽宽
陈伟
周祎楠
王谷丰
赵陆洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailu Medical Technology Co ltd
Original Assignee
Shenzhen Sailu Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailu Medical Technology Co ltd filed Critical Shenzhen Sailu Medical Technology Co ltd
Priority to CN202310607791.3A priority Critical patent/CN116363403B/zh
Publication of CN116363403A publication Critical patent/CN116363403A/zh
Application granted granted Critical
Publication of CN116363403B publication Critical patent/CN116363403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10064Fluorescence image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于基因样本的图像识别方法、图像识别系统和存储介质。图像识别方法包括:获取待识别亮度图像,待识别亮度图像为对待识别样本进行图像采集得到的;通过识别模型识别待识别亮度图像的亮度信息以得到亮度识别结果,亮度识别结果用于确定待识别样本的碱基序列,识别模型为通过训练图像的训练数据训练得到的,训练图像为对训练样本进行图像采集得到的,训练数据为对训练图像的亮度信息进行筛选处理得到的,亮度信息对应基因样本在进行合成处理后显示的亮度大小。上述图像识别方法,可以减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。

Description

用于基因样本的图像识别方法、图像识别系统和存储介质
技术领域
本发明涉及基因测序技术领域,特别涉及一种用于基因样本的图像识别方法、图像识别系统和存储介质。
背景技术
在基因测序技术中,通过对DNA链中的碱基添加荧光分子形成对应的碱基通道,由于不同的碱基通道所获取到的最大光亮度的波长不同,从而可通过不同波长下的光亮度来识别碱基,进而可确定DNA序列。在相关技术中,虽然能够解决不同碱基通道之间的串扰问题,以及由荧光团的反应滞后效应和反应提前效应所带来的影响,但难以校正由其它未知的生化或者环境的影响造成的亮度干扰,从而容易导致识别精度低。
发明内容
本发明提供了一种用于基因样本的图像识别方法、图像识别系统和存储介质。
本发明实施方式的一种用于基因样本的图像识别方法包括:
获取待识别亮度图像,所述待识别亮度图像为对待识别样本进行图像采集得到的;
通过识别模型识别所述待识别亮度图像的亮度信息以得到亮度识别结果,所述亮度识别结果用于确定所述待识别样本的碱基序列,所述识别模型为通过训练图像的训练数据训练得到的,所述训练图像为对训练样本进行图像采集得到的,所述训练数据为对所述训练图像的亮度信息进行筛选处理得到的,所述亮度信息对应基因样本在进行合成处理后显示的亮度大小。
上述图像识别方法,通过对训练图像的亮度信息进行筛选处理,识别模型能够针对性地对碱基所对应的荧光分子所发出的光亮度进行识别训练,可以较大程度地减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,使得训练得到的识别模型能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。
所述图像识别方法包括:
对所述训练图像进行处理得到所述训练数据;
将所述训练数据输入至所述识别模型进行识别处理得到第一亮度识别结果;
根据所述第一亮度识别结果和所述标签数据对所述识别模型进行优化处理,所述标签数据为根据预设基因库序列对所述训练图像进行匹配处理得到的。如此,有利于明确识别模型的优化方向。
对所述训练图像进行处理得到所述训练数据,包括:
根据所述训练图像的亮度信息确定亮度矩阵,所述亮度矩阵包括多个发光值和多个背景值,所述发光值对应所述训练数据中的碱基的亮度值,所述背景值对应所述训练数据中的背景区域的亮度值,所述碱基的亮度值大于所述背景区域的亮度值;
从所述亮度矩阵中筛选出所述多个发光值;
根据筛选出的所述多个发光值得到所述训练数据。如此,可以提高识别模型的识别精度。
从所述亮度矩阵中筛选出所述多个发光值,包括:
对所述亮度矩阵进行窗口采样得到多个窗口矩阵,所述亮度矩阵能够通过所述多个窗口矩阵拼接得到;
在所述窗口矩阵中筛选出所述多个发光值并组成窗口亮度向量;
根据筛选出的所述多个发光值得到所述训练数据,包括:
按照所述多个窗口矩阵的采样次序,对所述多个窗口矩阵分别对应的多个所述窗口亮度向量进行排列处理以得到所述训练数据。如此,有利于提高对训练样本中邻近碱基的学习效果。
所述图像识别方法包括:
在循环对所述训练样本进行合成处理的情况下,在每次合成处理后获取多个所述训练图像,每次合成处理后获取到的所述训练图像的数量对应所述训练样本的碱基类别的数量;
根据所述训练数据的亮度信息确定亮度矩阵,包括:
根据每个所述训练图像确定对应的一个所述亮度矩阵;
根据筛选出的所述多个发光值得到所述训练数据,包括:
以对所述训练样本进行合成处理的循环次数、所述训练样本的碱基类别的数量、所述亮度矩阵中具有的所述发光值的最大数量为维度,将所述多个发光值进行三维排列处理以得到所述训练数据。如此,有利于提高识别的准确率。
所述图像识别方法包括:
在通过所述训练图像获取到所述训练数据的情况下,通过预设模型对所述训练数据进行识别处理以得到第二亮度识别结果;
根据所述预设基因库序列对所述第二亮度识别结果进行匹配处理以确定所述标签数据。如此,能够提高对识别模型的监督效果。
根据所述预设基因库序列对所述第二亮度识别结果进行匹配处理以确定所述标签数据,包括:
根据所述第二亮度识别结果,在所述预设基因库序列中确定与所述训练样本具有相同碱基类别的至少一个第一标准序列,所述第二亮度识别结果包括对所述训练样本识别到的碱基类别和碱基序列;
根据所述至少一个第一标准序列对所述第二亮度识别结果进行碱基序列匹配处理,以根据匹配成功的第一标准序列确定所述标签数据。如此,可方便快速确定标签数据。
根据所述至少一个第一标准序列对所述第二亮度识别结果进行碱基序列匹配处理,包括:
根据所述第一标准序列与对所述训练样本识别到的碱基序列之间具有相同序列的比例,确定所述第一标准序列的序列匹配程度;
将所述序列匹配程度大于第一阈值的第一标准序列确定为所述匹配成功的第一标准序列。如此,有利于提高标签数据的获取效率。
根据所述至少一个第一标准序列对所述第二亮度识别结果进行碱基序列匹配处理,包括:
在确定所述第一标准序列与对所述训练样本识别到的碱基序列未完全匹配的情况下,根据所述第一标准序列对所述第二亮度识别结果进行校正处理。如此,有利于保证标签数据的准确性。
所述图像识别方法包括:
在确定未匹配到对应第一样本的所述序列匹配程度大于第一阈值的第一标准序列的情况下,删除所述训练数据中对应所述第一样本的内容,所述训练样本包括所述第一样本。如此,有利于保证识别模型的训练效果。
所述图像识别方法包括:
根据所述预设基因库序列对所述识别模型在初始训练时得到的第一亮度识别结果进行匹配处理,以在所述预设基因库序列中确定第二标准序列,所述预设基因库序列包括所述第二标准序列;
根据所述第二标准序列更新所述训练数据。如此,有利于提高识别模型的识别能力。
所述图像识别方法包括:
对亮度图像进行特征提取处理得到特征图像,所述亮度图像包括所述待识别亮度图像和所述训练图像;
对所述特征图像进行串扰校正处理得到碱基类别权重数据,所述碱基类别权重数据包括所述基因样本中每个碱基类别的权值,所述基因样本包括至少两个所述碱基类别;
根据所述碱基类别权重数据对所述特征图像进行加权处理。如此,有利于提高对通道间的串扰进行校正的效果。
对所述特征图像进行串扰校正处理得到碱基类别权重数据,包括:
对所述特征图像进行降维处理得到一维特征向量;
对所述一维特征向量进行学习处理以得到每个所述碱基类别的特征参数;
根据所述碱基类别的特征参数进行加权处理以得到所述碱基类别权重数据。如此,可实现对碱基类别权重数据的获取方案。
所述图像识别方法包括:
根据所述第一亮度识别结果和所述训练样本的碱基类别确定预测概率,所述训练数据具有至少一个,每个所述训练数据具有对应的一个所述预测概率;
根据所述标签数据和所述训练样本的碱基类别确定真实类别,所述真实类别对应所述训练数据的实际的碱基类别;
根据所述预测概率、所述真实类别、所述碱基类别的数量和所述训练数据的数量,确定亮度识别差异程度,所述亮度识别差异程度用于确定是否对所述识别模型进行优化处理。如此,可有利于识别模型的快速收敛。
所述图像识别方法包括:
在完成对所述识别模型的优化处理的情况下,再次将所述训练数据输入至所述识别模型进行识别处理并得到新的第一亮度识别结果;
在第一亮度识别差异程度大于或等于第二亮度识别差异程度,且所述第一亮度识别差异程度和所述第二亮度识别差异程度之间的变化程度小于或等于预设值的情况下,确定完成对所述识别模型的训练,所述第一亮度识别差异程度为优化处理前的亮度识别差异程度,所述第二亮度识别差异程度为优化处理后的亮度识别差异程度;
在所述第一亮度识别差异程度小于所述第二亮度识别差异程度,和/或所述第一亮度识别差异程度和所述第二亮度识别差异程度之间的变化程度大于所述预设值的情况下,确定继续对所述识别模型进行优化处理。如此,可方便实现对识别模型进行快速迭代优化。
根据所述第一亮度识别结果和所述标签数据,对所述识别模型进行优化处理,包括:
根据所述第一亮度识别结果的概率分布与所述标签数据的概率分布之间的差距,通过反向传播来对所述识别模型中的权重参数进行优化。如此,有利于提高对识别模型的优化效率。
本发明实施方式的一种用于基因样本的图像识别系统包括获取模块和处理模块,
所述获取模块用于:
获取待识别亮度图像,所述待识别亮度图像为对待识别样本进行图像采集得到的;
所述处理模块用于:
通过识别模型识别所述待识别亮度图像的亮度信息以得到亮度识别结果,所述亮度识别结果用于确定所述待识别样本的碱基序列,所述识别模型为通过训练图像的训练数据训练得到的,所述训练图像为对训练样本进行图像采集得到的,所述训练数据为对所述训练图像的亮度信息进行筛选处理得到的,所述亮度信息对应基因样本在进行合成处理后显示的亮度大小。
上述图像识别系统,通过对训练图像的亮度信息进行筛选处理,识别模型能够针对性地对碱基所对应的荧光分子所发出的亮度进行识别训练,可以较大程度地减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,使得训练得到的识别模型能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。
本发明实施方式的一种用于基因样本的图像识别系统包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任一实施方式所述的图像识别方法的步骤。
上述图像识别系统,通过对训练图像的亮度信息进行筛选处理,识别模型能够针对性地对碱基所对应的荧光分子所发出的亮度进行识别训练,可以较大程度地减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,使得训练得到的识别模型能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。
本发明实施方式的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,实现上述任一实施方式所述的图像识别方法的步骤。
上述计算机可读存储介质,通过对训练图像的亮度信息进行筛选处理,识别模型能够针对性地对碱基所对应的荧光分子所发出的亮度进行识别训练,可以较大程度地减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,使得训练得到的识别模型能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的图像识别方法的流程图;
图2是本发明实施方式的图像识别系统的模块图;
图3是本发明实施方式的图像识别方法的另一流程图;
图4是本发明实施方式的亮度矩阵的示意图;
图5是本发明实施方式的亮度矩阵和窗口矩阵的示意图;
图6是本发明实施方式的训练数据的示意图;
图7是本发明实施方式的训练数据的又一示意图;
图8是本发明实施方式的对亮度图像进行串扰校正的示意图;
图9是本发明实施方式的图像识别系统的模块图。
主图要元件符号说明:
图像识别系统10;
获取模块11、处理模块12;
亮度矩阵13、窗口矩阵14、窗口亮度向量15;
存储器16、处理器17。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
请参考图1,本发明实施方式的一种用于基因样本的图像识别方法可以包括:
04:获取待识别亮度图像,待识别亮度图像为对待识别样本进行图像采集得到的;
05:通过识别模型识别待识别亮度图像的亮度信息以得到亮度识别结果,亮度识别结果用于确定待识别样本的碱基序列,识别模型为通过训练图像的训练数据训练得到的,训练图像为对训练样本进行图像采集得到的,训练数据为对训练图像的亮度信息进行筛选处理得到的,亮度信息对应基因样本在进行合成处理后显示的亮度大小。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,图像识别系统10可以包括获取模块11和处理模块12。获取模块11用于:获取待识别亮度图像,待识别亮度图像为对待识别样本进行图像采集得到的;处理模块12用于:通过识别模型识别待识别亮度图像的亮度信息以得到亮度识别结果,亮度识别结果用于确定待识别样本的碱基序列,识别模型为通过训练图像的训练数据训练得到的,训练图像为对训练样本进行图像采集得到的,训练数据为对训练图像的亮度信息进行筛选处理得到的,亮度信息对应基因样本在进行合成处理后显示的亮度大小。
上述图像识别方法和图像识别系统10,通过对训练图像的亮度信息进行筛选处理,识别模型能够针对性地对碱基所对应的荧光分子所发出的亮度进行识别训练,可以较大程度地减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,使得训练得到的识别模型能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。
识别模型可以通过深度学习模型来得到。识别模型可以为卷积神经网络。可以理解,卷积神经网络的核心原理是利用卷积运算对输入数据进行特征提取和分类。卷积神经网络可以包括卷积层、激活层、池化层和全连接层,其中卷积层是卷积神经网络的核心。
卷积层的主要作用是提取输入数据中的特征,在通过卷积层对输入数据进行处理时,会通过在输入数据中滑动卷积核以获取输入数据位于卷积核内的部分数据,并对位于卷积核内的部分数据进行卷积运算,从而得到卷积层的输出。或者说,卷积核可以作为特征检测器,通过对输入数据进行滤波,以提取出输入数据中的某些特定特征。
卷积运算的核心思想是权值共享和局部连接。具体来说,卷积核在输入数据中滑动时,它的权重参数是共享的,即在不同的位置使用相同的权重参数;同时,卷积运算只考虑输入数据中局部的一小部分,而不是整个输入数据,从而大大减少了参数数量,减轻了过拟合的风险。
激活层采用非线性激活函数以引入非线性因素,增强识别模型的表达能力。非线性激活函数可以包括ReLU函数。
池化层用于对卷积层的输出进行下采样处理,降低数据维度,减少模型复杂度和计算量。
全连接层能够将经过卷积层、激活层和池化层处理后得到的输出进行展开,并通过全连接的方式将展开的内容与输出层进行连接,从而可实现分类、识别等任务。
在上述基础上,在采集得到关于样本的图像的情况下,可以将图像输入至识别模型中,由识别模型来提取出图像中关于亮度的相关信息,从而得到图像的亮度信息。亮度信息也可以通过将图像输入至传统的图像识别算法来得到。在亮度信息中,可以包括多个亮度值,每个亮度值都可以对应图像中的具体位置,从而可通过相应的数值来表征图像中对应位置的亮度大小。亮度值越大,则对应位置的亮度越大。亮度值越小,则对应位置的亮度越小。
另外,在对识别模型进行训练的过程中,可通过反向传播算法来更新识别模型参数,优化识别模型的特征提取和分类能力。在识别模型可以包括卷积神经网络的实施方式中,由于卷积神经网络具有参数共享、局部连接和非线性激活等特点,因此能够有效地提取输入数据的局部特征,并实现高精度的分类和识别。
此外,通过筛选处理,能够减少对不必要的数据进行处理的过程,有利于减少数据处理量,从而能够提高数据处理效率。
请参考图3,图像识别方法可以包括:
01:对训练图像进行处理得到训练数据;
02:将训练数据输入至识别模型进行识别处理得到第一亮度识别结果;
03:根据第一亮度识别结果和标签数据对识别模型进行优化处理,标签数据为根据预设基因库序列对训练图像进行匹配处理得到的。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:对训练图像进行处理得到训练数据;将训练数据输入至识别模型进行识别处理得到第一亮度识别结果;根据第一亮度识别结果和标签数据对识别模型进行优化处理,标签数据为根据预设基因库序列对训练图像进行匹配处理得到的。
如此,有利于明确识别模型的优化方向。
具体地,在本发明实施方式的图像识别方法中,在获取到训练数据的情况下,可以通过预设基因库序列对训练数据进行匹配处理来得到标签数据,将标签数据作为对识别模型进行训练的监督。
在完成对识别模型的一次训练处理后,可根据识别模型训练得到的结果和标签数据进行比较,以确定通过识别模型的识别结果与实际结果之间的亮度识别差异,然后根据亮度识别差异来对识别模型进行优化处理,直至亮度识别差异足够小。
可以理解,在根据预设基因库序列对训练图像进行匹配处理得到标签数据的情况下,标签数据可以准确表征样本的碱基分类结果,从而可将标签数据作为识别模型的监督数据,能够明确得知识别模型输出的碱基识别结果是否足够接近标签数据,在未足够接近的情况下,则表示识别模型的识别效率仍然较低,然后可根据标签数据来优化识别模型的内部参数,以使得优化后的识别模型所输出的碱基分类结果能够接近标签数据,或者说足够接近实际的样本。
另外,在一些实施方式中,可以通过相同的基因样本获取多个训练数据,由多个训练数据构成训练数据集,进而能够通过多个不同的比较结果来综合判断识别模型的训练效果。
根据第一亮度识别结果和标签数据,对识别模型进行优化处理,包括:
根据第一亮度识别结果的概率分布与标签数据的概率分布之间的差距,通过反向传播来对识别模型中的权重参数进行优化。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:根据第一亮度识别结果的概率分布与标签数据的概率分布之间的差距,通过反向传播来对识别模型中的权重参数进行优化。
如此,有利于提高对识别模型的优化效率。
具体地,第一亮度识别结果在于通过图像识别来确定碱基类别,在实际应用中,仍然会存在无法完全确定具体属于哪一个碱基类别,使得第一亮度识别结果会显示为碱基分类结果,即训练图像中的其中一个光点所对应的碱基分别属于一个确定的碱基类别的概率分布。
在一个实施方式中,能够确定的所有碱基类别为[A C G T],其中一个碱基的亮度识别结果为[0.1 0.1 0.7 0.1],则表示该碱基的类别为G的概率最大,并能够将该碱基的类别识别为G。
在上述基础上,标签数据可用于确定通过第一亮度识别结果中碱基分类的概率分布是否足够接近实际的样本,能够明确地得知识别模型的识别效果,进而能够确定是否还需要对识别模型进行优化,从而有利于提高对识别模型的优化效率。
对训练图像进行处理得到训练数据,可以包括:
根据训练图像的亮度信息确定亮度矩阵13,亮度矩阵13可以包括多个发光值和多个背景值,发光值对应训练数据中的碱基的亮度值,背景值对应训练数据中的背景区域的亮度值,碱基的亮度值大于背景区域的亮度值;
从亮度矩阵13中筛选出多个发光值;
根据筛选出的多个发光值得到训练数据。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:根据训练图像的亮度信息确定亮度矩阵13,亮度矩阵13可以包括多个发光值和多个背景值,发光值对应训练数据中的碱基的亮度值,背景值对应训练数据中的背景区域的亮度值,碱基的亮度值大于背景区域的亮度值;从亮度矩阵13中筛选出多个发光值;根据筛选出的多个发光值得到训练数据。
如此,可以提高识别模型的识别精度。
在获取到训练图像的情况下,可以对训练图像先进行预处理,对训练图像进行配准处理,然后提取训练图像中附着于碱基的荧光的光点的中心亮度以得到对应的亮度矩阵13。
可以理解,通过筛选处理亮度矩阵13,可以减少需要消耗的显存和计算资源,从而能够有利于提高计算的稳定性和准确性。在一个实施方式中,亮度矩阵13的尺寸可以为2160×4092。
请参考图4,图4所示为一个实施方式中亮度矩阵13的示意图。其中,多个发光值和多个背景值在亮度矩阵13中排列。亮度矩阵13的尺寸对应训练图像的尺寸,使得亮度矩阵13中的发光值或背景值能够对应到训练图像中对应位置的亮度值,且发光值所对应的位置具有需要识别的碱基,而背景值所对应的位置则不具有需要识别的碱基,即背景区域。在图4中,发光值大于0,背景值为0。发光值可以为在对训练图像进行预处理时,通过归一化处理得到的结果。
在确定亮度矩阵13的情况下,由于发光值和背景值具有相差较大的亮度值,根据所有位置的亮度值大小,可以区分出亮度矩阵13中哪些是发光值,哪些是背景值,从而能够方便确定亮度矩阵13中的发光值并进行筛选。筛选出的发光值的数量,可以是亮度矩阵13中全部的发光值的数量。
可以理解,将得到的多个发光值进行处理以得到训练数据,对于识别模型而言,在训练过程中,由于筛除了其他未知或者环境的亮度干扰,使得训练数据中不会可以包括存在于背景区域的亮度干扰,识别模型不会将背景区域中的亮度值作为碱基的亮度值而进行处理,能够提高碱基识别的针对性,从而可以提高识别精度。
另外,对于样本而言,根据其具有的碱基种类,可对每个碱基种类设置一个碱基通道,使得某一个碱基种类在进行合成处理后的亮度在对应的碱基通道内是最大的。碱基通道可根据碱基种类在在进行合成处理后的波长与亮度的关系进行设置,使得碱基通道能够对应最大亮度下的波长。每个碱基通道可以对应一个训练图像,使得训练图像的数量可以对应样本的碱基种类的数量。
从亮度矩阵13中筛选出多个发光值,可以包括:
对亮度矩阵13进行窗口采样得到多个窗口矩阵14,亮度矩阵13能够通过多个窗口矩阵14拼接得到;
在窗口矩阵14中筛选出多个发光值并组成窗口亮度向量15;
根据筛选出的多个发光值得到训练数据,可以包括:
按照多个窗口矩阵14的采样次序,对多个窗口矩阵14分别对应的多个窗口亮度向量15进行排列处理以得到训练数据。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:对亮度矩阵13进行窗口采样得到多个窗口矩阵14,亮度矩阵13能够通过多个窗口矩阵14拼接得到;在窗口矩阵14中筛选出多个发光值并组成窗口亮度向量15;按照多个窗口矩阵14的采样次序,对多个窗口矩阵14分别对应的多个窗口亮度向量15进行排列处理以得到训练数据。
如此,有利于提高对训练样本中邻近碱基的学习效果。
请参考图5,在确定亮度矩阵13的情况下,可以设置多个窗口来分别对亮度矩阵13中的部分内容进行采样以得到多个窗口矩阵14。每个窗口矩阵14中都会可以包括至少一个发光值。可将窗口矩阵14中的所有发光值依次筛选出,并可按照相应的次序排列组成一个一维向量,即窗口亮度向量15。
在图5中,窗口矩阵14的数量为4个,分别为窗口矩阵14a、窗口矩阵14b、窗口矩阵14c、窗口矩阵14d。窗口矩阵14a、窗口矩阵14b、窗口矩阵14c、窗口矩阵14d为按照采样次序依次得到。在图6中,窗口亮度向量15的数量为4个,分别为窗口亮度向量15a、窗口亮度向量15b、窗口亮度向量15c、窗口亮度向量15d。窗口亮度向量15a为通过窗口矩阵14a得到的,窗口亮度向量15b为通过窗口矩阵14b得到的,窗口亮度向量15c为通过窗口矩阵14c得到的,窗口亮度向量15d为通过窗口矩阵14d得到的。
窗口亮度向量15可以根据窗口矩阵14中的排列顺序,从第一行开始从左向右确认发光值,在完成对第一行的确认后,会从第二行开始从左向右确认发光值,直至完成对窗口矩阵14内所有行的确认。
窗口亮度向量15也可以根据窗口矩阵14中的排列顺序,从第一列开始从上向下确认发光值,在完成对第一列的确认后,会从第二列开始从上向下确认发光值,直至完成对窗口矩阵14内所有列的确认。
窗口矩阵14可以通过实验测试来标定,也可以根据实际情况来调整。窗口矩阵14可以根据亮度矩阵13的尺寸来确定。窗口矩阵14可以为m阶矩阵。
在进行窗口采样的过程中,可以按照能够确定的顺序,将窗口在亮度矩阵13上进行无重叠的滑动后采样,使得采样得到的窗口矩阵14之间不会存在数据重合,并能够通过拼接来得到亮度矩阵13。
在得到所有窗口矩阵14的窗口亮度向量15的情况下,可根据窗口矩阵14的采样次序,将窗口亮度向量15依序排列组成一个更大尺寸的一维向量,进而得到训练数据。图6所示为将所有的窗口亮度向量15进行排列处理得到的训练数据的示意图。在图6中,窗口亮度向量15a、窗口亮度向量15b、窗口亮度向量15c、窗口亮度向量15d依序排列组成训练数据。
可以理解,在实际测序中,进行观测的视场内会存在训练样本中邻近的碱基,通过选取窗口可以将整个视场下的所有碱基进行划分,使得每个窗口都可以对应一部分碱基。对于训练数据而言,其中依次排列的多个窗口亮度向量15可以包括空间信息,空间信息可以用于确定窗口亮度向量15所对应的窗口,以用于表示相互邻近的碱基。在进行亮度识别时,可对邻近的两个窗口亮度向量15进行识别,以方便分析对应的两个邻近的DNA序列中的碱基的相互关系,从而可提高对训练样本中邻近碱基的学习效果。
图像识别方法可以包括:
在循环对训练样本进行合成处理的情况下,在每次合成处理后获取多个训练图像,每次合成处理后获取到的训练图像的数量对应训练样本的碱基类别的数量;
根据训练数据的亮度信息确定亮度矩阵13,可以包括:
根据每个训练图像确定对应的一个亮度矩阵13;
根据筛选出的多个发光值得到训练数据,可以包括:
以对训练样本进行合成处理的循环次数、训练样本的碱基类别的数量、亮度矩阵13中具有的发光值的最大数量为维度,将多个发光值进行三维排列处理以得到训练数据。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:在循环对训练样本进行合成处理的情况下,在每次合成处理后获取多个训练图像,每次合成处理后获取到的训练图像的数量对应训练样本的碱基类别的数量;根据每个训练图像确定对应的一个亮度矩阵13;以对训练样本进行合成处理的循环次数、训练样本的碱基类别的数量、亮度矩阵13中具有的发光值的最大数量为维度,将多个发光值进行三维排列处理以得到训练数据。
如此,有利于提高识别的准确率。
请参考图7,图7所示为将多个发光值进行三维排列处理后得到的矩阵示意图。在图7中显示有多个方块,每个方块对应一个发光值。一个亮度矩阵13中的所有发光值会排列形成一个一维向量。在每次进行合成处理后,会对训练样本进行图像采集以得到一个训练图像,在得到一个训练图像后,会再进行一次合成处理并再得到一个训练图像,从而通过循环合成处理以得到至少两个训练图像。在对每个碱基类别获取对应的一个亮度矩阵13的情况下,可以得到对应碱基类别的数量的至少一个亮度矩阵13。
对于不同的碱基类别而言,需要在对应的波长下来获取其所显示的最大亮度,从而得到相应的一个亮度矩阵13。在图7中,m表示得到的训练图像的数量,n表示一个亮度矩阵13中具有的发光值的数量,s表示碱基类别或者亮度矩阵13的数量。在每次合成处理后仅获取一个训练图像的情况下,m可以表示为合成处理的循环次数(cycle)。在每个亮度矩阵13中具有的发光值的数量不同的情况下,n可以表示为亮度矩阵13中具有的发光值的最大数量。
在上述基础上,以s、m、n为维度对所有发光值进行排列处理,对于识别模型而言,可以根据维度s来确定哪一些发光值对应哪个碱基类别,根据维度m来确定对同一个样本进行亮度识别的次数,以及根据维度n来确定亮度矩阵13中具有的发光值的数量,使得亮度识别更为针对,且多次的循环合成处理使得识别模型能够更为明确地识别出训练样本的碱基序列,有利于提高识别的准确率。
另外,通过一次性输入多个循环次数下的相关数据,能够让识别模型学习到多次循环之间出现的反应滞后效应(phasing)和反应提前效应(prephasing),从而能够校正亮度,提高识别准确率。
图像识别方法可以包括:
在通过训练图像获取到训练数据的情况下,通过预设模型对训练数据进行识别处理以得到第二亮度识别结果;
根据预设基因库序列对第二亮度识别结果进行匹配处理以确定标签数据。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:在通过训练图像获取到训练数据的情况下,通过预设模型对训练数据进行识别处理以得到第二亮度识别结果;根据预设基因库序列对第二亮度识别结果进行匹配处理以确定标签数据。
如此,能够提高对识别模型的监督效果。
预设模型可以为传统的碱基识别算法。在获取到训练图像的情况下,可以将训练图像输入至传统的碱基识别算法进行碱基识别得到第二亮度识别结果,然后根据预设基因库序列进行匹配。预设基因库序列中可以包括多个标准序列,根据预设基因库序列进行匹配可以为将预设基因库序列中的标准序列与第二亮度识别结果进行匹配来得到标签数据,以通过标准序列来确定训练样本中的碱基序列,使得标签数据的获取来源更为真实而起到对训练数据的监督作用,且不需要人为地检测输入。
根据预设基因库序列对第二亮度识别结果进行匹配处理以确定标签数据,可以包括:
根据第二亮度识别结果,在预设基因库序列中确定与训练样本具有相同碱基类别的至少一个第一标准序列,第二亮度识别结果可以包括对训练样本识别到的碱基类别和碱基序列;
根据至少一个第一标准序列对第二亮度识别结果进行碱基序列匹配处理,以根据匹配成功的第一标准序列确定标签数据。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:根据第二亮度识别结果,在预设基因库序列中确定与训练样本具有相同碱基类别的至少一个第一标准序列,第二亮度识别结果可以包括对训练样本识别到的碱基类别和碱基序列;根据至少一个第一标准序列对第二亮度识别结果进行碱基序列匹配处理,以根据匹配成功的第一标准序列确定标签数据。
如此,可方便快速确定标签数据。
可以理解,如果标准序列与训练样本具有不同的碱基类别,则两者的碱基序列也会存在较大差别,无法起到监督的作用。在已确定训练样本的碱基类别的情况下,则可以快速筛选出具有相同碱基类别的标准序列并作为第一标准序列,然后根据第一标准序列与训练样本的碱基序列进行匹配处理,以确定在预设基因库序列中与训练样本的碱基序列相同或相似的标准序列并用于监督,不需要对预设基因库序列中的每个标准序列都进行匹配处理,从而可方便快速确定标签数据。
具体地,如果训练样本的碱基类别仅可以包括第一类和第二类,则不会将可以包括第三类和第四类的标准序列作为第一标准序列,而会将仅可以包括第一类和第二类的标准序列作为第一标准序列,其中,第一类可以对应腺嘌呤(A),第二类可以对应胸腺嘧啶(T),第三类可以对应鸟嘌呤(G),第四类可以对应胞嘧啶(C)。第零类可以对应背景区域。
根据至少一个第一标准序列对第二亮度识别结果进行碱基序列匹配处理,可以包括:
根据第一标准序列与对训练样本识别到的碱基序列之间具有相同序列的比例,确定第一标准序列的序列匹配程度;
将序列匹配程度大于第一阈值的第一标准序列确定为匹配成功的第一标准序列。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:根据第一标准序列与对训练样本识别到的碱基序列之间具有相同序列的比例,确定第一标准序列的序列匹配程度;将序列匹配程度大于第一阈值的第一标准序列确定为匹配成功的第一标准序列。
如此,有利于提高标签数据的获取效率。
在确定第一标准序列的情况下,会进一步确定第一标准序列中碱基的排列顺序,然后与训练样本的碱基序列进行逐一匹配。碱基序列匹配处理可以包括碱基序列中的碱基位置和碱基类别。在第一标准序列和训练样本的碱基序列中相同的碱基位置具有相同的碱基类别的情况下,可确认两者在此碱基位置匹配成功。序列匹配程度可以对应第一标准序列和训练样本的碱基序列中匹配成功的碱基位置的数量与总的碱基位置的数量的占比。在序列匹配程度大于第一阈值的情况下,可确定第一标准序列与训练样本的碱基序列相同或相似,从而可根据第一标准序列来确定标签数据,从而能够明确对标签数据的获取过程,有利于提高标签数据的获取效率。
根据至少一个第一标准序列对第二亮度识别结果进行碱基序列匹配处理,可以包括:
在确定第一标准序列与对训练样本识别到的碱基序列未完全匹配的情况下,根据第一标准序列对第二亮度识别结果进行校正处理。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:在确定第一标准序列与对训练样本识别到的碱基序列未完全匹配的情况下,根据第一标准序列对第二亮度识别结果进行校正处理。
如此,有利于保证标签数据的准确性。
在确定第一标准序列的情况下,如果存在部分碱基位置未匹配成功,则表示两者的碱基序列未完全匹配,需要进一步进行完善。通过结合第一标准序列,对第二亮度识别结果进行校正处理,使得校正后的第二亮度识别结果能够对应训练样本的实际碱基序列,避免用于监督的标签存在错误而导致监督结果错误,从而有利于保证标签数据的准确性。
图像识别方法可以包括:
在确定未匹配到对应第一样本的序列匹配程度大于第一阈值的第一标准序列的情况下,删除训练数据中对应第一样本的内容,训练样本可以包括第一样本。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:在确定未匹配到对应第一样本的序列匹配程度大于第一阈值的第一标准序列的情况下,删除训练数据中对应第一样本的内容,训练样本可以包括第一样本。
如此,有利于保证识别模型的训练效果。
在确定未匹配到对应第一样本的序列匹配程度大于第一阈值的第一标准序列的情况下,则可表示第一样本中的部分碱基序列无法得到预设基因库序列的对照支持,若继续将对第一样本的亮度识别结果作为标签数据以用于监督识别模型的训练,可能会污染整体的标签数据,导致训练结果无法得到有效的监督,容易形成错误数据的累积,进而使得识别模型的训练效果差。
在上述情况下,通过将训练数据中对应第一样本的内容进行删除,使得识别模型不会对关于第一样本的训练数据进行训练,从而可避免错误的数据对整体数据造成污染,进而保证识别模型的训练效果。
图像识别方法可以包括:
根据预设基因库序列对识别模型在初始训练时得到的第一亮度识别结果进行匹配处理,以在预设基因库序列中确定第二标准序列,预设基因库序列可以包括第二标准序列;
根据第二标准序列更新训练数据。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:根据预设基因库序列对识别模型在初始训练时得到的第一亮度识别结果进行匹配处理,以在预设基因库序列中确定第二标准序列,预设基因库序列可以包括第二标准序列;根据第二标准序列更新训练数据。
如此,有利于提高识别模型的识别能力。
可以理解,在标签数据是以匹配成功的标准序列来确定的,其中会删除部分未匹配成功的样本内容。识别模型在初始训练时得到的第一亮度识别结果,能够基本反映出训练样本中的所有碱基序列的情况,且可以包括未匹配成功的样本内容。在此基础上,根据预设基因库序列对识别模型在初始训练时得到的第一亮度识别结果进行匹配处理,能够确定部分在得到标签数据时未匹配成功的标准序列以作为第二标准序列。第二标准序列能够增加在训练样本中能够被识别到的碱基序列的数量(链数),并可通过迭代更新的方式来使得识别模型能够学习到尽可能多的未匹配成功的碱基序列,有利于提高识别模型的识别能力。
识别模型在预设次数内的训练次数,可以是识别模型在初始训练过程中的训练次数。预设次数可以为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20。
另外,在识别模型的初始训练过程中,可以将每一次得到的亮度识别结果来确定一部分第二标准序列以更新标签数据,并将更新后的标签数据再用于监督识别模型进行下一次的碱基识别,有利于提高识别模型对所有碱基序列的识别能力。
图像识别方法可以包括:
对亮度图像进行特征提取处理得到特征图像,亮度图像可以包括待识别亮度图像和训练图像;
对特征图像进行串扰校正处理得到碱基类别权重数据,碱基类别权重数据可以包括基因样本中每个碱基类别的权值,基因样本可以包括至少两个碱基类别;
根据碱基类别权重数据对特征图像进行加权处理。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:对亮度图像进行特征提取处理得到特征图像,亮度图像可以包括待识别亮度图像和训练图像;对特征图像进行串扰校正处理得到碱基类别权重数据,碱基类别权重数据可以包括基因样本中每个碱基类别的权值,基因样本可以包括至少两个碱基类别;根据碱基类别权重数据对特征图像进行加权处理。
如此,有利于提高对通道间的串扰进行校正的效果。
具体地,在对不同的碱基类别进行图像采集的时候,由于碱基类别可以在其他的碱基类别处于最大亮度下的波长时仍具有一定的亮度,在通过碱基通道来获取对应的碱基类别的亮度图像时,也会获取到其他的碱基类别的亮度,从而形成碱基通道间的串扰(crosstalk)。
在上述基础上,通过对亮度图像进行特征提取处理以得到能够表征亮度图像中的亮度值的特征图像,再对特征图像进行串扰校正处理得到碱基类别权重数据,碱基类别权重数据能够用于重新分配对不同亮度值的识别权值,从而根据碱基类别权重数据对特征图像进行加权处理,对其他碱基类别通过碱基通道间的串扰而形成的亮度值分配更低的权值,对本碱基类别形成的亮度值分配更高的权值,达到降低碱基通道间的串扰的校正效果。
对特征图像进行串扰校正处理得到碱基类别权重数据,可以包括:
对特征图像进行降维处理得到一维特征向量;
对一维特征向量进行学习处理以得到每个碱基类别的特征参数;
根据碱基类别的特征参数进行加权处理以得到碱基类别权重数据。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:对特征图像进行降维处理得到一维特征向量;对一维特征向量进行学习处理以得到每个碱基类别的特征参数;根据碱基类别的特征参数进行加权处理以得到碱基类别权重数据。
如此,可实现对碱基类别权重数据的获取方案。
请参考图8,图8所示为对亮度图像进行串扰校正处理的流程示意图。IN表示输入的亮度图像,X1表示特征提取处理的流程,X2表示串扰校正处理的流程,X3表示加权处理的流程,OUT表示亮度识别结果。
特征提取处理可以包括多个卷积核(X11、X12、X13、X14、X15)。对亮度图像的特征提取处理可以为进行多次卷积计算处理。每个卷积核可具有对应的尺寸以及数量,从而可有利于提高特征提取的效果。卷积核X11的尺寸可以为7*1,数量可以为8。卷积核X12的尺寸可以为7*1,数量可以为16。卷积核X13的尺寸可以为3*3,数量可以为32。卷积核X11的尺寸可以为3*3,数量可以为32。卷积核X11的尺寸可以为3*3,数量可以为32。
在特征提取处理中,可通过全局池化层进行全局平均池化,以将特征图在空间维度上降维至一维向量。在特征提取处理中,还可通过全连接网络或卷积层来学习每个碱基通道的重要性权重,以确定碱基类别权重数据。
在获取到碱基类别权重数据的情况下,可通过将碱基类别权重数据进行归一化处理,然后将每个碱基通道的特征乘以对应的权重,最终可得到一层和亮度图像的尺寸相同的碱基分类结果,或者说亮度识别结果。
另外,在完成加权处理后,可以对处理后的结果进行卷积处理以进一步提取特征。在图8中,X4表示对加权处理后的结果进行卷积处理的流程,其中可包括多个卷积核(X41、X42)。卷积核X41的尺寸可以为3*3,数量可以为16。卷积核X42的尺寸可以为1*1,数量可以为4。
此外,卷积层的尺寸、数量也可根据实际需求进行调整,上述实施方式仅提供一个可供参考的数据,在此不对其他实施方式进行限定。
图像识别方法可以包括:
根据第一亮度识别结果和训练样本的碱基类别确定预测概率,训练数据具有至少一个,每个训练数据具有对应的一个预测概率;
根据标签数据和训练样本的碱基类别确定真实类别,真实类别对应训练数据的实际的碱基类别;
根据预测概率、真实类别、碱基类别的数量和训练数据的数量,确定亮度识别差异程度,亮度识别差异程度用于确定是否对识别模型进行优化处理。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:根据第一亮度识别结果和训练样本的碱基类别确定预测概率,训练数据具有至少一个,每个训练数据具有对应的一个预测概率;根据标签数据和训练样本的碱基类别确定真实类别,真实类别对应训练数据的实际的碱基类别;根据预测概率、真实类别、碱基类别的数量和训练数据的数量,确定亮度识别差异程度,亮度识别差异程度用于确定是否对识别模型进行优化处理。
如此,可有利于识别模型的快速收敛。
具体地,在一个实施方式中,亮度识别差异程度可以通过以下公式来确定:
其中,L表示识别模型的损失函数,N表示参与一次权重更新的样本数量,M表示碱基类别的数量,i表示训练数据的序号,c表示碱基类别的序号,yic表示序号为i的训练数据属于序号为c的碱基类别的真实类别,pic表示序号为i的训练数据属于序号为c的碱基类别的预测概率。
图像识别方法可以包括:
在完成对识别模型的优化处理的情况下,再次将训练数据输入至识别模型进行识别处理并得到新的第一亮度识别结果;
在第一亮度识别差异程度大于或等于第二亮度识别差异程度,且第一亮度识别差异程度和第二亮度识别差异程度之间的变化程度小于或等于预设值的情况下,确定完成对识别模型的训练,第一亮度识别差异程度为优化处理前的亮度识别差异程度,第二亮度识别差异程度为优化处理后的亮度识别差异程度;
在第一亮度识别差异程度小于第二亮度识别差异程度,和/或第一亮度识别差异程度和第二亮度识别差异程度之间的变化程度大于预设值的情况下,确定继续对识别模型进行优化处理。
本发明实施方式的图像识别方法可以通过本发明实施方式的图像识别系统10来实现。具体地,请结合图2,处理模块12用于:在完成对识别模型的优化处理的情况下,再次将训练数据输入至识别模型进行识别处理并得到新的第一亮度识别结果;在第一亮度识别差异程度大于或等于第二亮度识别差异程度,且第一亮度识别差异程度和第二亮度识别差异程度之间的变化程度小于或等于预设值的情况下,确定完成对识别模型的训练,第一亮度识别差异程度为优化处理前的亮度识别差异程度,第二亮度识别差异程度为优化处理后的亮度识别差异程度;在第一亮度识别差异程度小于第二亮度识别差异程度,和/或第一亮度识别差异程度和第二亮度识别差异程度之间的变化程度大于预设值的情况下,确定继续对识别模型进行优化处理。
如此,可方便实现对识别模型进行快速迭代优化。
可以理解,在前后优化处理后得到的亮度识别差异程度较大的情况下,为了使得识别模型最终能够准确识别图像中的样本的碱基序列,在一些实施方式中,可以根据亮度识别差异程度通过反向传播至识别模型的训练参数,以对训练参数进行调整,这样,通过调整训练参数的方式,使得识别模型在下一次进行训练处理时,会根据调整后的训练参数来对训练图像进行处理,若仍确定存在较大的差异值,则再次调整训练参数即可,从而达到对识别模型的迭代优化的效果。
具体地,可以对识别模型进行迭代优化,然后根据相邻两次的亮度识别差异程度来确定亮度识别差异程度的变化程度。亮度识别差异程度的变化程度可以表征识别模型在前后进行亮度识别的准确程度,亮度识别差异程度的变化程度越大,则表示后一次的亮度识别的优化程度更大,亮度识别差异程度的变化程度越小,则表示后一次的亮度识别的优化程度更小。
在进行迭代优化的过程中,在确定亮度识别差异程度的变化程度大于或等于预设值的情况下,则表示识别模型还存在优化空间,从而会继续进行迭代优化;在确定亮度识别差异程度的变化程度小于预设值的情况下,则表示识别模型还存在优化空间,从而会继续进行迭代优化。
另外,对识别模型进行迭代优化的次数可以根据实际需求来确定,也可以通过实验测试来标定。迭代优化的次数可以为1000次。
另外,本发明实施方式的图像识别系统10可以通过以下表格来确定相应的碱基识别结果:
在上述表格中,Q30表示亮度识别结果的置信度大于99.9%的比例,Mapping Rate表示亮度识别结果和标准基因库匹配成功的链数与待识别样本的总链数之间的比例,Mismatch 是在匹配成功的链中检测出错的概率。可以得知,相对于通过相关技术进行碱基识别得到的识别结果而言,在本发明实施方式对样本一至样本三的识别结果中,Q30均相对较大而使得识别结果具有更大的置信度,Mapping Rate均相对较大而使得识别结果更为准确,Mismatch 均相对较小而具有更小的识别错误的可能。
而且,相对于相关技术中采用Pattern基因芯片进行基因测序的方式,本发明实施方式能够适应基因组负责程度更高和变异多样性更强的基因序列,从而能够用于通过No-pattern基因芯片进行基因测序。
另外,标准基因库可以为存储有预设基因库序列的基因库。
请参考图9,本发明实施方式的一种用于基因样本的图像识别系统10可以包括存储器16和处理器17。存储器16存储有计算机程序。处理器17执行计算机程序时,实现上述任一项实施方式的图像识别方法的步骤。
例如,在计算机程序被处理器执行的情况下,可以实现的图像识别方法包括:
04:获取待识别亮度图像,待识别亮度图像为对待识别样本进行图像采集得到的;
05:通过识别模型识别待识别亮度图像的亮度信息以得到亮度识别结果,亮度识别结果用于确定待识别样本的碱基序列,识别模型为通过训练图像的训练数据训练得到的,训练图像为对训练样本进行图像采集得到的,训练数据为对训练图像的亮度信息进行筛选处理得到的,亮度信息对应基因样本在进行合成处理后显示的亮度大小。
上述图像识别系统10,通过对训练图像的亮度信息进行筛选处理,识别模型能够针对性地对碱基所对应的荧光分子所发出的亮度进行识别训练,可以较大程度地减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,使得训练得到的识别模型能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。
本发明实施方式的一种计算机可读存储介质,其上存储有计算机程序。计算机程序在被处理器执行时,实现上述任一项实施方式的图像识别方法的步骤。
例如,在计算机程序被处理器执行的情况下,可以实现的图像识别方法包括:
04:获取待识别亮度图像,待识别亮度图像为对待识别样本进行图像采集得到的;
05:通过识别模型识别待识别亮度图像的亮度信息以得到亮度识别结果,亮度识别结果用于确定待识别样本的碱基序列,识别模型为通过训练图像的训练数据训练得到的,训练图像为对训练样本进行图像采集得到的,训练数据为对训练图像的亮度信息进行筛选处理得到的,亮度信息对应基因样本在进行合成处理后显示的亮度大小。
上述图像识别系统10,通过对训练图像的亮度信息进行筛选处理,识别模型能够针对性地对碱基所对应的荧光分子所发出的亮度进行识别训练,可以较大程度地减少如通道串扰、空间串扰、荧光团的反应滞后效应和反应提前效应等造成的亮度干扰,使得训练得到的识别模型能够准确地识别出样本中的碱基序列,从而有利于提高识别精度。
计算机可读存储介质可设置在处理模块12,也可设置在其他终端,处理模块12能够与其他终端进行通信来获取到相应的程序。
可以理解,计算机可读存储介质可以包括:能够携带计算机程序的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质。
在本发明的某些实施方式中,各模块可以是一个单片机芯片,集成了处理器、存储器,通讯模块等。处理器可以是中央处理单元(Central Processing Unit,CPU),图形处理单元(Graphic Processing Unit,GPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且 本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (17)

1.一种用于基因样本的图像识别方法,其特征在于,包括:
获取待识别亮度图像,所述待识别亮度图像为对待识别样本进行图像采集得到的;
通过识别模型识别所述待识别亮度图像的亮度信息以得到亮度识别结果,所述亮度识别结果用于确定所述待识别样本的碱基序列,所述识别模型为通过训练图像的训练数据训练得到的,所述训练图像为对训练样本进行图像采集得到的,所述训练数据为对所述训练图像的亮度信息进行筛选处理得到的,所述亮度信息对应基因样本在进行合成处理后显示的亮度大小;
所述图像识别方法还包括:
对所述训练图像进行处理得到所述训练数据;
将所述训练数据输入至所述识别模型进行识别处理得到第一亮度识别结果;
根据所述第一亮度识别结果和标签数据对所述识别模型进行优化处理,所述标签数据为根据预设基因库序列对所述训练图像进行匹配处理得到的;
其中,对所述训练图像进行处理得到所述训练数据,包括:
根据所述训练图像的亮度信息确定亮度矩阵,所述亮度矩阵包括多个发光值和多个背景值,所述发光值对应所述训练数据中的碱基的亮度值,所述背景值对应所述训练数据中的背景区域的亮度值,所述碱基的亮度值大于所述背景区域的亮度值;
从所述亮度矩阵中筛选出所述多个发光值;
根据筛选出的所述多个发光值得到所述训练数据。
2.根据权利要求1所述的图像识别方法,其特征在于,从所述亮度矩阵中筛选出所述多个发光值,包括:
对所述亮度矩阵进行窗口采样得到多个窗口矩阵,所述亮度矩阵能够通过所述多个窗口矩阵拼接得到;
在所述窗口矩阵中筛选出所述多个发光值并组成窗口亮度向量;
根据筛选出的所述多个发光值得到所述训练数据,包括:
按照所述多个窗口矩阵的采样次序,对所述多个窗口矩阵分别对应的多个所述窗口亮度向量进行排列处理以得到所述训练数据。
3.根据权利要求1所述的图像识别方法,其特征在于,所述图像识别方法包括:
在循环对所述训练样本进行合成处理的情况下,在每次合成处理后获取多个所述训练图像,每次合成处理后获取到的所述训练图像的数量对应所述训练样本的碱基类别的数量;
根据所述训练数据的亮度信息确定亮度矩阵,包括:
根据每个所述训练图像确定对应的一个所述亮度矩阵;
根据筛选出的所述多个发光值得到所述训练数据,包括:
以对所述训练样本进行合成处理的循环次数、所述训练样本的碱基类别的数量、所述亮度矩阵中具有的所述发光值的最大数量为维度,将所述多个发光值进行三维排列处理以得到所述训练数据。
4.根据权利要求1所述的图像识别方法,其特征在于,所述图像识别方法包括:
在通过所述训练图像获取到所述训练数据的情况下,通过预设模型对所述训练数据进行识别处理以得到第二亮度识别结果;
根据所述预设基因库序列对所述第二亮度识别结果进行匹配处理以确定所述标签数据。
5.根据权利要求4所述的图像识别方法,其特征在于,根据所述预设基因库序列对所述第二亮度识别结果进行匹配处理以确定所述标签数据,包括:
根据所述第二亮度识别结果,在所述预设基因库序列中确定与所述训练样本具有相同碱基类别的至少一个第一标准序列,所述第二亮度识别结果包括对所述训练样本识别到的碱基类别和碱基序列;
根据所述至少一个第一标准序列对所述第二亮度识别结果进行碱基序列匹配处理,以根据匹配成功的第一标准序列确定所述标签数据。
6.根据权利要求5所述的图像识别方法,其特征在于,根据所述至少一个第一标准序列对所述第二亮度识别结果进行碱基序列匹配处理,包括:
根据所述第一标准序列与对所述训练样本识别到的碱基序列之间具有相同序列的比例,确定所述第一标准序列的序列匹配程度;
将所述序列匹配程度大于第一阈值的第一标准序列确定为所述匹配成功的第一标准序列。
7.根据权利要求6所述的图像识别方法,其特征在于,根据所述至少一个第一标准序列对所述第二亮度识别结果进行碱基序列匹配处理,包括:
在确定所述第一标准序列与对所述训练样本识别到的碱基序列未完全匹配的情况下,根据所述第一标准序列对所述第二亮度识别结果进行校正处理。
8.根据权利要求6所述的图像识别方法,其特征在于,所述图像识别方法包括:
在确定未匹配到对应第一样本的所述序列匹配程度大于第一阈值的第一标准序列的情况下,删除所述训练数据中对应所述第一样本的内容,所述训练样本包括所述第一样本。
9.根据权利要求1所述的图像识别方法,其特征在于,所述图像识别方法包括:
根据所述预设基因库序列对所述识别模型在初始训练时得到的第一亮度识别结果进行匹配处理,以在所述预设基因库序列中确定第二标准序列,所述预设基因库序列包括所述第二标准序列;
根据所述第二标准序列更新所述训练数据。
10.根据权利要求1所述的图像识别方法,其特征在于,所述图像识别方法包括:
对亮度图像进行特征提取处理得到特征图像,所述亮度图像包括所述待识别亮度图像和所述训练图像;
对所述特征图像进行串扰校正处理得到碱基类别权重数据,所述碱基类别权重数据包括所述基因样本中每个碱基类别的权值,所述基因样本包括至少两个所述碱基类别;
根据所述碱基类别权重数据对所述特征图像进行加权处理。
11.根据权利要求10所述的图像识别方法,其特征在于,对所述特征图像进行串扰校正处理得到碱基类别权重数据,包括:
对所述特征图像进行降维处理得到一维特征向量;
对所述一维特征向量进行学习处理以得到每个所述碱基类别的特征参数;
根据所述碱基类别的特征参数进行加权处理以得到所述碱基类别权重数据。
12.根据权利要求1所述的图像识别方法,其特征在于,所述图像识别方法包括:
根据所述第一亮度识别结果和所述训练样本的碱基类别确定预测概率,所述训练数据具有至少一个,每个所述训练数据具有对应的一个所述预测概率;
根据所述标签数据和所述训练样本的碱基类别确定真实类别,所述真实类别对应所述训练数据的实际的碱基类别;
根据所述预测概率、所述真实类别、所述碱基类别的数量和所述训练数据的数量,确定亮度识别差异程度,所述亮度识别差异程度用于确定是否对所述识别模型进行优化处理。
13.根据权利要求1所述的图像识别方法,其特征在于,所述图像识别方法包括:
在完成对所述识别模型的优化处理的情况下,再次将所述训练数据输入至所述识别模型进行识别处理并得到新的第一亮度识别结果;
在第一亮度识别差异程度大于或等于第二亮度识别差异程度,且所述第一亮度识别差异程度和所述第二亮度识别差异程度之间的变化程度小于或等于预设值的情况下,确定完成对所述识别模型的训练,所述第一亮度识别差异程度为优化处理前的亮度识别差异程度,所述第二亮度识别差异程度为优化处理后的亮度识别差异程度;
在所述第一亮度识别差异程度小于所述第二亮度识别差异程度,和/或所述第一亮度识别差异程度和所述第二亮度识别差异程度之间的变化程度大于所述预设值的情况下,确定继续对所述识别模型进行优化处理。
14.根据权利要求1所述的图像识别方法,其特征在于,根据所述第一亮度识别结果和所述标签数据,对所述识别模型进行优化处理,包括:
根据所述第一亮度识别结果的概率分布与所述标签数据的概率分布之间的差距,通过反向传播来对所述识别模型中的权重参数进行优化。
15.一种用于基因样本的图像识别系统,其特征在于,包括获取模块和处理模块,
所述获取模块用于:
获取待识别亮度图像,所述待识别亮度图像为对待识别样本进行图像采集得到的;
所述处理模块用于:
通过识别模型识别所述待识别亮度图像的亮度信息以得到亮度识别结果,所述亮度识别结果用于确定所述待识别样本的碱基序列,所述识别模型为通过训练图像的训练数据训练得到的,所述训练图像为对训练样本进行图像采集得到的,所述训练数据为对所述训练图像的亮度信息进行筛选处理得到的,所述亮度信息对应基因样本在进行合成处理后显示的亮度大小;
所述处理模块还用于:
对所述训练图像进行处理得到所述训练数据;
将所述训练数据输入至所述识别模型进行识别处理得到第一亮度识别结果;
根据所述第一亮度识别结果和标签数据对所述识别模型进行优化处理,所述标签数据为根据预设基因库序列对所述训练图像进行匹配处理得到的;
其中,所述处理模块具体用于:
根据所述训练图像的亮度信息确定亮度矩阵,所述亮度矩阵包括多个发光值和多个背景值,所述发光值对应所述训练数据中的碱基的亮度值,所述背景值对应所述训练数据中的背景区域的亮度值,所述碱基的亮度值大于所述背景区域的亮度值;
从所述亮度矩阵中筛选出所述多个发光值;
根据筛选出的所述多个发光值得到所述训练数据。
16.一种用于基因样本的图像识别系统,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-14任一项所述的图像识别方法的步骤。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时,实现权利要求1-14任一项所述的图像识别方法的步骤。
CN202310607791.3A 2023-05-26 2023-05-26 用于基因样本的图像识别方法、图像识别系统和存储介质 Active CN116363403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310607791.3A CN116363403B (zh) 2023-05-26 2023-05-26 用于基因样本的图像识别方法、图像识别系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310607791.3A CN116363403B (zh) 2023-05-26 2023-05-26 用于基因样本的图像识别方法、图像识别系统和存储介质

Publications (2)

Publication Number Publication Date
CN116363403A CN116363403A (zh) 2023-06-30
CN116363403B true CN116363403B (zh) 2023-08-11

Family

ID=86909657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310607791.3A Active CN116363403B (zh) 2023-05-26 2023-05-26 用于基因样本的图像识别方法、图像识别系统和存储介质

Country Status (1)

Country Link
CN (1) CN116363403B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948703A (zh) * 2019-03-20 2019-06-28 上海交通大学 基于深度学习的基因图像处理估计方法、系统、介质及设备
CN110083700A (zh) * 2019-03-19 2019-08-02 北京中兴通网络科技股份有限公司 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN112313666A (zh) * 2019-03-21 2021-02-02 因美纳有限公司 用于基于人工智能的测序的训练数据生成
CN112396106A (zh) * 2020-11-18 2021-02-23 腾讯科技(深圳)有限公司 内容识别方法、内容识别模型训练方法及存储介质
CN113822838A (zh) * 2020-06-17 2021-12-21 深圳华大智造科技有限公司 碱基识别设备及碱基识别方法
CN115035952A (zh) * 2022-05-20 2022-09-09 深圳赛陆医疗科技有限公司 碱基识别方法和装置、电子设备及存储介质
CN115240189A (zh) * 2021-04-16 2022-10-25 深圳市华大智造软件技术有限公司 碱基分类方法、基因测序仪、计算机可读存储介质
CN115376613A (zh) * 2022-09-13 2022-11-22 郑州思昆生物工程有限公司 一种碱基类别检测方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212498B2 (en) * 2018-12-11 2021-12-28 Intel Corporation Infrared crosstalk correction for hybrid RGB-IR sensors

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083700A (zh) * 2019-03-19 2019-08-02 北京中兴通网络科技股份有限公司 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN109948703A (zh) * 2019-03-20 2019-06-28 上海交通大学 基于深度学习的基因图像处理估计方法、系统、介质及设备
CN112313666A (zh) * 2019-03-21 2021-02-02 因美纳有限公司 用于基于人工智能的测序的训练数据生成
CN113822838A (zh) * 2020-06-17 2021-12-21 深圳华大智造科技有限公司 碱基识别设备及碱基识别方法
CN112396106A (zh) * 2020-11-18 2021-02-23 腾讯科技(深圳)有限公司 内容识别方法、内容识别模型训练方法及存储介质
CN115240189A (zh) * 2021-04-16 2022-10-25 深圳市华大智造软件技术有限公司 碱基分类方法、基因测序仪、计算机可读存储介质
CN115035952A (zh) * 2022-05-20 2022-09-09 深圳赛陆医疗科技有限公司 碱基识别方法和装置、电子设备及存储介质
CN115376613A (zh) * 2022-09-13 2022-11-22 郑州思昆生物工程有限公司 一种碱基类别检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
酵母基因组中核小体偏好序列的识别;陈伟 等;《生物信息学》;第7卷(第2期);第159-162页 *

Also Published As

Publication number Publication date
CN116363403A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
US20190347567A1 (en) Methods for data segmentation and identification
CN116994246B (zh) 基于多任务联合的碱基识别方法及装置、基因测序仪及介质
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN116363403B (zh) 用于基因样本的图像识别方法、图像识别系统和存储介质
CN116596933A (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
US20220336057A1 (en) Efficient voxelization for deep learning
CA3215514A1 (en) Multi-channel protein voxelization to predict variant pathogenicity using deep convolutional neural networks
US11515010B2 (en) Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures
CA3215462A1 (en) Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3d) protein structures
US20230047347A1 (en) Deep neural network-based variant pathogenicity prediction
US11538555B1 (en) Protein structure-based protein language models
CN117912570B (zh) 一种基于基因共表达网络的分类特征确定方法及系统
CN117392673B (zh) 碱基识别方法及装置、基因测序仪及介质
CN111933217B (zh) 一种基于深度学习的dna模体长度预测方法及预测系统
US20230343413A1 (en) Protein structure-based protein language models
CN117976042A (zh) 确定读段质量分数的方法、测序方法及装置
CN117274739A (zh) 碱基识别方法及其训练集构建方法、基因测序仪及介质
CN117546242A (zh) 基于蛋白质结构的蛋白质语言模型
WO2023059751A1 (en) Predicting variant pathogenicity from evolutionary conservation using three-dimensional (3d) protein structure voxels
CN117581302A (zh) 使用有缺口和非缺口的蛋白质样品的变体致病性预测器的组合学习和迁移学习
CN117121110A (zh) 用于深度学习的高效体素化
KR20090125572A (ko) 수정된 최대경계선 방법을 사용한 마이크로어레이 데이터를이용한 유전자 선발 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant