CN117316277B - 一种基于荧光光谱的基因检测数据处理方法 - Google Patents
一种基于荧光光谱的基因检测数据处理方法 Download PDFInfo
- Publication number
- CN117316277B CN117316277B CN202311606284.4A CN202311606284A CN117316277B CN 117316277 B CN117316277 B CN 117316277B CN 202311606284 A CN202311606284 A CN 202311606284A CN 117316277 B CN117316277 B CN 117316277B
- Authority
- CN
- China
- Prior art keywords
- sample
- experimental
- index
- samples
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 53
- 238000002189 fluorescence spectrum Methods 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims abstract description 47
- 238000001228 spectrum Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 206010064571 Gene mutation Diseases 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 113
- 230000035772 mutation Effects 0.000 description 27
- 230000000694 effects Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 238000010521 absorption reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 3
- 238000002835 absorbance Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 229930195730 Aflatoxin Natural products 0.000 description 1
- XWIYFDMXXLINPU-UHFFFAOYSA-N Aflatoxin G Chemical compound O=C1OCCC2=C1C(=O)OC1=C2C(OC)=CC2=C1C1C=COC1O2 XWIYFDMXXLINPU-UHFFFAOYSA-N 0.000 description 1
- CMSMOCZEIVJLDB-UHFFFAOYSA-N Cyclophosphamide Chemical compound ClCCN(CCCl)P1(=O)NCCCO1 CMSMOCZEIVJLDB-UHFFFAOYSA-N 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- IOVCWXUNBOPUCH-UHFFFAOYSA-M Nitrite anion Chemical compound [O-]N=O IOVCWXUNBOPUCH-UHFFFAOYSA-M 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 239000005409 aflatoxin Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 229960004397 cyclophosphamide Drugs 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- ZMMJGEGLRURXTF-UHFFFAOYSA-N ethidium bromide Chemical compound [Br-].C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CC)=C1C1=CC=CC=C1 ZMMJGEGLRURXTF-UHFFFAOYSA-N 0.000 description 1
- 229960005542 ethidium bromide Drugs 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000005865 ionizing radiation Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 238000004020 luminiscence type Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biotechnology (AREA)
- Algebra (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及数字数据处理技术领域,具体涉及一种基于荧光光谱的基因检测数据处理方法,结合各数字化数据构建结构化矩阵;计算样本的基因光谱特异性指数;构建荧光强度指数;结合实验过程中各样本的实验时间构建时间系数;根据结构化矩阵中所有样本的实验存放条件值与标准存放条件值之间的差异构建实验环境指数;根据荧光强度指数、时间系数以及实验环境指数计算实验条件影响因子;结合各样本的基因光谱特异性指数及实验条件影响因子构建各样本的孤立森林改进参数,获取异常样本,结合XGBoost算法预测各异常样本的基因突变概率,检测基因突变样本,完成基因检测数据的处理。从而实现基因突变样本的检测,具有较高异常检测精度。
Description
技术领域
本申请涉及数字数据处理技术领域,具体涉及一种基于荧光光谱的基因检测数据处理方法。
背景技术
荧光光谱技术源于分子荧光原理,可以通过不同波长的发光诱导标记分子发射特定的荧光信号。随着激光、检测器等技术进步,荧光光谱仪器更加精密,产生的数据也更加丰富。目前常用的标记技术有FISH、PCR、DNA芯片等。同时,计算机技术的发展也推动了荧光光谱技术应用于更复杂的基因检测任务,传统的方法依赖专家经验,而基于大数据和AI算法的分析方法正在快速发展,可以实现更精确、自动化的基因检测。
然而在进行基因检测时样本的基因突变会通过多方面影响基因检测的准确性和效果,主要表现为假阳性、假阴性结果增加;检测灵敏度下降;实验条件偏差;结果解释困难;标记物结合位点改变和荧光信号畸变等,然而在使用现有技术在大规模样本集中检测基因突变时,由于突变样本相对较少,在正常样本中检出率较低,部分突变导致的光谱变化较弱,不明显以及不同类型突变的光谱模式存在差异,难以全面覆盖等因素,使得精准检测样本集中的突变样本需要耗费大量的精力和时间,需要进行改进。
综上所述,本发明提出一种基于荧光光谱的基因检测数据处理方法,通过荧光光谱仪采集各数据类型的数据,建立结构化矩阵,通过分析结构化矩阵中的荧光光谱强度数据构建基因光谱特异性指数,然后分析结构化矩阵中的样本相关数据构建实验条件影响因子,结合两者对孤立森林的异常数据得分计算进行改进,使用改进后的孤立森林挑选出异常样本,最后训练XGBoost模型,对异常样本进行检测,提取基因突变样本。
发明内容
为了解决上述技术问题,本发明提供一种基于荧光光谱的基因检测数据处理方法,以解决现有的问题。
本发明的一种基于荧光光谱的基因检测数据处理方法采用如下技术方案:
本发明一个实施例提供了一种基于荧光光谱的基因检测数据处理方法,该方法包括以下步骤:
荧光光谱仪采集待检测基因样本并进行数字化处理;
结合各数字化数据构建结构化矩阵;根据结构化矩阵中样本的各波长以及荧光强度得到样本的基因光谱特异性指数;根据结构化矩阵中所有样本荧光强度之间的关系构建荧光强度指数;结合实验过程中各样本的实验时间构建时间系数;根据结构化矩阵中所有样本的实验存放条件值与标准存放条件值之间的差异构建实验环境指数;根据荧光强度指数、时间系数以及实验环境指数计算实验条件影响因子;
结合各样本的基因光谱特异性指数及实验条件影响因子构建各样本的孤立森林改进参数;根据孤立森林改进参数获取异常样本,结合XGBoost算法预测各异常样本的基因突变概率;根据基因突变概率获取基因突变样本,完成基因检测数据的处理。
进一步地,所述结合各数字化数据构建结构化矩阵,包括:
结构化矩阵的每行为每个样本的各特征对应的数据,结构化矩阵的每列为每个数据类型的各样本对应的数据。
进一步地,所述根据结构化矩阵中样本的各波长以及荧光强度得到样本的基因光谱特异性指数,表达式为:
式中,为第i个样本的基因光谱特异性指数,Q为检测波长的总数量,/>为第i个样本的第p个检测波长在光谱中的位置,/>为第i个样本的第/>个检测波长在光谱中的位置,其中,max为第i个样本波峰最大对应的检测波长,/>代表第i个样本波峰值最大的波长在光谱中的位置,/>代表第i个样本在第p个波长上的荧光强度,k为常数参数。
进一步地,所述根据结构化矩阵中所有样本荧光强度之间的关系构建荧光强度指数,包括:
获取样本荧光强度最大值与所有样本荧光强度均值的差值,将所述差值与样本所有荧光强度标准差的比值作为以自然常数为底数的指数函数的指数,获取所述指数函数的计算结果,将所有样本所述计算结果的和值作为荧光强度指数。
进一步地,所述结合实验过程中各样本的实验时间构建时间系数,包括:
获取样本的实验时间与所有样本最长实验时间比值的平方,获取所有样本所述平方的均值,将所述均值作为以自然常数为底数的指数函数的负指数,将1与所述指数函数的计算结果的和值作为时间系数。
进一步地,所述根据结构化矩阵中所有样本的实验存放条件值与标准存放条件值之间的差异构建实验环境指数,包括:
获取样本的实验条件值与标准存放条件值的差值,将所述差值作为以自然常数为底数的指数函数的负指数,获取所述指数函数的计算结果的倒数,将所有样本的1减去所述倒数的和值作为实验环境指数。
进一步地,所述根据荧光强度指数、时间系数以及实验环境指数计算实验条件影响因子,包括:将荧光强度指数、时间系数以及实验环境指数的乘积作为实验条件影响因子。
进一步地,所述结合各样本的基因光谱特异性指数及实验条件影响因子构建各样本的孤立森林改进参数,包括:
将各样本的基因光谱特异性指数与实验条件影响因子乘积的归一化值作为各样本的孤立森林改进参数。
进一步地,所述根据孤立森林改进参数获取异常样本,包括:
结合孤立森林算法及孤立森林改进参数得到各样本的异常数据得分,将异常数据得分大于预设异常得分阈值的样本作为异常样本。
进一步地,所述根据基因突变概率获取基因突变样本,包括:设定分类阈值,当异常样本的基因突变概率大于预设阈值时,将样本标记为基因突变样本。
本发明至少具有如下有益效果:
本发明通过采集相关数据的结构化矩阵,分析结构化矩阵中的荧光光谱强度数据构建基因光谱特异性指数,光谱特异性指数可以通过对某一样本的所有波长位置与主峰波长位置之间的整体差异以及荧光长度对波峰之间的关系进行分析,反映了该样本的荧光光谱的波长分布状况与标准分布状况的差异,通过这种差异表达样本发生基因突变的概率,分析结构化矩阵中的样本相关数据构建实验条件影响因子,实验条件影响因子可以通过比较标准存放环境以及样本使用环境的不同,并且结合样本集中所有的样本主峰大小分布情况确定样本使用环境对样本突变的影响概率。结合两种指标对孤立森林算法的异常数据得分的计算进行改进,通过定量指标调节样本的异常程度,使孤立森林能够更符合不同突变类型的区分需求,从而提高检测效果,增强了算法的鲁棒性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种基于荧光光谱的基因检测数据处理方法的流程图;
图2为孤立森林改进参数提取流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于荧光光谱的基因检测数据处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于荧光光谱的基因检测数据处理方法的具体方案。
本发明一个实施例提供的一种基于荧光光谱的基因检测数据处理方法,具体的,提供了如下的一种基于荧光光谱的基因检测数据处理方法,请参阅图1,该方法包括以下步骤:
步骤S001,确定在基于荧光光谱的基因检测中所需要采集的数据类型,对各数据类型的数据进行采集,并将其转化为数字数据。
使用荧光光谱仪进行数据采集,首先准备待检测的基因样本(DNA或RNA),使用不同的荧光探针来标记不同的目标基因片段,然后将这些样本置于荧光光谱仪中,该仪器会发射一束光源,光源通过样本后,荧光光谱仪会记录不同波长点上的荧光光谱强度数据,这些数据包括荧光强度(波峰)与波长的关系等,对这些数据进行采集,用于后续的基因检测和分析,同时采集与样本相关的元数据,例如基因型信息、实验条件和实验时间等,以更好地理解和解释数据,之后,以采集到的数据为输入,使用独热编码(One-HotEncoding)将得到的数据进行数字化处理。需要注意的是,采集的方法通常需要遵循标准的实验室操作和仪器操作流程,以确保数据的质量和准确性。
需要说明的是,对于所采集的数据进行的预处理实施者可根据实际情况自行选取,独热编码为现有公知技术,在此不做相关赘述。
步骤S002:根据采集的数据建立结构化矩阵,通过分析结构化矩阵中的荧光光谱强度数据构建基因光谱特异性指数,然后分析结构化矩阵中的样本相关数据构建实验条件影响因子,结合两者对孤立森林的异常数据得分计算进行改进,使用改进后的孤立森林挑选出异常样本。
由荧光光谱仪获得到了原始光谱数据以及其它与样本相关的元数据,并将其转化为了数字数据,之后将这些数字进行标准化以消除不同量纲之间的影响,将标准化后的数据特征以及元数据构建结构化矩阵,其中,每一行代表一个样本,每一列代表一个数据类型,构建的结构化矩阵如表一:
表一
表中代表第m个样本,/>为第m个样本的第n种数据类型(属性)所对应的值。在上述步骤中结构化的数据为荧光光谱强度数据以及样本相关数据,其中,荧光光谱强度数据包括样本实施例不同标记物在不同波长下产生的荧光特性,如波长1、荧光峰值1、波长2、荧光峰值2等等,样本相关数据取决于研究目的以及使用方法或仪器,包括但不限于样本基因型、实验条件以及实验时间等等。需要注意的是,实施者可根据具体实验情况对相关数据进行添加或删减,本实施例所举出的数据采集方案并不唯一。
荧光光谱强度数据是一种用于分析样本荧光特性的工具,它包含了在不同波长下测量的荧光信号强度,这种数据可用于多个方面,包括估算DNA浓度、评估DNA的纯度以及监测DNA测序反应。首先,荧光光谱强度可以通过测量DNA在特定波长下的吸光度来估算DNA的浓度,通过观察吸光度波峰的高度可以确定DNA样品的相对浓度;其次,光谱数据还可以用于评估DNA的纯度,因为杂质或污染物可能导致吸光度波峰的偏移或额外的吸收峰出现,所以通过光谱分析可以协助判断DNA的质量,具体表现为高质量的DNA样品通常会展现出清晰、对称的吸收峰,而低质量的DNA样品可能表现出各种不规则或异常的吸收特征;最后,荧光光谱强度数据还可以用于监测DNA测序反应,在DNA测序中,核苷酸通常会标记上荧光物质,每种核苷酸都发出特定波长的荧光信号,这些信号可以通过光谱强度来检测和记录,从而帮助确定DNA的碱基序列。然而最重要的是可以通过荧光光谱强度反应样本中基因突变的情况,因为当样本中存在突变或变异时,荧光光谱的波长和强度特征可能会发生改变。由此观之荧光光谱强度可以通过波长和波峰的分析为基因检测提供多种重要信息。由此构建第i个样本的基因光谱特异性指数:
其中,为第i个样本的基因光谱特异性指数,Q为检测波长的总数量,/>为第i个样本的第p个检测波长在光谱中的位置,/>为第i个样本的第/>个检测波长在光谱中的位置,其中,max为第i个样本波峰最大对应的检测波长,/>代表第i个样本波峰值最大的波长在光谱中的位置,/>代表第i个样本在第p个波长上的荧光强度,k为常数参数,目的是控制波长差异对/>的权重,取经验值2。
对于第i个样本,计算第p个波峰高度(荧光强度)与其所在波长位置的比值,这一部分考虑了在不同波长下的吸光度或荧光强度与波长位置之间的关系,分子中的/>越大,表示在该波长下有更多的光吸收或荧光发射,分母中的/>保证了波长所在位置对该项的权重;之后计算每个数据点的波长与最大波峰波长所在光谱位置之间的差异与其关于最大波峰波长对称波长点与最大波峰波长的位置差异的差值,这一部分考虑了每个波长位置与对称波长位置距离最大波峰的偏离程度差异,控制了波长差异对/>的权重,将其作为指数函数的指数项,使得当两个关于主峰对称的波长与主峰位置偏离程度差异越大时,贡献越大,/>越大;分子将两者相乘并求和,表示在整个波长范围内波长与波峰之间的荧光强度的分布情况以及所有波长点距离最大波峰的偏离情况,将分子除以分母得到光谱主峰特征对总光谱强度的贡献百分比,得到该样本的光谱特异性指数/>。
通过考虑荧光光谱中波长与主峰波长之间的差异以及荧光长度对波峰之间的关系,在正常情况下,最大波峰通常代表了光谱中的最强吸收或发射特征,最长波峰的波长决定了整个光谱分布的中心位置,由于波长呈高斯分布特征,会导致在主峰两侧近处会有指数衰减的光谱分布,而在/>的计算公式中强调了主峰波长附近的光谱贡献,通过指数衰减函数使主峰波长附近的分布对指数影响更大,且通过/>获得了不同波长下的荧光强度与波长之间的关系,如果所检测样本发生了基因突变,则会导致荧光强度在特定波长范围内发生变化,也会导致光谱分布与主峰波长之间的确定性关联(高斯分布)被破坏,正常情况下,荧光信号通常以高斯分布的形式在主峰周围分布,而基因突变会改变分布的对称性,这种分布模式的改变会导致两个关于主峰对称的波长与主峰位置偏离程度差异更大,/>的分子部分中的指数项越大,从而增加/>的值。
在某些环境特征中,实验条件会直接影响基因的表达和功能,在某些条件下会导致基因突变的发生,如紫外线,电离辐射,环磷酰胺,亚硝酸盐,溴乙锭,甲醛等化学因素以及黄曲霉素,某些病毒的感染等生物毒素都会造成基因突变的发生,通过分析所有样本在实验环境下发生突变的情况,结合样本相关数据构建实验条件影响因子:
首先,考虑到不同样本之间的变化情况能够体现实际实验环境的状况,因此,根据各样本荧光强度值构建荧光强度指数,表达式为:
式中,为荧光强度指数,m为样本个数,/>、/>分别为第i个样本的荧光强度最大值、所有样本荧光强度的均值,/>为第i个样本所有荧光强度的标准差,e为自然常数;
进一步,根据各样本的实验时间及最长实验时间之间的关系构建时间系数,所述时间系数表达式为:
式中,为时间系数,m为样本个数,/>和/>分别为第i个样本的实验时间和所有样本中的最长实验时间,e为自然常数;
然后,本实施例考虑到实验条件以及样本存放条件也会对样本检测产生一定的影响,因此,本实施例将结合各样本的实验环境对实验条件进行检测,构建实验环境指数,表达式为:
式中,为实验环境指数,m为样本个数,/>为权重系数,取经验值为2,/>和/>分别为第i个样本的实验条件值以及标准存放条件值,e为自然常数;
至此,本实施例将根据上述所构建的各指标对实验条件影响因子进行计算,所述实验条件影响因子表达式为:
其中,为荧光强度指数,/>为时间系数,/>为实验环境指数,/>为实验条件影响因子;
对于实验条件影响因子表达式具体而言,构建逻辑为:分子中利用各个样本的主峰峰值与所有样本主峰峰值的差值反映光谱信号的异常程度,因为如果某个样本的主峰峰值与所有样本主峰峰值均值的差异很大,则代表更有可能发生了基因突变,即越大,/>越大;而当实验条件值与标准存放条件值差异越大时,代表实验环境与标准存放环境之间的差别越大,此时样本更容易发生突变,即/>越大时,指数函数越小,/>越小;在分母上加入样本的使用时间与最长使用时间之比平方的求平均,因为样本脱离标准存放时间越长,样本发生突变的概率越高,即/>越大,/>也会随之越大。
在对所选样本进行基因突变样本检测时,一般突变样本只占很小的比例,从大量正常样本中直接识别少量突变样本非常困难,且一些突变类型导致的光谱变化并不明显,直接从全部样本中区分这类突变样本错误率会很高。所以在进行突变样本检测前使用孤立森林进行异常值检测,将荧光光谱中的异常样本筛选出来,其中异常样本中包括检测错误样本以及突变样本,方便后续对突变样本的检测。将结构化矩阵作为输入,从样本矩阵中随机抽取部分样本和特征,构建决策树,重复构建多棵决策树组成森林,每棵树使用的样本和特征不同,对样本分别在构建好的每棵决策树上,根据特征值进行分类,得到终端节点,并计算样本在每棵树上节点的深度,求取所有树上样本节点深度的平均值,求取样本在森林中的异常得分。然而由于不同类型的基因突变导致的光谱变化模式各异,孤立森林难以建立统一的判断模型。对孤立森林算法中的异常数据得分进行改进,改进异常数据得分的表达式为:
其中,是样本/>在孤立树上的路径,/>为样本个数,/>是样本/>在所有孤立树上的路径均值,/>是修正值,本实施例中取值为5,/>为样本x在孤立森林异常数据得分计算时的孤立森林改进参数,/>为归一化函数,/>为样本x的基因光谱特异性指数,/>为实验条件影响因子。孤立森林改进参数提取具体流程如图2所示。
原始的孤立森林异常得分公式仅考虑了样本在森林中路径长度的平均值和方差特征,而不同类型基因突变光谱变化模式不同,需要加入针对性的先验信息来指导模型。在改进后的异常得分公式中引入与实验条件影响因子/>结合形成/>,反映了基因变化模式与实验条件影响的综合信息。/>通过归一化转化为0到1范围的值与原始路径数据结合,形成新的异常得分。其中,/>起调节作用,描述了在光谱反应和实验条件下第x个样本产生基因突变的综合概率,可以更好区分不同类型突变,通过定量指标调节样本的异常程度,使孤立森林能够更符合不同突变类型的区分需求,从而提高检测效果。设置异常得分阈值/>,/>取经验值0.4,实施者也可自行设定,本实施例中将异常数据得分值大于异常得分阈值的样本判断为异常样本。
至此,根据本实施例上述方法可实现对异常样本的检测提取。
步骤S003,训练XGBoost模型,对异常样本进行检测,提取基因突变的样本。
对相关数据的结构化矩阵使用孤立森林后,可以得到所有的异常样本,考虑到在进行异常样本检测过程中难免出现错检误检的情况,因此异常样本包括检测错误样本以及基因突变样本。进一步,构建已知基因突变样本库和正常样本库,所有样本数据包括荧光光谱数据和相关元数据,利用样本库数据训练XGBoost模型作为基因突变检测模型,之后设置树的数量、最大深度调整模型复杂度,采用五折交叉验证评估模型性能,重复训练直到模型效果稳定优异。需要说明的是XGBoost算法为现有公知技术,XGBoost模型训练过程可通过现有技术实现,本实施例在此不做赘述,实施者也可选取其他现有预测算法对异常样本的基因突变概率进行预测,本实施例对此不做特殊限制。
对孤立森林检测出的异常样本,依次输入到XGBoost模型,得到每一个样本的基因突变概率,设置分类阈值,突变概率大于阈值(实施者可自行设定,本实施例中设定为0.5)的样本标记为基因突变样本,小于等于阈值的样本标记为检测错误样本,最后获得异常样本的分类结果,完成基于荧光光谱的基因检测。
综上所述,本发明实施例通过采集相关数据的结构化矩阵,分析结构化矩阵中的荧光光谱强度数据构建基因光谱特异性指数,光谱特异性指数可以通过对某一样本的所有波长位置与主峰波长位置之间的整体差异以及荧光长度对波峰之间的关系进行分析,反映了该样本的荧光光谱的波长分布状况与标准分布状况的差异,通过这种差异表达样本发生基因突变的概率,分析结构化矩阵中的样本相关数据构建实验条件影响因子,实验条件影响因子可以通过比较标准存放环境以及样本使用环境的不同,并且结合样本集中所有的样本主峰大小分布情况确定样本使用环境对样本突变的影响概率。结合两种指标对孤立森林算法的异常数据得分的计算进行改进,通过定量指标调节样本的异常程度,使孤立森林能够更符合不同突变类型的区分需求,从而提高检测效果,增强了算法的鲁棒性和准确性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (2)
1.一种基于荧光光谱的基因检测数据处理方法,其特征在于,该方法包括以下步骤:
荧光光谱仪采集待检测基因样本并进行数字化处理;
结合各数字化数据构建结构化矩阵;根据结构化矩阵中样本的各波长以及荧光强度得到样本的基因光谱特异性指数;根据结构化矩阵中所有样本荧光强度之间的关系构建荧光强度指数;结合实验过程中各样本的实验时间构建时间系数;根据结构化矩阵中所有样本的实验存放条件值与标准存放条件值之间的差异构建实验环境指数;根据荧光强度指数、时间系数以及实验环境指数计算实验条件影响因子;
结合各样本的基因光谱特异性指数及实验条件影响因子构建各样本的孤立森林改进参数;根据孤立森林改进参数获取异常样本,结合XGBoost算法预测各异常样本的基因突变概率;根据基因突变概率获取基因突变样本,完成基因检测数据的处理;
所述结合各数字化数据构建结构化矩阵,包括:结构化矩阵的每行为每个样本的各特征对应的数据,结构化矩阵的每列为每个数据类型的各样本对应的数据;
所述根据结构化矩阵中样本的各波长以及荧光强度得到样本的基因光谱特异性指数,表达式为:
式中,为第i个样本的基因光谱特异性指数,Q为检测波长的总数量,/>为第i个样本的第p个检测波长在光谱中的位置,/>为第i个样本的第/>个检测波长在光谱中的位置,其中,max为第i个样本波峰最大对应的检测波长,/>代表第i个样本波峰值最大的波长在光谱中的位置,/>代表第i个样本在第p个波长上的荧光强度,k为常数参数;
所述根据结构化矩阵中所有样本荧光强度之间的关系构建荧光强度指数,包括:获取样本荧光强度最大值与所有样本荧光强度均值的差值,将所述差值与样本所有荧光强度标准差的比值作为以自然常数为底数的指数函数的指数,获取所述指数函数的计算结果,将所有样本所述计算结果的和值作为荧光强度指数;
所述结合实验过程中各样本的实验时间构建时间系数,包括:获取样本的实验时间与所有样本最长实验时间比值的平方,获取所有样本所述平方的均值,将所述均值作为以自然常数为底数的指数函数的负指数,将1与所述指数函数的计算结果的和值作为时间系数;
所述根据结构化矩阵中所有样本的实验存放条件值与标准存放条件值之间的差异构建实验环境指数,包括:获取样本的实验条件值与标准存放条件值的差值,将所述差值作为以自然常数为底数的指数函数的负指数,获取所述指数函数的计算结果的倒数,将所有样本的1减去所述倒数的和值作为实验环境指数;
所述根据荧光强度指数、时间系数以及实验环境指数计算实验条件影响因子,包括:将荧光强度指数、时间系数以及实验环境指数的乘积作为实验条件影响因子;
所述结合各样本的基因光谱特异性指数及实验条件影响因子构建各样本的孤立森林改进参数,包括:将各样本的基因光谱特异性指数与实验条件影响因子乘积的归一化值作为各样本的孤立森林改进参数;
所述根据孤立森林改进参数获取异常样本,包括:结合孤立森林算法及孤立森林改进参数得到各样本的异常数据得分,将异常数据得分大于预设异常得分阈值的样本作为异常样本。
2.如权利要求1所述的一种基于荧光光谱的基因检测数据处理方法,其特征在于,所述根据基因突变概率获取基因突变样本,包括:设定分类阈值,当异常样本的基因突变概率大于预设阈值时,将样本标记为基因突变样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311606284.4A CN117316277B (zh) | 2023-11-29 | 2023-11-29 | 一种基于荧光光谱的基因检测数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311606284.4A CN117316277B (zh) | 2023-11-29 | 2023-11-29 | 一种基于荧光光谱的基因检测数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117316277A CN117316277A (zh) | 2023-12-29 |
CN117316277B true CN117316277B (zh) | 2024-02-06 |
Family
ID=89288791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311606284.4A Active CN117316277B (zh) | 2023-11-29 | 2023-11-29 | 一种基于荧光光谱的基因检测数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117316277B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104089934A (zh) * | 2014-07-11 | 2014-10-08 | 北京科技大学 | 一种用于dna荧光检测的复合纳米银薄膜的制备方法 |
CN107561046A (zh) * | 2017-08-28 | 2018-01-09 | 常州大学 | 一种基于荧光水纹的污水厂尾水排放实时监测方法与系统 |
CN108823302A (zh) * | 2018-07-04 | 2018-11-16 | 无锡市申瑞生物制品有限公司 | 一种耳聋基因突变检测的引物探针组合及其应用 |
CN108875300A (zh) * | 2018-06-04 | 2018-11-23 | 河南农业大学 | 一种利用景观基因组学评估物种适应潜力的方法及应用 |
CN111159259A (zh) * | 2020-01-06 | 2020-05-15 | 盐城师范学院 | 基于孤立森林和超限学习机的时间序列鲁棒高效建模方法 |
CN116486263A (zh) * | 2023-04-26 | 2023-07-25 | 西安电子科技大学 | 基于深度特征和双支流孤立森林的高光谱异常检测方法 |
CN116595461A (zh) * | 2023-05-25 | 2023-08-15 | 浙江清华长三角研究院 | 一种基于随机森林识别的雨水口晴天排污溯源方法 |
CN116818693A (zh) * | 2023-07-06 | 2023-09-29 | 河北工业大学 | 基于紫外-可见光谱和三维荧光光谱融合的二次供水水质在线监测方法 |
-
2023
- 2023-11-29 CN CN202311606284.4A patent/CN117316277B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104089934A (zh) * | 2014-07-11 | 2014-10-08 | 北京科技大学 | 一种用于dna荧光检测的复合纳米银薄膜的制备方法 |
CN107561046A (zh) * | 2017-08-28 | 2018-01-09 | 常州大学 | 一种基于荧光水纹的污水厂尾水排放实时监测方法与系统 |
CN108875300A (zh) * | 2018-06-04 | 2018-11-23 | 河南农业大学 | 一种利用景观基因组学评估物种适应潜力的方法及应用 |
CN108823302A (zh) * | 2018-07-04 | 2018-11-16 | 无锡市申瑞生物制品有限公司 | 一种耳聋基因突变检测的引物探针组合及其应用 |
CN111159259A (zh) * | 2020-01-06 | 2020-05-15 | 盐城师范学院 | 基于孤立森林和超限学习机的时间序列鲁棒高效建模方法 |
CN116486263A (zh) * | 2023-04-26 | 2023-07-25 | 西安电子科技大学 | 基于深度特征和双支流孤立森林的高光谱异常检测方法 |
CN116595461A (zh) * | 2023-05-25 | 2023-08-15 | 浙江清华长三角研究院 | 一种基于随机森林识别的雨水口晴天排污溯源方法 |
CN116818693A (zh) * | 2023-07-06 | 2023-09-29 | 河北工业大学 | 基于紫外-可见光谱和三维荧光光谱融合的二次供水水质在线监测方法 |
Non-Patent Citations (3)
Title |
---|
"Explainable Deep Learning-Assisted Fluorescence Discrimination for Aminoglycoside Antibiotic Identification";Xiaoqing Tan etal;《analytical chemistry》;第829-836页 * |
"Time-Resolved Activation of pH Sensing and Imaging in Vivo by a Remotely Controllable DNA Nanomachine";Jian Zhao etal;《Nano Letters》;第874-880页 * |
"荧光光谱解析中矩阵病态对检测结果的影响";李彬 等;《分析测试技术与仪器》;第181-186页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117316277A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341404B2 (en) | Analysis-data analyzing device and analysis-data analyzing method that calculates or updates a degree of usefulness of each dimension of an input in a machine-learning model | |
US20050159896A1 (en) | Apparatus and method for analyzing data | |
CN110791565B (zh) | 一种用于ii期结直肠癌复发预测的预后标记基因及随机生存森林模型 | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
CN107622185B (zh) | 一种数字pcr浓度计算方法 | |
US20080154512A1 (en) | Systems and methods for baselining and real-time pcr data analysis | |
CN110714078B (zh) | 一种用于ii期结直肠癌复发预测的标记基因及应用 | |
KR101936933B1 (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
CN113450869A (zh) | 基于m6A相关的lncRNA网络结直肠癌预后模型的构建及其临床应用 | |
Wang et al. | MArray: analysing single, replicated or reversed microarray experiments | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
US20120004858A1 (en) | System for analyzing expression profile, and program therefor | |
CN117316277B (zh) | 一种基于荧光光谱的基因检测数据处理方法 | |
Huang et al. | Gene expression profiling for prediction of clinical characteristics of breast cancer | |
CN101517579A (zh) | 蛋白质查找方法和设备 | |
CN115995262B (zh) | 基于随机森林及lasso回归解析玉米遗传机理的方法 | |
US9946834B2 (en) | Apparatus and method for processing cell culture data | |
CN112881333B (zh) | 一种基于改进免疫遗传算法的近红外光谱波长筛选方法 | |
CN114944198A (zh) | 一种计算机处理采集设备数据的融合方法 | |
CN113435115B (zh) | 一种荧光光谱特征波长筛选方法、装置、计算机设备及可读储存介质 | |
US20150062575A1 (en) | Method for measuring performance of a spectroscopy system | |
CN113791062A (zh) | 一种基于拉曼光谱判断固定物质类别的方法 | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
CN107784197B (zh) | 一种pcr实验优化方法 | |
Xie et al. | PLS-DA model for accurate identification of Chinese cabbage leaf color based on multispectral imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |