CN117649880B - 用于口腔脱落细胞生物检测的数据匹配方法 - Google Patents
用于口腔脱落细胞生物检测的数据匹配方法 Download PDFInfo
- Publication number
- CN117649880B CN117649880B CN202410122332.0A CN202410122332A CN117649880B CN 117649880 B CN117649880 B CN 117649880B CN 202410122332 A CN202410122332 A CN 202410122332A CN 117649880 B CN117649880 B CN 117649880B
- Authority
- CN
- China
- Prior art keywords
- coefficient
- peak
- local window
- value
- allele
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 210000000214 mouth Anatomy 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 47
- 108700028369 Alleles Proteins 0.000 claims abstract description 64
- 230000035772 mutation Effects 0.000 claims description 24
- 108090000623 proteins and genes Proteins 0.000 claims description 21
- 239000003550 marker Substances 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 108091092878 Microsatellite Proteins 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000012864 cross contamination Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 208000025157 Oral disease Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002902 bimodal effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 208000030194 mouth disease Diseases 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 208000003445 Mouth Neoplasms Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006578 abscission Effects 0.000 description 1
- 239000012295 chemical reaction liquid Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 208000024693 gingival disease Diseases 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 208000012987 lip and oral cavity carcinoma Diseases 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002200 mouth mucosa Anatomy 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及口腔脱落细胞检测技术领域,具体涉及用于口腔脱落细胞生物检测的数据匹配方法,该方法包括:采集口腔脱落细胞并进行STR检测,获取STR检测数据,根据STR检测数据的内在特征计算等位基因突显变异指数,进而得到等位基因突显变异重复性系数,根据STR检测数据中等位基因的峰值数量得到等位基因的多态性偏移系数,基于多态性偏移系数划分序列片段,利用Smith‑Waterman算法完成口腔脱落细胞生物检测数据匹配。本发明旨在通过对口腔脱落细胞进行采集和分析,提取生物特征信息,提高口腔脱落细胞生物检测数据匹配的准确率及稳定性,实现口腔脱落细胞生物检测数据的精确匹配。
Description
技术领域
本发明涉及口腔脱落细胞检测技术领域,具体涉及用于口腔脱落细胞生物检测的数据匹配方法。
背景技术
口腔脱落细胞是从口腔黏膜表面脱落的细胞,其中包含了个体的DNA序列和其他生物信息,口腔脱落细胞中的DNA序列是个体最为独特和稳定的生物特征之一,通过对口腔脱落细胞进行采集和分析,可以获取个体的生物特征信息。口腔脱落细胞检测是一种非侵入性的诊断手段,可用于早期筛查口腔疾病,包括口腔癌、牙龈疾病等。早期发现和诊断口腔疾病有助于提高治疗的成功率。根据患者口腔脱落细胞的特征,可以制定更为个性化的治疗方案,提高治疗的针对性和效果。但随着口腔医学数据的积累,数据的分析和匹配变得愈发复杂。需要一种自动化的数据匹配方法,以提高口腔细胞检测的效率和准确性。实现口腔细胞数据的自动化分析和比对,及时发现潜在问题,为临床决策提供更及时的信息。
对采集的口腔脱落细胞进行检测,常用的数据匹配方法Smith-Waterman(SW)算法的匹配效率易受比较序列长度的影响,而口腔脱落细胞检测中的STR数据的片段长度不一致。因此,在医学应用领域,Smith-Waterman(SW)算法存在匹配稳定性不足的缺陷。
发明内容
为了解决上述技术问题,本发明提供用于口腔脱落细胞生物检测的数据匹配方法,以解决现有的问题。
本发明的用于口腔脱落细胞生物检测的数据匹配方法采用如下技术方案:
本发明一个实施例提供了用于口腔脱落细胞生物检测的数据匹配方法,该方法包括以下步骤:
采集口腔脱落细胞;并进行STR检测获取STR图谱数据;
以STR图谱数据中各峰值为中心设定局部窗口;对STR图谱数据中的所有峰值进行序列分解获取各峰值的趋势项及随机项;根据局部窗口内各随机项的分布得到各峰值的标记信号随机系数;根据局部窗口内各趋势项的分布得到各峰值的标记信号趋势系数;结合标记信号随机系数、标记信号趋势系数得到各峰值的等位基因突显变异指数;对局部窗口内所有峰值的等位基因突显变异指数进行经验模态分解获取各模态分量;获取各模态分量中各元素的分割系数;根据各模态分量中各元素的分割系数得到各模态分量的显著系数;根据局部窗口内所有模态分量的显著系数得到各峰值的等位基因突显变异重复性系数;根据各峰值的等位基因突显变异重复性系数得到各峰值的多态性偏移系数;结合各峰值的多态性偏移系数及序列比对算法完成口腔脱落细胞检测数据匹配。
优选的,所述根据局部窗口内各随机项的分布得到各峰值的标记信号随机系数,包括:
计算局部窗口内各随机项与局部窗口内所有随机项的均值的差值绝对值,将局部窗口内所有随机项的所述差值绝对值的均值作为各峰值的标记信号随机系数。
优选的,所述根据局部窗口内各趋势项的分布得到各峰值的标记信号趋势系数,表达式为:
;
式中,表示以峰值/>为中心的局部窗口内的标记信号趋势系数,/>表示以峰值/>为中心的局部窗口内峰值的个数,/>表示以2为底数的对数函数,/>表示以峰值/>为中心的局部窗口内的第/>个峰值的趋势项,/>表示以峰值/>为中心的局部窗口内的所有峰值趋势项的最大值,/>表示峰值/>在STR图谱中对应的横坐标值,表示以峰值/>为中心的局部窗口内趋势项最大值的峰值在STR图谱中对应的横坐标值。
优选的,所述结合标记信号随机系数、标记信号趋势系数得到各峰值的等位基因突显变异指数,包括:
预设第一加权系数、第二加权系数及第三加权系数,计算第一加权系数与各峰值的标记信号趋势系数的乘积,计算第二加权系数与各峰值的标记信号随机系数的乘积,计算局部窗口内所有峰值的信息熵,计算第三加权系数与所述信息熵的乘积,将三个乘积的和值作为各峰值的等位基因突显变异指数。
优选的,所述对局部窗口内所有峰值的等位基因突显变异指数进行经验模态分解获取各模态分量,包括:
针对各峰值的局部窗口,将局部窗口内包含的所有峰值的等位基因突显变异指数按照在STR图谱中出现的先后顺序进行排序得到等位基因突显变异指数序列,利用EMD经验模态分解算法对等位基因突显变异指数序列进行分解,得到各模态分量。
优选的,所述获取各模态分量中各元素的分割系数,表达式为:
;
式中,表示以峰值/>为中心的局部窗口内的第/>个模态分量以元素/>为界限的分割系数,/>表示第/>个模态分量中以元素/>为界限的左侧所有元素的数量在整个模态分量总元素个数中的占比,/>表示第/>个模态分量中以元素/>为界限的左侧所有元素的均值,/>表示第/>个模态分量,/>表示第/>个模态分量中所有元素的均值,/>表示第/>个模态分量中以元素/>为界限的右侧所有元素的数量在整个模态分量总元素个数中的占比,/>表示第/>个模态分量中以元素/>为界限的右侧所有元素的均值。
优选的,所述根据各模态分量中各元素的分割系数得到各模态分量的显著系数,包括:
针对各模态分量,选取其中所有元素的分割系数的最大值,将最大值对应元素的序号作为各模态分量的显著系数,其中,所述序号为元素在模态分量中的位置排序。
优选的,所述根据局部窗口内所有模态分量的显著系数得到各峰值的等位基因突显变异重复性系数,包括:
将局部窗口内所有模态分量的显著系数的信息熵作为各峰值的等位基因突显变异重复性系数。
优选的,所述根据各峰值的等位基因突显变异重复性系数得到各峰值的多态性偏移系数,包括:
将局部窗口内所有峰值的等位基因突显变异重复性系数进行离散信号希尔伯特变换,输出为各频率值,预设频率阈值,将大于频率阈值的各频率值标记为1,以标记为1的频率值为圆心,预设长度为半径的圆内的所有频率值作为一个异变基因序列;
各峰值的多态性偏移系数的表达式为:
;
式中,表示峰值/>的多态性偏移系数,/>表示以自然常数为底数的指数函数的指数,/>表示峰值/>的等位基因突显变异重复性系数,/>表示局部窗口内的第/>个异变基因序列,/>表示局部窗口内的第/>个异变基因序列,表示序列/>与序列/>的SBD距离,/>表示局部窗口内异变基因序列的个数。
优选的,所述结合各峰值的多态性偏移系数及序列比对算法完成口腔脱落细胞检测数据匹配,包括:
预设基准长度,计算各峰值的多态性偏移系数的四舍五入值与基准长度的和值,将所述和值作为各峰值的比较片段长度,将口腔脱落细胞的STR图谱数据及ATCC数据库作为SW算法的输入,结合各峰值的比较片段长度,SW算法的输出为口腔脱落细胞的STR图谱数据与ATCC数据库的匹配结果。
本发明至少具有如下有益效果:
本发明通过分析口腔脱落细胞的STR检测数据,根据细胞可能出现的交叉污染或突变,导致基因位点中等位基因的长度表现出不同态势,得到各基因位点上各峰值,计算基因位点上需要进行数据匹配的比较片段长度。弥补了现有SW数据匹配算法的比较序列长度未结合数据特征使得匹配性能不稳定的缺陷。本发明具有口腔脱落细胞生物检测数据匹配准确率高、可靠性强的有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的用于口腔脱落细胞生物检测的数据匹配方法的步骤流程图;
图2为口腔脱落细胞检测指标获取流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用于口腔脱落细胞生物检测的数据匹配方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的用于口腔脱落细胞生物检测的数据匹配方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的用于口腔脱落细胞生物检测的数据匹配方法的步骤流程图,该方法包括以下步骤:
步骤S001,采集口腔脱落细胞,并进行STR检测,获取STR图谱数据。
STR(Short Tandem Repeat,短串联重复)是基因组中常见的DNA序列,由短的核苷酸序列单元在DNA链上多次重复排列而成。STR检测是一种用于分析短串联重复区域的技术,通常通过PCR扩增和电泳等方法测定STR的片段,常用于分析特定疾病或相关遗传病。
人类基因组中存在多种多样的遗传变异形式,为了分析及预测疾病风险,需要对基因组DNA进行提取检测。现有的检测系统可通过采集口腔脱落细胞,无需提取纯化基因组,通过口腔脱落细胞反应液中含有的裂解液成分直接裂解口腔脱落细胞,利用特异性引物探针进行扩增,快速得到基因位点上的等位基因数据,最后生成STR图谱数据。将患者的STR图谱数据与正常对照组或数据库中的数据进行比对。通过比对,可以识别出患者在特定STR区域上的异常。
获取的STR图谱数据可能受仪器噪声或者采样问题的干扰,对后续的数据分析产生影响,为避免该影响本实施例对STR图谱数据进行预处理,采用多趟近邻排序算法(Multi—Pass Sorted—Neighborhood)对STR图谱数据进行去噪,其中多趟近邻排序算法为现有公知技术,本实施例在此不做详细赘述。
步骤S002,获取各峰值的标记信号随机系数及标记信号趋势系数,结合标记信号随机系数、标记信号趋势系数得到各峰值的等位基因突显变异指数,获取各模态分量中各元素的分割系数,进而得到各模态分量的显著系数,获取各峰值的等位基因突显变异重复性系数,根据各峰值的等位基因突显变异重复性系数得到各峰值的多态性偏移系数。
具体的,本实施例将采集口腔脱落细胞并进行STR检测,获取STR检测数据,根据STR检测数据的内在特征计算等位基因突显变异指数,进而得到等位基因突显变异重复性系数,根据STR检测数据中等位基因的峰值数量得到等位基因的多态性偏移系数,基于多态性偏移系数划分序列片段,利用Smith-Waterman算法完成口腔脱落细胞检测数据匹配,口腔脱落细胞检测指标获取流程图如图2所示。各峰值的多态性偏移系数的构建过程具体为:
得到了预处理后的STR图谱数据,在STR图谱数据中,横坐标表示的是基因位点信息,纵坐标表示了等位基因的长度,连续相同的等位基因会被荧光标记,荧光标记信号强度代表了等位基因的重复数量,等位基因的长度从低到高再到低的过程,会呈现出一个峰值。将STR图谱数据中的所有峰值作为一个有限的序列,记为。由于/>数据整体偏长,为便于分析减小计算量,设定局部窗口/>,本实施例中/>,实施者可根据实际情况自行设定,本实施例对此不做限制。
在对口腔脱落细胞进行检测的过程中,存在诸多因素对序列造成影响,例如细胞出现交叉污染或发生突变,导致的基因位点对应的荧光标记信号强度出现叠加或附近多个不应该出现的基因位点也能检测出信号强度。因此,需要对/>序列进行信号强度分析。获取各个峰值的局部窗口,以峰值/>为例,将以峰值/>为中心的局部窗口内包含的所有峰值记为/>。
首先,正常状态下,口腔脱落细胞内的等位基因的重复数量,即荧光标记信号的强度在一定的范围内上下浮动。若采样过程中由于操作不当或实验器具不洁净,使细胞出现交叉污染,不同的细胞系或细胞株相互混合,将对检测数据造成严重影响。在STR图谱中的表现为等位基因相同的标记信号重叠,部分峰值过于突显。
不同的等位基因上具有不同的标记信号,使得序列中的数据包含一定的周期性,因此,本实施例采用基于LOESS局部加权回归的STL时序分解算法对/>序列中各峰值进行分解,STL算法为现有公知技术,本实施例在此不做详细赘述。将/>序列中的各峰值分解为趋势项/>,周期项/>和随机项/>。结合各峰值的趋势项和随机项构建等位基因突显变异指数,表达式为:
;
式中,表示以峰值/>为中心的局部窗口内的等位基因突显变异指数,/>表示以峰值/>为中心的局部窗口内的标记信号趋势系数,/>表示峰值/>的标记信号随机系数,/>表示以峰值/>为中心的局部窗口内所有峰值的信息熵,/>表示以峰值/>为中心的局部窗口内峰值的个数,/>表示以2为底数的对数函数,/>表示以峰值/>为中心的局部窗口内的第/>个峰值的趋势项,/>表示以峰值/>为中心的局部窗口内的所有峰值趋势项的最大值,/>表示峰值/>在STR图谱中对应的横坐标值,/>表示以峰值/>为中心的局部窗口内趋势项最大值的峰值在STR图谱中对应的横坐标值,/>表示以峰值/>为中心的局部窗口内第/>个峰值的随机项,/>表示以峰值/>为中心的局部窗口内所有峰值的随机项的均值,/>表示第一加权系数,/>表示第二加权系数,/>表示第三加权系数,本实施例中/>,,实施者可根据实际情况自行设定,本实施例对此不做限制。
当等位基因的长度越大,即等位基因标记信号的重叠量越大,分解得到的值越大,而多数等位基因的重叠量处于一个较低的水平,导致计算的值变大,等位基因长度重叠的越迅速,值越小,使/>值越大,表明标记信号越具有陡峭趋势。此外,随机项/>值在其均值附近范围内浮动,差值绝对值/>越大,说明标记信号越紊乱,同时以峰值/>为中心的局部窗口内的/>值的信息熵越大,导致最终的等位基因突显变异指数越大,表明口腔细胞可能发生了交叉污染,存在不同系的细胞相互混合的情况。
至此,得到了STR图谱数据中各峰值的等位基因突显变异指数,为了进一步分析等位基因突显变异指数内在特征的多样性,将局部窗口内所有峰值的等位基因突显变异指数利用经验模态分解算法进行分解,经验模态分解算法EMD能将复杂的序列数据分解为多个模态分量,得到的各个模态分量表示被分解数据的不同频率特征信息,将原本复杂的数据拆分为单一的模态分量。本实施例将局部窗口内所有峰值的等位基因突显变异指数分解为个模态分量,本实施例中/>,实施者可根据实际情况自行设定,本实施例对此不做限制。/>个模态分量分别记为/>。经验模态分解算法EMD为现有公知技术,本实施例在此不做详细赘述。
根据分解得到的模态分量计算STR图谱中各峰值的等位基因突显变异重复性系数,表达式为:
;
式中,表示以峰值/>为中心的局部窗口内的第/>个模态分量以元素为界限的分割系数,/>表示第/>个模态分量中以元素/>为界限的左侧所有元素的数量在整个模态分量总元素个数中的占比,/>表示第/>个模态分量中以元素/>为界限的左侧所有元素的均值,/>表示第/>个模态分量,/>表示第/>个模态分量中所有元素的均值,/>表示第/>个模态分量中以元素/>为界限的右侧所有元素的数量在整个模态分量总元素个数中的占比,/>表示第/>个模态分量中以元素/>为界限的右侧所有元素的均值,/>表示以峰值/>为中心的局部窗口内的第/>个模态分量的显著系数,/>表示峰值/>的等位基因突显变异重复性系数,/>表示以峰值/>为中心的局部窗口内所有模态分量的显著系数的信息熵,/>表示求集合内最大值所对应的序号。
当各个模态分量左右两部分的均值与整体的均值差异越大,即与/>值也越大,计算的分割系数/>越大,取分割系数的最大值对应的序号作为显著系数,进而获得等位基因突显变异重复性系数。口腔脱落细胞在正常状态下,连续局部窗口内的等位基因突显变异重复性系数分布相对集中,说明局部范围内的等位基因数量在两个或两个以内。计算的等位基因突显变异重复性系数越小,说明口腔脱落细胞的突变风险越低。
对于正常口腔脱落细胞,STR图谱中相邻的两等位基因间会出现一个凹陷,进一步,为了区分不同基因位点之间的片段结构。对局部窗口内所有峰值的等位基因突显变异重复性系数进行离散希尔伯特-黄变换(HHT)得到希尔伯特谱,输出记为。希尔伯特谱能够直接反应数据中的非平稳信号。其中离散希尔伯特-黄变换为现有公知技术,本实施例在此不做详细赘述。
STR数据中存在每隔一段基因位点,等位基因的长度具有一定相似性的特点,在希尔伯特谱中,对应的频率值越大。设置频率阈值为,预设长度/>,将/>中频率值大于/>的点记为1,并以标记为1的点为圆心,半径为/>的圆内的希尔伯特谱数据记为序列/>,其中频率阈值/>及预设长度/>实施者可根据实际情况自行设定,本实施例对此不做限制。
由于口腔脱落细胞的基因位点上的等位基因呈现单峰,双峰,三峰或者更多峰的多态性,正常口腔脱落细胞主要表现双峰态,经上述分析,在希尔伯特谱中标记为1的点对应于双峰态的中间位置,因此,结合相邻两序列的SBD距离以及等位基因突显变异重复性系数构建各峰值的多态性偏移系数,表达式为:
;
式中,表示峰值/>的多态性偏移系数,/>表示以自然常数为底数的指数函数的指数,/>表示峰值/>的等位基因突显变异重复性系数,/>表示局部窗口内的第/>个异变基因序列,/>表示局部窗口内的第/>个异变基因序列,表示序列/>与序列/>的SBD距离,/>表示局部窗口内异变基因序列的个数。
若计算的值越小,表明峰值/>附近多峰态的信号数据越多,口腔脱落细胞表现越不健康。同时计算的等位基因突显变异重复性系数/>越小,指数变换后对应的分子值越大。使得峰值/>的多态性偏移系数越高,表明口腔脱落细胞的健康状态越差。
步骤S003,结合各峰值的多态性偏移系数及Smith-Waterman算法完成数据匹配。
根据各峰值的多态性偏移系数,计算比较片段长度,将比较片段长度定义为,其中/>为基准长度,本实施例中/>,实施者可根据实际情况自行设定,本实施例对此不做限制,/>表示四舍五入取整函数,/>表示峰值/>的多态性偏移系数,将口腔脱落细胞的STR图谱数据及ATCC数据库作为Smith-Waterman算法的输入,Smith-Waterman算法的输出为检测的口腔脱落细胞的STR图谱数据与ATCC数据库的匹配结果,其中Smith-Waterman算法为现有公知技术,本实施例在此不做详细赘述。当/>的值越小时,说明口腔脱落细胞存在异常状态,基因位点间的间距减小,需要缩短对应的数据匹配序列长度。反之,则增大对应的数据匹配序列长度。
综上所述,本发明实施例解决了口腔脱落细胞生物检测进行数据匹配时,现有SW数据匹配算法的比较序列长度未结合数据特征导致匹配性能不稳定的问题,通过分析口腔脱落细胞的STR图谱特征,提高了口腔脱落细胞生物检测数据匹配的准确性与可靠性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.用于口腔脱落细胞生物检测的数据匹配方法,其特征在于,该方法包括以下步骤:
采集口腔脱落细胞;并进行STR检测获取STR图谱数据;
以STR图谱数据中各峰值为中心设定局部窗口;对STR图谱数据中的所有峰值进行序列分解获取各峰值的趋势项及随机项;根据局部窗口内各随机项的分布得到各峰值的标记信号随机系数;根据局部窗口内各趋势项的分布得到各峰值的标记信号趋势系数;结合标记信号随机系数、标记信号趋势系数得到各峰值的等位基因突显变异指数;对局部窗口内所有峰值的等位基因突显变异指数进行经验模态分解获取各模态分量;获取各模态分量中各元素的分割系数;根据各模态分量中各元素的分割系数得到各模态分量的显著系数;根据局部窗口内所有模态分量的显著系数得到各峰值的等位基因突显变异重复性系数;根据各峰值的等位基因突显变异重复性系数得到各峰值的多态性偏移系数;结合各峰值的多态性偏移系数及序列比对算法完成口腔脱落细胞检测数据匹配;
所述结合标记信号随机系数、标记信号趋势系数得到各峰值的等位基因突显变异指数,包括:
预设第一加权系数、第二加权系数及第三加权系数,计算第一加权系数与各峰值的标记信号趋势系数的乘积,计算第二加权系数与各峰值的标记信号随机系数的乘积,计算局部窗口内所有峰值的信息熵,计算第三加权系数与所述信息熵的乘积,将三个乘积的和值作为各峰值的等位基因突显变异指数;
所述获取各模态分量中各元素的分割系数,表达式为:
;
式中,表示以峰值/>为中心的局部窗口内的第/>个模态分量以元素/>为界限的分割系数,/>表示第/>个模态分量中以元素/>为界限的左侧所有元素的数量在整个模态分量总元素个数中的占比,/>表示第/>个模态分量中以元素/>为界限的左侧所有元素的均值,/>表示第/>个模态分量,/>表示第/>个模态分量中所有元素的均值,表示第/>个模态分量中以元素/>为界限的右侧所有元素的数量在整个模态分量总元素个数中的占比,/>表示第/>个模态分量中以元素/>为界限的右侧所有元素的均值;
所述根据各模态分量中各元素的分割系数得到各模态分量的显著系数,包括:
针对各模态分量,选取其中所有元素的分割系数的最大值,将最大值对应元素的序号作为各模态分量的显著系数,其中,所述序号为元素在模态分量中的位置排序;
所述根据局部窗口内所有模态分量的显著系数得到各峰值的等位基因突显变异重复性系数,包括:
将局部窗口内所有模态分量的显著系数的信息熵作为各峰值的等位基因突显变异重复性系数;
所述根据各峰值的等位基因突显变异重复性系数得到各峰值的多态性偏移系数,包括:
将局部窗口内所有峰值的等位基因突显变异重复性系数进行离散信号希尔伯特变换,输出为各频率值,预设频率阈值,将大于频率阈值的各频率值标记为1,以标记为1的频率值为圆心,预设长度为半径的圆内的所有频率值作为一个异变基因序列;
各峰值的多态性偏移系数的表达式为:
;
式中,表示峰值/>的多态性偏移系数,/>表示以自然常数为底数的指数函数的指数,/>表示峰值/>的等位基因突显变异重复性系数,/>表示局部窗口内的第个异变基因序列,/>表示局部窗口内的第/>个异变基因序列,表示序列/>与序列/>的SBD距离,/>表示局部窗口内异变基因序列的个数;
所述结合各峰值的多态性偏移系数及序列比对算法完成口腔脱落细胞检测数据匹配,包括:
预设基准长度,计算各峰值的多态性偏移系数的四舍五入值与基准长度的和值,将所述和值作为各峰值的比较片段长度,将口腔脱落细胞的STR图谱数据及ATCC数据库作为Smith-Waterman算法的输入,结合各峰值的比较片段长度,Smith-Waterman算法的输出为口腔脱落细胞的STR图谱数据与ATCC数据库的匹配结果。
2.根据权利要求1所述的用于口腔脱落细胞生物检测的数据匹配方法,其特征在于,所述根据局部窗口内各随机项的分布得到各峰值的标记信号随机系数,包括:
计算局部窗口内各随机项与局部窗口内所有随机项的均值的差值绝对值,将局部窗口内所有随机项的所述差值绝对值的均值作为各峰值的标记信号随机系数。
3.根据权利要求1所述的用于口腔脱落细胞生物检测的数据匹配方法,其特征在于,所述根据局部窗口内各趋势项的分布得到各峰值的标记信号趋势系数,表达式为:
;
式中,表示以峰值/>为中心的局部窗口内的标记信号趋势系数,/>表示以峰值为中心的局部窗口内峰值的个数,/>表示以2为底数的对数函数,/>表示以峰值/>为中心的局部窗口内的第/>个峰值的趋势项,/>表示以峰值/>为中心的局部窗口内的所有峰值趋势项的最大值,/>表示峰值/>在STR图谱中对应的横坐标值,表示以峰值/>为中心的局部窗口内趋势项最大值的峰值在STR图谱中对应的横坐标值。
4.根据权利要求1所述的用于口腔脱落细胞生物检测的数据匹配方法,其特征在于,所述对局部窗口内所有峰值的等位基因突显变异指数进行经验模态分解获取各模态分量,包括:
针对各峰值的局部窗口,将局部窗口内包含的所有峰值的等位基因突显变异指数按照在STR图谱中出现的先后顺序进行排序得到等位基因突显变异指数序列,利用EMD经验模态分解算法对等位基因突显变异指数序列进行分解,得到各模态分量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122332.0A CN117649880B (zh) | 2024-01-30 | 2024-01-30 | 用于口腔脱落细胞生物检测的数据匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122332.0A CN117649880B (zh) | 2024-01-30 | 2024-01-30 | 用于口腔脱落细胞生物检测的数据匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117649880A CN117649880A (zh) | 2024-03-05 |
CN117649880B true CN117649880B (zh) | 2024-04-16 |
Family
ID=90045512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410122332.0A Active CN117649880B (zh) | 2024-01-30 | 2024-01-30 | 用于口腔脱落细胞生物检测的数据匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117649880B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150024231A (ko) * | 2014-02-21 | 2015-03-06 | (주)신테카바이오 | 대립유전자의 바이오마커 발굴방법 |
CN106944163A (zh) * | 2017-01-24 | 2017-07-14 | 瑞汉智芯医疗科技(嘉善)有限公司 | 一种针对尿路上皮癌的尿脱落肿瘤细胞的免疫荧光染色技术 |
CN112386236A (zh) * | 2019-08-15 | 2021-02-23 | 苏州科技大学 | 一种基于信道状态相位信息的生命体征监测方法 |
CN112813144A (zh) * | 2019-11-18 | 2021-05-18 | 宁波海尔施基因科技有限公司 | 一种检测恶性高热易感基因的方法及试剂盒 |
CN115851903A (zh) * | 2022-09-16 | 2023-03-28 | 长春市儿童医院 | 维生素d受体基因snp检测试剂盒及应用 |
CN116626028A (zh) * | 2023-05-30 | 2023-08-22 | 北京大学口腔医学院 | 一种诊断和预测口腔鳞状细胞癌的系统 |
CN116935384A (zh) * | 2023-09-18 | 2023-10-24 | 上海大学 | 一种细胞异常样本智能化检测方法 |
WO2023220192A1 (en) * | 2022-05-11 | 2023-11-16 | Foundation Medicine, Inc. | Methods and systems for predicting an origin of an alteration in a sample using a statistical model |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020072862A1 (en) * | 2000-08-22 | 2002-06-13 | Christophe Person | Creation of a unique sequence file |
US20030165940A1 (en) * | 2001-12-06 | 2003-09-04 | The Johns Hopkins University | Disease detection by digital protein truncation assays |
-
2024
- 2024-01-30 CN CN202410122332.0A patent/CN117649880B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150024231A (ko) * | 2014-02-21 | 2015-03-06 | (주)신테카바이오 | 대립유전자의 바이오마커 발굴방법 |
CN106944163A (zh) * | 2017-01-24 | 2017-07-14 | 瑞汉智芯医疗科技(嘉善)有限公司 | 一种针对尿路上皮癌的尿脱落肿瘤细胞的免疫荧光染色技术 |
CN112386236A (zh) * | 2019-08-15 | 2021-02-23 | 苏州科技大学 | 一种基于信道状态相位信息的生命体征监测方法 |
CN112813144A (zh) * | 2019-11-18 | 2021-05-18 | 宁波海尔施基因科技有限公司 | 一种检测恶性高热易感基因的方法及试剂盒 |
WO2023220192A1 (en) * | 2022-05-11 | 2023-11-16 | Foundation Medicine, Inc. | Methods and systems for predicting an origin of an alteration in a sample using a statistical model |
CN115851903A (zh) * | 2022-09-16 | 2023-03-28 | 长春市儿童医院 | 维生素d受体基因snp检测试剂盒及应用 |
CN116626028A (zh) * | 2023-05-30 | 2023-08-22 | 北京大学口腔医学院 | 一种诊断和预测口腔鳞状细胞癌的系统 |
CN116935384A (zh) * | 2023-09-18 | 2023-10-24 | 上海大学 | 一种细胞异常样本智能化检测方法 |
Non-Patent Citations (4)
Title |
---|
Cell-Cell Interactions in the Oral Mucosa: Tight Junctions and Gap Junctions;Hong Wan, et al.;Oral Mucosa in Health and Disease;20180302;19–30 * |
人类头颈鳞癌基因组单核苷酸多态性与肿瘤转移的关系;李雅冬;Ali Gowhere;洪苏玲;;第二军医大学学报;20110720(07);23-26 * |
我国牙膏不良反应监测面临的挑战与对策探析;张琳 等;中国食品药品监管;20230331;144-146 * |
血清叶酸水平及其代谢通路关键酶基因多态性与胚胎停育的相关性分析;高建方;;中国临床药理学与治疗学;20161231(12);74-78 * |
Also Published As
Publication number | Publication date |
---|---|
CN117649880A (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11371074B2 (en) | Method and system for determining copy number variation | |
EP2772549B1 (en) | Method for detecting genetic variation | |
KR102339760B1 (ko) | 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법 | |
CN112020565A (zh) | 用于确保基于测序的测定的有效性的质量控制模板 | |
EP3704264B1 (en) | Using nucleic acid size range for noninvasive prenatal testing and cancer detection | |
CN111276252B (zh) | 一种肿瘤良恶性鉴别模型的构建方法及装置 | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
US20030003459A1 (en) | Genotype pattern recognition and classification | |
IL249095B1 (en) | Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies | |
JP7387110B2 (ja) | 生物学的標的に関する定量化における標的関連分子のシーケンシング出力決定及び解析 | |
CN110016497B (zh) | 一种检测肿瘤单细胞基因组拷贝数变异的方法 | |
CN111411150B (zh) | 诊断肌少症的肠道菌群及其应用 | |
CN112941180A (zh) | 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用 | |
CN111411151B (zh) | 一种肌少症的肠道菌群标志物及其应用 | |
CN117649880B (zh) | 用于口腔脱落细胞生物检测的数据匹配方法 | |
CN108460248B (zh) | 一种基于Bionano平台检测长串联重复序列的方法 | |
US7912652B2 (en) | System and method for mutation detection and identification using mixed-base frequencies | |
CN110191964B (zh) | 确定生物样本中预定来源的游离核酸比例的方法及装置 | |
CN111094591A (zh) | 用于对生物分子进行测序的方法 | |
CN108588218A (zh) | 一种血清miRNA组合的微创检测试剂盒 | |
EP2955235A2 (en) | Methods for the subclassification of breast tumours | |
CN111748640B (zh) | 肠道菌群在肌少症中的应用 | |
CN113811621A (zh) | 确定rcc亚型的方法 | |
EP4130293A1 (en) | Method of mutation detection in a liquid biopsy | |
WO2024125660A1 (en) | Machine learning techniques to determine base methylations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |