CN115881218A - 用于全基因组关联分析的基因自动选择方法 - Google Patents
用于全基因组关联分析的基因自动选择方法 Download PDFInfo
- Publication number
- CN115881218A CN115881218A CN202211631266.7A CN202211631266A CN115881218A CN 115881218 A CN115881218 A CN 115881218A CN 202211631266 A CN202211631266 A CN 202211631266A CN 115881218 A CN115881218 A CN 115881218A
- Authority
- CN
- China
- Prior art keywords
- gene
- gene expression
- cluster set
- value
- expression values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 64
- 238000010187 selection method Methods 0.000 title claims abstract description 5
- 238000012098 association analyses Methods 0.000 title claims description 9
- 230000014509 gene expression Effects 0.000 claims abstract description 117
- 108091008053 gene clusters Proteins 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 15
- 101150044508 key gene Proteins 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 230000009274 differential gene expression Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 6
- 238000009396 hybridization Methods 0.000 claims description 5
- 230000008827 biological function Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000010201 enrichment analysis Methods 0.000 claims description 3
- 238000003068 pathway analysis Methods 0.000 claims description 3
- 238000002407 reforming Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 abstract 1
- 238000007405 data analysis Methods 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- 150000007523 nucleic acids Chemical group 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了用于全基因组关联分析的基因自动选择方法,对所有样品进行测序得到基因芯片数据,得到基因表达矩阵;对基因表达矩阵中的基因表达值进行分类,得到分类后的基因聚类集;对得到的基因聚类集进行差异性分析,筛选出差异概率P≤0.05的基因表达值,形成第一差异表达基因聚类集合集;对得到的第一差异表达基因聚类集合进行倍数分析,识别差异基因表达值,筛选出第二差异表达基因聚类集合;取两个差异表达基因聚类集合的交集,形成关键基因聚类集;选取关键基因聚类集与基因聚类集的均值距离最近的基因作为自动选择出的目标基因。本发明精简了差异性基因聚类集,降低了关键基因重复率,提高了关键基因的准确率。
Description
技术领域
本发明属于基因组数据分析技术领域,具体涉及到一种用于全基因组关联分析的基因自动选择方法。
背景技术
在大规模数据分析中,传统的数据分析工具只能分析出数据的简单关系,但是不能挖掘到数据之间潜在的关系和隐藏的信息。近年来,许多学者通过对数据深层信息的挖掘,在人工智能、人工神经网络和智能计算等学科的基础上,对数据挖掘进行多方面的研究,将聚类分析应用到数据挖掘技术上,并且得到了广泛的应用。聚类技术是指在无监督条件下,对未知数据进行类别预测的技术。常见的应用如:数据分析、图像分割处理、生物医学识别、肿瘤检测等实际应用。目前已经提出了很多多目标聚类算法,但是大部分算法并没有致力于处理高维数据集,而用于生物医学识别和肿瘤检测的基因数据集的最大特点就是具有很高的维度。
全基因组关联分析是对多个个体在全基因组范围的遗传变异多态性进行检测获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或P值筛选出最有可能影响该性状的遗传变异。全基因组上表达值变化显著突出的基因的发现和识别对疾病风险预测、复杂疾病的致病机理研究和生物药品研制等都有重要的意义。差异化分析是一种针对基因芯片数据进行差值计算并统计检验来筛选差异对象的方法,用于分析样本之间的关联。差异化分析单独用于基因筛选时,其结果区分显著差异的基因和无显著差异的基因,本发明提供了一种结合基因聚类和基因差异化分析用于全基因组关联分析的基因自动选择方法。
发明内容
为了解决上述技术问题,本发明提出了用于全基因组关联分析的基因自动选择方法,包括如下步骤:
步骤一,对所有样品进行杂交测序得到基因芯片数据,在对基因芯片数据进行数据处理,得到基因表达矩阵;
步骤二,对所述基因表达矩阵中的基因表达值进行分类,得到分类后的基因聚类集;
步骤三:对得到的基因聚类集X进行差异性分析,筛选出差异概率P≤0.05的基因表达值,形成第一差异表达基因聚类集合集G;
步骤四:对得到的第一差异表达基因聚类集合G进行倍数分析,识别差异基因表达值,筛选出第二差异表达基因聚类集合F;
步骤五:取所述步骤三和步骤四得到的两个差异表达基因聚类集合的交集,形成关键基因聚类集Y;
步骤六:选取关键基因聚类集Y与步骤二中所述的基因聚类集的均值距离最近的基因作为自动选择出的目标基因。
进一步地,所述步骤一包括如下步骤:
S1.1,数据提取步骤,将高通量的荧光信号转化成基因表达数据,形成原始表达矩阵;
S1.2,数据过滤步骤,把原始表达矩阵中的噪音数据去除;
S1.3,补缺失值步骤,对表达矩阵中的缺失数据用0补齐;
S1.4,标准化处理步骤,通过对表达矩阵标准化处理使数据近似服从正态分布,得到基因表达矩阵。
进一步地,所述步骤二包括如下步骤:
S2.1,取基因表达矩阵中的任意基因表达值作为初聚类中心,进行初步聚类,得到初聚类集;
S2.2,将每个初聚类集中所有基因表达值的均值作为次聚类中心,计算初聚类集中的每个基因表达值与次聚类中心的距离,将距离向量在-1到1的基因表达值聚集到一起,形成次聚类集;
S2.3,计算次聚类集中所有基因表达值的均值,再次作为次聚类中心,将距离向量在-1到1的基因表达值聚集到一起,重新形成次聚类集;
S2.4,循环执行S2.2、S2.3,直到聚类集不再发生变化为止;
进一步地,所述步骤三中,
对基因聚类集内的基因表达值进行两两的差异性检验,计算所得检定值n:
根据检定值n查临界值表而决定两个基因表达值是否显著,若计算所得检定值n在临界值表中所得概率P≤0.05,则两个基因表达值差异显著,反之则两个基因表达值不显著,
将P≤0.05的基因表达值的集合作为第一差异表达基因聚类集合G={g1,g2,...,gi,...,gk},其中gi表示第一差异表达基因聚类集合G中的k个基因表达值中的一个基因表达值。
进一步地,所述步骤四中,用|log2(C)|>1作为筛选标准,筛选代表差异性的基因表达值,形成第二差异表达基因聚类集合F,其中fi表示第二差异表达基因聚类集合F中的m个基因表达值中的一个基因表达值,其中C是差异倍数,为一个基因表达值与另一基因表达值的倍数差异。
进一步地,通路分析和G0富集分析对所述步骤六中自动选择出的目标基因的生物功能进行注释,诠释所述目标基因的重要性。
相比于现有技术,本申请具有如下有益技术效果:将基因芯片数据进行基因聚类,再对基因聚类进行不同方式的基因差异化分析,得到两个差异性基因聚类集,取交集得到关键基因聚类集,最后选取关键基因聚类集中代表性最好、可信度最高的基因作为关键基因,此方法精简了差异性基因聚类集,降低了关键基因重复率,提高了关键基因的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于全基因组关联分析的基因自动选择方法的流程示意图;
图2为本发明的基因芯片数据的处理方法流程示意图;
图3为本发明的将基因数据进行聚类的流程示意图;
图4为本发明的检验法临界值表的部分示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置关系,并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。
如图1所示,为本发明的用于全基因组关联分析的基因自动选择方法的流程示意图,包括以下步骤:
步骤一:对所有样品进行杂交测序得到基因芯片数据,在对基因芯片数据进行数据处理,得到基因表达矩阵。
杂交测序是指提取样本总mRNA后,通过反转录过程获得标记荧光的核酸序列,然后与探针进行杂交反应后,再将未互补结合的片段洗去。对基片进行激光共聚焦扫描,测定芯片上各点的荧光强度来推算样品中各种基因的表达量。
基因芯片数据预处理包括数据提取,数据过滤,补缺失值和标准化处理。图2所示本发明的基因芯片数据的处理方法流程示意图,包括如下步骤:
S1.1,数据提取步骤,用于将高通量的荧光信号转化成基因表达数据,形成原始表达矩阵,样本中每个基因对应的表达水平,即荧光强度。
S1.2,数据过滤步骤,用于把原始表达矩阵中表达量很小、负值或明显的噪音数据去除。
S1.3,补缺失值步骤,用于对表达矩阵中的缺失数据用0补齐。
S1.4,标准化处理步骤,由于基因芯片的原始数据呈偏态分布,本步骤通过对矩阵标准化处理使数据近似服从正态分布,得到基因表达矩阵。
步骤二:对基因表达矩阵中的基因表达值进行分类,用均值聚类法得到分类后的基因聚类集,如图3所示,将基因数据进行聚类具体包括如下步骤:
S2.1,取基因表达矩阵中的任意基因表达值作为初聚类中心,进行初步聚类,得到初聚类集。
S2.2,将每个初聚类集中所有基因表达值的均值作为次聚类中心,计算初聚类集中的每个基因表达值与次聚类中心的距离,将距离向量在-1到1的基因表达值聚集到一起,形成次聚类集。
S2.3,计算次聚类集中所有基因表达值的均值,再次作为次聚类中心,将距离向量在-1到1的基因表达值聚集到一起,重新形成次聚类集。
S2.4,循环执行S2.2、S2.3,直到聚类集不再发生变化为止;
步骤三:对得到的基因聚类集X进行差异性分析,筛选出差异概率P≤0.05的基因表达值,形成第一差异表达基因聚类集合集G。
差异性分析的方法为对基因聚类集内的基因表达值进行两两的差异性检验,统计检定值n,与随机变量的概率分布进行比较,即可确定得到目标结构的概率。计算所得检定值n,根据检定值n查临界值表而决定差异性是否显著,临界值表如图4所示。
若计算所得检定值n在临界值表中所得概率P≤0.05,就表示两个基因表达值差异显著,反之则认为两个基因表达值不显著。检定值n的计算公式如下:
根据检定值n查临界值表而决定两个基因表达值是否显著。若计算所得检定值n在临界值表中所得概率P≤0.05,就表示两个基因表达值差异显著,反之则认为两个基因表达值不显著。最终将P≤0.05的基因表达值的集合作为第一差异表达基因聚类集合G={g1,g2,...,gi,...,gk},其中gi表示第一差异表达基因聚类集合G中的k个基因表达值中的一个基因表达值。
步骤四:对得到的第一差异表达基因聚类集合G进行倍数分析,识别|log2(C)|>1的差异基因表达值,筛选出第二差异表达基因聚类集合F。
C是差异倍数,即一个基因表达值与另一基因表达值的倍数差异;用|log2(C)|>1作为筛选标准,最终得到代表差异性的基因表达值形成第二差异表达基因聚类集合F,其中fi表示第二差异表达基因聚类集合F中的m个基因表达值中的一个基因表达值,
F={f1,f2,...,fi,...,fm}。
步骤五:取步骤三和步骤四得到的两个差异表达基因聚类集合的交集,确定关键基因聚类集Y=(y1,y2,...,yi,...,yM),M为最终确定的关键基因聚类集中的基因表达值个数。其中yi表示关键基因聚类集中Y中的M个基因表达值中的一个基因表达值,即:
Y=F∩G。
通过以上六个步骤就完成了用于全基因组关联分析的基因选择,在优选实施例中,可采用通路分析和G0富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (6)
1.用于全基因组关联分析的基因自动选择方法,其特征在于,包括如下步骤:
步骤一,对所有样品进行杂交测序得到基因芯片数据,在对基因芯片数据进行数据处理,得到基因表达矩阵;
步骤二,对所述基因表达矩阵中的基因表达值进行分类,得到分类后的基因聚类集;
步骤三:对得到的基因聚类集X进行差异性分析,筛选出差异概率P≤0.05的基因表达值,形成第一差异表达基因聚类集合集G;
步骤四:对得到的第一差异表达基因聚类集合G进行倍数分析,识别差异基因表达值,筛选出第二差异表达基因聚类集合F;
步骤五:取所述步骤三和步骤四得到的两个差异表达基因聚类集合的交集,形成关键基因聚类集Y;
步骤六:选取关键基因聚类集Y与步骤二中所述的基因聚类集的均值距离最近的基因作为自动选择出的目标基因。
2.根据权利要求1所述的基因自动选择方法,其特征在于,所述步骤一包括如下步骤:
S1.1,数据提取步骤,将高通量的荧光信号转化成基因表达数据,形成原始表达矩阵;
S1.2,数据过滤步骤,把原始表达矩阵中的噪音数据去除;
Sl.3,补缺失值步骤,对表达矩阵中的缺失数据用0补齐;
S1.4,标准化处理步骤,通过对表达矩阵标准化处理使数据近似服从正态分布,得到基因表达矩阵。
3.根据权利要求1所述的基因自动选择方法,其特征在于,所述步骤二包括如下步骤:
S2.1,取基因表达矩阵中的任意基因表达值作为初聚类中心,进行初步聚类,得到初聚类集;
S2.2,将每个初聚类集中所有基因表达值的均值作为次聚类中心,计算初聚类集中的每个基因表达值与次聚类中心的距离,将距离向量在-1到1的基因表达值聚集到一起,形成次聚类集;
S2.3,计算次聚类集中所有基因表达值的均值,再次作为次聚类中心,将距离向量在-1到1的基因表达值聚集到一起,重新形成次聚类集;
S2.4,循环执行S2.2、S2.3,直到聚类集不再发生变化为止;
5.根据权利要求1所述的基因自动选择方法,其特征在于,所述步骤四中,用|log2(C)|>1作为筛选标准,筛选代表差异性的基因表达值,形成第二差异表达基因聚类集合F,其中fi表示第二差异表达基因聚类集合F中的m个基因表达值中的一个基因表达值,其中C是差异倍数,为一个基因表达值与另一基因表达值的倍数差异。
6.根据权利要求1所述的基因自动选择方法,其特征在于,通路分析和G0富集分析对所述步骤六中自动选择出的目标基因的生物功能进行注释,诠释所述目标基因的重要性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211631266.7A CN115881218B (zh) | 2022-12-15 | 2022-12-15 | 用于全基因组关联分析的基因自动选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211631266.7A CN115881218B (zh) | 2022-12-15 | 2022-12-15 | 用于全基因组关联分析的基因自动选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115881218A true CN115881218A (zh) | 2023-03-31 |
CN115881218B CN115881218B (zh) | 2023-06-09 |
Family
ID=85753959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211631266.7A Active CN115881218B (zh) | 2022-12-15 | 2022-12-15 | 用于全基因组关联分析的基因自动选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115881218B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117976050A (zh) * | 2024-02-18 | 2024-05-03 | 新疆畜牧科学院畜牧业质量标准研究所(新疆维吾尔自治区种羊与羊毛羊绒质量安全监督检验中心) | 一种基于生物技术的动物多胎基因快速诊断系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102080129A (zh) * | 2010-12-01 | 2011-06-01 | 杭州师范大学 | 一种适用于基因芯片的倍数法差异基因筛选控制方法 |
CN103678954A (zh) * | 2013-12-11 | 2014-03-26 | 深圳先进技术研究院 | 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法 |
CN107368707A (zh) * | 2017-07-20 | 2017-11-21 | 东北大学 | 基于us‑elm的基因芯片表达数据分析系统及方法 |
US20180165413A1 (en) * | 2016-04-20 | 2018-06-14 | Soochow University | Gene expression data classification method and classification system |
WO2019089851A1 (en) * | 2017-10-31 | 2019-05-09 | Encodia, Inc. | Methods and kits using nucleic acid encoding and/or label |
EP3598128A1 (en) * | 2016-12-28 | 2020-01-22 | National Institute of Biomedical Innovation, Healty and Nutrition | Characteristic analysis method and classification of pharmaceutical components by using transcriptomes |
US20200248274A1 (en) * | 2005-04-14 | 2020-08-06 | Trustees Of Boston University | Diagnostic for lung disorders using class prediction |
CN111653314A (zh) * | 2020-02-08 | 2020-09-11 | 广州医科大学附属肿瘤医院 | 一种分析识别淋巴管浸润的方法 |
CN113782090A (zh) * | 2021-09-18 | 2021-12-10 | 中南大学湘雅三医院 | 铁死亡模型构建方法与应用 |
CN114864003A (zh) * | 2022-03-17 | 2022-08-05 | 中国科学院深圳先进技术研究院 | 基于混合实验组和对照组单细胞样本的差异分析方法及系统 |
CN114913919A (zh) * | 2022-03-16 | 2022-08-16 | 右江民族医学院附属医院 | 一种单基因病遗传变异智能解读及报告的方法、系统及服务器 |
-
2022
- 2022-12-15 CN CN202211631266.7A patent/CN115881218B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200248274A1 (en) * | 2005-04-14 | 2020-08-06 | Trustees Of Boston University | Diagnostic for lung disorders using class prediction |
CN102080129A (zh) * | 2010-12-01 | 2011-06-01 | 杭州师范大学 | 一种适用于基因芯片的倍数法差异基因筛选控制方法 |
CN103678954A (zh) * | 2013-12-11 | 2014-03-26 | 深圳先进技术研究院 | 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法 |
US20180165413A1 (en) * | 2016-04-20 | 2018-06-14 | Soochow University | Gene expression data classification method and classification system |
EP3598128A1 (en) * | 2016-12-28 | 2020-01-22 | National Institute of Biomedical Innovation, Healty and Nutrition | Characteristic analysis method and classification of pharmaceutical components by using transcriptomes |
CN107368707A (zh) * | 2017-07-20 | 2017-11-21 | 东北大学 | 基于us‑elm的基因芯片表达数据分析系统及方法 |
WO2019089851A1 (en) * | 2017-10-31 | 2019-05-09 | Encodia, Inc. | Methods and kits using nucleic acid encoding and/or label |
CN111653314A (zh) * | 2020-02-08 | 2020-09-11 | 广州医科大学附属肿瘤医院 | 一种分析识别淋巴管浸润的方法 |
CN113782090A (zh) * | 2021-09-18 | 2021-12-10 | 中南大学湘雅三医院 | 铁死亡模型构建方法与应用 |
CN114913919A (zh) * | 2022-03-16 | 2022-08-16 | 右江民族医学院附属医院 | 一种单基因病遗传变异智能解读及报告的方法、系统及服务器 |
CN114864003A (zh) * | 2022-03-17 | 2022-08-05 | 中国科学院深圳先进技术研究院 | 基于混合实验组和对照组单细胞样本的差异分析方法及系统 |
Non-Patent Citations (3)
Title |
---|
"Model-based cluster analysis of microarray gene-expression data", 《GENOME BIOLOGY》 * |
叶小泉;吴云峰;: "基于支持向量机递归特征消除和特征聚类的致癌基因选择方法", 厦门大学学报(自然科学版), no. 05 * |
胡梦蝶: "花生花斑种皮花青素代谢双组学分析及其miRNA互作", 《中国优秀硕士学位论文全文数据库农业科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117976050A (zh) * | 2024-02-18 | 2024-05-03 | 新疆畜牧科学院畜牧业质量标准研究所(新疆维吾尔自治区种羊与羊毛羊绒质量安全监督检验中心) | 一种基于生物技术的动物多胎基因快速诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115881218B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Machine learning for lung cancer diagnosis, treatment, and prognosis | |
Fu et al. | Pan-cancer computational histopathology reveals mutations, tumor composition and prognosis | |
US10347365B2 (en) | Systems and methods for visualizing a pattern in a dataset | |
US8478534B2 (en) | Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
AU2020244763A1 (en) | Systems and methods for deriving and optimizing classifiers from multiple datasets | |
CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
Hu et al. | Classifying the multi-omics data of gastric cancer using a deep feature selection method | |
Larsson et al. | Comparative microarray analysis | |
JP2005531853A (ja) | Snp遺伝子型クラスタリングのためのシステムおよび方法 | |
CN115881218B (zh) | 用于全基因组关联分析的基因自动选择方法 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN115270874A (zh) | 一种基于密度估计的流式细胞分类和计数的方法和系统 | |
US20220101135A1 (en) | Systems and methods for using a convolutional neural network to detect contamination | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN117904289A (zh) | 一种单碱基突变的肺癌早筛标志物、试剂盒、检测装置和计算机可读介质 | |
Sundar et al. | An intelligent prediction model for target protein identification in hepatic carcinoma using novel graph theory and ann model | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
Bhargavi et al. | A COMPARATIVE STUDY FOR STATISTICAL OUTLIER DETECTION USING COLON CANCER DATA | |
CN118335200B (zh) | 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 | |
Kalinin et al. | A versatile information retrieval framework for evaluating profile strength and similarity | |
Furman et al. | Unsupervised cellular phenotypic hierarchy enables spatial intratumor heterogeneity characterization, recurrence-associated microdomains discovery, and harnesses network biology from hyperplexed in-situ fluorescence images of colorectal carcinoma | |
CN115841847B (zh) | 一种微生物信息测定及提取系统和方法 | |
US10867208B2 (en) | Unbiased feature selection in high content analysis of biological image samples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 150090 east side of 5th floor, A10 building, China Cloud valley software park, No.9, Songhua Road, concentrated area, haping Road, economic development zone, Harbin City, Heilongjiang Province Patentee after: Xingyun Gene Technology Co.,Ltd. Address before: 150090 east side of 5th floor, A10 building, China Cloud valley software park, No.9, Songhua Road, concentrated area, haping Road, economic development zone, Harbin City, Heilongjiang Province Patentee before: Harbin Xingyun medical laboratory Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |