CN105825078A - 基于基因大数据的小样本基因表达数据分类方法 - Google Patents

基于基因大数据的小样本基因表达数据分类方法 Download PDF

Info

Publication number
CN105825078A
CN105825078A CN201610150049.4A CN201610150049A CN105825078A CN 105825078 A CN105825078 A CN 105825078A CN 201610150049 A CN201610150049 A CN 201610150049A CN 105825078 A CN105825078 A CN 105825078A
Authority
CN
China
Prior art keywords
gene
rank
gene expression
sample
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610150049.4A
Other languages
English (en)
Other versions
CN105825078B (zh
Inventor
郝志峰
许柏炎
蔡瑞初
温雯
张小文
林殷娴
王日宇
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Foshan University
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610150049.4A priority Critical patent/CN105825078B/zh
Publication of CN105825078A publication Critical patent/CN105825078A/zh
Application granted granted Critical
Publication of CN105825078B publication Critical patent/CN105825078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

本发明公开了基于基因大数据的小样本基因表达数据分类方法,其技术步骤为:确定训练样本基因表达数据和类标签,构建矩阵;根据L阶频数统计结果和2阶频数统计结果,计算L+1阶估分,去除估分小于阈值的非频繁集;计算到最大阶数Lmax;计算不同类别差异化的缺失情况;对各阶评分表进行排序,建立决策表;根据决策表对测试样本进行判别并输出类别。本发明基于基因大数据的跨平台分类器训练模型,结合基因表达数据公共储存库中海量的数据与小规模基因表达样本混合训练,有效的提高了分类效果。同时,该方法解决了跨平台所带来的缺失值的影响。

Description

基于基因大数据的小样本基因表达数据分类方法
技术领域
本发明涉及机器学习、数据挖掘、生物信息学等领域,特别涉及一种根据小规模基因表达数据样本改良的分类方法。
背景技术
目前,随着基因微阵列技术的出现,通过检测基因表达可以发现研究基因的功能或表现和不同基因间的相互关系,很快地成为生物学领域上一种重要的实验方法。关于基因的应用研究已经在医疗、农业和环境等各个领域有着不错的成效,对基因表达谱的研究具有一定的意义。因成本与技术等原因,基因表达数据往往样本数量少,但是基因数据的维度高,这为基因表达数据分析带来一定的困难,针对基因表达数据的分析在国内外成为了研究的热点。
针对基因表达数据的研究主要有分类和聚类,这里主要阐述分类。研究人员开始将经典的分类算法应用到基因表达数据领域。如孔祥增发明一种基于模糊K-NN算法的肿瘤基因表达谱分类方法(专利申请号:201010234954.0),采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析。王文俊发明一种监督基因表达数据分类方法(专利申请号:201410817036.9),先采用类别保留投影方法获得训练样本的鉴别特征向量,再用最近邻分类器实现测试样本的分类识别。孙鑫等人发明用于肿瘤检测的基因选择方法(专利申请号:201110319228.3),选择结束后,输出最优基因集合给分类器。以上发明不可避免的是数据样本少,维度高,质量差等问题,都采取了一定的降低维度的手段如剔除无关基因或提取特征变量等。
Geman等人提出的TheTopScoringPair(TSP)分类器(论文Simpledecisionrulesforclassifyinghumancancersfromgeneexpressionprofiles)是一种基于排序思想的分类模型,它主要通过比较样本内两两基因大小关系,根据评分选择最具‘差异化’的基因对进行分类。该方法是一种无参数、数据驱动的机器学习方法,能很好地避免过拟合。与上文提到的发明不同的是,该方法没有对数据进行降维,但是在实验应用部分的数据维度不高或者样本量不大。但是该方法采用样本内的基因比较,在基因表达数据上应用具有一定的普适性。
降维手段会带来一定程度上的信息丢失,决不是解决基因表达数据样本少维度高问题的最佳手段。构建一种通用的解决小规模基因表达样本分类问题的方法,具有研究的价值与意义。近年来,检测实验已经累积产出了大量的基因表达数据,但由于测序平台的不一,暂无国际标准,实验环境的不同,还有样本的差异等问题,导致基因数据的可比性差,质量低。所以,现在的基因表达数储存库是大量的小规模基因表达样本的组合,带来了一定的挑战与风险。
发明内容
本发明主要研究如何结合基因表达数据公共储存库中海量的数据与小规模基因表达样本,提出一种基于基因大数据的跨平台分类方法。
为实现上述目的,本发明的技术方案包括以下步骤:
(S1)构建矩阵:获取基因样本数据,并划分训练样本和测试样本;确定训练样本基因表达数据和其类标签,给定N个基因表达样本,每个样本具有P个基因,构建一个N*P维的矩阵R,矩阵R的最大阶数为Lmax,样本的类别为C={C1,C2};
(S2)2阶“全搜索”:对整个矩阵R进行搜索,每个训练样本的基因表达量两两形成基因对,统计每个基因对的大小关系的频数,得到2阶频数统计结果,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到2阶评分表;根据2阶评分表计算3阶组合估分,设定阈值Smin,去掉估分小于阈值的非频繁集;
(S3)多阶“剪枝”:统计剩余频繁的3阶基因组合的大小关系的频数,得到3阶频数统计结果,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到3阶评分表;同样,可根据L阶频数统计结果和2阶频数统计结果计算L+1阶估分,去掉估分小于阈值的非频繁集;阶数每增加1,重复步骤S3直至计算到最大阶数Lmax
(S4)计算缺失:对基因表达数据缺失值情况做统计,记录存在的基因表达量与缺失的基因表达量的频数,计算不同类别差异化的缺失情况;
(S5)构建决策表:对各阶评分表按评分进行排序,当评分相同时根据基因对的缺失情况调整,缺失率越低的基因组排名越靠前;从各阶评分表中选择前Z项不相关的基因有序组合,加入到决策表;
(S6)输出分类:根据决策表对测试样本进行判别,输出更接近的类别,如果程度相等则根据缺失状态判别,输出对应的类别。
进一步地,步骤S2、S3中估分的计算方法为:
设2阶评分表为Prob(Rk<Rl),L阶评分表为Prob(Ri<Rj<…Rk),Ri为第i个基因在N个样本上的向量,α=min{Prob(Ri<Rj<…Rk),Prob(Rk<Rl)}
&beta; = Pr o b ( R i < R j < ... R k ) + Pr o b ( R k < R l ) - 1 , i f P r o b ( R i < R j < ... R k ) + Pr o b ( R k < R l ) < 1 0 , o t h e r w i s e
得到:Prob(Ri<Rj<…Rk<Rl)∈(α,β)
取上界与下界平均值可得到估分
其中,步骤S3中计算L+1阶估分时需在矩阵R上统计L+1阶的基因组合的频数,公式化定义为:
pi..l+1(Cm)=Prob(Ri<Rj…<Rl<Rl+1|Y=Cm),m={1,2}
计算L+1阶的评分表为:Δ=|p(C1)-p(C2)|。
其中,步骤S4中记录存在的基因表达量与缺失的基因表达量的频数,公式化定义为:
缺失状态表的得分为Δij=|pij(C1)-pij(C2)|,选择评分最高为“特殊对”。
其中,步骤S6中根据决策表对测试样本进行判别,输出更符合的类别,计算方法如下:
h ( x n e w ) = C 1 , i f R i , n e w < R j , n e w ... < R l , m e w C 2 , O t h e r w i s e
y n e w = argmax ( C 1 , C 2 ) &Sigma; u = 1 z h ( x n e w )
xnew代表输入的新样本,Ri,new为输入的新样本在第i个基因表达量的值,ynew为最后的输出集合,如果C1与C2程度相等则根据缺失值特殊对判别,输出对应的类别。
与现有技术对比,本发明具有以下优点:
1)基于基因大数据的跨平台分类器训练模型,结合基因表达数据公共储存库中海量的数据与小规模基因表达样本混合训练,提高分类器的性能及分类效果。
2)本发明通过统计不同类的基因表达组合的差异化表现来进行判别,解决了跨平台基因表达数据可比性差的问题。
3)能解决跨平台基因表达数据缺失值多的问题,分类正确识别率高。
附图说明
图1为本发明的实现原理图;
图2为本发明的流程图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述。
图1揭示了本发明的整体实现原理:首先从诸如GEO等基因表达数据公共储存库中获取样本数据。对数据进行规整预处理,并统计样本的类标签集合,形成“强化集”。同时对小规模基因表达样本对齐强化集基因分布序列,缺失的基因记为空值。从含有目标分类标签的强化集,按比例与小规模基因样本测试集混合,加入到跨平台分类器模型组合训练,最终判定输出分类结果。
本发明公开了分类器模型的分类方法,其具体步骤参照图2所示,详述如下。
(S1)构建矩阵:首先获取基因样本数据,并划分训练样本和测试样本。确定训练样本基因表达数据和其类标签。
给定N个基因表达样本,每个样本具有P个基因,构成一个NxP维的矩阵R。设Ri代表第i个基因在N个样本上的向量,矩阵R的最大阶数为Lmax,样本的类别为C={C1,C2}。
(S2)2阶“全搜索”:本分类方法的目标是获得“关键基因有序组合”,这些关键性在于其在不同类间具有显著性变化。首先,对于计算2阶组合,要对整个矩阵集合中R进行搜索,统计存在基因表达量{Ri<Rj}的频数,公式化表示为:
pij(Cm)=Prob(Ri<Rj|Y=Cm),m={1,2},i≠j
分类器是基于排序思想的方法,依据是类间的差异表示为频数之间的差,公式化定义为:
Δij=|pij(C1)-pij(C2)|,i≠j
得到2阶频数统计结果Prob(Rk<Rl),,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到2阶评分表。根据2阶评分表计算3阶组合估分,设定阈值Smin(阈值的设置为多次实验获得的经验值)。去掉估分小于阈值的非频繁集。
(S3)多阶“剪枝”:计多项基因表达量大小关系,在动辄上万维度的基因表达数据之上算法的时间复杂度和空间复杂度都会很高。因此,必须对所有可能组合进行剪枝,计算“估分”去掉非频繁集,再统计剩余基因组的频数,可以大大减少统计时间,随着阶数提高下降很快。设L阶频数统计结果为Prob(Ri<Rj<…Rk<Rl),还有2阶的Prob(Rk<Rl),设:
α=min{Prob(Ri<Rj<…Rk),Prob(Rk<Rl)}
&beta; = Pr o b ( R i < R j < ... R k ) + Pr o b ( R k < R l ) - 1 , i f P r o b ( R i < R j < ... R k ) + Pr o b ( R k < R l ) < 1 0 , o t h e r w i s e
容易得到:
Prob(Ri<Rj<…Rk<Rl)∈(α,β)
取上界与下界平均值可得到估分S:
S = &alpha; + &beta; 2
可根据L阶频数统计结果和2阶频数统计结果计算L+1阶估分。根据组合表剩余的组合可能,在矩阵R上统计L+1阶的有序组合的频数,公式化定义为:
pi..l+1(Cm)=Prob(Ri<Rj…<Rl<Rl+1|Y=Cm),m={1,2}
同样地,计算L+1阶的评分表:
Δ=|p(C1)-p(C2)|
去掉估分小于阈值的非频繁集;重复步骤S3直至计算到最大阶数Lmax
(S4)计算缺失:为了统计缺失值情况,可以引入一个新的状态来表示成对的缺失值与存在值,称“存在&缺失”。记录存在的基因表达量与缺失的基因表达量的频数,计算不同类别差异化的缺失情况。公式化定义为:
同样地,缺失状态表的得分为Δij=|pij(C1)-pij(C2)|,选择评分最高为“特殊对”。
(S5)构建决策表:对各阶评分表按评分排序,显然评分有可能出现同分情况。由于数据特性问题,每个基因缺失情况不一,频率不能体现数量上的对比。所以当同分时,选择缺失较为不严重的基因组合靠前。从每个有序的评分表中,选取前Z项不相关的基因加入到决策表中。每次把各阶评分表的顶端加入之后,将跳过与之相关的基因组合,直到加入Z项。
(S6)输出分类:根据决策表输入测试样本,输出更符合的类,公式化定义如下:
h ( x n e w ) = C 1 , i f R i , n e w < R j , n e w ... < R l , m e w C 2 , O t h e r w i s e
y n e w = arg m a x ( C 1 , C 2 ) &Sigma; u = 1 z h ( x n e w )
如果C1与C2程度相等则根据缺失值特殊对判别,输出对应的类别。
Ri,new代表了输入的新样本在第i个基因表达量的值,xnew代表输入的新样本,h(xnew):如果输入样本符合Ri,new<Rj,new…<Rl,new,则输出C1,否则输出C2。ynew,对于每个样本中,Z项有序组合判别后,输入结果中C1项数,C2项数的较大者。
以下结合一具体的实验例对本发明进行说明。
实例:对跨平台的基因表达数据进行分类实验
首先从GEO基因表达数据公共储存库中获取样本数据500个,样本的维数为20659维,来自于10个不同的测序平台,类标签选为性别,男/女两类,Lmax为三阶;
(S1)首先按十折交叉验证方法将其划分为训练样本和测试样本,即样本分为10份,轮流将其中一份作为测试样本,其余为训练样本。可得到一个450x20659维的样本矩阵。
(S2)在矩阵上进行全搜索,为统计{Ri<Rj}在不同类上的频数,可得到两个20659x20659维频数矩阵,然后将两个矩阵作差,加入二阶评分表(范围为0~1);计算有序组合的估分,阈值设置为0.3,去除估分低于0.3的组合,剩余三阶基因有序组合2530条。
(S3)在矩阵上统计三阶有序基因组合的实际频数矩阵,作差得到三阶评分表(范围为0~1);达到Lmax为三阶,去掉估分小于阈值0.3的组合。
(S4)在矩阵R上统计缺失值情况,统计存在的基因表达量与缺失的基因表达量的频数,得到“特殊对”。
(S5)最后在二阶与三阶评分表上做排序,只取不相关基因表达有序组合前10项加入到决策表。
(S6)根据决策表输入测试样本进行判别,输出分类结果。将输出的分类结果与样本真实类别比较,其中有46个样本分类正确,样本的分类正确识别率达到92%。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (5)

1.基于基因大数据的小样本基因表达分类方法,其特征在于,包括以下步骤:
(S1)构建矩阵:获取基因样本数据,并划分训练样本和测试样本;确定训练样本基因表达数据和其类标签,给定N个基因表达样本,每个样本具有P个基因,构建一个N*P维的矩阵R,矩阵R的最大阶数为Lmax,样本的类别为C={C1,C2};
(S2)2阶“全搜索”:对整个矩阵R进行搜索,每个训练样本的基因表达量两两形成基因对,统计每个基因对的大小关系的频数,得到2阶频数统计结果,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到2阶评分表;根据2阶评分表计算3阶组合估分,设定阈值Smin,去掉估分小于阈值的非频繁集;
(S3)多阶“剪枝”:统计剩余频繁的3阶基因组合的大小关系的频数,得到3阶频数统计结果,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到3阶评分表;同样,可根据L阶频数统计结果和2阶频数统计结果计算L+1阶估分,去掉估分小于阈值的非频繁集;阶数每增加1,重复步骤S3直至计算到最大阶数Lmax
(S4)计算缺失:对基因表达数据缺失值情况做统计,记录存在的基因表达量与缺失的基因表达量的频数,计算不同类别差异化的缺失情况;
(S5)构建决策表:对各阶评分表按评分进行排序,当评分相同时根据基因对的缺失情况调整,缺失率越低的基因组排名越靠前;从各阶评分表中选择前Z项不相关的基因有序组合,加入到决策表;
(S6)输出分类:根据决策表对测试样本进行判别,输出更接近的类别,如果程度相等则根据缺失状态判别,输出对应的类别。
2.根据权利要求1所述的基于基因大数据的小样本基因表达分类方法,其特征在于,步骤S2、S3中估分的计算方法为:
设2阶频数统计结果为Prob(Rk<Rl),L阶频数统计结果为Prob(Ri<Rj<…Rk),Ri为第i个基因在N个样本上的向量,α=min{Prob(Ri<Rj<…Rk),Prob(Rk<Rl)}
&beta; = Pr o b ( R i < R j < ... R k ) + Pr o b ( R k < R l ) - 1 , i f P r o b ( R i < R j < ... R k ) + Pr o b ( R k < R l ) < 1 0 , o t h e r w i s e
得到:Prob(Ri<Rj<…Rk<Rl)∈(α,β)
取上界与下界平均值可得到估分
3.根据要求1所述的基于基因大数据的小样本基因表达分类方法,其特征在于,步骤S3中在矩阵R上统计L+1阶的基因组合的频数,公式化定义为:
pi..l+1(Cm)=Prob(Ri<Rj…<Rl<Rl+1|Y=Cm),m={1,2}
计算L+1阶的评分表为:Δ=|p(C1)-p(C2)|。
4.根据要求1所述的基于基因大数据的小样本基因表达分类方法,其特征在于,步骤S4中记录存在的基因表达量与缺失的基因表达量的频数,公式化定义为:
缺失状态表的得分为Δij=|pij(C1)-pij(C2)|,选择评分最高为“特殊对”。
5.根据要求1所述的基于基因大数据的小样本基因表达分类方法,其特征在于,步骤S6中根据决策表对测试样本进行判别,输出更符合的类别,计算方法如下:
h ( x n e w ) = C 1 , i f R i , n e w < R j , n e w ... < R l , n e w C 2 , O t h e r w i s e
y n e w = arg max ( C 1 , C 2 ) &Sigma; u = 1 z h ( x n e w )
xnew代表输入的新样本,Ri,new为输入的新样本在第i个基因表达量的值,ynew为最后的输出集合,如果C1与C2程度相等则根据缺失值特殊对判别,输出对应的类别。
CN201610150049.4A 2016-03-16 2016-03-16 基于基因大数据的小样本基因表达数据分类方法 Active CN105825078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610150049.4A CN105825078B (zh) 2016-03-16 2016-03-16 基于基因大数据的小样本基因表达数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610150049.4A CN105825078B (zh) 2016-03-16 2016-03-16 基于基因大数据的小样本基因表达数据分类方法

Publications (2)

Publication Number Publication Date
CN105825078A true CN105825078A (zh) 2016-08-03
CN105825078B CN105825078B (zh) 2019-02-26

Family

ID=56523451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610150049.4A Active CN105825078B (zh) 2016-03-16 2016-03-16 基于基因大数据的小样本基因表达数据分类方法

Country Status (1)

Country Link
CN (1) CN105825078B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016260A (zh) * 2017-03-30 2017-08-04 广东工业大学 一种基于跨平台基因表达数据的基因调控网络重建方法
CN108182347A (zh) * 2018-01-17 2018-06-19 广东工业大学 一种大规模跨平台基因表达数据分类方法
CN108241792A (zh) * 2016-12-23 2018-07-03 深圳华大基因科技服务有限公司 一种整合多平台基因分型结果的方法和装置
CN108985010A (zh) * 2018-06-15 2018-12-11 河南师范大学 基因分类方法与装置
CN109754843A (zh) * 2018-12-04 2019-05-14 志诺维思(北京)基因科技有限公司 一种探测基因组小片段插入缺失的方法及装置
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
CN110706746A (zh) * 2019-11-27 2020-01-17 北京博安智联科技有限公司 一种dna混合分型数据库比对算法
CN111370124A (zh) * 2020-03-05 2020-07-03 湖南城市学院 一种基于面手部识别和大数据的健康分析系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101624628A (zh) * 2008-07-09 2010-01-13 索尼株式会社 基因检测方法、基因检测程序和基因检测装置
CN101921847A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于模糊k-nn算法的肿瘤基因表达谱分类方法
CN101923604A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN101996284A (zh) * 2010-11-29 2011-03-30 昆明理工大学 某种疾病的特征基因的筛选方法
CN104156503A (zh) * 2014-07-21 2014-11-19 金华市中心医院 一种基于基因芯片网络分析的疾病风险基因识别方法
CN104408332A (zh) * 2014-11-05 2015-03-11 深圳先进技术研究院 一种基因数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101624628A (zh) * 2008-07-09 2010-01-13 索尼株式会社 基因检测方法、基因检测程序和基因检测装置
CN101921847A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于模糊k-nn算法的肿瘤基因表达谱分类方法
CN101923604A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN101996284A (zh) * 2010-11-29 2011-03-30 昆明理工大学 某种疾病的特征基因的筛选方法
CN104156503A (zh) * 2014-07-21 2014-11-19 金华市中心医院 一种基于基因芯片网络分析的疾病风险基因识别方法
CN104408332A (zh) * 2014-11-05 2015-03-11 深圳先进技术研究院 一种基因数据处理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AIK CHOON TAN ETAL: ""Simple decision rules for classifying human cancers from gene expression profiles "", 《BIOINFORMATICS》 *
CHUNBAO ZHOU ETAL: ""An entropy-based improved k-top scoring pairs (TSP) method for classifying human cancers"", 《AFRICAN JOURNAL OF BIOTECHNOLOGY》 *
SHUQIN WANG ETAL: ""A Novel Approach for Classifying Human Cancers"", 《THE 9TH INTERNATIONAL CONFERENCE FOR YOUNG COMPUTER SCIENTISTS》 *
吕飒丽 等: ""基于决策森林特征基因的两种识别方法"", 《生物信息学》 *
李颖新 等: ""基于基因表达谱的肿瘤亚型识别与分类"", 《电子学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241792A (zh) * 2016-12-23 2018-07-03 深圳华大基因科技服务有限公司 一种整合多平台基因分型结果的方法和装置
CN108241792B (zh) * 2016-12-23 2021-03-23 深圳华大基因科技服务有限公司 一种整合多平台基因分型结果的方法和装置
CN107016260B (zh) * 2017-03-30 2019-09-13 广东工业大学 一种基于跨平台基因表达数据的基因调控网络重建方法
CN107016260A (zh) * 2017-03-30 2017-08-04 广东工业大学 一种基于跨平台基因表达数据的基因调控网络重建方法
CN108182347A (zh) * 2018-01-17 2018-06-19 广东工业大学 一种大规模跨平台基因表达数据分类方法
CN108182347B (zh) * 2018-01-17 2022-02-22 广东工业大学 一种大规模跨平台基因表达数据分类方法
CN108985010A (zh) * 2018-06-15 2018-12-11 河南师范大学 基因分类方法与装置
CN108985010B (zh) * 2018-06-15 2022-04-08 河南师范大学 基因分类方法与装置
CN109754843A (zh) * 2018-12-04 2019-05-14 志诺维思(北京)基因科技有限公司 一种探测基因组小片段插入缺失的方法及装置
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
CN110706746A (zh) * 2019-11-27 2020-01-17 北京博安智联科技有限公司 一种dna混合分型数据库比对算法
CN110706746B (zh) * 2019-11-27 2021-09-17 北京博安智联科技有限公司 一种dna混合分型数据库比对算法
CN111370124A (zh) * 2020-03-05 2020-07-03 湖南城市学院 一种基于面手部识别和大数据的健康分析系统及方法

Also Published As

Publication number Publication date
CN105825078B (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN105825078A (zh) 基于基因大数据的小样本基因表达数据分类方法
CN103984959B (zh) 一种基于数据与任务驱动的图像分类方法
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN106202891B (zh) 一种面向医疗质量评价的大数据挖掘方法
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN103366367A (zh) 基于像素数聚类的模糊c-均值灰度图像分割方法
CN107004066B (zh) 性状预测模型制作方法和性状预测方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN104809476B (zh) 一种基于分解的多目标进化模糊规则分类方法
CN101903895A (zh) 二类别分类预测模型的生成方法、用于生成分类预测模型的程序以及二类别分类预测模型的生成装置
Wang et al. Multi-label classification: Inconsistency and class balanced k-nearest neighbor
CN110111843A (zh) 对核酸序列进行聚类的方法、设备及存储介质
CN104820702B (zh) 一种基于决策树的属性加权方法及文本分类方法
CN106570076A (zh) 一种计算机文本分类系统
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN106570537A (zh) 一种基于混淆矩阵的随机森林模型选择方法
CN109376235A (zh) 基于文档层词频重排序的特征选择方法
CN109493916A (zh) 一种基于稀疏性因子分析的基因-基因交互作用识别方法
CN113392875B (zh) 一种图像细粒度分类的方法、系统和设备
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN107016454A (zh) 一种非均质矿球磨破碎分布函数预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200915

Address after: 528000 Jiangwan Road, Guangdong, No. 18, No.

Co-patentee after: GUANGDONG University OF TECHNOLOGY

Patentee after: FOSHAN University

Address before: 510006 Panyu District, Guangzhou, Guangzhou University,, West Ring Road, No. 100

Patentee before: GUANGDONG University OF TECHNOLOGY

TR01 Transfer of patent right