CN111462817B - 一种分类模型构建方法、装置、分类模型及分类方法 - Google Patents

一种分类模型构建方法、装置、分类模型及分类方法 Download PDF

Info

Publication number
CN111462817B
CN111462817B CN202010221082.8A CN202010221082A CN111462817B CN 111462817 B CN111462817 B CN 111462817B CN 202010221082 A CN202010221082 A CN 202010221082A CN 111462817 B CN111462817 B CN 111462817B
Authority
CN
China
Prior art keywords
sample
classification model
layer
target
generation layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010221082.8A
Other languages
English (en)
Other versions
CN111462817A (zh
Inventor
廖清
马海轩
杨林
丁烨
王轩
李京竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202010221082.8A priority Critical patent/CN111462817B/zh
Publication of CN111462817A publication Critical patent/CN111462817A/zh
Application granted granted Critical
Publication of CN111462817B publication Critical patent/CN111462817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种分类模型构建方法、装置、分类模型及分类方法。所述分类模型构建方法通过构建初始分类模型,在初始分类模型中引入生成层、选择层和比较层,并通过在基因表达谱训练数据集中随机选择两个样本,对生成层、选择层和比较层进行训练和更新,得到目标分类模型,使得可利用生成层,根据基因表达谱数据中任意两个样本生成新的样本,利用选择层,根据新的样本各个特征的权重选择若干个样本特征,利用比较层,根据从所有样本特征中选择的若干个目标特征对新的样本进行分类。本发明能够构建一种适用于基因表达谱的分类模型,实现增加基因表达谱数据的样本数量,缓解少样本特性带来的欠拟合问题,从而进一步提高基因表达谱数据的分类准确度。

Description

一种分类模型构建方法、装置、分类模型及分类方法
技术领域
本发明涉及基因表达谱分类技术领域,尤其涉及一种分类模型构建方法、装置、分类模型及分类方法。
背景技术
基因表达谱包含了大量基因,其中仅有少量基因与特定类型的疾病相关,具有高维度、少样本的特性。通过分类分析基因表达谱数据,对研究人类基因的表达、各种遗传性疾病及由于细胞病变而导致的疾病具有重大意义。在分析基因表达谱数据时,往往先采用特征选择方法筛选基因表达谱数据中的重要特征,再通过机器学习模型等分类器对基因表达谱数据进行分类。
现有技术虽然通过筛选基因表达谱数据中的重要特征来缓解高维度特性带来的过拟合问题,但却忽略解决少样本特性带来的欠拟合问题,难以进一步提高基因表达谱数据的分类准确度。
发明内容
本发明提供一种分类模型构建方法、装置、分类模型及分类方法,以克服现有技术的缺陷,本发明能够构建一种适用于基因表达谱的分类模型,实现增加基因表达谱数据的样本数量,缓解少样本特性带来的欠拟合问题,从而进一步提高基因表达谱数据的分类准确度。
为了解决上述技术问题,第一方面,本发明一实施例提供一种适用于基因表达谱的分类模型构建方法,包括:
构建初始分类模型,并从基因表达谱训练数据集中随机选择第一样本和第二样本;其中,所述初始分类模型包括生成层、选择层和比较层;
将所述第一样本与所述第二样本进行连接,得到第三样本,并将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本;
将所述目标样本输入所述选择层,使所述选择层根据所述目标样本的特征权重,对所述目标样本进行特征选择,输出选择的若干个样本特征;
从所有所述样本特征中选择若干个目标特征,并将所述目标特征输入所述比较层,使所述比较层根据所述目标特征,对所述目标样本进行分类,输出得到的分类结果;
将所述分类结果与真实结果进行比较,得到分类损失,并将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型。
进一步地,所述生成层包括稀疏矩阵,所述选择层包括神经网络。
进一步地,在所述将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本之后,还包括:
根据所述目标样本,计算所述第一样本与所述第二样本的相似值,并根据所述相似值,计算所述生成层的生成损失,将所述生成损失反向输入所述生成层,更新所述生成层的参数。
进一步地,所述将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型,具体为:
将所述分类损失分别反向输入所述生成层和所述选择层,更新所述生成层和所述选择层的参数。
第二方面,本发明一实施例提供一种适用于基因表达谱的分类模型构建装置,包括:
初始分类模型构建模块,用于构建初始分类模型,并从基因表达谱训练数据集中随机选择第一样本和第二样本;其中,所述初始分类模型包括生成层、选择层和比较层;
生成层训练模块,用于将所述第一样本与所述第二样本进行连接,得到第三样本,并将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本;
选择层训练模块,用于将所述目标样本输入所述选择层,使所述选择层根据所述目标样本的特征权重,对所述目标样本进行特征选择,输出选择的若干个样本特征;
比较层训练模块,用于从所有所述样本特征中选择若干个目标特征,并将所述目标特征输入所述比较层,使所述比较层根据所述目标特征,对所述目标样本进行分类,输出得到的分类结果;
目标分类模型获取模块,用于将所述分类结果与真实结果进行比较,得到分类损失,并将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型。
进一步地,所述生成层包括稀疏矩阵,所述选择层包括神经网络。
进一步地,所述生成层训练模块,还用于在所述将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本之后,根据所述目标样本,计算所述第一样本与所述第二样本的相似值,并根据所述相似值,计算所述生成层的生成损失,将所述生成损失反向输入所述生成层,更新所述生成层的参数。
进一步地,所述将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型,具体为:
将所述分类损失分别反向输入所述生成层和所述选择层,更新所述生成层和所述选择层的参数。
第三方面,本发明一实施例提供一种适用于基因表达谱的分类模型,所述分类模型是应用如上所述的适用于基因表达谱的分类模型构建方法而获得。
第四方面,本发明一实施例提供一种适用于基因表达谱的分类方法,包括:
从获取的基因表达谱数据集中选择第四样本和第五样本,并将所述第四样本和所述第五样本输入如上所述的适用于基因表达谱的分类模型,得到分类结果。
相比于现有技术,本发明的实施例,具有如下有益效果:
通过构建初始分类模型,在初始分类模型中引入生成层、选择层和比较层,并通过在基因表达谱训练数据集中随机选择两个样本,对生成层、选择层和比较层进行训练和更新,得到目标分类模型,使得可利用生成层,根据基因表达谱数据中任意两个样本生成新的样本,利用选择层,根据新的样本各个特征的权重选择若干个样本特征,利用比较层,根据从所有样本特征中选择的若干个目标特征对新的样本进行分类。本发明能够构建一种适用于基因表达谱的分类模型,实现增加基因表达谱数据的样本数量,缓解少样本特性带来的欠拟合问题,从而进一步提高基因表达谱数据的分类准确度。
附图说明
图1为本发明第一实施例中的一种分类模型构建方法的流程示意图;
图2为本发明第一实施例中的初始分类模型的网络结构图;
图3为本发明第二实施例中的一种分类模型构建装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
请参阅图1-2。
如图1-2所示,第一实施例提供一种适用于基因表达谱的分类模型构建方法,包括步骤S1~S5:
S1、构建初始分类模型,并从基因表达谱训练数据集中随机选择第一样本和第二样本;其中,初始分类模型包括生成层、选择层和比较层。
S2、将第一样本与第二样本进行连接,得到第三样本,并将第三样本输入生成层,使生成层根据第三样本,输出生成的目标样本。
S3、将目标样本输入选择层,使选择层根据目标样本的特征权重,对目标样本进行特征选择,输出选择的若干个样本特征。
S4、从所有样本特征中选择若干个目标特征,并将目标特征输入比较层,使比较层根据目标特征,对目标样本进行分类,输出得到的分类结果。
S5、将分类结果与真实结果进行比较,得到分类损失,并将分类损失反向输入初始分类模型,更新初始分类模型的参数,得到目标分类模型。
在本实施例的一种优选实施方式当中,生成层包括稀疏矩阵,选择层包括神经网络。
基因表达谱数据特征的顺序取决于研究人员选择测试的基因顺序,没有确定的相对位置信息。本实施例采用稀疏矩阵作为生成层,能够抽取第一样本和第二样本特征的差异性生成目标样本,有利于避免引入多余的噪声。
首先在对从基因表达谱训练数据集中随机选择的第一样本和第二样本进行连接后,将得到的第三样本输入生成层,使生成层根据第三样本,输出生成的目标样本,然后将目标样本输入选择层,使选择层根据目标样本的特征权重对目标样本进行特征选择,输出选择的若干个样本特征,接着在从所有所述样本特征中选择若干个目标特征后,将目标特征输入所述比较层,使比较层根据目标特征对目标样本进行分类,输出得到的分类结果,最终将分类结果与真实结果进行比较,得到分类损失,并将分类损失反向输入初始分类模型以更新初始分类模型的参数,得到目标分类模型。
例如,以一种癌症基因表达谱数据集Xn作为基因表达谱训练数据集。
从癌症基因表达谱数据集Xn中随机选择第一样本xi和第二样本xj,并将第一样本xi与第二样本xj进行连接,得到第三样本concat(xi,xj)。其中,concat表示将第一样本xi与第二样本xj水平连接在一起,即直接将两个d维特征的样本连接成一个2d维特征的样本。
在生成层中,通过从癌症基因表达谱数据集Xn中任意选择第一样本xi和第二样本xj,使得可根据第三样本concat(xi,xj)来生成目标样本ci,j,构建目标样本数据集C={c1,1,c1,2,…,cn2,n},从而将样本容量为n的癌症基因表达谱数据集Xn扩充为样本容量为n2的目标样本数据集C。其中,
Figure BDA0002424327900000062
ci,j=Gfea(xi,xj)=concat(xi,xj)×WG,Gfea(xi,xj)表示生成层根据第一样本xi和第二样本xj生成目标样本ci,j的函数,WG表示稀疏矩阵,稀疏矩阵WG初始化为Wi,i=1,Wi,i+j=-1,i,j∈[0,n],其他参数初始化为Wi,j=0。
在对稀疏矩阵进行初始化后,生成层在开始阶段,产生的目标样本ci,j的ith特征表示为第一样本xi和第二样本xj相同位置特征的差值,即xi-xj,反映了第一样本xi和第二样本xj指定位置特征的差异性。
由于第一样本xi和第二样本xj交换位置时,得到的两种目标样本ci,j均是反映第一样本xi和第二样本xj的差异性,因此采用平方函数替代relu激活函数,则目标样本ci,j=Gfea(xi,xj)2=(concat(xi,xj)×WG)2
在得到目标样本ci,j之后,计算第一样本xi和第二样本xj的相似值si,j。其中,si,j=sigmod(S(ci,j)),S(ci,j)表示目标样本ci,j的相似性。此处选用最后神经元为1的全连接层,采用sigmod函数计算相似值。生成损失采用二分类损失函数计算,如式:loss=(1-yi,j)log(1-si,j)+(yi,j)log(si,j)。其中,yi,j表示目标样本ci,j的真实类别,yi,j在第一样本xi和第二样本xj同类时取1,不同类时取1。
在生成层的训练过程中,稀疏矩阵WG的参数通过梯度J(θ)和学习率a来更新,θ表示生成层的其他参数,更新过程如式:
Figure BDA0002424327900000061
通过不断更新生成层的参数,目标样本ci,j的ith特征将反映第一样本xi和第二样本xj同位置特征的差异性和少部分其他特征的差异性。
在选择层中,将目标样本ci,j各个特征权重WS初始化为0,后续通过对输入的分类损失进行求导得到的梯度来更新特征权重WS
在对特征权重WS进行初始化后,选择层的输出较小,参数学习较为缓慢,因此需要将特征权重WS的学习率设置为较大值,其他参数的学习率设置为正常值,则输入到选择层的目标样本ci,j×WS
经一定轮次的训练,选择层的特征权重WS将在新的目标样本的训练下更新。但因特征权重WS初始化为0,更新较为缓慢,目标样本ci,j各个特征权重WS均会较小,因此可设置较大的学习率,如式:
Figure BDA0002424327900000071
其中,wi表示WS的取值,J(θ)表示分类损失,as表示设置的学习率。
通过对wj取绝对值并进行排序,将前k个变化较大的特征权重WS对应的特征作为样本特征。此时若要将选择层用于直接预测类别,可将选中的wi设置为sign(wi),其他wi设置为0,固定住wi的值,然后进行简单的预训练。从而实现只使用从样本特征中选择的目标特征预测分类。
选择层将目标样本ci,j的所有特征权重WS初始化为0,在训练过程中筛选变化较大的特征权重WS,从而将认为的重要特征作为样本特征。
在比较层中,通过选用全连接层,结合softmax判断输入的目标样本反映的相似性,可以表示为:Similarity=sigmod(Wk×(Wk-1×…(W0×ci,j+b0)+bk-1)+bk)。其中,Wk表示网络中的权重参数,bk表示比较层中的bias值,sigmod函数为神经元激活函数,可使输出属于0和1之间。这些参数均可以使用后向传播来使全连接层学习出一个合适的网络以衡量目标样本ci,j的相似性,其过程如式:
Figure BDA0002424327900000072
其中,θ表示比较层中的其他参数,
Figure BDA0002424327900000073
表示比较层的参数梯度,a表示学习率。
通过由生成层生成较多可反映样本对差异性的新样本,以增加样本数量来缓解基因表达谱数据少样本特性带来的欠拟合问题。同时,通过由选择层根据新样本进行特征选择,以筛选重要特征来缓解基因表达谱数据高维度特性带来的过拟合问题。通过由比较层不断学习判断样本对相似性,以提供损失函数梯度更新生成层和选择层的参数。
整个过程如式:
Ccomp(xi,xj)=Ccomp(F(Gfea(xi,xj)))
=Ccomp(concat(xi,xj)×WG×WS)。
其中,xi和xj为两个样本,通过水平连接后得到concat(xi,xj),然后输入到生成层网络Gfea,生成新样本,再将新样本输入到选择层F。
分类损失如式:
Figure BDA0002424327900000081
其中,n为样本个数,yi为样本的真实类别,
Figure BDA0002424327900000082
为样本的预测类别。
本实施例通过构建初始分类模型,在初始分类模型中引入生成层、选择层和比较层,并通过在基因表达谱训练数据集中随机选择两个样本,对生成层、选择层和比较层进行训练和更新,得到目标分类模型,使得可利用生成层,根据基因表达谱数据中任意两个样本生成新的样本,利用选择层,根据新的样本各个特征的权重选择若干个样本特征,利用比较层,根据从所有样本特征中选择的若干个目标特征对新的样本进行分类。
本实施例能够构建一种适用于基因表达谱的分类模型,实现增加基因表达谱数据的样本数量,缓解少样本特性带来的欠拟合问题,从而进一步提高基因表达谱数据的分类准确度。
在优选的实施例当中,步骤S2在将第三样本输入生成层,使生成层根据第三样本,输出生成的目标样本之后,还包括:根据目标样本,计算第一样本与第二样本的相似值,并根据相似值,计算生成层的生成损失,将生成损失反向输入生成层,更新生成层的参数。
本实施例通过计算第一样本与第二样本的相似值,进而计算生成层的生成损失,以将生成损失反向输入生成层,更新生成层的参数,使得生成层能够生成更能反映两个样本之间的差异性的目标样本,从而进一步提高基因表达谱的分类准确度。
在优选的实施例当中,所述将分类损失反向输入初始分类模型,更新初始分类模型的参数,得到目标分类模型,具体为:将分类损失分别反向输入生成层和选择层,更新生成层和选择层的参数。
本实施例通过将分类损失分别反向输入生成层和选择层,以更新生成层和选择层的参数,使得生成层能够生成更能反映两个样本之间的差异性的目标样本,选择层能够筛选出目标样本中更重要的特征,从而进一步提高基因表达谱的分类准确度。
如图3所示,第二实施例提供一种适用于基因表达谱的分类模型构建装置,包括:初始分类模型构建模块21,用于构建初始分类模型,并从基因表达谱训练数据集中随机选择第一样本和第二样本;其中,初始分类模型包括生成层、选择层和比较层;生成层训练模块22,用于将第一样本与第二样本进行连接,得到第三样本,并将第三样本输入生成层,使生成层根据第三样本,输出生成的目标样本;选择层训练模块23,用于将目标样本输入选择层,使选择层根据目标样本的特征权重,对目标样本进行特征选择,输出选择的若干个样本特征;比较层训练模块24,用于从所有样本特征中选择若干个目标特征,并将目标特征输入比较层,使比较层根据目标特征,对目标样本进行分类,输出得到的分类结果;目标分类模型获取模块25,用于将分类结果与真实结果进行比较,得到分类损失,并将分类损失反向输入初始分类模型,更新初始分类模型的参数,得到目标分类模型。
在本实施例的一种优选的实施方式当中,生成层包括稀疏矩阵,选择层包括神经网络。
基因表达谱数据特征的顺序取决于研究人员选择测试的基因顺序,没有确定的相对位置信息。本实施例采用稀疏矩阵作为生成层,能够抽取第一样本和第二样本特征的差异性生成目标样本,有利于避免引入多余的噪声。
在通过初始分类模型构建模块21,构建初始分类模型后,首先通过生成层训练模块22,在对从基因表达谱训练数据集中随机选择的第一样本和第二样本进行连接后,将得到的第三样本输入生成层,使生成层根据第三样本,输出生成的目标样本,然后通过选择层训练模块23,将目标样本输入选择层,使选择层根据目标样本的特征权重对目标样本进行特征选择,输出选择的若干个样本特征,接着通过比较层训练模块24,在从所有所述样本特征中选择若干个目标特征后,将目标特征输入所述比较层,使比较层根据目标特征对目标样本进行分类,输出得到的分类结果,最终通过目标分类模型获取模块25,将分类结果与真实结果进行比较,得到分类损失,并将分类损失反向输入初始分类模型以更新初始分类模型的参数,得到目标分类模型。
例如,以一种癌症基因表达谱数据集Xn作为基因表达谱训练数据集。
从癌症基因表达谱数据集Xn中随机选择第一样本xi和第二样本xj,并将第一样本xi与第二样本xj进行连接,得到第三样本concat(xi,xj)。其中,concat表示将第一样本xi与第二样本xj水平连接在一起,即直接将两个d维特征的样本连接成一个2d维特征的样本。
在生成层中,通过从癌症基因表达谱数据集Xn中任意选择第一样本xi和第二样本xj,使得可根据第三样本concat(xi,xj)来生成目标样本ci,j,构建目标样本数据集C={c1,1,c1,2,…,c n,n},从而将样本容量为n的癌症基因表达谱数据集Xn扩充为样本容量为n2的目标样本数据集C。其中,
Figure BDA0002424327900000101
ci,j=Gfea(xi,xj)=concat(xi,xj)×WG,Gfea(xi,xj)表示生成层根据第一样本xi和第二样本xj生成目标样本ci,j的函数,WG表示稀疏矩阵,稀疏矩阵WG初始化为Wi,i=1,Wi,i+j=-1,i,j∈[0,n],其他参数初始化为Wi,j=0。
在对稀疏矩阵进行初始化后,生成层在开始阶段,产生的目标样本ci,j的ith特征表示为第一样本xi和第二样本xj相同位置特征的差值,即xi-xj,反映了第一样本xi和第二样本xj指定位置特征的差异性。
由于第一样本xi和第二样本xj交换位置时,得到的两种目标样本ci,j均是反映第一样本xi和第二样本xj的差异性,因此采用平方函数替代relu激活函数,则目标样本ci,j=Gfea(xi,xj)2=(concat(xi,xj)×WG)2
在得到目标样本ci,j之后,计算第一样本xi和第二样本xj的相似值si,j。其中,si,j=sigmod(S(ci,j)),S(ci,j)表示目标样本ci,j的相似性。此处选用最后神经元为1的全连接层,采用sigmod函数计算相似值。生成损失采用二分类损失函数计算,如式:loss=(1-yi,j)log(1-si,j)+(yi,j)log(si,j)。其中,yi,j表示目标样本ci,j的真实类别,yi,j在第一样本xi和第二样本xj同类时取1,不同类时取1。
在生成层的训练过程中,稀疏矩阵WG的参数通过梯度J(θ)和学习率a来更新,θ表示生成层的其他参数,更新过程如式:
Figure BDA0002424327900000111
通过不断更新生成层的参数,目标样本ci,j的ith特征将反映第一样本xi和第二样本xj同位置特征的差异性和少部分其他特征的差异性。
在选择层中,将目标样本ci,j各个特征权重WS初始化为0,后续通过对输入的分类损失进行求导得到的梯度来更新特征权重WS
在对特征权重WS进行初始化后,选择层的输出较小,参数学习较为缓慢,因此需要将特征权重WS的学习率设置为较大值,其他参数的学习率设置为正常值,则输入到选择层的目标样本ci,j×WS
经一定轮次的训练,选择层的特征权重WS将在新的目标样本的训练下更新。但因特征权重WS初始化为0,更新较为缓慢,目标样本ci,j各个特征权重WS均会较小,因此可设置较大的学习率,如式:
Figure BDA0002424327900000112
其中,wi表示WS的取值,J(θ)表示分类损失,as表示设置的学习率。
通过对wi取绝对值并进行排序,将前k个变化较大的特征权重WS对应的特征作为样本特征。此时若要将选择层用于直接预测类别,可将选中的wi设置为sign(wi),其他wi设置为0,固定住wi的值,然后进行简单的预训练。从而实现只使用从样本特征中选择的目标特征预测分类。
选择层将目标样本ci,j的所有特征权重WS初始化为0,在训练过程中筛选变化较大的特征权重WS,从而将认为的重要特征作为样本特征。
在比较层中,通过选用全连接层,结合softmax判断输入的目标样本反映的相似性,可以表示为:Similarity=sigmod(Wk×(Wk-1×…(W0×ci,j+b0)+bk-1)+bk)。其中,Wk表示网络中的权重参数,bk表示比较层中的bias值,sigmod函数为神经元激活函数,可使输出属于0和1之间。这些参数均可以使用后向传播来使全连接层学习出一个合适的网络以衡量目标样本ci,j的相似性,其过程如式:
Figure BDA0002424327900000121
其中,θ表示比较层中的其他参数,
Figure BDA0002424327900000122
表示比较层的参数梯度,a表示学习率。
通过由生成层生成较多可反映样本对差异性的新样本,以增加样本数量来缓解基因表达谱数据少样本特性带来的欠拟合问题。同时,通过由选择层根据新样本进行特征选择,以筛选重要特征来缓解基因表达谱数据高维度特性带来的过拟合问题。通过由比较层不断学习判断样本对相似性,以提供损失函数梯度更新生成层、选择层和比较层的参数。
整个过程如式:
Ccomp(xi,xj)=Ccomp(F(Gfea(xi,xj)))
=Ccomp(concat(xi,xj)×WG×WS)。
其中,xi和xj为两个样本,通过水平连接后得到concat(xi,xj),然后输入到生成层网络Gfea,生成新样本,再将新样本输入到选择层F。
分类损失如式:
Figure BDA0002424327900000123
其中,n为样本个数,yi为样本的真实类别,
Figure BDA0002424327900000124
为样本的预测类别。
本实施例通过构建初始分类模型,在初始分类模型中引入生成层、选择层和比较层,并通过在基因表达谱训练数据集中随机选择两个样本,对生成层、选择层和比较层进行训练和更新,得到目标分类模型,使得可利用生成层,根据基因表达谱数据中任意两个样本生成新的样本,利用选择层,根据新的样本各个特征的权重选择若干个样本特征,利用比较层,根据从所有样本特征中选择的若干个目标特征对新的样本进行分类。
本实施例能够构建一种适用于基因表达谱的分类模型,实现增加基因表达谱数据的样本数量,缓解少样本特性带来的欠拟合问题,从而进一步提高基因表达谱数据的分类准确度。
在优选的实施例当中,生成层训练模块22,还用于在将第三样本输入生成层,使生成层根据第三样本,输出生成的目标样本之后,根据目标样本,计算第一样本与第二样本的相似值,并根据相似值,计算生成层的生成损失,将生成损失反向输入生成层,更新生成层的参数。
本实施例通过生成层训练模块22,计算第一样本与第二样本的相似值,进而计算生成层的生成损失,以将生成损失反向输入生成层,更新生成层的参数,使得生成层能够生成更能反映两个样本之间的差异性的目标样本,从而进一步提高基因表达谱的分类准确度。
在优选的实施例当中,所述将分类损失反向输入初始分类模型,更新初始分类模型的参数,得到目标分类模型,具体为:将分类损失分别反向输入生成层和选择层,更新生成层和选择层的参数。
本实施例通过将分类损失分别反向输入生成层和选择层,以更新生成层和选择层的参数,使得生成层能够生成更能反映两个样本之间的差异性的目标样本,选择层能够筛选出目标样本中更重要的特征,从而进一步提高基因表达谱的分类准确度。
第三实施例提供一种适用于基因表达谱的分类模型,所述分类模型是应用如第一实施例所述的适用于基因表达谱的分类模型构建方法而获得,且能达到与之相同的有益效果。
第四实施例提供一种适用于基因表达谱的分类方法,包括:从获取的基因表达谱数据集中选择第四样本和第五样本,并将第四样本和第五样本输入如第三实施例所述的适用于基因表达谱的分类模型,得到分类结果。
本实施例利用第三实施例所述的适用于基因表达谱的分类模型,对基因表达谱数据进行分类,实现增加基因表达谱数据的样本数量,缓解少样本特性带来的欠拟合问题,从而进一步提高基因表达谱数据的分类准确度。
综上所述,实施本发明的实施例,具有如下有益效果:
通过构建初始分类模型,在初始分类模型中引入生成层、选择层和比较层,并通过在基因表达谱训练数据集中随机选择两个样本,对生成层、选择层和比较层进行训练和更新,得到目标分类模型,使得可利用生成层,根据基因表达谱数据中任意两个样本生成新的样本,利用选择层,根据新的样本各个特征的权重选择若干个样本特征,利用比较层,根据从所有样本特征中选择的若干个目标特征对新的样本进行分类。本实施例能够构建一种适用于基因表达谱的分类模型,实现增加基因表达谱数据的样本数量,缓解少样本特性带来的欠拟合问题,从而进一步提高基因表达谱数据的分类准确度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (10)

1.一种适用于基因表达谱的分类模型构建方法,其特征在于,包括:
构建初始分类模型,并从基因表达谱训练数据集中随机选择第一样本和第二样本;其中,所述初始分类模型包括生成层、选择层和比较层;
将所述第一样本与所述第二样本进行连接,得到第三样本,并将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本;
将所述目标样本输入所述选择层,使所述选择层根据所述目标样本的特征权重,对所述目标样本进行特征选择,输出选择的若干个样本特征;
从所有所述样本特征中选择若干个目标特征,并将所述目标特征输入所述比较层,使所述比较层根据所述目标特征,对所述目标样本进行分类,输出得到的分类结果;
将所述分类结果与真实结果进行比较,得到分类损失,并将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型。
2.如权利要求1所述的适用于基因表达谱的分类模型构建方法,其特征在于,所述生成层包括稀疏矩阵,所述选择层包括神经网络。
3.如权利要求1所述的适用于基因表达谱的分类模型构建方法,其特征在于,在所述将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本之后,还包括:
根据所述目标样本,计算所述第一样本与所述第二样本的相似值,并根据所述相似值,计算所述生成层的生成损失,将所述生成损失反向输入所述生成层,更新所述生成层的参数。
4.如权利要求1所述的适用于基因表达谱的分类模型构建方法,其特征在于,所述将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型,具体为:
将所述分类损失分别反向输入所述生成层和所述选择层,更新所述生成层和所述选择层的参数。
5.一种适用于基因表达谱的分类模型构建装置,其特征在于,包括:
初始分类模型构建模块,用于构建初始分类模型,并从基因表达谱训练数据集中随机选择第一样本和第二样本;其中,所述初始分类模型包括生成层、选择层和比较层;
生成层训练模块,用于将所述第一样本与所述第二样本进行连接,得到第三样本,并将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本;
选择层训练模块,用于将所述目标样本输入所述选择层,使所述选择层根据所述目标样本的特征权重,对所述目标样本进行特征选择,输出选择的若干个样本特征;
比较层训练模块,用于从所有所述样本特征中选择若干个目标特征,并将所述目标特征输入所述比较层,使所述比较层根据所述目标特征,对所述目标样本进行分类,输出得到的分类结果;
目标分类模型获取模块,用于将所述分类结果与真实结果进行比较,得到分类损失,并将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型。
6.如权利要求5所述的适用于基因表达谱的分类模型构建装置,其特征在于,所述生成层包括稀疏矩阵,所述选择层包括神经网络。
7.如权利要求5所述的适用于基因表达谱的分类模型构建装置,其特征在于,所述生成层训练模块,还用于在所述将所述第三样本输入所述生成层,使所述生成层根据所述第三样本,输出生成的目标样本之后,根据所述目标样本,计算所述第一样本与所述第二样本的相似值,并根据所述相似值,计算所述生成层的生成损失,将所述生成损失反向输入所述生成层,更新所述生成层的参数。
8.如权利要求5所述的适用于基因表达谱的分类模型构建装置,其特征在于,所述将所述分类损失反向输入所述初始分类模型,更新所述初始分类模型的参数,得到目标分类模型,具体为:
将所述分类损失分别反向输入所述生成层和所述选择层,更新所述生成层和所述选择层的参数。
9.一种适用于基因表达谱的分类模型,其特征在于,所述分类模型是应用如权利要求1~4任一项所述的适用于基因表达谱的分类模型构建方法而获得。
10.一种适用于基因表达谱的分类方法,其特征在于,包括:
从获取的基因表达谱数据集中选择第四样本和第五样本,并将所述第四样本和所述第五样本输入如权利要求9所述的适用于基因表达谱的分类模型,得到分类结果。
CN202010221082.8A 2020-03-25 2020-03-25 一种分类模型构建方法、装置、分类模型及分类方法 Active CN111462817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010221082.8A CN111462817B (zh) 2020-03-25 2020-03-25 一种分类模型构建方法、装置、分类模型及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010221082.8A CN111462817B (zh) 2020-03-25 2020-03-25 一种分类模型构建方法、装置、分类模型及分类方法

Publications (2)

Publication Number Publication Date
CN111462817A CN111462817A (zh) 2020-07-28
CN111462817B true CN111462817B (zh) 2023-06-20

Family

ID=71683264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010221082.8A Active CN111462817B (zh) 2020-03-25 2020-03-25 一种分类模型构建方法、装置、分类模型及分类方法

Country Status (1)

Country Link
CN (1) CN111462817B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164420B (zh) * 2020-09-07 2021-07-20 厦门艾德生物医药科技股份有限公司 一种基因组瘢痕模型的建立方法
CN113034123B (zh) * 2021-02-19 2024-03-12 腾讯科技(深圳)有限公司 异常资源转移识别方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法
CN109816002A (zh) * 2019-01-11 2019-05-28 广东工业大学 基于特征自迁移的单一稀疏自编码器弱小目标检测方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN109978071A (zh) * 2019-04-03 2019-07-05 西北工业大学 基于数据增广和分类器融合的高光谱图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法
CN109816002A (zh) * 2019-01-11 2019-05-28 广东工业大学 基于特征自迁移的单一稀疏自编码器弱小目标检测方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN109978071A (zh) * 2019-04-03 2019-07-05 西北工业大学 基于数据增广和分类器融合的高光谱图像分类方法

Also Published As

Publication number Publication date
CN111462817A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
Lucca et al. CC-integrals: Choquet-like copula-based aggregation functions and its application in fuzzy rule-based classification systems
EP3467723B1 (en) Machine learning based network model construction method and apparatus
Ali et al. A meta-learning approach to automatic kernel selection for support vector machines
US9323886B2 (en) Performance predicting apparatus, performance predicting method, and program
CN102737278B (zh) 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络
Bashar et al. Performance of machine learning algorithms in predicting the pavement international roughness index
CN111723674B (zh) 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法
CN105975573A (zh) 一种基于knn的文本分类方法
CN111462817B (zh) 一种分类模型构建方法、装置、分类模型及分类方法
Todorov et al. Machine learning driven seismic performance limit state identification for performance-based seismic design of bridge piers
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
Chen et al. Max-margin discriminant projection via data augmentation
CN114530248A (zh) 确定心血管疾病潜在不适当处方的风险预警模型的方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN112541541B (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
CN115661498A (zh) 一种自优化单细胞聚类方法
Chen et al. Robust dual-graph regularized and minimum redundancy based on self-representation for semi-supervised feature selection
US20220084306A1 (en) Method and system of guiding a user on a graphical interface with computer vision
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
CN114936890A (zh) 一种基于逆倾向加权方法的反事实公平的推荐方法
CN111340067B (zh) 一种用于多视图分类的再分配方法
CN114429460A (zh) 一种基于属性感知关系推理的通用图像美学评估方法和装置
CN110647630A (zh) 检测同款商品的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant