CN110782949A - 一种基于最大最小化序列搜索的多层基因加权分组方法 - Google Patents
一种基于最大最小化序列搜索的多层基因加权分组方法 Download PDFInfo
- Publication number
- CN110782949A CN110782949A CN201911005419.5A CN201911005419A CN110782949A CN 110782949 A CN110782949 A CN 110782949A CN 201911005419 A CN201911005419 A CN 201911005419A CN 110782949 A CN110782949 A CN 110782949A
- Authority
- CN
- China
- Prior art keywords
- feature
- search
- algorithm
- sequence
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 29
- 201000010099 disease Diseases 0.000 claims abstract description 20
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 20
- 238000010845 search algorithm Methods 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims abstract description 8
- 210000000349 chromosome Anatomy 0.000 claims description 12
- 230000002068 genetic effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于最大最小化序列搜索的多层基因加权分组方法,包括以下步骤:步骤一,使用序列搜索法计算特征组个数t的取值范围;步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度;步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘。本发明通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
Description
技术领域
本发明涉及一种确定基因特征组个数的解析方法,具体涉及一种基于最大最小化序列搜索的多层基因加权分组方法,属于生物信息处理领域。
背景技术
随着当今世界科学技术的飞速发展,大量的生物学问题需要进行处理,对超高维基因数据进行特征组分析,成为了研究基因如何影响不同种类的疾病的关键。然而,在基因数据内部,特征组的个数、基本分布和结构等是不可知的。现有方法中存在以下问题:
第一,对于确定基因特征组的个数,传统方法是随机设置或采用网格搜索乃至暴力搜索来确定的,需要搜索整个特征空间,计算复杂度极高,在实验和产业化过程中可操作性差;
第二,目前常用的子空间聚类算法,它通过给每个单独特征赋予权重,并使用这些权重来识别重要特征,从中可以发现聚类的子空间结构,但是该方法是基于前期获得的特征组个数目和特征结构,由于获取特征数目和结构真实信息的成本高昂和技术困难,通常在聚类算法中随机设定特征数量,高维数据的自然结构很容易被误解,所以此聚类算法受初始化影响大,而变得不准确和不稳定;
第三,在实际数据中,常存在多层分组结构(层级结构),且每一层的每一个分组具有不同的权重,该结构和权重的挖掘,能极大提高利用基因预测疾病的准确程度。但目前已知算法,只能对超高维基因数据进行一次分组,且在权重计算方面的解析方法尚为空白。
为此,如何提供一种确定基因特征组个数,挖掘超高维基因数据的多层加权特征分组结构,从而提高疾病预测精确度的解析方法是本发明的研究目的。
发明内容
针对上述技术的不足,本发明提供一种基于最大最小化序列搜索的多层基因加权分组方法,通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
为解决上述技术问题,本发明所采用的技术方案为:
一种基于最大最小化序列搜索的多层基因加权分组方法,包括以下步骤:
步骤一,使用序列搜索法计算特征组个数t的取值范围:
(2)建立一系列类似的策略集SN,并寻找使得:
步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度:
算法1:基于序列搜索的特征组个数搜索算法:
输出:较优秀的若干特征分组数t;
(2)针对T集中每个tn,随机构建20个特征分组,作为达尔文进化理论中的染色体预备优化,并利用每个特征分组对基因数据聚类;
(3)利用无监督聚类系数(Davies Bouldin Index)选出10个较好的染色体;
(4)使用达尔文生物进化理论中的突变和交叉算法生成新的染色体;
(5)重复(3)-(4)共10次,记录最后最好的10个染色体对应的t值;
(6)计算10个相应聚类结果的比较系数。
步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘:
算法2:超高维数据层级结构挖掘
输出:数据集内部特征分组的层级结构;
(1)将所有t值两两配对,如t1,t2,观察对应的V0矩阵,记录两种分组方法中都被分在同一组的特征的个数
(3)比较所有的r值,记录最高值和平均值;
(4)将r值最高的若干组中的重合特征,构建成层级结构;
(5)加入权重因素;
(6)重复步骤(1)-(4),记录数值;
(7)进行后续的疾病预测工作。
本发明的有益效果是:第一,本发明基于“最小最大化搜索”这一数学理论,提出了针对超高维基因数据的特征分组个数搜索方法,避免了暴力搜索和随机设置,计算复杂度低,准确度高,为后续的基因特征结构挖掘提供了准确信息;第二,本发明在获知特征分组个数后,采取了动态的达尔文演化方法来优化特征分组的内部结构和权重,去除了初始化对结果的影响,具有完全的计算稳定性;第三,本发明最大创新在于,在基因数据中挖掘了多层加权的特征结构,由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
附图说明
图1是本发明超高维基因数据中多层分组结构的示意图。
具体实施方式
本发明提出了一种基于最大最小化序列搜索的多层基因加权分组方法,通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
本发明的基于最大最小化序列搜索的多层基因加权分组方法,包括以下步骤:
步骤一,使用序列搜索法计算特征组个数t的取值范围:
在以往的研究中可以发现,数量较少的特征组个数t较之数量较高的t,可以提供更精确的分组。重要原因之一,是当t值较低,特征组较大时,容易将正确的分组包含在组内。因此,常用的t值估值方法为:t≤m/fmax,其中, m是特征总个数,fmax是子空间聚类所需特征信息的最大数量。但实际上,在高维数据中,常存在多层的组结构,甚至是层级结构。也就是说,多种分组方法可以同时存在,允许多个t值提供近似的机器学习精确度。如果使用暴力搜索或者网格搜索,对超高维数据而言计算成本过大。因此,本发明提供一种最小最大搜索法,该方法用于搜索未知函数中的参数或优化问题的策略。以特征组个数t 为例,在未知机器学习目的的情况下,求解一个或多个最优t值。如果把它看作一个离散问题,计算量是巨大的;相反,把它当做一个寻找长度为L(D)的区间D,通过不断缩小L(D),找到合适的t值。
首先,建立若干策略集其中,t1∈[1,N]是随机设定的特征组个数初始值,是搜索t2,…,tn的策略,举例说明,策略可以为而数值区间的起始点s和终结点t 是随着t2,…,tn的完成逐渐求得。由于该问题的目标函数未知,本发明将建立一系列类似的策略集SN,并寻找使得:
由此至少可以得出一个合适的搜索策略通常,第n个斐波那契数Un可以用来构建策略而可以提供以下策略集:x1=Un-1/Un+1, x2=lx1=Un/Un+1,由于并由此产生使得:在这过程中逐次缩小每个策略集的上下界并缩小可能的t取值范围。一个常规的经验值为:即黄金分割数,由此,建立了基于最小最大序列的特征组个数搜索算法。
步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度:
尽管许多基因特征被用来描述高维基因空间,但在实际应用场景中,只需要其中的一小部分有效特征组来进行聚类、分类或者其他机器学习。因此,利用少部分有效特征组进行子空间聚类算法性能优于一般基于距离的聚类算法。随着维数增加,搜索策略受到噪声影响更大,如果噪声和冗余数据被容纳入较大的特征组,会造成子空间算法较大偏差,针对此,本发明使用算法1提高特征分组的精度。
算法1,基于序列搜索的特征组个数搜索算法:输入数据集X、特征组搜索参数输出较优秀的若干特征分组数t;首先给定X的特征个数m,建立组数集T={t1,t2,…,tn},设定t1=m,依次完成T的构建;然后针对T集中每个tn,随机构建20个特征分组,作为达尔文进化理论中的染色体预备优化,并利用每个特征分组对基因数据聚类;接着利用无监督聚类系数 (Davies Bouldin Index)选出10个较好的染色体,并使用达尔文生物进化理论中的突变和交叉算法生成新的染色体;重复(3)-(4)共10次,记录最后最好的10个染色体对应的t值;最后计算10个相应聚类结果的比较系数如兰德系数(rand index)等。针对不同的数据集和应用场景,可能需要不同个数的较优t值,而在后续的研究中,不难发现,多个特征分组方法的相互比较,可以进一步学习数据的内部结构。
步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘,如图1:
综合步骤一和步骤二可以得出,多个特征组个数t的取值可能同时提供较优的机器学习结果,而当将这些不同的特征分组进行比对时,不难发现,它们重合度较高,可以形成一种层级结构。针对此,本发明使用算法2对潜在的超高维数据层级结构进行挖掘。
算法2,超高维数据层级结构挖掘:输入超高维数据集X,较优特征分组集输出数据集内部特征分组的层级结构;首先将所有t值两两配对,如t1,t2,观察对应的V0矩阵,记录两种分组方法中都被分在同一组的特征的个数然后求得两个特征分组的重合率比较所有的r值,记录最高值和平均值;接着将r值最高的若干组中的重合特征,构建成层级结构;最后加入权重因素;重复步骤(1)-(4),记录数值,进行后续的疾病预测工作。
本发明通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (4)
1.一种基于最大最小化序列搜索的多层基因加权分组方法,其特征在于:包括以下步骤:步骤一,使用序列搜索法计算特征组个数t的取值范围;步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度;步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘。
2.根据权利要求1所述的一种基于最大最小化序列搜索的多层基因加权分组方法,其特征在于:所述的步骤一包括:(1)建立若干个策略集S,其中,t1∈[1,N]是随机设定的特征组个数初始值,是搜索t2,…,tn的策略,举例说明,策略可以为而数值区间的起始点s和终结点t是随着t2,…,tn的完成逐渐求得;(2)建立一系列类似的策略集SN,并寻找使得:由此可以得出一个合适的搜索策略(3)第n个斐波那契数Un可以用来构建策略而可以提供以下策略集:x1=Un-1/Un+1,x2=lx1=Un/Un+1,由于并由此产生使得:(4)在这一过程中逐次缩小每个策略集的上下界并缩小特征组个数t的取值范围,可以得出常规的经验值:即黄金分割数,由此建立了基于最小最大序列的特征组个数搜索算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911005419.5A CN110782949A (zh) | 2019-10-22 | 2019-10-22 | 一种基于最大最小化序列搜索的多层基因加权分组方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911005419.5A CN110782949A (zh) | 2019-10-22 | 2019-10-22 | 一种基于最大最小化序列搜索的多层基因加权分组方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110782949A true CN110782949A (zh) | 2020-02-11 |
Family
ID=69386271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911005419.5A Pending CN110782949A (zh) | 2019-10-22 | 2019-10-22 | 一种基于最大最小化序列搜索的多层基因加权分组方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782949A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779472A (zh) * | 2021-07-30 | 2021-12-10 | 阿里巴巴(中国)有限公司 | 内容审核方法、装置及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040126782A1 (en) * | 2002-06-28 | 2004-07-01 | Holden David P. | System and method for SNP genotype clustering |
CN101097585A (zh) * | 2006-06-29 | 2008-01-02 | 中国科学院上海生命科学研究院 | 一种用于芯片数据分析的可视化分析和展示方法 |
US20090307248A1 (en) * | 2006-03-31 | 2009-12-10 | Cira Discovery Sciences, Inc. | Method and Apparatus for Representing Multidimensional Data |
CN104063459A (zh) * | 2014-06-26 | 2014-09-24 | 中国科学院微生物研究所 | 一种基于流感病毒刺激的细胞差异基因数据分类系统 |
CN106202999A (zh) * | 2016-07-21 | 2016-12-07 | 厦门大学 | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
CN107273909A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 高维数据的分类算法 |
US20180157792A1 (en) * | 2016-11-11 | 2018-06-07 | Seven Bridges Genomics Inc. | Systems and methods for aligning sequences to personalized references |
CN108595499A (zh) * | 2018-03-18 | 2018-09-28 | 西安财经学院 | 一种克隆优化的粒子群聚类高维数据分析方法 |
CN108875894A (zh) * | 2018-05-30 | 2018-11-23 | 吉林大学 | 子空间淘汰式随机搜索优化方法 |
CN109299142A (zh) * | 2018-11-14 | 2019-02-01 | 中山大学 | 一种基于进化算法的卷积神经网络结构搜索方法及系统 |
-
2019
- 2019-10-22 CN CN201911005419.5A patent/CN110782949A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040126782A1 (en) * | 2002-06-28 | 2004-07-01 | Holden David P. | System and method for SNP genotype clustering |
US20090307248A1 (en) * | 2006-03-31 | 2009-12-10 | Cira Discovery Sciences, Inc. | Method and Apparatus for Representing Multidimensional Data |
CN101097585A (zh) * | 2006-06-29 | 2008-01-02 | 中国科学院上海生命科学研究院 | 一种用于芯片数据分析的可视化分析和展示方法 |
CN104063459A (zh) * | 2014-06-26 | 2014-09-24 | 中国科学院微生物研究所 | 一种基于流感病毒刺激的细胞差异基因数据分类系统 |
CN107273909A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 高维数据的分类算法 |
CN106202999A (zh) * | 2016-07-21 | 2016-12-07 | 厦门大学 | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 |
US20180157792A1 (en) * | 2016-11-11 | 2018-06-07 | Seven Bridges Genomics Inc. | Systems and methods for aligning sequences to personalized references |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
CN108595499A (zh) * | 2018-03-18 | 2018-09-28 | 西安财经学院 | 一种克隆优化的粒子群聚类高维数据分析方法 |
CN108875894A (zh) * | 2018-05-30 | 2018-11-23 | 吉林大学 | 子空间淘汰式随机搜索优化方法 |
CN109299142A (zh) * | 2018-11-14 | 2019-02-01 | 中山大学 | 一种基于进化算法的卷积神经网络结构搜索方法及系统 |
Non-Patent Citations (2)
Title |
---|
王明怡, 王德林, 黄金钟: "基于概率神经网络的基因选择和组织分类方法", 科技通报, no. 01 * |
赵杰文, 邹小波, 潘胤飞, 刘少鹏: "基于遗传神经网络的苹果气味识别方法研究", 江苏大学学报(自然科学版), no. 01 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779472A (zh) * | 2021-07-30 | 2021-12-10 | 阿里巴巴(中国)有限公司 | 内容审核方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | A weight-incorporated similarity-based clustering ensemble method based on swarm intelligence | |
CN108733976B (zh) | 基于融合生物与拓扑特征的关键蛋白质识别方法 | |
CN111581829A (zh) | 一种改进差分灰狼算法优化支持向量回归的带钢厚度预测方法 | |
CN107992645B (zh) | 基于混沌-烟花混合算法的污水处理过程软测量建模方法 | |
CN106779219A (zh) | 一种用电量预测方法及系统 | |
CN114662406A (zh) | 机器学习辅助建立岩石节理峰值抗剪强度预测模型的方法 | |
CN111079788A (zh) | 一种基于密度Canopy的K-means聚类方法 | |
CN110110447B (zh) | 一种混合蛙跳反馈极限学习机带钢厚度预测方法 | |
CN116720090A (zh) | 一种基于层次的自适应聚类方法 | |
CN110782949A (zh) | 一种基于最大最小化序列搜索的多层基因加权分组方法 | |
CN109711439A (zh) | 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法 | |
Alok et al. | Simultaneous feature selection and clustering of micro-array and RNA-sequence gene expression data using multiobjective optimization | |
CN112149052A (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
Maulik et al. | Finding multiple coherent biclusters in microarray data using variable string length multiobjective genetic algorithm | |
CN110298058A (zh) | 一种电网监管指标关键要素提取方法及装置 | |
CN116089801A (zh) | 一种基于多重置信度的医疗数据缺失值修复的方法 | |
CN115600913A (zh) | 一种用于智能矿山的主数据识别方法 | |
Singh et al. | An effort to developing the knowledge base in data mining by factor analysis and soft computing methodology | |
Saha et al. | Unsupervised and supervised learning approaches together for microarray analysis | |
CN118070928B (zh) | 一种工业过程关键性指标软测量建模方法 | |
Chen et al. | Optimization Simulation of Big Data Analysis Model Based on K-means Algorithm | |
Skreti et al. | Shape-influenced clustering of dynamic patterns of gene profiles | |
Fan et al. | A Text Clustering Method Based On The Improved Heuristic Three-parent Genetic Algorithm | |
Wu et al. | A Dynamic Time Warping Based RBFNN Model for Multi-User Time Series Prediction | |
Goyal et al. | A comparative analysis of simulated annealing based intuitionistic fuzzy k-mode algorithm for clustering categorical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200211 |