CN110782949A - 一种基于最大最小化序列搜索的多层基因加权分组方法 - Google Patents

一种基于最大最小化序列搜索的多层基因加权分组方法 Download PDF

Info

Publication number
CN110782949A
CN110782949A CN201911005419.5A CN201911005419A CN110782949A CN 110782949 A CN110782949 A CN 110782949A CN 201911005419 A CN201911005419 A CN 201911005419A CN 110782949 A CN110782949 A CN 110782949A
Authority
CN
China
Prior art keywords
feature
search
algorithm
sequence
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911005419.5A
Other languages
English (en)
Inventor
王文婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911005419.5A priority Critical patent/CN110782949A/zh
Publication of CN110782949A publication Critical patent/CN110782949A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于最大最小化序列搜索的多层基因加权分组方法,包括以下步骤:步骤一,使用序列搜索法计算特征组个数t的取值范围;步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度;步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘。本发明通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。

Description

一种基于最大最小化序列搜索的多层基因加权分组方法
技术领域
本发明涉及一种确定基因特征组个数的解析方法,具体涉及一种基于最大最小化序列搜索的多层基因加权分组方法,属于生物信息处理领域。
背景技术
随着当今世界科学技术的飞速发展,大量的生物学问题需要进行处理,对超高维基因数据进行特征组分析,成为了研究基因如何影响不同种类的疾病的关键。然而,在基因数据内部,特征组的个数、基本分布和结构等是不可知的。现有方法中存在以下问题:
第一,对于确定基因特征组的个数,传统方法是随机设置或采用网格搜索乃至暴力搜索来确定的,需要搜索整个特征空间,计算复杂度极高,在实验和产业化过程中可操作性差;
第二,目前常用的子空间聚类算法,它通过给每个单独特征赋予权重,并使用这些权重来识别重要特征,从中可以发现聚类的子空间结构,但是该方法是基于前期获得的特征组个数目和特征结构,由于获取特征数目和结构真实信息的成本高昂和技术困难,通常在聚类算法中随机设定特征数量,高维数据的自然结构很容易被误解,所以此聚类算法受初始化影响大,而变得不准确和不稳定;
第三,在实际数据中,常存在多层分组结构(层级结构),且每一层的每一个分组具有不同的权重,该结构和权重的挖掘,能极大提高利用基因预测疾病的准确程度。但目前已知算法,只能对超高维基因数据进行一次分组,且在权重计算方面的解析方法尚为空白。
为此,如何提供一种确定基因特征组个数,挖掘超高维基因数据的多层加权特征分组结构,从而提高疾病预测精确度的解析方法是本发明的研究目的。
发明内容
针对上述技术的不足,本发明提供一种基于最大最小化序列搜索的多层基因加权分组方法,通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
为解决上述技术问题,本发明所采用的技术方案为:
一种基于最大最小化序列搜索的多层基因加权分组方法,包括以下步骤:
步骤一,使用序列搜索法计算特征组个数t的取值范围:
(1)建立若干个策略集S,其中,t1∈[1,N] 是随机设定的特征组个数初始值,
Figure RE-GDA0002323951680000022
是搜索t2,…,tn的策略,举例说明,策略可以为
Figure RE-GDA0002323951680000023
而数值区间的起始点s和终结点t 是随着t2,…,tn的完成逐渐求得;
(2)建立一系列类似的策略集SN,并寻找使得:
Figure RE-GDA0002323951680000025
由此可以得出一个合适的搜索策略
Figure RE-GDA0002323951680000026
(3)第n个斐波那契数Un可以用来构建策略
Figure RE-GDA0002323951680000027
可以提供以下策略集:x1=Un-1/Un+1,x2=lx1=Un/Un+1,由于
Figure RE-GDA0002323951680000029
并由此产生
Figure RE-GDA00023239516800000210
使得:
Figure RE-GDA00023239516800000211
(4)在这一过程中逐次缩小每个策略集的上下界并缩小特征组个数t的取值范围,可以得出常规的经验值:
Figure RE-GDA00023239516800000212
即黄金分割数,由此建立了基于最小最大序列的特征组个数搜索算法。
步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度:
算法1:基于序列搜索的特征组个数搜索算法:
输入:数据集X,特征组搜索参数
Figure RE-GDA00023239516800000213
输出:较优秀的若干特征分组数t;
(1)给定X的特征个数m,建立组数集T={t1,t2,…,tn},设定t1=m,
Figure RE-GDA0002323951680000031
依次完成T的构建;
(2)针对T集中每个tn,随机构建20个特征分组,作为达尔文进化理论中的染色体预备优化,并利用每个特征分组对基因数据聚类;
(3)利用无监督聚类系数(Davies Bouldin Index)选出10个较好的染色体;
(4)使用达尔文生物进化理论中的突变和交叉算法生成新的染色体;
(5)重复(3)-(4)共10次,记录最后最好的10个染色体对应的t值;
(6)计算10个相应聚类结果的比较系数。
步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘:
算法2:超高维数据层级结构挖掘
输入:超高维数据集X,较优特征分组集
Figure RE-GDA0002323951680000032
输出:数据集内部特征分组的层级结构;
(1)将所有t值两两配对,如t1,t2,观察对应的V0矩阵,记录两种分组方法中都被分在同一组的特征的个数
(2)求得两个特征分组的重合率
Figure RE-GDA0002323951680000034
(3)比较所有的r值,记录最高值和平均值;
(4)将r值最高的若干组中的重合特征,构建成层级结构;
(5)加入权重因素;
(6)重复步骤(1)-(4),记录数值;
(7)进行后续的疾病预测工作。
本发明的有益效果是:第一,本发明基于“最小最大化搜索”这一数学理论,提出了针对超高维基因数据的特征分组个数搜索方法,避免了暴力搜索和随机设置,计算复杂度低,准确度高,为后续的基因特征结构挖掘提供了准确信息;第二,本发明在获知特征分组个数后,采取了动态的达尔文演化方法来优化特征分组的内部结构和权重,去除了初始化对结果的影响,具有完全的计算稳定性;第三,本发明最大创新在于,在基因数据中挖掘了多层加权的特征结构,由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
附图说明
图1是本发明超高维基因数据中多层分组结构的示意图。
具体实施方式
本发明提出了一种基于最大最小化序列搜索的多层基因加权分组方法,通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
本发明的基于最大最小化序列搜索的多层基因加权分组方法,包括以下步骤:
步骤一,使用序列搜索法计算特征组个数t的取值范围:
在以往的研究中可以发现,数量较少的特征组个数t较之数量较高的t,可以提供更精确的分组。重要原因之一,是当t值较低,特征组较大时,容易将正确的分组包含在组内。因此,常用的t值估值方法为:t≤m/fmax,其中, m是特征总个数,fmax是子空间聚类所需特征信息的最大数量。但实际上,在高维数据中,常存在多层的组结构,甚至是层级结构。也就是说,多种分组方法可以同时存在,允许多个t值提供近似的机器学习精确度。如果使用暴力搜索或者网格搜索,对超高维数据而言计算成本过大。因此,本发明提供一种最小最大搜索法,该方法用于搜索未知函数中的参数或优化问题的策略。以特征组个数t 为例,在未知机器学习目的的情况下,求解一个或多个最优t值。如果把它看作一个离散问题,计算量是巨大的;相反,把它当做一个寻找长度为L(D)的区间D,通过不断缩小L(D),找到合适的t值。
首先,建立若干策略集
Figure RE-GDA0002323951680000041
其中,t1∈[1,N]是随机设定的特征组个数初始值,
Figure RE-GDA0002323951680000042
是搜索t2,…,tn的策略,举例说明,策略可以为而数值区间的起始点s和终结点t 是随着t2,…,tn的完成逐渐求得。由于该问题的目标函数未知,本发明将建立一系列类似的策略集SN,并寻找
Figure RE-GDA0002323951680000044
使得:
Figure RE-GDA0002323951680000051
由此至少可以得出一个合适的搜索策略通常,第n个斐波那契数Un可以用来构建策略
Figure RE-GDA0002323951680000054
可以提供以下策略集:x1=Un-1/Un+1, x2=lx1=Un/Un+1,由于
Figure RE-GDA0002323951680000055
并由此产生
Figure RE-GDA0002323951680000056
使得:
Figure RE-GDA0002323951680000057
在这过程中逐次缩小每个策略集的上下界并缩小可能的t取值范围。一个常规的经验值为:即黄金分割数,由此,建立了基于最小最大序列的特征组个数搜索算法。
步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度:
尽管许多基因特征被用来描述高维基因空间,但在实际应用场景中,只需要其中的一小部分有效特征组来进行聚类、分类或者其他机器学习。因此,利用少部分有效特征组进行子空间聚类算法性能优于一般基于距离的聚类算法。随着维数增加,搜索策略受到噪声影响更大,如果噪声和冗余数据被容纳入较大的特征组,会造成子空间算法较大偏差,针对此,本发明使用算法1提高特征分组的精度。
算法1,基于序列搜索的特征组个数搜索算法:输入数据集X、特征组搜索参数
Figure RE-GDA0002323951680000059
输出较优秀的若干特征分组数t;首先给定X的特征个数m,建立组数集T={t1,t2,…,tn},设定t1=m,依次完成T的构建;然后针对T集中每个tn,随机构建20个特征分组,作为达尔文进化理论中的染色体预备优化,并利用每个特征分组对基因数据聚类;接着利用无监督聚类系数 (Davies Bouldin Index)选出10个较好的染色体,并使用达尔文生物进化理论中的突变和交叉算法生成新的染色体;重复(3)-(4)共10次,记录最后最好的10个染色体对应的t值;最后计算10个相应聚类结果的比较系数如兰德系数(rand index)等。针对不同的数据集和应用场景,可能需要不同个数的较优t值,而在后续的研究中,不难发现,多个特征分组方法的相互比较,可以进一步学习数据的内部结构。
步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘,如图1:
综合步骤一和步骤二可以得出,多个特征组个数t的取值可能同时提供较优的机器学习结果,而当将这些不同的特征分组进行比对时,不难发现,它们重合度较高,可以形成一种层级结构。针对此,本发明使用算法2对潜在的超高维数据层级结构进行挖掘。
算法2,超高维数据层级结构挖掘:输入超高维数据集X,较优特征分组集输出数据集内部特征分组的层级结构;首先将所有t值两两配对,如t1,t2,观察对应的V0矩阵,记录两种分组方法中都被分在同一组的特征的个数
Figure RE-GDA0002323951680000062
然后求得两个特征分组的重合率
Figure RE-GDA0002323951680000063
比较所有的r值,记录最高值和平均值;接着将r值最高的若干组中的重合特征,构建成层级结构;最后加入权重因素;重复步骤(1)-(4),记录数值,进行后续的疾病预测工作。
本发明通过利用“最小最大化序列搜索”,寻找最利于后续基因分析的特征分组个数和特征结构,以及特征组的权重等信息;并由此针对某种特定疾病,寻找与之相关的特征组,降低了疾病预测的计算成本,并提高了预测的精确度。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (4)

1.一种基于最大最小化序列搜索的多层基因加权分组方法,其特征在于:包括以下步骤:步骤一,使用序列搜索法计算特征组个数t的取值范围;步骤二,基于最小最大序列的特征组个数搜索算法,使用算法1提高特征分组的精度;步骤三,基于最小最大序列的特征组个数搜索算法,使用算法2对潜在的超高维数据层级结构进行挖掘。
2.根据权利要求1所述的一种基于最大最小化序列搜索的多层基因加权分组方法,其特征在于:所述的步骤一包括:(1)建立若干个策略集S,
Figure RE-FDA0002323951670000011
其中,t1∈[1,N]是随机设定的特征组个数初始值,是搜索t2,…,tn的策略,举例说明,策略可以为
Figure RE-FDA0002323951670000013
而数值区间的起始点s和终结点t是随着t2,…,tn的完成逐渐求得;(2)建立一系列类似的策略集SN,并寻找
Figure RE-FDA0002323951670000014
使得:由此可以得出一个合适的搜索策略
Figure RE-FDA0002323951670000015
(3)第n个斐波那契数Un可以用来构建策略
Figure RE-FDA0002323951670000016
Figure RE-FDA0002323951670000017
可以提供以下策略集:x1=Un-1/Un+1,x2=lx1=Un/Un+1,由于并由此产生
Figure RE-FDA0002323951670000019
使得:(4)在这一过程中逐次缩小每个策略集的上下界并缩小特征组个数t的取值范围,可以得出常规的经验值:
Figure RE-FDA00023239516700000111
即黄金分割数,由此建立了基于最小最大序列的特征组个数搜索算法。
3.根据权利要求1所述的一种基于最大最小化序列搜索的多层基因加权分组方法,其特征在于:所述的步骤二包括:(1)给定X的特征个数m,建立组数集T={t1,t2,…,tn},设定t1=m,
Figure RE-FDA00023239516700000112
依次完成T的构建;(2)针对T集中每个tn,随机构建20个特征分组,作为达尔文进化理论中的染色体预备优化,并利用每个特征分组对基因数据聚类;(3)利用无监督聚类系数(Davies BouldinIndex)选出10个较好的染色体;(4)使用达尔文生物进化理论中的突变和交叉算法生成新的染色体;(5)重复(3)-(4)共10次,记录最后最好的10个染色体对应的t值;(6)计算10个相应聚类结果的比较系数。
4.根据权利要求1所述的一种基于最大最小化序列搜索的多层基因加权分组方法,其特征在于:所述的步骤三包括:(1)将所有t值两两配对,如t1,t2,观察对应的V0矩阵,记录两种分组方法中都被分在同一组的特征的个数
Figure RE-FDA0002323951670000021
(2)求得两个特征分组的重合率
Figure RE-FDA0002323951670000022
(3)比较所有的r值,记录最高值和平均值;(4)将r值最高的若干组中的重合特征,构建成层级结构;(5)加入权重因素;(6)重复步骤(1)-(4),记录数值;(7)进行后续的疾病预测工作。
CN201911005419.5A 2019-10-22 2019-10-22 一种基于最大最小化序列搜索的多层基因加权分组方法 Pending CN110782949A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911005419.5A CN110782949A (zh) 2019-10-22 2019-10-22 一种基于最大最小化序列搜索的多层基因加权分组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911005419.5A CN110782949A (zh) 2019-10-22 2019-10-22 一种基于最大最小化序列搜索的多层基因加权分组方法

Publications (1)

Publication Number Publication Date
CN110782949A true CN110782949A (zh) 2020-02-11

Family

ID=69386271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911005419.5A Pending CN110782949A (zh) 2019-10-22 2019-10-22 一种基于最大最小化序列搜索的多层基因加权分组方法

Country Status (1)

Country Link
CN (1) CN110782949A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779472A (zh) * 2021-07-30 2021-12-10 阿里巴巴(中国)有限公司 内容审核方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040126782A1 (en) * 2002-06-28 2004-07-01 Holden David P. System and method for SNP genotype clustering
CN101097585A (zh) * 2006-06-29 2008-01-02 中国科学院上海生命科学研究院 一种用于芯片数据分析的可视化分析和展示方法
US20090307248A1 (en) * 2006-03-31 2009-12-10 Cira Discovery Sciences, Inc. Method and Apparatus for Representing Multidimensional Data
CN104063459A (zh) * 2014-06-26 2014-09-24 中国科学院微生物研究所 一种基于流感病毒刺激的细胞差异基因数据分类系统
CN106202999A (zh) * 2016-07-21 2016-12-07 厦门大学 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN106778832A (zh) * 2016-11-28 2017-05-31 华南理工大学 基于多目标优化的高维数据半监督集成分类方法
CN107273909A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 高维数据的分类算法
US20180157792A1 (en) * 2016-11-11 2018-06-07 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to personalized references
CN108595499A (zh) * 2018-03-18 2018-09-28 西安财经学院 一种克隆优化的粒子群聚类高维数据分析方法
CN108875894A (zh) * 2018-05-30 2018-11-23 吉林大学 子空间淘汰式随机搜索优化方法
CN109299142A (zh) * 2018-11-14 2019-02-01 中山大学 一种基于进化算法的卷积神经网络结构搜索方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040126782A1 (en) * 2002-06-28 2004-07-01 Holden David P. System and method for SNP genotype clustering
US20090307248A1 (en) * 2006-03-31 2009-12-10 Cira Discovery Sciences, Inc. Method and Apparatus for Representing Multidimensional Data
CN101097585A (zh) * 2006-06-29 2008-01-02 中国科学院上海生命科学研究院 一种用于芯片数据分析的可视化分析和展示方法
CN104063459A (zh) * 2014-06-26 2014-09-24 中国科学院微生物研究所 一种基于流感病毒刺激的细胞差异基因数据分类系统
CN107273909A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 高维数据的分类算法
CN106202999A (zh) * 2016-07-21 2016-12-07 厦门大学 基于不同尺度tuple词频的微生物高通量测序数据分析协议
US20180157792A1 (en) * 2016-11-11 2018-06-07 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to personalized references
CN106778832A (zh) * 2016-11-28 2017-05-31 华南理工大学 基于多目标优化的高维数据半监督集成分类方法
CN108595499A (zh) * 2018-03-18 2018-09-28 西安财经学院 一种克隆优化的粒子群聚类高维数据分析方法
CN108875894A (zh) * 2018-05-30 2018-11-23 吉林大学 子空间淘汰式随机搜索优化方法
CN109299142A (zh) * 2018-11-14 2019-02-01 中山大学 一种基于进化算法的卷积神经网络结构搜索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王明怡, 王德林, 黄金钟: "基于概率神经网络的基因选择和组织分类方法", 科技通报, no. 01 *
赵杰文, 邹小波, 潘胤飞, 刘少鹏: "基于遗传神经网络的苹果气味识别方法研究", 江苏大学学报(自然科学版), no. 01 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779472A (zh) * 2021-07-30 2021-12-10 阿里巴巴(中国)有限公司 内容审核方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Kang et al. A weight-incorporated similarity-based clustering ensemble method based on swarm intelligence
CN108733976B (zh) 基于融合生物与拓扑特征的关键蛋白质识别方法
CN111581829A (zh) 一种改进差分灰狼算法优化支持向量回归的带钢厚度预测方法
CN107992645B (zh) 基于混沌-烟花混合算法的污水处理过程软测量建模方法
CN106779219A (zh) 一种用电量预测方法及系统
CN114662406A (zh) 机器学习辅助建立岩石节理峰值抗剪强度预测模型的方法
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN110110447B (zh) 一种混合蛙跳反馈极限学习机带钢厚度预测方法
CN116720090A (zh) 一种基于层次的自适应聚类方法
CN110782949A (zh) 一种基于最大最小化序列搜索的多层基因加权分组方法
CN109711439A (zh) 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
Alok et al. Simultaneous feature selection and clustering of micro-array and RNA-sequence gene expression data using multiobjective optimization
CN112149052A (zh) 一种基于plr-dtw的日负荷曲线聚类方法
Maulik et al. Finding multiple coherent biclusters in microarray data using variable string length multiobjective genetic algorithm
CN110298058A (zh) 一种电网监管指标关键要素提取方法及装置
CN116089801A (zh) 一种基于多重置信度的医疗数据缺失值修复的方法
CN115600913A (zh) 一种用于智能矿山的主数据识别方法
Singh et al. An effort to developing the knowledge base in data mining by factor analysis and soft computing methodology
Saha et al. Unsupervised and supervised learning approaches together for microarray analysis
CN118070928B (zh) 一种工业过程关键性指标软测量建模方法
Chen et al. Optimization Simulation of Big Data Analysis Model Based on K-means Algorithm
Skreti et al. Shape-influenced clustering of dynamic patterns of gene profiles
Fan et al. A Text Clustering Method Based On The Improved Heuristic Three-parent Genetic Algorithm
Wu et al. A Dynamic Time Warping Based RBFNN Model for Multi-User Time Series Prediction
Goyal et al. A comparative analysis of simulated annealing based intuitionistic fuzzy k-mode algorithm for clustering categorical data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200211