CN110222089A - 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 - Google Patents
一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 Download PDFInfo
- Publication number
- CN110222089A CN110222089A CN201910468279.9A CN201910468279A CN110222089A CN 110222089 A CN110222089 A CN 110222089A CN 201910468279 A CN201910468279 A CN 201910468279A CN 110222089 A CN110222089 A CN 110222089A
- Authority
- CN
- China
- Prior art keywords
- column
- row
- matrix
- order
- columns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 193
- 238000005065 mining Methods 0.000 claims abstract description 32
- 230000009977 dual effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004880 explosion Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,包括以下步骤:S1、接收请求并挖掘数据矩阵的双聚类模式;S2、计算行和列的重叠度和覆盖率;S3、判断行列覆盖率是否收敛,若否则进行步骤S4,否则进行步骤S9;S4、随机打乱数据矩阵中行和列的排列顺序,对候选列集合排序;S5、判断候选列集合是否为空;S6、判断候选列集合中是否存在合格列;S7、根据新选出的合格列扩展双聚类模式的列集合和行集合;S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的要求;S9、计算每个双聚类模式的缺失值;S10、返回最终的双聚类集合和缺失值。因此,本发明有效地提高了双聚类模式的质量和缺失值预测的准确性。
Description
技术领域
本发明涉及双聚类模式挖掘领域,具体涉及一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法。
背景技术
一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找全局信息,无法找到局部信息,而大量的有趣信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出双聚类的概念。所谓双聚类,也叫子矩阵模式,是数据矩阵中具有局部相似性的一组行子集和一组列子集组合成的一个子矩阵,它表示这组行在这组列集合上的表现具有某种局部相似性。而双聚类挖掘就是通过在数据矩阵中挖掘出满足事先定义的子矩阵模型的所有子矩阵来捕获数据矩阵中有趣的局部相似性。例如,在推荐系统领域中,对于Netflix电影评分数据矩阵,一个双聚类是指具有局部相似性的一组用户子集和一组电影子集组成的一个子矩阵,它表示这些用户对这组电影的喜好是相似的。
目前关于双聚类的研究主要分为两类:无约束双聚类和分区双聚类。无约束双聚类能保证挖掘出的模式质量,但由于在挖掘过程中没有考虑到重叠和覆盖约束,可能导致搜索空间中模式数量爆炸和模式之间冗余度很高等问题,因此它主要在较小的数据矩阵中进行研究,这在诸如推荐系统和文本挖掘等现实应用中是不实际的。而分区双聚类虽然对于处理大型数据矩阵是有效的,但是它将模式限制为网格分布,即把数据矩阵强制划分成一个个互不相交的子矩阵,因此无法保证每个单一模式的质量。
保序子矩阵模型(OPSM)是子矩阵模型中具有代表性的一类,大量研究表明,OPSM模型及其放宽条件的变体模型能够很好地促进有趣的生物学相关性的发现。然而,当数据矩阵变得非常大时,这些方法不能很好地扩展。此外,在保序子矩阵模式挖掘过程中没有考虑到重叠或覆盖约束,也没有解决稀疏矩阵的问题。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,所述方法针对已有的双聚类方法的局限性,在双聚类挖掘过程中添加重叠度和覆盖率约束来控制模式的分布,避免模式冗余和模式数量爆炸,有效地提高了模式的质量;同时为了能够处理稀疏数据矩阵,提供了一种稀疏保序子矩阵模型,使得模式中允许存在缺失值;最后提供了一种线性拟合的方法计算模式中的缺失值,从而有效地提高了缺失值预测的准确性。
本发明至少通过如下技术方案之一实现。
一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,所述方法包括以下步骤:
S1、用户输入双聚类模式挖掘的请求内容,计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式;
S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率;
S3、判断行和列的覆盖率是否均已收敛,若否则进行步骤S4,若是则进行步骤S9;
S4、随机打乱数据矩阵中行和列的排列顺序,用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合,再对候选列集合中的列按照重叠度从小到大排序,若存在两列的重叠度相同,则按照列的随机排列顺序从小到大排序;
S5、判断候选列集合是否为空,若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息,若否则进行步骤S6;
S6、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记记为合格列并进行步骤S7,若否则进行步骤S8;
S7、更新当前双聚类模式:将步骤S6中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;
S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定,若是则将其保存在双聚类模式集合中,若否则将其丢弃;
S9、遍历当前双聚类模式集合,根据线性拟合方法计算每个双聚类模式中的缺失值;
S10、输出最终挖掘出的双聚类模式集合和缺失值的计算结果。
进一步的,步骤S1所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值rmin和tmin;
所述待挖掘的数据矩阵表示为M(R,T),其中R为数据矩阵的行集合,R={r1,...,rm},rm表示数据矩阵的第m行,T为数据矩阵的列集合,T={t1,...,tn},tn表示数据矩阵的第n列;
请求的目标是挖掘出一组满足稀疏保序子矩阵模型的子矩阵模式集合γ即双聚类模式集合,使得每个子矩阵包含至少rmin行和tmin列并且每行有效元素的密集度都不小于密集度阈值α并且每行有效元素的排列顺序是这个子矩阵列集合中列的排列顺序的一个子序,使得子矩阵模式集合γ在待挖掘的数据矩阵M上的行和列的覆盖率最大化,重叠度最小化。
进一步的,步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(rm,tn)其位置存储的是一个已知值,则称元素M(rm,tn)为有效元素或有效值,如果该位置没有存储任何值,则称元素M(rm,tn)为缺失元素或缺失值;
保序子矩阵的定义为:给定一个矩阵M(R,T)和M的一个子矩阵(P,Q),(P,Q)被称为保序子矩阵(OPSM)当且仅当存在Q的线性次序TQ使得P中的每一行都满足这个次序TQ,其中使用简单的符号M和(P,Q)分别表示数据矩阵M(R,T)及其子矩阵M(P,Q);
为了使挖掘出的子矩阵中允许存在缺失值,在保序子矩阵模型的基础上,给定一个密集度阈值α,若(P,Q)满足以下条件:
(2)P中每一行在Q上的密集度不小于密集度阈值α,即:D(r,Q)≥α,r∈P;
(2)存在Q的线性次序TQ使得P中每一行的有效元素的排列顺序都是TQ的一个子序,
则(P,Q)是稀疏保序子矩阵(SOPSM);
子矩阵(P,Q)的密集度为D(P,Q),D(P,Q)为子矩阵(P,Q)所有元素中的有效元素的比例,计算公式为:
其中ε(P,Q)表示子矩阵(P,Q)中有效元素的数量,|P|×|Q|表示矩阵的元素总数;同理,子矩阵(P,Q)中第r行的行密集度为:
其中,ε({r},Q)表示第r行在列集合Q上的有效元素的个数,|Q|表示列集合Q的元素个数。
进一步的,步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数;行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例;行和列的重叠度和覆盖率的计算方式如下:
数据矩阵M(R,T)和M的一组子矩阵模式集合γ={(P1,Q1),(P2,Q2),...,(Pk,Qk)},子矩模式集合γ中包含k个子矩阵,用d(r,t)表示在γ中覆盖元素M(r,t)的子矩阵的数量,即:
d(r,t)=|{(Pi,Qi)|(Pi,Qi)∈γ,r∈Pi,t∈Qi}|
把d(r,t)称为元素M(r,t)的重叠度;用ν(γ)表示子矩阵模式集合γ在矩阵M(R,T)上的最大重叠度:
为了提高计算效率,把矩阵中每个元素的重叠度简化为单一行重叠度和单一列重叠度,其中,第r行的重叠度用dR(r)表示,是指γ中覆盖第r行中任何元素的模式数量;同理,第t列的重叠度用dT(t)表示,是指γ中覆盖第t列中任何元素的模式数量,因此,子矩阵模式集合γ的最大行重叠度νR是指是矩阵M(R,T)中所有单一行的重叠度中的最大值,最大列重叠度νT是指矩阵M中所有单一列的重叠度中的最大值,即:
νR=max{dR(r)|r∈R}
νT=max{dT(t)|t∈T}
覆盖率包括行覆盖率和列覆盖率这两个指标,分别用cR(γ)和cT(γ)表示,其中,行覆盖率是指R中被至少一个子矩阵覆盖的行的比例,相似地,列覆盖率是指T中被至少一个子矩阵覆盖的列的比例,计算公式为:
其中,|R|表示待挖掘的数据矩阵中的行数,|T|表示待挖掘的数据矩阵中的列数,k表示子矩模式集合γ中包含的子矩阵的数量。
进一步的,步骤S3判断行列的覆盖率是否已经收敛:先判断当前迭代的行和列的覆盖率是否都达到100%,若是,则表示行和列的覆盖率已经收敛,则若否,则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较,若两次行和列覆盖率的的差值都小于0.01,则表示行和列的覆盖率已经收敛,否则表示行和列的覆盖率没有收敛。
进一步的,步骤S6所述的稀疏保序子矩阵模型的规定为:在双聚类模式中,行集合的元素个数不小于最小行数阈值rmin,列集合的元素个数不小于最小列数阈值tmin,有效行的密集度不小于密集度阈值α,且每行必须满足保序条件;
所述保序条件为该行在列集合上的有效值的排列顺序是列集合中列的排列顺序的一个子序;
所述有效行是指:满足新的列集合次序且行密集度不小于α的行;所述有效行的密集度是指该有效行在列集合上的有效值个数占列集合元素总个数的比例。
进一步的,所述的次序和子序分别做如下定义:
在包含h个元素的列集合Q={t1,...,th},th表示列集合Q的第h个元素,h=1~ih,Q的一个线性次序为其中,表示列集合Q中下标h=ih的元素,次数关系<满足反对称性、传递性和线性,称这样的列集合Q是次序TQ的关联集合;
在两个次序T1、T2和它们的关联集合Q1和Q2中,如果对于任意每对ti,tj∈Q1,ti和tj分别表示集合Q1中任意两个元素,即第ti列和第tj列;ti<tj在Q1和Q2中同时成立,则称T1是T2的一个子序;在次序和候选集合中第q列之间定义一个附加操作表示把第q列加入到次序TQ的末尾,即:
进一步的,步骤S7所述的更新双聚类模式的具体过程:将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾,并在候选列集合中删除该列,把对应的有效行加入到当前双聚类模式的行集合中;
合格的列满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值;
(2)把该列加入到当前模式的列集合Q后不会使当前双聚类模式集合γ的最大行重叠度增大;
若该列均满足这两个条件,则说明该列是合格的列;
步骤S7所述的有效行满足以下条件:
(1)把合格的列加入到子矩阵M(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
进一步的,步骤S8中判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
进一步的,步骤S9中缺失值的计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提供了一种带约束的双聚类挖掘方法,通过在双聚类挖掘过程中添加重叠度和覆盖率约束,来控制模式的分布,避免模式冗余和模式数量爆炸,有效地提高了模式的质量。
2、本发明在现有保序子矩阵模型的基础上提供了一种稀疏保序子矩阵模型,使得挖掘出的模式中允许存在缺失值,提高了方法的可扩展性,可以有效地处理稀疏数据矩阵。
3、本发明提供了一种线性拟合的方法用于计算模式中的缺失值,有效地提高了缺失值预测的准确性。
附图说明
图1为本发明实施例基于保序子矩阵的约束双聚类挖掘及缺失值预测方法的流程图;
图2为本发明实施例中采用线性拟合方法计算缺失值的示例图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明实施例在传统双聚类方法的基础上,加入了覆盖率约束和重叠度约束这两个限制条件,首先定义了一种稀疏保序子矩阵模型,然后重复扫描数据矩阵,不断搜索挖掘符合事先定义的稀疏保序子矩阵模型的双聚类模式,并且在挖掘过程中优先选择那些从未被覆盖或重叠度较少的行和列来扩展当前的双聚类模式,如果不能挖掘出更多符合条件的模式来覆盖新的行和列,这意味着行列覆盖率已经收敛,此时将停止扫描数据矩阵,最后按照线性拟合的方法计算每个双聚类模式中的缺失值。因此,本发明适用于稀疏数据矩阵,控制了挖掘出的双聚类模式的分布和重叠程度,有效地提高了双聚类模式的质量和缺失值预测的准确性。
下面对本发明实施例提供的基于保序子矩阵的约束双聚类挖掘及缺失值预测方法做详细说明,所述方法包括以下步骤:
S1、用户输入双聚类模式挖掘的请求内容,计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式;
所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值rmin和tmin;
所述待挖掘的数据矩阵表示为M(R,T),其中R为数据矩阵的行集合,R={r1,...,rm},rm表示数据矩阵的第m行,T为数据矩阵的列集合,T={t1,...,tn},tn表示数据矩阵的第n列;
请求的目标是挖掘出一组满足稀疏保序子矩阵模型的子矩阵模式集合γ即双聚类模式集合,使得每个子矩阵包含至少rmin行和tmin列并且每行有效元素的密集度都不小于密集度阈值α并且每行有效元素的排列顺序是这个子矩阵列集合中列的排列顺序的一个子序,使得子矩阵模式集合γ在待挖掘的数据矩阵M上的行和列的覆盖率最大化,重叠度最小化。
进一步的,步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(rm,tn)其位置存储的是一个已知值,则称元素M(rm,tn)为有效元素或有效值,如果该位置没有存储任何值,则称元素M(rm,tn)为缺失元素或缺失值;
保序子矩阵的定义为:给定一个矩阵M(R,T)和M的一个子矩阵(P,Q),(P,Q)被称为保序子矩阵(OPSM)当且仅当存在Q的线性次序TQ使得P中的每一行都满足这个次序TQ,其中使用简单的符号M和(P,Q)分别表示数据矩阵M(R,T)及其子矩阵M(P,Q);
为了使挖掘出的子矩阵中允许存在缺失值,在保序子矩阵模型的基础上,给定一个密集度阈值α,若(P,Q)满足以下条件:
(1)P中每一行在Q上的密集度不小于密集度阈值α,即:D(r,Q)≥α,r∈P;
(2)存在Q的线性次序TQ使得P中每一行的有效元素的排列顺序都是TQ的一个子序,
则(P,Q)是稀疏保序子矩阵(SOPSM);
子矩阵(P,Q)的密集度为D(P,Q),D(P,Q)为子矩阵(P,Q)所有元素中的有效元素的比例,计算公式为:
其中ε(P,Q)表示子矩阵(P,Q)中有效元素的数量,|P|×|Q|表示矩阵的元素总数;同理,子矩阵(P,Q)中第r行的行密集度为:
其中,ε({r},Q)表示第r行在列集合Q上的有效元素的个数,|Q|表示列集合Q的元素个数。
S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率;
步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数;行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例;行和列的重叠度和覆盖率的计算方式如下:
数据矩阵M(R,T)和M的一组子矩阵模式集合γ={(P1,Q1),(P2,Q2),...,(Pk,Qk)},子矩模式集合γ中包含k个子矩阵,用d(r,t)表示在γ中覆盖元素M(r,t)的子矩阵的数量,即:
d(r,t)=|{(Pi,Qi)|(Pi,Qi)∈γ,r∈Pi,t∈Qi}|
把d(r,t)称为元素M(r,t)的重叠度;用ν(γ)表示子矩阵模式集合γ在矩阵M(R,T)上的最大重叠度:
为了提高计算效率,把矩阵中每个元素的重叠度简化为单一行重叠度和单一列重叠度,其中,第r行的重叠度用dR(r)表示,是指γ中覆盖第r行中任何元素的模式数量;同理,第t列的重叠度用dT(t)表示,是指γ中覆盖第t列中任何元素的模式数量,因此,子矩阵模式集合γ的最大行重叠度νR是指是矩阵M(R,T)中所有单一行的重叠度中的最大值,最大列重叠度νT是指矩阵M中所有单一列的重叠度中的最大值,即:
νR=max{dR(r)|r∈R}
νT=max{dT(t)|t∈T}
覆盖率包括行覆盖率和列覆盖率这两个指标,分别用cR(γ)和cT(γ)表示,其中,行覆盖率是指R中被至少一个子矩阵覆盖的行的比例,相似地,列覆盖率是指T中被至少一个子矩阵覆盖的列的比例,计算公式为:
其中,|R|表示待挖掘的数据矩阵中的行数,|T|表示待挖掘的数据矩阵中的列数,k表示子矩模式集合γ中包含的子矩阵的数量。
S3、判断行和列的覆盖率是否均已收敛,若否则进行步骤S4,若是则进行步骤S9;
判断行和列的覆盖率是否已经收敛,具体为:先判断当前迭代的行和列的覆盖率是否都达到100%,若是,则表示行和列的覆盖率已经收敛,则若否,则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较,若两次行和列覆盖率的差值都小于0.01,则表示行和列的覆盖率已经收敛,否则表示行和列的覆盖率没有收敛。
S4、随机打乱数据矩阵中行和列的排列顺序,用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合,再对候选列集合中的列按照重叠度从小到大排序,若存在两列的重叠度相同,则按照列的随机排列顺序从小到大排序;
S5、判断候选列集合是否为空,若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息,若否则进行步骤S6;
S6、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记记为合格列并进行步骤S7,若否则进行步骤S8;
所述的稀疏保序子矩阵模型的规定为:在双聚类模式中,行集合的元素个数不小于最小行数阈值rmin,列集合的元素个数不小于最小列数阈值tmin,有效行的密集度不小于密集度阈值α,且每行必须满足保序条件;
所述保序条件为该行在列集合上的有效值的排列顺序是列集合中列的排列顺序的一个子序;
所述有效行是指:满足新的列集合次序且行密集度不小于α的行;所述有效行的密集度是指该有效行在列集合上的有效值个数占列集合元素总个数的比例。
所述的次序和子序分别做如下定义:
在包含h个元素的列集合Q={t1,...,th},th表示列集合Q的第h个元素,h=1~ih,Q的一个线性次序为其中,表示列集合Q中下标h=ih的元素,次数关系<满足反对称性、传递性和线性,称这样的列集合Q是次序TQ的关联集合;
在两个次序T1、T2和它们的关联集合Q1和Q2中,如果对于任意每对ti,tj∈Q1,ti和tj分别表示集合Q1中任意两个元素,即第ti列和第tj列;ti<tj在Q1和Q2中同时成立,则称T1是T2的一个子序;在次序和候选集合中第q列之间定义一个附加操作表示把第q列加入到次序TQ的末尾,即:
S7、更新当前双聚类模式:将步骤S6中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;
更新双聚类模式的具体过程:将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾,并在候选列集合中删除该列,把对应的有效行加入到当前双聚类模式的行集合中;
合格的列满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值;
(2)把该列加入到当前模式的列集合Q后不会使当前双聚类模式集合γ的最大行重叠度增大;
若该列均满足这两个条件,则说明该列是合格的列;
所述的有效行满足以下条件:
(1)把合格的列加入到子矩阵M(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定,若是则将其保存在双聚类模式集合中,若否则将其丢弃。具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
S9、遍历当前双聚类模式集合,根据线性拟合方法计算每个双聚类模式中的缺失值,计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
S10、返回最终挖掘出的双聚类模式集合和缺失值的计算结果。
本实施例提供的基于保序子矩阵的约束双聚类挖掘及缺失值预测方法的流程图如图1所示,具体包括以下步骤:
步骤101、输入数据矩阵M(R,T)
输入的数据格式为每一行输入三个数字,中间用空格分隔开,三个数字分别表示数据矩阵的行、列、元素值,比如“1 2 3”表示数据矩阵中第1行第2列的元素值为3。
步骤102、计算行列重叠度和覆盖率,包括根据新挖掘出的模式更新数据矩阵的行列重叠度和计算行列覆盖率这两步。
计算重叠度算法如下:
CalOverlapping Algorithm:
输入:子矩阵模式(P,Q)
输出:行重叠度向量rowOverlap[m]和列重叠度向量colOverlap[n]
计算覆盖率算法如下:
CalCoverage Algorithm:
输入:行重叠度向量rowOverlap[m]和列重叠度向量colOverlap[n]
输出:行覆盖率rowCoverage和列覆盖率colCoverage
步骤103、判断行列覆盖率是否已经收敛,若否则进行步骤104,若是则进行步骤112;
本步骤首先判断当前迭代的行列覆盖率是否都达到100%,若否则将本次迭代的行列覆盖率与上一次迭代的行列覆盖率比较,若两次行列覆盖率的差值小于0.01,则表示行列覆盖率已经收敛,进行步骤112,若否则继续进行下一次迭代。
步骤104、随机打乱数据矩阵中行和列的排列顺序,目的是为了挖掘出更多不同的模式。
步骤105、用步骤104中随机打乱后的数据矩阵的列集合初始化候选列集合candiCol,然后对候选列集合中的列按照列重叠度从小到大排序,若存在两列的列重叠度大小相同,则按照随机打乱后的列排列顺序从小到大排序。
步骤106、判断候选列集合是否为空,若是则返回步骤102,更新当前的行列覆盖率和重叠度信息,若否则进行步骤107;
步骤107、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记为合格列并进行步骤108,若否则进行步骤109;
判断某列是否是合格的列,即判断某列是否满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值rmin
(2)把该列加入到当前模式的列集合Q后不会使双聚类模式集合γ的最大行重叠度νR增大,
若均满足这两个条件,则称该列为合格列;
其中,某列t的有效行要满足以下条件:
(1)把列t加入到当前模式(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
判断列t是否合格的算法如下:
CheckCol Algorithm:
输入:列t,当前模式(P,Q)
输出:true,表示合格;false,表示不合格
步骤108、更新当前双聚类模式:将步骤107中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;扩展算法可参照步骤107中的CheckCol Algorithm。
步骤109、判断当前双聚类模式是否符合稀疏保序子矩阵模型的要求,若是则进行步骤111将其保存在模式集合中,若否则进行步骤110将其丢弃;
具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
添加模式的算法如下:
AddSopsm Algorithm:
输入:当前模式(P,Q)
输出:模式集合γ
步骤110、丢弃当前模式。
步骤111、将当前模式保存在双聚类模式集合γ中。
步骤112、遍历双聚类模式集合γ,根据线性拟合的方法计算每个双聚类模式中的缺失值,得到数据矩阵中缺失值的预测结果;
其中,缺失值的计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
计算缺失值的算法如下:
Predict Algorithm:
输入:模式集合γ
输出:计算了缺失值后的模式集合γ
图2为本发明实施例中采用线性拟合方法计算缺失值的示例图,对于推荐系统中的评分数据矩阵来说,评分数据矩阵M的每一行代表一个用户,每一列代表一个商品,图2中左侧是在评分数据矩阵M中挖掘出的一个存在缺失值的稀疏保序子矩阵(P,Q),这是一个3行4列的子矩阵且每一行在列集合上的排列顺序都是线性递增的,行子集P={r1,r2,r3}分别表示3个用户,列子集Q={t1,t2,t3,t4}分别表示4个商品,矩阵中的数字表示的是用户对商品的评分值,例如用户r1对商品t3的评分值是4,符号“-”表示缺失值,说明该用户没有对该商品进行评分,这个子矩阵表明了用户{r1,r2,r3}对{t1,t2,t3,t4}这4个商品的评分具有局部相似性,也就是说这3个用户对这4个商品的喜好具有相似性;右侧是根据PredictAlgorithm方法对左侧子矩阵中的缺失值进行了预测计算后的结果,预测值表示的是某个用户对某个商品的预测评分值。
综上所述,本发明实施例是基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,该方法在传统双聚类方法的基础上,加入了覆盖率约束和重叠度约束这两个限制条件,首先定义了一种稀疏保序子矩阵模型,然后重复扫描数据矩阵,不断搜索挖掘符合事先定义的稀疏保序子矩阵模型的双聚类模式,并且在挖掘过程中优先选择那些从未被覆盖或重叠度较少的行和列来扩展当前的双聚类模式,如果不能挖掘出更多符合条件的模式来覆盖新的行和列,这意味着行列覆盖率已经收敛,此时将停止扫描数据矩阵,最后按照线性拟合的方法计算每个双聚类模式中的缺失值。因此,本发明适用于稀疏数据矩阵,控制了挖掘出的双聚类模式的分布和重叠程度,有效地提高了双聚类模式的质量和缺失值预测的准确性。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。
Claims (10)
1.一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,所述方法包括以下步骤:
S1、用户输入双聚类模式挖掘的请求内容,计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式;
S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率;
S3、判断行和列的覆盖率是否均已收敛,若否则进行步骤S4,若是则进行步骤S9;
S4、随机打乱数据矩阵中行和列的排列顺序,用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合,再对候选列集合中的列按照重叠度从小到大排序,若存在两列的重叠度相同,则按照列的随机排列顺序从小到大排序;
S5、判断候选列集合是否为空,若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息,若否则进行步骤S6;
S6、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记为合格列并进行步骤S7,若否则进行步骤S8;
S7、更新当前双聚类模式:将步骤S6中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;
S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定,若是则将其保存在双聚类模式集合中,若否则将其丢弃;
S9、遍历当前双聚类模式集合,根据线性拟合方法计算每个双聚类模式中的缺失值;
S10、输出最终挖掘出的双聚类模式集合和缺失值的计算结果。
2.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S1所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值rmin和tmin;
所述待挖掘的数据矩阵表示为M(R,T),其中R为数据矩阵的行集合,R={r1,...,rm},rm表示数据矩阵的第m行,T为数据矩阵的列集合,T={t1,...,tn},tn表示数据矩阵的第n列;
请求的目标是挖掘出一组满足稀疏保序子矩阵模型的子矩阵模式集合γ即双聚类模式集合,使得每个子矩阵包含至少rmin行和tmin列并且每行有效元素的密集度都不小于密集度阈值α并且每行有效元素的排列顺序是这个子矩阵列集合中列的排列顺序的一个子序,使得子矩阵模式集合γ在待挖掘的数据矩阵M上的行和列的覆盖率最大化,重叠度最小化。
3.根据权利要求1或者2所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(rm,tn)其位置存储的是一个已知值,则称元素M(rm,tn)为有效元素或有效值,如果该位置没有存储任何值,则称元素M(rm,tn)为缺失元素或缺失值;
保序子矩阵的定义为:给定一个矩阵M(R,T)和M的一个子矩阵(P,Q),(P,Q)被称为保序子矩阵(OPSM)当且仅当存在Q的线性次序TQ使得P中的每一行都满足这个次序TQ,其中使用简单的符号M和(P,Q)分别表示数据矩阵M(R,T)及其子矩阵M(P,Q);
为了使挖掘出的子矩阵中允许存在缺失值,在保序子矩阵模型的基础上,给定一个密集度阈值α,若(P,Q)满足以下条件:
(1)P中每一行在Q上的密集度不小于密集度阈值α,即:D(r,Q)≥α,r∈P;
(2)存在Q的线性次序TQ使得P中每一行的有效元素的排列顺序都是TQ的一个子序,
则(P,Q)是稀疏保序子矩阵(SOPSM);
子矩阵(P,Q)的密集度为D(P,Q),D(P,Q)为子矩阵(P,Q)所有元素中的有效元素的比例,计算公式为:
其中ε(P,Q)表示子矩阵(P,Q)中有效元素的数量,|P|×|Q|表示矩阵的元素总数;同理,子矩阵(P,Q)中第r行的行密集度为:
其中,ε({r},Q)表示第r行在列集合Q上的有效元素的个数,|Q|表示列集合Q的元素个数。
4.根据权利要求1或者2所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数;行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例;行和列的重叠度和覆盖率的计算方式如下:
数据矩阵M(R,T)和M的一组子矩阵模式集合γ={(P1,Q1),(P2,Q2),...,(Pk,Qk)},子矩模式集合γ中包含k个子矩阵,用d(r,t)表示在γ中覆盖元素M(r,t)的子矩阵的数量,即:
d(r,t)=|{(Pi,Qi)|(Pi,Qi)∈γ,r∈Pi,t∈Qi}|
把d(r,t)称为元素M(r,t)的重叠度;用ν(γ)表示子矩阵模式集合γ在矩阵M(R,T)上的最大重叠度:
为了提高计算效率,把矩阵中每个元素的重叠度简化为单一行重叠度和单一列重叠度,其中,第r行的重叠度用dR(r)表示,是指γ中覆盖第r行中任何元素的模式数量;同理,第t列的重叠度用dT(t)表示,是指γ中覆盖第t列中任何元素的模式数量,因此,子矩阵模式集合γ的最大行重叠度νR是指是矩阵M(R,T)中所有单一行的重叠度中的最大值,最大列重叠度νT是指矩阵M中所有单一列的重叠度中的最大值,即:
νR=max{dR(r)|r∈R}
νT=max{dT(t)|t∈T}
覆盖率包括行覆盖率和列覆盖率这两个指标,分别用cR(γ)和cT(γ)表示,其中,行覆盖率是指R中被至少一个子矩阵覆盖的行的比例,相似地,列覆盖率是指T中被至少一个子矩阵覆盖的列的比例,计算公式为:
其中,|R|表示待挖掘的数据矩阵中的行数,|T|表示待挖掘的数据矩阵中的列数,k表示子矩模式集合γ中包含的子矩阵的数量。
5.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S3判断行和列的覆盖率是否已经收敛:先判断当前迭代的行和列的覆盖率是否都达到100%,若是,则表示行和列的覆盖率已经收敛,则若否,则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较,若两次行和列覆盖率的差值都小于0.01,则表示行和列的覆盖率已经收敛,否则表示行和列的覆盖率没有收敛。
6.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S6所述的稀疏保序子矩阵模型的规定为:在双聚类模式中,行集合的元素个数不小于最小行数阈值rmin,列集合的元素个数不小于最小列数阈值tmin,有效行的密集度不小于密集度阈值α,且每行必须满足保序条件;
所述保序条件为该行在列集合上的有效值的排列顺序是列集合中列的排列顺序的一个子序;
所述有效行是指:满足新的列集合次序且行密集度不小于α的行;所述有效行的密集度是指该有效行在列集合上的有效值个数占列集合元素总个数的比例。
7.根据权利要求6所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,所述的次序和子序分别做如下定义:
在包含h个元素的列集合Q={t1,...,th},th表示列集合Q的第h个元素,h=1~ih,Q的一个线性次序为TQ=[ti1<ti2<...<tih],其中,tih表示列集合Q中下标h=ih的元素,次数关系<满足反对称性、传递性和线性,称这样的列集合Q是次序TQ的关联集合;
在两个次序T1、T2和它们的关联集合Q1和Q2中,如果对于任意每对ti,tj∈Q1,ti和tj分别表示集合Q1中任意两个元素,即第ti列和第tj列;ti<tj在Q1和Q2中同时成立,则称T1是T2的一个子序;在次序TQ=[ti1<ti2<...<tih]和候选集合中第q列之间定义一个附加操作表示把第q列加入到次序TQ的末尾,即:
8.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S7所述的更新双聚类模式的具体过程:将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾,并在候选列集合中删除该列,把对应的有效行加入到当前双聚类模式的行集合中;
合格的列满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值;
(2)把该列加入到当前模式的列集合Q后不会使当前双聚类模式集合γ的最大行重叠度增大;
若该列均满足这两个条件,则说明该列是合格的列;
步骤S7所述的有效行满足以下条件:
(1)把合格的列加入到子矩阵M(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
9.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S8中判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
10.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S9中缺失值的计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468279.9A CN110222089B (zh) | 2019-05-31 | 2019-05-31 | 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468279.9A CN110222089B (zh) | 2019-05-31 | 2019-05-31 | 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222089A true CN110222089A (zh) | 2019-09-10 |
CN110222089B CN110222089B (zh) | 2021-05-14 |
Family
ID=67819083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910468279.9A Active CN110222089B (zh) | 2019-05-31 | 2019-05-31 | 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222089B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455578A (zh) * | 2013-08-23 | 2013-12-18 | 华南师范大学 | 一种基于关联规则和双聚类的航空客户数据挖掘方法 |
CN106294288A (zh) * | 2016-07-27 | 2017-01-04 | 中南大学 | 一种分布式非负矩阵分解方法 |
US20170046510A1 (en) * | 2015-08-14 | 2017-02-16 | Qualcomm Incorporated | Methods and Systems of Building Classifier Models in Computing Devices |
CN106844637A (zh) * | 2017-01-19 | 2017-06-13 | 北京工业大学 | 基于正交与聚类修剪改进多目标遗传算法的电影推荐方法 |
US10114923B1 (en) * | 2015-04-06 | 2018-10-30 | EMC IP Holding Company LLC | Metagenomics-based biological surveillance system using big data profiles |
CN109284773A (zh) * | 2018-08-15 | 2019-01-29 | 西南交通大学 | 基于多层凝聚层次聚类算法的交通出行端点识别方法 |
CN109657149A (zh) * | 2018-12-25 | 2019-04-19 | 合肥学院 | 一种基于生成对抗网络和双聚类的推荐方法及系统 |
-
2019
- 2019-05-31 CN CN201910468279.9A patent/CN110222089B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455578A (zh) * | 2013-08-23 | 2013-12-18 | 华南师范大学 | 一种基于关联规则和双聚类的航空客户数据挖掘方法 |
US10114923B1 (en) * | 2015-04-06 | 2018-10-30 | EMC IP Holding Company LLC | Metagenomics-based biological surveillance system using big data profiles |
US20170046510A1 (en) * | 2015-08-14 | 2017-02-16 | Qualcomm Incorporated | Methods and Systems of Building Classifier Models in Computing Devices |
CN106294288A (zh) * | 2016-07-27 | 2017-01-04 | 中南大学 | 一种分布式非负矩阵分解方法 |
CN106844637A (zh) * | 2017-01-19 | 2017-06-13 | 北京工业大学 | 基于正交与聚类修剪改进多目标遗传算法的电影推荐方法 |
CN109284773A (zh) * | 2018-08-15 | 2019-01-29 | 西南交通大学 | 基于多层凝聚层次聚类算法的交通出行端点识别方法 |
CN109657149A (zh) * | 2018-12-25 | 2019-04-19 | 合肥学院 | 一种基于生成对抗网络和双聚类的推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
姜涛等: "基于数字签名与Trie的保序子矩阵约束查询", 《软件学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222089B (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Got et al. | Hybrid filter-wrapper feature selection using whale optimization algorithm: A multi-objective approach | |
CN111798921B (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
Ghareb et al. | Hybrid feature selection based on enhanced genetic algorithm for text categorization | |
Zhang et al. | Feature selection algorithm based on bare bones particle swarm optimization | |
US20210158164A1 (en) | Finding k extreme values in constant processing time | |
Ziegler et al. | Mining data with random forests: current options for real‐world applications | |
Rahman et al. | Ensemble classifier generation using non-uniform layered clustering and Genetic Algorithm | |
Salesi et al. | TAGA: Tabu Asexual Genetic Algorithm embedded in a filter/filter feature selection approach for high-dimensional data | |
US20170351807A1 (en) | Methods and systems for designing gene panels | |
CN107203558A (zh) | 对象推荐方法和装置、推荐信息处理方法和装置 | |
Dehzangi et al. | A mixture of physicochemical and evolutionary–based feature extraction approaches for protein fold recognition | |
CN115952307A (zh) | 基于多模态图对比学习的推荐方法、电子设备及存储介质 | |
CN111915414B (zh) | 向目标用户展示目标对象序列的方法和装置 | |
CN110222089B (zh) | 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 | |
Piya et al. | Predicting gene expression divergence between single-copy orthologs in two species | |
Tang | Random forest missing data approaches | |
Blum et al. | Metaheuristics for String Problems in Bio-informatics | |
Liang et al. | ASE: Anomaly scoring based ensemble learning for highly imbalanced datasets | |
CN108830680B (zh) | 基于离散分解机的个性化推荐方法、系统及存储介质 | |
CN116010625A (zh) | 基于遗传算法的引文网络图标签对抗攻击方法 | |
CN110806861B (zh) | 一种结合用户反馈信息的api推荐方法及终端 | |
Vijayalakshmi et al. | An efficient count based transaction reduction approach for mining frequent patterns | |
CN110990697A (zh) | 内容推荐方法、装置、设备和存储介质 | |
KR102608683B1 (ko) | Knn을 이용한 자연 언어 처리 | |
Chmielnicki et al. | An improved protein fold recognition with support vector machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |