CN110222089B - 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 - Google Patents

一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 Download PDF

Info

Publication number
CN110222089B
CN110222089B CN201910468279.9A CN201910468279A CN110222089B CN 110222089 B CN110222089 B CN 110222089B CN 201910468279 A CN201910468279 A CN 201910468279A CN 110222089 B CN110222089 B CN 110222089B
Authority
CN
China
Prior art keywords
column
row
matrix
columns
rows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910468279.9A
Other languages
English (en)
Other versions
CN110222089A (zh
Inventor
钟佳琪
李东
方琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910468279.9A priority Critical patent/CN110222089B/zh
Publication of CN110222089A publication Critical patent/CN110222089A/zh
Application granted granted Critical
Publication of CN110222089B publication Critical patent/CN110222089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,包括以下步骤:S1、接收请求并挖掘数据矩阵的双聚类模式;S2、计算行和列的重叠度和覆盖率;S3、判断行列覆盖率是否收敛,若否则进行步骤S4,否则进行步骤S9;S4、随机打乱数据矩阵中行和列的排列顺序,对候选列集合排序;S5、判断候选列集合是否为空;S6、判断候选列集合中是否存在合格列;S7、根据新选出的合格列扩展双聚类模式的列集合和行集合;S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的要求;S9、计算每个双聚类模式的缺失值;S10、返回最终的双聚类集合和缺失值。因此,本发明有效地提高了双聚类模式的质量和缺失值预测的准确性。

Description

一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法
技术领域
本发明涉及双聚类模式挖掘领域,具体涉及一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法。
背景技术
一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找全局信息,无法找到局部信息,而大量的有趣信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出双聚类的概念。所谓双聚类,也叫子矩阵模式,是数据矩阵中具有局部相似性的一组行子集和一组列子集组合成的一个子矩阵,它表示这组行在这组列集合上的表现具有某种局部相似性。而双聚类挖掘就是通过在数据矩阵中挖掘出满足事先定义的子矩阵模型的所有子矩阵来捕获数据矩阵中有趣的局部相似性。例如,在推荐系统领域中,对于Netflix电影评分数据矩阵,一个双聚类是指具有局部相似性的一组用户子集和一组电影子集组成的一个子矩阵,它表示这些用户对这组电影的喜好是相似的。
目前关于双聚类的研究主要分为两类:无约束双聚类和分区双聚类。无约束双聚类能保证挖掘出的模式质量,但由于在挖掘过程中没有考虑到重叠和覆盖约束,可能导致搜索空间中模式数量爆炸和模式之间冗余度很高等问题,因此它主要在较小的数据矩阵中进行研究,这在诸如推荐系统和文本挖掘等现实应用中是不实际的。而分区双聚类虽然对于处理大型数据矩阵是有效的,但是它将模式限制为网格分布,即把数据矩阵强制划分成一个个互不相交的子矩阵,因此无法保证每个单一模式的质量。
保序子矩阵模型(OPSM)是子矩阵模型中具有代表性的一类,大量研究表明,OPSM模型及其放宽条件的变体模型能够很好地促进有趣的生物学相关性的发现。然而,当数据矩阵变得非常大时,这些方法不能很好地扩展。此外,在保序子矩阵模式挖掘过程中没有考虑到重叠或覆盖约束,也没有解决稀疏矩阵的问题。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,所述方法针对已有的双聚类方法的局限性,在双聚类挖掘过程中添加重叠度和覆盖率约束来控制模式的分布,避免模式冗余和模式数量爆炸,有效地提高了模式的质量;同时为了能够处理稀疏数据矩阵,提供了一种稀疏保序子矩阵模型,使得模式中允许存在缺失值;最后提供了一种线性拟合的方法计算模式中的缺失值,从而有效地提高了缺失值预测的准确性。
本发明至少通过如下技术方案之一实现。
一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,所述方法包括以下步骤:
S1、用户输入双聚类模式挖掘的请求内容,计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式;
S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率;
S3、判断行和列的覆盖率是否均已收敛,若否则进行步骤S4,若是则进行步骤S9;
S4、随机打乱数据矩阵中行和列的排列顺序,用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合,再对候选列集合中的列按照重叠度从小到大排序,若存在两列的重叠度相同,则按照列的随机排列顺序从小到大排序;
S5、判断候选列集合是否为空,若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息,若否则进行步骤S6;
S6、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记记为合格列并进行步骤S7,若否则进行步骤S8;
S7、更新当前双聚类模式:将步骤S6中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;
S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定,若是则将其保存在双聚类模式集合中,若否则将其丢弃;
S9、遍历当前双聚类模式集合,根据线性拟合方法计算每个双聚类模式中的缺失值;
S10、输出最终挖掘出的双聚类模式集合和缺失值的计算结果。
进一步的,步骤S1所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值rmin和tmin
所述待挖掘的数据矩阵表示为M(R,T),其中R为数据矩阵的行集合,R={r1,...,rm},rm表示数据矩阵的第m行,T为数据矩阵的列集合,T={t1,...,tn},tn表示数据矩阵的第n列;
请求的目标是挖掘出一组满足稀疏保序子矩阵模型的子矩阵模式集合γ即双聚类模式集合,使得每个子矩阵包含至少rmin行和tmin列并且每行有效元素的密集度都不小于密集度阈值α并且每行有效元素的排列顺序是这个子矩阵列集合中列的排列顺序的一个子序,使得子矩阵模式集合γ在待挖掘的数据矩阵M上的行和列的覆盖率最大化,重叠度最小化。
进一步的,步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(rm,tn)其位置存储的是一个已知值,则称元素M(rm,tn)为有效元素或有效值,如果该位置没有存储任何值,则称元素M(rm,tn)为缺失元素或缺失值;
保序子矩阵的定义为:给定一个矩阵M(R,T)和M的一个子矩阵(P,Q),(P,Q)被称为保序子矩阵(OPSM)当且仅当存在Q的线性次序TQ使得P中的每一行都满足这个次序TQ,其中
Figure GDA0002946022400000031
使用简单的符号M和(P,Q)分别表示数据矩阵M(R,T)及其子矩阵M(P,Q);
为了使挖掘出的子矩阵中允许存在缺失值,在保序子矩阵模型的基础上,给定一个密集度阈值α,若(P,Q)满足以下条件:
(1)P中每一行在Q上的密集度不小于密集度阈值α,即:D(r,Q)≥α,r∈P;
(2)存在Q的线性次序TQ使得P中每一行的有效元素的排列顺序都是TQ的一个子序,则(P,Q)是稀疏保序子矩阵(SOPSM);
子矩阵(P,Q)的密集度为D(P,Q),D(P,Q)为子矩阵(P,Q)所有元素中的有效元素的比例,计算公式为:
Figure GDA0002946022400000032
其中ε(P,Q)表示子矩阵(P,Q)中有效元素的数量,|P|×|Q|表示矩阵的元素总数;同理,子矩阵(P,Q)中第r行的行密集度为:
Figure GDA0002946022400000033
其中,ε({r},Q)表示第r行在列集合Q上的有效元素的个数,|Q|表示列集合Q的元素个数。
进一步的,步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数;行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例;行和列的重叠度和覆盖率的计算方式如下:
数据矩阵M(R,T)和M的一组子矩阵模式集合γ={(P1,Q1),(P2,Q2),...,(Pk,Qk)},子矩模式集合γ中包含k个子矩阵,用d(r,t)表示在γ中覆盖元素M(r,t)的子矩阵的数量,即:
d(r,t)=|{(Pi,Qi)|(Pi,Qi)∈γ,r∈Pi,t∈Qi}|
把d(r,t)称为元素M(r,t)的重叠度;用ν(γ)表示子矩阵模式集合γ在矩阵M(R,T)上的最大重叠度:
Figure GDA0002946022400000041
为了提高计算效率,把矩阵中每个元素的重叠度简化为单一行重叠度和单一列重叠度,其中,第r行的重叠度用dR(r)表示,是指γ中覆盖第r行中任何元素的模式数量;同理,第t列的重叠度用dT(t)表示,是指γ中覆盖第t列中任何元素的模式数量,因此,子矩阵模式集合γ的最大行重叠度νR是指矩阵M(R,T)中所有单一行的重叠度中的最大值,最大列重叠度νT是指矩阵M中所有单一列的重叠度中的最大值,即:
νR=max{dR(r)|r∈R}
νT=max{dT(t)|t∈T}
覆盖率包括行覆盖率和列覆盖率这两个指标,分别用cR(γ)和cT(γ)表示,其中,行覆盖率是指R中被至少一个子矩阵覆盖的行的比例,相似地,列覆盖率是指T中被至少一个子矩阵覆盖的列的比例,计算公式为:
Figure GDA0002946022400000042
其中,|R|表示待挖掘的数据矩阵中的行数,|T|表示待挖掘的数据矩阵中的列数,k表示子矩模式集合γ中包含的子矩阵的数量。
进一步的,步骤S3判断行列的覆盖率是否已经收敛:先判断当前迭代的行和列的覆盖率是否都达到100%,若是,则表示行和列的覆盖率已经收敛,则若否,则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较,若两次行和列覆盖率的的差值都小于0.01,则表示行和列的覆盖率已经收敛,否则表示行和列的覆盖率没有收敛。
进一步的,步骤S6所述的稀疏保序子矩阵模型的规定为:在双聚类模式中,行集合的元素个数不小于最小行数阈值rmin,列集合的元素个数不小于最小列数阈值tmin,有效行的密集度不小于密集度阈值α,且每行必须满足保序条件;
所述保序条件为该行在列集合上的有效值的排列顺序是列集合中列的排列顺序的一个子序;
所述有效行是指:满足新的列集合次序且行密集度不小于α的行;所述有效行的密集度是指该有效行在列集合上的有效值个数占列集合元素总个数的比例。
进一步的,所述的次序和子序分别做如下定义:
在包含h个元素的列集合Q={t1,...,th},th表示列集合Q的第h个元素,h=1~ih,Q的一个线性次序为TQ=[ti1<ti2<...<tih],其中,tih表示列集合Q中下标h=ih的元素,次数关系<满足反对称性、传递性和线性,称这样的列集合Q是次序TQ的关联集合;
在两个次序T1、T2和它们的关联集合Q1和Q2中,如果
Figure GDA0002946022400000051
对于任意每对ti,tj∈Q1,ti和tj分别表示集合Q1中任意两个元素,即第ti列和第tj列;ti<tj在Q1和Q2中同时成立,则称T1是T2的一个子序;在次序TQ=[ti1<ti2<...<tih]和候选集合中第q列之间定义一个附加操作
Figure GDA0002946022400000052
表示把第q列加入到次序TQ的末尾,即:
Figure GDA0002946022400000053
进一步的,步骤S7所述的更新双聚类模式的具体过程:将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾,并在候选列集合中删除该列,把对应的有效行加入到当前双聚类模式的行集合中;
合格的列满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值;
(2)把该列加入到当前模式的列集合Q后不会使当前双聚类模式集合γ的最大行重叠度增大;
若该列均满足这两个条件,则说明该列是合格的列;
步骤S7所述的有效行满足以下条件:
(1)把合格的列加入到子矩阵M(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序
Figure GDA0002946022400000054
的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
进一步的,步骤S8中判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
进一步的,步骤S9中缺失值的计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提供了一种带约束的双聚类挖掘方法,通过在双聚类挖掘过程中添加重叠度和覆盖率约束,来控制模式的分布,避免模式冗余和模式数量爆炸,有效地提高了模式的质量。
2、本发明在现有保序子矩阵模型的基础上提供了一种稀疏保序子矩阵模型,使得挖掘出的模式中允许存在缺失值,提高了方法的可扩展性,可以有效地处理稀疏数据矩阵。
3、本发明提供了一种线性拟合的方法用于计算模式中的缺失值,有效地提高了缺失值预测的准确性。
附图说明
图1为本发明实施例基于保序子矩阵的约束双聚类挖掘及缺失值预测方法的流程图;
图2为本发明实施例中采用线性拟合方法计算缺失值的示例图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明实施例在传统双聚类方法的基础上,加入了覆盖率约束和重叠度约束这两个限制条件,首先定义了一种稀疏保序子矩阵模型,然后重复扫描数据矩阵,不断搜索挖掘符合事先定义的稀疏保序子矩阵模型的双聚类模式,并且在挖掘过程中优先选择那些从未被覆盖或重叠度较少的行和列来扩展当前的双聚类模式,如果不能挖掘出更多符合条件的模式来覆盖新的行和列,这意味着行列覆盖率已经收敛,此时将停止扫描数据矩阵,最后按照线性拟合的方法计算每个双聚类模式中的缺失值。因此,本发明适用于稀疏数据矩阵,控制了挖掘出的双聚类模式的分布和重叠程度,有效地提高了双聚类模式的质量和缺失值预测的准确性。
下面对本发明实施例提供的基于保序子矩阵的约束双聚类挖掘及缺失值预测方法做详细说明,所述方法包括以下步骤:
S1、用户输入双聚类模式挖掘的请求内容,计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式;
所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值rmin和tmin
所述待挖掘的数据矩阵表示为M(R,T),其中R为数据矩阵的行集合,R={r1,...,rm},rm表示数据矩阵的第m行,T为数据矩阵的列集合,T={t1,...,tn},tn表示数据矩阵的第n列;
请求的目标是挖掘出一组满足稀疏保序子矩阵模型的子矩阵模式集合γ即双聚类模式集合,使得每个子矩阵包含至少rmin行和tmin列并且每行有效元素的密集度都不小于密集度阈值α并且每行有效元素的排列顺序是这个子矩阵列集合中列的排列顺序的一个子序,使得子矩阵模式集合γ在待挖掘的数据矩阵M上的行和列的覆盖率最大化,重叠度最小化。
进一步的,步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(rm,tn)其位置存储的是一个已知值,则称元素M(rm,tn)为有效元素或有效值,如果该位置没有存储任何值,则称元素M(rm,tn)为缺失元素或缺失值;
保序子矩阵的定义为:给定一个矩阵M(R,T)和M的一个子矩阵(P,Q),(P,Q)被称为保序子矩阵(OPSM)当且仅当存在Q的线性次序TQ使得P中的每一行都满足这个次序TQ,其中
Figure GDA0002946022400000071
使用简单的符号M和(P,Q)分别表示数据矩阵M(R,T)及其子矩阵M(P,Q);
为了使挖掘出的子矩阵中允许存在缺失值,在保序子矩阵模型的基础上,给定一个密集度阈值α,若(P,Q)满足以下条件:
(1)P中每一行在Q上的密集度不小于密集度阈值α,即:D(r,Q)≥α,r∈P;
(2)存在Q的线性次序TQ使得P中每一行的有效元素的排列顺序都是TQ的一个子序,则(P,Q)是稀疏保序子矩阵(SOPSM);
子矩阵(P,Q)的密集度为D(P,Q),D(P,Q)为子矩阵(P,Q)所有元素中的有效元素的比例,计算公式为:
Figure GDA0002946022400000072
其中ε(P,Q)表示子矩阵(P,Q)中有效元素的数量,|P|×|Q|表示矩阵的元素总数;同理,子矩阵(P,Q)中第r行的行密集度为:
Figure GDA0002946022400000073
其中,ε({r},Q)表示第r行在列集合Q上的有效元素的个数,|Q|表示列集合Q的元素个数。
S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率;
步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数;行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例;行和列的重叠度和覆盖率的计算方式如下:
数据矩阵M(R,T)和M的一组子矩阵模式集合γ={(P1,Q1),(P2,Q2),...,(Pk,Qk)},子矩模式集合γ中包含k个子矩阵,用d(r,t)表示在γ中覆盖元素M(r,t)的子矩阵的数量,即:
d(r,t)=|{(Pi,Qi)|(Pi,Qi)∈γ,r∈Pi,t∈Qi}|
把d(r,t)称为元素M(r,t)的重叠度;用ν(γ)表示子矩阵模式集合γ在矩阵M(R,T)上的最大重叠度:
Figure GDA0002946022400000081
为了提高计算效率,把矩阵中每个元素的重叠度简化为单一行重叠度和单一列重叠度,其中,第r行的重叠度用dR(r)表示,是指γ中覆盖第r行中任何元素的模式数量;同理,第t列的重叠度用dT(t)表示,是指γ中覆盖第t列中任何元素的模式数量,因此,子矩阵模式集合γ的最大行重叠度νR是指矩阵M(R,T)中所有单一行的重叠度中的最大值,最大列重叠度νT是指矩阵M中所有单一列的重叠度中的最大值,即:
νR=max{dR(r)|r∈R}
νT=max{dT(t)|t∈T}
覆盖率包括行覆盖率和列覆盖率这两个指标,分别用cR(γ)和cT(γ)表示,其中,行覆盖率是指R中被至少一个子矩阵覆盖的行的比例,相似地,列覆盖率是指T中被至少一个子矩阵覆盖的列的比例,计算公式为:
Figure GDA0002946022400000082
其中,|R|表示待挖掘的数据矩阵中的行数,|T|表示待挖掘的数据矩阵中的列数,k表示子矩模式集合γ中包含的子矩阵的数量。
S3、判断行和列的覆盖率是否均已收敛,若否则进行步骤S4,若是则进行步骤S9;
判断行和列的覆盖率是否已经收敛,具体为:先判断当前迭代的行和列的覆盖率是否都达到100%,若是,则表示行和列的覆盖率已经收敛,则若否,则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较,若两次行和列覆盖率的差值都小于0.01,则表示行和列的覆盖率已经收敛,否则表示行和列的覆盖率没有收敛。
S4、随机打乱数据矩阵中行和列的排列顺序,用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合,再对候选列集合中的列按照重叠度从小到大排序,若存在两列的重叠度相同,则按照列的随机排列顺序从小到大排序;
S5、判断候选列集合是否为空,若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息,若否则进行步骤S6;
S6、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记记为合格列并进行步骤S7,若否则进行步骤S8;
所述的稀疏保序子矩阵模型的规定为:在双聚类模式中,行集合的元素个数不小于最小行数阈值rmin,列集合的元素个数不小于最小列数阈值tmin,有效行的密集度不小于密集度阈值α,且每行必须满足保序条件;
所述保序条件为该行在列集合上的有效值的排列顺序是列集合中列的排列顺序的一个子序;
所述有效行是指:满足新的列集合次序且行密集度不小于α的行;所述有效行的密集度是指该有效行在列集合上的有效值个数占列集合元素总个数的比例。
所述的次序和子序分别做如下定义:
在包含h个元素的列集合Q={t1,...,th},th表示列集合Q的第h个元素,h=1~ih,Q的一个线性次序为TQ=[ti1<ti2<...<tih],其中,tih表示列集合Q中下标h=ih的元素,次数关系<满足反对称性、传递性和线性,称这样的列集合Q是次序TQ的关联集合;
在两个次序T1、T2和它们的关联集合Q1和Q2中,如果
Figure GDA0002946022400000091
对于任意每对ti,tj∈Q1,ti和tj分别表示集合Q1中任意两个元素,即第ti列和第tj列;ti<tj在Q1和Q2中同时成立,则称T1是T2的一个子序;在次序TQ=[ti1<ti2<...<tih]和候选集合中第q列之间定义一个附加操作
Figure GDA0002946022400000092
表示把第q列加入到次序TQ的末尾,即:
Figure GDA0002946022400000093
S7、更新当前双聚类模式:将步骤S6中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;
更新双聚类模式的具体过程:将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾,并在候选列集合中删除该列,把对应的有效行加入到当前双聚类模式的行集合中;
合格的列满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值;
(2)把该列加入到当前模式的列集合Q后不会使当前双聚类模式集合γ的最大行重叠度增大;
若该列均满足这两个条件,则说明该列是合格的列;
所述的有效行满足以下条件:
(1)把合格的列加入到子矩阵M(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序
Figure GDA0002946022400000101
的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定,若是则将其保存在双聚类模式集合中,若否则将其丢弃。具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
S9、遍历当前双聚类模式集合,根据线性拟合方法计算每个双聚类模式中的缺失值,计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
S10、返回最终挖掘出的双聚类模式集合和缺失值的计算结果。
本实施例提供的基于保序子矩阵的约束双聚类挖掘及缺失值预测方法的流程图如图1所示,具体包括以下步骤:
步骤101、输入数据矩阵M(R,T)
输入的数据格式为每一行输入三个数字,中间用空格分隔开,三个数字分别表示数据矩阵的行、列、元素值,比如“1 2 3”表示数据矩阵中第1行第2列的元素值为3。
步骤102、计算行列重叠度和覆盖率,包括根据新挖掘出的模式更新数据矩阵的行列重叠度和计算行列覆盖率这两步。
计算重叠度算法如下:
CalOverlapping Algorithm:
输入:子矩阵模式(P,Q)
输出:行重叠度向量rowOverlap[m]和列重叠度向量colOverlap[n]
Figure GDA0002946022400000111
计算覆盖率算法如下:
CalCoverage Algorithm:
输入:行重叠度向量rowOverlap[m]和列重叠度向量colOverlap[n]
输出:行覆盖率rowCoverage和列覆盖率colCoverage
Figure GDA0002946022400000112
Figure GDA0002946022400000121
步骤103、判断行列覆盖率是否已经收敛,若否则进行步骤104,若是则进行步骤112;
本步骤首先判断当前迭代的行列覆盖率是否都达到100%,若否则将本次迭代的行列覆盖率与上一次迭代的行列覆盖率比较,若两次行列覆盖率的差值小于0.01,则表示行列覆盖率已经收敛,进行步骤112,若否则继续进行下一次迭代。
步骤104、随机打乱数据矩阵中行和列的排列顺序,目的是为了挖掘出更多不同的模式。
步骤105、用步骤104中随机打乱后的数据矩阵的列集合初始化候选列集合candiCol,然后对候选列集合中的列按照列重叠度从小到大排序,若存在两列的列重叠度大小相同,则按照随机打乱后的列排列顺序从小到大排序。
步骤106、判断候选列集合是否为空,若是则返回步骤102,更新当前的行列覆盖率和重叠度信息,若否则进行步骤107;
步骤107、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记为合格列并进行步骤108,若否则进行步骤109;
判断某列是否是合格的列,即判断某列是否满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值rmin
(2)把该列加入到当前模式的列集合Q后不会使双聚类模式集合γ的最大行重叠度νR增大,
若均满足这两个条件,则称该列为合格列;
其中,某列t的有效行要满足以下条件:
(1)把列t加入到当前模式(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序
Figure GDA0002946022400000122
的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
判断列t是否合格的算法如下:
CheckCol Algorithm:
输入:列t,当前模式(P,Q)
输出:true,表示合格;false,表示不合格
Figure GDA0002946022400000131
步骤108、更新当前双聚类模式:将步骤107中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;扩展算法可参照步骤107中的CheckCol Algorithm。
步骤109、判断当前双聚类模式是否符合稀疏保序子矩阵模型的要求,若是则进行步骤111将其保存在模式集合中,若否则进行步骤110将其丢弃;
具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
添加模式的算法如下:
AddSopsm Algorithm:
输入:当前模式(P,Q)
输出:模式集合γ
Figure GDA0002946022400000141
步骤110、丢弃当前模式。
步骤111、将当前模式保存在双聚类模式集合γ中。
步骤112、遍历双聚类模式集合γ,根据线性拟合的方法计算每个双聚类模式中的缺失值,得到数据矩阵中缺失值的预测结果;
其中,缺失值的计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
计算缺失值的算法如下:
Predict Algorithm:
输入:模式集合γ
输出:计算了缺失值后的模式集合γ
Figure GDA0002946022400000151
图2为本发明实施例中采用线性拟合方法计算缺失值的示例图,对于推荐系统中的评分数据矩阵来说,评分数据矩阵M的每一行代表一个用户,每一列代表一个商品,图2中左侧是在评分数据矩阵M中挖掘出的一个存在缺失值的稀疏保序子矩阵(P,Q),这是一个3行4列的子矩阵且每一行在列集合上的排列顺序都是线性递增的,行子集P={r1,r2,r3}分别表示3个用户,列子集Q={t1,t2,t3,t4}分别表示4个商品,矩阵中的数字表示的是用户对商品的评分值,例如用户r1对商品t3的评分值是4,符号“-”表示缺失值,说明该用户没有对该商品进行评分,这个子矩阵表明了用户{r1,r2,r3}对{t1,t2,t3,t4}这4个商品的评分具有局部相似性,也就是说这3个用户对这4个商品的喜好具有相似性;右侧是根据PredictAlgorithm方法对左侧子矩阵中的缺失值进行了预测计算后的结果,预测值表示的是某个用户对某个商品的预测评分值。
综上所述,本发明实施例是基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,该方法在传统双聚类方法的基础上,加入了覆盖率约束和重叠度约束这两个限制条件,首先定义了一种稀疏保序子矩阵模型,然后重复扫描数据矩阵,不断搜索挖掘符合事先定义的稀疏保序子矩阵模型的双聚类模式,并且在挖掘过程中优先选择那些从未被覆盖或重叠度较少的行和列来扩展当前的双聚类模式,如果不能挖掘出更多符合条件的模式来覆盖新的行和列,这意味着行列覆盖率已经收敛,此时将停止扫描数据矩阵,最后按照线性拟合的方法计算每个双聚类模式中的缺失值。因此,本发明适用于稀疏数据矩阵,控制了挖掘出的双聚类模式的分布和重叠程度,有效地提高了双聚类模式的质量和缺失值预测的准确性。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。

Claims (10)

1.一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,所述方法包括以下步骤:
S1、用户输入双聚类模式挖掘的请求内容,计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式;所述双聚类是指具有局部相似性的一组用户子集和一组电影子集组成的一个子矩阵,所述子矩阵表示用户对这组电影的喜好是相似的;
S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率;
S3、判断行和列的覆盖率是否均已收敛,若否则进行步骤S4,若是则进行步骤S9;
S4、随机打乱数据矩阵中行和列的排列顺序,用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合,再对候选列集合中的列按照重叠度从小到大排序,若存在两列的重叠度相同,则按照列的随机排列顺序从小到大排序;
S5、判断候选列集合是否为空,若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息,若否则进行步骤S6;
S6、从头到尾遍历候选列集合中的所有元素,并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大,若存在,则把相应的列标记为合格列并进行步骤S7,若否则进行步骤S8;
S7、更新当前双聚类模式:将步骤S6中选出的合格列加入到当前双聚类模式的列集合的末尾,并把对应的有效行加入到当前双聚类模式的行集合中;
S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定,若是则将其保存在双聚类模式集合中,若否则将其丢弃;
S9、遍历当前双聚类模式集合,根据线性拟合方法计算每个双聚类模式中的缺失值;
S10、输出最终挖掘出的双聚类模式集合和缺失值的计算结果,遍历双聚类模式集合,得到数据矩阵中缺失值的预测结果,预测结果表示的是某个用户对某个商品的预测评分值。
2.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S1所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值rmin和tmin
所述待挖掘的数据矩阵表示为M(R,T),其中R为数据矩阵的行集合,R={r1,...,rm},rm表示数据矩阵的第m行,T为数据矩阵的列集合,T={t1,...,tn},tn表示数据矩阵的第n列;
请求的目标是挖掘出一组满足稀疏保序子矩阵模型的子矩阵模式集合γ即双聚类模式集合,使得每个子矩阵包含至少rmin行和tmin列并且每行有效元素的密集度都不小于密集度阈值α并且每行有效元素的排列顺序是这个子矩阵列集合中列的排列顺序的一个子序,使得子矩阵模式集合γ在待挖掘的数据矩阵M上的行和列的覆盖率最大化,重叠度最小化。
3.根据权利要求1或者2所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(rm,tn)其位置存储的是一个已知值,则称元素M(rm,tn)为有效元素或有效值,如果该位置没有存储任何值,则称元素M(rm,tn)为缺失元素或缺失值;
保序子矩阵的定义为:给定一个矩阵M(R,T)和M的一个子矩阵(P,Q),(P,Q)被称为保序子矩阵(OPSM)当且仅当存在Q的线性次序TQ使得P中的每一行都满足这个次序TQ,其中
Figure FDA0002946022390000021
使用简单的符号M和(P,Q)分别表示数据矩阵M(R,T)及其子矩阵M(P,Q);
为了使挖掘出的子矩阵中允许存在缺失值,在保序子矩阵模型的基础上,给定一个密集度阈值α,若(P,Q)满足以下条件:
(1)P中每一行在Q上的密集度不小于密集度阈值α,即:D(r,Q)≥α,r∈P;
(2)存在Q的线性次序TQ使得P中每一行的有效元素的排列顺序都是TQ的一个子序,
则(P,Q)是稀疏保序子矩阵(SOPSM);
子矩阵(P,Q)的密集度为D(P,Q),D(P,Q)为子矩阵(P,Q)所有元素中的有效元素的比例,计算公式为:
Figure FDA0002946022390000022
其中ε(P,Q)表示子矩阵(P,Q)中有效元素的数量,|P|×|Q|表示矩阵的元素总数;同理,子矩阵(P,Q)中第r行的行密集度为:
Figure FDA0002946022390000023
其中,ε({r},Q)表示第r行在列集合Q上的有效元素的个数,|Q|表示列集合Q的元素个数。
4.根据权利要求1或者2所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数;行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例;行和列的重叠度和覆盖率的计算方式如下:
数据矩阵M(R,T)和M的一组子矩阵模式集合γ={(P1,Q1),(P2,Q2),...,(Pk,Qk)},子矩模式集合γ中包含k个子矩阵,用d(r,t)表示在γ中覆盖元素M(r,t)的子矩阵的数量,即:
d(r,t)=|{(Pi,Qi)|(Pi,Qi)∈γ,r∈Pi,t∈Qi}|
把d(r,t)称为元素M(r,t)的重叠度;用ν(γ)表示子矩阵模式集合γ在矩阵M(R,T)上的最大重叠度:
Figure FDA0002946022390000031
为了提高计算效率,把矩阵中每个元素的重叠度简化为单一行重叠度和单一列重叠度,其中,第r行的重叠度用dR(r)表示,是指γ中覆盖第r行中任何元素的模式数量;同理,第t列的重叠度用dT(t)表示,是指γ中覆盖第t列中任何元素的模式数量,因此,子矩阵模式集合γ的最大行重叠度νR是指矩阵M(R,T)中所有单一行的重叠度中的最大值,最大列重叠度νT是指矩阵M中所有单一列的重叠度中的最大值,即:
νR=max{dR(r)|r∈R}
νT=max{dT(t)|t∈T}
覆盖率包括行覆盖率和列覆盖率这两个指标,分别用cR(γ)和cT(γ)表示,其中,行覆盖率是指R中被至少一个子矩阵覆盖的行的比例,相似地,列覆盖率是指T中被至少一个子矩阵覆盖的列的比例,计算公式为:
Figure FDA0002946022390000032
其中,|R|表示待挖掘的数据矩阵中的行数,|T|表示待挖掘的数据矩阵中的列数,k表示子矩模式集合γ中包含的子矩阵的数量。
5.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S3判断行和列的覆盖率是否已经收敛:先判断当前迭代的行和列的覆盖率是否都达到100%,若是,则表示行和列的覆盖率已经收敛,则若否,则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较,若两次行和列覆盖率的差值都小于0.01,则表示行和列的覆盖率已经收敛,否则表示行和列的覆盖率没有收敛。
6.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S6所述的稀疏保序子矩阵模型的规定为:在双聚类模式中,行集合的元素个数不小于最小行数阈值rmin,列集合的元素个数不小于最小列数阈值tmin,有效行的密集度不小于密集度阈值α,且每行必须满足保序条件;
所述保序条件为该行在列集合上的有效值的排列顺序是列集合中列的排列顺序的一个子序;
所述有效行是指:满足新的列集合次序且行密集度不小于α的行;所述有效行的密集度是指该有效行在列集合上的有效值个数占列集合元素总个数的比例。
7.根据权利要求6所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,所述的次序和子序分别做如下定义:
在包含h个元素的列集合Q={t1,...,th},th表示列集合Q的第h个元素,h=1~ih,Q的一个线性次序为TQ=[ti1<ti2<...<tih],其中,tih表示列集合Q中下标h=ih的元素,次数关系<满足反对称性、传递性和线性,称这样的列集合Q是次序TQ的关联集合;
在两个次序T1、T2和它们的关联集合Q1和Q2中,如果
Figure FDA0002946022390000041
对于任意每对ti,tj∈Q1,ti和tj分别表示集合Q1中任意两个元素,即第ti列和第tj列;ti<tj在Q1和Q2中同时成立,则称T1是T2的一个子序;在次序TQ=[ti1<ti2<...<tih]和候选集合中第q列之间定义一个附加操作
Figure FDA0002946022390000042
表示把第q列加入到次序TQ的末尾,即:
Figure FDA0002946022390000043
8.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S7所述的更新双聚类模式的具体过程:将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾,并在候选列集合中删除该列,把对应的有效行加入到当前双聚类模式的行集合中;
合格的列满足以下两个条件:
(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值;
(2)把该列加入到当前模式的列集合Q后不会使当前双聚类模式集合γ的最大行重叠度增大;
若该列均满足这两个条件,则说明该列是合格的列;
步骤S7所述的有效行满足以下条件:
(1)把合格的列加入到子矩阵M(P,Q)的列集合Q的末尾之后,有效行中有效元素的排列顺序是新列集合Q'=Q∪{t}对应的新线性次序
Figure FDA0002946022390000044
的一个子序;
(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。
9.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S8中判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定具体过程为:首先计算当前双聚类模式的行数和列数,然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值rmin和最小列数阈值tmin,且每行有效元素的密集度都不小于密集度阈值α,且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序,若是则将其保存在双聚类模式集合中,若否则将其丢弃。
10.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,其特征在于,步骤S9中缺失值的计算公式为:
M′(rm,tn)=ak+b
a=(y2-y1)/(x2-x1)
b=(x2y1-x1y2)/(x2-x1)
其中x1和x2表示与该缺失值在同一行且最邻近的两个有效值的下标,y1和y2表示对应的有效值,a表示这两个有效值所在直线的斜率,k表示缺失值的下标,b表示直线的截距,M′(rm,tn)表示矩阵中第m行第n列缺失元素的预测值。
CN201910468279.9A 2019-05-31 2019-05-31 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法 Active CN110222089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910468279.9A CN110222089B (zh) 2019-05-31 2019-05-31 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910468279.9A CN110222089B (zh) 2019-05-31 2019-05-31 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法

Publications (2)

Publication Number Publication Date
CN110222089A CN110222089A (zh) 2019-09-10
CN110222089B true CN110222089B (zh) 2021-05-14

Family

ID=67819083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910468279.9A Active CN110222089B (zh) 2019-05-31 2019-05-31 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法

Country Status (1)

Country Link
CN (1) CN110222089B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455578A (zh) * 2013-08-23 2013-12-18 华南师范大学 一种基于关联规则和双聚类的航空客户数据挖掘方法
CN106294288A (zh) * 2016-07-27 2017-01-04 中南大学 一种分布式非负矩阵分解方法
CN106844637A (zh) * 2017-01-19 2017-06-13 北京工业大学 基于正交与聚类修剪改进多目标遗传算法的电影推荐方法
US10114923B1 (en) * 2015-04-06 2018-10-30 EMC IP Holding Company LLC Metagenomics-based biological surveillance system using big data profiles
CN109284773A (zh) * 2018-08-15 2019-01-29 西南交通大学 基于多层凝聚层次聚类算法的交通出行端点识别方法
CN109657149A (zh) * 2018-12-25 2019-04-19 合肥学院 一种基于生成对抗网络和双聚类的推荐方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170046510A1 (en) * 2015-08-14 2017-02-16 Qualcomm Incorporated Methods and Systems of Building Classifier Models in Computing Devices

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455578A (zh) * 2013-08-23 2013-12-18 华南师范大学 一种基于关联规则和双聚类的航空客户数据挖掘方法
US10114923B1 (en) * 2015-04-06 2018-10-30 EMC IP Holding Company LLC Metagenomics-based biological surveillance system using big data profiles
CN106294288A (zh) * 2016-07-27 2017-01-04 中南大学 一种分布式非负矩阵分解方法
CN106844637A (zh) * 2017-01-19 2017-06-13 北京工业大学 基于正交与聚类修剪改进多目标遗传算法的电影推荐方法
CN109284773A (zh) * 2018-08-15 2019-01-29 西南交通大学 基于多层凝聚层次聚类算法的交通出行端点识别方法
CN109657149A (zh) * 2018-12-25 2019-04-19 合肥学院 一种基于生成对抗网络和双聚类的推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于数字签名与Trie的保序子矩阵约束查询;姜涛等;《软件学报》;20170831;第28卷(第8期);第2175-2195页 *

Also Published As

Publication number Publication date
CN110222089A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Got et al. Hybrid filter-wrapper feature selection using whale optimization algorithm: A multi-objective approach
CN111104595B (zh) 一种基于文本信息的深度强化学习交互式推荐方法及系统
Ziegler et al. Mining data with random forests: current options for real‐world applications
KR102305568B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
Alomari et al. A hybrid filter-wrapper gene selection method for cancer classification
KR20160073406A (ko) 방향성 비순환 구조에서 쌍형성된-말단 데이터를 사용하기 위한 시스템 및 방법
Patil et al. Align-rudder: Learning from few demonstrations by reward redistribution
US20170351807A1 (en) Methods and systems for designing gene panels
CN107203558B (zh) 对象推荐方法和装置、推荐信息处理方法和装置
WO2018090468A1 (zh) 视频节目的搜索方法和装置
US5991752A (en) Method and apparatus for deriving association rules from data and for segmenting rectilinear regions
Dehzangi et al. A mixture of physicochemical and evolutionary–based feature extraction approaches for protein fold recognition
CN115952307A (zh) 基于多模态图对比学习的推荐方法、电子设备及存储介质
CN111753215A (zh) 一种多目标推荐优化方法及可读介质
Wu et al. TADO: Time-varying Attention with Dual-Optimizer Model
CN111915414B (zh) 向目标用户展示目标对象序列的方法和装置
CN110222089B (zh) 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法
CN110073351B (zh) 通过组合来自用户尝试的候选来预测文本
Tang Random forest missing data approaches
Blum et al. Metaheuristics for String Problems in Bio-informatics
CN108830680B (zh) 基于离散分解机的个性化推荐方法、系统及存储介质
CN116010625A (zh) 基于遗传算法的引文网络图标签对抗攻击方法
CN110806861B (zh) 一种结合用户反馈信息的api推荐方法及终端
CN110019815B (zh) 利用knn的自然语言处理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant