CN110222089B

CN110222089B - 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法

Info

Publication number: CN110222089B
Application number: CN201910468279.9A
Authority: CN
Inventors: 钟佳琪; 李东; 方琼
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2021-05-14
Anticipated expiration: 2039-05-31
Also published as: CN110222089A

Abstract

本发明公开了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，包括以下步骤：S1、接收请求并挖掘数据矩阵的双聚类模式；S2、计算行和列的重叠度和覆盖率；S3、判断行列覆盖率是否收敛，若否则进行步骤S4，否则进行步骤S9；S4、随机打乱数据矩阵中行和列的排列顺序，对候选列集合排序；S5、判断候选列集合是否为空；S6、判断候选列集合中是否存在合格列；S7、根据新选出的合格列扩展双聚类模式的列集合和行集合；S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的要求；S9、计算每个双聚类模式的缺失值；S10、返回最终的双聚类集合和缺失值。因此，本发明有效地提高了双聚类模式的质量和缺失值预测的准确性。

Description

一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法

技术领域

本发明涉及双聚类模式挖掘领域，具体涉及一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法。

背景技术

一般的聚类是根据数据的全部属性将数据聚类，这种聚类方式称为传统聚类。传统聚类只能寻找全局信息，无法找到局部信息，而大量的有趣信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息，人们提出双聚类的概念。所谓双聚类，也叫子矩阵模式，是数据矩阵中具有局部相似性的一组行子集和一组列子集组合成的一个子矩阵，它表示这组行在这组列集合上的表现具有某种局部相似性。而双聚类挖掘就是通过在数据矩阵中挖掘出满足事先定义的子矩阵模型的所有子矩阵来捕获数据矩阵中有趣的局部相似性。例如，在推荐系统领域中，对于Netflix电影评分数据矩阵，一个双聚类是指具有局部相似性的一组用户子集和一组电影子集组成的一个子矩阵，它表示这些用户对这组电影的喜好是相似的。

目前关于双聚类的研究主要分为两类：无约束双聚类和分区双聚类。无约束双聚类能保证挖掘出的模式质量，但由于在挖掘过程中没有考虑到重叠和覆盖约束，可能导致搜索空间中模式数量爆炸和模式之间冗余度很高等问题，因此它主要在较小的数据矩阵中进行研究，这在诸如推荐系统和文本挖掘等现实应用中是不实际的。而分区双聚类虽然对于处理大型数据矩阵是有效的，但是它将模式限制为网格分布，即把数据矩阵强制划分成一个个互不相交的子矩阵，因此无法保证每个单一模式的质量。

保序子矩阵模型(OPSM)是子矩阵模型中具有代表性的一类，大量研究表明，OPSM模型及其放宽条件的变体模型能够很好地促进有趣的生物学相关性的发现。然而，当数据矩阵变得非常大时，这些方法不能很好地扩展。此外，在保序子矩阵模式挖掘过程中没有考虑到重叠或覆盖约束，也没有解决稀疏矩阵的问题。

发明内容

本发明的目的是针对现有技术的不足，提供了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，所述方法针对已有的双聚类方法的局限性，在双聚类挖掘过程中添加重叠度和覆盖率约束来控制模式的分布，避免模式冗余和模式数量爆炸，有效地提高了模式的质量；同时为了能够处理稀疏数据矩阵，提供了一种稀疏保序子矩阵模型，使得模式中允许存在缺失值；最后提供了一种线性拟合的方法计算模式中的缺失值，从而有效地提高了缺失值预测的准确性。

本发明至少通过如下技术方案之一实现。

一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，所述方法包括以下步骤：

S1、用户输入双聚类模式挖掘的请求内容，计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式；

S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率；

S3、判断行和列的覆盖率是否均已收敛，若否则进行步骤S4，若是则进行步骤S9；

S4、随机打乱数据矩阵中行和列的排列顺序，用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合，再对候选列集合中的列按照重叠度从小到大排序，若存在两列的重叠度相同，则按照列的随机排列顺序从小到大排序；

S5、判断候选列集合是否为空，若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息，若否则进行步骤S6；

S6、从头到尾遍历候选列集合中的所有元素，并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大，若存在，则把相应的列标记记为合格列并进行步骤S7，若否则进行步骤S8；

S7、更新当前双聚类模式：将步骤S6中选出的合格列加入到当前双聚类模式的列集合的末尾，并把对应的有效行加入到当前双聚类模式的行集合中；

S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定，若是则将其保存在双聚类模式集合中，若否则将其丢弃；

S9、遍历当前双聚类模式集合，根据线性拟合方法计算每个双聚类模式中的缺失值；

S10、输出最终挖掘出的双聚类模式集合和缺失值的计算结果。

进一步的，步骤S1所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值r_min和t_min；

所述待挖掘的数据矩阵表示为M(R,T)，其中R为数据矩阵的行集合，R＝{r₁,...,r_m}，r_m表示数据矩阵的第m行，T为数据矩阵的列集合，T＝{t₁,...,t_n}，t_n表示数据矩阵的第n列；

请求的目标是挖掘出一组满足稀疏保序子矩阵模型的子矩阵模式集合γ即双聚类模式集合，使得每个子矩阵包含至少r_min行和t_min列并且每行有效元素的密集度都不小于密集度阈值α并且每行有效元素的排列顺序是这个子矩阵列集合中列的排列顺序的一个子序，使得子矩阵模式集合γ在待挖掘的数据矩阵M上的行和列的覆盖率最大化，重叠度最小化。

进一步的，步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(r_m,t_n)其位置存储的是一个已知值，则称元素M(r_m,t_n)为有效元素或有效值，如果该位置没有存储任何值，则称元素M(r_m,t_n)为缺失元素或缺失值；

保序子矩阵的定义为：给定一个矩阵M(R,T)和M的一个子矩阵(P,Q)，(P,Q)被称为保序子矩阵(OPSM)当且仅当存在Q的线性次序T_Q使得P中的每一行都满足这个次序T_Q,其中

使用简单的符号M和(P,Q)分别表示数据矩阵M(R,T)及其子矩阵M(P,Q)；

为了使挖掘出的子矩阵中允许存在缺失值，在保序子矩阵模型的基础上，给定一个密集度阈值α，若(P,Q)满足以下条件：

(1)P中每一行在Q上的密集度不小于密集度阈值α，即：D(r,Q)≥α,r∈P；

(2)存在Q的线性次序T_Q使得P中每一行的有效元素的排列顺序都是T_Q的一个子序，则(P,Q)是稀疏保序子矩阵(SOPSM)；

子矩阵(P,Q)的密集度为D(P,Q)，D(P,Q)为子矩阵(P,Q)所有元素中的有效元素的比例，计算公式为：

其中ε(P,Q)表示子矩阵(P,Q)中有效元素的数量，|P|×|Q|表示矩阵的元素总数；同理，子矩阵(P,Q)中第r行的行密集度为：

其中，ε({r},Q)表示第r行在列集合Q上的有效元素的个数，|Q|表示列集合Q的元素个数。

进一步的，步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数；行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例；行和列的重叠度和覆盖率的计算方式如下：

数据矩阵M(R,T)和M的一组子矩阵模式集合γ＝{(P₁,Q₁),(P₂,Q₂),...,(P_k,Q_k)}，子矩模式集合γ中包含k个子矩阵，用d(r,t)表示在γ中覆盖元素M(r,t)的子矩阵的数量，即：

d(r,t)＝|{(P_i,Q_i)|(P_i,Q_i)∈γ,r∈P_i,t∈Q_i}|

把d(r,t)称为元素M(r,t)的重叠度；用ν(γ)表示子矩阵模式集合γ在矩阵M(R,T)上的最大重叠度：

为了提高计算效率，把矩阵中每个元素的重叠度简化为单一行重叠度和单一列重叠度，其中，第r行的重叠度用d^R(r)表示，是指γ中覆盖第r行中任何元素的模式数量；同理，第t列的重叠度用d^T(t)表示，是指γ中覆盖第t列中任何元素的模式数量，因此，子矩阵模式集合γ的最大行重叠度ν^R是指矩阵M(R,T)中所有单一行的重叠度中的最大值，最大列重叠度ν^T是指矩阵M中所有单一列的重叠度中的最大值，即：

ν^R＝max{d^R(r)|r∈R}

ν^T＝max{d^T(t)|t∈T}

覆盖率包括行覆盖率和列覆盖率这两个指标，分别用c^R(γ)和c^T(γ)表示，其中，行覆盖率是指R中被至少一个子矩阵覆盖的行的比例，相似地，列覆盖率是指T中被至少一个子矩阵覆盖的列的比例，计算公式为：

其中，|R|表示待挖掘的数据矩阵中的行数，|T|表示待挖掘的数据矩阵中的列数,k表示子矩模式集合γ中包含的子矩阵的数量。

进一步的，步骤S3判断行列的覆盖率是否已经收敛：先判断当前迭代的行和列的覆盖率是否都达到100％，若是，则表示行和列的覆盖率已经收敛，则若否，则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较，若两次行和列覆盖率的的差值都小于0.01，则表示行和列的覆盖率已经收敛，否则表示行和列的覆盖率没有收敛。

进一步的，步骤S6所述的稀疏保序子矩阵模型的规定为：在双聚类模式中，行集合的元素个数不小于最小行数阈值r_min，列集合的元素个数不小于最小列数阈值t_min，有效行的密集度不小于密集度阈值α，且每行必须满足保序条件；

所述保序条件为该行在列集合上的有效值的排列顺序是列集合中列的排列顺序的一个子序；

所述有效行是指：满足新的列集合次序且行密集度不小于α的行；所述有效行的密集度是指该有效行在列集合上的有效值个数占列集合元素总个数的比例。

进一步的，所述的次序和子序分别做如下定义：

在包含h个元素的列集合Q＝{t₁,...,t_h}，t_h表示列集合Q的第h个元素，h＝1～i_h，Q的一个线性次序为T_Q＝[t_i1＜t_i2＜...＜t_ih]，其中，t_ih表示列集合Q中下标h＝i_h的元素，次数关系＜满足反对称性、传递性和线性，称这样的列集合Q是次序T_Q的关联集合；

在两个次序T₁、T₂和它们的关联集合Q₁和Q₂中，如果

对于任意每对t_i,t_j∈Q₁，t_i和t_j分别表示集合Q₁中任意两个元素，即第t_i列和第t_j列；t_i＜t_j在Q₁和Q₂中同时成立，则称T₁是T₂的一个子序；在次序T_Q＝[t_i1＜t_i2＜...＜t_ih]和候选集合中第q列之间定义一个附加操作

表示把第q列加入到次序T_Q的末尾，即：

进一步的，步骤S7所述的更新双聚类模式的具体过程：将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾，并在候选列集合中删除该列，把对应的有效行加入到当前双聚类模式的行集合中；

合格的列满足以下两个条件：

(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值；

(2)把该列加入到当前模式的列集合Q后不会使当前双聚类模式集合γ的最大行重叠度增大；

若该列均满足这两个条件，则说明该列是合格的列；

步骤S7所述的有效行满足以下条件：

(1)把合格的列加入到子矩阵M(P,Q)的列集合Q的末尾之后，有效行中有效元素的排列顺序是新列集合Q'＝Q∪{t}对应的新线性次序

的一个子序；

(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。

进一步的，步骤S8中判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定具体过程为：首先计算当前双聚类模式的行数和列数，然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值r_min和最小列数阈值t_min，且每行有效元素的密集度都不小于密集度阈值α，且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序，若是则将其保存在双聚类模式集合中，若否则将其丢弃。

进一步的，步骤S9中缺失值的计算公式为：

M′(r_m,t_n)＝ak+b

a＝(y₂-y₁)/(x₂-x₁)

b＝(x₂y₁-x₁y₂)/(x₂-x₁)

其中x₁和x₂表示与该缺失值在同一行且最邻近的两个有效值的下标，y₁和y₂表示对应的有效值，a表示这两个有效值所在直线的斜率，k表示缺失值的下标，b表示直线的截距，M′(r_m,t_n)表示矩阵中第m行第n列缺失元素的预测值。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提供了一种带约束的双聚类挖掘方法，通过在双聚类挖掘过程中添加重叠度和覆盖率约束，来控制模式的分布，避免模式冗余和模式数量爆炸，有效地提高了模式的质量。

2、本发明在现有保序子矩阵模型的基础上提供了一种稀疏保序子矩阵模型，使得挖掘出的模式中允许存在缺失值，提高了方法的可扩展性，可以有效地处理稀疏数据矩阵。

3、本发明提供了一种线性拟合的方法用于计算模式中的缺失值，有效地提高了缺失值预测的准确性。

附图说明

图1为本发明实施例基于保序子矩阵的约束双聚类挖掘及缺失值预测方法的流程图；

图2为本发明实施例中采用线性拟合方法计算缺失值的示例图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明实施例在传统双聚类方法的基础上，加入了覆盖率约束和重叠度约束这两个限制条件，首先定义了一种稀疏保序子矩阵模型，然后重复扫描数据矩阵，不断搜索挖掘符合事先定义的稀疏保序子矩阵模型的双聚类模式，并且在挖掘过程中优先选择那些从未被覆盖或重叠度较少的行和列来扩展当前的双聚类模式，如果不能挖掘出更多符合条件的模式来覆盖新的行和列，这意味着行列覆盖率已经收敛，此时将停止扫描数据矩阵，最后按照线性拟合的方法计算每个双聚类模式中的缺失值。因此，本发明适用于稀疏数据矩阵，控制了挖掘出的双聚类模式的分布和重叠程度，有效地提高了双聚类模式的质量和缺失值预测的准确性。

下面对本发明实施例提供的基于保序子矩阵的约束双聚类挖掘及缺失值预测方法做详细说明，所述方法包括以下步骤：

所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值r_min和t_min；

S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率；

步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数；行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例；行和列的重叠度和覆盖率的计算方式如下：

d(r,t)＝|{(P_i,Q_i)|(P_i,Q_i)∈γ,r∈P_i,t∈Q_i}|

ν^R＝max{d^R(r)|r∈R}

ν^T＝max{d^T(t)|t∈T}

判断行和列的覆盖率是否已经收敛，具体为：先判断当前迭代的行和列的覆盖率是否都达到100％，若是，则表示行和列的覆盖率已经收敛，则若否，则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较，若两次行和列覆盖率的差值都小于0.01，则表示行和列的覆盖率已经收敛，否则表示行和列的覆盖率没有收敛。

所述的稀疏保序子矩阵模型的规定为：在双聚类模式中，行集合的元素个数不小于最小行数阈值r_min，列集合的元素个数不小于最小列数阈值t_min，有效行的密集度不小于密集度阈值α，且每行必须满足保序条件；

所述的次序和子序分别做如下定义：

在两个次序T₁、T₂和它们的关联集合Q₁和Q₂中，如果

表示把第q列加入到次序T_Q的末尾，即：

更新双聚类模式的具体过程：将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾，并在候选列集合中删除该列，把对应的有效行加入到当前双聚类模式的行集合中；

合格的列满足以下两个条件：

若该列均满足这两个条件，则说明该列是合格的列；

所述的有效行满足以下条件：

的一个子序；

(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。

S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定，若是则将其保存在双聚类模式集合中，若否则将其丢弃。具体过程为：首先计算当前双聚类模式的行数和列数，然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值r_min和最小列数阈值t_min，且每行有效元素的密集度都不小于密集度阈值α，且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序，若是则将其保存在双聚类模式集合中，若否则将其丢弃。

S9、遍历当前双聚类模式集合，根据线性拟合方法计算每个双聚类模式中的缺失值，计算公式为：

M′(r_m,t_n)＝ak+b

a＝(y₂-y₁)/(x₂-x₁)

b＝(x₂y₁-x₁y₂)/(x₂-x₁)

S10、返回最终挖掘出的双聚类模式集合和缺失值的计算结果。

本实施例提供的基于保序子矩阵的约束双聚类挖掘及缺失值预测方法的流程图如图1所示，具体包括以下步骤：

步骤101、输入数据矩阵M(R,T)

输入的数据格式为每一行输入三个数字，中间用空格分隔开，三个数字分别表示数据矩阵的行、列、元素值，比如“1 2 3”表示数据矩阵中第1行第2列的元素值为3。

步骤102、计算行列重叠度和覆盖率，包括根据新挖掘出的模式更新数据矩阵的行列重叠度和计算行列覆盖率这两步。

计算重叠度算法如下：

CalOverlapping Algorithm：

输入：子矩阵模式(P,Q)

输出：行重叠度向量rowOverlap[m]和列重叠度向量colOverlap[n]

计算覆盖率算法如下：

CalCoverage Algorithm：

输入：行重叠度向量rowOverlap[m]和列重叠度向量colOverlap[n]

输出：行覆盖率rowCoverage和列覆盖率colCoverage

步骤103、判断行列覆盖率是否已经收敛，若否则进行步骤104，若是则进行步骤112；

本步骤首先判断当前迭代的行列覆盖率是否都达到100％，若否则将本次迭代的行列覆盖率与上一次迭代的行列覆盖率比较，若两次行列覆盖率的差值小于0.01，则表示行列覆盖率已经收敛，进行步骤112，若否则继续进行下一次迭代。

步骤104、随机打乱数据矩阵中行和列的排列顺序，目的是为了挖掘出更多不同的模式。

步骤105、用步骤104中随机打乱后的数据矩阵的列集合初始化候选列集合candiCol，然后对候选列集合中的列按照列重叠度从小到大排序，若存在两列的列重叠度大小相同，则按照随机打乱后的列排列顺序从小到大排序。

步骤106、判断候选列集合是否为空，若是则返回步骤102，更新当前的行列覆盖率和重叠度信息，若否则进行步骤107；

步骤107、从头到尾遍历候选列集合中的所有元素，并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大，若存在，则把相应的列标记为合格列并进行步骤108，若否则进行步骤109；

判断某列是否是合格的列，即判断某列是否满足以下两个条件：

(1)该列的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值r_min

(2)把该列加入到当前模式的列集合Q后不会使双聚类模式集合γ的最大行重叠度ν^R增大，

若均满足这两个条件，则称该列为合格列；

其中，某列t的有效行要满足以下条件：

(1)把列t加入到当前模式(P,Q)的列集合Q的末尾之后，有效行中有效元素的排列顺序是新列集合Q'＝Q∪{t}对应的新线性次序

的一个子序；

(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。

判断列t是否合格的算法如下：

CheckCol Algorithm：

输入：列t，当前模式(P,Q)

输出：true，表示合格；false，表示不合格

步骤108、更新当前双聚类模式：将步骤107中选出的合格列加入到当前双聚类模式的列集合的末尾，并把对应的有效行加入到当前双聚类模式的行集合中；扩展算法可参照步骤107中的CheckCol Algorithm。

步骤109、判断当前双聚类模式是否符合稀疏保序子矩阵模型的要求，若是则进行步骤111将其保存在模式集合中，若否则进行步骤110将其丢弃；

具体过程为：首先计算当前双聚类模式的行数和列数，然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值r_min和最小列数阈值t_min，且每行有效元素的密集度都不小于密集度阈值α，且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序，若是则将其保存在双聚类模式集合中，若否则将其丢弃。

添加模式的算法如下：

AddSopsm Algorithm：

输入：当前模式(P,Q)

输出：模式集合γ

步骤110、丢弃当前模式。

步骤111、将当前模式保存在双聚类模式集合γ中。

步骤112、遍历双聚类模式集合γ，根据线性拟合的方法计算每个双聚类模式中的缺失值，得到数据矩阵中缺失值的预测结果；

其中，缺失值的计算公式为：

M′(r_m,t_n)＝ak+b

a＝(y₂-y₁)/(x₂-x₁)

b＝(x₂y₁-x₁y₂)/(x₂-x₁)

计算缺失值的算法如下：

Predict Algorithm：

输入：模式集合γ

输出：计算了缺失值后的模式集合γ

图2为本发明实施例中采用线性拟合方法计算缺失值的示例图，对于推荐系统中的评分数据矩阵来说，评分数据矩阵M的每一行代表一个用户，每一列代表一个商品，图2中左侧是在评分数据矩阵M中挖掘出的一个存在缺失值的稀疏保序子矩阵(P,Q)，这是一个3行4列的子矩阵且每一行在列集合上的排列顺序都是线性递增的，行子集P＝{r₁,r₂,r₃}分别表示3个用户，列子集Q＝{t₁,t₂,t₃,t₄}分别表示4个商品，矩阵中的数字表示的是用户对商品的评分值，例如用户r₁对商品t₃的评分值是4，符号“-”表示缺失值，说明该用户没有对该商品进行评分，这个子矩阵表明了用户{r₁,r₂,r₃}对{t₁,t₂,t₃,t₄}这4个商品的评分具有局部相似性，也就是说这3个用户对这4个商品的喜好具有相似性；右侧是根据PredictAlgorithm方法对左侧子矩阵中的缺失值进行了预测计算后的结果，预测值表示的是某个用户对某个商品的预测评分值。

综上所述，本发明实施例是基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，该方法在传统双聚类方法的基础上，加入了覆盖率约束和重叠度约束这两个限制条件，首先定义了一种稀疏保序子矩阵模型，然后重复扫描数据矩阵，不断搜索挖掘符合事先定义的稀疏保序子矩阵模型的双聚类模式，并且在挖掘过程中优先选择那些从未被覆盖或重叠度较少的行和列来扩展当前的双聚类模式，如果不能挖掘出更多符合条件的模式来覆盖新的行和列，这意味着行列覆盖率已经收敛，此时将停止扫描数据矩阵，最后按照线性拟合的方法计算每个双聚类模式中的缺失值。因此，本发明适用于稀疏数据矩阵，控制了挖掘出的双聚类模式的分布和重叠程度，有效地提高了双聚类模式的质量和缺失值预测的准确性。

以上所述，仅为本发明较佳的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，所述方法包括以下步骤：

S1、用户输入双聚类模式挖掘的请求内容，计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式；所述双聚类是指具有局部相似性的一组用户子集和一组电影子集组成的一个子矩阵，所述子矩阵表示用户对这组电影的喜好是相似的；

S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率；

S6、从头到尾遍历候选列集合中的所有元素，并判断是否存在某列使得如果将该列加入到当前双聚类模式的列集合的末尾该双聚类模式新的列集合对应的有效行数不小于事先定义的稀疏保序子矩阵模型规定的最小行数阈值且扩展该列不会使双聚类模式集合的最大行重叠度增大，若存在，则把相应的列标记为合格列并进行步骤S7，若否则进行步骤S8；

S10、输出最终挖掘出的双聚类模式集合和缺失值的计算结果，遍历双聚类模式集合，得到数据矩阵中缺失值的预测结果，预测结果表示的是某个用户对某个商品的预测评分值。

2.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S1所述的双聚类模式挖掘的请求内容包括待挖掘的数据矩阵、计算每个双聚类模式中的缺失值请求、密集度阈值α和行列的大小阈值r_min和t_min；

3.根据权利要求1或者2所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S1所挖掘出的子矩阵中允许存在缺失值,如果在数据矩阵中元素M(r_m,t_n)其位置存储的是一个已知值，则称元素M(r_m,t_n)为有效元素或有效值，如果该位置没有存储任何值，则称元素M(r_m,t_n)为缺失元素或缺失值；

(2)存在Q的线性次序T_Q使得P中每一行的有效元素的排列顺序都是T_Q的一个子序，

则(P,Q)是稀疏保序子矩阵(SOPSM)；

4.根据权利要求1或者2所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S2中所述的行或列的重叠度是指数据矩阵中一行或一列被所有双聚类模式即双聚类模式集合覆盖到的次数；行或列的覆盖率为被覆盖到的行数或列数占总行数或总列数的比例；行和列的重叠度和覆盖率的计算方式如下：

d(r,t)＝|{(P_i,Q_i)|(P_i,Q_i)∈γ,r∈P_i,t∈Q_i}|

ν^R＝max{d^R(r)|r∈R}

ν^T＝max{d^T(t)|t∈T}

5.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S3判断行和列的覆盖率是否已经收敛：先判断当前迭代的行和列的覆盖率是否都达到100％，若是，则表示行和列的覆盖率已经收敛，则若否，则将本次迭代的行和列的覆盖率与上一次迭代的行和列的覆盖率比较，若两次行和列覆盖率的差值都小于0.01，则表示行和列的覆盖率已经收敛，否则表示行和列的覆盖率没有收敛。

6.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S6所述的稀疏保序子矩阵模型的规定为：在双聚类模式中，行集合的元素个数不小于最小行数阈值r_min，列集合的元素个数不小于最小列数阈值t_min，有效行的密集度不小于密集度阈值α，且每行必须满足保序条件；

7.根据权利要求6所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，所述的次序和子序分别做如下定义：

在两个次序T₁、T₂和它们的关联集合Q₁和Q₂中，如果

表示把第q列加入到次序T_Q的末尾，即：

8.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S7所述的更新双聚类模式的具体过程：将步骤S6中选出的合格的列加入到当前双聚类模式的列集合的末尾，并在候选列集合中删除该列，把对应的有效行加入到当前双聚类模式的行集合中；

合格的列满足以下两个条件：

若该列均满足这两个条件，则说明该列是合格的列；

步骤S7所述的有效行满足以下条件：

的一个子序；

(2)有效行的密集度D(r,Q)都要不小于密集度阈值α。

9.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S8中判断当前双聚类模式是否符合稀疏保序子矩阵模型的规定具体过程为：首先计算当前双聚类模式的行数和列数，然后判断该模式的行数和列数是否不小于保序子矩阵模型规定的最小行数阈值r_min和最小列数阈值t_min，且每行有效元素的密集度都不小于密集度阈值α，且每行在模式列集合上的有效值的排列顺序是该模式列集合中列的排列顺序的一个子序，若是则将其保存在双聚类模式集合中，若否则将其丢弃。

10.根据权利要求1所述的一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法，其特征在于，步骤S9中缺失值的计算公式为：

M′(r_m,t_n)＝ak+b

a＝(y₂-y₁)/(x₂-x₁)

b＝(x₂y₁-x₁y₂)/(x₂-x₁)