CN103544135A

CN103544135A - 一种结合限制数据的特征权值量化方法

Info

Publication number: CN103544135A
Application number: CN201310507228.5A
Authority: CN
Inventors: 刘铭; 陈蕾; 吴冲; 刘秉权; 刘远超
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2014-01-29

Abstract

一种结合限制数据的特征权值量化方法，它涉及一种结合限制数据的特征权值量化方法，本发明是要解决现有的基于限制数据的特征权值量化方法无法处理限制数据分布不均衡和限制数据存在不一致性的问题。本发明所述一种结合限制数据的特征权值量化方法按以下步骤进行：一、合并“限制数据”和“非限制数据”进行特征权值量化；二、特征权值量化函数中结合参数分布系数；三、特征权值量化函数中结合参数置信度。本发明解决了限制数据分布不均衡和限制数据中存在不一致性的问题。技术要点在于结合限制数据和非限制数据进行特征权值量化，并提出参数分布系数和置信度，本发明可应用于网络技术领域。

Description

一种结合限制数据的特征权值量化方法

技术领域

本发明涉及一种结合限制数据的特征权值量化方法。

背景技术

随着网络技术的迅猛发展，人们接触的信息量与日俱增，用户急需一种有效的信息分析工具以协助其日常工作。聚类即是一种有效的信息分析工具，其通过凝聚相似数据能够缩小用户的查找范围并加快用户寻找相关信息的速度。

聚类中最基本的要素就是数据间的相似度度量函数，有效的相似度度量函数显然能够帮助聚类算法获得良好的聚类结果。目前大多数聚类算法以向量空间模型组织数据，并通过计算不同数据间特征向量的夹角或距离来反映数据之间的相似度，例如欧式距离、余弦相似度。此类相似度计算方法视所有特征对数据相似性的描述能力或对数据的划分能力是相同的，使类别最终呈现超球体分布。然而，现实中不同特征对数据的划分能力显然是不同的，因此有必要分析不同特征对相似度计算的贡献能力来为特征赋予不同的权值。

传统的聚类技术是一种无监督的学习方法，在算法运行前不需要获取任何先验知识。然而，现实应用中，用户对于输入数据可能存在某些限制，而聚类结果显然要满足用户对于输入数据的限制。目前最常使用的限制信息是must-link和can’t-link点对限制信息。如果用户指定输入数据中的任两个数据位于同一类别内，则说明这两个数据或点对满足must-link关系，而can’t-link关系正好相反。此类限制信息可以结合到特征权值量化中去，通过对那些能够有效划分限制数据的特征赋予较大的权值，显然可以获得更为准确的相似度计算结果。然而传统的基于限制数据的特征权值量化方法均无法处理以下两种情况：1．用户指定的限制数据的数量通常远少于全部的输入数据，这使得限制数据经常是从整个特征空间中非均匀抽取的；2．传统的特征权值量化方法认为用户提供的限制数据是准确无矛盾的，然而现实应用中用户提供的限制数据中某些满足must-link关系的数据对或按传递规则推导出的满足此关系的数据对可能同时满足can’t-link关系。

当存在第一个问题时，非均匀分布的限制数据会使特征权值量化的结果出现“过适应”现象，即错误的将那些能够有效划分密集的限制数据的特征赋予较大的权值，而忽略了分布稀疏的限制数据对特征权值量化结果的影响。针对此问题，本发明实现参数“分布系数”来平衡限制数据的分布，降低密集分布的限制数据对特征权值量化结果的影响，同时提高稀疏分布的限制数据的作用，以防止出现“过适应”现象。

当存在第二个问题时，传统的特征权值量化方法均无法对其进行处理。针对此问题，本发明实现参数“置信度”来衡量限制数据的不一致性，并对不一致的限制数据赋予较小的权值来降低其在特征权值量化中的作用。

发明内容

本发明是要解决现有的基于限制数据的特征权值量化方法无法处理限制数据分布不均衡和限制数据存在不一致性的问题，而提出一种结合限制数据的特征权值量化方法。

本发明所述的一种结合限制数据的特征权值量化方法，按以下步骤进行：

步骤一、合并“限制数据”和“非限制数据”进行特征权值量化：通过优化特征的权值以使相似度小于0.5的数据对其相似度趋近于0，而使相似度大于0.5的数据对其相似度趋于1；

步骤二、特征权值量化函数中结合参数“分布系数”：用must-link关系将限制数据划分为多个等价类，每个等价类内包含的任一点对均满足must-link关系；满足must-link关系的点对为用户指定的位于同一类别内的数据，即相似的数据，因此这些数据位于数据空间中相对密集的区域内，可使每个密集分布的区域在权值量化函数中拥有同样的重要性以平衡限制数据的非均匀分布；

步骤三、特征权值量化函数中结合参数“置信度”：为每个等价类内的数据点对提供置信度，以确定其满足用户指定的限制关系的可信性，并融合此置信度进行特征权值量化；“置信度”代表某一点对同时满足must-link关系和can’t-link关系的可能性，以边连接某一等价类（例如T_b）内满足must-link关系的点对，并通过点对间的距离计算该点对的“置信度”，置信度的计算过程是基于以下三种情况进行的：

步骤三（1）、T_b中不存在不一致的点对，则该等价类中的任意点对间的置信度均为1；

步骤三（2）、T_b中存在不一致的点对，设其为(p,q)，则对于等价类中的其它点对，设其为(i,j)，通过i和j与p和q之间的距离来计算点对(i,j)的置信度；

步骤三（3）、对于不一致的点对，其置信度显然为0.5，即其满足must-link关系和can’t-link关系的可能性均为50%。

步骤一的具体实现过程为：本发明以向量空间模型组织待聚类数据，利用公式

计算输入数据之间的相似度，其中p与q为输入数据，由上式得到相似度计算函数

并通过参数β使该函数均匀分布于0～1之间；

依据那些能够缩小MCS（满足must-link关系的点对集合）中点对间的相似度、而增大NCS（满足can’t-link关系的点对集合）中点对间的相似度的特征，对限制数据的划分能力较强的想法，以此为依据即可得到下述的特征权值量化公式，当此公式达到最小值时对应的特征权值为最优的特征权值；该公式为：

FW = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} ρ_{kl}^{(w)} \times \log ρ_{kl}^{(w)} + (1 - ρ_{ij}^{(w)}) \times \log (1 - ρ_{ij}^{(w)})

使用随机梯度下降算法优化特征的权值w_k，即可得权值更新幅度△w_k：

\begin{matrix} Δ w_{k} = \frac{&PartialD; FW}{&PartialD; w_{k}} = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; (ρ_{kl}^{(w)} \times \log ρ_{kl}^{(w)} + (1 - ρ_{ij}^{(w)}) \times \log (1 - ρ_{ij}^{(w)}))}{&PartialD; w_{k}} \\ \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} \times \log ρ_{kl}^{(w)} + ρ_{kl}^{(w)} \times \frac{1}{ρ_{kl}^{(w)}} \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} - \\ = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \times \log (1 - ρ_{ij}^{(w)}) - (1 - ρ_{ij}^{(w)}) \times \frac{1}{(1 - ρ_{ij}^{(w)})} \times \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \end{matrix};

其中，

为：

\begin{matrix} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} = \frac{&PartialD; \frac{1}{1 + β d_{ij}^{(w)}}}{&PartialD; w_{k}} = - {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times \frac{&PartialD; d_{ij}^{(w)}}{&PartialD; w_{k}} \\ = - 2 \times {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times w_{k} \times {(x_{ik} - x_{jk})}^{2} \end{matrix};

利用下列三个公式：

\begin{matrix} Δ w_{k} = \frac{&PartialD; FW}{&PartialD; w_{k}} = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; (ρ_{kl}^{(w)} \times \log ρ_{kl}^{(w)} + (1 - ρ_{ij}^{(w)}) \times \log (1 - ρ_{ij}^{(w)}))}{&PartialD; w_{k}} \\ \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} \times \log ρ_{kl}^{(w)} + ρ_{kl}^{(w)} \times \frac{1}{ρ_{kl}^{(w)}} \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} - \\ = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \times \log (1 - ρ_{ij}^{(w)}) - (1 - ρ_{ij}^{(w)}) \times \frac{1}{(1 - ρ_{ij}^{(w)})} \times \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \end{matrix}

和

\begin{matrix} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} = \frac{&PartialD; \frac{1}{1 + β d_{ij}^{(w)}}}{&PartialD; w_{k}} = - {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times \frac{&PartialD; d_{ij}^{(w)}}{&PartialD; w_{k}} \\ = - 2 \times {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times w_{k} \times {(x_{ik} - x_{jk})}^{2} \end{matrix}

可得t+1时刻的特征权值wk(t+1)：

w_{k} (t + 1) = w_{k} (t) - \frac{1}{\sqrt{2 πδ (t)}} \times (e^{- \frac{Δ w_{k} {(t)}^{2}}{δ {(t)}^{2}}}) \times (Δ w_{k} (t));

其中，以高斯函数控制梯度下降的步长，δ(t)为线性时间衰减函数，以使下降的步长逐渐减小；

将非限制数据和限制数据结合在一起即可进行特征权值量化：

其中，

μ为用户指定的参数，代表限制数据相对于非限制数据的重要程度。

步骤二的具体实现过程为：将限制数据划分为多个密集区域后，根据每个区域内包含的数据数分别对不同区域内的数据赋予不同的分布系数λb，并将其结合到权值量化函数中去，结果如下：

第b个等价类的分布系数λb的计算方法为：

其中，T_x代表T中的某个等价类，|T_x|代表集合的势，由此公式可见，该参数平衡了分布不同的各等价类内的数据对特征权值量化结果的影响，其降低了密集分布的数据对特征量化结果的影响，而提升了稀疏分布的数据的作用；

设B中存储不一致的数据点对，即

假设(p,q)位于等价类T_b中，这样即可根据T_b内的其它数据，i和j，与p和q间的距离来确定点对(i,j)是否是一致的置信度；当T中的某个等价类(T_b)中不存在不一致的点对时，则该等价类中的任意点对间的置信度均为1；当T中的某个等价类中存在不一致的点对时，由于等价类内可能存在着多个不一致的点对，则对于T_b中的其它点对，此时分别计算每个点对相对于每个不一致点对的置信度，并以其最小值作为该点对的置信度；对于不一致的点对，其置信度显然为0.5，即其满足must-link关系和can’t-link关系的可能性均为50%，上述过程利用下式来表达：

式中，path(j,p)对应于j与p之间相距的最少边数。

步骤三的具体实现过程为：将置信度融合到权值量化函数中即可获得带有置信度的权值量化函数FW：

在采用梯度下降算法优化后，将特征的权值带入到公式

中实现带有特征权值的相似度计算方法。

本发明包括以下有益效果：本发明实现了一种结合限制数据的特征权值量化方法，技术要点在于结合“限制数据”和“非限制数据”进行特征权值量化，并提出参数“分布系数”和“置信度”，解决了“限制数据分布不均衡”和“限制数据中存在不一致性”问题。本发明可应用于网络技术领域。

具体实施方式

具体实施方式一、本实施方式所述的一种结合限制数据的特征权值量化方法按以下步骤进行：

本发明包括以下有益效果：本发明实现了一种结合限制数据的特征权值量化方法，其特点在于结合“限制数据”和“非限制数据”进行特征权值量化，并提出参数“分布系数”和“置信度”，解决了“限制数据分布不均衡”和“限制数据中存在不一致性”问题。

具体实施方式二、本实施方式是对具体实施方式一所述的一种结合限制数据的特征权值量化方法的步骤一的进一步说明，其具体内容为：

本发明以向量空间模型组织待聚类数据，利用公式计算输入数据之间的相似度，其中p与q为输入数据，由上式得到相似度计算函数

并通过参数β使该函数均匀分布于0～1之间；

FW = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} ρ_{kl}^{(w)} \times \log ρ_{kl}^{(w)} + (1 - ρ_{ij}^{(w)}) \times \log (1 - ρ_{ij}^{(w)})

\begin{matrix} Δ w_{k} = \frac{&PartialD; FW}{&PartialD; w_{k}} = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; (ρ_{kl}^{(w)} \times \log ρ_{kl}^{(w)} + (1 - ρ_{ij}^{(w)}) \times \log (1 - ρ_{ij}^{(w)}))}{&PartialD; w_{k}} \\ \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} \times \log ρ_{kl}^{(w)} + ρ_{kl}^{(w)} \times \frac{1}{ρ_{kl}^{(w)}} \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} - \\ = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \times \log (1 - ρ_{ij}^{(w)}) - (1 - ρ_{ij}^{(w)}) \times \frac{1}{(1 - ρ_{ij}^{(w)})} \times \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \end{matrix};

其中，

为：

\begin{matrix} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} = \frac{&PartialD; \frac{1}{1 + β d_{ij}^{(w)}}}{&PartialD; w_{k}} = - {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times \frac{&PartialD; d_{ij}^{(w)}}{&PartialD; w_{k}} \\ = - 2 \times {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times w_{k} \times {(x_{ik} - x_{jk})}^{2} \end{matrix};

利用下列三个公式：

\begin{matrix} Δ w_{k} = \frac{&PartialD; FW}{&PartialD; w_{k}} = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; (ρ_{kl}^{(w)} \times \log ρ_{kl}^{(w)} + (1 - ρ_{ij}^{(w)}) \times \log (1 - ρ_{ij}^{(w)}))}{&PartialD; w_{k}} \\ \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} \times \log ρ_{kl}^{(w)} + ρ_{kl}^{(w)} \times \frac{1}{ρ_{kl}^{(w)}} \frac{&PartialD; ρ_{kl}^{(w)}}{&PartialD; w_{k}} - \\ = \underset{(i, j) &Element; MCS}{Σ} \underset{(k, l) &Element; NCS}{Σ} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \times \log (1 - ρ_{ij}^{(w)}) - (1 - ρ_{ij}^{(w)}) \times \frac{1}{(1 - ρ_{ij}^{(w)})} \times \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} \end{matrix}

和

\begin{matrix} \frac{&PartialD; ρ_{ij}^{(w)}}{&PartialD; w_{k}} = \frac{&PartialD; \frac{1}{1 + β d_{ij}^{(w)}}}{&PartialD; w_{k}} = - {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times \frac{&PartialD; d_{ij}^{(w)}}{&PartialD; w_{k}} \\ = - 2 \times {(1 + β \times d_{ij}^{(w)})}^{- 2} \times β \times w_{k} \times {(x_{ik} - x_{jk})}^{2} \end{matrix}

可得t+1时刻的特征权值w_k(t+1)：

w_{k} (t + 1) = w_{k} (t) - \frac{1}{\sqrt{2 πδ (t)}} \times (e^{- \frac{Δ w_{k} {(t)}^{2}}{δ {(t)}^{2}}}) \times (Δ w_{k} (t));

其中，

具体实施方式三、本实施方式是对具体实施方式一所述的一种结合限制数据的特征权值量化方法的步骤二的进一步说明，其具体内容为：

将限制数据划分为多个密集区域后，根据每个区域内包含的数据数分别对不同区域内的数据赋予不同的分布系数λ_b，并将其结合到权值量化函数中去，结果如下：

第b个等价类的分布系数λ_b的计算方法为：

设B中存储不一致的数据点对，即

假设(p,q)位于等价类T_b中，这样即可根据T_b内的其它数据，例如i和j，与p和q间的距离来确定点对(i,j)是否是一致的置信度；当T中的某个等价类(T_b)中不存在不一致的点对时，则该等价类中的任意点对间的置信度均为1；当T中的某个等价类中存在不一致的点对时，

由于等价类内可能存在着多个不一致的点对，则对于T_b中的其它点对，此时分别计算每个点对相对于每个不一致点对的置信度，并以其最小值作为该点对的置信度；对于不一致的点对，其置信度显然为0.5，即其满足must-link关系和can’t-link关系的可能性均为50%，

上述过程利用下式来表达：

式中，path(j,p)对应于j与p之间相距的最少边数。

具体实施方式四、本实施方式是对具体实施方式一所述的一种结合限制数据的特征权值量化方法的步骤三的进一步说明，其具体内容为：

将置信度融合到权值量化函数中即可获得带有置信度的权值量化函数FW：

在采用梯度下降算法优化后，即可将特征的权值带入到公式

中实现带有特征权值的相似度计算方法。

Claims

1.一种结合限制数据的特征权值量化方法，其特征在于所述方法按以下步骤进行：

步骤二、特征权值量化函数中结合参数“分布系数”：用must-link关系将限制数据划分为多个等价类，每个等价类内包含的任一点对均满足must-link关系；满足must-link关系的点对为用户指定的位于同一类别内的数据，即相似的数据，这些数据位于数据空间中相对密集的区域内，可使每个密集分布的区域在权值量化函数中拥有同样的重要性以平衡限制数据的非均匀分布；

步骤三、特征权值量化函数中结合参数“置信度”：为每个等价类内的数据点对提供置信度，以确定其满足用户指定的限制关系的可信性，并融合此置信度进行特征权值量化；“置信度”代表某一点对同时满足must-link关系和can’t-link关系的可能性，以边连接某一等价类内满足must-link关系的点对，并通过点对间的距离计算该点对的“置信度”，置信度的计算过程是基于以下三种情况进行的：

2.如权利要求1所述的一种结合限制数据的特征权值量化方法，其特征在于步骤一的具体实现过程为：本发明以向量空间模型组织待聚类数据，利用公式