CN102663040A

CN102663040A - 基于正负对约束数据的kl距离训练得到属性列权重的方法

Info

Publication number: CN102663040A
Application number: CN 201210084723
Authority: CN
Inventors: 伍之昂; 曹杰; 毛波; 刘英卓; 方昌键
Original assignee: Nanjing University of Finance and Economics
Current assignee: Nanjing University of Finance and Economics
Priority date: 2012-03-28
Filing date: 2012-03-28
Publication date: 2012-09-12

Abstract

本发明公开了一种基于正负对约束数据的KL距离训练得到属性列权重的方法，该首先建立正对数据集和负对数据集的预处理数据结构，该数据结构包含了二元数据集，其中正对数据集为标记正对的相关实例数据集合，负对数据集为标记负对的相关实例数据集合，进而在数据集基础上分别计算加权KL距离；其次，根据二次规划优化算法，最终训练得到二元数据集矩阵中每一属性列的权值；该方法能高效、准确地得到属性列权重，实现数据挖掘。

Description

基于正负对约束数据的KL距离训练得到属性列权重的方法

技术领域

本发明属于数据挖掘领域，具体地说是一种基于正负对约束数据的KL距离训练得到属性列权重的方法。

背景技术

词袋模型(Bag-of-word Model)最初用于对表示成文本的自然语言处理及信息检索中，它忽略其词序和语法、句法，将其仅仅当成词的组合，文本中每个词的出现都是独立的。目前，词袋模型被扩展到图像和视频帧的表示，应用及其广泛。

KL距离（Kullback-Leibler Divergence），也叫做相对熵（Relative Entropy）。它是衡量相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，对概率分布P(x)的事件空间，用概率分布Q(x)编码时，平均每个基本事件（符号）编码长度增加的比特数。对于离散型的概率分布：

当KL距离越小时，P和Q就越接近；反之亦然。KL距离具有如下性质：

在实际问题中，获取实例标记相对困难，很多问题往往只能提供正负对信息，即已知指定两个实例属于同一类或属于不同类。显然，正负对信息比标记弱，如何利用这些正负对信息指导数据挖掘很多操作是工程中亟待解决的问题。

发明内容

本发明的目的是提供一种基于正负对约束数据的KL距离训练得到属性列权重的方法，该方法基于预处理之后正负对集合P、N构成的矩阵，进而建立集合P和N上的加权KL距离(KL-divergence)的优化模型，最后通过二次规划优化算法训练出二元矩阵中每一属性列的权重。该方法能高效、准确地得到属性列权重，实现数据挖掘。

本发明的目的是通过以下技术方案来实现的：

一种基于正负对约束数据的KL距离训练得到属性列权重的方法，其特征在于：该首先建立正对数据集和负对数据集的预处理数据结构，该数据结构包含了二元数据集，其中正对数据集为标记正对的相关实例数据集合，负对数据集为标记负对的相关实例数据集合，进而在数据集基础上分别计算加权KL距离；其次，根据二次规划优化算法，最终训练得到二元数据集矩阵中每一属性列的权值；具体如下：

1）预处理输入数据集；输入数据由标记的正对数据集合和负对数据集合组成，这两个数据集为

稀疏二元矩阵，该矩阵由

项instance实例数据行及其d项属性列构成一个

阶矩阵

，其中

表示数据集属性a的出现频率f；

2）正对和负对数据集预处理；对数据集进行平滑处理、规格化处理；

3）分别计算正对集合、负对集合的加权KL距离；

4）使用二次规划算法优化求解；利用加权距离训练出每一属性列上的权重。

本发明的初始输入是由已标记正负对数据集合的二元矩阵构成，矩阵每一行表示为一个实例数据集，矩阵每一列表示为属性数据列，元素值

、，其中表示数据集属性标识(attribute)，

表示相应的数据集标识出现频率(frequency)。对于矩阵中实例数据行如果数据属性属于同一类，则其属于正对数据集合P，否则属于负对数据集合N。数据集

表示对于实例数据

在第

列数据属性上正对；

表示对于实例数据

在第i列数据属性上负对。

本发明中训练方法主要基于预处理之后正负对集合P、N构成的矩阵，进而建立集合P和N上的加权KL距离(KL-divergence)计算的优化模型，最后通过二次规划优化算法训练出二元矩阵中每一属性列的权重。该方法能高效、准确地实现数据挖掘。

附图说明

图1是本发明具体实施的流程图。

图2是使用本发明前后文本聚类性能对比图。

具体实施方式

本发明的具体实施流程如图1所示，在实施过程中首先需要建立正对数据集和负对数据集的预处理数据结构，该数据结构包含了计算所需的二元数据集，其中正对数据集为标记正对的相关实例数据集合，负对数据集为标记负对的相关实例数据集合，进而在数据集基础上分别计算加权KL距离；其次，根据二次规划优化算法优化求解，最终训练得到矩阵中每一属性列的权值。具体实施方式如下所示：

1）预处理输入数据集。输入数据由标记的正对数据集合和负对数据集合组成，这两个数据集为

稀疏二元矩阵，该矩阵由项instance实例数据行及其d项属性列构成一个

阶矩阵

，其中

表示数据集属性a的出现频率f。

2）正对和负对数据集预处理。根据公式(1)-(3)，对计算数据集进行平滑(smoothing)处理、规格化处理。

优化模型建立

首先，分别对已标记的正对数据集和负对数据集构建

稀疏二元矩阵。然后，为了使得加权KL距离计算处于[0,1]区间内，使用式(1)对实例数据中属性列(attribute)的出现频率(frequency)提前进行规格化计算：

我们分别计算正对集合P和负对集合N上的加权KL距离，设Ai表示正对集合P上的加权KL距离，Bi表示负对集合N上的加权KL距离，则对于已规格化频率值的实例数据在矩阵第i属性列上的加权KL距离用式(2)(3)计算如下。

值得强调的是，式中计算KL距离时，分母不能为零，而稀疏数据集上零值极多，因此，我们在计算A _i和B _i之前需要对数据集进行平滑(smoothing)处理，即用一个很小的浮点数代替零值，本专利用0.001替代零值。

3）使用式(2)(3)分别计算正对集合、负对集合的加权KL距离(KL-divergence)。

4）使用二次规划算法优化求解。通过公式(4)利用加权距离训练出每一属性列上的权重。

二次规划求解优化

权重训练的目标是为每个属性分配一个标准权重，使得正对集合P上的加权KL距离尽量大，而使得负对集合N上的加权KL距离尽量小，因此，我们得到优化目标函数：

(4)

式中β和γ是调节参数，本专利取γ=0.5、β=2，式(4)就转化为二次规划优化问题。为了达到训练属性列权重的目的，应使得属性之间更加接近，由KL距离的定义可知：正对集合上的加权距离Ai值越小属性间越接近；反之，负对集合上的加权距离Bi值越大属性间越接近，从而使得目标函数值越小。式中目标函数

。

其中，

为了验证算法的高效性，使用了现实世界中的文本集合，分别来自于TREC-5，TREC-6及TREC-7数据集。为了评估本文所提出算法的有效性，首先分别计算出正负对数据集合上的KL距离，进而利用二次规划优化算法训练出数据属性权重，然后在属性权重训练的基础上对文本数据集进行聚类，最后通过NMI(Normalized Mutual Information)方法(公式(5)所示)评估本发明下的聚类性能。

Figure 2012100847235100002DEST_PATH_IMAGE022

(5)

其中，X表示聚类簇向量，Y表示标记向量。NMI值处于[0,1]区间内，值越高表示聚类的效果越好。实验利用基于KL距离的Kmeans算法对文本数据进行聚类，这种算法也称为信息Kmeans(Info-Kmeans)，实验比较了训练前后聚类的性能，用NMI指标衡量，图2给出了实验结果。由于数据集之间的差异导致训练前后聚类性能的不同，总体而言，在利用本发明之后的聚类NMI值相对于未训练之前的NMI值都要高，在某些数据集上效果尤为明显，如tr11数据集所示。

Claims

1.一种基于正负对约束数据的KL距离训练得到属性列权重的方法，其特征在于：该首先建立正对数据集和负对数据集的预处理数据结构，该数据结构包含了二元数据集，其中正对数据集为标记正对的相关实例数据集合，负对数据集为标记负对的相关实例数据集合，进而在数据集基础上分别计算加权KL距离；其次，根据二次规划优化算法，最终训练得到二元数据集矩阵中每一属性列的权值；具体如下：

稀疏二元矩阵，该矩阵由

项instance实例数据行及其d项属性列构成一个阶矩阵，其中表示数据集属性a的出现频率f；

3）分别计算正对集合、负对集合的加权KL距离；

2.根据权利要求1所述的基于正负对约束数据的KL距离训练得到属性列权重的方法，其特征在于：步骤2）中，使用式(1)对实例数据中属性列(attribute)的出现频率(frequency)提前进行规格化计算：

(1)

式中表示实例数据第i属性列上对于某一标识属性频率之和。

3.根据权利要求1所述的基于正负对约束数据的KL距离训练得到属性列权重的方法，其特征在于：步骤3）中，分别计算正对集合P和负对集合N上的加权KL距离，设Ai表示正对集合P上的加权KL距离，Bi表示负对集合N上的加权KL距离，则对于已规格化频率值的实例数据在矩阵第i属性列上的加权KL距离用式(2)(3)计算如下：

式中计算KL距离时，分母不能为零，而稀疏数据集上零值极多，因此，在计算A _i和B _i之前需要对数据集进行平滑处理，即用一个很小的浮点数0.001代替零值。

4.根据权利要求1所述的基于正负对约束数据的KL距离训练得到属性列权重的方法，其特征在于：步骤4）中，权重训练的目标是为每个属性分配一个标准权重，使得正对集合P上的加权KL距离尽量大，而使得负对集合N上的加权KL距离尽量小，因此，得到优化目标函数：

(4)

式中β和γ是调节参数，取γ=0.5、β=2，式(4)就转化为二次规划优化问题；由KL距离的定义可知：正对集合上的加权距离Ai值越小属性间越接近；反之，负对集合上的加权距离Bi值越大属性间越接近，从而使得目标函数值越小；

式中目标函数

，即：目标函数等价于

；

其中，

。