CN102663040A - 基于正负对约束数据的kl距离训练得到属性列权重的方法 - Google Patents

基于正负对约束数据的kl距离训练得到属性列权重的方法 Download PDF

Info

Publication number
CN102663040A
CN102663040A CN 201210084723 CN201210084723A CN102663040A CN 102663040 A CN102663040 A CN 102663040A CN 201210084723 CN201210084723 CN 201210084723 CN 201210084723 A CN201210084723 A CN 201210084723A CN 102663040 A CN102663040 A CN 102663040A
Authority
CN
China
Prior art keywords
data
negative
data set
distance
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201210084723
Other languages
English (en)
Inventor
伍之昂
曹杰
毛波
刘英卓
方昌键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN 201210084723 priority Critical patent/CN102663040A/zh
Publication of CN102663040A publication Critical patent/CN102663040A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于正负对约束数据的KL距离训练得到属性列权重的方法,该首先建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法,最终训练得到二元数据集矩阵中每一属性列的权值;该方法能高效、准确地得到属性列权重,实现数据挖掘。

Description

基于正负对约束数据的KL距离训练得到属性列权重的方法
技术领域
本发明属于数据挖掘领域,具体地说是一种基于正负对约束数据的KL距离训练得到属性列权重的方法。
背景技术
词袋模型(Bag-of-word Model)最初用于对表示成文本的自然语言处理及信息检索中,它忽略其词序和语法、句法,将其仅仅当成词的组合,文本中每个词的出现都是独立的。目前,词袋模型被扩展到图像和视频帧的表示,应用及其广泛。
KL距离(Kullback-Leibler Divergence),也叫做相对熵(Relative Entropy)。它是衡量相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,对概率分布P(x)的事件空间,用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加的比特数。对于离散型的概率分布:                                                
Figure 395295DEST_PATH_IMAGE001
当KL距离越小时,PQ就越接近;反之亦然。KL距离具有如下性质:
Figure 815912DEST_PATH_IMAGE002
在实际问题中,获取实例标记相对困难,很多问题往往只能提供正负对信息,即已知指定两个实例属于同一类或属于不同类。显然,正负对信息比标记弱,如何利用这些正负对信息指导数据挖掘很多操作是工程中亟待解决的问题。
发明内容
本发明的目的是提供一种基于正负对约束数据的KL距离训练得到属性列权重的方法,该方法基于预处理之后正负对集合PN构成的矩阵,进而建立集合PN上的加权KL距离(KL-divergence)的优化模型,最后通过二次规划优化算法训练出二元矩阵中每一属性列的权重。该方法能高效、准确地得到属性列权重,实现数据挖掘。
本发明的目的是通过以下技术方案来实现的:
一种基于正负对约束数据的KL距离训练得到属性列权重的方法,其特征在于:该首先建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法,最终训练得到二元数据集矩阵中每一属性列的权值;具体如下:
1)预处理输入数据集;输入数据由标记的正对数据集合和负对数据集合组成,这两个数据集为
Figure 288482DEST_PATH_IMAGE003
稀疏二元矩阵,该矩阵由
Figure 838149DEST_PATH_IMAGE004
instance实例数据行及其d项属性列构成一个
Figure 763380DEST_PATH_IMAGE005
阶矩阵
Figure 987688DEST_PATH_IMAGE006
,其中
Figure 986868DEST_PATH_IMAGE007
表示数据集属性a的出现频率f
2)正对和负对数据集预处理;对数据集进行平滑处理、规格化处理;
3)分别计算正对集合、负对集合的加权KL距离;
4)使用二次规划算法优化求解;利用加权距离训练出每一属性列上的权重。
本发明的初始输入是由已标记正负对数据集合的二元矩阵构成,矩阵每一行表示为一个实例数据集,矩阵每一列表示为属性数据列,元素值
Figure 271219DEST_PATH_IMAGE008
,其中表示数据集属性标识(attribute),
Figure 831010DEST_PATH_IMAGE011
表示相应的数据集标识出现频率(frequency)。对于矩阵中实例数据行如果数据属性属于同一类,则其属于正对数据集合P,否则属于负对数据集合N。数据集
Figure 958366DEST_PATH_IMAGE012
表示对于实例数据
Figure 858189DEST_PATH_IMAGE013
在第
Figure 424300DEST_PATH_IMAGE014
列数据属性上正对;
Figure 162186DEST_PATH_IMAGE015
表示对于实例数据
Figure 522761DEST_PATH_IMAGE013
在第i列数据属性上负对。
本发明中训练方法主要基于预处理之后正负对集合PN构成的矩阵,进而建立集合PN上的加权KL距离(KL-divergence)计算的优化模型,最后通过二次规划优化算法训练出二元矩阵中每一属性列的权重。该方法能高效、准确地实现数据挖掘。
附图说明
图1是本发明具体实施的流程图。
图2是使用本发明前后文本聚类性能对比图。
具体实施方式
本发明的具体实施流程如图1所示,在实施过程中首先需要建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了计算所需的二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法优化求解,最终训练得到矩阵中每一属性列的权值。具体实施方式如下所示:
1)预处理输入数据集。输入数据由标记的正对数据集合和负对数据集合组成,这两个数据集为
Figure 909880DEST_PATH_IMAGE003
稀疏二元矩阵,该矩阵由instance实例数据行及其d项属性列构成一个
Figure 107960DEST_PATH_IMAGE005
阶矩阵
Figure 905014DEST_PATH_IMAGE006
,其中
Figure 451533DEST_PATH_IMAGE016
表示数据集属性a的出现频率f
2)正对和负对数据集预处理。根据公式(1)-(3),对计算数据集进行平滑(smoothing)处理、规格化处理。
 优化模型建立
首先,分别对已标记的正对数据集和负对数据集构建
Figure 625026DEST_PATH_IMAGE003
稀疏二元矩阵。然后,为了使得加权KL距离计算处于[0,1]区间内,使用式(1)对实例数据中属性列(attribute)的出现频率(frequency)提前进行规格化计算: 
我们分别计算正对集合P和负对集合N上的加权KL距离,设Ai表示正对集合P上的加权KL距离,Bi表示负对集合N上的加权KL距离,则对于已规格化频率值的实例数据在矩阵第i属性列上的加权KL距离用式(2)(3)计算如下。
Figure 541346DEST_PATH_IMAGE018
值得强调的是,式中计算KL距离时,分母不能为零,而稀疏数据集上零值极多,因此,我们在计算A i B i 之前需要对数据集进行平滑(smoothing)处理,即用一个很小的浮点数代替零值,本专利用0.001替代零值。
3)使用式(2)(3)分别计算正对集合、负对集合的加权KL距离(KL-divergence)。
4)使用二次规划算法优化求解。通过公式(4)利用加权距离训练出每一属性列上的权重。
 二次规划求解优化
权重训练的目标是为每个属性分配一个标准权重,使得正对集合P上的加权KL距离尽量大,而使得负对集合N上的加权KL距离尽量小,因此,我们得到优化目标函数: 
Figure 637478DEST_PATH_IMAGE019
                  (4)
式中βγ是调节参数,本专利取γ=0.5、β=2,式(4)就转化为二次规划优化问题。为了达到训练属性列权重的目的,应使得属性之间更加接近,由KL距离的定义可知:正对集合上的加权距离Ai值越小属性间越接近;反之,负对集合上的加权距离Bi值越大属性间越接近,从而使得目标函数值越小。式中目标函数
Figure 349082DEST_PATH_IMAGE020
其中,
为了验证算法的高效性,使用了现实世界中的文本集合,分别来自于TREC-5,TREC-6及TREC-7数据集。为了评估本文所提出算法的有效性,首先分别计算出正负对数据集合上的KL距离,进而利用二次规划优化算法训练出数据属性权重,然后在属性权重训练的基础上对文本数据集进行聚类,最后通过NMI(Normalized Mutual Information)方法(公式(5)所示)评估本发明下的聚类性能。
Figure 2012100847235100002DEST_PATH_IMAGE022
                            (5)
其中,X表示聚类簇向量,Y表示标记向量。NMI值处于[0,1]区间内,值越高表示聚类的效果越好。实验利用基于KL距离的Kmeans算法对文本数据进行聚类,这种算法也称为信息Kmeans(Info-Kmeans),实验比较了训练前后聚类的性能,用NMI指标衡量,图2给出了实验结果。由于数据集之间的差异导致训练前后聚类性能的不同,总体而言,在利用本发明之后的聚类NMI值相对于未训练之前的NMI值都要高,在某些数据集上效果尤为明显,如tr11数据集所示。

Claims (4)

1.一种基于正负对约束数据的KL距离训练得到属性列权重的方法,其特征在于:该首先建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法,最终训练得到二元数据集矩阵中每一属性列的权值;具体如下:
1)预处理输入数据集;输入数据由标记的正对数据集合和负对数据集合组成,这两个数据集为                                                
Figure 102192DEST_PATH_IMAGE001
稀疏二元矩阵,该矩阵由
Figure 150788DEST_PATH_IMAGE002
instance实例数据行及其d项属性列构成一个阶矩阵,其中表示数据集属性a的出现频率f
2)正对和负对数据集预处理;对数据集进行平滑处理、规格化处理;
3)分别计算正对集合、负对集合的加权KL距离;
4)使用二次规划算法优化求解;利用加权距离训练出每一属性列上的权重。
2.根据权利要求1所述的基于正负对约束数据的KL距离训练得到属性列权重的方法,其特征在于:步骤2)中,使用式(1)对实例数据中属性列(attribute)的出现频率(frequency)提前进行规格化计算: 
Figure 407960DEST_PATH_IMAGE005
                           (1)
式中表示实例数据第i属性列上对于某一标识属性频率之和。
3.根据权利要求1所述的基于正负对约束数据的KL距离训练得到属性列权重的方法,其特征在于:步骤3)中,分别计算正对集合P和负对集合N上的加权KL距离,设Ai表示正对集合P上的加权KL距离,Bi表示负对集合N上的加权KL距离,则对于已规格化频率值的实例数据在矩阵第i属性列上的加权KL距离用式(2)(3)计算如下:
Figure 683084DEST_PATH_IMAGE006
式中计算KL距离时,分母不能为零,而稀疏数据集上零值极多,因此,在计算A i B i 之前需要对数据集进行平滑处理,即用一个很小的浮点数0.001代替零值。
4.根据权利要求1所述的基于正负对约束数据的KL距离训练得到属性列权重的方法,其特征在于:步骤4)中,权重训练的目标是为每个属性分配一个标准权重,使得正对集合P上的加权KL距离尽量大,而使得负对集合N上的加权KL距离尽量小,因此,得到优化目标函数: 
                  (4)
式中βγ是调节参数,取γ=0.5、β=2,式(4)就转化为二次规划优化问题;由KL距离的定义可知:正对集合上的加权距离Ai值越小属性间越接近;反之,负对集合上的加权距离Bi值越大属性间越接近,从而使得目标函数值越小;
式中目标函数
Figure 474770DEST_PATH_IMAGE008
,即:目标函数等价于
Figure 203692DEST_PATH_IMAGE009
其中,
Figure 344823DEST_PATH_IMAGE010
CN 201210084723 2012-03-28 2012-03-28 基于正负对约束数据的kl距离训练得到属性列权重的方法 Pending CN102663040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210084723 CN102663040A (zh) 2012-03-28 2012-03-28 基于正负对约束数据的kl距离训练得到属性列权重的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210084723 CN102663040A (zh) 2012-03-28 2012-03-28 基于正负对约束数据的kl距离训练得到属性列权重的方法

Publications (1)

Publication Number Publication Date
CN102663040A true CN102663040A (zh) 2012-09-12

Family

ID=46772531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210084723 Pending CN102663040A (zh) 2012-03-28 2012-03-28 基于正负对约束数据的kl距离训练得到属性列权重的方法

Country Status (1)

Country Link
CN (1) CN102663040A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930074A (zh) * 2012-09-21 2013-02-13 北京大学 特征二元约束关系的自动挖掘方法
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN112561060A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 神经网络训练方法及装置、图像识别方法及装置和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930074A (zh) * 2012-09-21 2013-02-13 北京大学 特征二元约束关系的自动挖掘方法
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN112561060A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 神经网络训练方法及装置、图像识别方法及装置和设备
CN112561060B (zh) * 2020-12-15 2022-03-22 北京百度网讯科技有限公司 神经网络训练方法及装置、图像识别方法及装置和设备

Similar Documents

Publication Publication Date Title
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN104978587B (zh) 一种基于文档类型的实体识别合作学习算法
CN105244029A (zh) 语音识别后处理方法及系统
CN105469096A (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN103810999A (zh) 基于分布式神经网络的语言模型训练方法及其系统
CN103870474A (zh) 一种新闻话题组织方法及装置
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
CN104573070B (zh) 一种针对混合长度文本集的文本聚类方法
CN103279556A (zh) 基于自适应子空间学习的迭代文本聚类方法
van Putten et al. Distorted‐distance models for directional dispersal: a general framework with application to a wind‐dispersed tree
CN104616029A (zh) 数据分类方法及装置
CN110008467A (zh) 一种基于迁移学习的缅甸语依存句法分析方法
CN112380344A (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
CN103473813B (zh) 一种三维模型构件的自动提取方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN111859983A (zh) 基于人工智能的自然语言标注方法及相关设备
CN113434699A (zh) Bert模型的预训练方法、计算机装置和存储介质
CN103488637A (zh) 一种基于动态社区挖掘进行专家检索的方法
CN109815478A (zh) 基于卷积神经网络的药化实体识别方法及系统
Li et al. A distributed meta-learning system for Chinese entity relation extraction
CN102663040A (zh) 基于正负对约束数据的kl距离训练得到属性列权重的方法
Chen et al. Label distribution‐based noise correction for multiclass crowdsourcing
CN106971005A (zh) 一种云计算环境下基于MapReduce的分布式并行文本聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120912