CN102663040A - 基于正负对约束数据的kl距离训练得到属性列权重的方法 - Google Patents
基于正负对约束数据的kl距离训练得到属性列权重的方法 Download PDFInfo
- Publication number
- CN102663040A CN102663040A CN 201210084723 CN201210084723A CN102663040A CN 102663040 A CN102663040 A CN 102663040A CN 201210084723 CN201210084723 CN 201210084723 CN 201210084723 A CN201210084723 A CN 201210084723A CN 102663040 A CN102663040 A CN 102663040A
- Authority
- CN
- China
- Prior art keywords
- data
- negative
- data set
- distance
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于正负对约束数据的KL距离训练得到属性列权重的方法,该首先建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法,最终训练得到二元数据集矩阵中每一属性列的权值;该方法能高效、准确地得到属性列权重,实现数据挖掘。
Description
技术领域
本发明属于数据挖掘领域,具体地说是一种基于正负对约束数据的KL距离训练得到属性列权重的方法。
背景技术
词袋模型(Bag-of-word Model)最初用于对表示成文本的自然语言处理及信息检索中,它忽略其词序和语法、句法,将其仅仅当成词的组合,文本中每个词的出现都是独立的。目前,词袋模型被扩展到图像和视频帧的表示,应用及其广泛。
KL距离(Kullback-Leibler Divergence),也叫做相对熵(Relative Entropy)。它是衡量相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,对概率分布P(x)的事件空间,用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加的比特数。对于离散型的概率分布:
当KL距离越小时,P和Q就越接近;反之亦然。KL距离具有如下性质:
在实际问题中,获取实例标记相对困难,很多问题往往只能提供正负对信息,即已知指定两个实例属于同一类或属于不同类。显然,正负对信息比标记弱,如何利用这些正负对信息指导数据挖掘很多操作是工程中亟待解决的问题。
发明内容
本发明的目的是提供一种基于正负对约束数据的KL距离训练得到属性列权重的方法,该方法基于预处理之后正负对集合P、N构成的矩阵,进而建立集合P和N上的加权KL距离(KL-divergence)的优化模型,最后通过二次规划优化算法训练出二元矩阵中每一属性列的权重。该方法能高效、准确地得到属性列权重,实现数据挖掘。
本发明的目的是通过以下技术方案来实现的:
一种基于正负对约束数据的KL距离训练得到属性列权重的方法,其特征在于:该首先建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法,最终训练得到二元数据集矩阵中每一属性列的权值;具体如下:
2)正对和负对数据集预处理;对数据集进行平滑处理、规格化处理;
3)分别计算正对集合、负对集合的加权KL距离;
4)使用二次规划算法优化求解;利用加权距离训练出每一属性列上的权重。
本发明的初始输入是由已标记正负对数据集合的二元矩阵构成,矩阵每一行表示为一个实例数据集,矩阵每一列表示为属性数据列,元素值、,其中表示数据集属性标识(attribute),表示相应的数据集标识出现频率(frequency)。对于矩阵中实例数据行如果数据属性属于同一类,则其属于正对数据集合P,否则属于负对数据集合N。数据集表示对于实例数据在第列数据属性上正对;表示对于实例数据在第i列数据属性上负对。
本发明中训练方法主要基于预处理之后正负对集合P、N构成的矩阵,进而建立集合P和N上的加权KL距离(KL-divergence)计算的优化模型,最后通过二次规划优化算法训练出二元矩阵中每一属性列的权重。该方法能高效、准确地实现数据挖掘。
附图说明
图1是本发明具体实施的流程图。
图2是使用本发明前后文本聚类性能对比图。
具体实施方式
本发明的具体实施流程如图1所示,在实施过程中首先需要建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了计算所需的二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法优化求解,最终训练得到矩阵中每一属性列的权值。具体实施方式如下所示:
2)正对和负对数据集预处理。根据公式(1)-(3),对计算数据集进行平滑(smoothing)处理、规格化处理。
优化模型建立
首先,分别对已标记的正对数据集和负对数据集构建稀疏二元矩阵。然后,为了使得加权KL距离计算处于[0,1]区间内,使用式(1)对实例数据中属性列(attribute)的出现频率(frequency)提前进行规格化计算:
我们分别计算正对集合P和负对集合N上的加权KL距离,设Ai表示正对集合P上的加权KL距离,Bi表示负对集合N上的加权KL距离,则对于已规格化频率值的实例数据在矩阵第i属性列上的加权KL距离用式(2)(3)计算如下。
值得强调的是,式中计算KL距离时,分母不能为零,而稀疏数据集上零值极多,因此,我们在计算A i 和B i 之前需要对数据集进行平滑(smoothing)处理,即用一个很小的浮点数代替零值,本专利用0.001替代零值。
3)使用式(2)(3)分别计算正对集合、负对集合的加权KL距离(KL-divergence)。
4)使用二次规划算法优化求解。通过公式(4)利用加权距离训练出每一属性列上的权重。
二次规划求解优化
权重训练的目标是为每个属性分配一个标准权重,使得正对集合P上的加权KL距离尽量大,而使得负对集合N上的加权KL距离尽量小,因此,我们得到优化目标函数:
式中β和γ是调节参数,本专利取γ=0.5、β=2,式(4)就转化为二次规划优化问题。为了达到训练属性列权重的目的,应使得属性之间更加接近,由KL距离的定义可知:正对集合上的加权距离Ai值越小属性间越接近;反之,负对集合上的加权距离Bi值越大属性间越接近,从而使得目标函数值越小。式中目标函数。
其中,
为了验证算法的高效性,使用了现实世界中的文本集合,分别来自于TREC-5,TREC-6及TREC-7数据集。为了评估本文所提出算法的有效性,首先分别计算出正负对数据集合上的KL距离,进而利用二次规划优化算法训练出数据属性权重,然后在属性权重训练的基础上对文本数据集进行聚类,最后通过NMI(Normalized Mutual Information)方法(公式(5)所示)评估本发明下的聚类性能。
其中,X表示聚类簇向量,Y表示标记向量。NMI值处于[0,1]区间内,值越高表示聚类的效果越好。实验利用基于KL距离的Kmeans算法对文本数据进行聚类,这种算法也称为信息Kmeans(Info-Kmeans),实验比较了训练前后聚类的性能,用NMI指标衡量,图2给出了实验结果。由于数据集之间的差异导致训练前后聚类性能的不同,总体而言,在利用本发明之后的聚类NMI值相对于未训练之前的NMI值都要高,在某些数据集上效果尤为明显,如tr11数据集所示。
Claims (4)
1.一种基于正负对约束数据的KL距离训练得到属性列权重的方法,其特征在于:该首先建立正对数据集和负对数据集的预处理数据结构,该数据结构包含了二元数据集,其中正对数据集为标记正对的相关实例数据集合,负对数据集为标记负对的相关实例数据集合,进而在数据集基础上分别计算加权KL距离;其次,根据二次规划优化算法,最终训练得到二元数据集矩阵中每一属性列的权值;具体如下:
1)预处理输入数据集;输入数据由标记的正对数据集合和负对数据集合组成,这两个数据集为 稀疏二元矩阵,该矩阵由项instance实例数据行及其d项属性列构成一个阶矩阵,其中表示数据集属性a的出现频率f;
2)正对和负对数据集预处理;对数据集进行平滑处理、规格化处理;
3)分别计算正对集合、负对集合的加权KL距离;
4)使用二次规划算法优化求解;利用加权距离训练出每一属性列上的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210084723 CN102663040A (zh) | 2012-03-28 | 2012-03-28 | 基于正负对约束数据的kl距离训练得到属性列权重的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210084723 CN102663040A (zh) | 2012-03-28 | 2012-03-28 | 基于正负对约束数据的kl距离训练得到属性列权重的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102663040A true CN102663040A (zh) | 2012-09-12 |
Family
ID=46772531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210084723 Pending CN102663040A (zh) | 2012-03-28 | 2012-03-28 | 基于正负对约束数据的kl距离训练得到属性列权重的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102663040A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930074A (zh) * | 2012-09-21 | 2013-02-13 | 北京大学 | 特征二元约束关系的自动挖掘方法 |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN112561060A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 神经网络训练方法及装置、图像识别方法及装置和设备 |
-
2012
- 2012-03-28 CN CN 201210084723 patent/CN102663040A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930074A (zh) * | 2012-09-21 | 2013-02-13 | 北京大学 | 特征二元约束关系的自动挖掘方法 |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN112561060A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 神经网络训练方法及装置、图像识别方法及装置和设备 |
CN112561060B (zh) * | 2020-12-15 | 2022-03-22 | 北京百度网讯科技有限公司 | 神经网络训练方法及装置、图像识别方法及装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7266674B2 (ja) | 画像分類モデルの訓練方法、画像処理方法及び装置 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN104978587B (zh) | 一种基于文档类型的实体识别合作学习算法 | |
CN105244029A (zh) | 语音识别后处理方法及系统 | |
CN105469096A (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN103810999A (zh) | 基于分布式神经网络的语言模型训练方法及其系统 | |
CN103870474A (zh) | 一种新闻话题组织方法及装置 | |
CN103488662A (zh) | 基于图形处理单元的自组织映射神经网络聚类方法及系统 | |
CN104573070B (zh) | 一种针对混合长度文本集的文本聚类方法 | |
CN103279556A (zh) | 基于自适应子空间学习的迭代文本聚类方法 | |
van Putten et al. | Distorted‐distance models for directional dispersal: a general framework with application to a wind‐dispersed tree | |
CN104616029A (zh) | 数据分类方法及装置 | |
CN110008467A (zh) | 一种基于迁移学习的缅甸语依存句法分析方法 | |
CN112380344A (zh) | 文本分类的方法、话题生成的方法、装置、设备及介质 | |
CN103473813B (zh) | 一种三维模型构件的自动提取方法 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN111859983A (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN113434699A (zh) | Bert模型的预训练方法、计算机装置和存储介质 | |
CN103488637A (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
CN109815478A (zh) | 基于卷积神经网络的药化实体识别方法及系统 | |
Li et al. | A distributed meta-learning system for Chinese entity relation extraction | |
CN102663040A (zh) | 基于正负对约束数据的kl距离训练得到属性列权重的方法 | |
Chen et al. | Label distribution‐based noise correction for multiclass crowdsourcing | |
CN106971005A (zh) | 一种云计算环境下基于MapReduce的分布式并行文本聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120912 |