CN103544135A - 一种结合限制数据的特征权值量化方法 - Google Patents
一种结合限制数据的特征权值量化方法 Download PDFInfo
- Publication number
- CN103544135A CN103544135A CN201310507228.5A CN201310507228A CN103544135A CN 103544135 A CN103544135 A CN 103544135A CN 201310507228 A CN201310507228 A CN 201310507228A CN 103544135 A CN103544135 A CN 103544135A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msubsup
- msub
- mfrac
- partiald
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000009826 distribution Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013459 approach Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000009828 non-uniform distribution Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005303 weighing Methods 0.000 abstract 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种结合限制数据的特征权值量化方法,它涉及一种结合限制数据的特征权值量化方法,本发明是要解决现有的基于限制数据的特征权值量化方法无法处理限制数据分布不均衡和限制数据存在不一致性的问题。本发明所述一种结合限制数据的特征权值量化方法按以下步骤进行:一、合并“限制数据”和“非限制数据”进行特征权值量化;二、特征权值量化函数中结合参数分布系数;三、特征权值量化函数中结合参数置信度。本发明解决了限制数据分布不均衡和限制数据中存在不一致性的问题。技术要点在于结合限制数据和非限制数据进行特征权值量化,并提出参数分布系数和置信度,本发明可应用于网络技术领域。
Description
技术领域
本发明涉及一种结合限制数据的特征权值量化方法。
背景技术
随着网络技术的迅猛发展,人们接触的信息量与日俱增,用户急需一种有效的信息分析工具以协助其日常工作。聚类即是一种有效的信息分析工具,其通过凝聚相似数据能够缩小用户的查找范围并加快用户寻找相关信息的速度。
聚类中最基本的要素就是数据间的相似度度量函数,有效的相似度度量函数显然能够帮助聚类算法获得良好的聚类结果。目前大多数聚类算法以向量空间模型组织数据,并通过计算不同数据间特征向量的夹角或距离来反映数据之间的相似度,例如欧式距离、余弦相似度。此类相似度计算方法视所有特征对数据相似性的描述能力或对数据的划分能力是相同的,使类别最终呈现超球体分布。然而,现实中不同特征对数据的划分能力显然是不同的,因此有必要分析不同特征对相似度计算的贡献能力来为特征赋予不同的权值。
传统的聚类技术是一种无监督的学习方法,在算法运行前不需要获取任何先验知识。然而,现实应用中,用户对于输入数据可能存在某些限制,而聚类结果显然要满足用户对于输入数据的限制。目前最常使用的限制信息是must-link和can’t-link点对限制信息。如果用户指定输入数据中的任两个数据位于同一类别内,则说明这两个数据或点对满足must-link关系,而can’t-link关系正好相反。此类限制信息可以结合到特征权值量化中去,通过对那些能够有效划分限制数据的特征赋予较大的权值,显然可以获得更为准确的相似度计算结果。然而传统的基于限制数据的特征权值量化方法均无法处理以下两种情况:1.用户指定的限制数据的数量通常远少于全部的输入数据,这使得限制数据经常是从整个特征空间中非均匀抽取的;2.传统的特征权值量化方法认为用户提供的限制数据是准确无矛盾的,然而现实应用中用户提供的限制数据中某些满足must-link关系的数据对或按传递规则推导出的满足此关系的数据对可能同时满足can’t-link关系。
当存在第一个问题时,非均匀分布的限制数据会使特征权值量化的结果出现“过适应”现象,即错误的将那些能够有效划分密集的限制数据的特征赋予较大的权值,而忽略了分布稀疏的限制数据对特征权值量化结果的影响。针对此问题,本发明实现参数“分布系数”来平衡限制数据的分布,降低密集分布的限制数据对特征权值量化结果的影响,同时提高稀疏分布的限制数据的作用,以防止出现“过适应”现象。
当存在第二个问题时,传统的特征权值量化方法均无法对其进行处理。针对此问题,本发明实现参数“置信度”来衡量限制数据的不一致性,并对不一致的限制数据赋予较小的权值来降低其在特征权值量化中的作用。
发明内容
本发明是要解决现有的基于限制数据的特征权值量化方法无法处理限制数据分布不均衡和限制数据存在不一致性的问题,而提出一种结合限制数据的特征权值量化方法。
本发明所述的一种结合限制数据的特征权值量化方法,按以下步骤进行:
步骤一、合并“限制数据”和“非限制数据”进行特征权值量化:通过优化特征的权值以使相似度小于0.5的数据对其相似度趋近于0,而使相似度大于0.5的数据对其相似度趋于1;
步骤二、特征权值量化函数中结合参数“分布系数”:用must-link关系将限制数据划分为多个等价类,每个等价类内包含的任一点对均满足must-link关系;满足must-link关系的点对为用户指定的位于同一类别内的数据,即相似的数据,因此这些数据位于数据空间中相对密集的区域内,可使每个密集分布的区域在权值量化函数中拥有同样的重要性以平衡限制数据的非均匀分布;
步骤三、特征权值量化函数中结合参数“置信度”:为每个等价类内的数据点对提供置信度,以确定其满足用户指定的限制关系的可信性,并融合此置信度进行特征权值量化;“置信度”代表某一点对同时满足must-link关系和can’t-link关系的可能性,以边连接某一等价类(例如Tb)内满足must-link关系的点对,并通过点对间的距离计算该点对的“置信度”,置信度的计算过程是基于以下三种情况进行的:
步骤三(1)、Tb中不存在不一致的点对,则该等价类中的任意点对间的置信度均为1;
步骤三(2)、Tb中存在不一致的点对,设其为(p,q),则对于等价类中的其它点对,设其为(i,j),通过i和j与p和q之间的距离来计算点对(i,j)的置信度;
步骤三(3)、对于不一致的点对,其置信度显然为0.5,即其满足must-link关系和can’t-link关系的可能性均为50%。
依据那些能够缩小MCS(满足must-link关系的点对集合)中点对间的相似度、而增大NCS(满足can’t-link关系的点对集合)中点对间的相似度的特征,对限制数据的划分能力较强的想法,以此为依据即可得到下述的特征权值量化公式,当此公式达到最小值时对应的特征权值为最优的特征权值;该公式为:
使用随机梯度下降算法优化特征的权值wk,即可得权值更新幅度△wk:
将非限制数据和限制数据结合在一起即可进行特征权值量化:
μ为用户指定的参数,代表限制数据相对于非限制数据的重要程度。
步骤二的具体实现过程为:将限制数据划分为多个密集区域后,根据每个区域内包含的数据数分别对不同区域内的数据赋予不同的分布系数λb,并将其结合到权值量化函数中去,结果如下:
第b个等价类的分布系数λb的计算方法为:
其中,Tx代表T中的某个等价类,|Tx|代表集合的势,由此公式可见,该参数平衡了分布不同的各等价类内的数据对特征权值量化结果的影响,其降低了密集分布的数据对特征量化结果的影响,而提升了稀疏分布的数据的作用;
设B中存储不一致的数据点对,即假设(p,q)位于等价类Tb中,这样即可根据Tb内的其它数据,i和j,与p和q间的距离来确定点对(i,j)是否是一致的置信度;当T中的某个等价类(Tb)中不存在不一致的点对时,则该等价类中的任意点对间的置信度均为1;当T中的某个等价类中存在不一致的点对时,由于等价类内可能存在着多个不一致的点对,则对于Tb中的其它点对,此时分别计算每个点对相对于每个不一致点对的置信度,并以其最小值作为该点对的置信度;对于不一致的点对,其置信度显然为0.5,即其满足must-link关系和can’t-link关系的可能性均为50%,上述过程利用下式来表达:
式中,path(j,p)对应于j与p之间相距的最少边数。
步骤三的具体实现过程为:将置信度融合到权值量化函数中即可获得带有置信度的权值量化函数FW:
本发明包括以下有益效果:本发明实现了一种结合限制数据的特征权值量化方法,技术要点在于结合“限制数据”和“非限制数据”进行特征权值量化,并提出参数“分布系数”和“置信度”,解决了“限制数据分布不均衡”和“限制数据中存在不一致性”问题。本发明可应用于网络技术领域。
具体实施方式
具体实施方式一、本实施方式所述的一种结合限制数据的特征权值量化方法按以下步骤进行:
步骤一、合并“限制数据”和“非限制数据”进行特征权值量化:通过优化特征的权值以使相似度小于0.5的数据对其相似度趋近于0,而使相似度大于0.5的数据对其相似度趋于1;
步骤二、特征权值量化函数中结合参数“分布系数”:用must-link关系将限制数据划分为多个等价类,每个等价类内包含的任一点对均满足must-link关系;满足must-link关系的点对为用户指定的位于同一类别内的数据,即相似的数据,因此这些数据位于数据空间中相对密集的区域内,可使每个密集分布的区域在权值量化函数中拥有同样的重要性以平衡限制数据的非均匀分布;
步骤三、特征权值量化函数中结合参数“置信度”:为每个等价类内的数据点对提供置信度,以确定其满足用户指定的限制关系的可信性,并融合此置信度进行特征权值量化;“置信度”代表某一点对同时满足must-link关系和can’t-link关系的可能性,以边连接某一等价类(例如Tb)内满足must-link关系的点对,并通过点对间的距离计算该点对的“置信度”,置信度的计算过程是基于以下三种情况进行的:
步骤三(1)、Tb中不存在不一致的点对,则该等价类中的任意点对间的置信度均为1;
步骤三(2)、Tb中存在不一致的点对,设其为(p,q),则对于等价类中的其它点对,设其为(i,j),通过i和j与p和q之间的距离来计算点对(i,j)的置信度;
步骤三(3)、对于不一致的点对,其置信度显然为0.5,即其满足must-link关系和can’t-link关系的可能性均为50%。
本发明包括以下有益效果:本发明实现了一种结合限制数据的特征权值量化方法,其特点在于结合“限制数据”和“非限制数据”进行特征权值量化,并提出参数“分布系数”和“置信度”,解决了“限制数据分布不均衡”和“限制数据中存在不一致性”问题。
具体实施方式二、本实施方式是对具体实施方式一所述的一种结合限制数据的特征权值量化方法的步骤一的进一步说明,其具体内容为:
依据那些能够缩小MCS(满足must-link关系的点对集合)中点对间的相似度、而增大NCS(满足can’t-link关系的点对集合)中点对间的相似度的特征,对限制数据的划分能力较强的想法,以此为依据即可得到下述的特征权值量化公式,当此公式达到最小值时对应的特征权值为最优的特征权值;该公式为:
使用随机梯度下降算法优化特征的权值wk,即可得权值更新幅度△wk:
利用下列三个公式: 和 可得t+1时刻的特征权值wk(t+1):
将非限制数据和限制数据结合在一起即可进行特征权值量化:
μ为用户指定的参数,代表限制数据相对于非限制数据的重要程度。
具体实施方式三、本实施方式是对具体实施方式一所述的一种结合限制数据的特征权值量化方法的步骤二的进一步说明,其具体内容为:
将限制数据划分为多个密集区域后,根据每个区域内包含的数据数分别对不同区域内的数据赋予不同的分布系数λb,并将其结合到权值量化函数中去,结果如下:
第b个等价类的分布系数λb的计算方法为:
其中,Tx代表T中的某个等价类,|Tx|代表集合的势,由此公式可见,该参数平衡了分布不同的各等价类内的数据对特征权值量化结果的影响,其降低了密集分布的数据对特征量化结果的影响,而提升了稀疏分布的数据的作用;
设B中存储不一致的数据点对,即假设(p,q)位于等价类Tb中,这样即可根据Tb内的其它数据,例如i和j,与p和q间的距离来确定点对(i,j)是否是一致的置信度;当T中的某个等价类(Tb)中不存在不一致的点对时,则该等价类中的任意点对间的置信度均为1;当T中的某个等价类中存在不一致的点对时,
由于等价类内可能存在着多个不一致的点对,则对于Tb中的其它点对,此时分别计算每个点对相对于每个不一致点对的置信度,并以其最小值作为该点对的置信度;对于不一致的点对,其置信度显然为0.5,即其满足must-link关系和can’t-link关系的可能性均为50%,
上述过程利用下式来表达:
式中,path(j,p)对应于j与p之间相距的最少边数。
具体实施方式四、本实施方式是对具体实施方式一所述的一种结合限制数据的特征权值量化方法的步骤三的进一步说明,其具体内容为:
将置信度融合到权值量化函数中即可获得带有置信度的权值量化函数FW:
Claims (4)
1.一种结合限制数据的特征权值量化方法,其特征在于所述方法按以下步骤进行:
步骤一、合并“限制数据”和“非限制数据”进行特征权值量化:通过优化特征的权值以使相似度小于0.5的数据对其相似度趋近于0,而使相似度大于0.5的数据对其相似度趋于1;
步骤二、特征权值量化函数中结合参数“分布系数”:用must-link关系将限制数据划分为多个等价类,每个等价类内包含的任一点对均满足must-link关系;满足must-link关系的点对为用户指定的位于同一类别内的数据,即相似的数据,这些数据位于数据空间中相对密集的区域内,可使每个密集分布的区域在权值量化函数中拥有同样的重要性以平衡限制数据的非均匀分布;
步骤三、特征权值量化函数中结合参数“置信度”:为每个等价类内的数据点对提供置信度,以确定其满足用户指定的限制关系的可信性,并融合此置信度进行特征权值量化;“置信度”代表某一点对同时满足must-link关系和can’t-link关系的可能性,以边连接某一等价类内满足must-link关系的点对,并通过点对间的距离计算该点对的“置信度”,置信度的计算过程是基于以下三种情况进行的:
步骤三(1)、Tb中不存在不一致的点对,则该等价类中的任意点对间的置信度均为1;
步骤三(2)、Tb中存在不一致的点对,设其为(p,q),则对于等价类中的其它点对,设其为(i,j),通过i和j与p和q之间的距离来计算点对(i,j)的置信度;
步骤三(3)、对于不一致的点对,其置信度显然为0.5,即其满足must-link关系和can’t-link关系的可能性均为50%。
2.如权利要求1所述的一种结合限制数据的特征权值量化方法,其特征在于步骤一的具体实现过程为:本发明以向量空间模型组织待聚类数据,利用公式计算输入数据之间的相似度,其中p与q为输入数据,由上式得到相似度计算函数并通过参数β使该函数均匀分布于0~1之间;
依据那些能够缩小MCS中点对间的相似度、而增大NCS中点对间的相似度的特征,对限制数据的划分能力较强的想法,以此为依据即可得到下述的特征权值量化公式,当此公式达到最小值时对应的特征权值为最优的特征权值;该公式为:
使用随机梯度下降算法优化特征的权值wk,即可得权值更新幅度△wk:
将非限制数据和限制数据结合在一起即可进行特征权值量化:
其中,
μ为用户指定的参数,代表限制数据相对于非限制数据的重要程度。
3.如权利要求1或2所述的一种结合限制数据的特征权值量化方法,其特征在于步骤二的具体实现过程为:将限制数据划分为多个密集区域后,根据每个区域内包含的数据数分别对不同区域内的数据赋予不同的分布系数λb,并将其结合到权值量化函数中去,结果如下:
第b个等价类的分布系数λb的计算方法为:
其中,Tx代表T中的某个等价类,|Tx|代表集合的势,由此公式可见,该参数平衡了分布不同的各等价类内的数据对特征权值量化结果的影响,其降低了密集分布的数据对特征量化结果的影响,而提升了稀疏分布的数据的作用;
设B中存储不一致的数据点对,即假设(p,q)位于等价类Tb中,这样即可根据Tb内的其它数据,i和j,与p和q间的距离来确定点对(i,j)是否是一致的置信度;当T中的某个等价类(Tb)中不存在不一致的点对时,则该等价类中的任意点对间的置信度均为1;当T中的某个等价类中存在不一致的点对时,由于等价类内可能存在着多个不一致的点对,则对于Tb中的其它点对,此时分别计算每个点对相对于每个不一致点对的置信度,并以其最小值作为该点对的置信度;对于不一致的点对,其置信度显然为0.5,即其满足must-link关系和can’t-link关系的可能性均为50%,上述过程利用下式来表达:
式中,path(j,p)对应于j与p之间相距的最少边数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310507228.5A CN103544135A (zh) | 2013-10-24 | 2013-10-24 | 一种结合限制数据的特征权值量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310507228.5A CN103544135A (zh) | 2013-10-24 | 2013-10-24 | 一种结合限制数据的特征权值量化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103544135A true CN103544135A (zh) | 2014-01-29 |
Family
ID=49967604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310507228.5A Pending CN103544135A (zh) | 2013-10-24 | 2013-10-24 | 一种结合限制数据的特征权值量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103544135A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786764A (zh) * | 2014-12-19 | 2016-07-20 | 天津安腾冷拔钢管有限公司 | 一种获取个性化头相关传递函数(hrtf)的计算方法及装置 |
CN117176175A (zh) * | 2023-11-01 | 2023-12-05 | 深圳对对科技有限公司 | 一种用于计算机的数据传输方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010035927A (ko) * | 1999-10-05 | 2001-05-07 | 유탐 | 보간 방법 및 장치 |
CN102929975A (zh) * | 2012-10-15 | 2013-02-13 | 西安电子科技大学 | 基于文档标签表征的推荐方法 |
-
2013
- 2013-10-24 CN CN201310507228.5A patent/CN103544135A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010035927A (ko) * | 1999-10-05 | 2001-05-07 | 유탐 | 보간 방법 및 장치 |
CN102929975A (zh) * | 2012-10-15 | 2013-02-13 | 西安电子科技大学 | 基于文档标签表征的推荐方法 |
Non-Patent Citations (2)
Title |
---|
刘铭: ""大规模文档聚类中若干关键问题的研究"", 《中国博士学位论文全文数据库》 * |
程慧杰: ""一种基于模式识别方法的基因表达数据分析研究",", 《中国博士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786764A (zh) * | 2014-12-19 | 2016-07-20 | 天津安腾冷拔钢管有限公司 | 一种获取个性化头相关传递函数(hrtf)的计算方法及装置 |
CN117176175A (zh) * | 2023-11-01 | 2023-12-05 | 深圳对对科技有限公司 | 一种用于计算机的数据传输方法 |
CN117176175B (zh) * | 2023-11-01 | 2024-02-02 | 深圳对对科技有限公司 | 一种用于计算机的数据传输方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Potdar et al. | A comparative study of categorical variable encoding techniques for neural network classifiers | |
Ansah et al. | Analytic hierarchy process decision making algorithm | |
CN109766423A (zh) | 基于神经网络的问答方法及装置、存储介质、终端 | |
CN103577888B (zh) | 一种对产品设计方案优选的方法 | |
CN111538827A (zh) | 基于内容和图神经网络的判例推荐方法、装置及存储介质 | |
CN105321345A (zh) | 一种基于ARIMA模型和kalman滤波的道路交通流预测方法 | |
CN104462383A (zh) | 一种基于用户多种行为反馈的电影推荐方法 | |
CN104750798A (zh) | 一种应用程序的推荐方法和装置 | |
CN113315789B (zh) | 一种基于多级联合网络的Web攻击检测方法及系统 | |
US20210064634A1 (en) | Systems and Methods for Weighted Quantization | |
CN105809473A (zh) | 匹配模型参数的训练方法、服务推荐方法及对应装置 | |
CN105843829A (zh) | 一种基于分层模型的大数据可信性度量方法 | |
CN103955714A (zh) | 基于水军检测模型构建方法和系统及水军检测方法 | |
JP2018185771A (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
Kontkanen et al. | On predictive distributions and Bayesian networks | |
CN111241425A (zh) | 一种基于层次注意力机制的poi推荐方法 | |
CN111047406B (zh) | 一种电信套餐推荐方法、装置、存储介质和设备 | |
CN103942298A (zh) | 基于线性回归的推荐方法及系统 | |
Abbas et al. | Consistency thresholds for hierarchical decision model | |
CN105631535A (zh) | 一种评分数据预测方法及装置 | |
CN103544135A (zh) | 一种结合限制数据的特征权值量化方法 | |
CN117194742A (zh) | 一种工业软件组件推荐方法及系统 | |
KR20210056700A (ko) | 인공지능을 활용한 소송 결과 예측 및 이를 이용한 법률 자문 서비스 방법 그리고 이를 이용한 시스템 | |
CN104679988A (zh) | 一种基于云topsis的多属性决策方法 | |
CN107562714A (zh) | 一种语句相似度计算方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140129 |