CN109934306A - 基于随机游走的多标签属性值划分方法和装置 - Google Patents
基于随机游走的多标签属性值划分方法和装置 Download PDFInfo
- Publication number
- CN109934306A CN109934306A CN201910271878.1A CN201910271878A CN109934306A CN 109934306 A CN109934306 A CN 109934306A CN 201910271878 A CN201910271878 A CN 201910271878A CN 109934306 A CN109934306 A CN 109934306A
- Authority
- CN
- China
- Prior art keywords
- attribute value
- random walk
- node attribute
- weighted graph
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于随机游走的多标签属性值划分方法和装置,该基于随机游走的多标签属性值划分方法包括:将样本集合中样本的属性值转换为符号型属性值;确定样本集合中每一个样本包含的标签;基于标签和符号型属性值,为同一类的符号型属性值构建无向加权图;基于随机游走,对无向加权图进行聚类。本发明提供的方案实现了对标签属性值的划分,从而使分类更加准确。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于随机游走的多标签属性值划分方法和装置。
背景技术
随着互联网和大数据的发展,数据库中存储的数据量大量增加,而且很多数据可拥有多个标签,即一个样本可属于多种类别。
目前,主要是基于单标签学习分类,单标签学习分类是基于一个只属于一个标签的样本集合中学习,其中每一个标签属于互斥的不同标签集合中,其中,各个标签下的属性值被标记为同一个标签。比如一个电影在具有刑侦属性值和爱情属性值时,则往往会把其归类于刑侦类标签或者归类于爱情类标签,而不会对刑侦属性值和爱情属性值进行具体的划分。即只是基于标签分类,而并未考虑各种属性值的差异,往往导致分类不准确。
发明内容
本发明实施例提供了一种基于随机游走的多标签属性值划分方法和装置,实现了对标签属性值的划分,从而使分类更加准确。
一种基于随机游走的多标签属性值划分方法,包括:
将样本集合中样本的属性值转换为符号型属性值;
确定所述样本集合中每一个所述样本包含的标签;
基于所述标签和所述符号型属性值,为同一类的所述符号型属性值构建无向加权图;
基于随机游走,对所述无向加权图进行聚类。
优选地,在所述确定所述样本集合中每一个所述样本包含的标签之后,在所述为同一类的所述符号型属性值构建无向加权图之前,进一步包括:
针对每一个所述样本,执行:将所述样本对应的所有标签,关联至所述样本对应的每一个所述符号型属性值;
所述为同一类的所述符号型属性值构建无向加权图,包括:
根据关联的结果,为同一类的所述符号型属性值构建无向加权图。
优选地,所述根据关联的结果,为同一类的所述符号型属性值构建无向加权图,包括:
针对同一类的所述符号型属性值,执行:
初始化无向加权图;
从所述样本集合包含的所有的所述标签中,选定一个标签为当前标签,并循环执行下述N1至N8;
N1:确定所述当前标签关联的目标符号型属性值;
N2:计算所述目标符号型属性值的初始概率,并为所述目标符号型属性值去重,当去重后的目标符号型属性值的个数的大于预设数量时,执行N3,当去重后的目标符号型属性值的个数不大于预设数量时,执行N4;
N3:按照所述初始概率的降序顺序,从去重后的目标符号型属性值中,为所述初始化无向加权图选定预设数量的节点属性值,其中,所述预设数量不小于3,并执行N5;
N4:将去重后的目标符号型属性值直接作为节点属性值;
N5:判断选定的所述节点属性值是否已经存在于所述无向加权图中,如果是,则执行N7;否则,执行N6;
N6:将所述节点属性值添加到所述无向加权图中;
N7:计算与所述当前标签相关的每两个所述节点属性值之间的边权重,并将所述边权重添加到所述无向加权图中;
N8:判断所述样本集合包含的所有的标签中是否存在未被选定过的标签,如果是,则从未被选定过的标签中,选定一个标签为当前标签,执行N1;否则,结束循环流程。
优选地,
所述计算所述目标符号型属性值的初始概率,包括:
利用下述初始概率计算公式,计算所述目标符号型属性值的初始概率,
初始概率计算公式
其中,Pd(t)表征当前标签d关联的目标符号型属性值t的初始概率;ct表征在当前标签d下,目标符号型属性值t出现的次数;Cd表征当前标签d关联的目标符号型属性值的总个数。
优选地,所述计算与所述当前标签相关的每两个所述节点属性值之间的边权重,包括:
利用下述边权重计算公式,计算与所述当前标签相关的每两个所述节点属性值之间的边权重;
所述边权重计算公式:
Q(vu)n=Q(vu)n-1+Pd(v)×Pd(u)
其中,Q(tu)n表征与所述当前标签相关的两个目标符号型属性值v和u分别对应的节点属性值在所述无向加权图中第n次出现时,v和u分别对应的节点属性值之间的边权重;Pd(v)表征当前标签关联的目标符号型属性值v的初始概率;Pd(u)表征当前标签关联的目标符号型属性值u的初始概率,且,当n=1时,Q(vu)n-1=0。
优选地,所述基于随机游走,对所述无向加权图进行聚类,包括:
M1:统计随机游走的循环次数,判断所述循环次数是否大于所述循环阈值,如果是,则执行M2,否则,执行M3;
M2:退出循环,并执行M7;
M3:根据当前无向加权图中的节点属性值以及每两个节点属性值之间的边权重,计算所述当前无向加权图对应的转移矩阵;
M4:基于随机游走和所述转移矩阵,计算新的转移矩阵;
M5:根据所述当前无向加权图以及所述新的转移矩阵,计算相似度矩阵;
M6:利用所述相似度矩阵,更新所述当前无向加权图中的边权重,将更新后的当前无向加权图作为当前无向加权图,并将所述循环次数加1,执行M1;
M7:将所述当前无向加权图中,边权重不小于分隔阈值的节点属性值划分为同一类。
优选地,所述基于随机游走和所述转移矩阵,计算新的转移矩阵,包括:
利用所述转移矩阵,更新所述当前无向加权图中的边权重;
将更新后的当前无向加权图中的每一个节点属性值作为当前节点属性值,执行:
控制随机游走的步数不大于预设的随机游走阈值;
基于随机游走,计算所述当前节点属性值到每一个节点属性值的随机游走权重;
利用计算得到的所有随机游走权重,组成新的转移矩阵。
优选地,所述计算所述当前无向加权图对应的转移矩阵,包括:
对所述当前无向加权图中的节点属性值进行升序排序;
利用升序排列结果、相邻两个节点属性值之间的边权重和下述转移矩阵计算公式组,计算所述当前无向加权图对应的转移矩阵;
所述转移矩阵计算公式组:
其中,J(a)表征升序排列结果中排列在第a个的节点属性值;J(b)表征升序排列结果中排列在第b个的节点属性值;Kab表征转移矩阵中的第a行第b列对应的值;QJ(a)J(b)表征在当前无向加权图中J(a)与J(b)之间的边权重;QJ(a)表征与J(a)相关的所有边权重之和。
优选地,所述基于随机游走,计算所述当前节点属性值到所述当前无向加权图中的每一个节点属性值的随机游走权重,包括:
H1:从所述当前无向加权图中选定一个节点属性值作为目标节点属性值;
H2:初始化随机游走步数;
H3:判断所述随机游走步数是否大于所述随机游走阈值,如果是,则执行H4;否则,执行H5;
H4:结束循环,并执行H7;
H5:利用下述随机游走子权重计算公式,计算所述当前节点属性值经过所述随机游走步数到所述目标节点属性值的随机游走子权重;
所述随机游走子权重计算公式:
其中,Z表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数的第Z种走法;i表征所述随机游走步数;y表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数的走法总数;Seg(i)表征从所述当前节点属性值e经过所述随机游走步数i到所述目标节点属性值g的随机游走子权重;r表征所述随机游走步数i中的第r步;表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数i的第Z种走法中第r步对应的更新后的边权重;
H6:将所述随机游走步数增加一步,并执行H3;
H7:利用下述随机游走权重计算公式,计算所述当前节点属性值到所述目标节点属性值的随机游走权重;
所述随机游走权重计算公式:
其中,SQeg表征所述当前节点属性值e到所述目标节点属性值g的随机游走权重;Seg(i)表征从所述当前节点属性值e经过所述随机游走步数i到所述目标节点属性值g的随机游走子权重;w表征所述随机游走阈值;
H8:判断所述当前无向加权图中所有节点属性值是否均被选定过成为目标节点属性值,如果是,则执行H9;否则,执行H10;
H9:结束当前流程;
H10:从未被选定过的剩余节点属性值中,选定一个节点属性值作为目标节点属性值,并执行H2。
优选地,所述利用计算得到的所有随机游走权重,组成新的转移矩阵,包括:
对更新后的当前无向加权图中的节点属性值进行升序排序;
将升序排列结果中的第k个节点属性值到第f个节点属性值的随机游走权重,写入新的转移矩阵中第k行第f列,其中,k和f均为正整数,且k和f均不大于升序排列结果中节点属性值的总个数。
优选地,所述根据所述当前无向加权图以及所述新的转移矩阵,计算相似度矩阵,包括:
对所述当前无向加权图中的节点属性值进行升序排序,其中,升序排列结果与新的转移矩阵中的行相对应;
利用下述相似度计算公式,计算相似度矩阵;
所述相似度矩阵计算公式组:
其中,J(α)表征升序排列结果中排列在第α个的节点属性值,升序排列结果中排列在第α个的节点属性值与新的转移矩阵中的第α行相对应;J(β)表征升序排列结果中排列在第β个的节点属性值,在升序排列结果中排列在第β个的节点属性值与新的转移矩阵中的第β行相对应;fw(J(α),J(β))表征相似度矩阵中第α行第β列对应的值,也即节点属性值J(α)与节点属性值J(β)的相似度;w表征随机游走的随机游走阈值;θ表征新的转移矩阵中第θ列;μ表征新的转移矩阵的总列数;Xαθ表征在新的转移矩阵中第α行第θ列对应的值;Yβθ表征在新的转移矩阵中第β行第θ列对应的值。
一种基于随机游走的多标签属性值划分装置,包括:转换单元、无向加权图构建单元以及属性值聚类单元,其中,
所述转换单元,用于将样本集合中样本的属性转换为符号型属性值;
所述无向加权图构建单元,用于确定所述样本集合中每一个所述样本包含的标签,基于每一个所述样本包含的标签和所述转换单元转换出的所述符号型属性值,为同一类的所述符号型属性值构建无向加权图;
所述属性值聚类单元,用于基于随机游走,对所述无向加权图构建单元构建出的所述无向加权图进行聚类。
本发明实施例提供了一种基于随机游走的多标签属性值划分方法和装置,该基于随机游走的多标签属性值划分方法,通过将样本集合中样本的属性值转换为符号型属性值;确定样本集合中每一个样本包含的标签;基于标签和符号型属性值,为同一类的符号型属性值构建无向加权图;基于随机游走,对无向加权图进行聚类,实现了为每个标签下的属性值进行划分,由于影响分类的除了标签还有属性值,因此,基于划分的属性值,能够使分类更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的基于随机游走的多标签属性值划分方法的流程图;
图2是本发明一个实施例提供的基于随机游走的多标签属性值划分方法的流程图;
图3是本发明一个实施例提供的无向加权图;
图4是本发明一个实施例提供的无向加权图;
图5是本发明一个实施例提供的无向加权图;
图6是本发明一个实施例提供的无向加权图;
图7是本发明一个实施例提供的无向加权图;
图8是本发明一个实施例提供的无向加权图;
图9是本发明一个实施例提供的基于随机游走的多标签属性值划分装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于随机游走的多标签属性值划分方法,该方法可以包括以下步骤:
步骤101:将样本集合中样本的属性值转换为符号型属性值;
步骤102:确定所述样本集合中每一个样本包含的标签;
步骤103:基于标签和符号型属性值,为同一类的符号型属性值构建无向加权图;
步骤104:基于随机游走,对无向加权图进行聚类。
在图1所示的实施例中,通过将样本集合中样本的属性值转换为符号型属性值;确定样本集合中每一个样本包含的标签;基于标签和符号型属性值,为同一类的符号型属性值构建无向加权图;基于随机游走,对无向加权图进行聚类,实现了为每个标签下的属性值进行划分,由于影响分类的除了标签还有属性值,因此,基于划分的属性值,能够使分类更加准确。
其中,上述步骤101的一种实现方式可以为通过离散化方式,将不同的属性值对应到一个符号型属性值,比如,将样本的原始属性值0.001~0.005对应到符号型属性值1或者符号型属性值a,样本的原始属性值0.006~0.01对应到符号型属性值2或者符号型属性值b等;又比如,将颜色属性值,比如黑色对应到符号型属性值1或者符号型属性值a,红色对应到符号型属性值2或者符号型属性值b等。
一般来说,在样本集合中,各种属性值均存在,使得转换后的符号型属性值是连贯的,连贯的符号型属性值如1,2,3,…或者a,b,c,…等。
上述步骤102确定样本集合中每一个样本包含的标签的过程实际为整理样本集合包含的所有标签的过程。
在本发明另一实施例中,为了能够基于标签对同一类的属性值进行分类,在上述步骤102之后,上述步骤103之前进一步包括:针对每一个样本,执行:将样本对应的所有标签,关联至样本对应的每一个符号型属性值;上述步骤103的实现方式则可为根据关联的结果,为同一类的符号型属性值构建无向加权图。
将样本对应的所有标签,关联至样本对应的每一个符号型属性值的方式可以通过决策表实现,如下表1所示的一个样本集合的决策表D1,该决策表D1=(U,A,L),其中,U表征样本集合,A表征属性的集合,L表征标签集合。针对表1,U=(x1,x2,…,xN),A=(a1,a2,...,aM),L=(l1,l2,...,lq)。即样本x有N个,属性a有M个,标签l有q个。则将样本对应的所有标签,关联至样本对应的每一个符号型属性值,以实现下述步骤在不同的标签下,对a1下对应的属性值{1,10,…,3}进行划分。根据关联结果,为同一类的符号型属性值构建无向加权图,则为基于不同的标签,为同一属性下的不同属性值构建无向加权图,例如,对a1下对应的属性值{1,10,…,3}构建无向图,在需要遍历a1下对应的属性值{1,10,…,3}在各个标签l1,l2,...,lq下的存在情况等,比如:属性a1下对应的属性值1,对应的标签l1为0,则表示该属性a1对应的属性值1不属于标签l1;又比如,属性a1下对应的属性值10,对应的标签l1为1,则表示该属性a1对应的属性值10属于标签l1等。
表1决策表D1
在本发明另一实施例中,上述根据关联的结果,为同一类的符号型属性值构建无向加权图的具体实施方式可以为:针对同一类的符号型属性值,执行:初始化无向加权图;从样本集合包含的所有的标签中,选定一个标签为当前标签,并循环执行下述N1至N8;N1:确定当前标签关联的目标符号型属性值;N2:计算目标符号型属性值的初始概率,并为目标符号型属性值去重,当去重后的目标符号型属性值的个数的大于预设数量时,执行N3,当去重后的目标符号型属性值的个数不大于预设数量时,执行N4;N3:按照初始概率的降序顺序,从去重后的目标符号型属性值中,为初始化无向加权图选定预设数量的节点属性值,其中,预设数量不小于3,并执行N5;N4:将去重后的目标符号型属性值直接作为节点属性值;N5:判断选定的节点属性值是否已经存在于无向加权图中,如果是,则执行N7;否则,执行N6;N6:将节点属性值添加到无向加权图中;N7:计算与当前标签相关的每两个节点属性值之间的边权重,并将边权重添加到无向加权图中;N8:判断样本集合包含的所有的标签中是否存在未被选定过的标签,如果是,则从未被选定过的标签中,选定一个标签为当前标签,执行N1;否则,结束循环流程。
其中,上述初始化无向加权图可为建立一个空的无向加权图。从样本集合包含的所有的标签中,选定一个标签为当前标签,比如,对于上述表1给出的,可以选l1,l2,...,lq中的任意一个作为当前标签,确定当前标签关联的目标符号型属性值,比如,以为上表1中的属性a1构建无向加权图为例,当前标签为l2时,则l2关联的目标符号型属性值为1,10,…。
另外,上述N2中计算目标符号型属性值的初始概率的具体实施方式可为,利用下述初始概率计算公式,计算目标符号型属性值的初始概率,
初始概率计算公式:
其中,Pd(t)表征当前标签d关联的目标符号型属性值t的初始概率;ct表征在当前标签d下,目标符号型属性值t出现的次数;Cd表征当前标签d关联的目标符号型属性值的总个数。
上述N2中的预设数量可以为3,即当去重后的目标符号型属性值的个数的大于3时,则执行N3;否则,执行N4。另外,上述N3的过程是为了去除一些对分类影响不大的属性值。上述预设数量是经过设计和大量的实验得出的较优的结果,预设数量大于3时,与预设数量等于3,最后得到的划分结果基本一致,而预设数量如果小于3则会导致划分不准确。
上述N2中的去重是指,将同一标签下同一属性中相同的属性值去重,比如,标签为l1,属性为a1对应的属性值包括1,3,5,6,6,5,10,4,8,则去重需要将重复的6,5去掉。
另外,上述N3中选定预设数量的节点属性值,比如预设数量为3,则选择初始概率最大的前三位的节点属性值。
值得说明的是,由于同一属性对应一个无向加权图,即同一属性下的同一属性值可能多次出现在同一标签下,也可能多次出现在不同标签下,为了避免无向加权图重复统计属性值,通过设计N2中的去重以及N5来实现。同时为了能够尽可能的真实反应每一个属性值的出现情况,则设计了N7。N8则是为了对所有标签完成统计。
上述N7的具体实施方式可为,利用下述边权重计算公式,计算与当前标签相关的每两个节点属性值之间的边权重;
Q(vu)n=Q(vu)n-1+Pd(v)×Pd(u)
其中,Q(tu)n表征与当前标签相关的两个目标符号型属性值v和u分别对应的节点属性值在无向加权图中第n次出现时,v和u分别对应的节点属性值之间的边权重;Pd(v)表征当前标签关联的目标符号型属性值v的初始概率;Pd(u)表征当前标签关联的目标符号型属性值u的初始概率,且,当n=1时,Q(vu)n-1=0。
在本发明另一实施例中,上述步骤104的具体实施方式可为,M1:统计随机游走的循环次数,判断循环次数是否大于循环阈值,如果是,则执行M2,否则,执行M3;M2:退出循环,并执行M7;M3:根据当前无向加权图中的节点属性值以及每两个节点属性值之间的边权重,计算当前无向加权图对应的转移矩阵;M4:基于随机游走和转移矩阵,计算新的转移矩阵;M5:根据当前无向加权图以及新的转移矩阵,计算相似度矩阵;M6:利用相似度矩阵,更新当前无向加权图中的边权重,将更新后的当前无向加权图作为当前无向加权图,并将循环次数加1,执行M1;M7:将当前无向加权图中,边权重不小于分隔阈值的节点属性值划分为同一类。
上述随机游走的循环次数一般可为3,通过循环次数设计和实验发现,循环次数3已经能够保证划分的准确性达到98%以上。更高的循环次数则需要更强大的硬件支撑,无形中增加了运算的压力。
上述M3的具体实施方式可为,对当前无向加权图中的节点属性值进行升序排序;利用升序排列结果、相邻两个节点属性值之间的边权重和下述转移矩阵计算公式组,计算当前无向加权图对应的转移矩阵;
转移矩阵计算公式组:
其中,J(a)表征升序排列结果中排列在第a个的节点属性值;J(b)表征升序排列结果中排列在第b个的节点属性值;Kab表征转移矩阵中的第a行第b列对应的值;QJ(a)J(b)表征在当前无向加权图中J(a)与J(b)之间的边权重;QJ(a)表征与J(a)相关的所有边权重之和。其中,节点属性值来源于属性下的符号型属性值,则节点属性值也为符号型。那么,升序排列是指,对于节点属性值为1,2,3,…等,则按照大小顺序进行升序排列;对于节点属性值为a,b,c,…等,则字母的先后顺序即为升序。
另外,上述M4的具体实施方式可为,利用转移矩阵,更新当前无向加权图中的边权重;将更新后的当前无向加权图中的每一个节点属性值作为当前节点属性值,执行:控制随机游走的步数不大于预设的随机游走阈值;基于随机游走,计算当前节点属性值到每一个节点属性值的随机游走权重;利用计算得到的所有随机游走权重,组成新的转移矩阵。其中,随机游走阈值一般可设置为3。
其中,基于随机游走,计算所述当前节点属性值到每一个节点属性值的随机游走权重的具体实施方式可为,H1:从当前无向加权图中选定一个节点属性值作为目标节点属性值;H2:初始化随机游走步数;H3:判断随机游走步数是否大于随机游走阈值,如果是,则执行H4;否则,执行H5;H4:结束循环,并执行H7;H5:利用下述随机游走子权重计算公式,计算当前节点属性值经过随机游走步数到目标节点属性值的随机游走子权重;
随机游走子权重计算公式:
其中,Z表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数的第Z种走法;i表征所述随机游走步数;y表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数的走法总数;Seg(i)表征从所述当前节点属性值e经过所述随机游走步数i到所述目标节点属性值g的随机游走子权重;r表征所述随机游走步数i中的第r步;表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数i的第Z种走法中第r步对应的更新后的边权重;H6:将随机游走步数增加一步,并执行H3;H7:利用下述随机游走权重计算公式,计算当前节点属性值到目标节点属性值的随机游走权重;
随机游走权重计算公式:
其中,SQeg表征所述当前节点属性值e到所述目标节点属性值g的随机游走权重;Seg(i)表征从所述当前节点属性值e经过所述随机游走步数i到所述目标节点属性值g的随机游走子权重;w表征所述随机游走阈值;H8:判断当前无向加权图中所有节点属性值是否均被选定过成为目标节点属性值,如果是,则执行H9;否则,执行H10;H9:结束当前流程;H10:从未被选定过的剩余节点属性值中,选定一个节点属性值作为目标节点属性值,并执行H2。其中初始化随机游走步数可为将随机游走步数从1开始,也可以将随机游走步数从其他步数如2等开始,可根据不同的项目进行不同的初始化。
另外,上述利用计算得到的所有随机游走权重,组成新的转移矩阵的具体实施方式可为,对更新后的当前无向加权图中的节点属性值进行升序排序;将升序排列结果中的第k个节点属性值到第f个节点属性值的随机游走权重,写入新的转移矩阵中第k行第f列,其中,k和f均为正整数,且k和f均不大于升序排列结果中节点属性值的总个数。
另外,上述M5根据当前无向加权图以及新的转移矩阵,计算相似度矩阵的具体实施方式可为,对当前无向加权图中的节点属性值进行升序排序,其中,升序排列结果与新的转移矩阵中的行相对应;利用下述相似度计算公式,计算相似度矩阵;
相似度矩阵计算公式组:
其中,J(α)表征升序排列结果中排列在第α个的节点属性值,升序排列结果中排列在第α个的节点属性值与新的转移矩阵中的第α行相对应;J(β)表征升序排列结果中排列在第β个的节点属性值,在升序排列结果中排列在第β个的节点属性值与新的转移矩阵中的第β行相对应;fw(J(α),J(β))表征相似度矩阵中第α行第β列对应的值,也即节点属性值J(α)与节点属性值J(β)的相似度;w表征随机游走的随机游走阈值;θ表征新的转移矩阵中第θ列;μ表征新的转移矩阵的总列数;Xαθ表征在新的转移矩阵中第α行第θ列对应的值;Yβθ表征在新的转移矩阵中第β行第θ列对应的值。
下面将以一个具体实施例,以对一个属性下面的属性值进行划分为例,详细说明基于随机游走的多标签属性值划分方法。如图2所示,该基于随机游走的多标签属性值划分方法具体可包括如下步骤:
步骤201:将样本集合中样本的属性值转换为符号型属性值;
该符号型属性值可以为,0,1,2,3,…;也可以为a,b,c,…;还可以为A,B,C,…。一般来说,为了保证划分的准确性,在样本集合中,每一个属性对应的符号型属性值包含了属性的所有属性值。
该转换可以通过映射的方式完成,比如,将颜色属性中的黑色、灰色、灰黑色等映射到0,将颜色属性中的浅红色、深红色、酒红色等映射到1,则可根据该映射,将颜色属性中的属性值灰黑色转换为0。又比如,对于温度属性,将35~37度分配给0或a,将37.1~38度分配给1或b等,则可将该温度属性中的属性值35~37度转换为0或a,将37.1~38度转换为1或b等。
步骤202:确定样本集合中每一个样本包含的标签;
该确定的过程一方面为了确认样本集合中包含的所有标签,另一方面可为样本包含的标签赋值为1,不包含的标签赋值为0。比如,样本x包含标签a,而不包含标签b,样本y包含标签b,而不包含标签a。则针对样本x为标签a赋值1,为标签b赋值0;针对样本y为标签a赋值0,为标签b赋值1。
步骤203:针对每一个样本,执行:将样本对应的所有标签,关联至样本对应的每一个符号型属性值;
该步骤的关联可通过决策表实现。如下表2所示的一个具体的决策表D2,其中,样本集合为{x1,x2,...,x9,x10};属性集合为{a1,a2};标签集合为{l1,l2,l3,l4}。
表2决策表D2
具体关联过程为,将每一个样本包含的属性值填入表格,并将样本包含的标签赋值为1,不包含的标签赋值为0,比如,样本x1包含的属性a1对应的属性值为0,属性a2对应的属性值为6,样本x1包含的标签为l1,l3和l4,则x1对应的l1=1,l3=1和l4=1,l2=0。
针对同一类的符号型属性值,执行步骤204至步骤221。
该同一类是指的同一属性。比如,为属性a1下的属性值进行划分,属性a1下的符号型属性值与标签的关联如下表3所示。下面将以划分属性a1下的属性值为例展开说明。
表3
步骤204:初始化无向加权图;
该步骤可将无向加权图初始化为空集。
步骤205:从样本集合包含的所有的标签中,选定一个标签为当前标签;
步骤206:确定当前标签关联的目标符号型属性值;
比如,选定l1作为当前标签,则从表3中可知,l1关联的目标符号型属性值为{0,2,1,0,6,3,6};又比如选定l2作为当前标签,则从表3中可知,l2关联的目标符号型属性值为{5,2,1,0,6};又比如选定l3作为当前标签,则从表3中可知,l3关联的目标符号型属性值为{5,2,1,0,6}等。
步骤207:计算目标符号型属性值的初始概率,并为目标符号型属性值去重,当去重后的目标符号型属性值的个数的大于预设数量时,执行步骤208,当去重后的目标符号型属性值的个数不大于预设数量时,执行步骤209;
该步骤具体的计算方式为,利用下述初始概率计算公式,计算目标符号型属性值的初始概率,
初始概率计算公式
其中,Pd(t)表征当前标签d关联的目标符号型属性值t的初始概率;ct表征在当前标签d下,目标符号型属性值t出现的次数;Cd表征当前标签d关联的目标符号型属性值的总个数。
比如,l1关联的目标符号型属性值{0,2,1,0,6,3,6}中,0对应的初始概率为2对应的初始概率为1对应的初始概率为3对应的初始概率为6对应的初始概率为
上述去重的过程,比如去除{0,2,1,0,6,3,6}中,重复的0和6。
步骤208:按照初始概率的降序顺序,从去重后的目标符号型属性值中,为初始化无向加权图选定预设数量的节点属性值,其中,预设数量不小于3,并执行步骤210;
比如,l1关联的目标符号型属性值{0,2,1,0,6,3,6}中,初始概率的降序顺序为各个初始概率对应的目标符号型属性值为0,6,1,2,3。比如预设数量为3,则该步骤选定的节点属性值为0,6,3。值得说明的是,对于初始概率相同的两个或多个目标符号型属性值,按照目标符号型属性值降序顺序,选择在先的目标符号型属性值。比如,目标符号型属性值3,2,1的初始概率均为则先选择3为节点属性值。
步骤209:将去重后的目标符号型属性值直接作为节点属性值;
步骤210:判断选定的节点属性值是否已经存在于无向加权图中,如果是,则执行步骤212;否则,执行步骤211;
步骤211:将节点属性值添加到无向加权图中;
步骤212:计算与当前标签相关的每两个节点属性值之间的边权重,并将边权重添加到无向加权图中;
该步骤计算边权重的具体方式为,利用下述边权重计算公式,计算与当前标签相关的每两个节点属性值之间的边权重;
边权重计算公式:
Q(vu)n=Q(vu)n-1+Pd(v)×Pd(u)
其中,Q(tu)n表征与当前标签相关的两个目标符号型属性值v和u分别对应的节点属性值在无向加权图中第n次出现时,v和u分别对应的节点属性值之间的边权重;Pd(v)表征当前标签关联的目标符号型属性值v的初始概率;Pd(u)表征当前标签关联的目标符号型属性值u的初始概率,且,当n=1时,Q(vu)n-1=0。
比如,为l1选定的节点属性值为0,6,3,其中,0-6之间的边权重则为:
相应的,
步骤213:判断样本集合包含的所有的标签中是否存在未被选定过的标签,如果是,则执行步骤214,否则,执行步骤215;
步骤214:从未被选定过的标签中,选定一个标签为当前标签,执行步骤206;
选择当前标签的方式并无顺序限定,可以先选定l1为当前标签,也可以先选定l2等。
通过上述步骤得到的属性a1以及标签l1对应无向加权图的一部分如图3所示。在无向加权图中,边权重设置于两个节点属性值之间。
在上述图3基础上,为属性a1增加标签l2后,得到无向加权图的一部分如图4所示。
在上述图4基础上,为属性a1增加标签l3后,得到无向加权图的一部分如图5所示。
在上述图5基础上,为属性a1增加标签l4后,得到无向加权图的一部分如图6所示。
步骤215:统计随机游走的循环次数,判断循环次数是否大于所述循环阈值,如果是,则执行步骤216,否则,执行步骤217;
该步骤随机游走是基于图6所示的无向加权图完成的。该循环阈值可为3次,通过对循环阈值设计和实验,发现循环阈值设计为3次已经能够较好的进行属性值的划分。
步骤216:退出循环,并执行步骤221;
步骤217:根据当前无向加权图中的节点属性值以及每两个节点属性值之间的边权重,计算当前无向加权图对应的转移矩阵;
该步骤中,计算当前无向加权图对应的转移矩阵的具体实施方式可为,对当前无向加权图中的节点属性值进行升序排序;利用升序排列结果、相邻两个节点属性值之间的边权重和下述转移矩阵计算公式组,计算当前无向加权图对应的转移矩阵;
转移矩阵计算公式组:
其中,J(a)表征升序排列结果中排列在第a个的节点属性值;J(b)表征升序排列结果中排列在第b个的节点属性值;Kab表征转移矩阵中的第a行第b列对应的值;QJ(a)J(b)表征在当前无向加权图中J(a)与J(b)之间的边权重;QJ(a)表征与J(a)相关的所有边权重之和。
比如,对图6给出的无向加权图中的节点属性值进行升序排序,则为0,1,2,3,4,5,6。另外,对于节点属性值为a,b,c,…或者A,B,C,…,上述的升序排序是指按照在英文字母表中出现的先后顺序排序。
上述计算过程,比如,对图6给出的无向加权图给出的排序在第一位的节点属性值0与排序在第一位的节点属性值0,对应的K11=0;排序在第一位的节点属性值0与排序在第二位的节点属性值1,对应的K12=0;排序在第一位的节点属性值0与排序在第四位的节点属性值3,对应的
通过上述计算过程,得到图6对应的转移矩阵为:
步骤218:基于随机游走和转移矩阵,计算新的转移矩阵;
该步骤具体实现方式可为,利用转移矩阵,更新当前无向加权图中的边权重;该更新后的边权重则具有方向,比如,按照上述转移矩阵,更新后的边权重中节点属性值0→3的权重为0.22,而节点属性值3→0的权重为0.5,又比如,更新后的边权重中节点属性值0→6的权重为0.61,而节点属性值6→0的权重为0.34。将更新后的当前无向加权图中的每一个节点属性值作为当前节点属性值,执行:控制随机游走的步数不大于预设的随机游走阈值;该随机游走阈值一般设置为3,即控制在3步和3步以内完成随机游走。基于随机游走,计算当前节点属性值到每一个节点属性值的随机游走权重;利用计算得到的所有随机游走权重,组成新的转移矩阵。
其中,基于随机游走,计算当前节点属性值到每一个节点属性值的随机游走权重的具体实施方式可为,执行下述H1至H10。
H1:从当前无向加权图中选定一个节点属性值作为目标节点属性值;该步骤选定的节点属性值可以按照节点属性值的排序,从最小排在最先的节点属性值选起。
H2:初始化随机游走步数;该步骤初始化随机游走步数可以为1步。
H3:判断随机游走步数是否大于随机游走阈值,如果是,则执行H4;否则,执行H5;
H4:结束循环,并执行H7;
H5:利用下述随机游走子权重计算公式,计算当前节点属性值经过随机游走步数到目标节点属性值的随机游走子权重;
该步骤中的目标节点属性值可以为无向加权图中的任意一个节点属性值。
随机游走子权重计算公式:
其中,Z表征从当前节点属性值e到所述目标节点属性值g满足随机游走步数的第Z种走法;i表征随机游走步数;y表征从当前节点属性值e到所述目标节点属性值g满足随机游走步数的走法总数;Seg(i)表征从当前节点属性值e经过所述随机游走步数i到所述目标节点属性值g的随机游走子权重;r表征随机游走步数i中的第r步;表征从当前节点属性值e到目标节点属性值g满足随机游走步数i的第Z种走法中第r步对应的更新后的边权重;
比如,图6所示的无向加权图中,从节点属性值0到节点属性值0,在随机游走一步时,满足随机游走一步的走法总数为0,则S00(1)=0;在随机游走2步时,满足随机游走2步的走法总数为3种(第1种:0→5→0,第2种:0→3→0,第3种:0→6→0),其中,第1种走法0→5→0中,第1步为0→5,第二步为5→0,依次类推。则 在随机游走3步时,满足随机游走3步的走法总数为4种(第1种:0→5→6→0,第2种:0→6→5→0,第3种:0→3→6→0,第4种:0→6→3→0),其中,第1种走法0→5→6→0中,第1步为0→5,第二步为5→6,第三步为6→0,依次类推。则
H6:将随机游走步数增加一步,并执行H3;
如果上面随机游走步数为1步,则经过该步骤后,随机游走步数变为2步;如果上面随机游走步数为2步,则经过该步骤后,随机游走步数变为3步,依次类推。
H7:利用下述随机游走权重计算公式,计算当前节点属性值到目标节点属性值的随机游走权重;
随机游走权重计算公式:
其中,SQeg表征当前节点属性值e到目标节点属性值g的随机游走权重;Seg(i)表征从当前节点属性值e经过随机游走步数i到所述目标节点属性值g的随机游走子权重;w表征随机游走阈值;
根据上述步骤得到的节点属性值0—0的随机游走子权重,计算节点属性值0—0的随机游走权重SQ00=S00(1)+S00(2)+S00(3)=0+0.3599+0.1254≈0.48。
H8:判断当前无向加权图中所有节点属性值是否均被选定过成为目标节点属性值,如果是,则执行H9;否则,执行H10;
H9:结束当前流程;
H10:从未被选定过的剩余节点属性值中,选定一个节点属性值作为目标节点属性值,并执行H2。
上述选择目标节点属性值的过程可以从最小的节点属性值开始选择。
另外,利用计算得到的所有随机游走权重,组成新的转移矩阵的具体实施方式可为:对更新后的当前无向加权图中的节点属性值进行升序排序,该更新后的当前无向加权图中的节点属性值与原来的无向加权图中节点属性值是相同的;将升序排列结果中的第k个节点属性值到第f个节点属性值的随机游走权重,写入新的转移矩阵中第k行第f列,其中,k和f均为正整数,且k和f均不大于升序排列结果中节点属性值的总个数。比如,第1个节点属性值0到第6个节点属性值5的随机游走权重则写入到新的转移矩阵的第1行第5列,而第6个节点属性值5到第1个节点属性值0的随机游走权重则写入到新的转移矩阵的第5行第1列。
针对图6和上述步骤217得到的转移矩阵,经过上述步骤218得到的新得转移矩阵:
步骤219:根据当前无向加权图以及新的转移矩阵,计算相似度矩阵;
该步骤的具体实施方式可为,对当前无向加权图中的节点属性值进行升序排序,其中,升序排列结果与新的转移矩阵中的行相对应;利用下述相似度计算公式,计算相似度矩阵;
相似度矩阵计算公式组:
其中,J(α)表征升序排列结果中排列在第α个的节点属性值,升序排列结果中排列在第α个的节点属性值与新的转移矩阵中的第α行相对应;J(β)表征升序排列结果中排列在第β个的节点属性值,在升序排列结果中排列在第β个的节点属性值与新的转移矩阵中的第β行相对应;fw(J(α),J(β))表征相似度矩阵中第α行第β列对应的值,也即节点属性值J(α)与节点属性值J(β)的相似度;w表征随机游走的随机游走阈值;θ表征新的转移矩阵中第θ列;μ表征新的转移矩阵的总列数;Xαθ表征在新的转移矩阵中第α行第θ列对应的值;Yβθ表征在新的转移矩阵中第β行第θ列对应的值。
升序排列结果与新的转移矩阵中的行相对应是指,升序排列结果中的第1位对应的新的转移矩阵中的第1行,升序排列结果中的第2位对应的新的转移矩阵中的第2行,依此类推。
比如,针对图6中的无向加权图更新后的无向加权图的边权重改变但是节点属性值之间相对位置不会变。则在升序排列结果中排列在第1个的节点属性值0与升序排列结果中排列在第2个的节点属性值1不相邻,上述步骤中设定的随机游走阈值为3,则f3(0,1)=0,其f3(0,1)位于相似度矩阵中的第1行第2列(其位于相似度矩阵中的行列数与节点属性值在升序排列结果中的排位数相关,又比如,升序排列结果中排列在第3个的节点属性值2与升序排列结果中排列在第5个的节点属性值4对应的f3(2,4)位于相似度矩阵中的第3行第5列等)。在升序排列结果中排列在第1个的节点属性值0与升序排列结果中排列在第4个的节点属性值3相邻,上述步骤中设定的随机游走阈值为3,则
f3(0,3)=e(2 ×3-[|0.48-0.9|+|0.17-0.16|+|0.18-0.15|+|0.40-0.25|+|0.12-0.11|+|0.43-0.28|+|1.23-1.15|])-1≈174.48。
则通过上述计算得到,属性a1对应的相似度矩阵为:
步骤220:利用相似度矩阵,更新当前无向加权图中的边权重,将更新后的当前无向加权图作为当前无向加权图,并将循环次数加1,执行步骤215;
利用上述步骤219得到相似度矩阵,更新无向加权图如图7所示。并将图7作为当前无向加权图,重新进行上述的循环过程。
步骤221:将当前无向加权图中,边权重不小于分隔阈值的节点属性值划分为同一类;
比如,经过3次循环后,得到的最终的无向加权图,如图8所示。按照图8中的边权重对属性值进行分类。其中,分隔阈值可为无向加权图中各个边权重的平均值,图8的分隔阈值为103.42。则,节点属性值0,2,3,5,6聚类为一种,1,4分别存在。边权重不小于分隔阈值的节点属性值标记为同一种颜色或者标记为同一种形状,边权重小于分隔阈值的节点属性值标记为不同的颜色或者标记为不同的形状。且边权重小于分隔阈值的边标记为虚线,边权重不小于分隔阈值的边标记为实线,1与6,1与4以及1与6之间的边变为虚线。
上述步骤201至步骤221则对属性a1下的属性值进行了划分或聚类。
如图9所示,本发明实施例提供一种基于随机游走的多标签属性值划分装置,包括:转换单元901、无向加权图构建单元902以及属性值聚类单元903,其中,
转换单元901,用于将样本集合中样本的属性转换为符号型属性值;
无向加权图构建单元902,用于确定样本集合中每一个样本包含的标签,基于每一个样本包含的标签和转换单元901转换出的符号型属性值,为同一类的符号型属性值构建无向加权图;
属性值聚类单元903,用于基于随机游走,对无向加权图构建单元902构建出的无向加权图进行聚类。
在本发明另一实施例中,无向加权图构建单元902,进一步用于针对每一个所述样本,执行:将样本对应的所有标签,关联至样本对应的每一个所述符号型属性值;根据关联的结果,为同一类的符号型属性值构建无向加权图。
在本发明另一实施例中,无向加权图构建单元902,用于针对同一类的符号型属性值,执行:初始化无向加权图;从样本集合包含的所有的标签中,选定一个标签为当前标签,并循环执行下述N1至N8;N1:确定当前标签关联的目标符号型属性值;N2:计算目标符号型属性值的初始概率,并为目标符号型属性值去重,当去重后的目标符号型属性值的个数的大于预设数量时,执行N3,当去重后的目标符号型属性值的个数不大于预设数量时,执行N4;N3:按照初始概率的降序顺序,从去重后的目标符号型属性值中,为初始化无向加权图选定预设数量的节点属性值,其中,预设数量不小于3,并执行N5;N4:将去重后的目标符号型属性值直接作为节点属性值;N5:判断选定的节点属性值是否已经存在于无向加权图中,如果是,则执行N7;否则,执行N6;N6:将节点属性值添加到无向加权图中;N7:计算与当前标签相关的每两个节点属性值之间的边权重,并将边权重添加到无向加权图中;N8:判断样本集合包含的所有的标签中是否存在未被选定过的标签,如果是,则从未被选定过的标签中,选定一个标签为当前标签,执行N1;否则,结束循环流程。
在本发明另一实施例中,无向加权图构建单元902,用于利用下述初始概率计算公式,计算所述目标符号型属性值的初始概率,
初始概率计算公式
其中,Pd(t)表征当前标签d关联的目标符号型属性值t的初始概率;ct表征在当前标签d下,目标符号型属性值t出现的次数;Cd表征当前标签d关联的目标符号型属性值的总个数。
在本发明另一实施例中,无向加权图构建单元902,用于利用下述边权重计算公式,计算与所述当前标签相关的每两个所述节点属性值之间的边权重;
所述边权重计算公式:
Q(vu)n=Q(vu)n-1+Pd(v)×Pd(u)
其中,Q(tu)n表征与所述当前标签相关的两个目标符号型属性值v和u分别对应的节点属性值在所述无向加权图中第n次出现时,v和u分别对应的节点属性值之间的边权重;Pd(v)表征当前标签关联的目标符号型属性值v的初始概率;Pd(u)表征当前标签关联的目标符号型属性值u的初始概率,且,当n=1时,Q(vu)n-1=0。
在本发明另一实施例中,属性值聚类单元903,用于执行M1至M7,M1:统计随机游走的循环次数,判断循环次数是否大于所述循环阈值,如果是,则执行M2,否则,执行M3;M2:退出循环,并执行M7;M3:根据当前无向加权图中的节点属性值以及每两个节点属性值之间的边权重,计算所述当前无向加权图对应的转移矩阵;
M4:基于随机游走和转移矩阵,计算新的转移矩阵;M5:根据所述当前无向加权图以及新的转移矩阵,计算相似度矩阵;M6:利用相似度矩阵,更新当前无向加权图中的边权重,将更新后的当前无向加权图作为当前无向加权图,并将循环次数加1,执行M1;M7:将当前无向加权图中,边权重不小于分隔阈值的节点属性值划分为同一类。
在本发明另一实施例中,属性值聚类单元903,用于利用转移矩阵,更新当前无向加权图中的边权重;将更新后的当前无向加权图中的每一个节点属性值作为当前节点属性值,执行:控制随机游走的步数不大于预设的随机游走阈值;基于随机游走,计算当前节点属性值到每一个节点属性值的随机游走权重;利用计算得到的所有随机游走权重,组成新的转移矩阵。
在本发明另一实施例中,属性值聚类单元903,用于对当前无向加权图中的节点属性值进行升序排序;利用升序排列结果、相邻两个节点属性值之间的边权重和下述转移矩阵计算公式组,计算当前无向加权图对应的转移矩阵;
转移矩阵计算公式组:
其中,J(a)表征升序排列结果中排列在第a个的节点属性值;J(b)表征升序排列结果中排列在第b个的节点属性值;Kab表征转移矩阵中的第a行第b列对应的值;QJ(a)J(b)表征在当前无向加权图中J(a)与J(b)之间的边权重;QJ(a)表征与J(a)相关的所有边权重之和。
在本发明另一实施例中,属性值聚类单元903,用于执行H1至H10,H1:从当前无向加权图中选定一个节点属性值作为目标节点属性值;H2:初始化随机游走步数;H3:判断随机游走步数是否大于随机游走阈值,如果是,则执行H4;否则,执行H5;H4:结束循环,并执行H7;H5:利用下述随机游走子权重计算公式,计算所述当前节点属性值经过所述随机游走步数到所述目标节点属性值的随机游走子权重;
随机游走子权重计算公式:
其中,Z表征从当前节点属性值e到目标节点属性值g满足随机游走步数的第Z种走法;i表征随机游走步数;y表征从当前节点属性值e到目标节点属性值g满足随机游走步数的走法总数;Seg(i)表征从当前节点属性值e经过随机游走步数i到目标节点属性值g的随机游走子权重;r表征随机游走步数i中的第r步;表征从当前节点属性值e到目标节点属性值g满足随机游走步数i的第Z种走法中第r步对应的更新后的边权重;H6:将随机游走步数增加一步,并执行H3;H7:利用下述随机游走权重计算公式,计算当前节点属性值到目标节点属性值的随机游走权重;
随机游走权重计算公式:
其中,SQeg表征当前节点属性值e到目标节点属性值g的随机游走权重;Seg(i)表征从当前节点属性值e经过随机游走步数i到目标节点属性值g的随机游走子权重;w表征随机游走阈值;H8:判断当前无向加权图中所有节点属性值是否均被选定过成为目标节点属性值,如果是,则执行H9;否则,执行H10;H9:结束当前流程;H10:从未被选定过的剩余节点属性值中,选定一个节点属性值作为目标节点属性值,并执行H2。
在本发明另一实施例中,属性值聚类单元903,用于对更新后的当前无向加权图中的节点属性值进行升序排序;将升序排列结果中的第k个节点属性值到第f个节点属性值的随机游走权重,写入新的转移矩阵中第k行第f列,其中,k和f均为正整数,且k和f均不大于升序排列结果中节点属性值的总个数。
在本发明另一实施例中,属性值聚类单元903,用于对所述当前无向加权图中的节点属性值进行升序排序,其中,升序排列结果与新的转移矩阵中的行相对应;利用下述相似度计算公式,计算相似度矩阵;
相似度矩阵计算公式组:
其中,J(α)表征升序排列结果中排列在第α个的节点属性值,升序排列结果中排列在第α个的节点属性值与新的转移矩阵中的第α行相对应;J(β)表征升序排列结果中排列在第β个的节点属性值,在升序排列结果中排列在第β个的节点属性值与新的转移矩阵中的第β行相对应;fw(J(α),J(β))表征相似度矩阵中第α行第β列对应的值,也即节点属性值J(α)与节点属性值J(β)的相似度;w表征随机游走的随机游走阈值;θ表征新的转移矩阵中第θ列;μ表征新的转移矩阵的总列数;Xαθ表征在新的转移矩阵中第α行第θ列对应的值;Yβθ表征在新的转移矩阵中第β行第θ列对应的值。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。
综上所述,本发明以上各个实施例至少具有如下有益效果:
1、在本发明实施例中,通过将样本集合中样本的属性值转换为符号型属性值;确定样本集合中每一个样本包含的标签;基于标签和符号型属性值,为同一类的符号型属性值构建无向加权图;基于随机游走,对无向加权图进行聚类,实现了为每个标签下的属性值进行划分,由于影响分类的除了标签还有属性值,因此,基于划分的属性值,能够使分类更加准确。
2、在本发明实施例中,通过针对每一个样本,执行:将样本对应的所有标签,关联至样本对应的每一个符号型属性值;根据关联的结果,为同一类的符号型属性值构建无向加权图,实现了基于标签对同一类的属性值构建无向加权图。
3、在本发明实施例中,通过基于随机游走的方式,对无向加权图中的边权重经过计算转移矩阵、新的转移矩阵以及相似度矩阵等,实现了增大无向加权图中边权重的差异,使得边权重差异更加明显,从而保证划分或聚类更加准确。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于随机游走的多标签属性值划分方法,其特征在于,包括:
将样本集合中样本的属性值转换为符号型属性值;
确定所述样本集合中每一个所述样本包含的标签;
基于所述标签和所述符号型属性值,为同一类的所述符号型属性值构建无向加权图;
基于随机游走,对所述无向加权图进行聚类。
2.根据权利要求1所述的基于随机游走的多标签属性值划分方法,其特征在于,在所述确定所述样本集合中每一个所述样本包含的标签之后,在所述为同一类的所述符号型属性值构建无向加权图之前,进一步包括:
针对每一个所述样本,执行:将所述样本对应的所有标签,关联至所述样本对应的每一个所述符号型属性值;
所述为同一类的所述符号型属性值构建无向加权图,包括:
根据关联的结果,为同一类的所述符号型属性值构建无向加权图。
3.根据权利要求2所述的基于随机游走的多标签属性值划分方法,其特征在于,所述根据关联的结果,为同一类的所述符号型属性值构建无向加权图,包括:
针对同一类的所述符号型属性值,执行:
初始化无向加权图;
从所述样本集合包含的所有的所述标签中,选定一个标签为当前标签,并循环执行下述N1至N8;
N1:确定所述当前标签关联的目标符号型属性值;
N2:计算所述目标符号型属性值的初始概率,并为所述目标符号型属性值去重,当去重后的目标符号型属性值的个数的大于预设数量时,执行N3,当去重后的目标符号型属性值的个数不大于预设数量时,执行N4;
N3:按照所述初始概率的降序顺序,从去重后的目标符号型属性值中,为所述初始化无向加权图选定预设数量的节点属性值,其中,所述预设数量不小于3,并执行N5;
N4:将去重后的目标符号型属性值直接作为节点属性值;
N5:判断选定的所述节点属性值是否已经存在于所述无向加权图中,如果是,则执行N7;否则,执行N6;
N6:将所述节点属性值添加到所述无向加权图中;
N7:计算与所述当前标签相关的每两个所述节点属性值之间的边权重,并将所述边权重添加到所述无向加权图中;
N8:判断所述样本集合包含的所有的标签中是否存在未被选定过的标签,如果是,则从未被选定过的标签中,选定一个标签为当前标签,执行N1;否则,结束循环流程。
4.根据权利要求3所述的基于随机游走的多标签属性值划分方法,其特征在于,
所述计算所述目标符号型属性值的初始概率,包括:
利用下述初始概率计算公式,计算所述目标符号型属性值的初始概率,
初始概率计算公式
其中,Pd(t)表征当前标签d关联的目标符号型属性值t的初始概率;ct表征在当前标签d下,目标符号型属性值t出现的次数;Cd表征当前标签d关联的目标符号型属性值的总个数;
和/或,
所述计算与所述当前标签相关的每两个所述节点属性值之间的边权重,包括:
利用下述边权重计算公式,计算与所述当前标签相关的每两个所述节点属性值之间的边权重;
所述边权重计算公式:
Q(vu)n=Q(vu)n-1+Pd(v)×Pd(u)
其中,Q(tu)n表征与所述当前标签相关的两个目标符号型属性值v和u分别对应的节点属性值在所述无向加权图中第n次出现时,v和u分别对应的节点属性值之间的边权重;Pd(v)表征当前标签关联的目标符号型属性值v的初始概率;Pd(u)表征当前标签关联的目标符号型属性值u的初始概率,且,当n=1时,Q(vu)n-1=0。
5.根据权利要求1所述的基于随机游走的多标签属性值划分方法,其特征在于,所述基于随机游走,对所述无向加权图进行聚类,包括:
M1:统计随机游走的循环次数,判断所述循环次数是否大于所述循环阈值,如果是,则执行M2,否则,执行M3;
M2:退出循环,并执行M7;
M3:根据当前无向加权图中的节点属性值以及每两个节点属性值之间的边权重,计算所述当前无向加权图对应的转移矩阵;
M4:基于随机游走和所述转移矩阵,计算新的转移矩阵;
M5:根据所述当前无向加权图以及所述新的转移矩阵,计算相似度矩阵;
M6:利用所述相似度矩阵,更新所述当前无向加权图中的边权重,将更新后的当前无向加权图作为当前无向加权图,并将所述循环次数加1,执行M1;
M7:将所述当前无向加权图中,边权重不小于分隔阈值的节点属性值划分为同一类。
6.根据权利要求5所述的基于随机游走的多标签属性值划分方法,其特征在于,所述基于随机游走和所述转移矩阵,计算新的转移矩阵,包括:
利用所述转移矩阵,更新所述当前无向加权图中的边权重;
将更新后的当前无向加权图中的每一个节点属性值作为当前节点属性值,执行:
控制随机游走的步数不大于预设的随机游走阈值;
基于随机游走,计算所述当前节点属性值到每一个节点属性值的随机游走权重;
利用计算得到的所有随机游走权重,组成新的转移矩阵。
7.根据权利要求5所述的基于随机游走的多标签属性值划分方法,其特征在于,所述计算所述当前无向加权图对应的转移矩阵,包括:
对所述当前无向加权图中的节点属性值进行升序排序;
利用升序排列结果、相邻两个节点属性值之间的边权重和下述转移矩阵计算公式组,计算所述当前无向加权图对应的转移矩阵;
所述转移矩阵计算公式组:
其中,J(a)表征升序排列结果中排列在第a个的节点属性值;J(b)表征升序排列结果中排列在第b个的节点属性值;Kab表征转移矩阵中的第a行第b列对应的值;QJ(a)J(b)表征在当前无向加权图中J(a)与J(b)之间的边权重;QJ(a)表征与J(a)相关的所有边权重之和。
8.根据权利要求6所述的基于随机游走的多标签属性值划分方法,其特征在于,
所述基于随机游走,计算所述当前节点属性值到所述当前无向加权图中的每一个节点属性值的随机游走权重,包括:
H1:从所述当前无向加权图中选定一个节点属性值作为目标节点属性值;
H2:初始化随机游走步数;
H3:判断所述随机游走步数是否大于所述随机游走阈值,如果是,则执行H4;否则,执行H5;
H4:结束循环,并执行H7;
H5:利用下述随机游走子权重计算公式,计算所述当前节点属性值经过所述随机游走步数到所述目标节点属性值的随机游走子权重;
所述随机游走子权重计算公式:
其中,Z表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数的第Z种走法;i表征所述随机游走步数;y表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数的走法总数;Seg(i)表征从所述当前节点属性值e经过所述随机游走步数i到所述目标节点属性值g的随机游走子权重;r表征所述随机游走步数i中的第r步;表征从所述当前节点属性值e到所述目标节点属性值g满足随机游走步数i的第Z种走法中第r步对应的更新后的边权重;
H6:将所述随机游走步数增加一步,并执行H3;
H7:利用下述随机游走权重计算公式,计算所述当前节点属性值到所述目标节点属性值的随机游走权重;
所述随机游走权重计算公式:
其中,SQeg表征所述当前节点属性值e到所述目标节点属性值g的随机游走权重;Seg(i)表征从所述当前节点属性值e经过所述随机游走步数i到所述目标节点属性值g的随机游走子权重;w表征所述随机游走阈值;
H8:判断所述当前无向加权图中所有节点属性值是否均被选定过成为目标节点属性值,如果是,则执行H9;否则,执行H10;
H9:结束当前流程;
H10:从未被选定过的剩余节点属性值中,选定一个节点属性值作为目标节点属性值,并执行H2;
和/或,
所述利用计算得到的所有随机游走权重,组成新的转移矩阵,包括:
对更新后的当前无向加权图中的节点属性值进行升序排序;
将升序排列结果中的第k个节点属性值到第f个节点属性值的随机游走权重,写入新的转移矩阵中第k行第f列,其中,k和f均为正整数,且k和f均不大于升序排列结果中节点属性值的总个数。
9.根据权利要求5至8任一所述的基于随机游走的多标签属性值划分方法,其特征在于,所述根据所述当前无向加权图以及所述新的转移矩阵,计算相似度矩阵,包括:
对所述当前无向加权图中的节点属性值进行升序排序,其中,升序排列结果与新的转移矩阵中的行相对应;
利用下述相似度计算公式,计算相似度矩阵;
所述相似度矩阵计算公式组:
其中,J(α)表征升序排列结果中排列在第α个的节点属性值,升序排列结果中排列在第α个的节点属性值与新的转移矩阵中的第α行相对应;J(β)表征升序排列结果中排列在第β个的节点属性值,在升序排列结果中排列在第β个的节点属性值与新的转移矩阵中的第β行相对应;fw(J(α),J(β))表征相似度矩阵中第α行第β列对应的值,也即节点属性值J(α)与节点属性值J(β)的相似度;w表征随机游走的随机游走阈值;θ表征新的转移矩阵中第θ列;μ表征新的转移矩阵的总列数;Xαθ表征在新的转移矩阵中第α行第θ列对应的值;Yβθ表征在新的转移矩阵中第β行第θ列对应的值。
10.一种基于随机游走的多标签属性值划分装置,其特征在于,包括:转换单元、无向加权图构建单元以及属性值聚类单元,其中,
所述转换单元,用于将样本集合中样本的属性转换为符号型属性值;
所述无向加权图构建单元,用于确定所述样本集合中每一个所述样本包含的标签,基于每一个所述样本包含的标签和所述转换单元转换出的所述符号型属性值,为同一类的所述符号型属性值构建无向加权图;
所述属性值聚类单元,用于基于随机游走,对所述无向加权图构建单元构建出的所述无向加权图进行聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910271878.1A CN109934306A (zh) | 2019-04-04 | 2019-04-04 | 基于随机游走的多标签属性值划分方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910271878.1A CN109934306A (zh) | 2019-04-04 | 2019-04-04 | 基于随机游走的多标签属性值划分方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109934306A true CN109934306A (zh) | 2019-06-25 |
Family
ID=66989439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910271878.1A Pending CN109934306A (zh) | 2019-04-04 | 2019-04-04 | 基于随机游走的多标签属性值划分方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934306A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596924A (zh) * | 2020-06-18 | 2020-08-28 | 南方电网科学研究院有限责任公司 | 一种微服务划分方法和装置 |
US10776334B2 (en) | 2017-10-10 | 2020-09-15 | Alibaba Group Holding Limited | Random walking and cluster-based random walking method, apparatus and device |
CN112148822A (zh) * | 2020-08-28 | 2020-12-29 | 中国地质大学(武汉) | 一种细粒度属性加权方法及系统 |
US10901971B2 (en) | 2017-10-10 | 2021-01-26 | Advanced New Technologies Co., Ltd. | Random walking and cluster-based random walking method, apparatus and device |
WO2022179384A1 (zh) * | 2021-02-26 | 2022-09-01 | 山东英信计算机技术有限公司 | 一种社交群体的划分方法、划分系统及相关装置 |
-
2019
- 2019-04-04 CN CN201910271878.1A patent/CN109934306A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10776334B2 (en) | 2017-10-10 | 2020-09-15 | Alibaba Group Holding Limited | Random walking and cluster-based random walking method, apparatus and device |
US10901971B2 (en) | 2017-10-10 | 2021-01-26 | Advanced New Technologies Co., Ltd. | Random walking and cluster-based random walking method, apparatus and device |
CN111596924A (zh) * | 2020-06-18 | 2020-08-28 | 南方电网科学研究院有限责任公司 | 一种微服务划分方法和装置 |
CN111596924B (zh) * | 2020-06-18 | 2023-08-08 | 南方电网科学研究院有限责任公司 | 一种微服务划分方法和装置 |
CN112148822A (zh) * | 2020-08-28 | 2020-12-29 | 中国地质大学(武汉) | 一种细粒度属性加权方法及系统 |
CN112148822B (zh) * | 2020-08-28 | 2024-04-19 | 中国地质大学(武汉) | 一种细粒度属性加权方法及系统 |
WO2022179384A1 (zh) * | 2021-02-26 | 2022-09-01 | 山东英信计算机技术有限公司 | 一种社交群体的划分方法、划分系统及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934306A (zh) | 基于随机游走的多标签属性值划分方法和装置 | |
CN110210486B (zh) | 一种基于素描标注信息的生成对抗迁移学习方法 | |
Gaertler | Clustering | |
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
CN110781933B (zh) | 一种用于理解图卷积神经网络的可视分析方法 | |
CN107391512B (zh) | 知识图谱预测的方法和装置 | |
CN103258210B (zh) | 一种基于字典学习的高清图像分类方法 | |
CN105446988B (zh) | 预测类别的方法和装置 | |
CN106611052A (zh) | 文本标签的确定方法及装置 | |
CN110378366A (zh) | 一种基于耦合知识迁移的跨域图像分类方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN105046269B (zh) | 一种基于多核融合的多示例多标签场景分类方法 | |
CN106778832A (zh) | 基于多目标优化的高维数据半监督集成分类方法 | |
CN110362723A (zh) | 一种题目特征表示方法、装置及存储介质 | |
CN108681585A (zh) | 一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法 | |
CN105260746B (zh) | 一种可扩展的多层集成多标记学习系统 | |
CN103971136A (zh) | 一种面向大规模数据的并行结构化支持向量机分类方法 | |
CN110188825A (zh) | 基于离散多视图聚类的图像聚类方法、系统、设备及介质 | |
CN110472062A (zh) | 识别命名实体的方法及装置 | |
CN111275114A (zh) | 一种sdn架构下的基于集成学习的网络资质图片鉴别方法 | |
CN106156857B (zh) | 变分推理的数据初始化的方法和装置 | |
CN107451617A (zh) | 一种图转导半监督分类方法 | |
CN106897388A (zh) | 预测微博事件热度的方法及装置 | |
CN109448842A (zh) | 人体肠道微生态失衡的确定方法、装置及电子设备 | |
CN108388769A (zh) | 基于边驱动的标签传播算法的蛋白质功能模块识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |
|
RJ01 | Rejection of invention patent application after publication |