CN116776175B - 一种基于层次聚类的数据标签体系构建方法及系统 - Google Patents
一种基于层次聚类的数据标签体系构建方法及系统 Download PDFInfo
- Publication number
- CN116776175B CN116776175B CN202311069209.9A CN202311069209A CN116776175B CN 116776175 B CN116776175 B CN 116776175B CN 202311069209 A CN202311069209 A CN 202311069209A CN 116776175 B CN116776175 B CN 116776175B
- Authority
- CN
- China
- Prior art keywords
- data
- node
- sub
- graph
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005192 partition Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 241000282414 Homo sapiens Species 0.000 description 34
- 238000011160 research Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000000686 essence Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 244000020998 Acacia farnesiana Species 0.000 description 1
- 241001235534 Graphis <ascomycete fungus> Species 0.000 description 1
- 235000010643 Leucaena leucocephala Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及数据处理技术领域,公开了一种基于层次聚类的数据标签体系构建方法及系统,该方法,基于现实环境数据中梳理出的数据对象、数据对象之间的关系,抽取出子数据属性,然后将子数据属性抽象为图结构,再运用层次聚类算法对图结构进行自动聚类,生成子数据标签类目体系。本发明解决了现有技术存在的以下问题:数据孤岛、烟囱林立现象较为普遍,难以实现各业务领域数据灵活流转及按需组合应用等问题。
Description
技术领域
本发明涉及数据处理技术领域,具体是一种基于层次聚类的数据标签体系构建方法及系统。
背景技术
随着信息技术的快速发展,数据的使用已从“自生自用”、“自生他用”逐渐演化为“共生共用”的模式。在这个万物互联的时代,数据成为了人类文明史上继蒸汽和电力之后的第三种重要能源,是人类进入数字文明时代的主要推动力,具有改变社会、改变未来的深远意义。谁能掌握数据,谁能灵活用好数据,谁就能在这个“未来已来,一切重构”的时代中立足。
受制于各个阶段信息化的发展,在当下以满足业务自身管理需求为主线,未考虑数据综合应用场景的传统信息系统较多,这导致了数据孤岛、烟囱林立现象较为普遍,给管好数据、用好数据带来较大困难。就以某科研院所信息化发展为例,目前已在其科研、试验、管理等领域建设了大大小小的信息系统上百个,它们彼此之间相互割裂,数据共享困难,数据再利用工程变得遥不可及,更无法谈及决策智能。按照谷歌首席决策科学家CassieKozyrkov 对决策智能的描述,它是一门涉及在选项之间进行选择的所有方面的新学科,它将应用决策理论、数据科学、社会科学和管理科学的精华汇集到一个统一的领域,帮助人们使用数据来改善他们的生活、他们的业务和他们的世界。而决策科学更加关注根据可用信息做出最佳选择,数据科学更加关注使用科学的方法、流程、算法和系统从嘈杂的结构化和非结构化数据中提取知识和见解,并将知识和可操作的见解从数据中应用到广泛的应用领域。
因此,在实践数字化转型落地中,首当其中的就是要考虑数据和打通各类业务系统间的数据链,使得数据信息共享变成可能,为数据共生共用创造基本条件。人力资源数据作为以人为核心的信息资源基础,是打通各业务活动域信息系统的纽带与桥梁。
发明内容
为克服现有技术的不足,本发明提供了一种基于层次聚类的人力数据标签体系构建方法及系统,解决现有技术存在的以下问题:数据孤岛、烟囱林立现象较为普遍,难以实现各业务领域数据灵活流转及按需组合应用等问题。
本发明解决上述问题所采用的技术方案是:
一种基于层次聚类的数据标签体系构建方法,基于现实环境数据中梳理出的数据对象、数据对象之间的关系,抽取出子数据属性,然后将子数据属性抽象为图结构,再运用层次聚类算法对图结构进行自动聚类,生成子数据标签类目体系。
作为一种优选的技术方案,包括以下步骤:
S1,数据类目体系构建:对现实环境中的数据进行梳理,确定数据对象,从真实环境中识别出不同类别的数据对象,并建立数据对象之间的关系,基于数据对象及数据对象之间的关系生成数据类目体系;
S2,子数据类目体系构建:以数据对象属性为依据,从数据类目体系中抽取出设定类别的数据对象及设定类别的数据对象之间的关系,生成子数据类目体系;
S3,子数据属性表构建:对子数据类目体系中的数据对象属性进行编号,生成包括子数据类目及其对应子数据属性的子数据属性表;
S4,图结构构建:将子数据属性表抽象为图结构;
S5,层次聚类:运用层次聚类算法,对图结构进行自动聚类,生成子数据标签类目体系。
作为一种优选的技术方案,步骤S4中,将子数据属性表抽象为具有K个层次的分层图结构;其中,K≥2。
作为一种优选的技术方案,步骤S4中,K=2,两个层次的分层图结构表达式为:;
式中,
,
,
,
,
,
,
=/>;
其中,表示一个图,/>表示/>的一个分割,/>表示为将图/>划分为/>个子图后将各个子图向上抽象为有连接特征的图结构,/>表示图/>节点集,/>表示图/>边集合,/>表示图/>各条边的权重集合,/>表示一个节点,/>表示另一个节点,/>表示子图数量,/>表示层编号,/>表示图/>划分为/>个子图后向上抽象形成的第二层的图结构,/>表示第/>个分割的节点集,/>表示第/>个分割的边集,/>表示第/>个分割的各条边的权重集合,/>为/>中的元素,/>表示第/>个分割的链路/>的代价,/>分别表示将第/>层划分为/>个子图,/>分别表示将第/>层划分为/>个子图后各子图的顶点集,/>分别表示将第/>层划分为/>个子图后各子图的边集。
作为一种优选的技术方案,步骤S4中,
,
,
;
其中,表示第/>层子图/>中节点i到节点j的最短路径,/>表示/>的一阶导数,节点/>在第/>层中所属的子图用/>表示,节点/>在第/>层中所属的子图用/>表示,/>表示一个子图编号,/>表示另一个子图编号,/>表示连接邻接子图/>和/>的链路集合,/>表示子图/>内链路的集合,/>表示图G划分为个子图后形成的边界节点集,/>表示图G划分为/>个子图后形成的公共链路集,/>表示图G划分为/>个子图后形成的内部链路集,/>为同节点判定函数,/>用于判断节点i和节点j在第/>层子图中是否为同一节点,当/>是同一节点时/>函数值等于1,否则/>函数值为0。
作为一种优选的技术方案,步骤S5包括以下步骤:
S51,初始化:将人力标签抽象为一个无向图,并将所有节点作为子网划分的候选节点集,计算图中各个节点的度,并将节点按度的值从大到小排序;
S52,通过拓扑结构,构建邻接矩阵;
S53,通过邻接矩阵及图的信息,计算节点间的相似度;
S54,根据相似度从弱到强,逐步删除节点对之间的边,根据需求设定停止删除的条件,得到连通子图;
S55,将步骤S54得到的每个连通子图构成分裂的子集;
S56,从节点集中选择度数最大的节点及其所在的连通子图作为基本子图,将度数最大的节点从节点集中移除,并在节点集中选择与基本子图有直接连接关系的节点进行扩展;
S57,在节点集中选择与连通子图中现有节点直接相连的节点,判断各个节点与该连通子图内的节点直接相连的边数是否大于与该连通子图外直接相连的边数,若大于,则将相应的节点加入该连通子图,并从节点集中移除;否则,该节点不被划入当前连通子图;重复判断过程,直到不再有度最大的节点加入当前连通子图,或者连通子图节点数达到规定的上限值;
S58,重复步骤S56、步骤S57,直到所有节点都被划入对应的连通子图。
作为一种优选的技术方案,S51中,各个节点的度的计算公式为:
;
其中,表示节点的度,/>表示链路判断值,若节点/>和节点/>之间存在链路,则/>;否则,/>。
作为一种优选的技术方案,S53中,节点间的相似度的计算公式为:
;
式中,
,
,
;
其中,表示节点/>与节点/>之间的相似度,/>表示节点/>的邻接节点集合,表示节点/>的邻接节点集合,/>表示节点/>的邻接节点集合中的一个节点,/>表示节点/>的邻接节点集合中的一个节点,/>表示节点i与节点j之间有边相连,所以在邻接矩阵A中元素/>取值为1。
作为一种优选的技术方案,子数据为人力资源数据,数据对象的类别包括人、物,数据对象之间的关系包括人与人、人与物、物与物发生的连接。
一种基于层次聚类的数据标签体系构建系统,用于实现所述的一种基于层次聚类的数据标签体系构建方法,包括依次相连的以下模块:
数据类目体系构建模块:用以,对现实环境中的数据进行梳理,确定数据对象,从真实环境中识别出不同类别的数据对象,并建立数据对象之间的关系,基于数据对象及数据对象之间的关系生成数据类目体系;
子数据类目体系构建模块:用以,以数据对象属性为依据,从数据类目体系中抽取出设定类别的数据对象及设定类别的数据对象之间的关系,生成子数据类目体系;
子数据属性表构建模块:用以,对子数据类目体系中的数据对象属性进行编号,生成包括子数据类目及其对应子数据属性的子数据属性表;
图结构构建模块:用以,将子数据属性表抽象为图结构;
层次聚类模块:用以,运用层次聚类算法,对图结构进行自动聚类,生成子数据标签类目体系。
本发明相比于现有技术,具有以下有益效果:
(1)实现数据对象的灵活抽取与按需组合应用,将数据对象从实体数据库中抽象出来,打上标签,解决现实问题中普遍存在的各业务领域应用系统独立,数据割裂,共性属性重复建设,数据形态各异的问题;
(2)通过对人力数据的属性关系进行图结构的抽象,然后运用机器学习算法对属性进行分层分类形成标签簇的划分,形成以人为核心的标签类目体系,为下一步数联网的构建与应用奠定基础。
附图说明
图1为某科研院所数据对象;
图2为某科研院所数据类目体系构成示意图;
图3为某科研院所人力资源数据类目示例;
图4为基于层次聚类的人力标签类目与标签的抽象图结构示意图之一(3层);
图5为图4的第一层部分的细节展示图;
图6为基于层次聚类的人力标签类目与标签的抽象图结构示意图之二(>5层);
图7为层次聚类算法流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图7所示,本发明主要针对某科研院所的人力资源数据设计一种标签类目体系,为人力数据在各业务领域灵活流转、按需组合应用提供基础,并打通以人为核心的各业务数据链。
本发明在人力资源数据标签类目体系分类、设计,以及标签应用等方面,做了开创性工作,其中大量运用了图论中的点集与聚合概念,使得数据的自由抽取与组合变得简单易用。
本发明的基本思路:首先运用思维导图工具设计出人力标签类目体系结构,然后从不同的维度方向延伸细化对象属性;其次,根据人力标签类目体系结构图再进行细分延伸,形成具体的标签设计列表,并为每个标签进行编号,形成散点图;最后运用层次聚类方法,对散点图进行自动分类聚集形成人力资源标签类目体系。
基于层次聚类的人力资源标签体系设计需要解决5个方面的问题:一是对现实环境中的人力资源构成进行详细梳理;二是设计人力资源数据类目体系结构,从不同的维度方向延伸对象的属性;三是对人力资源数据类目和属性进行编号;四是将人力资源数据类目和属性抽象为图结构;五是运用层次聚类算法,对人力资源数据进行自动聚类,形成人力资源标签体系。
具体技术解决方案如下:
1、对现实环境中的人力资源构成进行详细梳理;
对现实环境中的人力资源构成进行详细梳理,确定对象,是抓住问题本质的关键。按照为“人”、“物”、“关系”进行数字映射,将现实世界的事物归属为三大类型对象。人作为发起行为的主体,具有主动性,需要多个维度进行分类梳理;物是行为中被施与的对象,往往是被动的,以业务维度进行分类梳理;关系则是人与人、人与物、物与物在某时刻发生的某种连接,是两两实体间的联系与连接,属于虚拟对象,它包括行为关系、归属关系、思维关系等各种强、弱关系,主要以业务流程为纽带进行强关联。某科研院所数据对象详见图1所示,从科研院所真实环境中识别出各类对象,并建立关系。例如,以人为核心的对象按照管理维度分可为管理者、科技人员和协作单位人员,以物为核心的对象按业务维度可分为科学研究项目、科学试验项目、科研试验设备,以及人与物的基础上建立的关系,其中包括科学研究、科学试验、科研设备采购、科研设备建设、科研设备运维及办公等。
某科研院所数据类目体系构成详见图2所示,按照三个维度进行梳理,分别是以“人”的维度组织的数据、以“物”的维度组织的数据和以“流程”的维度组织的数据(即人与人,人与物及物与物发生的关系所产生的数据)。
2、设计人力资源数据类目体系结构;
按“人”的维度组织的数据,具体详见图3所示,划分为管理者、科技人员和外协单位人员,管理者又进一步细分为行政管理者和业务管理者,科技人员按职称维度又可分为研究员、副研究员、助理研究员、正高级工程师、工程师、助理工程师、高级讲师、讲师、助教等,又可以按人员类型维度分为特种类型1、特种类型2、特种类型3、职工、聘用等。按“人”的维度组织的数据都有其共性特征属性,将这部分共性特征属性抽取出可进一步划分为基本属性、工作属性、教育属性、履历属性、社会关系属性、住房属性、车辆属性、健康属性、科研属性等,在上述大类属性类目下沉梳理至各个对象所包含的属性集,即可以进一步细分至字段级的属性。
3、对人力资源数据类目和属性进行编号;
对人力资源数据类目和属性进行编号,生成人力资源属性表,详见表1所示。
表1 人力资源属性表
4、将人力资源数据类目和属性抽象为图结构;
按照人力资源属性表,将标签类目和标签抽象为基于层次聚类的图结构,详见图4、图5所示。
将人力数据资源属性(即标签)抽象为一个图G(V,E,W),其中V表示节点集,表示边集合。/>表示存在连接关系的各条边(链路)的权重集合。/>是通过代价函数/>计算出链路/>的代价。假设图G(V,E,W)在第l层被分割为p个子图,子图表示为/>,其中/>,/>。对每个节点i,在第l层网络中所属的子图表示为/>。对任意两个网络节点i,j,如果/>,,/>,则/>。
给出一个图的一个划分/>,则有如下结论成立:
(1)
(2)
其中,。如果节点i和节点j之间存在一条链路,则节点i被称为节点j的邻接节点。节点i的邻接节点集定义为:/>。对任意节点/>,如果存在一个节点/>,节点i被称为子图/>的边界节点。子图/>的边界节点集表示为/>。如果/>,其中,并且/>,则称子图/>和子图/>邻接。
给定一个图的一个划分/>,连接邻接子图/>和/>的链路集合被称为公共链路集,表示为:
(3)
给定一个图的一个划分/>,子网/>内链路的集合定义为/>,代价函数/>表示子图/>中节点i到节点j的最短路径。每个子图是由其边界节点构成的完全图,即任意边界节点直接都有直接相连的链路。链路的权重为子图中两边界节点之间最短路径长度的值,如果两个边界节点之间不存在路径,则链路权重为无穷大。
给定一个图的一个划分/>,可将P的划分定义为图结构/>,/>为将图/>划分为个/>个子图后向上抽象形成的更高层次的划分。
P的节点集定义为,边集定义为/>,任意链路/>的权重定义为/>,具体数学表达如下:
(4)
(5)
(6)
公式(6)中,当时,/>函数值等于1,否则/>函数值为0。这样/>一起构成了一个两层图模型。这样的定义可以扩展到K层的分层图模型,表达式为:,如图6所示。第l层的子图可表示为/>,其中代表第l层的子图数。
5、运用层次聚类算法,对标签进行自动聚类。
如图7所示,自动聚类步骤如下:
(1)初始化:将人力标签抽象为一个无向图,并将所有节点作为子网划分的候选节点集,计算图中各个节点的度,并将节点按度的值从大到小排序。
节点的度定义为:/>
(7)
当节点和节点/>之间有链路存在时,/>;否则,/>。
(2)人力数据属性关系可抽象为拓扑结构,以此建立属性关系的邻接矩阵。
邻接矩阵能采用数学方式,通过描述节点与节点间是否存在边来构建,能更好地表达图中顶点间的关系。
(3)通过邻接矩阵,及图中的链路、节点等基本信息,求出各节点间的相似度。
相似度用于度量两个节点对之间连接的紧密程度。对于节点对(i,j),如果i节点可以通过它们的邻接节点发送消息到节点j,那么它们共同的邻接节点就越多,或者连接它们邻接节点之间的链路数越多,两节点之间的相似度就应该越大。
将图中节点的邻接节点集合定义为/>,并且/>,用数学表达为:
(8)
其中。共享邻接矩阵定义为/>,矩阵各元素定义为/>(即相似度)(9)
(4)根据相似度从弱到强,逐步删除节点对之间的边,根据需求设定停止删除的条件。
(5)第(4)步完成后得到的每个连通子图构成分裂的子集。
(6)从节点集中选择第一个节点(即度数最大的节点)及该节点所在的连通子图作为基本子图,度最大的节点和所在连通子图的其他节点构成了基本集,将第一个度数最大的节点及其所在的连通子图构成的基本集从节点集中移除,然后从节点集中选择不属于基本集的邻接点来进行扩展;
(7)从节点集中选择不属于基本集,且与基本集中现有节点有直接相连关系的邻接点,分别计算邻接点在基本集内的邻接点数与在基本集外的邻接点数,然后判断邻接点在基本集内的邻接点数是否大于在基本集外的邻接点数,若大于,则将该节点加入当前基本集,并从节点集中移除;否则,该节点不被划入当前基本集。重复此操作,直到不再有相应的节点加入当前子图,或者子图节点数达到规定的上限值。
(8)重复第(6)步,第(7)步,直到所有节点都被划入相应的子图。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (5)
1.一种基于层次聚类的数据标签体系构建方法,其特征在于,基于现实环境数据中梳理出的数据对象、数据对象之间的关系,抽取出子数据属性,然后将子数据属性抽象为图结构,再运用层次聚类算法对图结构进行自动聚类,生成子数据标签类目体系;
包括以下步骤:
S1,数据类目体系构建:对现实环境中的数据进行梳理,确定数据对象,从真实环境中识别出不同类别的数据对象,并建立数据对象之间的关系,基于数据对象及数据对象之间的关系生成数据类目体系;其中,数据对象之间的关系是人与人、人与物或物与物两两实体间的连接,数据对象之间的关系包括行为关系、归属关系、思维关系;
S2,子数据类目体系构建:以数据对象属性为依据,从数据类目体系中抽取出设定类别的数据对象及设定类别的数据对象之间的关系,生成子数据类目体系;
S3,子数据属性表构建:对子数据类目体系中的数据对象属性进行编号,生成包括子数据类目及其对应子数据属性的子数据属性表;
S4,图结构构建:将子数据属性表抽象为图结构;
S5,层次聚类:运用层次聚类算法,对图结构进行自动聚类,生成子数据标签类目体系;
步骤S4中,将子数据属性表抽象为具有两个层次的分层图结构,两个层次的分层图结构表达式为:;
式中,
,
,
,
,
,
,
=/>;
其中,表示一个图,/>表示/>的一个分割,/>表示为将图/>划分为/>个子图后将各个子图向上抽象为有连接特征的图结构,/>表示图/>节点集,/>表示图/>边集合,/>表示图/>各条边的权重集合,/>表示一个节点,/>表示另一个节点,/>表示子图数量,/>表示层编号,/>表示图/>划分为/>个子图后向上抽象形成的第二层的图结构,/>表示第个分割的节点集,/>表示第/>个分割的边集,/>表示第/>个分割的各条边的权重集合,为/>中的元素,/>表示第/>个分割的链路/>的代价,/>分别表示将第/>层划分为/>个子图,/>分别表示将第/>层划分为/>个子图后各子图的顶点集,分别表示将第/>层划分为/>个子图后各子图的边集;
步骤S5包括以下步骤:
S51,初始化:将人力标签抽象为一个无向图,并将所有节点作为子图划分的候选节点集,计算图中各个节点的度,并将节点按度的值从大到小排序;
S52,通过拓扑结构,构建邻接矩阵;
S53,通过邻接矩阵及图的信息,计算节点间的相似度;
S54,根据相似度从弱到强,逐步删除节点对之间的边,根据需求设定停止删除的条件,得到连通子图;
S55,将步骤S54得到的每个连通子图构成分裂的子集;
S56,从节点集中选择度数最大的节点及其所在的连通子图作为基本子图,将度数最大的节点从节点集中移除,并在节点集中选择与基本子图有直接连接关系的节点进行扩展;
S57,在节点集中选择与连通子图中现有节点直接相连的节点,判断各个节点与该连通子图内的节点直接相连的边数是否大于与该连通子图外直接相连的边数,若大于,则将相应的节点加入该连通子图,并从节点集中移除;否则,该节点不被划入当前连通子图;重复判断过程,直到不再有度最大的节点加入当前连通子图,或者连通子图节点数达到规定的上限值;
S58,重复步骤S56、步骤S57,直到所有节点都被划入对应的连通子图。
2.根据权利要求1所述的一种基于层次聚类的数据标签体系构建方法,其特征在于,步骤S4中,
,
,
;
其中,表示第/>层子图/>中节点i到节点j的最短路径,/>表示/>的一阶导数,节点/>在第/>层中所属的子图用/>表示,节点/>在第/>层中所属的子图用/>表示,/>表示一个子图编号,/>表示另一个子图编号,/>表示连接邻接子图/>和/>的链路集合,/>表示子图/>内链路的集合,/>表示图G划分为/>个子图后形成的边界节点集,/>表示图G划分为/>个子图后形成的公共链路集,/>表示图G划分为/>个子图后形成的内部链路集,/>为同节点判定函数,/>用于判断节点i和节点j在第/>层子图中是否为同一节点,当/>是同一节点时/>函数值等于1,否则/>函数值为0。
3.根据权利要求2所述的一种基于层次聚类的数据标签体系构建方法,其特征在于,S51中,各个节点的度的计算公式为:
;
其中,表示节点的度,/>表示链路判断值,若节点/>和节点/>之间存在链路,则/>;否则,/>。
4.根据权利要求3所述的一种基于层次聚类的数据标签体系构建方法,其特征在于,S53中,节点间的相似度的计算公式为:
;
式中,
,
,
;
其中,表示节点/>与节点/>之间的相似度,/>表示节点/>的邻接节点集合,表示节点/>的邻接节点集合,/>表示节点/>的邻接节点集合中的一个节点,/>表示节点/>的邻接节点集合中的一个节点,/>表示节点i与节点j之间有边相连,所以在邻接矩阵A中元素/>取值为1。
5.一种基于层次聚类的数据标签体系构建系统,其特征在于,用于实现权利要求1至4任一项所述的一种基于层次聚类的数据标签体系构建方法,包括依次相连的以下模块:
数据类目体系构建模块:用以,对现实环境中的数据进行梳理,确定数据对象,从真实环境中识别出不同类别的数据对象,并建立数据对象之间的关系,基于数据对象及数据对象之间的关系生成数据类目体系;
子数据类目体系构建模块:用以,以数据对象属性为依据,从数据类目体系中抽取出设定类别的数据对象及设定类别的数据对象之间的关系,生成子数据类目体系;其中,数据对象之间的关系是人与人、人与物或物与物两两实体间的连接,数据对象之间的关系包括行为关系、归属关系、思维关系;
子数据属性表构建模块:用以,对子数据类目体系中的数据对象属性进行编号,生成包括子数据类目及其对应子数据属性的子数据属性表;
图结构构建模块:用以,将子数据属性表抽象为图结构;
层次聚类模块:用以,运用层次聚类算法,对图结构进行自动聚类,生成子数据标签类目体系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311069209.9A CN116776175B (zh) | 2023-08-24 | 2023-08-24 | 一种基于层次聚类的数据标签体系构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311069209.9A CN116776175B (zh) | 2023-08-24 | 2023-08-24 | 一种基于层次聚类的数据标签体系构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116776175A CN116776175A (zh) | 2023-09-19 |
CN116776175B true CN116776175B (zh) | 2023-11-24 |
Family
ID=88012024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311069209.9A Active CN116776175B (zh) | 2023-08-24 | 2023-08-24 | 一种基于层次聚类的数据标签体系构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116776175B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363797A (zh) * | 2018-01-04 | 2018-08-03 | 北京工商大学 | 一种基于变换的关联图可视分析方法及其系统 |
CN111861771A (zh) * | 2020-06-01 | 2020-10-30 | 上海大学 | 基于动态社交网络属性的多目标优化社区发现系统及方法 |
CN111950594A (zh) * | 2020-07-14 | 2020-11-17 | 北京大学 | 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 |
CN112417308A (zh) * | 2020-12-17 | 2021-02-26 | 国网河北省电力有限公司营销服务中心 | 一种基于电力大数据的用户画像标签生成方法 |
WO2021175302A1 (zh) * | 2020-03-05 | 2021-09-10 | 广州快决测信息科技有限公司 | 一种数据采集方法和系统 |
CN113590607A (zh) * | 2021-09-29 | 2021-11-02 | 国网江苏省电力有限公司营销服务中心 | 一种基于报表因子的电力营销报表实现方法和系统 |
CN114897085A (zh) * | 2022-05-25 | 2022-08-12 | 江苏大学 | 一种基于封闭子图链路预测的聚类方法及计算机设备 |
CN115599917A (zh) * | 2022-10-31 | 2023-01-13 | 盐城工学院(Cn) | 基于改进蝙蝠算法的文本双聚类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418148B2 (en) * | 2012-12-31 | 2016-08-16 | Nuance Communications, Inc. | System and method to label unlabeled data |
-
2023
- 2023-08-24 CN CN202311069209.9A patent/CN116776175B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363797A (zh) * | 2018-01-04 | 2018-08-03 | 北京工商大学 | 一种基于变换的关联图可视分析方法及其系统 |
WO2021175302A1 (zh) * | 2020-03-05 | 2021-09-10 | 广州快决测信息科技有限公司 | 一种数据采集方法和系统 |
CN111861771A (zh) * | 2020-06-01 | 2020-10-30 | 上海大学 | 基于动态社交网络属性的多目标优化社区发现系统及方法 |
CN111950594A (zh) * | 2020-07-14 | 2020-11-17 | 北京大学 | 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 |
CN112417308A (zh) * | 2020-12-17 | 2021-02-26 | 国网河北省电力有限公司营销服务中心 | 一种基于电力大数据的用户画像标签生成方法 |
CN113590607A (zh) * | 2021-09-29 | 2021-11-02 | 国网江苏省电力有限公司营销服务中心 | 一种基于报表因子的电力营销报表实现方法和系统 |
CN114897085A (zh) * | 2022-05-25 | 2022-08-12 | 江苏大学 | 一种基于封闭子图链路预测的聚类方法及计算机设备 |
CN115599917A (zh) * | 2022-10-31 | 2023-01-13 | 盐城工学院(Cn) | 基于改进蝙蝠算法的文本双聚类方法 |
Non-Patent Citations (3)
Title |
---|
Hierarchical clustering of mixed variable panel data based on new distance;Özlem Akay等;Communications in Statistics - Simulation and Computation;第50卷(第6期);1695-1710 * |
Research on Project Group Human Resource Allocation of Construction Enterprises Based on Decision Tree Algorithm;Chenxiang Ma等;2022 2nd International Conference on Networking, Communications and Information Technology (NetCIT);1-4 * |
基于数据挖掘技术的用户负荷特征识别方法研究;张义坤;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑;C042-850 * |
Also Published As
Publication number | Publication date |
---|---|
CN116776175A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112382082B (zh) | 一种拥堵区域交通运行状态预测方法及系统 | |
CN109214599B (zh) | 一种对复杂网络进行链路预测的方法 | |
CN113762595B (zh) | 通行时间预测模型训练方法、通行时间预测方法及设备 | |
CN108319705A (zh) | 一种基于教学资源的个性化教学过程自动生成方法及系统 | |
CN111091005B (zh) | 一种基于元结构的无监督异质网络表示学习方法 | |
CN112685570A (zh) | 一种基于多标签图的电网网架知识图谱的构建方法 | |
CN111260491B (zh) | 发现网络社区结构方法及系统 | |
CN112580902A (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
CN116776175B (zh) | 一种基于层次聚类的数据标签体系构建方法及系统 | |
Schoonenberg et al. | Modeling smart cities with hetero-functional graph theory | |
CN110633394B (zh) | 基于特征加强的图压缩方法 | |
CN116993043A (zh) | 一种电力设备故障溯源方法及装置 | |
Jiang et al. | Dynamic adaptive and adversarial graph convolutional network for traffic forecasting | |
CN114154024A (zh) | 一种基于动态网络属性表示的链接预测方法 | |
Martino et al. | Semantic techniques for discovering architectural patterns in building information models | |
Kaya et al. | Evaluation of Potential Locations for Hydropower Plants by Using a Fuzzy Based Methodology Consists of Two-Dimensional Uncertain Linguistic Variables. | |
CN113392279A (zh) | 基于主观逻辑和前馈神经网络的相似有向子图搜索方法及系统 | |
CN110096506A (zh) | 一种多层需求的树形胞元结构描述及存储方法 | |
CN108363563A (zh) | 基于数据图谱、信息图谱和知识图谱架构的uml模型一致性检测方法 | |
Cai et al. | Learning Bayesian network structure with immune algorithm | |
CN116959745A (zh) | 基于图神经网络的传染病网络关键节点识别方法 | |
Wang | Network Graph Theory and Organization Model Analysis based on Mathematical Modeling with the Dynamic Systematic Data Perspective | |
Liu et al. | BGLL-based attribution overlap community discovery algorithm | |
CN106682443A (zh) | 一种基于格序理论的由蕴含规则重构形式背景的方法 | |
Cloteaux | Extracting hierarchies with overlapping structure from network data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |