CN116776175B

CN116776175B - 一种基于层次聚类的数据标签体系构建方法及系统

Info

Publication number: CN116776175B
Application number: CN202311069209.9A
Authority: CN
Inventors: 付渲理; 明丽洪; 李佳鹏; 侯昱珂; 罗昌俊; 任星倩; 安鹏宇
Original assignee: Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Current assignee: Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-24
Anticipated expiration: 2043-08-24
Also published as: CN116776175A

Abstract

本发明涉及数据处理技术领域，公开了一种基于层次聚类的数据标签体系构建方法及系统，该方法，基于现实环境数据中梳理出的数据对象、数据对象之间的关系，抽取出子数据属性，然后将子数据属性抽象为图结构，再运用层次聚类算法对图结构进行自动聚类，生成子数据标签类目体系。本发明解决了现有技术存在的以下问题：数据孤岛、烟囱林立现象较为普遍，难以实现各业务领域数据灵活流转及按需组合应用等问题。

Description

一种基于层次聚类的数据标签体系构建方法及系统

技术领域

本发明涉及数据处理技术领域，具体是一种基于层次聚类的数据标签体系构建方法及系统。

背景技术

随着信息技术的快速发展，数据的使用已从“自生自用”、“自生他用”逐渐演化为“共生共用”的模式。在这个万物互联的时代，数据成为了人类文明史上继蒸汽和电力之后的第三种重要能源，是人类进入数字文明时代的主要推动力，具有改变社会、改变未来的深远意义。谁能掌握数据，谁能灵活用好数据，谁就能在这个“未来已来，一切重构”的时代中立足。

受制于各个阶段信息化的发展，在当下以满足业务自身管理需求为主线，未考虑数据综合应用场景的传统信息系统较多，这导致了数据孤岛、烟囱林立现象较为普遍，给管好数据、用好数据带来较大困难。就以某科研院所信息化发展为例，目前已在其科研、试验、管理等领域建设了大大小小的信息系统上百个，它们彼此之间相互割裂，数据共享困难，数据再利用工程变得遥不可及，更无法谈及决策智能。按照谷歌首席决策科学家CassieKozyrkov 对决策智能的描述，它是一门涉及在选项之间进行选择的所有方面的新学科，它将应用决策理论、数据科学、社会科学和管理科学的精华汇集到一个统一的领域，帮助人们使用数据来改善他们的生活、他们的业务和他们的世界。而决策科学更加关注根据可用信息做出最佳选择，数据科学更加关注使用科学的方法、流程、算法和系统从嘈杂的结构化和非结构化数据中提取知识和见解，并将知识和可操作的见解从数据中应用到广泛的应用领域。

因此，在实践数字化转型落地中，首当其中的就是要考虑数据和打通各类业务系统间的数据链，使得数据信息共享变成可能，为数据共生共用创造基本条件。人力资源数据作为以人为核心的信息资源基础，是打通各业务活动域信息系统的纽带与桥梁。

发明内容

为克服现有技术的不足，本发明提供了一种基于层次聚类的人力数据标签体系构建方法及系统，解决现有技术存在的以下问题：数据孤岛、烟囱林立现象较为普遍，难以实现各业务领域数据灵活流转及按需组合应用等问题。

本发明解决上述问题所采用的技术方案是：

一种基于层次聚类的数据标签体系构建方法，基于现实环境数据中梳理出的数据对象、数据对象之间的关系，抽取出子数据属性，然后将子数据属性抽象为图结构，再运用层次聚类算法对图结构进行自动聚类，生成子数据标签类目体系。

作为一种优选的技术方案，包括以下步骤：

S1，数据类目体系构建：对现实环境中的数据进行梳理，确定数据对象，从真实环境中识别出不同类别的数据对象，并建立数据对象之间的关系，基于数据对象及数据对象之间的关系生成数据类目体系；

S2，子数据类目体系构建：以数据对象属性为依据，从数据类目体系中抽取出设定类别的数据对象及设定类别的数据对象之间的关系，生成子数据类目体系；

S3，子数据属性表构建：对子数据类目体系中的数据对象属性进行编号，生成包括子数据类目及其对应子数据属性的子数据属性表；

S4，图结构构建：将子数据属性表抽象为图结构；

S5，层次聚类：运用层次聚类算法，对图结构进行自动聚类，生成子数据标签类目体系。

作为一种优选的技术方案，步骤S4中，将子数据属性表抽象为具有K个层次的分层图结构；其中，K≥2。

作为一种优选的技术方案，步骤S4中，K=2，两个层次的分层图结构表达式为:；

式中，

，

=/>；

其中，表示一个图，/>表示/>的一个分割，/>表示为将图/>划分为/>个子图后将各个子图向上抽象为有连接特征的图结构，/>表示图/>节点集，/>表示图/>边集合，/>表示图/>各条边的权重集合，/>表示一个节点，/>表示另一个节点，/>表示子图数量，/>表示层编号，/>表示图/>划分为/>个子图后向上抽象形成的第二层的图结构，/>表示第/>个分割的节点集，/>表示第/>个分割的边集，/>表示第/>个分割的各条边的权重集合，/>为/>中的元素，/>表示第/>个分割的链路/>的代价，/>分别表示将第/>层划分为/>个子图，/>分别表示将第/>层划分为/>个子图后各子图的顶点集，/>分别表示将第/>层划分为/>个子图后各子图的边集。

作为一种优选的技术方案，步骤S4中，

，

；

其中，表示第/>层子图/>中节点i到节点j的最短路径，/>表示/>的一阶导数，节点/>在第/>层中所属的子图用/>表示，节点/>在第/>层中所属的子图用/>表示，/>表示一个子图编号，/>表示另一个子图编号，/>表示连接邻接子图/>和/>的链路集合，/>表示子图/>内链路的集合，/>表示图G划分为个子图后形成的边界节点集，/>表示图G划分为/>个子图后形成的公共链路集，/>表示图G划分为/>个子图后形成的内部链路集，/>为同节点判定函数，/>用于判断节点i和节点j在第/>层子图中是否为同一节点，当/>是同一节点时/>函数值等于1，否则/>函数值为0。

作为一种优选的技术方案，步骤S5包括以下步骤：

S51，初始化：将人力标签抽象为一个无向图，并将所有节点作为子网划分的候选节点集，计算图中各个节点的度，并将节点按度的值从大到小排序；

S52，通过拓扑结构，构建邻接矩阵；

S53，通过邻接矩阵及图的信息，计算节点间的相似度；

S54，根据相似度从弱到强，逐步删除节点对之间的边，根据需求设定停止删除的条件，得到连通子图；

S55，将步骤S54得到的每个连通子图构成分裂的子集；

S56，从节点集中选择度数最大的节点及其所在的连通子图作为基本子图，将度数最大的节点从节点集中移除，并在节点集中选择与基本子图有直接连接关系的节点进行扩展；

S57，在节点集中选择与连通子图中现有节点直接相连的节点，判断各个节点与该连通子图内的节点直接相连的边数是否大于与该连通子图外直接相连的边数，若大于，则将相应的节点加入该连通子图，并从节点集中移除；否则，该节点不被划入当前连通子图；重复判断过程，直到不再有度最大的节点加入当前连通子图，或者连通子图节点数达到规定的上限值；

S58，重复步骤S56、步骤S57，直到所有节点都被划入对应的连通子图。

作为一种优选的技术方案，S51中，各个节点的度的计算公式为：

；

其中，表示节点的度，/>表示链路判断值，若节点/>和节点/>之间存在链路，则/>；否则，/>。

作为一种优选的技术方案，S53中，节点间的相似度的计算公式为：

；

式中，

，

；

其中，表示节点/>与节点/>之间的相似度，/>表示节点/>的邻接节点集合，表示节点/>的邻接节点集合，/>表示节点/>的邻接节点集合中的一个节点，/>表示节点/>的邻接节点集合中的一个节点，/>表示节点i与节点j之间有边相连，所以在邻接矩阵A中元素/>取值为1。

作为一种优选的技术方案，子数据为人力资源数据，数据对象的类别包括人、物，数据对象之间的关系包括人与人、人与物、物与物发生的连接。

一种基于层次聚类的数据标签体系构建系统，用于实现所述的一种基于层次聚类的数据标签体系构建方法，包括依次相连的以下模块：

数据类目体系构建模块：用以，对现实环境中的数据进行梳理，确定数据对象，从真实环境中识别出不同类别的数据对象，并建立数据对象之间的关系，基于数据对象及数据对象之间的关系生成数据类目体系；

子数据类目体系构建模块：用以，以数据对象属性为依据，从数据类目体系中抽取出设定类别的数据对象及设定类别的数据对象之间的关系，生成子数据类目体系；

子数据属性表构建模块：用以，对子数据类目体系中的数据对象属性进行编号，生成包括子数据类目及其对应子数据属性的子数据属性表；

图结构构建模块：用以，将子数据属性表抽象为图结构；

层次聚类模块：用以，运用层次聚类算法，对图结构进行自动聚类，生成子数据标签类目体系。

本发明相比于现有技术，具有以下有益效果：

（1）实现数据对象的灵活抽取与按需组合应用，将数据对象从实体数据库中抽象出来，打上标签，解决现实问题中普遍存在的各业务领域应用系统独立，数据割裂，共性属性重复建设，数据形态各异的问题；

（2）通过对人力数据的属性关系进行图结构的抽象，然后运用机器学习算法对属性进行分层分类形成标签簇的划分，形成以人为核心的标签类目体系，为下一步数联网的构建与应用奠定基础。

附图说明

图1为某科研院所数据对象；

图2为某科研院所数据类目体系构成示意图；

图3为某科研院所人力资源数据类目示例；

图4为基于层次聚类的人力标签类目与标签的抽象图结构示意图之一（3层）；

图5为图4的第一层部分的细节展示图；

图6为基于层次聚类的人力标签类目与标签的抽象图结构示意图之二（＞5层）；

图7为层次聚类算法流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例1

如图1至图7所示，本发明主要针对某科研院所的人力资源数据设计一种标签类目体系，为人力数据在各业务领域灵活流转、按需组合应用提供基础，并打通以人为核心的各业务数据链。

本发明在人力资源数据标签类目体系分类、设计，以及标签应用等方面，做了开创性工作，其中大量运用了图论中的点集与聚合概念，使得数据的自由抽取与组合变得简单易用。

本发明的基本思路：首先运用思维导图工具设计出人力标签类目体系结构，然后从不同的维度方向延伸细化对象属性；其次，根据人力标签类目体系结构图再进行细分延伸，形成具体的标签设计列表，并为每个标签进行编号，形成散点图；最后运用层次聚类方法，对散点图进行自动分类聚集形成人力资源标签类目体系。

基于层次聚类的人力资源标签体系设计需要解决5个方面的问题：一是对现实环境中的人力资源构成进行详细梳理；二是设计人力资源数据类目体系结构，从不同的维度方向延伸对象的属性；三是对人力资源数据类目和属性进行编号；四是将人力资源数据类目和属性抽象为图结构；五是运用层次聚类算法，对人力资源数据进行自动聚类，形成人力资源标签体系。

具体技术解决方案如下：

1、对现实环境中的人力资源构成进行详细梳理；

对现实环境中的人力资源构成进行详细梳理，确定对象，是抓住问题本质的关键。按照为“人”、“物”、“关系”进行数字映射，将现实世界的事物归属为三大类型对象。人作为发起行为的主体，具有主动性，需要多个维度进行分类梳理；物是行为中被施与的对象，往往是被动的，以业务维度进行分类梳理；关系则是人与人、人与物、物与物在某时刻发生的某种连接，是两两实体间的联系与连接，属于虚拟对象，它包括行为关系、归属关系、思维关系等各种强、弱关系，主要以业务流程为纽带进行强关联。某科研院所数据对象详见图1所示，从科研院所真实环境中识别出各类对象，并建立关系。例如，以人为核心的对象按照管理维度分可为管理者、科技人员和协作单位人员，以物为核心的对象按业务维度可分为科学研究项目、科学试验项目、科研试验设备，以及人与物的基础上建立的关系，其中包括科学研究、科学试验、科研设备采购、科研设备建设、科研设备运维及办公等。

某科研院所数据类目体系构成详见图2所示，按照三个维度进行梳理，分别是以“人”的维度组织的数据、以“物”的维度组织的数据和以“流程”的维度组织的数据（即人与人，人与物及物与物发生的关系所产生的数据）。

2、设计人力资源数据类目体系结构；

按“人”的维度组织的数据，具体详见图3所示，划分为管理者、科技人员和外协单位人员，管理者又进一步细分为行政管理者和业务管理者，科技人员按职称维度又可分为研究员、副研究员、助理研究员、正高级工程师、工程师、助理工程师、高级讲师、讲师、助教等，又可以按人员类型维度分为特种类型1、特种类型2、特种类型3、职工、聘用等。按“人”的维度组织的数据都有其共性特征属性，将这部分共性特征属性抽取出可进一步划分为基本属性、工作属性、教育属性、履历属性、社会关系属性、住房属性、车辆属性、健康属性、科研属性等，在上述大类属性类目下沉梳理至各个对象所包含的属性集，即可以进一步细分至字段级的属性。

3、对人力资源数据类目和属性进行编号；

对人力资源数据类目和属性进行编号，生成人力资源属性表，详见表1所示。

表1 人力资源属性表

4、将人力资源数据类目和属性抽象为图结构；

按照人力资源属性表，将标签类目和标签抽象为基于层次聚类的图结构，详见图4、图5所示。

将人力数据资源属性（即标签）抽象为一个图G（V,E,W），其中V表示节点集，表示边集合。/>表示存在连接关系的各条边（链路）的权重集合。/>是通过代价函数/>计算出链路/>的代价。假设图G（V,E,W）在第l层被分割为p个子图，子图表示为/>，其中/>，/>。对每个节点i，在第l层网络中所属的子图表示为/>。对任意两个网络节点i,j，如果/>，，/>，则/>。

给出一个图的一个划分/>，则有如下结论成立：

(1)

(2)

其中，。如果节点i和节点j之间存在一条链路，则节点i被称为节点j的邻接节点。节点i的邻接节点集定义为：/>。对任意节点/>，如果存在一个节点/>，节点i被称为子图/>的边界节点。子图/>的边界节点集表示为/>。如果/>，其中，并且/>，则称子图/>和子图/>邻接。

给定一个图的一个划分/>，连接邻接子图/>和/>的链路集合被称为公共链路集，表示为：

(3)

给定一个图的一个划分/>，子网/>内链路的集合定义为/>，代价函数/>表示子图/>中节点i到节点j的最短路径。每个子图是由其边界节点构成的完全图，即任意边界节点直接都有直接相连的链路。链路的权重为子图中两边界节点之间最短路径长度的值，如果两个边界节点之间不存在路径，则链路权重为无穷大。

给定一个图的一个划分/>，可将P的划分定义为图结构/>，/>为将图/>划分为个/>个子图后向上抽象形成的更高层次的划分。

P的节点集定义为，边集定义为/>，任意链路/>的权重定义为/>，具体数学表达如下：

(4)

(5)

(6)

公式（6）中，当时，/>函数值等于1，否则/>函数值为0。这样/>一起构成了一个两层图模型。这样的定义可以扩展到K层的分层图模型，表达式为：，如图6所示。第l层的子图可表示为/>，其中代表第l层的子图数。

5、运用层次聚类算法，对标签进行自动聚类。

如图7所示，自动聚类步骤如下：

（1）初始化：将人力标签抽象为一个无向图，并将所有节点作为子网划分的候选节点集，计算图中各个节点的度，并将节点按度的值从大到小排序。

节点的度定义为:/>

(7)

当节点和节点/>之间有链路存在时，/>；否则，/>。

（2）人力数据属性关系可抽象为拓扑结构，以此建立属性关系的邻接矩阵。

邻接矩阵能采用数学方式，通过描述节点与节点间是否存在边来构建，能更好地表达图中顶点间的关系。

（3）通过邻接矩阵，及图中的链路、节点等基本信息，求出各节点间的相似度。

相似度用于度量两个节点对之间连接的紧密程度。对于节点对(i,j)，如果i节点可以通过它们的邻接节点发送消息到节点j，那么它们共同的邻接节点就越多，或者连接它们邻接节点之间的链路数越多，两节点之间的相似度就应该越大。

将图中节点的邻接节点集合定义为/>，并且/>，用数学表达为：

(8)

其中。共享邻接矩阵定义为/>，矩阵各元素定义为/>（即相似度）(9)

（4）根据相似度从弱到强，逐步删除节点对之间的边，根据需求设定停止删除的条件。

（5）第（4）步完成后得到的每个连通子图构成分裂的子集。

（6）从节点集中选择第一个节点（即度数最大的节点）及该节点所在的连通子图作为基本子图，度最大的节点和所在连通子图的其他节点构成了基本集，将第一个度数最大的节点及其所在的连通子图构成的基本集从节点集中移除，然后从节点集中选择不属于基本集的邻接点来进行扩展；

（7）从节点集中选择不属于基本集，且与基本集中现有节点有直接相连关系的邻接点，分别计算邻接点在基本集内的邻接点数与在基本集外的邻接点数，然后判断邻接点在基本集内的邻接点数是否大于在基本集外的邻接点数，若大于，则将该节点加入当前基本集，并从节点集中移除；否则，该节点不被划入当前基本集。重复此操作，直到不再有相应的节点加入当前子图，或者子图节点数达到规定的上限值。

（8）重复第（6）步，第（7）步，直到所有节点都被划入相应的子图。

如上所述，可较好地实现本发明。

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于层次聚类的数据标签体系构建方法，其特征在于，基于现实环境数据中梳理出的数据对象、数据对象之间的关系，抽取出子数据属性，然后将子数据属性抽象为图结构，再运用层次聚类算法对图结构进行自动聚类，生成子数据标签类目体系；

包括以下步骤：

S1，数据类目体系构建：对现实环境中的数据进行梳理，确定数据对象，从真实环境中识别出不同类别的数据对象，并建立数据对象之间的关系，基于数据对象及数据对象之间的关系生成数据类目体系；其中，数据对象之间的关系是人与人、人与物或物与物两两实体间的连接，数据对象之间的关系包括行为关系、归属关系、思维关系；

S4，图结构构建：将子数据属性表抽象为图结构；

S5，层次聚类：运用层次聚类算法，对图结构进行自动聚类，生成子数据标签类目体系；

步骤S4中，将子数据属性表抽象为具有两个层次的分层图结构，两个层次的分层图结构表达式为:；

式中，

，

=/>；

其中，表示一个图，/>表示/>的一个分割，/>表示为将图/>划分为/>个子图后将各个子图向上抽象为有连接特征的图结构，/>表示图/>节点集，/>表示图/>边集合，/>表示图/>各条边的权重集合，/>表示一个节点，/>表示另一个节点，/>表示子图数量，/>表示层编号，/>表示图/>划分为/>个子图后向上抽象形成的第二层的图结构，/>表示第个分割的节点集，/>表示第/>个分割的边集，/>表示第/>个分割的各条边的权重集合，为/>中的元素，/>表示第/>个分割的链路/>的代价，/>分别表示将第/>层划分为/>个子图，/>分别表示将第/>层划分为/>个子图后各子图的顶点集，分别表示将第/>层划分为/>个子图后各子图的边集；

步骤S5包括以下步骤：

S51，初始化：将人力标签抽象为一个无向图，并将所有节点作为子图划分的候选节点集，计算图中各个节点的度，并将节点按度的值从大到小排序；

S52，通过拓扑结构，构建邻接矩阵；

S53，通过邻接矩阵及图的信息，计算节点间的相似度；

S55，将步骤S54得到的每个连通子图构成分裂的子集；

2.根据权利要求1所述的一种基于层次聚类的数据标签体系构建方法，其特征在于，步骤S4中，

，

；

其中，表示第/>层子图/>中节点i到节点j的最短路径，/>表示/>的一阶导数，节点/>在第/>层中所属的子图用/>表示，节点/>在第/>层中所属的子图用/>表示，/>表示一个子图编号，/>表示另一个子图编号，/>表示连接邻接子图/>和/>的链路集合，/>表示子图/>内链路的集合，/>表示图G划分为/>个子图后形成的边界节点集，/>表示图G划分为/>个子图后形成的公共链路集，/>表示图G划分为/>个子图后形成的内部链路集，/>为同节点判定函数，/>用于判断节点i和节点j在第/>层子图中是否为同一节点，当/>是同一节点时/>函数值等于1，否则/>函数值为0。

3.根据权利要求2所述的一种基于层次聚类的数据标签体系构建方法，其特征在于，S51中，各个节点的度的计算公式为：

；

4.根据权利要求3所述的一种基于层次聚类的数据标签体系构建方法，其特征在于，S53中，节点间的相似度的计算公式为：

；

式中，

，

；

5.一种基于层次聚类的数据标签体系构建系统，其特征在于，用于实现权利要求1至4任一项所述的一种基于层次聚类的数据标签体系构建方法，包括依次相连的以下模块：

子数据类目体系构建模块：用以，以数据对象属性为依据，从数据类目体系中抽取出设定类别的数据对象及设定类别的数据对象之间的关系，生成子数据类目体系；其中，数据对象之间的关系是人与人、人与物或物与物两两实体间的连接，数据对象之间的关系包括行为关系、归属关系、思维关系；

图结构构建模块：用以，将子数据属性表抽象为图结构；