CN115858875B

CN115858875B - 基于频繁图模式挖掘的企业员工层级关系发现方法及装置

Info

Publication number: CN115858875B
Application number: CN202310098587.3A
Authority: CN
Inventors: 朱博; 罗伦文; 王洵; 任明; 黄建
Original assignee: Wuhan Zhongke Tongda High New Technology Co Ltd
Current assignee: Wuhan Zhongke Tongda High New Technology Co Ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-23
Anticipated expiration: 2043-02-10
Also published as: CN115858875A

Abstract

本发明涉及一种基于频繁图模式挖掘的企业员工层级关系发现方法及装置，将用户的行为表达为图，通过发现图数据中的频繁图模式，来发现用户的行为模式，并进一步推理用户的层级关系。本发明的方法仅仅遍历原始图数据一次，即可发现频繁图模式，大大降低了发现方法的复杂度。

Description

基于频繁图模式挖掘的企业员工层级关系发现方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于频繁图模式挖掘的企业员工层级关系发现方法及装置。

背景技术

随着信息产业的迅速发展，人类对于互联网资源，特别是移动互联网资源的需求越来越高，移动运营商也希望对用户提供更加丰富、全面的服务。因此发现用户所处的社会环境、了解用户定位，即成为了运营商针对用户制定服务产品的关键。而移动互联网的普及，使得人类对互联网的依赖以及粘度越发强烈，人类的传统社会生活方式已经逐渐从线下转移到线上，用户在线上虚拟世界中的表现也反映出了用户在现实世界的特点，这也为精准发现用户所处的社会环境、了解用户定位提供了可能。

进入到大数据时代，用户在移动互联网上的行为都能够被获取，例如用户使用移动网络、语音等行为能从移动运营商持有的上网记录和通话话单中获取到，这些行为都反映了用户在社会生活中所处的环境等信息。本发明以企业员工为研究对象，通过企业员工在互联网虚拟空间中的行为数据，发现企业员工之间频繁行为模式，推理出企业员工之间的层级关系，通过间接方式了解员工在企业内部所处的层级，为移动运营商或其他产业，针对企业各个员工定制化服务产品提供技术支撑。

在企业员工用户的所有移动互联网使用行为中，用户之间的通话行为以及社交APP使用行为会反映用户的层级关系。例如，在企业内部下属通常不会频繁、主动得给领导打电话，而同事之间通常会出现频繁的通话行为，或者不出现通话行为。在社交APP使用行为方面，同事之间的社交APP使用行为较为相似，而领导和下属使用社交APP的行为不相似。例如，某些企业会要求基层员工在早上九点利用社交APP打卡，而领导不需要打卡；基层员工之间可能会在工作时间利用社交APP进行文件传输，而领导可能在下班时间才开始工作进行文件接收。这些行为都反映出来不同层级关系的个体员工之间的行为差异，因此也可以利用这些行为差异，从外部间接的方式发现企业员工的内部层级关系。

基于上述描述，用户行为可表达为有向多权图，而图中连边的方向与权重反映了两个用户之间的行为关系、层级关系。而所有图数据的频繁模式即反映了用户的行为模式，因此可通过对图数据的频繁模式挖掘来发现用户的行为模式，进一步发现用户的层级关系。

现有频繁图模式发现方法，通常是通过不断搜索遍历图数据的所有连边，来发现图数据中的频繁图模式，例如Apriori算法，FP树算法等，这些方法在生成频繁图模式过程中需要遍历图数据多次，判断连边是否满足频繁图模式的连边要求，这就造成了这些算法的复杂度较高，对计算资源的需求较大，使得这些算法在大规模的频繁图模式发现应用中受限。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于频繁图模式挖掘的企业员工层级关系发现方法及装置，将用户的行为表达为图，通过发现图数据中的频繁图模式，来发现用户的行为模式，并进一步推理用户的层级关系。本发明的方法仅仅遍历原始图数据一次，即可发现频繁图模式，大大降低了发现方法的复杂度。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种基于频繁图模式挖掘的企业员工层级关系发现方法，包括：

步骤100，根据用户属性以及工作时间长期连接基站的属性，提取企业员工的用户；

步骤200，根据企业员工用户一天的通话记录以及上网日志数据，构建用户行为的有向多权图，图中的节点表示用户，图中的连边表示用户之间的行为，每条连边均包含第一权重和第二权重，所述第一权重和第二权重分别与所述通话记录和所述上网日志数据有关；提取多天的用户数据，形成用户行为的有向多权图数据集；

步骤300，提取有向多权图中的有环子结构，在有环子结构进行剪枝，将有环结构剪枝为无环结构，将有向多权图剪枝为有向无环图，将有向多权图数据集剪枝为有向无环图数据集；

步骤400，根据连边在有向无环图数据集中出现的情况，将所有连边编码为位向量，并将相同位向量的连边归为同一连边组；

步骤500，设置频繁阈值σ，遍历所有连边组，筛选位向量中非零元素数量大于等于阈值σ的所有连边即为频繁连边；通过深度有向算法，根据所述频繁连边生成频繁子图，组合所有频繁子图形成有向图数据集的频繁无环子图；

步骤600，根据所述有向图数据集的频繁无环子图的连边方向，推理出所有节点的层级，输出用户的层级关系。

进一步的，所述步骤100包括：

步骤101，在移动运营商的用户属性数据中，根据工作单位信息提取用户属性为某个具体工作单位的全部用户；所述用户属性数据包括：用户的姓名、年龄、性别、工作单位；

步骤102，根据具体工作单位信息提取工作单位附近的基站编号，从步骤101提取的用户中筛选出在工作时间长期连接此基站的用户，则这些提取用户即为某工作单位的所有用户。

进一步的，所述步骤200包括：

步骤201，提取企业员工用户的通话记录与上网日志；

步骤202，利用所述通话记录生成有向多权图

，图的节点表示用户，连边的方向由通话记录的主叫指向被叫，连边的第一权重为一天内的所有通话时长的综合；

步骤203，从所述上网日志中筛选企业员工用户使用企业级社交APP的记录，以指定时间间隔进行采样，形成用户在社交APP上一天使用流量的时间序列，在有向多权图

中，计算存在连边的两个节点之间时间序列的相似度，以所述相似度作为连边的第二权重；

步骤204，提取用户n天的通话记录与上网日志，将每一天的数据生成一个有向多权图

，将n天的数据合并为有向多权图数据集/>

。

进一步的，所述步骤300包括：

步骤301，筛选出有向多权图

中所有的有环子结构，有环子结构满足条件为：存在最小有向连边组满足/>

，其中/>

表示有向连边，连边方向由节点/>

指向/>

；

步骤302，获取最小连边组的连边权重集合，计算所有连边的权重损失，对最小连边组中权重损失最小的连边进行剪枝，将所述有向多权图剪枝为有向无环图；连边的权重损失

计算方法为：P_w=0.5×第一权重+0.5×第二权重；

步骤303，遍历有向多权图数据集，对数据集中所有有向多权图进行剪枝，得到有向无环图数据集。

进一步的，所述位向量包括n个元素，对应向多权图数据集中的n个有向多权图，每个元素的取值为0或1，若连边在某一有向多权图中出现时，则所述位向量中与该有向多权图对应的元素取值为1，否则取值为0；

将相同位向量的连边归为同一连边组后，计算位向量中的非零元素个数。

进一步的，所述步骤500包括：

筛选出频繁连边后，按照频繁连边的位向量中非零元素数量，由大到小，对所述连边组进行排序；

遍历所有连边组，利用深度有向算法生成各连边组对应的分支，生成分支需满足位向量约束：

；其中连边组/>

位向量的非零元素数量大于/>

位向量的非零元素数量；

深度有向算法形成的每一条分支中的连边组组成的子图即为频繁子图。

进一步的，所述步骤600包括：

步骤601，根据所述有向图数据集的频繁无环子图的连边方向，将各节点进行从上向下排序，上层节点为有向连边的开始方向，下层节点为有向连边的结束方向；

步骤602，根据节点的从上向下排序输出节点的层级关系，上层节点的层级高于下层节点的层级，处于相同排序位置的节点具有相同的层级；

步骤603，输出节点对应的用户在企业中的层级关系。

第二方面，本发明提供一种基于频繁图模式挖掘的企业员工层级关系发现装置，包括：

数据提取模块，根据用户属性以及工作时间长期连接基站的属性，提取企业员工的用户；

有向图构建模块，根据企业员工用户一天的通话记录以及上网日志数据，构建用户行为的有向多权图，图中的节点表示用户，图中的连边表示用户之间的行为，每条连边均包含第一权重和第二权重，所述第一权重和第二权重分别与所述通话记录和所述上网日志数据有关；提取多天的用户数据，形成用户行为的有向多权图数据集；

有向无环图生成模块，提取有向多权图中的有环子结构，在有环子结构进行剪枝，将有环结构剪枝为无环结构，将有向多权图剪枝为有向无环图，将有向多权图数据集剪枝为有向无环图数据集；

编码归集模块，根据连边在有向无环图数据集中出现的情况，将所有连边编码为位向量，并将相同位向量的连边归为同一连边组；

频繁子图生成模块，设置频繁阈值σ，遍历所有连边组，筛选位向量中非零元素数量大于等于阈值σ的所有连边即为频繁连边；通过深度有向算法，根据所述频繁连边生成频繁子图，组合所有频繁子图形成有向图数据集的频繁无环子图；

层级关系推理模块，根据所述有向图数据集的频繁无环子图的连边方向，推理出所有节点的层级，输出用户的层级关系。

第三方面，本发明提供一种电子设备，包括：

存储器，用于存储计算机软件程序；

处理器，用于读取并执行所述计算机软件程序，进而实现本发明第一方面所述的一种基于频繁图模式挖掘的企业员工层级关系发现方法。

第三方面，本发明提供一种非暂态计算机可读存储介质，所述存储介质中存储有计算机软件程序，所述计算机软件程序被处理器执行时实现本发明第一方面所述的一种基于频繁图模式挖掘的企业员工层级关系发现方法。

本发明的有益效果是：1、本发明不直接发现企业员工的层级关系，通过员工之间的行为模式推理员工的层级关系，属于间接发现方式，不干扰企业组织架构。

2、将用户行为表示为连边方向与权重，利用连边方向表征员工的层级关系，利用连边权重衡量关系的稳定程度，以简单的方式表征了用户的行为。

3、将连边表示为位向量，并将相同位向量的连边分为同一集合，减少了后续通过遍历数据集发现频繁模式的数据量，减少计算资源需求。

4、基于位向量运算限制条件的深度有向算法，以遍历方式发现图数据集中的频繁模式，以位向量运算为限制条件保证了发现的频繁模式中的每条连边均符合要求，同时带限制条件的深度有向算法，在遍历数据集时不需要遍历整个数据集，大大降低了算法的复杂度。

附图说明

图1为本发明实施例提供的一种基于频繁图模式挖掘的企业员工层级关系发现方法流程示意图；

图2为本发明实施例提供的用户筛选流程示意图；

图3为本发明实施例提供的有环结构发现流程流程示意图；

图4为本发明实施例提供的位向量编码过程示意图；

图5为本发明实施例提供的频繁图模式发现流程示意图；

图6为本发明实施例提供的连边组排序过程示意图；

图7为本发明实施例提供的一种基于频繁图模式挖掘的企业员工层级关系发现装置结构示意图；

图8为本发明实施例提供的电子设备的实施例示意图；

图9为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，术语“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

图1为本发明实施例提供的一种基于频繁图模式挖掘的企业员工层级关系发现方法流程示意图。如图1所示，本发明实施例所提供的企业员工层级关系发现方法包括以下步骤：

步骤100，根据用户属性以及工作时间长期连接基站的属性，提取企业员工的用户。

具体的，如图2所示，所述步骤1包括以下子步骤：

步骤101，在移动运营商的用户属性数据中，根据工作单位信息提取用户属性为某个具体工作单位的全部用户；所述用户属性数据包括用户的姓名、年龄、性别、工作单位等信息；

步骤200，根据企业员工用户一天的通话记录以及上网日志数据，构建用户行为的有向多权图，图中的节点表示用户，图中的连边表示用户之间的行为，每条连边均包含第一权重和第二权重，所述第一权重和第二权重分别与所述通话记录和所述上网日志数据有关；提取多天的用户数据，形成用户行为的有向多权图数据集。

具体的，所述步骤200包括以下子步骤：

步骤201，提取企业员工用户的通话记录与上网日志。

步骤202，利用所述通话记录生成有向多权图

，图的节点/>

表示用户，连边/>

的方向由通话记录的主叫和被叫决定，连边方向由主叫指向被叫，连边的第一权重/>

为一天内的所有通话时长的综合。

步骤203，从所述上网日志中筛选企业员工用户使用企业级社交APP的记录（例如使用“钉钉”、“企业微信”等软件的上网记录），以指定时间间隔进行采样，形成用户在社交APP上一天使用流量的时间序列。在本实施例中，以小时为采样间隔，形成用户在社交APP上一天使用流量的时间序列。应当理解的是，根据实际需要，也可以设置其他时间间隔进行采样。

在有向多权图

中，计算存在连边的两个节点之间时间序列的相似度，以所述相似度作为连边的第二权重。

步骤204，提取用户n天的通话记录与上网日志，将每一天的数据依据步骤201至步骤203，生成有向多权图

，将n天的数据合并为有向多权图数据集

。

步骤300，提取有向多权图中的有环子结构，在有环子结构进行剪枝，将有环结构剪枝为无环结构，将有向多权图剪枝为有向无环图，将有向多权图数据集剪枝为有向无环图数据集。

具体的，如图3所示，所述步骤300包括以下子步骤：

步骤301，筛选出有向多权图

，其中/>

、/>

、...、/>

均表示有向连边，以/>

为例，其连边方向由节点/>

指向/>

。

步骤302，获取最小连边组

的连边权重集合

，其中，/>

、/>

、...、/>

分别为连边/>

、/>

、...、/>

对应的权重，以/>

为例，其包含第一权重以及第二权重两个元素，即

。

计算所有连边的权重损失，连边的权重损失Pw计算方法为：Pw=0.5×第一权重+0.5×第二权重；以

为例，即为/>

。

对最小连边组中权重损失最小的连边进行剪枝，将所述有向多权图剪枝为有向无环图。

步骤303，遍历有向多权图数据集，对数据集中所有有向多权图执行步骤301、步骤302所描述的方法，进行剪枝，得到有向无环图数据集。

步骤400，根据连边在有向无环图数据集中出现的情况，将所有连边编码为位向量，并将相同位向量的连边归为同一连边组。

所述位向量包括n个元素，对应向多权图数据集中的n个有向多权图，每个元素的取值为0或1，若连边在某一有向多权图中出现时，则所述位向量中与该有向多权图对应的元素取值为1，否则取值为0；

具体的，所述步骤400包括以下子步骤：

步骤401，在数据集

中包含/>

个图/>

，对于

中的连边/>

，按照其在数据集/>

中的出现情况，将其编码为位向量/>

。

中的每个元素为0或1，长度为n。例如，当连边/>

出现在图/>

和/>

时，位向量BC的第/>

个和第/>

个位置的向量编码为1，位向量其余位置的元素为0。这表示在第/>

天和第/>

天，用户/>

和用户/>

有过通话行为，且社交软件使用行为较为相似。遍历数据集/>

，将

中的所有连边进行位编码，如图4所示。

步骤402，对于完成位编码的连边进行分组，将相同位向量的连边分到同一组，同时计算位向量的非零元素数量。

步骤500，设置频繁阈值σ，遍历所有连边组，筛选位向量中非零元素数量大于等于阈值σ的所有连边即为频繁连边；通过深度有向算法，根据所述频繁连边生成频繁子图，组合所有频繁子图形成有向图数据集的频繁无环子图。

具体的，如图5所示，所述步骤500包括以下子步骤：

步骤501，设置频繁阈值

，当连边组EC的位向量非零元素的数量大于等于/>

时，则认为连边组EC中所有的连边均为频繁连边，将非零元素数量小于/>

的连边组EC去除。

步骤502，按照连边组EC的非零元素数量进行排序，将非零元素数量大的连边组排序至上层，将非零元素数量大的连边组排序至上层，如图6所示。

步骤503，根据从上向下的排序，基于深度有向算法，遍历所有的连边组，深度有向算法形成的分支需要满足位向量约束，位向量约束表达为：

其中

位向量的非零元素数量大于/>

位向量的非零元素数量。

步骤504，深度有向算法形成的每一条分支中的连边组组成的子图为频繁子图，将所有的频繁子图组合，即为数据集的频繁无环子图。

具体的，所述步骤600包括以下子步骤：

步骤603，输出节点对应的用户在企业中的层级关系。

本实施例提供的方法以间接方式发现企业员工用户之间的层级关系，不干扰企业组织架构，不需额外布置设备。该方法可通过对表征、运算、推理等方式发现企业员工用户之间的层级关系，同时该方法相比于现有频繁图模式挖掘方法复杂度低，对计算资源的需求小，可应用于大型数据集中。

如图7所示，本发明实施例还提供一种一种基于频繁图模式挖掘的企业员工层级关系发现装置，包括：

频繁子图生成模块，设置频繁阈值σ，遍历所有连边组，筛选位向量中非零元素数量大于等于阈值σ的所有连边即为频繁连边；通过深度有向算法，根据所述频繁连边生成频繁子图，组合所有频繁子图形成有向图数据集的频繁无环子图。

请参阅图8，图8为本发明实施例提供的电子设备的实施例示意图。如图8所示，本发明实施例提供了一种电子设备500，包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序511时实现以下步骤：

请参阅图9，图9为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图9所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现如下步骤：

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于频繁图模式挖掘的企业员工层级关系发现方法，其特征在于，包括：

步骤400，根据连边在有向无环图数据集中出现的情况，将所有连边编码为位向量BC，并将相同位向量的连边归为同一连边组；所述位向量BC中的每个元素为0或1，长度为n，n为有向多权图数据集中有向多权图的数量；

2.根据权利要求1所述的方法，其特征在于，所述步骤100包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤200包括：

步骤201，提取企业员工用户的通话记录与上网日志；

步骤202，利用所述通话记录生成有向多权图

，将n天的数据合并为有向多权图数据集/>

。

4.根据权利要求1所述的方法，其特征在于，所述步骤300包括：

步骤301，筛选出有向多权图

，其中/>

表示有向连边，连边方向由节点/>

指向/>

；

步骤302，获取最小连边组的连边权重集合，计算所有连边的权重损失，对最小连边组中权重损失最小的连边进行剪枝，将所述有向多权图剪枝为有向无环图；连边的权重损失P _w计算方法为：P _w=0.5×第一权重+0.5×第二权重；

5.根据权利要求1所述的方法，其特征在于，所述位向量包括n个元素，对应向多权图数据集中的n个有向多权图，每个元素的取值为0或1，若连边在某一有向多权图中出现时，则所述位向量中与该有向多权图对应的元素取值为1，否则取值为0；

6.根据权利要求1所述的方法，其特征在于，所述步骤500包括：

；其中连边组/>

位向量的非零元素数量大于

位向量的非零元素数量；

7.根据权利要求1所述的方法，其特征在于，所述步骤600包括：

步骤603，输出节点对应的用户在企业中的层级关系。

8.一种基于频繁图模式挖掘的企业员工层级关系发现装置，其特征在于，包括：

编码归集模块，根据连边在有向无环图数据集中出现的情况，将所有连边编码为位向量BC，并将相同位向量的连边归为同一连边组；所述位向量BC中的每个元素为0或1，长度为n，n为有向多权图数据集中有向多权图的数量；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机软件程序；

处理器，用于读取并执行所述计算机软件程序，进而实现权利要求1-7任一项所述的一种基于频繁图模式挖掘的企业员工层级关系发现方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述存储介质中存储有计算机软件程序，所述计算机软件程序被处理器执行时实现如权利要求1-7任一项所述的一种基于频繁图模式挖掘的企业员工层级关系发现方法。