CN115510248A

CN115510248A - 基于深度学习的人员行为特征知识图谱构建与分析方法

Info

Publication number: CN115510248A
Application number: CN202211321496.3A
Authority: CN
Inventors: 卢思宇; 吉涛; 赵雨露; 郭慧兰; 何轶; 邹宇; 袁小明; 赖秋蒙; 赵中璇
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2022-12-23

Abstract

本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法，包括步骤：S1采集用户行为历史数据；S2对用户行为历史数据进行处理，过滤掉不完整的数据以及垃圾无用数据，对过滤之后的数据进行信息抽取，建立用户行为特征集；S3对用户行为特征集进行分析，提取用户经常浏览的行为信息，再综合用户个人基本信息，建立用户大数据，根据用户大数据构建三元组数据，得到知识图谱的初步模型；S4对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测，完善知识图谱；S5通过基于逻辑规则的随机游走算法以及所有三元组，推断不同三元组之间的隐藏关系。能够快速的对潜在关系进行梳理，得到特定人员之间以及不同实体之间的关联信息，对隐藏问题进行排查。

Description

基于深度学习的人员行为特征知识图谱构建与分析方法

技术领域

本发明涉及机器学习领域，尤其涉及一种基于深度学习的人员行为特征知识图谱构建与分析方法。

背景技术

了解企业人员的行为是内部管理的基础。通过合理、系统的客户行为特征分析，企业可以知道不同的企业人员有着什么样的需求，分析企业人员特征与公司系统的关系，使团队内部人员的行为得到最优的规划；从而避免人员的不良行为影响企业的发展，使企业得到快速的发展。

目前，在企业人员行为特征分析中，可以通过公开的网站对注册用户的浏览习惯等进行统计，通过相关文献和调研可以较容易地得到客户行为特征。在具有实体的企业中，调研人员往往通过问卷调查等方式了解企业人员的行为特征等信息。

有的网站虽然能够通过自动化识别的信号采集设备采集客户信息，但具备连锁店的实体店铺间获得的信息分散，无法得到针对整个企业的全面的客户行为特征分析结果，因此降低了客户行为特征分析的利用价值。

为了能够快速的解决上述问题，需要提供一种自动化识别算法，对特定人员的行为进行分析监督。

发明内容

有鉴于此，本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法，可利用现有检索到的非结构数据，将非结构数据中的实体数据以及实体关系数据提取出来，构建出更为完善的人员信息知识图谱，方便使用者实时查询、了解相关信息，对人员关系进行追踪，本发明还可以快速的对潜在关系进行梳理，得到特定人员之间以及不同实体之间的关联信息，对隐藏问题进行排查。

本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法，包括步骤：

S1.采集用户行为历史数据；

S2.对用户行为历史数据进行处理，过滤掉不完整的数据以及垃圾无用数据，对过滤之后的数据进行信息抽取，建立用户行为特征集；

S3.对用户行为特征集进行分析，提取用户经常浏览的行为信息，再综合用户个人基本信息，建立用户大数据，根据用户大数据构建三元组数据，得到知识图谱的初步模型；

S4.对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测，完善知识图谱；

S5.通过基于逻辑规则的随机游走算法以及所有三元组，推断不同三元组之间的隐藏关系，从而得到人员间的潜在关系。

进一步，所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。

进一步，所述非结构化数据的采集方法为：获取目标文本图像，并对图像进行OCR识别，得到识别文本，在对识别文本进行文本信息识别，以提取出目标文本图像中的人员数据。

进一步，所述步骤S3，采用BootStrapping算法，通过利用少量人员-行为关系实例人工构造的初始种子集合，生成初始种子的关系三元组，然后利用该三元组识别训练文本中的实体，再利用模式学习方法，通过不断迭代，产生新的关系实例，根据新的关系实例增加新的种子，不断扩充种子集合的规模，同时将新的关系实例扩展到知识库中。

进一步，所述步骤S4，对缺失信息的预测方法为：通过对图谱中的头尾实体和关系进行知识表示，再将知识表示后的信息通过距离模型进行嵌入表示，数据结构便转化为了向量化的表示，根据向量化的表示对缺失信息进行预测。

进一步，所述距离模型包括TransE模型、TransH模型以及TransR模型。

进一步，所述随机游走算法，包括步骤：

特征提取：首先将知识图谱编码为多关系图，给定一对实体(h，t)，通过随机游走找到路径，并记录从头实体h开始到尾实体t出以有界长度结束的所有路径，选择以组路径作为特征；

特征计算：选择路径要素后，给定实体对(h，t)和路径Q，将特征值计算为随机游走概率p(t|h,Q)；

特定关系的分类：为每个关系训练一个单独的分类器，判断两个实体是否为同一关系链路。

本发明有以下有益效果：

本发明提供的一种基于深度学习的人员行为特征知识图谱构建与分析方法，可以利用现有检索到的非结构数据，将非结构数据中的实体数据以及实体关系数据提取出来，构建出更为完善的人员信息知识图谱，方便使用者实时查询、了解相关信息，对人员关系进行追踪，并且，本发明能够快速的对潜在关系进行梳理，得到特定人员之间以及不同实体之间的关联信息，对隐藏问题进行排查。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为基于深度学习的人员行为特征知识图谱构建与分析方法流程图；

图2为基于深度学习的人员行为特征知识图谱构建方法原理图；

图3为TransE模型图；

图4为TransH模型图；

图5为TransR模型图。

具体实施方式

S1.采集用户行为历史数据，所述行为历史数据包括消费、网站浏览等行为；用户行为历史数据可以通过企业提供的电子文档和公开的数据中得到；

S4.对知识图谱的头实体缺失、关系缺失和尾体缺失进行预测，完善知识图谱；

S5.通过基于逻辑规则的随机游走算法以及所有三元组，推断不同三元组之间的隐藏关系，从而得到特定人员之间以及不同实体之间的关联信息。

本实施例中，所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。

本实施例中，所述非结构化数据的采集方法为：获取目标文本图像，并对图像进行OCR识别，得到识别文本，在对识别文本进行文本信息识别，以提取出目标文本图像中的人员数据；

所述的OCR识别方法包括预处理、特征提取以及分类识别器；

该预处理包括灰度化、降噪、二值化、字符切分和归一化，经过二值化后，图像只剩下两种颜色，其中一个是图像背景，另一个颜色就是要识别的文字了；通过降噪算法减少特征干扰，通过将图像中的文字分割成单个文字，针对文字行有倾斜的话往往还要进行倾斜校正，最后通过时限通过将单个的文字图像规整到同样的尺寸，在同一个规格下；

所述特征提取为通过对预处理之后的文字信息进行提取，的到文字关键信息；并对特征的维数高的特征进行降维处理；

所述分类识别器对降维后的特征进行分类，得到具体识别结果。

本实施例中，所述步骤S3，采用BootStrapping算法，通过利用少量人员 -行为关系实例人工构造的初始种子集合，生成初始种子的关系三元组，然后利用该三元组识别训练文本中的实体，再利用模式学习方法，通过不断迭代，产生新的关系实例，根据新的关系实例增加新的种子，不断扩充种子集合的规模，同时将新的关系实例扩展到知识库中。

本实施例中，所述步骤S4，对缺失信息的预测方法为：通过对图谱中的头尾实体和关系进行知识表示，再将知识表示后的信息通过距离模型进行嵌入表示，数据结构便转化为了向量化的表示，根据向量化的表示对缺失信息进行预测。

本实施例中，所述距离模型包括TransE模型、TransH模型以及TransR模型，具体为：

TransE模型如图3所示：

对于每一个三元组(h，r，t)，TransE在向量空间中将关系向量r作为头实体向量h到尾实体t的操作，在向量空间中，TransE希望每个成立的三元组(h，r，t)的向量表示均满足目标h+r≈t，根据这个目标，TransE的评分函数为：

TransH模型如图3所示：

TransH将实体表示成向量，将每个关系r表示成在以w_r为法向量的超平面上的向量r，给定一个事实(h，r，t)，实体向量h，t首先被投影在超平面上，即

如果(h，r，t)成立，假设两个投影通过超平面上的r以较小的误差连接，即 h_⊥+r≈t_⊥h则得分函数定义为：

约束条件为

TransR模型如图4所示；

TransR和TransH理念相似，但其引入的是特定关系空间，而不是超平面；在TransR中，一个实体拥有多种属性,而每种属性对应一个不同的关系；实体表示成在实体空间中的向h,t,M_r,该空间即维度为k的实数空间

每个关系和一个特定实数空间

相关联，并被表示成在这个空间中的向量。在

空间得到实体向量的投影,即给定一个事实(h，r，t)，实体向量h、t被投影在关系r的空间中，有

其中，M_r为从实体空间到关系空间r的投影向量,

如图5所示； TransR的得分函数定义为

本实施例中，所述随机游走算法，包括步骤：

特征计算：选择路径要素后，给定实体对(h，t)和路径Q，将特征值计算为随机游走概率p(t|h,Q)；随机游走计算过程采用现有技术，在此不加以赘述。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的人员行为特征知识图谱构建与分析方法，其特征在于：包括步骤：

S1.采集用户行为历史数据；

S5.通过基于逻辑规则的随机游走算法以及所有三元组，推断不同三元组之间的隐藏关系。

2.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法，其特征在于：所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。

3.根据权利要求2所述的基于深度学习的人员行为特征知识图谱构建与分析方法，其特征在于：所述非结构化数据的采集方法为：获取目标文本图像，并对图像进行OCR识别，得到识别文本，在对识别文本进行文本信息识别，以提取出目标文本图像中的人员数据。

4.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法，其特征在于：所述步骤S3，采用BootStrapping算法，通过利用少量人员-行为关系实例人工构造的初始种子集合，生成初始种子的关系三元组，然后利用该三元组识别训练文本中的实体，再利用模式学习方法，通过不断迭代，产生新的关系实例，根据新的关系实例增加新的种子，不断扩充种子集合的规模，同时将新的关系实例扩展到知识库中。

5.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法，其特征在于：所述步骤S4，对缺失信息的预测方法为：通过对图谱中的头尾实体和关系进行知识表示，再将知识表示后的信息通过距离模型进行嵌入表示，数据结构便转化为了向量化的表示，根据向量化的表示对缺失信息进行预测。

6.根据权利要求5所述的基于深度学习的人员行为特征知识图谱构建与分析方法，其特征在于：所述距离模型包括TransE模型、TransH模型以及TransR模型。

7.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法，其特征在于：所述随机游走算法，包括步骤：

特征提取：首先将知识图谱编码为多关系图，给定一对实体(h，t)，通过随机游走找到路径，并记录从头实体h开始到尾实体t出以有界长度结束的所有路径，选择以路径作为特征；