CN115510248A - 基于深度学习的人员行为特征知识图谱构建与分析方法 - Google Patents

基于深度学习的人员行为特征知识图谱构建与分析方法 Download PDF

Info

Publication number
CN115510248A
CN115510248A CN202211321496.3A CN202211321496A CN115510248A CN 115510248 A CN115510248 A CN 115510248A CN 202211321496 A CN202211321496 A CN 202211321496A CN 115510248 A CN115510248 A CN 115510248A
Authority
CN
China
Prior art keywords
data
knowledge graph
user
information
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211321496.3A
Other languages
English (en)
Inventor
卢思宇
吉涛
赵雨露
郭慧兰
何轶
邹宇
袁小明
赖秋蒙
赵中璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211321496.3A priority Critical patent/CN115510248A/zh
Publication of CN115510248A publication Critical patent/CN115510248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,包括步骤:S1采集用户行为历史数据;S2对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;S3对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;S4对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测,完善知识图谱;S5通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系。能够快速的对潜在关系进行梳理,得到特定人员之间以及不同实体之间的关联信息,对隐藏问题进行排查。

Description

基于深度学习的人员行为特征知识图谱构建与分析方法
技术领域
本发明涉及机器学习领域,尤其涉及一种基于深度学习的人员行为特征知识图谱构建与分析方法。
背景技术
了解企业人员的行为是内部管理的基础。通过合理、系统的客户行为特征分析,企业可以知道不同的企业人员有着什么样的需求,分析企业人员特征与公司系统的关系,使团队内部人员的行为得到最优的规划;从而避免人员的不良行为影响企业的发展,使企业得到快速的发展。
目前,在企业人员行为特征分析中,可以通过公开的网站对注册用户的浏览习惯等进行统计,通过相关文献和调研可以较容易地得到客户行为特征。在具有实体的企业中,调研人员往往通过问卷调查等方式了解企业人员的行为特征等信息。
有的网站虽然能够通过自动化识别的信号采集设备采集客户信息,但具备连锁店的实体店铺间获得的信息分散,无法得到针对整个企业的全面的客户行为特征分析结果,因此降低了客户行为特征分析的利用价值。
为了能够快速的解决上述问题,需要提供一种自动化识别算法,对特定人员的行为进行分析监督。
发明内容
有鉴于此,本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,可利用现有检索到的非结构数据,将非结构数据中的实体数据以及实体关系数据提取出来,构建出更为完善的人员信息知识图谱,方便使用者实时查询、了解相关信息,对人员关系进行追踪,本发明还可以快速的对潜在关系进行梳理,得到特定人员之间以及不同实体之间的关联信息,对隐藏问题进行排查。
本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,包括步骤:
S1.采集用户行为历史数据;
S2.对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;
S3.对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;
S4.对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测,完善知识图谱;
S5.通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系,从而得到人员间的潜在关系。
进一步,所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。
进一步,所述非结构化数据的采集方法为:获取目标文本图像,并对图像进行OCR识别,得到识别文本,在对识别文本进行文本信息识别,以提取出目标文本图像中的人员数据。
进一步,所述步骤S3,采用BootStrapping算法,通过利用少量人员-行为关系实例人工构造的初始种子集合,生成初始种子的关系三元组,然后利用该三元组识别训练文本中的实体,再利用模式学习方法,通过不断迭代,产生新的关系实例,根据新的关系实例增加新的种子,不断扩充种子集合的规模,同时将新的关系实例扩展到知识库中。
进一步,所述步骤S4,对缺失信息的预测方法为:通过对图谱中的头尾实体和关系进行知识表示,再将知识表示后的信息通过距离模型进行嵌入表示,数据结构便转化为了向量化的表示,根据向量化的表示对缺失信息进行预测。
进一步,所述距离模型包括TransE模型、TransH模型以及TransR模型。
进一步,所述随机游走算法,包括步骤:
特征提取:首先将知识图谱编码为多关系图,给定一对实体(h,t),通过随机游走找到路径,并记录从头实体h开始到尾实体t出以有界长度结束的所有路径,选择以组路径作为特征;
特征计算:选择路径要素后,给定实体对(h,t)和路径Q,将特征值计算为随机游走概率p(t|h,Q);
特定关系的分类:为每个关系训练一个单独的分类器,判断两个实体是否为同一关系链路。
本发明有以下有益效果:
本发明提供的一种基于深度学习的人员行为特征知识图谱构建与分析方法,可以利用现有检索到的非结构数据,将非结构数据中的实体数据以及实体关系数据提取出来,构建出更为完善的人员信息知识图谱,方便使用者实时查询、了解相关信息,对人员关系进行追踪,并且,本发明能够快速的对潜在关系进行梳理,得到特定人员之间以及不同实体之间的关联信息,对隐藏问题进行排查。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为基于深度学习的人员行为特征知识图谱构建与分析方法流程图;
图2为基于深度学习的人员行为特征知识图谱构建方法原理图;
图3为TransE模型图;
图4为TransH模型图;
图5为TransR模型图。
具体实施方式
本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,包括步骤:
S1.采集用户行为历史数据,所述行为历史数据包括消费、网站浏览等行为;用户行为历史数据可以通过企业提供的电子文档和公开的数据中得到;
S2.对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;
S3.对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;
S4.对知识图谱的头实体缺失、关系缺失和尾体缺失进行预测,完善知识图谱;
S5.通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系,从而得到特定人员之间以及不同实体之间的关联信息。
本实施例中,所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。
本实施例中,所述非结构化数据的采集方法为:获取目标文本图像,并对图像进行OCR识别,得到识别文本,在对识别文本进行文本信息识别,以提取出目标文本图像中的人员数据;
所述的OCR识别方法包括预处理、特征提取以及分类识别器;
该预处理包括灰度化、降噪、二值化、字符切分和归一化,经过二值化后,图像只剩下两种颜色,其中一个是图像背景,另一个颜色就是要识别的文字了;通过降噪算法减少特征干扰,通过将图像中的文字分割成单个文字,针对文字行有倾斜的话往往还要进行倾斜校正,最后通过时限通过将单个的文字图像规整到同样的尺寸,在同一个规格下;
所述特征提取为通过对预处理之后的文字信息进行提取,的到文字关键信息;并对特征的维数高的特征进行降维处理;
所述分类识别器对降维后的特征进行分类,得到具体识别结果。
本实施例中,所述步骤S3,采用BootStrapping算法,通过利用少量人员 -行为关系实例人工构造的初始种子集合,生成初始种子的关系三元组,然后利用该三元组识别训练文本中的实体,再利用模式学习方法,通过不断迭代,产生新的关系实例,根据新的关系实例增加新的种子,不断扩充种子集合的规模,同时将新的关系实例扩展到知识库中。
本实施例中,所述步骤S4,对缺失信息的预测方法为:通过对图谱中的头尾实体和关系进行知识表示,再将知识表示后的信息通过距离模型进行嵌入表示,数据结构便转化为了向量化的表示,根据向量化的表示对缺失信息进行预测。
本实施例中,所述距离模型包括TransE模型、TransH模型以及TransR模型,具体为:
TransE模型如图3所示:
对于每一个三元组(h,r,t),TransE在向量空间中将关系向量r作为头实体向量h到尾实体t的操作,在向量空间中,TransE希望每个成立的三元组(h,r,t)的向量表示均满足目标h+r≈t,根据这个目标,TransE的评分函数为:
Figure BDA0003910685140000061
TransH模型如图3所示:
TransH将实体表示成向量,将每个关系r表示成在以wr为法向量的超平面上的向量r,给定一个事实(h,r,t),实体向量h,t首先被投影在超平面上,即
Figure BDA0003910685140000062
如果(h,r,t)成立,假设两个投影通过超平面上的r以较小的误差连接,即 h+r≈th则得分函数定义为:
Figure BDA0003910685140000063
约束条件为
Figure BDA0003910685140000064
TransR模型如图4所示;
TransR和TransH理念相似,但其引入的是特定关系空间,而不是超平面;在TransR中,一个实体拥有多种属性,而每种属性对应一个不同的关系;实体表示成在实体空间中的向h,t,Mr,该空间即维度为k的实数空间
Figure BDA0003910685140000065
每个关系和一个特定实数空间
Figure BDA0003910685140000071
相关联,并被表示成在这个空间中的向量。在
Figure BDA0003910685140000072
空间得到实体向量的投影,即给定一个事实(h,r,t),实体向量h、t被投影在关系r的空间中,有
Figure BDA0003910685140000073
其中,Mr为从实体空间到关系空间r的投影向量,
Figure BDA0003910685140000074
如图5所示; TransR的得分函数定义为
Figure BDA0003910685140000075
本实施例中,所述随机游走算法,包括步骤:
特征提取:首先将知识图谱编码为多关系图,给定一对实体(h,t),通过随机游走找到路径,并记录从头实体h开始到尾实体t出以有界长度结束的所有路径,选择以组路径作为特征;
特征计算:选择路径要素后,给定实体对(h,t)和路径Q,将特征值计算为随机游走概率p(t|h,Q);随机游走计算过程采用现有技术,在此不加以赘述。
特定关系的分类:为每个关系训练一个单独的分类器,判断两个实体是否为同一关系链路。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:包括步骤:
S1.采集用户行为历史数据;
S2.对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;
S3.对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;
S4.对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测,完善知识图谱;
S5.通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系。
2.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。
3.根据权利要求2所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述非结构化数据的采集方法为:获取目标文本图像,并对图像进行OCR识别,得到识别文本,在对识别文本进行文本信息识别,以提取出目标文本图像中的人员数据。
4.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述步骤S3,采用BootStrapping算法,通过利用少量人员-行为关系实例人工构造的初始种子集合,生成初始种子的关系三元组,然后利用该三元组识别训练文本中的实体,再利用模式学习方法,通过不断迭代,产生新的关系实例,根据新的关系实例增加新的种子,不断扩充种子集合的规模,同时将新的关系实例扩展到知识库中。
5.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述步骤S4,对缺失信息的预测方法为:通过对图谱中的头尾实体和关系进行知识表示,再将知识表示后的信息通过距离模型进行嵌入表示,数据结构便转化为了向量化的表示,根据向量化的表示对缺失信息进行预测。
6.根据权利要求5所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述距离模型包括TransE模型、TransH模型以及TransR模型。
7.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述随机游走算法,包括步骤:
特征提取:首先将知识图谱编码为多关系图,给定一对实体(h,t),通过随机游走找到路径,并记录从头实体h开始到尾实体t出以有界长度结束的所有路径,选择以路径作为特征;
特征计算:选择路径要素后,给定实体对(h,t)和路径Q,将特征值计算为随机游走概率p(t|h,Q);
特定关系的分类:为每个关系训练一个单独的分类器,判断两个实体是否为同一关系链路。
CN202211321496.3A 2022-10-26 2022-10-26 基于深度学习的人员行为特征知识图谱构建与分析方法 Pending CN115510248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211321496.3A CN115510248A (zh) 2022-10-26 2022-10-26 基于深度学习的人员行为特征知识图谱构建与分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211321496.3A CN115510248A (zh) 2022-10-26 2022-10-26 基于深度学习的人员行为特征知识图谱构建与分析方法

Publications (1)

Publication Number Publication Date
CN115510248A true CN115510248A (zh) 2022-12-23

Family

ID=84512219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211321496.3A Pending CN115510248A (zh) 2022-10-26 2022-10-26 基于深度学习的人员行为特征知识图谱构建与分析方法

Country Status (1)

Country Link
CN (1) CN115510248A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739641A (zh) * 2023-06-26 2023-09-12 广东粤贸全球科技有限公司 一种跨境电商知识图谱分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739641A (zh) * 2023-06-26 2023-09-12 广东粤贸全球科技有限公司 一种跨境电商知识图谱分析方法及系统
CN116739641B (zh) * 2023-06-26 2023-12-12 广东粤贸全球科技有限公司 一种跨境电商知识图谱分析方法及系统

Similar Documents

Publication Publication Date Title
US6466929B1 (en) System for discovering implicit relationships in data and a method of using the same
US7716148B2 (en) Processing mixed numeric and symbolic data encodings using scaling at one distance of at least one dimension, clustering, and a signpost transformation
US11631032B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
JP2016134175A (ja) ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
US20200034605A1 (en) Intelligent persona generation
CN109886334A (zh) 一种隐私保护的共享近邻密度峰聚类方法
Silvestre et al. Feature selection for clustering categorical data with an embedded modelling approach
CN110489997A (zh) 一种基于模式匹配算法的敏感信息脱敏方法
CN115510248A (zh) 基于深度学习的人员行为特征知识图谱构建与分析方法
CN114692593A (zh) 一种网络信息安全监测预警方法
CN115187066A (zh) 风险识别方法、装置、电子设备及存储介质
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
Shayegan et al. A New Dataset Size Reduction Approach for PCA‐Based Classification in OCR Application
Shen et al. Equiangular basis vectors
Sun et al. Boosting object detection using feature selection
CN109918544B (zh) 基于粗糙集的职务犯罪社会关系网络智能分析方法及系统
Yu et al. Research on face recognition method based on deep learning
CN113920573B (zh) 基于对抗学习的人脸变化解耦的亲属关系验证方法
Kiang et al. A comparative analysis of an extended SOM network and K-means analysis
CN112287996B (zh) 一种基于机器学习的重大事件关键因子挖掘方法
Balazia et al. How unique is a face: An investigative study
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
Sullabi et al. Fingerprint classification technique using gradient-based method for singular points detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination