CN115510248A - 基于深度学习的人员行为特征知识图谱构建与分析方法 - Google Patents
基于深度学习的人员行为特征知识图谱构建与分析方法 Download PDFInfo
- Publication number
- CN115510248A CN115510248A CN202211321496.3A CN202211321496A CN115510248A CN 115510248 A CN115510248 A CN 115510248A CN 202211321496 A CN202211321496 A CN 202211321496A CN 115510248 A CN115510248 A CN 115510248A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge graph
- user
- information
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,包括步骤:S1采集用户行为历史数据;S2对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;S3对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;S4对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测,完善知识图谱;S5通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系。能够快速的对潜在关系进行梳理,得到特定人员之间以及不同实体之间的关联信息,对隐藏问题进行排查。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于深度学习的人员行为特征知识图谱构建与分析方法。
背景技术
了解企业人员的行为是内部管理的基础。通过合理、系统的客户行为特征分析,企业可以知道不同的企业人员有着什么样的需求,分析企业人员特征与公司系统的关系,使团队内部人员的行为得到最优的规划;从而避免人员的不良行为影响企业的发展,使企业得到快速的发展。
目前,在企业人员行为特征分析中,可以通过公开的网站对注册用户的浏览习惯等进行统计,通过相关文献和调研可以较容易地得到客户行为特征。在具有实体的企业中,调研人员往往通过问卷调查等方式了解企业人员的行为特征等信息。
有的网站虽然能够通过自动化识别的信号采集设备采集客户信息,但具备连锁店的实体店铺间获得的信息分散,无法得到针对整个企业的全面的客户行为特征分析结果,因此降低了客户行为特征分析的利用价值。
为了能够快速的解决上述问题,需要提供一种自动化识别算法,对特定人员的行为进行分析监督。
发明内容
有鉴于此,本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,可利用现有检索到的非结构数据,将非结构数据中的实体数据以及实体关系数据提取出来,构建出更为完善的人员信息知识图谱,方便使用者实时查询、了解相关信息,对人员关系进行追踪,本发明还可以快速的对潜在关系进行梳理,得到特定人员之间以及不同实体之间的关联信息,对隐藏问题进行排查。
本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,包括步骤:
S1.采集用户行为历史数据;
S2.对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;
S3.对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;
S4.对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测,完善知识图谱;
S5.通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系,从而得到人员间的潜在关系。
进一步,所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。
进一步,所述非结构化数据的采集方法为:获取目标文本图像,并对图像进行OCR识别,得到识别文本,在对识别文本进行文本信息识别,以提取出目标文本图像中的人员数据。
进一步,所述步骤S3,采用BootStrapping算法,通过利用少量人员-行为关系实例人工构造的初始种子集合,生成初始种子的关系三元组,然后利用该三元组识别训练文本中的实体,再利用模式学习方法,通过不断迭代,产生新的关系实例,根据新的关系实例增加新的种子,不断扩充种子集合的规模,同时将新的关系实例扩展到知识库中。
进一步,所述步骤S4,对缺失信息的预测方法为:通过对图谱中的头尾实体和关系进行知识表示,再将知识表示后的信息通过距离模型进行嵌入表示,数据结构便转化为了向量化的表示,根据向量化的表示对缺失信息进行预测。
进一步,所述距离模型包括TransE模型、TransH模型以及TransR模型。
进一步,所述随机游走算法,包括步骤:
特征提取:首先将知识图谱编码为多关系图,给定一对实体(h,t),通过随机游走找到路径,并记录从头实体h开始到尾实体t出以有界长度结束的所有路径,选择以组路径作为特征;
特征计算:选择路径要素后,给定实体对(h,t)和路径Q,将特征值计算为随机游走概率p(t|h,Q);
特定关系的分类:为每个关系训练一个单独的分类器,判断两个实体是否为同一关系链路。
本发明有以下有益效果:
本发明提供的一种基于深度学习的人员行为特征知识图谱构建与分析方法,可以利用现有检索到的非结构数据,将非结构数据中的实体数据以及实体关系数据提取出来,构建出更为完善的人员信息知识图谱,方便使用者实时查询、了解相关信息,对人员关系进行追踪,并且,本发明能够快速的对潜在关系进行梳理,得到特定人员之间以及不同实体之间的关联信息,对隐藏问题进行排查。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为基于深度学习的人员行为特征知识图谱构建与分析方法流程图;
图2为基于深度学习的人员行为特征知识图谱构建方法原理图;
图3为TransE模型图;
图4为TransH模型图;
图5为TransR模型图。
具体实施方式
本发明提供了一种基于深度学习的人员行为特征知识图谱构建与分析方法,包括步骤:
S1.采集用户行为历史数据,所述行为历史数据包括消费、网站浏览等行为;用户行为历史数据可以通过企业提供的电子文档和公开的数据中得到;
S2.对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;
S3.对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;
S4.对知识图谱的头实体缺失、关系缺失和尾体缺失进行预测,完善知识图谱;
S5.通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系,从而得到特定人员之间以及不同实体之间的关联信息。
本实施例中,所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。
本实施例中,所述非结构化数据的采集方法为:获取目标文本图像,并对图像进行OCR识别,得到识别文本,在对识别文本进行文本信息识别,以提取出目标文本图像中的人员数据;
所述的OCR识别方法包括预处理、特征提取以及分类识别器;
该预处理包括灰度化、降噪、二值化、字符切分和归一化,经过二值化后,图像只剩下两种颜色,其中一个是图像背景,另一个颜色就是要识别的文字了;通过降噪算法减少特征干扰,通过将图像中的文字分割成单个文字,针对文字行有倾斜的话往往还要进行倾斜校正,最后通过时限通过将单个的文字图像规整到同样的尺寸,在同一个规格下;
所述特征提取为通过对预处理之后的文字信息进行提取,的到文字关键信息;并对特征的维数高的特征进行降维处理;
所述分类识别器对降维后的特征进行分类,得到具体识别结果。
本实施例中,所述步骤S3,采用BootStrapping算法,通过利用少量人员 -行为关系实例人工构造的初始种子集合,生成初始种子的关系三元组,然后利用该三元组识别训练文本中的实体,再利用模式学习方法,通过不断迭代,产生新的关系实例,根据新的关系实例增加新的种子,不断扩充种子集合的规模,同时将新的关系实例扩展到知识库中。
本实施例中,所述步骤S4,对缺失信息的预测方法为:通过对图谱中的头尾实体和关系进行知识表示,再将知识表示后的信息通过距离模型进行嵌入表示,数据结构便转化为了向量化的表示,根据向量化的表示对缺失信息进行预测。
本实施例中,所述距离模型包括TransE模型、TransH模型以及TransR模型,具体为:
TransE模型如图3所示:
对于每一个三元组(h,r,t),TransE在向量空间中将关系向量r作为头实体向量h到尾实体t的操作,在向量空间中,TransE希望每个成立的三元组(h,r,t)的向量表示均满足目标h+r≈t,根据这个目标,TransE的评分函数为:
TransH模型如图3所示:
TransH将实体表示成向量,将每个关系r表示成在以wr为法向量的超平面上的向量r,给定一个事实(h,r,t),实体向量h,t首先被投影在超平面上,即
如果(h,r,t)成立,假设两个投影通过超平面上的r以较小的误差连接,即 h⊥+r≈t⊥h则得分函数定义为:
约束条件为
TransR模型如图4所示;
TransR和TransH理念相似,但其引入的是特定关系空间,而不是超平面;在TransR中,一个实体拥有多种属性,而每种属性对应一个不同的关系;实体表示成在实体空间中的向h,t,Mr,该空间即维度为k的实数空间
本实施例中,所述随机游走算法,包括步骤:
特征提取:首先将知识图谱编码为多关系图,给定一对实体(h,t),通过随机游走找到路径,并记录从头实体h开始到尾实体t出以有界长度结束的所有路径,选择以组路径作为特征;
特征计算:选择路径要素后,给定实体对(h,t)和路径Q,将特征值计算为随机游走概率p(t|h,Q);随机游走计算过程采用现有技术,在此不加以赘述。
特定关系的分类:为每个关系训练一个单独的分类器,判断两个实体是否为同一关系链路。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:包括步骤:
S1.采集用户行为历史数据;
S2.对用户行为历史数据进行处理,过滤掉不完整的数据以及垃圾无用数据,对过滤之后的数据进行信息抽取,建立用户行为特征集;
S3.对用户行为特征集进行分析,提取用户经常浏览的行为信息,再综合用户个人基本信息,建立用户大数据,根据用户大数据构建三元组数据,得到知识图谱的初步模型;
S4.对知识图谱的头实体缺失、关系缺失和尾体缺失的信息进行预测,完善知识图谱;
S5.通过基于逻辑规则的随机游走算法以及所有三元组,推断不同三元组之间的隐藏关系。
2.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述采集的用户行为历史数据包括结构化数据、半结构化数据和非结构化数据。
3.根据权利要求2所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述非结构化数据的采集方法为:获取目标文本图像,并对图像进行OCR识别,得到识别文本,在对识别文本进行文本信息识别,以提取出目标文本图像中的人员数据。
4.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述步骤S3,采用BootStrapping算法,通过利用少量人员-行为关系实例人工构造的初始种子集合,生成初始种子的关系三元组,然后利用该三元组识别训练文本中的实体,再利用模式学习方法,通过不断迭代,产生新的关系实例,根据新的关系实例增加新的种子,不断扩充种子集合的规模,同时将新的关系实例扩展到知识库中。
5.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述步骤S4,对缺失信息的预测方法为:通过对图谱中的头尾实体和关系进行知识表示,再将知识表示后的信息通过距离模型进行嵌入表示,数据结构便转化为了向量化的表示,根据向量化的表示对缺失信息进行预测。
6.根据权利要求5所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述距离模型包括TransE模型、TransH模型以及TransR模型。
7.根据权利要求1所述的基于深度学习的人员行为特征知识图谱构建与分析方法,其特征在于:所述随机游走算法,包括步骤:
特征提取:首先将知识图谱编码为多关系图,给定一对实体(h,t),通过随机游走找到路径,并记录从头实体h开始到尾实体t出以有界长度结束的所有路径,选择以路径作为特征;
特征计算:选择路径要素后,给定实体对(h,t)和路径Q,将特征值计算为随机游走概率p(t|h,Q);
特定关系的分类:为每个关系训练一个单独的分类器,判断两个实体是否为同一关系链路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211321496.3A CN115510248A (zh) | 2022-10-26 | 2022-10-26 | 基于深度学习的人员行为特征知识图谱构建与分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211321496.3A CN115510248A (zh) | 2022-10-26 | 2022-10-26 | 基于深度学习的人员行为特征知识图谱构建与分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115510248A true CN115510248A (zh) | 2022-12-23 |
Family
ID=84512219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211321496.3A Pending CN115510248A (zh) | 2022-10-26 | 2022-10-26 | 基于深度学习的人员行为特征知识图谱构建与分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115510248A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739641A (zh) * | 2023-06-26 | 2023-09-12 | 广东粤贸全球科技有限公司 | 一种跨境电商知识图谱分析方法及系统 |
-
2022
- 2022-10-26 CN CN202211321496.3A patent/CN115510248A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739641A (zh) * | 2023-06-26 | 2023-09-12 | 广东粤贸全球科技有限公司 | 一种跨境电商知识图谱分析方法及系统 |
CN116739641B (zh) * | 2023-06-26 | 2023-12-12 | 广东粤贸全球科技有限公司 | 一种跨境电商知识图谱分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6466929B1 (en) | System for discovering implicit relationships in data and a method of using the same | |
US7716148B2 (en) | Processing mixed numeric and symbolic data encodings using scaling at one distance of at least one dimension, clustering, and a signpost transformation | |
US11631032B2 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
JP2016134175A (ja) | ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN112926045B (zh) | 一种基于逻辑回归模型的群控设备识别方法 | |
US20200034605A1 (en) | Intelligent persona generation | |
CN109886334A (zh) | 一种隐私保护的共享近邻密度峰聚类方法 | |
Silvestre et al. | Feature selection for clustering categorical data with an embedded modelling approach | |
CN110489997A (zh) | 一种基于模式匹配算法的敏感信息脱敏方法 | |
CN115510248A (zh) | 基于深度学习的人员行为特征知识图谱构建与分析方法 | |
CN114692593A (zh) | 一种网络信息安全监测预警方法 | |
CN115187066A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
CN114971294A (zh) | 数据采集方法、装置、设备及存储介质 | |
Shayegan et al. | A New Dataset Size Reduction Approach for PCA‐Based Classification in OCR Application | |
Shen et al. | Equiangular basis vectors | |
Sun et al. | Boosting object detection using feature selection | |
CN109918544B (zh) | 基于粗糙集的职务犯罪社会关系网络智能分析方法及系统 | |
Yu et al. | Research on face recognition method based on deep learning | |
CN113920573B (zh) | 基于对抗学习的人脸变化解耦的亲属关系验证方法 | |
Kiang et al. | A comparative analysis of an extended SOM network and K-means analysis | |
CN112287996B (zh) | 一种基于机器学习的重大事件关键因子挖掘方法 | |
Balazia et al. | How unique is a face: An investigative study | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
Sullabi et al. | Fingerprint classification technique using gradient-based method for singular points detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |