CN116701725B - 基于深度学习的工程师人员数据画像处理方法 - Google Patents
基于深度学习的工程师人员数据画像处理方法 Download PDFInfo
- Publication number
- CN116701725B CN116701725B CN202310993188.3A CN202310993188A CN116701725B CN 116701725 B CN116701725 B CN 116701725B CN 202310993188 A CN202310993188 A CN 202310993188A CN 116701725 B CN116701725 B CN 116701725B
- Authority
- CN
- China
- Prior art keywords
- dimension
- important
- vectors
- vector
- saliency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 254
- 239000011159 matrix material Substances 0.000 claims abstract description 52
- 230000009467 reduction Effects 0.000 claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及基于深度学习的工程师人员数据画像处理方法,包括:通过聚类获得重要数据集和普通数据集;对重要数据集和每个维度数据集进行聚类,获得重要数据集和每个维度数据集的所有类簇的类簇中心向量;计算所有重要向量的全维度突出性和在每个维度的维度突出性;根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性;获得降维矩阵;根据降维矩阵对所有高维向量进行降维,获得降维向量;根据降维向量训练识别神经网络,对工程师的技能评级和专业领域进行预测,实现对工程师的人员数据画像。本发明在降低识别神经网络的输入的数据量的同时,不影响识别神经网络的预测识别能力。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于深度学习的工程师人员数据画像处理方法。
背景技术
现有技术往往通过训练识别神经网络的方法对工程师人员数据进行画像处理,通过对工程师的教育背景、工作经历等人员数据进行分析,得到工程师的技能评级和专业领域的预测结果,在对识别神经网络进行训练时,维度越高的人员数据包含的工程师的信息越多,越有利于训练出准确性高的识别神经网络,识别神经网络的输入数据的维度往往较高,但同时会导致输入的数据量较大,信息较为混乱,输入的数据中并不是所有维度的数据都对技能评级结果有较大的正面增益。
为了在降低识别神经网络的输入的数据量的同时,不影响识别神经网络的预测识别能力,需要去除识别神经网络的输入中不必要的维度数据,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据。
发明内容
本发明提供基于深度学习的工程师人员数据画像处理方法,以解决现有的问题。
本发明的基于深度学习的工程师人员数据画像处理方法采用如下技术方案:
本发明提供了基于深度学习的工程师人员数据画像处理方法,该方法包括:
将采集的工程师的人员数据转换为高维向量,通过聚类将所有高维向量划分为重要数据集和普通数据集;将所有重要向量的每个维度的数据值组成的数据集记为维度数据集;
分别对重要数据集和每个维度数据集进行聚类,获得重要数据集和每个维度数据集的所有类簇的类簇中心向量;
根据重要数据集和每个维度数据集的所有类簇的类簇中心向量,计算所有重要向量的全维度突出性和所有重要向量在每个维度的维度突出性;
根据所有重要向量的全维度突出性和所有重要向量在每个维度的维度突出性,获得全维度突出性序列和每个维度突出性序列;
根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性;根据重要性获得保留维度,根据保留维度获得降维矩阵;
根据降维矩阵对所有高维向量进行降维,获得降维向量;根据降维向量训练识别神经网络,对工程师的技能评级和专业领域进行预测,实现对工程师的人员数据画像。
进一步地,所述通过聚类将所有高维向量划分为重要数据集和普通数据集,包括的具体步骤如下:
通过密度聚类算法对所有高维向量进行聚类,获得若干个类别以及每个类别的类别中心向量,将每个类别中与类别中心向量的余弦相似度小于预设相似度阈值y1的高维向量,记为该类别的重要向量,将所有类别的重要向量组成的数据集记为重要数据集,将剩余所有高维向量组成的数据集记为普通数据集;按照采集顺序对重要数据集中所有重要向量进行排序,获得每个重要向量的序号。
进一步地,所述获得重要数据集和每个维度数据集的所有类簇的类簇中心向量,包括的具体步骤如下:
将重要数据集中所有重要向量划分为若干个类簇,要求每个类簇中任意两个重要向量的全维度距离大于预设距离阈值;对于任意一个类簇,计算每个重要向量与该类簇中其他所有重要向量的全维度距离之和,将该类簇中与该类簇中其他所有重要向量的距离之和最大的重要向量记为该类簇的类簇中心向量;
将维度数据集中所有重要向量划分为若干个类簇,要求每个类簇中任意两个重要向量的维度距离大于预设距离阈值;对于任意一个类簇,计算每个重要向量与该类簇中其他所有重要向量的维度距离之和,将该类簇中与该类簇中其他所有重要向量的维度距离之和最大的重要向量记为该类簇的类簇中心向量。
进一步地,所述全维度距离的获取方法具体如下:
对于重要数据集,获得重要数据集中任意两个重要向量的余弦相似度,将1与余弦相似度的差值作为任意两个重要向量的全维度距离。
进一步地,所述维度距离的获取方法具体如下:
对于每个维度数据集,获得维度数据集中任意两个重要向量的数据值的比值,比值是指两个重要向量的数据值中最小的数据值与最大的数据值的比值,将1与比值的差值作为任意两个重要向量的维度距离。
进一步地,所述计算所有重要向量的全维度突出性和所有重要向量在每个维度的维度突出性,包括的具体步骤如下:
将重要数据集的每个类簇中心向量的全维度突出性记为1,将每个重要向量与类簇中心向量的余弦相似度记为每个重要向量的全维度突出性;
将每个维度数据集的每个类簇中心向量的维度突出性记为1,将每个重要向量的数据值与类簇中心向量的数据值的比值记为每个重要向量的维度突出性。
进一步地,所述获得全维度突出性序列和每个维度突出性序列,包括的具体步骤如下:
将重要数据集中所有重要向量按照全维度突出性从小到大的顺序排列,对于全维度突出性相同的重要向量,则按照重要向量的序号从小到大的顺序排列,将排列后所有重要向量组成的序列记为重要向量序列;将重要向量序列中所有重要向量的全维度突出性组成的序列记为全维度突出性序列,将重要向量序列中所有重要向量的每个维度突出性组成的序列记为维度突出性序列,共有N个维度突出性序列,N表示高维向量的维度。
进一步地,所述根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性,包括的具体步骤如下:
式中,表示第i个维度的重要性,/>表示第i个维度突出性序列中第j个维度突出性,/>表示全维度突出性序列中第j个全维度突出性,/>表示取绝对值,/>表示第i个维度突出性序列,D表示全维度突出性序列,/>表示DTW距离,/>表示取最大值,表示第i个维度突出性序列与全维度突出性序列的平均差异,表示第i个维度突出性序列与全维度突出性序列的分布一致性。
进一步地,所述根据重要性获得保留维度,根据保留维度获得降维矩阵,包括的具体步骤如下:
将重要性大于重要性阈值y3的维度作为保留维度;
将重要数据集中的每个重要向量作为矩阵的一行,将每个重要向量的每个维度的数据值作为矩阵中每一行的每个元素,将矩阵记为初始矩阵;将重要数据集中的每个重要向量作为矩阵的一行,将每个重要向量的每个保留维度的数据值作为矩阵中每一行的每个元素,将矩阵记为结果矩阵;计算结果矩阵与初始矩阵的逆矩阵的乘积作为降维矩阵。
进一步地,所述根据降维矩阵对所有高维向量进行降维,获得降维向量,包括的具体步骤如下:
将重要数据集中每个重要向量的保留维度组成的向量记为每个重要向量的降维结果,记为降维向量;将每个高维向量与降维矩阵的乘积作为每个高维向量的降维结果,记为降维向量。
本发明的技术方案的有益效果是:针对根据工程师的人员数据对工程师的技能评级和专业领域进行预测的识别神经网络,在进行训练时,并不是所有维度的数据都对预测结果有较大的正面增益,反而会导致信息混乱的问题,本发明通过高维数据间的不相似度分别对重要数据集和每个维度数据集进行聚类,获得重要数据集和每个维度数据集的聚类结果,使得聚类中心的突出性大,根据聚类结果计算每个高维向量的突出性,根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性,进而将重要性大的维度保留,根据保留的维度获得降维矩阵,通过降维矩阵对高维数据进行降维,保留对预测结果有较大的正面增益的维度,去除识别神经网络的输入中不必要的维度数据,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据,在降低识别神经网络的输入的数据量的同时,不影响识别神经网络的预测识别能力,大大提高了识别神经网络的预测识别能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于深度学习的工程师人员数据画像处理方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于深度学习的工程师人员数据画像处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于深度学习的工程师人员数据画像处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于深度学习的工程师人员数据画像处理方法的数据传输模块的方法流程图,该方法包括:
S001,将采集人员数据转换为高维向量,通过聚类将所有高维向量划分为重要数据集和普通数据集。
需要说明的是,现有技术往往通过训练识别神经网络的方法对工程师人员数据进行画像处理,通过对工程师的教育背景、工作经历等人员数据进行分析,得到工程师的技能评级和专业领域的预测结果,在对识别神经网络进行训练时,维度越高的人员数据包含的工程师的信息越多,越有利于训练出准确性高的识别神经网络,识别神经网络的输入数据的维度往往较高,但同时会导致输入的数据量较大,信息较为混乱,输入的数据中并不是所有维度的数据都对技能评级结果有较大的正面增益。为了在降低识别神经网络的输入的数据量的同时,不影响识别神经网络的预测识别能力,需要去除识别神经网络的输入中不必要的维度数据,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据。
具体的,采集与工程师相关的若干条人员数据,每条人员数据包括个人信息、教育背景、工作经历、技能标签、项目经验等N个维度,通过词袋模型将每条人员数据转化为向量形式,得到若干个高维向量;词袋模型为现有技术,此处不再进行赘述。
在采集每条人员数据时,需要获得每位人员在技能评级和专业领域的标签,作为每条人员数据对应的高维向量的标签;其中,技能评级包括6个标签,分别为:编程语言熟练度、数据分析和处理、机器学习和深度学习、算法和数据结构、软件工程和版本控制、数据库管理,专业领域包括6个标签,分别为:计算机视觉、自然语言处理、数据科学和分析、嵌入式系统、云计算和大数据、网络安全。
需要说明的是,为了去除RNN识别网络的输入中不必要的维度数据,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据,需要通过密度聚类的方法得到不同的聚类类别,根据高维向量与类别中心的相似性,去除相似度大的高维向量,保留具有突出性的高维向量。
预设一个相似度阈值y1,其中本实施例以y1=0.8为例进行叙述,本实施例不进行具体限定,其y1根据具体实施情况而定。
进一步,通过密度聚类算法对所有高维向量进行聚类,获得若干个类别以及每个类别的类别中心向量,将每个类别中与类别中心向量的余弦相似度小于预设相似度阈值y1的高维向量,记为该类别的重要向量,将所有类别的重要向量组成的数据集记为重要数据集,将剩余所有高维向量组成的数据集记为普通数据集;按照采集顺序对重要数据集中所有重要向量进行排序,获得每个重要向量的序号。
S002,根据全维度距离对重要数据集进行聚类,获得重要数据集的所有类簇的类簇中心向量,计算所有重要向量的全维度突出性,根据维度距离对维度数据集进行聚类,获得维度数据集在每个维度的所有类簇的类簇中心向量,计算所有重要向量在每个维度的维度突出性。
1、根据全维度距离对重要数据集进行聚类,获得重要数据集的所有类簇的类簇中心向量,计算所有重要向量的全维度突出性。
需要说明的是,本实施例的目的是对高维数据进行降维,使得降维后数据保留一个特性:原本数据中突出性较大的数据在降维后,突出性也较大,因此首先要计算得到哪个维度的重要性较大,即该维度中存在了较多的高维数据的突出性信息,进而使得降维后数据保留较多的该维度的信息,使得降维达到高维数据的突出性保留的目的,由于是降维,因此可以通过单维度聚类与所有维度的聚类结果中高维数据突出性的一致性大小,得到每个维度的重要性。其中,突出性是指某条数据与其它数据相比差异较大,与越多的数据差异较大,该条数据的突出性越大。例如:数据A与其它数据的差异都很大,而数据B与其它数据的差异都很小,则数据A的突出性较大,突出性即与其它数据相比,不一样的性质越大,突出性越大。
进一步需要说明的是,要通过聚类得到高维数据的突出性,由于突出性表示该高维数据的值与其它高维数据相差较大,因此需要通过某种构造,使得突出程度越大的高维数据越集中在类别中心附近;要达到这个目的,可以通过计算其它高维数据与该高维数据的相似性,根据不相似度(不相似度等于1减去相似度)进行聚类,使得越靠近类别中心的高维数据的突出性越大,通常通过余弦相似性来表示高维数据的相似性。
预设一个距离阈值y2,其中本实施例以y2=0.7为例进行叙述,本实施例不进行具体限定,其y2根据具体实施情况而定。
具体的,对于重要数据集,获得重要数据集中任意两个重要向量的余弦相似度,将1与余弦相似度的差值作为任意两个重要向量的全维度距离;根据全维度距离对重要数据集进行聚类,获得重要数据集的所有类簇的类簇中心向量,具体为:将重要数据集中所有重要向量划分为若干个类簇,要求每个类簇中任意两个重要向量的全维度距离大于预设距离阈值;对于任意一个类簇,计算每个重要向量与该类簇中其他所有重要向量的全维度距离之和,将该类簇中与该类簇中其他所有重要向量的全维度距离之和最大的重要向量记为该类簇的类簇中心向量。
进一步,将重要数据集的每个类簇中心向量的全维度突出性记为1,将每个重要向量与类簇中心向量的余弦相似度记为每个重要向量的全维度突出性。
2、根据维度距离对维度数据集进行聚类,获得维度数据集在每个维度的所有类簇的类簇中心向量,计算所有重要向量在每个维度的维度突出性。
需要说明的是,为了在降低RNN识别网络的输入的数据量的同时,不影响RNN识别网络的预测识别能力,需要去除RNN识别网络的输入中不必要的维度数据,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据,因此,需要获得能够表征高维数据的突出性信息的维度,在所有维度即全维度下,高维数据的突出性是一种情况,在单个维度下,高维数据数据的突出性情况与所有维度下的情况越相近,则该维度越能体现所有维度的突出性信息,将该维度作为重要维度,进而将所有维度的数据转换到重要维度上,实现对高维数据的降维。因此,需要获得高维数据在每个维度上的突出性;要达到这个目的,可以通过计算其它高维数据与该高维数据在每个维度的相似性,根据不相似度(不相似度等于1减去相似度)进行聚类,使得越靠近类别中心的高维数据在每个维度的突出性越大,通常通过两个数据值的比值来表示一维数据(高维数据的每个维度)的相似性。
具体的,将所有重要向量的每个维度的数据值组成的数据集记为维度数据集,共获得N个维度数据集,N表示高维向量的维度;对于每个维度数据集,获得维度数据集中任意两个重要向量的数据值的比值,比值是指两个重要向量的数据值中最小的数据值与最大的数据值的比值,将1与比值的差值作为任意两个重要向量的维度距离;根据维度距离对维度数据集进行聚类,获得维度数据集的所有类簇的类簇中心向量,具体为:将维度数据集中所有重要向量划分为若干个类簇,要求每个类簇中任意两个重要向量的维度距离大于预设距离阈值;对于任意一个类簇,计算每个重要向量与该类簇中其他所有重要向量的维度距离之和,将该类簇中与该类簇中其他所有重要向量的维度距离之和最大的重要向量记为该类簇的类簇中心向量。
进一步,将每个维度数据集的每个类簇中心向量的维度突出性记为1,将每个重要向量的数据值与类簇中心向量的数据值的比值记为每个重要向量的维度突出性。
S003,根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性;根据重要性获得保留维度,根据保留维度获得降维矩阵。
需要说明的是,在所有维度即全维度下,高维数据的突出性是一种情况,在单个维度下,高维数据数据的突出性情况与所有维度下的情况越相近,则该维度越能体现所有维度的突出性信息,将该维度作为重要维度,进而将所有维度的数据转换到重要维度上,根据重要维度构建降维矩阵,通过降维矩阵对普通数据集和重要数据集中的高维向量进行降维处理,实现对高维数据的降维;去除不必要的维度数据,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据,在降低RNN识别网络的输入的数据量的同时,不影响RNN识别网络的预测识别能力。
1、根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性。
需要说明的是,对于单个维度来说,高维数据在某个维度的突出性与高维数据在全维度的突出性越相近,则该维度可以体现越多的整体信息,进而可以用单维度的信息来表示整体信息,即该维度越重要。判断高维数据在某个维度的突出性与高维数据在全维度的突出性是否相近,需要计算高维数据在单个维度与全维度的突出性的分布一致性,DTW距离可以用于计算两个具有相近变化趋势的数据的相似度,因此可以通过DTW距离计算得到趋势相似度,即相对分布一致性,然后结合相同高维数据的突出性的平均差异得到每个维度的重要性。
具体的,将重要数据集中所有重要向量按照全维度突出性从小到大的顺序排列,对于全维度突出性相同的重要向量,则按照重要向量的序号从小到大的顺序排列,将排列后所有重要向量组成的序列记为重要向量序列;将重要向量序列中所有重要向量的全维度突出性组成的序列记为全维度突出性序列,将重要向量序列中所有重要向量的每个维度突出性组成的序列记为维度突出性序列,共有N个维度突出性序列,N表示高维向量的维度。
根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性,具体的计算公式如下:
式中,表示第i个维度的重要性,/>表示第i个维度突出性序列中第j个维度突出性,/>表示全维度突出性序列中第j个全维度突出性,/>表示取绝对值,/>表示第i个维度突出性序列,D表示全维度突出性序列,/>表示DTW距离,/>表示取最大值,表示第i个维度突出性序列与全维度突出性序列的平均差异,表示第i个维度突出性序列与全维度突出性序列的分布一致性。
表示第i个维度突出性序列中第j个维度突出性与全维度突出性序列中第j个全维度突出性的差异,该值越小,则第j个维度突出性与第j个全维度突出性越相近;/>表示第i个维度突出性序列中所有维度突出性与全维度突出性序列中所有全维度突出性的平均差异,用来表征第i个维度突出性序列与全维度突出性序列的整体相近情况,该值越小,对于单个维度来说,高维数据在某个维度的突出性与高维数据在全维度的突出性越相近,则该维度可以体现越多的整体信息,进而可以用单维度的信息来表示整体信息,即该维度越重要,该维度的重要性越大。
表示第i个维度突出性序列与全维度突出性序列的分布一致性,该值越小,则第i个维度突出性序列与全维度突出性序列越相似,分布一致性越大,对于单个维度来说,高维数据在某个维度的突出性与高维数据在全维度的突出性的分布越相似,则该维度可以体现越多的整体信息,进而可以用单维度的信息来表示整体信息,即该维度越重要,该维度的重要性越大。
用于对/>进行归一化,加1是为了避免分母为0。
2、根据重要性获得保留维度,根据保留维度获得降维矩阵。
需要说明的是,每个维度的重要性越大,则该维度可以体现越多的整体信息,将高维数据转换到重要性大的维度上,在去除不必要的维度数据的同时,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据,因此,根据重要性大的维度组成降维矩阵,进而通过降维矩阵对高维数据进行降维处理,在降低RNN识别网络的输入的数据量的同时,不影响RNN识别网络的预测识别能力。
预设一个重要性阈值y3,其中本实施例以y3=0.7为例进行叙述,本实施例不进行具体限定,其y3根据具体实施情况而定。
具体的,计算所有维度的重要性,将重要性大于重要性阈值y3的维度作为保留维度;将重要数据集中的每个重要向量作为矩阵的一行,将每个重要向量的每个维度的数据值作为矩阵中每一行的每个元素,将矩阵记为初始矩阵;将重要数据集中的每个重要向量作为矩阵的一行,将每个重要向量的每个保留维度的数据值作为矩阵中每一行的每个元素,将矩阵记为结果矩阵;计算结果矩阵与初始矩阵的逆矩阵的乘积作为降维矩阵。
S004,根据降维矩阵对所有高维向量进行降维,获得降维向量;根据降维向量训练识别神经网络,对工程师的技能评级和专业领域进行预测,实现对工程师的人员数据画像。
具体的,通过保留维度对重要数据集中的重要向量进行降维,具体为:将重要数据集中每个重要向量的保留维度组成的向量记为每个重要向量的降维结果,记为降维向量;通过降维矩阵对普通数据集中的高维向量进行降维,具体为:将每个高维向量与降维矩阵的乘积作为每个高维向量的降维结果,记为降维向量;
进一步,获得每个降维向量的标签编码,具体为:将降维向量对应的高维向量的标签转换为标签编码X,,如果降维向量对应的高维向量的标签中存在第k标签,则/>,否则,/>。
进一步,将所有降维向量及其标签编码作为样本数据集训练识别神经网络,识别神经网络采用RNN网络结构,输入数据为样本数据集中的样本(降维向量),输出数据为样本的标签编码X,输出数据是对降维向量对应的工程师的技能评级和专业领域的预测结果,标签编码对应技能评级和专业领域的所有标签,如果标签编码X中,则降维向量对应的工程师具有第k标签对应的能力,否则,降维向量对应的工程师不具有第k标签对应的能力,识别神经网络的损失函数为交叉熵损失函数。
将工程师的技能评级和专业领域的预测结果作为工程师的人员数据画像。
针对根据工程师的人员数据对工程师的技能评级和专业领域进行预测的识别神经网络,在进行训练时,并不是所有维度的数据都对预测结果有较大的正面增益,反而会导致信息混乱的问题,本发明通过高维数据间的不相似度分别对重要数据集和每个维度数据集进行聚类,获得重要数据集和每个维度数据集的聚类结果,使得聚类中心的突出性大,根据聚类结果计算每个高维向量的突出性,根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性,进而将重要性大的维度保留,根据保留的维度获得降维矩阵,通过降维矩阵对高维数据进行降维,保留对预测结果有较大的正面增益的维度,去除识别神经网络的输入中不必要的维度数据,保留可以体现出整体数据中每个高维数据的突出性信息的维度数据,在降低识别神经网络的输入的数据量的同时,不影响识别神经网络的预测识别能力,大大提高了识别神经网络的预测识别能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于深度学习的工程师人员数据画像处理方法,其特征在于,所述方法包括:
将采集的工程师的人员数据转换为高维向量,通过聚类将所有高维向量划分为重要数据集和普通数据集;将所有重要向量的每个维度的数据值组成的数据集记为维度数据集;
分别对重要数据集和每个维度数据集进行聚类,获得重要数据集和每个维度数据集的所有类簇的类簇中心向量;
根据重要数据集和每个维度数据集的所有类簇的类簇中心向量,计算所有重要向量的全维度突出性和所有重要向量在每个维度的维度突出性;
根据所有重要向量的全维度突出性和所有重要向量在每个维度的维度突出性,获得全维度突出性序列和每个维度突出性序列;
根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性;根据重要性获得保留维度,根据保留维度获得降维矩阵;
根据降维矩阵对所有高维向量进行降维,获得降维向量;根据降维向量训练识别神经网络,对工程师的技能评级和专业领域进行预测,实现对工程师的人员数据画像。
2.根据权利要求1所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述通过聚类将所有高维向量划分为重要数据集和普通数据集,包括的具体步骤如下:
通过密度聚类算法对所有高维向量进行聚类,获得若干个类别以及每个类别的类别中心向量,将每个类别中与类别中心向量的余弦相似度小于预设相似度阈值y1的高维向量,记为该类别的重要向量,将所有类别的重要向量组成的数据集记为重要数据集,将剩余所有高维向量组成的数据集记为普通数据集;按照采集顺序对重要数据集中所有重要向量进行排序,获得每个重要向量的序号。
3.根据权利要求1所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述获得重要数据集和每个维度数据集的所有类簇的类簇中心向量,包括的具体步骤如下:
将重要数据集中所有重要向量划分为若干个类簇,要求每个类簇中任意两个重要向量的全维度距离大于预设距离阈值;对于任意一个类簇,计算每个重要向量与该类簇中其他所有重要向量的全维度距离之和,将该类簇中与该类簇中其他所有重要向量的距离之和最大的重要向量记为该类簇的类簇中心向量;
将维度数据集中所有重要向量划分为若干个类簇,要求每个类簇中任意两个重要向量的维度距离大于预设距离阈值;对于任意一个类簇,计算每个重要向量与该类簇中其他所有重要向量的维度距离之和,将该类簇中与该类簇中其他所有重要向量的维度距离之和最大的重要向量记为该类簇的类簇中心向量。
4.根据权利要求3所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述全维度距离的获取方法具体如下:
对于重要数据集,获得重要数据集中任意两个重要向量的余弦相似度,将1与余弦相似度的差值作为任意两个重要向量的全维度距离。
5.根据权利要求3所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述维度距离的获取方法具体如下:
对于每个维度数据集,获得维度数据集中任意两个重要向量的数据值的比值,比值是指两个重要向量的数据值中最小的数据值与最大的数据值的比值,将1与比值的差值作为任意两个重要向量的维度距离。
6.根据权利要求1所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述计算所有重要向量的全维度突出性和所有重要向量在每个维度的维度突出性,包括的具体步骤如下:
将重要数据集的每个类簇中心向量的全维度突出性记为1,将每个重要向量与类簇中心向量的余弦相似度记为每个重要向量的全维度突出性;
将每个维度数据集的每个类簇中心向量的维度突出性记为1,将每个重要向量的数据值与类簇中心向量的数据值的比值记为每个重要向量的维度突出性。
7.根据权利要求1所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述获得全维度突出性序列和每个维度突出性序列,包括的具体步骤如下:
将重要数据集中所有重要向量按照全维度突出性从小到大的顺序排列,对于全维度突出性相同的重要向量,则按照重要向量的序号从小到大的顺序排列,将排列后所有重要向量组成的序列记为重要向量序列;将重要向量序列中所有重要向量的全维度突出性组成的序列记为全维度突出性序列,将重要向量序列中所有重要向量的每个维度突出性组成的序列记为维度突出性序列,共有N个维度突出性序列,N表示高维向量的维度。
8.根据权利要求1所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述根据每个维度突出性序列与全维度突出性序列的平均差异和分布一致性,计算每个维度的重要性,包括的具体步骤如下:
式中,表示第i个维度的重要性,/>表示第i个维度突出性序列中第j个维度突出性,表示全维度突出性序列中第j个全维度突出性,/>表示取绝对值,/>表示第i个维度突出性序列,D表示全维度突出性序列,/>表示DTW距离,/>表示取最大值,表示第i个维度突出性序列与全维度突出性序列的平均差异,表示第i个维度突出性序列与全维度突出性序列的分布一致性。
9.根据权利要求1所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述根据重要性获得保留维度,根据保留维度获得降维矩阵,包括的具体步骤如下:
将重要性大于重要性阈值y3的维度作为保留维度;
将重要数据集中的每个重要向量作为矩阵的一行,将每个重要向量的每个维度的数据值作为矩阵中每一行的每个元素,将矩阵记为初始矩阵;将重要数据集中的每个重要向量作为矩阵的一行,将每个重要向量的每个保留维度的数据值作为矩阵中每一行的每个元素,将矩阵记为结果矩阵;计算结果矩阵与初始矩阵的逆矩阵的乘积作为降维矩阵。
10.根据权利要求1所述的基于深度学习的工程师人员数据画像处理方法,其特征在于,所述根据降维矩阵对所有高维向量进行降维,获得降维向量,包括的具体步骤如下:
将重要数据集中每个重要向量的保留维度组成的向量记为每个重要向量的降维结果,记为降维向量;将每个高维向量与降维矩阵的乘积作为每个高维向量的降维结果,记为降维向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310993188.3A CN116701725B (zh) | 2023-08-09 | 2023-08-09 | 基于深度学习的工程师人员数据画像处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310993188.3A CN116701725B (zh) | 2023-08-09 | 2023-08-09 | 基于深度学习的工程师人员数据画像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701725A CN116701725A (zh) | 2023-09-05 |
CN116701725B true CN116701725B (zh) | 2023-10-24 |
Family
ID=87834314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310993188.3A Active CN116701725B (zh) | 2023-08-09 | 2023-08-09 | 基于深度学习的工程师人员数据画像处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701725B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151229B (zh) * | 2023-11-01 | 2024-01-26 | 青岛聚远网络科技有限公司 | 一种基于云边端架构的云端推理方法及系统 |
CN117390297B (zh) * | 2023-12-13 | 2024-02-27 | 天津和光同德科技股份有限公司 | 一种大规模人才智库信息优化匹配方法 |
CN118035850B (zh) * | 2024-04-11 | 2024-07-02 | 青岛东捷建设集团有限公司 | 一种面向建筑墙体的混凝土厚度无损检测方法 |
CN118052480B (zh) * | 2024-04-16 | 2024-06-21 | 匠达(苏州)科技有限公司 | 基于深度学习的家居工程师画像数据快速获取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942568A (zh) * | 2014-04-22 | 2014-07-23 | 浙江大学 | 一种基于无监督特征选择的分类方法 |
CN110689230A (zh) * | 2019-09-02 | 2020-01-14 | 平安科技(深圳)有限公司 | 一种区域的贫困程度确定方法、电子装置及存储介质 |
WO2020206466A1 (en) * | 2019-03-07 | 2020-10-08 | Wismuller Axel W E | Method and device for determining a measure of causal influence between components of complex systems |
-
2023
- 2023-08-09 CN CN202310993188.3A patent/CN116701725B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942568A (zh) * | 2014-04-22 | 2014-07-23 | 浙江大学 | 一种基于无监督特征选择的分类方法 |
WO2020206466A1 (en) * | 2019-03-07 | 2020-10-08 | Wismuller Axel W E | Method and device for determining a measure of causal influence between components of complex systems |
CN110689230A (zh) * | 2019-09-02 | 2020-01-14 | 平安科技(深圳)有限公司 | 一种区域的贫困程度确定方法、电子装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116701725A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116701725B (zh) | 基于深度学习的工程师人员数据画像处理方法 | |
CN108446599B (zh) | 一种p值统计量建模独立性的高光谱图像波段快速选择方法 | |
CN110659665A (zh) | 一种异维特征的模型构建方法及图像识别方法、装置 | |
CN113672718B (zh) | 基于特征匹配和领域自适应的对话意图识别方法及系统 | |
CN109492610B (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN116663568B (zh) | 基于优先级的关键任务识别系统及其方法 | |
Tavakoli | Seq2image: Sequence analysis using visualization and deep convolutional neural network | |
Zhang | Application of artificial intelligence recognition technology in digital image processing | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
Shen et al. | Equiangular basis vectors | |
CN112766383B (zh) | 一种基于特征聚类和标签相似性的标签增强方法 | |
CN114299326A (zh) | 一种基于转换网络与自监督的小样本分类方法 | |
CN116957304A (zh) | 无人机群协同任务分配方法及系统 | |
Ribeiro et al. | Extracting discriminative features using non-negative matrix factorization in financial distress data | |
Biswas et al. | Attendance Tracking with Face Recognition Through Hidden Markov Models | |
CN104778479B (zh) | 一种基于稀疏编码提取子的图像分类方法及系统 | |
CN113469237A (zh) | 用户意图识别方法、装置、电子设备及存储介质 | |
CN111984800A (zh) | 基于字典对学习的哈希跨模态信息检索方法 | |
CN113378881B (zh) | 基于信息熵增益svm模型的指令集识别方法及装置 | |
CN118536049B (zh) | 基于多模态异常内容理解的内容主体发现方法 | |
CN117575827B (zh) | 一种企业报告的智能可视化管理系统及方法 | |
CN112487816B (zh) | 一种基于网络分类的命名实体识别方法 | |
CN112115705B (zh) | 一种电子简历的筛选方法及装置 | |
WO2024021526A1 (zh) | 训练样本的生成方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Data Portrait Processing Method for Engineers Based on Deep Learning Granted publication date: 20231024 Pledgee: Bank of Suzhou Co.,Ltd. Zhangjiagang sub branch Pledgor: Jiangda (Suzhou) Technology Co.,Ltd. Registration number: Y2024980020521 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |