CN110942082A - 一种人才价值评估方法 - Google Patents
一种人才价值评估方法 Download PDFInfo
- Publication number
- CN110942082A CN110942082A CN201910235224.3A CN201910235224A CN110942082A CN 110942082 A CN110942082 A CN 110942082A CN 201910235224 A CN201910235224 A CN 201910235224A CN 110942082 A CN110942082 A CN 110942082A
- Authority
- CN
- China
- Prior art keywords
- matrix
- network
- value
- characteristic
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 232
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 230000003595 spectral effect Effects 0.000 claims abstract description 15
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 13
- 238000003064 k means clustering Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 14
- 238000013461 design Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000000547 structure data Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 15
- 238000011160 research Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000003012 network analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/13—Type of disclosure document
- G06V2201/133—Survey article
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/13—Type of disclosure document
- G06V2201/134—Technical report or standard
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/13—Type of disclosure document
- G06V2201/135—Master, PhD or other thesis
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种人才价值评估方法,以专业人才发表的学术文献为基础,包括如下步骤:S1,计算文献网络结构高阶邻近度特征矩阵:计算网络结构邻接矩阵的特征值和特征向量,计算含有高阶邻近信息的结构矩阵奇异值分解结果,完成网络结构高阶邻近度的初始化嵌入特征矩阵计算;S2,计算文献网络低维特征矩阵:设计网络结构特征矩阵和节点内容特征矩阵的更新规则,迭代计算,获取最终的文献网络特征矩阵;S3,谱聚类完成文献网络节点聚类:将最终的网络嵌入矩阵作为谱聚类的输入矩阵,选择K‑Means聚类方法进行网络节点聚类;S4,计算人才价值数值。本发明提供法人一种人才价值评估方法,能够确定网络结构高阶邻近度特征矩阵,以及将网络节点内容高效地融合结构的高阶邻近度。
Description
技术领域
本发明属于知识发现应用领域,具体涉及一种人才价值评估方法。
背景技术
针对科研这种知识密集型任务,一个十分有效的方法是找到具有适当专业知识的专家学者,专家能够提供可靠的信息和意见。个人的眼界与知识面终究是狭窄的,找到正确的专业知识与资源,与潜在的合作者互动是一种高效的工作模式。然而,寻找合作者并不是一件容易的事。专业知识是高度动态的,验证他人的专业知识是极为困难的。因此,研究和开发推荐在特定领域具有专业知识的人的工具已经受到了研究人员的广泛关注。
学术社交网站近年来发展迅速。大量用户希望与其他用户交朋友,以便进行潜在的学术交流合作。问答社区作为一种在人群中分享知识的有效方式,许多用户都是现实世界中的专家,可以在某些领域或技术中做出高质量的贡献,为了获取及评估这些专家目前已经有了大量的方法。但是,这些方法都过度的依赖专家本人的主动社交行为,对于专心学术、社交较少的专家却难以挖掘出来。因而,本发明拟从文献作者的角度实现人才挖掘。
信息网络在我们的日常生活中无处不在,如社交网络、引文网络和知识网络等,通过智能挖掘,可以提取各种有用的信息。通常,网络以图形的形式表示。不同类型的原始表示(如邻接矩阵或邻接列表)被用作许多机器学习算法的直接输入。然而,机器学习算法很难从这些表示中挖掘有用的信息,因为它们属于一个非常高维的空间,而且本质上也是非常稀疏的。
近年来,将高维网络映射到低维向量空间,使得信息损失在某种意义上最小,成为网络分析研究的中心课题。它能够保留了网络的固有特性和结构,已经成为一种用低维向量表示节点的范式,目的是为了弥合网络分析与机器学习算法之间的差距。
与直接挖掘网络中的数据相比,学习网络表示具有多种优势。一、特征本质上具有识别性和互补性,能够突出核心信息,剔除噪声信息;二、相同节点数量的低维特征相比于原始数据数据量少,存储空间少,计算速度快;三、不需要改变基本的网络嵌入算法来处理不同的网络分析任务,大多数嵌入方法被认为是通用的。四、由网络嵌入算法获取的特征可作为现有的机器学习算法的直接输入,例如现有的用于分类或聚类的网络分析方法可以很好地处理这些已经嵌入到低维的特征。
网络嵌入技术本质上大多是无监督的或半监督的。信息网络通常有少量标记节点或者没有任何标记节点,实际上,学习嵌入不需要太多的监督。大量文献提出了许多不同类型的网络嵌入方法,如Deepwalk、Line、node2vec、TADW、AROPE、FSCNMF等。对于网络结构高阶邻近度的研究表明,节点之间的高阶邻近度对于捕获网络的底层结构具有重要意义,因此可以为学习嵌入向量提供有价值的信息。可以在生成的节点嵌入中保留各种网络属性,如同质性、社区结构等。这些性质是自然联系在一起的。网络中的同质性根据所涉及节点之间的相似性来描述局部结构。尽管这种相似性通常是基于网络的结构属性捕获的,但是结合与节点相关的语义内容则可以更好地利用同质性。利用内容对结构数据进行目标正则化可以得到较好的嵌入效果,反之,利用结构对内容数据进行正则化也可以得到较好的嵌入结果。
如今,通过结合网络结构和节点内容,完成网络嵌入已经取得了较好的科研成果,同时,网络结构的高阶邻近度研究亦有了较大突破。但是,如何确定网络结构高阶邻近度特征矩阵,更进一步地,如何将网络节点内容高效地融合结构的高阶邻近度,并没有得到有效的解决,需要一个新的技术方案解决这个问题。
发明内容
发明目的:针对科研工作中寻找合作者的人才评估问题,提供一种能够确定网络结构高阶邻近度特征矩阵,以及将网络节点内容高效地融合结构的高阶邻近度的人才价值评估方法。
为解决上述技术问题,本发明采用的技术方案为:
一种人才价值评估方法,以专业人才发表的学术文献为基础,包括如下步骤:
S1,计算文献网络结构高阶邻近度特征矩阵:
基于网络结构构建邻接矩阵,计算其特征值和特征向量,映射到含有高阶邻近信息结构矩阵的特征值和特征向量,计算含有高阶邻近信息的结构矩阵奇异值分解结果,完成网络结构高阶邻近度的初始化嵌入特征矩阵计算;
S2,计算文献网络低维特征矩阵:
设计网络结构特征矩阵和节点内容特征矩阵的更新规则,迭代计算,获得它们的特征嵌入矩阵,将两个特征矩阵按比例相加融合,获取最终的文献网络特征矩阵;
S3,谱聚类完成文献网络节点聚类:
将最终的网络嵌入矩阵作为谱聚类的输入矩阵,选择全连接法构建数据节点的相似矩阵,依次计算出邻接矩阵、度矩阵和拉普拉斯矩阵,对拉普拉斯聚类完成标准化操作,选择K-Means聚类方法进行网络节点聚类;
S4,计算人才价值数值:
在每一类别中,分别计算文献作者的总影响力数值及活跃度数值,设计权重将两个数值结合,计算人才价值数值。
所述S01的具体步骤如下:
S11,网络结构数据建模:
首先,计算网络结构邻接矩阵:
其次,将网络结构多种邻近度加权和定义为网络结构高阶邻近度S:
S=F(A)=w1A+w2A2+...+wqAq (2)
S12,计算网络结构高阶邻近度特征矩阵:
如果λ和x是矩阵A的一组特征值和特征向量,那么F(λ)和x是S的一组特征值和特征向量;
对网络结构高阶邻近度S做SVD分解,即:
S=UsΣVs (3)
上述公式中,X和Λ分别是特征向量x和特征值λ,abs(x)指的是x的绝对值,即abs(x)=|x|,另外:
对S分解:
这里,B1 *,B2 *∈Rr×d是最相近的分解嵌入向量,Rr×d指的是r×d阶矩阵,d是空间的维数,不失一般性,我们用B1 *作为网络结构嵌入向量,其进一步的实验结果表明,针对任意阶邻近度的权重可以相等,则公式(2)可简化为:
S2的具体步骤如下:
S21,网络节点内容数据建模:
取文献节点的内容矩阵为C,设为n×d阶矩阵,将文献节点中标题、关键词和摘要抽取出来构建词袋模型,C则基于该词袋模型计算而成,在词袋模型中,通常会删除停用字,并将词干提取作为预处理步骤进行,该矩阵的每一行都是对应节点上文本内容的tfidf向量。
S22,设计网络结构特征矩阵和节点内容特征矩阵的更新规则:
分别对A、C做非负矩阵分解,则有
A≈B1B2 (8)
C≈UV (9)
在公式(8)和公式(9)中,B1是n×k阶矩阵,B2是k×n阶矩阵,U是n×k阶矩阵,V是k×d阶矩阵,通常,应用于网络嵌入中,有k<<n,其中,
其中,α2,α3,β2,β3≥0对应于各部分的权重,
基于内容给出一个嵌入矩阵U,为了使B1向U靠近,通过最小化以下成本函数,得到基于链接结构的嵌入矩阵B1:
其中,D1(B1,B2)代表结构内容靠近函数;
同样,给定一个基于结构的嵌入矩阵B1,为了使U向B1靠近,通过最小化下面的成本函数,可以找到基于内容的嵌入矩阵U:
其中,D2(U,V)代表内容结构靠近函数;
多次迭代公式(13)和公式(15)的计算完成优化,获得网络的最终嵌入矩阵,
设置初始B1为B1 *,B1值的更新与B1 *无关,下面将推导出必要的更新规则,以解决公式(13)和公式(15)中的优化问题,在公式(13)中,如果以B1为自变量,B2为常量,则该函数是一个凹函数,为了求极小值,求偏导为0,得等式
式中[X]+表示矩阵X的每一个元素Xij完成以下公式:
那么,以B2为自变量,求极小值,求偏导为0,得等式:
同理求U、V,得:
U=[(CVT+β1B1)(VVT+β1I+β2I)-1]+ (23)
V=[(UTU+β3I)-1UTC]+ (24)
以上,更新规则设计完成,得到了网络的两个不同的嵌入矩阵B1和U,得到了网络的两个不同的嵌入矩阵B1和U,B1为结构嵌入矩阵,U为内容嵌入矩阵;
S23,获取最终的网络嵌入矩阵:
为了获取最终的网络嵌入矩阵,则考虑以下情况:
a、如果结构和内容一致,矩阵B1和U可能相似,在这种情况下,两个矩阵中的任何一个,或两个矩阵的凸组合形式(γ×B1+(1-γ)×U),0≤γ≤1将是网络最终表示的选择,γ为最终网络嵌入矩阵的两个组成部分分别所占的比例;
b、如果有关于结构和内容质量的先验信息,可以相应地选择矩阵,当只有很少的关键词可用,作为引文网络中每篇文献的内容,而网络的链接结构良好,我们可以选择B1作为网络的最终表示(γ=1),则不加入U的考量,反之亦然,更重视内容而忽视结构的影响。
S3的具体步骤包括如下过程:
将最终的网络嵌入矩阵作为谱聚类的输入矩阵,完成网络节点聚类,具体参数使用如下:
(a)n_clusters:既是谱聚类切图时降维到的维数,也是最后一步聚类算法聚类到的维数,数值选择与具体数据集有关;
(b)affinity:相似矩阵的建立方式。采用全连接法,使用内置高斯核函数“rbf”;
(c)核函数参数gamma:通过交叉验证,选择合适数值为0.1;
(d)assign_labels:最后的聚类方法的选择
使用“K-Means”完成聚类;
聚类过程如下:
S31,根据输入矩阵和全连接法构建数据节点的相似矩阵S;
S32,根据相似矩阵S构建邻接矩阵W,构建度矩阵D;
S33,计算出拉普拉斯矩阵L;
S34,构建标准化后的拉普拉斯矩阵D-1/2LD-1/2;
S35,计算D-1/2LD-1/2最小的n_clusters个特征值所各自对应的特征向量f;
S36,将各自对应的特征向量f组成的矩阵按行标准化,最终组成n×n_clusters维的特征矩阵F;
S37,对F中的每一行作为一个n_clusters维的节点,共n个节点,用K-Means聚类方法进行聚类,聚类维数为n_clusters;
S38,得到每个节点的类别划分。
S4的具体步骤包括如下过程:
在同一类别中,我们分别统计出学术专业人才每一年的发文量,计算该学者当年成果的影响力数值,以此为基础设计权重将两个数值结合,完成人才数值评估。
S41,署名顺序
一般来说,一篇文献由多名专业人才共同完成,而第一作者是贡献最大的,第二作者次之,依此类推,借用作者贡献率等级分配公式(25),计算署名顺序不同的作者对文献的贡献值Dj:
上式中,j代表作者署名顺序,t代表文献的作者总数;
S42,人才总影响力
综合作者单篇文献的署名顺序和文献的影响力,文献影响力为c,人才该篇文献的影响力为I:
I=Dj×c (26)
对于发表多篇文献的人才,其影响力为该人才在其所有文献的贡献值总和Iw指数,即:
公式(27)中,s为人才发表文献的总数,α=1,2,3,4……s;
S43,人才价值评估
在每一年里,对人才完成发文量统计和影响力计算,分别归一化,归一化公式如下所示:
公式(28)中,ymax是要映射的目标区间最大值;ymin是要映射的目标区间最小值;xmax是目前数据最大值;xmin是目前数据最小值;x是假设目前数据中的任一值;y是归一化映射后的值;
将ymin设置为0,ymax设置为1,分别完成发文量和影响力的归一化,每一位人才的发文量和影响力数值分别设为y1,y2,人才评估数值的计算由公式(t×y1+(1-t)×y2)得出,(这里的t代表什么含义)用户通过设置t值确定权重,只将影响力作为人才评估指数时,设置t为0即可;
求和同一类别人才所有年份评估数值,即可计算出固定领域单类别下人才的评估指数,值得注意的是,不同类别不求和。
本发明的有益效果:本发明与现有技术相比,本发明提出的网络嵌入及聚类方法能够获得更准确的网络节点聚类结果,完成了人才贡献的价值计算,由此实现的人才评估为人才引进、人才推荐等问题提供了解决方法,加强了学术交流,提高了科研效率。
附图说明
图1为本发明方法的流程示意图;
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
本发明的人才价值评估方法,以专业人才发表的学术文献为基础,计算文献数据网络结构的高阶邻近度,获取网络结构的低维表示,结合节点内容,最大限度地利用结构和内容之间的一致性,设计网络结构和节点内容特征矩阵的更新规则,实现特征降维,以该特征矩阵为谱聚类的输入完成节点聚类,在每一类别中,分别计算文献作者的总影响力及活跃度数值,设计权重将两个数值结合,完成人才价值数值计算。本实施例中在文献数据集上对大数据领域人才实现价值评估计算,其具体的过程如图1所示,一种人才价值评估方法,包括如下步骤:
步骤一,计算文献网络结构高阶邻近度特征矩阵:
基于网络结构构建邻接矩阵,计算其特征值和特征向量,映射到含有高阶邻近信息结构矩阵的特征值和特征向量,计算含有高阶邻近信息的结构矩阵奇异值分解结果,完成网络结构高阶邻近度的初始化嵌入特征矩阵计算,包括以下几个小步:
第一小步,网络结构数据建模:
首先,计算网络结构邻接矩阵:
其次,计算网络结构高阶邻近度S:
S=F(A)=w1A+w2A2+...+wqAq (2)
一阶邻近度是捕获两个节点之间的局部成对邻近,指的是直接相连两点的边的权重。二阶邻近度捕获了两个节点之间各自近邻之间的相似性。进一步扩展,网络中两个节点之间的任何高阶邻近度都可以通过它们各自的高阶邻域的相似性来定义。更高阶的邻近信息对于学习网络嵌入也很有用,因为它以某种方式捕获了网络中连接的全局行为。具体地,不同的邻接矩阵的幂给出的是网络全局的连接信息。公式(2)中,A2是指用2步从当前节点到目标节点的连接权重。考虑累乘的效果,Aq所代表的意义是从点到点之间走q步能够到达的点与点之间的权重。
第二小步,计算网络结构高阶邻近度特征矩阵:
如果λ和x是矩阵A的一组特征值和特征向量,那么F(λ)和x是S的一组特征值和特征向量。给出如下证明过程:
Ax=λx (3)
A2x=Aλx=λAx=λ2x (4)
Sx=F(A)x=(w1λ+w2λ2+...+wqλq)x=F(λ)x (5)
秩矩阵的分解,一般可以由SVD的结果从高处截断得到,对网络结构高阶邻近度S做SVD分解,即:
S=UsΣVs (6)
上述公式中,X和Λ分别是特征向量x和特征值λ,abs(x)指的是x的绝对值,即abs(x)=|x|,另外:
对S分解:
公式解释如下:
Frobenius范数,简称F-范数,是一种矩阵范数,记为||·||F。矩阵A的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和。x,y=argminF(x,y)是指当F(x,y)取得最小值时,变量x,y的取值。
这里,B1 *,B2 *∈Rr×d是最相近的分解嵌入向量,Rr×d指的是r×d阶矩阵,d是空间的维数,不失一般性,我们用B1 *作为网络结构嵌入向量,其进一步的实验结果表明,针对任意阶邻近度的权重可以相等,则公式(2)可简化为:
步骤二,计算文献网络低维特征矩阵:
设计网络结构特征矩阵和节点内容特征矩阵的更新规则,迭代计算,获得它们的特征嵌入矩阵,将两个特征矩阵按比例相加融合,获取最终的文献网络特征矩阵,包括以下几个小步:
第一小步,网络节点内容数据建模:
取文献节点的内容矩阵为C,设为n×d阶矩阵,将文献节点中标题、关键词和摘要抽取出来构建词袋模型,C则基于该词袋模型计算而成,在词袋模型中,通常会删除停用字,并将词干提取作为预处理步骤进行,该矩阵的每一行都是对应节点上文本内容的tfidf向量。
第二小步,设计网络结构特征矩阵和节点内容特征矩阵的更新规则:
分别对A、C做非负矩阵分解,则有
A≈B1B2 (13)
C≈UV (14)
在公式(13)和公式(14)中,B1是n×k阶矩阵,B2是k×n阶矩阵,U是n×k阶矩阵,V是k×d阶矩阵,通常,应用于网络嵌入中,有k<<n。
在理想情况下,仅基于A的表示与仅基于C的表示能够完全匹配。但在现实中,它们可能会因网络中的噪声和拓扑不一致而失效。然而,这两者之间仍然应该有很强的一致性,为了将这种一致性充分利用起来,推出公式(15)和公式(16)。
其中,α2,α3,β2,β3≥0对应于各部分的权重,
利用结构和内容生成单一嵌入网络的一种直观方法是使用联合非负矩阵分解法,将公式(16)中的U替换为B1。但这在实践中可能不起作用,因为大型信息网络中噪声很大,通常在结构和内容之间存在显著的不一致。因此,在两个成本函数中使用相同的嵌入矩阵是粗糙的,并且可能导致非常差的局部最优解。解决的办法是使用内容作为结构上的正则化器,相对地,使用结构作为内容的正则化器。
基于内容给出一个嵌入矩阵U,为了使B1向U靠近,通过最小化以下成本函数,得到基于链接结构的嵌入矩阵B1:
同样,给定一个基于结构的嵌入矩阵B1,为了使U向B1靠近,通过最小化下面的成本函数,可以找到基于内容的嵌入矩阵U:
多次迭代公式(18)和公式(20)的计算完成优化,获得网络的最终嵌入矩阵。在上述框架中,可以很容易地将网络和内容的先验知识结合起来。例如,如果知道网络的内容比链接结构更具信息性,那么在初始表示中U应该比B1更加重要。这可以通过设置α1比β1更大的值来实现。相对地,如果β1的值更大,网络结构就更重要,则获得的矩阵嵌入整体表现会更符合结构。
设置初始B1为B1 *,B1值的更新与B1 *无关,下面将推导出必要的更新规则,以解决公式(17)和公式(19)中的优化问题,在公式(18)中,如果以B1为自变量,B2为常量,则该函数是一个凹函数,为了求极小值,求偏导为0,得等式
I是单位矩阵,是半正定矩阵,的逆矩阵一定存在。证明如下:矩阵与其转置的乘积是一定半正定矩阵,两个半正定矩阵的和是半正定的,非负实数与半正定矩阵的数乘矩阵是半正定的。半正定矩阵的行列式是非负的,如果将0设定为一个趋向于0的最小值,因为是非负矩阵,则必可逆。
为了确保B1的非负性,我们进一步设置B1的更新规则为:
式中[X]+表示矩阵X的每一个元素Xij完成以下公式:
那么,以B2为自变量,求极小值,求偏导为0,得等式:
同理求U、V,得:
U=[(CVT+β1B1)(VVT+β1I+β2I)-1]+ (28)
V=[(UTU+β3I)-1UTC]+ (29)
以上,更新规则设计完成,得到了网络的两个不同的嵌入矩阵B1和U,得到了网络的两个不同的嵌入矩阵B1和U,B1为结构嵌入矩阵,U为内容嵌入矩阵;
第三小步,获取最终的网络嵌入矩阵:
为了获取最终的网络嵌入矩阵,则考虑以下情况:
a、如果结构和内容一致,矩阵B1和U可能相似,在这种情况下,两个矩阵中的任何一个,或两个矩阵的凸组合形式(γ×B1+(1-γ)×U),0≤γ≤1将是网络最终表示的选择,γ为最终网络嵌入矩阵的两个组成部分分别所占的比例;
b、如果有关于结构和内容质量的先验信息,可以相应地选择矩阵,当只有很少的关键词可用,作为引文网络中每篇文献的内容,而网络的链接结构良好,我们可以选择B1作为网络的最终表示(γ=1),则不加入U的考量,反之亦然,更重视内容而忽视结构的影响。
步骤三,谱聚类完成文献网络节点聚类:
将最终的网络嵌入矩阵作为谱聚类的输入矩阵,选择全连接法构建数据节点的相似矩阵,依次计算出邻接矩阵、度矩阵和拉普拉斯矩阵,对拉普拉斯聚类完成标准化操作,选择K-Means聚类方法进行网络节点聚类,具体步骤包括如下过程:
将最终的网络嵌入矩阵作为谱聚类的输入矩阵,完成网络节点聚类,具体参数使用如下:
(a)n_clusters:既是谱聚类切图时降维到的维数,也是最后一步聚类算法聚类到的维数,数值选择与具体数据集有关;
(b)affinity:相似矩阵的建立方式。采用全连接法,使用内置高斯核函数“rbf”;
(c)核函数参数gamma:通过交叉验证,选择合适数值为0.1;
(d)assign_labels:最后的聚类方法的选择。
使用“K-Means”完成聚类,聚类过程如下:
1,根据输入矩阵和全连接法构建数据节点的相似矩阵S;
2,根据相似矩阵S构建邻接矩阵W,构建度矩阵D;
3,计算出拉普拉斯矩阵L;
4,构建标准化后的拉普拉斯矩阵D-1/2LD-1/2;
5,计算D-1/2LD-1/2最小的n_clusters个特征值所各自对应的特征向量f;
6,将各自对应的特征向量f组成的矩阵按行标准化,最终组成n×n_clusters维的特征矩阵F;
7,对F中的每一行作为一个n_clusters维的节点,共n个节点,用K-Means聚类方法进行聚类,聚类维数为n_clusters;
8,得到每个节点的类别划分。
步骤四,计算人才价值数值:
在每一类别中,分别计算文献作者的总影响力数值及活跃度数值,设计权重将两个数值结合,计算人才价值数值。在同一类别中,我们分别统计出学术专业人才每一年的发文量,计算该学者当年成果的影响力数值,以此为基础设计权重将两个数值结合,完成人才数值评估,具体步骤包括如下过程:
第一小步,署名顺序
一般来说,一篇文献由多名专业人才共同完成,而第一作者是贡献最大的,第二作者次之,依此类推,借用作者贡献率等级分配公式(30),计算署名顺序不同的作者对文献的贡献值Dj:
上式中,j代表作者署名顺序,t代表文献的作者总数。
第二小步,人才总影响力
综合作者单篇文献的署名顺序和文献的影响力,文献影响力为c,人才该篇文献的影响力为I:
I=Dj×c (31)
对于发表多篇文献的人才,其影响力为该人才在其所有文献的贡献值总和Iw指数,即:
公式(30)中,s为人才发表文献的总数,α=1,2,3,4……s。
第三小步,人才价值评估
在每一年里,对人才完成发文量统计和影响力计算,分别归一化,归一化公式如下所示:
公式(31)中,ymax是要映射的目标区间最大值;ymin是要映射的目标区间最小值;xmax是目前数据最大值;xmin是目前数据最小值;x是假设目前数据中的任一值;y是归一化映射后的值;
将ymin设置为0,ymax设置为1,分别完成发文量和影响力的归一化,每一位人才的发文量和影响力数值分别设为y1,y2,人才评估数值的计算由公式(t×y1+(1-t)×y2)得出,(这里的t代表什么含义)用户通过设置t值确定权重,只将影响力作为人才评估指数时,设置t为0即可。
求和同一类别人才所有年份评估数值,即可计算出固定领域单类别下人才的评估指数,值得注意的是,不同类别不求和。
以上仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种人才价值评估方法,以专业人才发表的学术文献为基础,其特征在于:包括如下步骤:
S1,计算文献网络结构高阶邻近度特征矩阵:
基于网络结构构建邻接矩阵,计算其特征值和特征向量,映射到含有高阶邻近信息结构矩阵的特征值和特征向量,计算含有高阶邻近信息的结构矩阵奇异值分解结果,完成网络结构高阶邻近度的初始化嵌入特征矩阵计算;
S2,计算文献网络低维特征矩阵:
设计网络结构特征矩阵和节点内容特征矩阵的更新规则,迭代计算,获得它们的特征嵌入矩阵,将两个特征矩阵按比例相加融合,获取最终的文献网络特征矩阵;
S3,谱聚类完成文献网络节点聚类:
将最终的网络嵌入矩阵作为谱聚类的输入矩阵,选择全连接法构建数据节点的相似矩阵,依次计算出邻接矩阵、度矩阵和拉普拉斯矩阵,对拉普拉斯聚类完成标准化操作,选择K-Means聚类方法进行网络节点聚类;
S4,计算人才价值数值:
在每一类别中,分别计算文献作者的总影响力数值及活跃度数值,设计权重将两个数值结合,计算人才价值数值。
2.根据权利要求1所述的一种人才价值评估方法,其特征在于:所述S01的具体步骤如下:
S11,网络结构数据建模:
首先,计算网络结构邻接矩阵:
其次,将网络结构多种邻近度加权和定义为网络结构高阶邻近度S:
S=F(A)=w1A+w2A2+...+wqAq (2)
S12,计算网络结构高阶邻近度特征矩阵:
如果λ和x是矩阵A的一组特征值和特征向量,那么F(λ)和x是S的一组特征值和特征向量;
对网络结构高阶邻近度S做SVD分解,即:
S=UsΣVs (3)
上述公式中,X和Λ分别是特征向量x和特征值λ,abs(x)指的是x的绝对值,即abs(x)=|x|,另外:
对S分解:
这里,B1 *,B2 *∈Rr×d是最相近的分解嵌入向量,Rr×d指的是r×d阶矩阵,d是空间的维数,不失一般性,我们用B1 *作为网络结构嵌入向量,其进一步的实验结果表明,针对任意阶邻近度的权重可以相等,则公式(2)可简化为:
3.根据权利要求2所述的一种人才价值评估方法,其特征在于:S2的具体步骤如下:
S21,网络节点内容数据建模:
取文献节点的内容矩阵为C,设为n×d阶矩阵,将文献节点中标题、关键词和摘要抽取出来构建词袋模型,C则基于该词袋模型计算而成,在词袋模型中,通常会删除停用字,并将词干提取作为预处理步骤进行,该矩阵的每一行都是对应节点上文本内容的tfidf 向量。
S22,设计网络结构特征矩阵和节点内容特征矩阵的更新规则:
分别对A、C做非负矩阵分解,则有
A≈B1B2 (8)
C≈UV (9)
在公式(8)和公式(9)中,B1是n×k阶矩阵,B2是k×n阶矩阵,U是n×k阶矩阵,V是k×d阶矩阵,通常,应用于网络嵌入中,有k<<n,其中,
其中,α2,α3,β2,β3≥0对应于各部分的权重,
基于内容给出一个嵌入矩阵U,为了使B1向U靠近,通过最小化以下成本函数,得到基于链接结构的嵌入矩阵B1:
其中,D1(B1,B2)代表结构内容靠近函数;
同样,给定一个基于结构的嵌入矩阵B1,为了使U向B1靠近,通过最小化下面的成本函数,可以找到基于内容的嵌入矩阵U:
其中,D2(U,V)代表内容结构靠近函数;
多次迭代公式(13)和公式(15)的计算完成优化,获得网络的最终嵌入矩阵,
设置初始B1为B1 *,B1值的更新与B1 *无关,下面将推导出必要的更新规则,以解决公式(13)和公式(15)中的优化问题,在公式(13)中,如果以B1为自变量,B2为常量,则该函数是一个凹函数,为了求极小值,求偏导为0,得等式
式中[X]+表示矩阵X的每一个元素Xij完成以下公式:
那么,以B2为自变量,求极小值,求偏导为0,得等式:
同理求U、V,得:
U=[(CVT+β1B1)(VVT+β1I+β2I)-1]+ (23)
V=[(UTU+β3I)-1UTC]+ (24)
以上,更新规则设计完成,得到了网络的两个不同的嵌入矩阵B1和U,得到了网络的两个不同的嵌入矩阵B1和U,B1为结构嵌入矩阵,U为内容嵌入矩阵;
S23,获取最终的网络嵌入矩阵:
为了获取最终的网络嵌入矩阵,则考虑以下情况:
a、如果结构和内容一致,矩阵B1和U可能相似,在这种情况下,两个矩阵中的任何一个,或两个矩阵的凸组合形式(γ×B1+(1-γ)×U),0≤γ≤1将是网络最终表示的选择,γ为最终网络嵌入矩阵的两个组成部分分别所占的比例;
b、如果有关于结构和内容质量的先验信息,可以相应地选择矩阵,当只有很少的关键词可用,作为引文网络中每篇文献的内容,而网络的链接结构良好,我们可以选择B1作为网络的最终表示(γ=1),则不加入U的考量,反之亦然,更重视内容而忽视结构的影响。
4.根据权利要求1所述的一种人才价值评估方法,其特征在于:S3的具体步骤包括如下过程:
将最终的网络嵌入矩阵作为谱聚类的输入矩阵,完成网络节点聚类,具体参数使用如下:
(a)n_clusters:既是谱聚类切图时降维到的维数,也是最后一步聚类算法聚类到的维数,数值选择与具体数据集有关;
(b)affinity:相似矩阵的建立方式。采用全连接法,使用内置高斯核函数“rbf”;
(c)核函数参数gamma:通过交叉验证,选择合适数值为0.1;
(d)assign_labels:最后的聚类方法的选择。
5.根据权利要求4所述的一种人才价值评估方法,其特征在于:使用“K-Means”完成聚类;
聚类过程如下:
S31,根据输入矩阵和全连接法构建数据节点的相似矩阵S;
S32,根据相似矩阵S构建邻接矩阵W,构建度矩阵D;
S33,计算出拉普拉斯矩阵L;
S34,构建标准化后的拉普拉斯矩阵D-1/2LD-1/2;
S35,计算D-1/2LD-1/2最小的n_clusters个特征值所各自对应的特征向量f;
S36,将各自对应的特征向量f组成的矩阵按行标准化,最终组成n×n_clusters维的特征矩阵F;
S37,对F中的每一行作为一个n_clusters维的节点,共n个节点,用K-Means聚类方法进行聚类,聚类维数为n_clusters;
S38,得到每个节点的类别划分。
6.根据权利要求1所述的一种人才价值评估方法,其特征在于:S4的具体步骤包括如下过程:
在同一类别中,我们分别统计出学术专业人才每一年的发文量,计算该学者当年成果的影响力数值,以此为基础设计权重将两个数值结合,完成人才数值评估。
S41,署名顺序
一般来说,一篇文献由多名专业人才共同完成,而第一作者是贡献最大的,第二作者次之,依此类推,借用作者贡献率等级分配公式(25),计算署名顺序不同的作者对文献的贡献值Dj:
上式中,j代表作者署名顺序,t代表文献的作者总数;
S42,人才总影响力
综合作者单篇文献的署名顺序和文献的影响力,文献影响力为c,人才该篇文献的影响力为I:
I=Dj×c (26)
对于发表多篇文献的人才,其影响力为该人才在其所有文献的贡献值总和Iw指数,即:
公式(27)中,s为人才发表文献的总数,α=1,2,3,4……s;
S43,人才价值评估
在每一年里,对人才完成发文量统计和影响力计算,分别归一化,归一化公式如下所示:
公式(28)中,ymax是要映射的目标区间最大值;ymin是要映射的目标区间最小值;xmax是目前数据最大值;xmin是目前数据最小值;x是假设目前数据中的任一值;y是归一化映射后的值;
将ymin设置为0,ymax设置为1,分别完成发文量和影响力的归一化,每一位人才的发文量和影响力数值分别设为y1,y2,人才评估数值的计算由公式(t×y1+(1-t)×y2)得出,(这里的t代表什么含义)用户通过设置t值确定权重,只将影响力作为人才评估指数时,设置t为0即可;
求和同一类别人才所有年份评估数值,即可计算出固定领域单类别下人才的评估指数,值得注意的是,不同类别不求和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235224.3A CN110942082B (zh) | 2019-03-27 | 2019-03-27 | 一种人才价值评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235224.3A CN110942082B (zh) | 2019-03-27 | 2019-03-27 | 一种人才价值评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110942082A true CN110942082A (zh) | 2020-03-31 |
CN110942082B CN110942082B (zh) | 2022-04-05 |
Family
ID=69905728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910235224.3A Active CN110942082B (zh) | 2019-03-27 | 2019-03-27 | 一种人才价值评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942082B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116331A (zh) * | 2020-09-28 | 2020-12-22 | 中国建设银行股份有限公司 | 一种人才推荐方法及装置 |
CN115841110A (zh) * | 2022-12-05 | 2023-03-24 | 武汉理工大学 | 一种获取科学知识发现的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090204554A1 (en) * | 2008-02-11 | 2009-08-13 | Yehuda Koren | Direction-aware proximity for graph mining |
CN107391659A (zh) * | 2017-07-18 | 2017-11-24 | 北京工业大学 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
CN206757691U (zh) * | 2017-04-18 | 2017-12-15 | 上海江村市隐智能科技有限公司 | 人才评估系统 |
CN108133357A (zh) * | 2017-12-22 | 2018-06-08 | 北京拉勾科技有限公司 | 一种人才推荐方法及计算设备 |
CN108304380A (zh) * | 2018-01-24 | 2018-07-20 | 华南理工大学 | 一种融合学术影响力的学者人名消除歧义的方法 |
CN108629489A (zh) * | 2018-04-12 | 2018-10-09 | 科技部科技评估中心 | 面向前沿技术的科研机构技术研究前沿指数的计算方法 |
US20190042879A1 (en) * | 2018-06-26 | 2019-02-07 | Intel Corporation | Entropic clustering of objects |
-
2019
- 2019-03-27 CN CN201910235224.3A patent/CN110942082B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090204554A1 (en) * | 2008-02-11 | 2009-08-13 | Yehuda Koren | Direction-aware proximity for graph mining |
CN206757691U (zh) * | 2017-04-18 | 2017-12-15 | 上海江村市隐智能科技有限公司 | 人才评估系统 |
CN107391659A (zh) * | 2017-07-18 | 2017-11-24 | 北京工业大学 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
CN108133357A (zh) * | 2017-12-22 | 2018-06-08 | 北京拉勾科技有限公司 | 一种人才推荐方法及计算设备 |
CN108304380A (zh) * | 2018-01-24 | 2018-07-20 | 华南理工大学 | 一种融合学术影响力的学者人名消除歧义的方法 |
CN108629489A (zh) * | 2018-04-12 | 2018-10-09 | 科技部科技评估中心 | 面向前沿技术的科研机构技术研究前沿指数的计算方法 |
US20190042879A1 (en) * | 2018-06-26 | 2019-02-07 | Intel Corporation | Entropic clustering of objects |
Non-Patent Citations (4)
Title |
---|
HAGEN N T ET AL: "Harmonic Allocation of Authorship Credit: Source-Level Correction of Bibliometric Bias Assures Accurate Publication and Citation Analysis", 《PLOS ONE》 * |
ZHU D ET AL: "High-order Proximity Preserved Embedding For Dynamic Networks", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
杨瑞仙等: "学术评价方法研究进展", 《情报杂志》 * |
谢瑞霞等: "基于加权被引频次与署名顺序的作者影响力评价指标构建", 《情报科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116331A (zh) * | 2020-09-28 | 2020-12-22 | 中国建设银行股份有限公司 | 一种人才推荐方法及装置 |
CN115841110A (zh) * | 2022-12-05 | 2023-03-24 | 武汉理工大学 | 一种获取科学知识发现的方法及系统 |
CN115841110B (zh) * | 2022-12-05 | 2023-08-11 | 武汉理工大学 | 一种获取科学知识发现的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110942082B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang | A hybrid Kansei engineering design expert system based on grey system theory and support vector regression | |
Croissant et al. | Panel data econometrics in R: The plm package | |
Sussman et al. | A consistent adjacency spectral embedding for stochastic blockmodel graphs | |
Lin et al. | An improved polynomial neural network classifier using real-coded genetic algorithm | |
CN111062775A (zh) | 一种基于注意力机制的推荐系统召回方法 | |
CN112417289A (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
Zhou et al. | Improved cross-label suppression dictionary learning for face recognition | |
CN114610989B (zh) | 基于异构图动态信息补偿的个性化论文推荐方法及系统 | |
CN110942082B (zh) | 一种人才价值评估方法 | |
CN108536844B (zh) | 一种文本增强的网络表示学习方法 | |
CN115630153A (zh) | 一种基于大数据技术的研究生文献资源推荐方法 | |
Yu et al. | A mixed heterogeneous factorization model for non-overlapping cross-domain recommendation | |
Okuno et al. | A probabilistic framework for multi-view feature learning with many-to-many associations via neural networks | |
Dornaika et al. | Single phase multi-view clustering using unified graph learning and spectral representation | |
CN111597428A (zh) | 一种具有q分离k稀疏的用户与物品拼接的推荐方法 | |
Xiong et al. | Federated learning for personalized image aesthetics assessment | |
Budninskiy et al. | Laplacian-optimized diffusion for semi-supervised learning | |
CN116304518A (zh) | 用于信息推荐的异质图卷积神经网络模型构建方法及系统 | |
CN114491296A (zh) | 提案联名人推荐方法、系统、计算机设备及可读存储介质 | |
Zhang et al. | A Deep-Learning Model for Service QoS Prediction Based on Feature Mapping and Inference | |
CN112215441A (zh) | 预测模型训练方法及系统 | |
Huang et al. | Maximum smoothed likelihood estimation for a class of semiparametric Pareto mixture densities | |
Tan et al. | Cauchy graph embedding based diffusion model for salient object detection | |
CN118069932B (zh) | 配置信息的推荐方法、装置、计算机设备 | |
Diday et al. | Advances in Data Science: Symbolic, Complex, and Network Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231227 Address after: 518100 15b, Building a1, the Pearl River Plaza, Shangjing Community, Longgang District, Shenzhen, Guangdong Patentee after: Zhongshen Business Technology (Shenzhen) Co.,Ltd. Address before: 210003, 66 new model street, Gulou District, Jiangsu, Nanjing Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
TR01 | Transfer of patent right |