CN110162638B - 一种基于图向量的专家组合推荐方法 - Google Patents
一种基于图向量的专家组合推荐方法 Download PDFInfo
- Publication number
- CN110162638B CN110162638B CN201910293927.1A CN201910293927A CN110162638B CN 110162638 B CN110162638 B CN 110162638B CN 201910293927 A CN201910293927 A CN 201910293927A CN 110162638 B CN110162638 B CN 110162638B
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- recommendation
- label
- reid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000005259 measurement Methods 0.000 claims abstract description 16
- 238000005065 mining Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 claims description 6
- 101100425816 Dictyostelium discoideum top2mt gene Proteins 0.000 claims description 6
- 101150041570 TOP1 gene Proteins 0.000 claims description 6
- 101150104012 TOP2 gene Proteins 0.000 claims description 6
- 101150082896 topA gene Proteins 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- -1 ... Proteins 0.000 claims description 3
- 102100029768 Histone-lysine N-methyltransferase SETD1A Human genes 0.000 claims description 3
- 101000865038 Homo sapiens Histone-lysine N-methyltransferase SETD1A Proteins 0.000 claims description 3
- 101150117538 Set2 gene Proteins 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003592 biomimetic effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本专利公开发明了一种基于图向量的专家组合推荐算法,首先从专家审查数据中抽取实体和关系,构建领域知识图谱,再运用图向量算法将知识图谱投射到多维空间,得到实体向量集。运用独热码将领域标签转换成多维标签向量。构建神经网络进行多标签分类。对实体向量集,运用余弦相似度算法计算得到TopN个最相关实体,定义用未通过降维处理的数据所形成的推荐列表和降维后运用不同相似度算法得到的推荐列表形成最终推荐列表。通过知识库中存在的历史关系数据,通过搭建CNN和RESNET网络对历史数据进行拟合。用搭建的模型对输入的实体向量数据进行隐藏关系的挖掘。最终利用距离度量算法形成最终的推荐列表。本发明可精确地在项目审查中进行领域专家推荐。
Description
技术领域
本发明属于知识图谱和图向量算法技术领域,特别涉及一种基于图向量的专家组合推荐方法。
背景技术
本发明中的基于图向量的专家组合推荐方法对传统的推荐方式有重要的作用和意义。在传统推荐方法中,推荐算法的效果依赖于特征工程的好坏。且无法挖掘出更深层次的合作关系。在基于图向量的专家组合推荐方法中,以知识图谱向量化为基础,利用知识图谱中已有的关系数据,搭建CNN和RESNET模型分别对历史关系数据进行拟合。利用模型得出相关的推荐列表。通过神经网络的分类和各种距离度量算法进行相似度计算实现的推荐准确率有一定提高。同时,也挖掘出了更深层次的合作关系。
冯万利,朱全银等人已有的研究基础包括:Wanli Feng.Research of themestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388;Wanli Feng,YingLi,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal of Hybrid Information Technology,Vol.9,No.9(2016),pp.275-282;刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170;刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117;刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent FeatureSelection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,YunyangYan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile PhoneSell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL2011 10423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 2011 10422274.6,2013.01.02;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。
知识图谱:
知识图谱是专家系统、语言学、语义网、数据库等多领域融合的产物,知识图谱描述各种实体及其之间的关系。其中的核心为实体和关系并过关系将所有实体链接,构建语义网络图。对于专家审查数据,有结构化,半结构化,非结构化。从中抽取出实体和关系,搭建知识图谱。
神经网络:
神经网络:一种可以通过观测数据使计算机学习的仿生语言范例。此处用于实体向量调整的的搭建的神经网络共7层。输入为64维的实体向量数据和7维的标签向量数据,实现神经网络的多标签分类。神经网络通过全连接层连接。第一层用优化的Relu激活,最后通过softmax层实现多标签的分类。最后,分类准确率达到87%。用于隐藏关系挖掘的深度神经网络利用知识图谱中已有的关系数据进行拟合。利用模型得出相关的推荐列表。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于图向量的专家组合推荐方法,通过构建一种基于深度神经网络和知识图谱的组合推荐方法,利用这种推荐方法为项目的审核提供有效意见与信息。
技术方案:为解决上述技术问题,本发明提供一种基于图向量的专家组合推荐方法,具体步骤如下:
(1)从专家审查数据中抽取实体VecID和关系ReID,构建领域知识图谱G;
(2)运用deepwalk算法将知识图谱投射到64维空间,得到实体向量集V1;运用独热码将领域标签转换成7维标签向量;构建神经网络进行多标签分类;
(3)分别运用node2vec算法deepwalk算法将知识图谱投射到128维空间和64维空间;再分别运用皮尔逊相关度算法和曼哈顿距离度量公式计算得TopN个最相关实体集合U;
(4)取实体向量集V1,利用PCA分别降维到2维和7维空间;得到2维向量数据集R和7维向量数据集Q;运用余弦相似度算法计算得到TopN个最相关实体U1,U2;定义得到的推荐列表为Recommend=U1∩U2;
(5)取实体向量集V1,基于知识图谱中实体间关系,搭建CNN,RESNET模型对实体间关系进行学习,使得模型能够拟合知识库中的实体关系数据;基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3;
(6)定义用未通过降维处理的数据所形成的推荐列表U和降维后运用不同算法得到的推荐列表Recommend得到最终的推荐列表Result=U∪Recommend∪U3;定义Set={set1,set2,…,setA},计算组合推荐的准确率previous=(set∩Result)/Result;得到最终推荐结果和推荐准确率。
进一步的,所述步骤(1)中构建领域知识图谱G的具体步骤如下:
(1.1)抽取专家和项目的编号ID={id1,id2,…,idA}及领域标签Label={label1,label2,…,labelA},得到7维领域标签数据集G1,G1=G1∪{ID,Label};其中,变量e∈[1,A];
(1.2)抽取实体关系的编号,得到ReID={reid1,reid2,…,reidA},得到实体集VecID=VecID∪ID和关系集ReID;其中,变量e∈[1,A];
(1.3)定义循环变量i1来遍历VecID,ReID,G为领域知识图谱;i1赋初值1,G赋初值为空;
(1.4)通过实体间关系搭建领域知识图谱G=(VecID,ReID);
(1.5)得到专家审查项目领域知识图谱G。
进一步的,所述步骤(2)中构建神经网络进行多标签分类的具体步骤如下:
(2.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(2.2)定义循环变量i2来遍历G;运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1};运用独热码将领域标签转换成7维标签向量l1,L1=L1∪{l1};
(2.3)得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
(2.4)得到Res={{id1,res1},{id2,res2},...,{idA,resA}},ide为实体集中第e个编号,rese为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.5)构建以binary_crossentropy为损失函数的神经网络,在训练过程中不断降低交叉嫡,使标签1的节点输出靠近1,标签0的节点输出靠近0;
(2.6)得到Pre={{id1,pre1},{id2,pre2},...,{idA,preA}},ide为实体集中第e个编号,pree为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.7)在真实标签集Res={{id1,res1},{id2,res2},...,{idA,resA}}和预测标签集Pre={{id1,pre1},{id2,pre2},...,{idA,preA}}中对标签值进行排序,截取前N个标签进行准确度度量。
进一步的,所述步骤(3)中运用皮尔逊相关度算法和曼哈顿距离度量公式计算得TopN个最相关实体集合U的具体步骤如下:
(3.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(3.2)定义循环变量i3用来遍历G;运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1};
(3.3)得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
(3.4)对于实体向量集中第c个实体向量vc,运用皮尔逊相关度算法计算得topN个最相关实体集合U1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A};
(3.5)定义专家组合推荐列表U=u1∩u2,实现专家组合推荐;
(3.6)定义循环变量i4用来遍历G;运用node2vec将G3投射到128维空间,得到实体向量v2,V2=V2∪{v2};
(3.7)运用皮尔逊相关度算法计算得topN个最相关实体集合W1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A};
(3.8)得到以皮尔逊相关度算法为度量方式的推荐集合W和以曼哈顿距离为度量方式的推荐集合U。
进一步的,所述步骤(4)中运用余弦相似度算法计算得到TopN个最相关实体U1,U2;定义得到的推荐列表为Recommend=U1∩U2的具体步骤如下:
(4.1)取实体向量集V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量;vc的维度是64维;
(4.2)利用PCA降维后得到实体的2维向量集,R={r1,r2,…,rA},rc为实体向量集中第c个实体向量;
(4.3)对于实体向量集中第c个实体向rc==vc,运用余弦相似度算法计算得topN个最相关实体集合U1={u1top1,u1top2,…,u1topA};u2topx为U2中的第x个数据项,x∈[1,A];
(4.4)利用PCA降维后得到实体的7维向量集,Q={q1,q2,…,qA},qc为实体向量集中第c个实体向量;
(4.5)对于实体向量集中第c个实体向量qc=vc,运用余弦相似度算法计算得topN个最相关实体集合U2={u2top1,u2top2,…,u2topA};u2topx为U2中的第x个数据项,u2topx∈U2,x∈[1,A]。
进一步的,所述步骤(5)中搭建CNN,RESNET模型,基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3的具体步骤如下:
(5.1)通过两个搭建的模型进行实体间关系的挖掘,匹配出与所给实体有关的相关实体集合LIST;其中LIST中实体的意义为和所给实体间不存在直接的历史合作关系,而是隐藏的可能合作关系;
(5.2)定义最终的列表Recommend=U1∩U2∩LIST。
进一步的,所述步骤(6)中得到最终推荐结果和推荐准确率的具体步骤如下:
(6.1)定义最终推荐列表Recset=U∪Recommend;
(6.3)Set为测试项目原本的专家组合;Set={set1,set2,…,setA};
(6.4)计算组合推荐的准确率previous=(set∩Recse)/Recse;
(6.5)得到最终的推荐结果Recset和推荐准确率。
与现有技术相比,本发明的优点在于:
本发明方法基于向量化后的知识图谱得到的高维实体向量进行相似度度量,并利用RESNET模型挖掘隐藏关联。具体描述如下:本发明利用deepwalk算法和node2vec算法将知识图谱投射到高维空间,得到知识图谱中实体的高维向量集。通过主成分分析算法和距离度量方式对高维向量数据集进行处理。同时利用神经网络对高维向量数据集进行多标签分类。之后,利用知识图谱中已有的关系数据,搭建RESNET和CNN模型对关系数据进行拟合,并利用模型得到实体推荐列表。最终,通过多种距离度量方法提高推荐准确率。
附图说明
图1为本发明的总体流程图;
图2为图1中构建专家审查项目的知识图谱构建的流程图;
图3为图1中基于神经网络的实体向量的多标签分类的流程图;
图4为图1中基于PCA和系列距离度量方式进行组合推荐算法的流程图;
图5为图1中最终推荐列表生成的流程图;
图6为图1中得到最终推荐结果和推荐准确率的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1-6示,本发明包括如下步骤:
步骤1:从专家审查数据中抽取实体VecID和关系ReID,构建领域知识图谱G,具体的如图2所示:
步骤1.1:抽取专家和项目的编号ID={id1,id2,…,idA}及领域标签Label={label1,label2,…,labelA},得到7维领域标签数据集G1,G1=G1∪{ID,Label}。其中,变量e∈[1,A];
步骤1.2:抽取实体关系的编号,得到ReID={reid1,reid2,…,reidA},得到实体集VecID=VecID∪ID和关系集ReID。其中,变量e∈[1,A];
步骤1.3:定义循环变量i1来遍历VecID,ReID,G为领域知识图谱。i1赋初值1,G赋初值为空。
步骤1.4:通过实体间关系搭建领域知识图谱G=(VecID,ReID);
步骤1.5:得到专家审查项目领域知识图谱G;
步骤2:运用deepwalk算法将知识图谱投射到64维空间,得到实体向量集V1。运用独热码将领域标签转换成7维标签向量。构建神经网络进行多标签分类,具体的如图3所示:
步骤2.1:取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
步骤2.2:定义循环变量i2来遍历G。运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1}。运用独热码将领域标签转换成7维标签向量l1,L1=L1∪{l1};
步骤2.3:得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量。L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
步骤2.4:得到Res={{id1,res1},{id2,res2},...,{idA,resA}},ide为实体集中第e个编号,rese为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
步骤2.5:构建以binary_crossentropy为损失函数的神经网络,在训练过程中不断降低交叉嫡,使标签1的节点输出靠近1,标签0的节点输出靠近0;
步骤2.6:得到Pre={{id1,pre1},{id2,pre2},...,{idA,preA}},ide为实体集中第e个编号,pree为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
步骤2.7:在真实标签集Res={{id1,res1},{id2,res2},...,{idA,resA}}和预测标签集Pre={{id1,pre1},{id2,pre2},...,{idA,preA}}中对标签值进行排序,截取前N个标签进行准确度度量;
步骤3:分别运用node2vec算法deepwalk算法将知识图谱投射到128维空间和64维空间。再分别运用皮尔逊相关度算法和曼哈顿距离度量公式计算得TopN个最相关实体集合U,具体的如图4所示:
步骤3.1:取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
步骤3.2:定义循环变量i3用来遍历G。运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1};
步骤3.3:得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量。L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
步骤3.4:对于实体向量集中第c个实体向量vc,运用皮尔逊相关度算法计算得topN个最相关实体集合U1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A};
步骤3.5:定义专家组合推荐列表U=u1∩u2,实现专家组合推荐;
步骤3.6:定义循环变量i4用来遍历G。运用node2vec将G3投射到128维空间,得到实体向量v2,V2=V2∪{v2};
步骤3.7:运用皮尔逊相关度算法计算得topN个最相关实体集合W1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A}。
步骤3.8:得到以皮尔逊相关度算法为度量方式的推荐集合W和以曼哈顿距离为度量方式的推荐集合U;
步骤4:取实体向量集V1,利用PCA分别降维到2维和7维空间。得到2维向量数据集R和7维向量数据集Q。运用余弦相似度算法计算得到TopN个最相关实体U1,U2。定义得到的推荐列表为Recommend=U1∩U2。
步骤4.1:取实体向量集V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量。vc的维度是64维;
步骤4.2:利用PCA降维后得到实体的2维向量集,R={r1,r2,…,rA},rc为实体向量集中第c个实体向量;
步骤4.3:对于实体向量集中第c个实体向rc==vc,运用余弦相似度算法计算得topN个最相关实体集合U1={u1top1,u1top2,…,u1topA}。u2topx为U2中的第x个数据项,x∈[1,A];
步骤4.4:利用PCA降维后得到实体的7维向量集,Q={q1,q2,…,qA},qc为实体向量集中第c个实体向量;
步骤4.5:对于实体向量集中第c个实体向量qc==vc,运用余弦相似度算法计算得topN个最相关实体集合U2={u2top1,u2top2,…,u2topA}。u2topx为U2中的第x个数据项,u2topx∈U2,x∈[1,A];
步骤5:取未降维的数据推荐列表U,利用知识图谱中存在的实体间关系数据,搭建CNN和RESNET网络对实体间关系进行学习。
步骤5.1:通过两个搭建的模型进行实体间关系的挖掘,匹配出与所给实体有关的相关实体集合LIST;其中LIST中实体的意义为和所给实体间不存在直接的历史合作关系,而是隐藏的可能合作关系。
步骤5.2:定义最终的列表Recommend=U1∩U2∩LIST;
步骤6:定义最终的推荐列表Result=U∪Recommend。定义Set={set1,set2,…,setA},计算组合推荐的准确率previous=(set∩Result)/Result。得到最终推荐结果和推荐准确率。
步骤6.1:定义最终推荐列表Recset=U∪Recommend;
步骤6.3:Set为测试项目原本的专家组合。Set={set1,set2,…,setA};
步骤6.4:计算组合推荐的准确率previous=(set∩Recse)/Recse;
步骤6.5:得到最终的推荐结果Recset和推荐准确率;
通过对65535条原始专家审查数据进行实体和关系的挖掘后,得到12277个实体集。进一部搭建知识图谱后,利用deepwalk算法和node2vec算法将知识图谱投射到高维空间,得到知识图谱中实体的高维向量集。通过主成分分析算法和距离度量方式对高维向量数据集进行处理。之后,通过结合图向量,利用知识图谱中已有的关系数据,搭建CNN和RESNET模型分别对历史关系数据进行拟合。利用模型得出相关的推荐列表。最终,结合多种距离度量方法将推荐准确率提高到87%。
Claims (3)
1.一种基于图向量的专家组合推荐方法,其特征在于,具体步骤如下:
(1)从专家审查数据中抽取实体VecID和关系ReID,构建领域知识图谱G,包括:
(1.1)抽取专家和项目的编号ID={id1,id2,…,ide,…,idA}及领域标签Label={label1,label2,…,labele,…,labelA},得到7维领域标签数据集G1,G1=G1∪{ID,Label};其中,变量e∈[1,A];
(1.2)抽取实体关系的编号,得到ReID={reid1,reid2,…,reide,…,reidA},得到实体集VecID=VecID∪ID和关系集ReID;其中,变量e∈[1,A];
(1.3)定义循环变量i1来遍历VecID、ReID,G为领域知识图谱;i1赋初值1,G赋初值为空;
(1.4)通过实体间关系搭建领域知识图谱G=(VecID,ReID);
(1.5)得到专家审查项目领域知识图谱G;
(2)运用deepwalk算法将知识图谱投射到64维空间,得到实体向量集V1;运用独热码将领域标签转换成7维标签向量;构建神经网络进行多标签分类,包括:
(2.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(2.2)定义循环变量i2来遍历G;运用deepwalk将G投射到64维空间,得到实体向量v1,V1=V1∪{v1};运用独热码将领域标签转换成7维标签向量l1,L1=L1∪{l1};
(2.3)得到V1={v1,v2,…,vc,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lc,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,A];
(2.4)得到Res={{id1,res1},{id2,res2},...,{ide,rese},...,{idA,resA}},ide为实体集中第e个编号,rese为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.5)构建以binary_crossentropy为损失函数的神经网络,在训练过程中不断降低交叉嫡,使标签1的节点输出靠近1,标签0的节点输出靠近0;
(2.6)得到Pre={{id1,pre1},{id2,pre2},...,{ide,pree},...,{idA,preA}},ide为实体集中第e个编号,pree为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.7)在真实标签集Res={{id1,res1},{id2,res2},...,{ide,rese},...,{idA,resA}}和预测标签集Pre={{id1,pre1},{id2,pre2},...,{ide,pree},...,{idA,preA}}中对标签值进行排序,截取前N个标签进行准确度度量;
(3)分别运用node2vec算法deepwalk算法将知识图谱投射到128维空间和64维空间;再分别运用皮尔逊相关度算法和曼哈顿距离度量公式计算得到TopN个最相关实体集合U,包括:
(3.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(3.2)定义循环变量i3用来遍历G;运用deepwalk将G投射到64维空间,得到实体向量v1,V1=V1∪{v1};
(3.3)得到V1={v1,v2,…,vc,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lc,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,A];
(3.4)对于实体向量集中第c个实体向量vc,运用皮尔逊相关度算法计算得到topN个最相关实体集合U1={u11,u12,…,u1A},运用曼哈顿距离计算得到topN个最相关实体集合U2={u21,u22,…,u2A};
(3.5)定义专家组合推荐列表U=u1∩u2,实现专家组合推荐;
(3.6)定义循环变量i4用来遍历G;运用node2vec将G投射到128维空间,得到实体向量v2,V2=V2∪{v2};
(3.7)运用皮尔逊相关度算法计算得到topN个最相关实体集合W1={u11,u12,…,u1A},运用曼哈顿距离计算得到topN个最相关实体集合U2={u21,u22,…,u2A};
(3.8)得到以皮尔逊相关度算法为度量方式的推荐集合W和以曼哈顿距离为度量方式的推荐集合U;
(4)取实体向量集V1,利用PCA分别降维到2维和7维空间;得到2维向量数据集R和7维向量数据集Q;运用余弦相似度算法计算得到TopN个最相关实体U1,U2;定义得到的推荐列表为Recommend=U1∩U2,包括:
(4.1)取实体向量集V1={v1,v2,…,vc,…,vA},vc为实体向量集中第c个实体向量;vc的维度是64维;
(4.2)利用PCA降维后得到实体的2维向量集,R={r1,r2,…,rc,…,rA},rc为实体向量集R中第c个实体向量;
(4.3)对于实体向量集中第c个实体向量rc=vc,运用余弦相似度算法计算得到topN个最相关实体集合U1={u1top1,u1top2,…,u1topx,…,u1topA};u1topx为U1中的第x个数据项,x∈[1,A];
(4.4)利用PCA降维后得到实体的7维向量集,Q={q1,q2,…,qc,…,qA},qc为实体向量集Q中第c个实体向量;
(4.5)对于实体向量集中第c个实体向量qc=vc,运用余弦相似度算法计算得到topN个最相关实体集合U2={u2top1,u2top2,…,u2topx,…,u2topA};u2topx为U2中的第x个数据项,u2topx∈U2,x∈[1,A];
(5)取实体向量集V1,基于知识图谱中实体间关系,搭建CNN,RESNET模型对实体间关系进行学习,使得模型能够拟合知识库中的实体关系数据;基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3;
(6)用未通过降维处理的数据所形成的推荐列表U和降维后运用不同算法得到的推荐列表Recommend以及通过模型预测的推荐列表U3得到最终的推荐列表Result=U∪Recommend∪U3;定义Set={set1,set2,…,setA},计算组合推荐的准确率previous=(set∩Result)/Result;得到最终推荐结果和推荐准确率。
2.根据权利要求1所述的一种基于图向量的专家组合推荐方法,其特征在于,所述步骤(5)中搭建CNN,RESNET模型,基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3的具体步骤如下:
(5.1)通过两个搭建的模型进行实体间关系的挖掘,匹配出与所给实体有关的相关实体集合LIST;其中LIST中实体的意义为和所给实体间不存在直接的历史合作关系,而是隐藏的可能合作关系;
(5.2)定义最终的列表Recommend=U1∩U2∩LIST。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910293927.1A CN110162638B (zh) | 2019-04-12 | 2019-04-12 | 一种基于图向量的专家组合推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910293927.1A CN110162638B (zh) | 2019-04-12 | 2019-04-12 | 一种基于图向量的专家组合推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162638A CN110162638A (zh) | 2019-08-23 |
CN110162638B true CN110162638B (zh) | 2023-06-20 |
Family
ID=67639219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910293927.1A Active CN110162638B (zh) | 2019-04-12 | 2019-04-12 | 一种基于图向量的专家组合推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162638B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737778B (zh) * | 2019-09-04 | 2022-05-31 | 北京邮电大学 | 基于知识图谱和Transformer的专利推荐方法 |
CN110704636B (zh) * | 2019-09-27 | 2021-01-05 | 吉林大学 | 一种改进的基于Node2vec的知识图谱向量表示方法 |
CN111737451B (zh) * | 2020-05-14 | 2024-03-19 | 上海交通大学 | 基于超网络模型的专家推荐方法 |
CN112100323B (zh) * | 2020-08-18 | 2023-11-03 | 淮阴工学院 | 一种基于表示学习的隐藏关联挖掘方法 |
CN112071425B (zh) * | 2020-09-04 | 2022-10-21 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897370A (zh) * | 2017-01-18 | 2017-06-27 | 淮阴工学院 | 一种基于皮尔逊相似度和FP‑Growth的图审专家推荐方法 |
CN109062961A (zh) * | 2018-06-27 | 2018-12-21 | 淮阴工学院 | 一种基于知识图谱的专家组合推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9235853B2 (en) * | 2012-09-11 | 2016-01-12 | Google Inc. | Method for recommending musical entities to a user |
-
2019
- 2019-04-12 CN CN201910293927.1A patent/CN110162638B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897370A (zh) * | 2017-01-18 | 2017-06-27 | 淮阴工学院 | 一种基于皮尔逊相似度和FP‑Growth的图审专家推荐方法 |
CN109062961A (zh) * | 2018-06-27 | 2018-12-21 | 淮阴工学院 | 一种基于知识图谱的专家组合推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110162638A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162638B (zh) | 一种基于图向量的专家组合推荐方法 | |
Xia et al. | Graph learning: A survey | |
Cao et al. | A dissimilarity measure for the k-modes clustering algorithm | |
Gheware et al. | Data mining: Task, tools, techniques and applications | |
CN112100394B (zh) | 一种用于推荐医疗专家的知识图谱构建方法 | |
CN104462385A (zh) | 一种基于用户兴趣模型的电影个性化相似度计算方法 | |
Campello | Generalized external indexes for comparing data partitions with overlapping categories | |
Houle | Inlierness, outlierness, hubness and discriminability: an extreme-value-theoretic foundation | |
CN112101029B (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN111523040A (zh) | 一种基于异构信息网络的社交推荐方法 | |
Li et al. | Adaptive subgraph neural network with reinforced critical structure mining | |
Wang et al. | Incremental fuzzy temporal association rule mining using fuzzy grid table | |
Nakis et al. | HM-LDM: A hybrid-membership latent distance model | |
Meng et al. | A diverse and personalized poi recommendation approach by integrating geo-social embedding relations | |
Golfarelli et al. | A characterization of hierarchical computable distance functions for data warehouse systems | |
Rokhman | A survey on mixed-attribute outlier detection methods | |
Eberle et al. | Online unsupervised state recognition in sensor data | |
CN112100323B (zh) | 一种基于表示学习的隐藏关联挖掘方法 | |
Ma et al. | General collaborative filtering for Web service QoS prediction | |
Li et al. | An improved slope one algorithm for collaborative filtering | |
Carinena | Fuzzy temporal association rules: combining temporal and quantitative data to increase rule expressiveness | |
Teng et al. | A novel fahp based book recommendation method by fusing apriori rule mining | |
Chen | DBSCAN Is Semi-Spectral Clustering | |
Liu | Apriori Algorithm in K-Means Clustering of Consumer Purchases | |
Yan et al. | Application of Recommendation Algorithm Based on Matrix Dimensionality Reduction Model in Network Information Analysis Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190823 Assignee: Fanyun software (Nanjing) Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980052895 Denomination of invention: A Graph Vector Based Expert Combination Recommendation Method Granted publication date: 20230620 License type: Common License Record date: 20231219 |
|
EE01 | Entry into force of recordation of patent licensing contract |