CN110162638B - 一种基于图向量的专家组合推荐方法 - Google Patents

一种基于图向量的专家组合推荐方法 Download PDF

Info

Publication number
CN110162638B
CN110162638B CN201910293927.1A CN201910293927A CN110162638B CN 110162638 B CN110162638 B CN 110162638B CN 201910293927 A CN201910293927 A CN 201910293927A CN 110162638 B CN110162638 B CN 110162638B
Authority
CN
China
Prior art keywords
entity
vector
recommendation
label
reid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910293927.1A
Other languages
English (en)
Other versions
CN110162638A (zh
Inventor
朱全银
季睿
倪金霆
朱亚飞
万瑾
孙强
陈凌云
陈晓艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201910293927.1A priority Critical patent/CN110162638B/zh
Publication of CN110162638A publication Critical patent/CN110162638A/zh
Application granted granted Critical
Publication of CN110162638B publication Critical patent/CN110162638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本专利公开发明了一种基于图向量的专家组合推荐算法,首先从专家审查数据中抽取实体和关系,构建领域知识图谱,再运用图向量算法将知识图谱投射到多维空间,得到实体向量集。运用独热码将领域标签转换成多维标签向量。构建神经网络进行多标签分类。对实体向量集,运用余弦相似度算法计算得到TopN个最相关实体,定义用未通过降维处理的数据所形成的推荐列表和降维后运用不同相似度算法得到的推荐列表形成最终推荐列表。通过知识库中存在的历史关系数据,通过搭建CNN和RESNET网络对历史数据进行拟合。用搭建的模型对输入的实体向量数据进行隐藏关系的挖掘。最终利用距离度量算法形成最终的推荐列表。本发明可精确地在项目审查中进行领域专家推荐。

Description

一种基于图向量的专家组合推荐方法
技术领域
本发明属于知识图谱和图向量算法技术领域,特别涉及一种基于图向量的专家组合推荐方法。
背景技术
本发明中的基于图向量的专家组合推荐方法对传统的推荐方式有重要的作用和意义。在传统推荐方法中,推荐算法的效果依赖于特征工程的好坏。且无法挖掘出更深层次的合作关系。在基于图向量的专家组合推荐方法中,以知识图谱向量化为基础,利用知识图谱中已有的关系数据,搭建CNN和RESNET模型分别对历史关系数据进行拟合。利用模型得出相关的推荐列表。通过神经网络的分类和各种距离度量算法进行相似度计算实现的推荐准确率有一定提高。同时,也挖掘出了更深层次的合作关系。
冯万利,朱全银等人已有的研究基础包括:Wanli Feng.Research of themestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388;Wanli Feng,YingLi,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal of Hybrid Information Technology,Vol.9,No.9(2016),pp.275-282;刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170;刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117;刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent FeatureSelection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,YunyangYan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile PhoneSell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL2011 10423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 2011 10422274.6,2013.01.02;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。
知识图谱:
知识图谱是专家系统、语言学、语义网、数据库等多领域融合的产物,知识图谱描述各种实体及其之间的关系。其中的核心为实体和关系并过关系将所有实体链接,构建语义网络图。对于专家审查数据,有结构化,半结构化,非结构化。从中抽取出实体和关系,搭建知识图谱。
神经网络:
神经网络:一种可以通过观测数据使计算机学习的仿生语言范例。此处用于实体向量调整的的搭建的神经网络共7层。输入为64维的实体向量数据和7维的标签向量数据,实现神经网络的多标签分类。神经网络通过全连接层连接。第一层用优化的Relu激活,最后通过softmax层实现多标签的分类。最后,分类准确率达到87%。用于隐藏关系挖掘的深度神经网络利用知识图谱中已有的关系数据进行拟合。利用模型得出相关的推荐列表。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于图向量的专家组合推荐方法,通过构建一种基于深度神经网络和知识图谱的组合推荐方法,利用这种推荐方法为项目的审核提供有效意见与信息。
技术方案:为解决上述技术问题,本发明提供一种基于图向量的专家组合推荐方法,具体步骤如下:
(1)从专家审查数据中抽取实体VecID和关系ReID,构建领域知识图谱G;
(2)运用deepwalk算法将知识图谱投射到64维空间,得到实体向量集V1;运用独热码将领域标签转换成7维标签向量;构建神经网络进行多标签分类;
(3)分别运用node2vec算法deepwalk算法将知识图谱投射到128维空间和64维空间;再分别运用皮尔逊相关度算法和曼哈顿距离度量公式计算得TopN个最相关实体集合U;
(4)取实体向量集V1,利用PCA分别降维到2维和7维空间;得到2维向量数据集R和7维向量数据集Q;运用余弦相似度算法计算得到TopN个最相关实体U1,U2;定义得到的推荐列表为Recommend=U1∩U2;
(5)取实体向量集V1,基于知识图谱中实体间关系,搭建CNN,RESNET模型对实体间关系进行学习,使得模型能够拟合知识库中的实体关系数据;基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3;
(6)定义用未通过降维处理的数据所形成的推荐列表U和降维后运用不同算法得到的推荐列表Recommend得到最终的推荐列表Result=U∪Recommend∪U3;定义Set={set1,set2,…,setA},计算组合推荐的准确率previous=(set∩Result)/Result;得到最终推荐结果和推荐准确率。
进一步的,所述步骤(1)中构建领域知识图谱G的具体步骤如下:
(1.1)抽取专家和项目的编号ID={id1,id2,…,idA}及领域标签Label={label1,label2,…,labelA},得到7维领域标签数据集G1,G1=G1∪{ID,Label};其中,变量e∈[1,A];
(1.2)抽取实体关系的编号,得到ReID={reid1,reid2,…,reidA},得到实体集VecID=VecID∪ID和关系集ReID;其中,变量e∈[1,A];
(1.3)定义循环变量i1来遍历VecID,ReID,G为领域知识图谱;i1赋初值1,G赋初值为空;
(1.4)通过实体间关系搭建领域知识图谱G=(VecID,ReID);
(1.5)得到专家审查项目领域知识图谱G。
进一步的,所述步骤(2)中构建神经网络进行多标签分类的具体步骤如下:
(2.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(2.2)定义循环变量i2来遍历G;运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1};运用独热码将领域标签转换成7维标签向量l1,L1=L1∪{l1};
(2.3)得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
(2.4)得到Res={{id1,res1},{id2,res2},...,{idA,resA}},ide为实体集中第e个编号,rese为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.5)构建以binary_crossentropy为损失函数的神经网络,在训练过程中不断降低交叉嫡,使标签1的节点输出靠近1,标签0的节点输出靠近0;
(2.6)得到Pre={{id1,pre1},{id2,pre2},...,{idA,preA}},ide为实体集中第e个编号,pree为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.7)在真实标签集Res={{id1,res1},{id2,res2},...,{idA,resA}}和预测标签集Pre={{id1,pre1},{id2,pre2},...,{idA,preA}}中对标签值进行排序,截取前N个标签进行准确度度量。
进一步的,所述步骤(3)中运用皮尔逊相关度算法和曼哈顿距离度量公式计算得TopN个最相关实体集合U的具体步骤如下:
(3.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(3.2)定义循环变量i3用来遍历G;运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1};
(3.3)得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
(3.4)对于实体向量集中第c个实体向量vc,运用皮尔逊相关度算法计算得topN个最相关实体集合U1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A};
(3.5)定义专家组合推荐列表U=u1∩u2,实现专家组合推荐;
(3.6)定义循环变量i4用来遍历G;运用node2vec将G3投射到128维空间,得到实体向量v2,V2=V2∪{v2};
(3.7)运用皮尔逊相关度算法计算得topN个最相关实体集合W1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A};
(3.8)得到以皮尔逊相关度算法为度量方式的推荐集合W和以曼哈顿距离为度量方式的推荐集合U。
进一步的,所述步骤(4)中运用余弦相似度算法计算得到TopN个最相关实体U1,U2;定义得到的推荐列表为Recommend=U1∩U2的具体步骤如下:
(4.1)取实体向量集V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量;vc的维度是64维;
(4.2)利用PCA降维后得到实体的2维向量集,R={r1,r2,…,rA},rc为实体向量集中第c个实体向量;
(4.3)对于实体向量集中第c个实体向rc==vc,运用余弦相似度算法计算得topN个最相关实体集合U1={u1top1,u1top2,…,u1topA};u2topx为U2中的第x个数据项,x∈[1,A];
(4.4)利用PCA降维后得到实体的7维向量集,Q={q1,q2,…,qA},qc为实体向量集中第c个实体向量;
(4.5)对于实体向量集中第c个实体向量qc=vc,运用余弦相似度算法计算得topN个最相关实体集合U2={u2top1,u2top2,…,u2topA};u2topx为U2中的第x个数据项,u2topx∈U2,x∈[1,A]。
进一步的,所述步骤(5)中搭建CNN,RESNET模型,基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3的具体步骤如下:
(5.1)通过两个搭建的模型进行实体间关系的挖掘,匹配出与所给实体有关的相关实体集合LIST;其中LIST中实体的意义为和所给实体间不存在直接的历史合作关系,而是隐藏的可能合作关系;
(5.2)定义最终的列表Recommend=U1∩U2∩LIST。
进一步的,所述步骤(6)中得到最终推荐结果和推荐准确率的具体步骤如下:
(6.1)定义最终推荐列表Recset=U∪Recommend;
(6.2)判断
Figure GDA0004192869520000051
(6.3)Set为测试项目原本的专家组合;Set={set1,set2,…,setA};
(6.4)计算组合推荐的准确率previous=(set∩Recse)/Recse;
(6.5)得到最终的推荐结果Recset和推荐准确率。
与现有技术相比,本发明的优点在于:
本发明方法基于向量化后的知识图谱得到的高维实体向量进行相似度度量,并利用RESNET模型挖掘隐藏关联。具体描述如下:本发明利用deepwalk算法和node2vec算法将知识图谱投射到高维空间,得到知识图谱中实体的高维向量集。通过主成分分析算法和距离度量方式对高维向量数据集进行处理。同时利用神经网络对高维向量数据集进行多标签分类。之后,利用知识图谱中已有的关系数据,搭建RESNET和CNN模型对关系数据进行拟合,并利用模型得到实体推荐列表。最终,通过多种距离度量方法提高推荐准确率。
附图说明
图1为本发明的总体流程图;
图2为图1中构建专家审查项目的知识图谱构建的流程图;
图3为图1中基于神经网络的实体向量的多标签分类的流程图;
图4为图1中基于PCA和系列距离度量方式进行组合推荐算法的流程图;
图5为图1中最终推荐列表生成的流程图;
图6为图1中得到最终推荐结果和推荐准确率的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1-6示,本发明包括如下步骤:
步骤1:从专家审查数据中抽取实体VecID和关系ReID,构建领域知识图谱G,具体的如图2所示:
步骤1.1:抽取专家和项目的编号ID={id1,id2,…,idA}及领域标签Label={label1,label2,…,labelA},得到7维领域标签数据集G1,G1=G1∪{ID,Label}。其中,变量e∈[1,A];
步骤1.2:抽取实体关系的编号,得到ReID={reid1,reid2,…,reidA},得到实体集VecID=VecID∪ID和关系集ReID。其中,变量e∈[1,A];
步骤1.3:定义循环变量i1来遍历VecID,ReID,G为领域知识图谱。i1赋初值1,G赋初值为空。
步骤1.4:通过实体间关系搭建领域知识图谱G=(VecID,ReID);
步骤1.5:得到专家审查项目领域知识图谱G;
步骤2:运用deepwalk算法将知识图谱投射到64维空间,得到实体向量集V1。运用独热码将领域标签转换成7维标签向量。构建神经网络进行多标签分类,具体的如图3所示:
步骤2.1:取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
步骤2.2:定义循环变量i2来遍历G。运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1}。运用独热码将领域标签转换成7维标签向量l1,L1=L1∪{l1};
步骤2.3:得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量。L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
步骤2.4:得到Res={{id1,res1},{id2,res2},...,{idA,resA}},ide为实体集中第e个编号,rese为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
步骤2.5:构建以binary_crossentropy为损失函数的神经网络,在训练过程中不断降低交叉嫡,使标签1的节点输出靠近1,标签0的节点输出靠近0;
步骤2.6:得到Pre={{id1,pre1},{id2,pre2},...,{idA,preA}},ide为实体集中第e个编号,pree为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
步骤2.7:在真实标签集Res={{id1,res1},{id2,res2},...,{idA,resA}}和预测标签集Pre={{id1,pre1},{id2,pre2},...,{idA,preA}}中对标签值进行排序,截取前N个标签进行准确度度量;
步骤3:分别运用node2vec算法deepwalk算法将知识图谱投射到128维空间和64维空间。再分别运用皮尔逊相关度算法和曼哈顿距离度量公式计算得TopN个最相关实体集合U,具体的如图4所示:
步骤3.1:取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
步骤3.2:定义循环变量i3用来遍历G。运用deepwalk将G3投射到64维空间,得到实体向量v1,V1=V1∪{v1};
步骤3.3:得到V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量。L1={l1,l2,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,B];
步骤3.4:对于实体向量集中第c个实体向量vc,运用皮尔逊相关度算法计算得topN个最相关实体集合U1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A};
步骤3.5:定义专家组合推荐列表U=u1∩u2,实现专家组合推荐;
步骤3.6:定义循环变量i4用来遍历G。运用node2vec将G3投射到128维空间,得到实体向量v2,V2=V2∪{v2};
步骤3.7:运用皮尔逊相关度算法计算得topN个最相关实体集合W1={u11,u12,…,u1A},运用曼哈顿距离计算的topN个最相关实体集合U2{u21,u22,…,u2A}。
步骤3.8:得到以皮尔逊相关度算法为度量方式的推荐集合W和以曼哈顿距离为度量方式的推荐集合U;
步骤4:取实体向量集V1,利用PCA分别降维到2维和7维空间。得到2维向量数据集R和7维向量数据集Q。运用余弦相似度算法计算得到TopN个最相关实体U1,U2。定义得到的推荐列表为Recommend=U1∩U2。
步骤4.1:取实体向量集V1={v1,v2,…,vA},vc为实体向量集中第c个实体向量。vc的维度是64维;
步骤4.2:利用PCA降维后得到实体的2维向量集,R={r1,r2,…,rA},rc为实体向量集中第c个实体向量;
步骤4.3:对于实体向量集中第c个实体向rc==vc,运用余弦相似度算法计算得topN个最相关实体集合U1={u1top1,u1top2,…,u1topA}。u2topx为U2中的第x个数据项,x∈[1,A];
步骤4.4:利用PCA降维后得到实体的7维向量集,Q={q1,q2,…,qA},qc为实体向量集中第c个实体向量;
步骤4.5:对于实体向量集中第c个实体向量qc==vc,运用余弦相似度算法计算得topN个最相关实体集合U2={u2top1,u2top2,…,u2topA}。u2topx为U2中的第x个数据项,u2topx∈U2,x∈[1,A];
步骤5:取未降维的数据推荐列表U,利用知识图谱中存在的实体间关系数据,搭建CNN和RESNET网络对实体间关系进行学习。
步骤5.1:通过两个搭建的模型进行实体间关系的挖掘,匹配出与所给实体有关的相关实体集合LIST;其中LIST中实体的意义为和所给实体间不存在直接的历史合作关系,而是隐藏的可能合作关系。
步骤5.2:定义最终的列表Recommend=U1∩U2∩LIST;
步骤6:定义最终的推荐列表Result=U∪Recommend。定义Set={set1,set2,…,setA},计算组合推荐的准确率previous=(set∩Result)/Result。得到最终推荐结果和推荐准确率。
步骤6.1:定义最终推荐列表Recset=U∪Recommend;
步骤6.2:判断
Figure GDA0004192869520000081
步骤6.3:Set为测试项目原本的专家组合。Set={set1,set2,…,setA};
步骤6.4:计算组合推荐的准确率previous=(set∩Recse)/Recse;
步骤6.5:得到最终的推荐结果Recset和推荐准确率;
通过对65535条原始专家审查数据进行实体和关系的挖掘后,得到12277个实体集。进一部搭建知识图谱后,利用deepwalk算法和node2vec算法将知识图谱投射到高维空间,得到知识图谱中实体的高维向量集。通过主成分分析算法和距离度量方式对高维向量数据集进行处理。之后,通过结合图向量,利用知识图谱中已有的关系数据,搭建CNN和RESNET模型分别对历史关系数据进行拟合。利用模型得出相关的推荐列表。最终,结合多种距离度量方法将推荐准确率提高到87%。

Claims (3)

1.一种基于图向量的专家组合推荐方法,其特征在于,具体步骤如下:
(1)从专家审查数据中抽取实体VecID和关系ReID,构建领域知识图谱G,包括:
(1.1)抽取专家和项目的编号ID={id1,id2,…,ide,…,idA}及领域标签Label={label1,label2,…,labele,…,labelA},得到7维领域标签数据集G1,G1=G1∪{ID,Label};其中,变量e∈[1,A];
(1.2)抽取实体关系的编号,得到ReID={reid1,reid2,…,reide,…,reidA},得到实体集VecID=VecID∪ID和关系集ReID;其中,变量e∈[1,A];
(1.3)定义循环变量i1来遍历VecID、ReID,G为领域知识图谱;i1赋初值1,G赋初值为空;
(1.4)通过实体间关系搭建领域知识图谱G=(VecID,ReID);
(1.5)得到专家审查项目领域知识图谱G;
(2)运用deepwalk算法将知识图谱投射到64维空间,得到实体向量集V1;运用独热码将领域标签转换成7维标签向量;构建神经网络进行多标签分类,包括:
(2.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(2.2)定义循环变量i2来遍历G;运用deepwalk将G投射到64维空间,得到实体向量v1,V1=V1∪{v1};运用独热码将领域标签转换成7维标签向量l1,L1=L1∪{l1};
(2.3)得到V1={v1,v2,…,vc,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lc,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,A];
(2.4)得到Res={{id1,res1},{id2,res2},...,{ide,rese},...,{idA,resA}},ide为实体集中第e个编号,rese为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.5)构建以binary_crossentropy为损失函数的神经网络,在训练过程中不断降低交叉嫡,使标签1的节点输出靠近1,标签0的节点输出靠近0;
(2.6)得到Pre={{id1,pre1},{id2,pre2},...,{ide,pree},...,{idA,preA}},ide为实体集中第e个编号,pree为标签集中第e个实体的标签向量,其中,变量e∈[1,A];
(2.7)在真实标签集Res={{id1,res1},{id2,res2},...,{ide,rese},...,{idA,resA}}和预测标签集Pre={{id1,pre1},{id2,pre2},...,{ide,pree},...,{idA,preA}}中对标签值进行排序,截取前N个标签进行准确度度量;
(3)分别运用node2vec算法deepwalk算法将知识图谱投射到128维空间和64维空间;再分别运用皮尔逊相关度算法和曼哈顿距离度量公式计算得到TopN个最相关实体集合U,包括:
(3.1)取知识图谱G=(VecID,ReID),VecID为实体编号,ReID为关系编号;
(3.2)定义循环变量i3用来遍历G;运用deepwalk将G投射到64维空间,得到实体向量v1,V1=V1∪{v1};
(3.3)得到V1={v1,v2,…,vc,…,vA},vc为实体向量集中第c个实体向量;L1={l1,l2,…,lc,…,lA},lc为实体向量集中第c个实体向量,其中,变量c∈[1,A];
(3.4)对于实体向量集中第c个实体向量vc,运用皮尔逊相关度算法计算得到topN个最相关实体集合U1={u11,u12,…,u1A},运用曼哈顿距离计算得到topN个最相关实体集合U2={u21,u22,…,u2A};
(3.5)定义专家组合推荐列表U=u1∩u2,实现专家组合推荐;
(3.6)定义循环变量i4用来遍历G;运用node2vec将G投射到128维空间,得到实体向量v2,V2=V2∪{v2};
(3.7)运用皮尔逊相关度算法计算得到topN个最相关实体集合W1={u11,u12,…,u1A},运用曼哈顿距离计算得到topN个最相关实体集合U2={u21,u22,…,u2A};
(3.8)得到以皮尔逊相关度算法为度量方式的推荐集合W和以曼哈顿距离为度量方式的推荐集合U;
(4)取实体向量集V1,利用PCA分别降维到2维和7维空间;得到2维向量数据集R和7维向量数据集Q;运用余弦相似度算法计算得到TopN个最相关实体U1,U2;定义得到的推荐列表为Recommend=U1∩U2,包括:
(4.1)取实体向量集V1={v1,v2,…,vc,…,vA},vc为实体向量集中第c个实体向量;vc的维度是64维;
(4.2)利用PCA降维后得到实体的2维向量集,R={r1,r2,…,rc,…,rA},rc为实体向量集R中第c个实体向量;
(4.3)对于实体向量集中第c个实体向量rc=vc,运用余弦相似度算法计算得到topN个最相关实体集合U1={u1top1,u1top2,…,u1topx,…,u1topA};u1topx为U1中的第x个数据项,x∈[1,A];
(4.4)利用PCA降维后得到实体的7维向量集,Q={q1,q2,…,qc,…,qA},qc为实体向量集Q中第c个实体向量;
(4.5)对于实体向量集中第c个实体向量qc=vc,运用余弦相似度算法计算得到topN个最相关实体集合U2={u2top1,u2top2,…,u2topx,…,u2topA};u2topx为U2中的第x个数据项,u2topx∈U2,x∈[1,A];
(5)取实体向量集V1,基于知识图谱中实体间关系,搭建CNN,RESNET模型对实体间关系进行学习,使得模型能够拟合知识库中的实体关系数据;基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3;
(6)用未通过降维处理的数据所形成的推荐列表U和降维后运用不同算法得到的推荐列表Recommend以及通过模型预测的推荐列表U3得到最终的推荐列表Result=U∪Recommend∪U3;定义Set={set1,set2,…,setA},计算组合推荐的准确率previous=(set∩Result)/Result;得到最终推荐结果和推荐准确率。
2.根据权利要求1所述的一种基于图向量的专家组合推荐方法,其特征在于,所述步骤(5)中搭建CNN,RESNET模型,基于此模型,对输入的实体向量挖掘知识库中的隐藏关系;得到推荐列表U3的具体步骤如下:
(5.1)通过两个搭建的模型进行实体间关系的挖掘,匹配出与所给实体有关的相关实体集合LIST;其中LIST中实体的意义为和所给实体间不存在直接的历史合作关系,而是隐藏的可能合作关系;
(5.2)定义最终的列表Recommend=U1∩U2∩LIST。
3.根据权利要求1所述的一种基于图向量的专家组合推荐方法,其特征在于,所述步骤(6)中得到最终推荐结果和推荐准确率的具体步骤如下:
(6.1)定义最终推荐列表Recset=U∪Recommend;
(6.2)判断
Figure FDA0004153190520000031
(6.3)Set为测试项目原本的专家组合;Set={set1,set2,…,setA};
(6.4)计算组合推荐的准确率previous=(set∩Recset)/Recset;
(6.5)得到最终的推荐结果Recset和推荐准确率。
CN201910293927.1A 2019-04-12 2019-04-12 一种基于图向量的专家组合推荐方法 Active CN110162638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910293927.1A CN110162638B (zh) 2019-04-12 2019-04-12 一种基于图向量的专家组合推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910293927.1A CN110162638B (zh) 2019-04-12 2019-04-12 一种基于图向量的专家组合推荐方法

Publications (2)

Publication Number Publication Date
CN110162638A CN110162638A (zh) 2019-08-23
CN110162638B true CN110162638B (zh) 2023-06-20

Family

ID=67639219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910293927.1A Active CN110162638B (zh) 2019-04-12 2019-04-12 一种基于图向量的专家组合推荐方法

Country Status (1)

Country Link
CN (1) CN110162638B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737778B (zh) * 2019-09-04 2022-05-31 北京邮电大学 基于知识图谱和Transformer的专利推荐方法
CN110704636B (zh) * 2019-09-27 2021-01-05 吉林大学 一种改进的基于Node2vec的知识图谱向量表示方法
CN111737451B (zh) * 2020-05-14 2024-03-19 上海交通大学 基于超网络模型的专家推荐方法
CN112100323B (zh) * 2020-08-18 2023-11-03 淮阴工学院 一种基于表示学习的隐藏关联挖掘方法
CN112071425B (zh) * 2020-09-04 2022-10-21 平安科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897370A (zh) * 2017-01-18 2017-06-27 淮阴工学院 一种基于皮尔逊相似度和FP‑Growth的图审专家推荐方法
CN109062961A (zh) * 2018-06-27 2018-12-21 淮阴工学院 一种基于知识图谱的专家组合推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235853B2 (en) * 2012-09-11 2016-01-12 Google Inc. Method for recommending musical entities to a user

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897370A (zh) * 2017-01-18 2017-06-27 淮阴工学院 一种基于皮尔逊相似度和FP‑Growth的图审专家推荐方法
CN109062961A (zh) * 2018-06-27 2018-12-21 淮阴工学院 一种基于知识图谱的专家组合推荐方法

Also Published As

Publication number Publication date
CN110162638A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110162638B (zh) 一种基于图向量的专家组合推荐方法
Xia et al. Graph learning: A survey
Cao et al. A dissimilarity measure for the k-modes clustering algorithm
Gheware et al. Data mining: Task, tools, techniques and applications
CN112100394B (zh) 一种用于推荐医疗专家的知识图谱构建方法
CN104462385A (zh) 一种基于用户兴趣模型的电影个性化相似度计算方法
Campello Generalized external indexes for comparing data partitions with overlapping categories
Houle Inlierness, outlierness, hubness and discriminability: an extreme-value-theoretic foundation
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN111523040A (zh) 一种基于异构信息网络的社交推荐方法
Li et al. Adaptive subgraph neural network with reinforced critical structure mining
Wang et al. Incremental fuzzy temporal association rule mining using fuzzy grid table
Nakis et al. HM-LDM: A hybrid-membership latent distance model
Meng et al. A diverse and personalized poi recommendation approach by integrating geo-social embedding relations
Golfarelli et al. A characterization of hierarchical computable distance functions for data warehouse systems
Rokhman A survey on mixed-attribute outlier detection methods
Eberle et al. Online unsupervised state recognition in sensor data
CN112100323B (zh) 一种基于表示学习的隐藏关联挖掘方法
Ma et al. General collaborative filtering for Web service QoS prediction
Li et al. An improved slope one algorithm for collaborative filtering
Carinena Fuzzy temporal association rules: combining temporal and quantitative data to increase rule expressiveness
Teng et al. A novel fahp based book recommendation method by fusing apriori rule mining
Chen DBSCAN Is Semi-Spectral Clustering
Liu Apriori Algorithm in K-Means Clustering of Consumer Purchases
Yan et al. Application of Recommendation Algorithm Based on Matrix Dimensionality Reduction Model in Network Information Analysis Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190823

Assignee: Fanyun software (Nanjing) Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2023980052895

Denomination of invention: A Graph Vector Based Expert Combination Recommendation Method

Granted publication date: 20230620

License type: Common License

Record date: 20231219

EE01 Entry into force of recordation of patent licensing contract