CN112100395B

CN112100395B - 一种专家合作可行性分析方法

Info

Publication number: CN112100395B
Application number: CN202010799399.XA
Authority: CN
Inventors: 朱全银; 唐文骏; 赵建洋; 葛启航; 闫宏伟; 丁苏仁
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2024-03-29
Anticipated expiration: 2040-08-11
Also published as: CN112100395A

Abstract

发明公开了一种专家合作可行性分析方法，包括：采用Scrapy爬虫框架，收集科技专家的三元组关系数据。对科技专家数据集进行数据预处理，计算每两个实体间属性的相似度以及关联度。利用知识图谱技术与Django前端框架技术为用户提供直观的科技专家可行性分析辅助。本发明的算法模型是通过自适应寻优调参，采用知识图谱技术进行专家合作可行性分析，与传统人工主观的可行性分析相比，可以提供更加直观、准确更并具有普适性的可行性分析。

Description

一种专家合作可行性分析方法

技术领域

本发明属于知识图谱与合作可行性分析技术领域，特别涉及一种专家合作可行性分析方法。

背景技术

可行性分析是通过对项目的主要内容和配套条件，如市场需求、资源供应、建设规模、工艺路线、设备选型、环境影响、资金筹措、盈利能力等，从技术、经济、工程等方面进行调查研究和分析比较，并对项目建成以后可能取得的财务、经济效益及社会环境影响进行预测，从而提出该项目是否值得投资和如何进行建设的咨询意见，为项目决策提供依据的一种综合性的系统分析方法。可行性分析应具有预见性、公正性、可靠性、科学性的特点。。

由于可行性分析通常以书面报告的形式进行展示。对采集处理的数据结果有一定的主观性，所需采集验证的数据数量、种类较多，研究问题所需工程量极大。导致观看者常常无法直观了解到合作可行性分析数据的各个方面，无法直观地、清晰地了解问题的全部。

冯万利，朱全银等人已有的研究基础包括：Wanli Feng.Research of themestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388；Wanli Feng,Ying Li,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal of Hybrid Information Technology,Vol.9,No.9(2016),pp.275-282；刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170；刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117；刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.；朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；Quanyin Zhu,Sunqun Cao.ANovel Classifier-independent FeatureSelection Algorithm for Imbalanced Datasets.2009,p:77-82；Quanyin Zhu,YunyangYan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile PhoneSell Online.2011,p:282-285；Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093；朱全银，冯万利等人申请、公开与授权的相关专利：冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014；朱全银，胡蓉静，何苏群，周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL2011 10423015.5,2015.07.01；朱全银，曹苏群，严云洋，胡蓉静等，一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 2011 10422274.6,2013.01.02；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。

知识图谱技术：

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

DNN神经网络：

深度神经网络(DNN)是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出一种专家合作可行性分析方法，利用DNN神经网络算法建立词向量化模型，运用知识图谱技术建立图数据库，弥补科技专家合作可行性分析相关系统展示部分模糊，观点主观的问题。

技术方案：为解决上述技术问题，本发明提供一种专家合作可行性分析方法，具体步骤如下：

(1)利用Scrapy爬虫技术对科技论文项目数据进行数据爬取，将爬取的文本数据集定义为L，对数据集L进行处理得到清洗后的数据集，定义为L1；

(2)对清洗数据集L1处理，得到的矩阵数据集，定义为L2；

(3)搭建项目的整体运行框架；

(4)构建DNN深度神经网络训练模型W；

(5)通过Dijango封装接口从web前端获取科技专家姓名Z2、Z3，进行相似度计算，得出相似度，定义为Same；

(6)通过Dijango封装接口从web前端获取科技专家姓名Z2、Z3，进行关联度计算，得到关联度，定义为Correlation；

(7)抽取科技专家论文项目文本数据实体间的关系，建立并调用对应科技专家知识图谱；

(8)构建Web前端，neo4j数据库系统之间的运行结构，调用知识图谱E，传输至Web前端展示页面；

(9)开放科技专家合作可行性分析系统及科技专家实体关系图数据库API接口，用户通过Web前端页面返回的Return文件进行科技专家合作可行性分析。

进一步的，所述步骤(1)中得到数据集L1的具体步骤如下：

(1.1)利用Scrapy对科技专家合作可行性分析辅助系统中的所用数据进行爬取，声明爬虫的地址域，获取词表，构造原始的json文件，生成url列表，通过url获取title，爬取图片的url和开放域的标签；

(1.2)将爬取到的科技专家论文、项目每一个实体对应科技专家的一个词条，其中包括项目名称title、项目链接url、项目成员people、项目内容content，所属单位unit；

(1.3)获取到科技专家数据库L；

(1.4)对科技专家数据库L中的数据进行数据清洗，去除残缺数据，得到数据集，定义为Lc；

(1.5)除去数据集Lc中外文数据及非中文数据后得到数据集，定义为Lw；

(1.6)给数据集Lw中定分词结果，提取命名实体的数据集，定义为L1。

进一步的，所述步骤(2)中得到矩阵数据集L2的具体步骤如下：

(2.1)利用Scrapy爬虫技术对科技论文项目数据进行数据爬取，将爬取的文本数据集定义为L，对数据集L进行数据清洗后得到数据集，定义为L1；

(2.2)提取数据集L1中项目名称数据置入项目名称数据集LN中，定义项目名称数据集LN＝LN{LN1，LN2，LN3...LNn}，n为项目编号；设项目数量为m，n∈[0,m]；

(2.3)将项目名称数据集LN置入词向量训练模型W；

(2.4)生成项目名称词向量数据集LNC；

(2.5)提取数据集L1中项目内容数据置入项目内容数据集LT中，定义项目内容数据集LT＝LT{LT1，LT2，LT3...LTn}，n为项目编号；设项目数量为m，n∈[0,m]；

(2.6)将项目名称数据集LT置入词向量训练模型W；

(2.7)生成项目内容词向量数据集LTC；

(2.8)提取数据集L1中项目成员数据置入项目内容数据集LA中，定义项目成员数据集LA＝LA{LA1，LA2，LA3...LAx}，x为成员编号。设成员数量为y，x∈[0,y]；

(2.9)定义项目数据LG1＝[LN1,LT1,LA1]，LG2＝[LN2,LT2,LA2]，LG3＝[LN3,LT3,LA3]…LGn＝[LNn,LTn,LAx]设置数据集LG＝LG{LG1，LG2，LG3...LGn},n为项目编号；设项目数量为m，n∈[0,m]；

(2.10)遍历数据集LG；

(2.11)当Gn＝0则跳转步骤(2.9)，否则跳转步骤(2.12)；

(2.12)生成矩阵数据集L2。

进一步的，所述步骤(3)中搭建项目的整体运行框架的具体步骤如下：

(3.1)调用矩阵数据集L2；

(3.2)构建对应的节点数据集A，实体关系数据集B；

(3.3)将步骤(2.2)中构建的节点数据集A，实体关系数据集B导入图数据库，生成知识图谱E，跳转至步骤(3.12)；

(3.4)获取前端输入值Z2、Z3；

(3.5)遍历项目内容词向量数据集LTC；

(3.6)判断(3.5)中获取的前端输入值Z2、Z3是否属于项目名称词向量数据集R，如成立跳转步骤(3.7)和(3.8)，否则跳转步骤(3.4)；

(3.7)调用关联度计算模型D，跳转至步骤(3.12)；

(3.8)调用相似度计算模型Same，跳转至步骤(3.12)；

(3.9)获取前端输入值Z1；

(3.10)遍历项目名称词向量数据集LNC；

(3.11)判断(3.9)中获取的前端输入值Z1是否属于项目名称词向量数据集LTC，如成立跳转步骤(3.12)，否则跳转步骤(3.9)；

(3.12)可行性分析结果展示。

进一步的，所述步骤(4)中构建DNN深度神经网络训练模型W的具体步骤如下：

(4.1)遍历项目内容数据集LTC，将其jieba分词生成字典，字典定义为V，V长度为Q；

(4.2)顺序输出字典V，输出内容定义为Po，设o＝1；

(4.3)设神经元个数定义为255，权重矩阵定义为J，设J为Ox255，O＝o；

(4.4)初始化权重矩阵J；

(4.5)定义一个损失函数为softmax每个样本数据softmax层都可以得到不同的概率分布，进而得到预测关系，将最大的预测结果作为实体预测结果；

(4.6)输入Po与权重矩阵J相乘得Lo；

(4.7)构建全连接层fc1，以ReLU函数作为激励函数，神经元个数定义为255，结合softmax逻辑回归得词向量值Io；

(4.8)输出词向量平均值X＝Io/o；

(4.9)判断是否O＝Q，如成立跳转步骤(4.11)，否则跳转至步骤(4.10)；

(4.10)o＝o+1，跳转至步骤(4.3)；

(4.11)训练结束，构建DNN深度神经网络训练模型W。

进一步的，所述步骤(5)中得出相似度Same的具体步骤如下：

(5.1)获取科技专家姓名Z2、Z3；

(5.2)遍历项目成员数据集LA；

(5.3)判断Z2、Z3是否存在LA中，若存在跳转步骤(5.4)，否则跳转至步骤(5.1)；

(5.4)读取数据库中Z2、Z3对应的数据置入字典d1、d2；

(5.5)使用jieba对d1、d2进行分词生成字典m1、m2；

(5.6)对字典m1、m2套入词向量模型生成词向量矩阵v1、v2；

(5.7)分别计算v1、v2的平均词向量矩阵v11、v21；

(5.8)分别计算v11、v21的范数v12、v22；

(5.9)导入公式V11*v21/v12*v22；

(5.10)得到相似度Same。

进一步的，所述步骤(6)中得到关联度Correlation的具体步骤如下：

(6.1)获取科技专家姓名Z2、Z3；

(6.2)遍历项目成员数据集LA；

(6.3)判断Z2、Z3是否存在LA中，若存在跳转步骤(6.4)，否则跳转至步骤(6.1)；

(6.4)读取数据库中Z2、Z3对应的数据置入字典d1、d2；

(6.5)使用jieba对d1、d2进行分词生成字典m1、m2；

(6.6)将m1与m2的交集置入字典m3；

(6.7)遍历m1、m2置入字典m4；

(6.8)导入公式m3/m4；

(6.9)得到关联度Correlation。

进一步的，所述步骤(7)中建立并调用对应科技专家知识图谱的具体步骤如下：

(7.1)输入科技专家文本数据，筛选文本数据中的实体，并且抽取二者之间的关系；

(7.2)导入项目论文数据、科技专家数据至neo4j图数据库中；

(7.3)判断数据库中存在搜索的实体，若存在跳转至步骤(7.4)，否则跳转至步骤(7.12)；

(7.4)用Cython语句将搜索结果；

(7.5)调用对应知识图谱；

(7.6)在搜索框中搜索科技专家及项目信息获取前端输入值Z1，跳转至步骤(7.8)；

(7.7)在计算框中搜索科技专家及项目信息获取前端输入值Z1获取前端输入值Z2、Z3；

(7.8)利用Cython语句对数据库进行搜索；

(7.9)判断数据库中存在搜索的实体，若存在跳转至步骤(7.10)，否则跳转至步骤(7.12)；

(7.10)用Cython语句将搜索结果；

(7.11)调用对应知识图谱；

(7.12)显示数据库中不存在数据。

进一步的，所述步骤(8)中构建Web前端，neo4j数据库系统之间的运行结构，调用知识图谱E，传输至Web前端展示页面的具体步骤如下：

(8.1)获取前端输入值Z1；

(8.2)调用词向量训练模型W，得到前端输入值词向量Wz1；

(8.3)遍历项目名称词向量数据集LNC；

(8.4)判断Wz1是否存在于项目名称词向量数据集C中，若不存在跳转至步骤(8.5)，否则跳转至步骤(8.7)；

(8.5)遍历项目成员数据集LA；

(8.6)判断Wz1是否存在于项目名称词向量数据集C中，若不存在跳转至步骤(8.7)，否则跳转至步骤(8.1)；

(8.7)发送URL请求至图数据库服务器；

(8.8)调用对应知识图谱E；

(8.9)传输至Web前端展示页面。

进一步的，所述步骤(9)中进行科技专家合作可行性分析的具体步骤如下：

(9.1)开放科技专家合作可行性分析系统及科技专家实体关系图数据库API接口；

(9.2)用户登录，创建线程池ThreadPool，等待线程池WaitThreadPool；

(9.3)置入等待线程池WaitThreadPoo；

(9.4)检测ThreadPool是否已满，如未满跳至步骤(9.5)，否则返回步骤(9.3)继续等待；

(9.5)用户通过Web平台输入查询项目内容或科技专家姓名；

(9.6)子线程ChildThread获取任务处理；

(9.7)判断输入数据属性，如属于项目数据则跳至步骤(9.8)，如属于科技专家姓名数据跳至步骤(9.9)；

(9.8)根据文本相似度调用知识图谱E中对应知识图数据，跳转至步骤(9.11)；

(9.9)计算相似度Same；

(9.10)计算关联度度Correlation；

(9.11)结束该子进程ChildThread；

(9.12)结果写入返回文件Return；

(9.13)关闭线程池ThreadPool；

(9.14)通过Web将返回文件Return返回给用户。

本发明采用上述技术方案，具有以下有益效果：

本发明利用Scrapy爬虫框架爬取到科技专家相关的非结构化文本数据，采用知识图谱技术，为科技专家合作可行性分析辅助系统提供图数据库，清晰地展现出数据的详细内容，提供了相似度、关联度等需要处理的数据，准确分析科技专家间的合作可行性。

附图说明

图1为本发明的总体流程图；

图2为具体实施例中爬虫流程图；

图3为具体实施例中数据预处理过程的流程图；

图4为具体实施例中系统的整体运行框架的流程图；

图5为具体实施例中DNN深度神经网络训练模型W的构建图；

图6为具体实施例中相似度计算模型图；

图7为具体实施例中关联度计算模型图；

图8为具体实施例中建立科技专家知识图谱的流程图；

图9为具体实施例中Web前端知识图谱调用流程图；

图10为具体实施例中知识图谱应用于专家合作可行性分析流程图。

具体实施方式

下面结合工程国家标准的具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-10所示，本发明所述的一种专家合作可行性分析方法，包括如下步骤：

步骤1：利用Scrapy爬虫技术对科技论文项目数据进行数据爬取，将爬取的文本数据集定义为L，对数据集L进行处理得到清洗后的数据集，定义为L1；

步骤2：对清洗数据集L1处理，得到的矩阵数据集，定义为L2；

步骤3：搭建项目的整体运行框架；

步骤4：构建DNN深度神经网络训练模型W；

步骤5：通过Dijango封装接口从web前端获取科技专家姓名Z2、Z3，进行相似度计算，得出相似度，定义为Same；

步骤6：通过Dijango封装接口从web前端获取科技专家姓名Z2、Z3，进行关联度计算，得到关联度，定义为Correlation；

步骤7：抽取科技专家论文项目文本数据实体间的关系，建立并调用对应科技专家知识图谱；

步骤8：构建Web前端，neo4j数据库系统之间的运行结构，调用知识图谱E，传输至Web前端展示页面；

步骤9：开放科技专家合作可行性分析系统及科技专家实体关系图数据库API接口，用户通过Web前端页面返回的Return文件进行科技专家合作可行性分析；

如图2所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤1的具体方法为：

步骤1.1：利用Scrapy对科技专家合作可行性分析辅助系统中的所用数据进行爬取，声明爬虫的地址域，获取词表，构造原始的json文件，生成url列表，通过url获取title，爬取图片的url和开放域的标签；

步骤1.2：将爬取到的科技专家论文、项目每一个实体对应科技专家的一个词条，其中包括项目名称title、项目链接url、项目成员people、项目内容content，所属单位unit；

步骤1.3：获取到科技专家数据库L；

步骤1.4：对科技专家数据库L中的数据进行数据清洗，去除残缺数据，得到数据集，定义为Lc；

步骤1.5：除去数据集Lc中外文数据及非中文数据后得到数据集，定义为Lw；

步骤1.6：给数据集Lw中定分词结果，提取命名实体的数据集，定义为L1；

如图3所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤2的具体方法为：：

步骤2.1：利用Scrapy爬虫技术对科技论文项目数据进行数据爬取，将爬取的文本数据集定义为L，对数据集L进行数据清洗后得到数据集，定义为L1；

步骤2.2：提取数据集L1中项目名称数据置入项目名称数据集LN中，定义项目名称数据集LN＝LN{LN1，LN2，LN3...LNn}，n为项目编号。设项目数量为m，n∈[0,m]；

步骤2.3：将项目名称数据集LN置入词向量训练模型W；

步骤2.4：生成项目名称词向量数据集LNC；

步骤2.5：提取数据集L1中项目内容数据置入项目内容数据集LT中，定义项目内容数据集LT＝LT{LT1，LT2，LT3...LTn}，n为项目编号。设项目数量为m，n∈[0,m]；

步骤2.6：将项目名称数据集LT置入词向量训练模型W；

步骤2.7：生成项目内容词向量数据集LTC；

步骤2.8：提取数据集L1中项目成员数据置入项目内容数据集LA中，定义项目成员数据集LA＝LA{LA1，LA2，LA3...LAx}，x为成员编号。设成员数量为y，x∈[0,y]；

步骤2.9：定义项目数据LG1＝[LN1,LT1,LA1]，LG2＝[LN2,LT2,LA2]，LG3＝[LN3,LT3,LA3]…LGn＝[LNn,LTn,LAx]设置数据集LG＝LG{LG1，LG2，LG3...LGn},n为项目编号。设项目数量为m，n∈[0,m]；

步骤2.10：遍历数据集LG；

步骤2.11：当Gn＝0则跳转步骤2.9，否则跳转步骤2.12；

步骤2.12：生成矩阵数据集L2；

如图4所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤3的具体方法为：

步骤3.1：调用矩阵数据集L2；

步骤3.2：构建对应的节点数据集A，实体关系数据集B；

步骤3.3：将步骤2.2中构建的节点数据集A，实体关系数据集B导入图数据库，生成知识图谱E，跳转至步骤3.12；

步骤3.4：获取前端输入值Z2、Z3；

步骤3.5：遍历项目内容词向量数据集LTC；

步骤3.6：判断305中获取的前端输入值Z2、Z3是否属于项目名称词向量数据集R，如成立跳转步骤3.7、3.8，否则跳转步骤3.4；

步骤3.7：调用关联度计算模型D，跳转至步骤3.12；

步骤3.8：调用相似度计算模型Same，跳转至步骤3.12；

步骤3.9：获取前端输入值Z1；

步骤3.10：遍历项目名称词向量数据集LNC；

步骤3.11：判断3.9中获取的前端输入值Z1是否属于项目名称词向量数据集LTC，如成立跳转步骤3.12，否则跳转步骤3.9；

步骤3.12：可行性分析结果展示。

如图5所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤4的具体方法为：

步骤4.1：遍历项目内容数据集LTC，将其jieba分词生成字典，字典定义为V，V长度为Q；

步骤4.2：顺序输出字典V，输出内容定义为Po，设o＝1；

步骤4.3：设神经元个数定义为255，权重矩阵定义为J，设J为Ox255，O＝o；

步骤4.4：初始化权重矩阵J；

步骤4.5：定义一个损失函数为softmax每个样本数据softmax层都可以得到不同的概率分布，进而得到预测关系，将最大的预测结果作为实体预测结果；

步骤4.6：输入Po与权重矩阵J相乘得Lo；

步骤4.7：构建全连接层fc1，以ReLU函数作为激励函数，神经元个数定义为255，结合softmax逻辑回归得词向量值Io；

步骤4.8：输出词向量平均值X＝Io/o；

步骤4.9：判断是否O＝Q，如成立跳转步骤4.11，否则跳转至步骤4.10；

步骤4.10：o＝o+1，跳转至步骤4.3；

步骤4.11：训练结束，构建DNN深度神经网络训练模型W；

如图6所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤5的具体方法为

步骤5.1：获取科技专家姓名Z2、Z3；

步骤5.2：遍历项目成员数据集LA；

步骤5.3：判断Z2、Z3是否存在LA中，若存在跳转步骤5.4，否则跳转至步骤5.1；

步骤5.4：读取数据库中Z2、Z3对应的数据置入字典d1、d2；

步骤5.5：使用jieba对d1、d2进行分词生成字典m1、m2；

步骤5.6：对字典m1、m2套入词向量模型生成词向量矩阵v1、v2；

步骤5.7：分别计算v1、v2的平均词向量矩阵v11、v21；

步骤5.8：分别计算v11、v21的范数v12、v22；

步骤5.9：导入公式V11*v21/v12*v22；

步骤5.10：得到相似度Same；

如图7所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤6的具体方法为

步骤6.1：获取科技专家姓名Z2、Z3；

步骤6.2：遍历项目成员数据集LA；

步骤6.3：判断Z2、Z3是否存在LA中，若存在跳转步骤6.4，否则跳转至步骤6.1；

步骤6.4：读取数据库中Z2、Z3对应的数据置入字典d1、d2；

步骤6.5：使用jieba对d1、d2进行分词生成字典m1、m2；

步骤6.6：将m1与m2的交集置入字典m3；

步骤6.7：遍历m1、m2置入字典m4；

步骤6.8：导入公式m3/m4；

步骤6.9：得到关联度Correlation；

如图8所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤7的具体方法为

步骤7.1：输入科技专家文本数据，筛选文本数据中的实体，并且抽取二者之间的关系；

步骤7.2：导入项目论文数据、科技专家数据至neo4j图数据库中。；

步骤7.3：判断数据库中存在搜索的实体，若存在跳转至步骤7.4，否则跳转至步骤7.12；

步骤7.4：用Cython语句将搜索结果；

步骤7.5：调用对应知识图谱；

步骤7.6：在搜索框中搜索科技专家及项目信息获取前端输入值Z1，跳转至步骤7.8；

步骤7.7：在计算框中搜索科技专家及项目信息获取前端输入值Z1获取前端输入值Z2、Z3；

步骤7.8：利用Cython语句对数据库进行搜索；

步骤7.9：判断数据库中存在搜索的实体，若存在跳转至步骤7.10，否则跳转至步骤7.12；

步骤7.10：用Cython语句将搜索结果；

步骤7.11：调用对应知识图谱；

步骤7.12：显示数据库中不存在数据；

如图9所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤8的具体方法为

步骤8.1：获取前端输入值Z1；

步骤8.2：调用词向量训练模型W，得到前端输入值词向量Wz1；

步骤8.3：遍历项目名称词向量数据集LNC；

步骤8.4：判断Wz1是否存在于项目名称词向量数据集C中，若不存在跳转至步骤8.5，否则跳转至步骤8.7；

步骤8.5：遍历项目成员数据集LA；

步骤8.6：判断Wz1是否存在于项目名称词向量数据集C中，若不存在跳转至步骤8.7，否则跳转至步骤8.1；

步骤8.7：发送URL请求至图数据库服务器；

步骤8.8：调用对应知识图谱E；

步骤8.9：传输至Web前端展示页面；

如图10所示，一种科技专家合作可行性分析方法及系统，其基本特征在于，所述步骤9的具体方法为：

步骤9.1：开放科技专家合作可行性分析系统及科技专家实体关系图数据库API接口；

步骤9.2：用户登录，创建线程池ThreadPool，等待线程池WaitThreadPool；

步骤9.3：置入等待线程池WaitThreadPoo；

步骤9.4：检测ThreadPool是否已满，如未满跳至步骤9.5，否则返回步骤9.3继续等待；

步骤9.5：用户通过Web平台输入查询项目内容或科技专家姓名；

步骤9.6：子线程ChildThread获取任务处理；

步骤9.7：判断输入数据属性，如属于项目数据则跳至步骤9.8，如属于科技专家姓名数据跳至步骤9.9；

步骤9.8：根据文本相似度调用知识图谱E中对应知识图数据，跳转至步骤9.11；

步骤9.9：计算相似度Same；

步骤9.10：计算关联度度Correlation；

步骤9.11：结束该子进程ChildThread；

步骤9.12：结果写入返回文件Return；

步骤9.13：关闭线程池ThreadPool；

步骤9.14：通过Web将返回文件Return返回给用户。

上述方法所涉及的变量说明如下表所示：

变量定义	变量名称
		L	论文项目数据集
ID	论文项目编号
		Name	科技专家姓名
LNC	项目名称词向量数据集
		LG	项目数据集
LA	项目成员数据集
		LN	项目名称数据集
LTC	项目内容词向量数据集
		LT	项目内容词数据集
Input	用户输入数据
		Z	用户输入预料集合
A	节点列表集合
		B	科技专家关系集合
DATA	科技专家数据库
		Return	结果返回文件
Correlation	领域关联度
		Same	领域相似度

为了更好的说明本方法的有效性，对12556个项目，共43256条科技专家信息数据进行处理，从爬取的项目信息数据中抽取出科技专家姓名，研究领域等数据构建科技专家知识库。通过将项目数据进行向量化，计算科技专家从事领域间的组合距离进行实体相似度与关联度的计算。开放Neo4j图数据接口和科技专家合作可行性分析辅助系统接口API供用户查询相科技专家的相关信息，通过Web前端页面展示科技专家间的关系实体，提供科技专家合作可行性分析方法及系统的可视化方案。在测试集上，系统实体抽取模型的识别准确率为97％，科技专家可行性分析准确度也达到了了78％，

本发明创造性地提出了一种科技专家合作可行性分析方法及系统，经过多次比较最终得到科技专家关系抽取的最佳模型，适用于普遍有关科技专家的非结构化文本数据。

本发明提出的一种科技专家合作可行性分析方法及系统普遍适用于科技专家合作可行性分析领域。

Claims

1.一种专家合作可行性分析方法，其特征在于，具体步骤如下：

（1）利用Scrapy爬虫技术对科技论文项目数据进行数据爬取，将爬取的文本数据集定义为L0，对数据集L0进行处理得到清洗后的数据集，定义为L1；包括以下步骤：

（1.1）利用Scrapy对科技专家合作可行性分析辅助系统中的所用数据进行爬取，声明爬虫的地址域，获取词表，构造原始的json文件，生成url列表，通过url获取title，爬取图片的url和开放域的标签；

（1.2）将爬取到的科技专家论文、项目每一个实体对应科技专家的一个词条，其中包括项目名称title、项目链接url、项目成员people、项目内容content，所属单位unit；

（1.3）获取到科技专家数据库L；

（1.4）对科技专家数据库L中的数据进行数据清洗，去除残缺数据，得到数据集，定义为Lc；

（1.5）除去数据集Lc中外文数据及非中文数据后得到数据集，定义为Lw；

（1.6）给数据集Lw中定分词结果，提取命名实体的数据集，定义为L1；

（2）对清洗数据集L1处理，得到专家合作数据集，定义为矩阵数据集L2；

（3）搭建项目的整体运行框架；

（4）构建DNN深度神经网络训练词向量模型W1；

（5）通过Django封装接口从web前端获取科技专家姓名Z2、Z3，进行相似度计算，利用词向量模型W1得出相似度，定义为Same1；

（6）通过Django封装接口从web前端获取科技专家姓名Z2、Z3，进行关联度计算，得到关联度，定义为Correlation；

（7）抽取科技专家论文项目文本数据实体间的关系，建立并调用对应科技专家知识图谱；

（8）构建Web前端，neo4j数据库系统之间的运行结构，调用知识图谱E，传输至Web前端展示页面；

（9）开放科技专家合作可行性分析系统及科技专家实体关系图数据库API接口，用户通过Web前端页面返回的Return文件进行科技专家合作可行性分析；包括以下步骤：

（9.1）开放科技专家合作可行性分析系统及科技专家实体关系图数据库API接口；

（9.2）用户登录，创建线程池ThreadPool，等待线程池WaitThreadPool；

（9.3）置入等待线程池WaitThreadPool；

（9.4）检测ThreadPool是否已满，如未满跳至步骤（9.5），否则返回步骤（9.3）继续等待；

（9.5）用户通过Web平台输入查询项目内容或科技专家姓名；

（9.6）子线程ChildThread获取任务处理；

（9.7）判断输入数据属性，如属于项目数据则跳至步骤（9.8），如属于科技专家姓名数据跳至步骤（9.9）；

（9.8）根据文本相似度调用知识图谱E中对应知识图数据，跳转至步骤（9.11）；

（9.9）计算领域相似度Same1；

（9.10）计算关联度Correlation；

（9.11）结束子线程ChildThread；

（9.12）结果写入返回文件Return；

（9.13）关闭线程池ThreadPool；

（9.14）通过Web将返回文件Return返回给用户。