CN111078852A

CN111078852A - 基于机器学习的高校前沿科研团队探测系统

Info

Publication number: CN111078852A
Application number: CN201911252944.7A
Authority: CN
Inventors: 冉从敬; 宋凯
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-28

Abstract

本发明公开了一种基于机器学习的高校前沿科研团队探测系统，包括：数据采集及存储模块，用于从专利数据库进行数据抓取并将数据存储；数据检索模块，用于从存储数据中进行检索，对题目和摘要字段进行全词匹配，构成匹配数据集；数据处理模块，用于对匹配数据集进行自然语言处理全过程；主题建模及文本聚类模块，采用LDA模型对专利文本进行主题提取；根据初始聚类中心的计算过程，利用D‑T矩阵确定初始聚类中心，进而利用K‑means算法实现专利文本聚类；结果分析及可视化展示模块，用于对科研大咖的个人资料、合作网络、科技成果进行展示。本发明系统从细粒度层面实现精准的校企合作提供技术支撑，保证系统分析结果的合理性，为企业提供全景化的分析结果。

Description

基于机器学习的高校前沿科研团队探测系统

技术领域

本发明涉及知识产权大数据分析技术，尤其涉及一种基于机器学习的高校前沿科研团队探测系统。

背景技术

LDA模型是一种无监督机器学习技术。本发明采用LDA模型对专利文本进行主题提取。模型假设词是由一个主题混合产生，同时每个主题是在固定词表上的一个多项式分布，这些主题被集合中的所有文档所共享，每个文档有一个特定的主题比例，从Dirichlet分布中抽样产生。作为一种产生式模型，其结构模型完整清晰，采用高效的概率推断算法处理大规模数据，是目前研究和使用非常广泛的一种主题识别模型。

K-means聚类算法是一种无监督学习算法，是数据挖掘十大经典算法之一。本发明采用K-means算法实现对专利文本的划分。考虑到一件专利进行技术探讨时，技术主题具有专一性、深入化的特征，所以在进行聚类时将一件专利仅划入到一个主题类团中。聚类分析是知识发现中的一项重要研究内容，旨在将数据集合划分为若干个类，使得类内差异小，类间差异大。作为一种基于划分的算法，其具有思想简单、容易实施、时间复杂度接近线性的优点，且对大规模数据挖掘具有高效性和可伸缩性，被广泛应用于文本聚类的研究中。

共现分析是将各种信息载体中的共现信息定量化的分析方法，以揭示信息的内容关联和特征项所隐含的寓意。专利文献中专利发明人之间的共现频次体现了其关联程度，依据发明人共现分析构建合作网络，为企业探寻高校核心研究团队和科研大咖提供指引，从更加微观的层面为企业明确合作对象、提高校企合作效率提供支持。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于机器学习的高校前沿科研团队探测系统。

本发明解决其技术问题所采用的技术方案是：一种基于机器学习的高校前沿科研团队探测系统，包括：

数据采集及存储模块，用于从专利数据库进行数据抓取并将数据存储；所述数据存储的格式为：{专利名称、发明人、摘要、申请人、申请号、申请日}；

数据检索模块，用于根据需求以检索的技术领域作为关键词对数据库进行模糊匹配，构成匹配数据集；

数据处理模块，用于对匹配数据集进行自然语言处理全过程，将文本向量进行分词、去停用词、以及TF*IDF词权重计算，将文本数据转换成词向量的形式；

主题建模及文本聚类模块，采用LDA模型对自然语言处理后的匹配数据集进行主题提取；利用余弦相似度计算结果确定最优主题数目，得到主题结构最优的对应模型，生成文档-主题概率矩阵(D-T矩阵)；

根据初始聚类中心的计算过程，利用D-T矩阵确定初始聚类中心，进而利用K-means算法实现专利文本聚类；

结果分析及可视化展示模块，用于以相似专利密度作为排名指标，对子技术主题下的高校相关专利进行统计，确定企业选择的对应高校后，将进一步对该高校的专利进行更微观的分析：首先针对发明人进行共现分析，构建合作网络展示核心研究团队；进而以相似专利密度为指标，对发明人进行排名，凸显科研大咖，并对科研大咖的个人资料、合作网络、科技成果进行展示。

按上述方案，所述数据采集及存储模块中，利用爬虫技术对专利数据库进行数据抓取，在抓取过程中，数据缓存在Redis数据库中，然后循环从Redis读取数据，存储写入Mysql数据库中。

按上述方案，所述数据处理模块中，对匹配数据集进行自然语言处理全过程，分词所参照的词典是基于专业文献关键词所构建的全学科词典，保证对不同领域数据集分词的有效性；并根据TF*IDF词权重计算的结果，采用五分位算法，去除概率在16％区间内的无效词，以获取更优的主题建模效果。

按上述方案，所述主题建模及文本聚类模块中，采用LDA模型对专利文本进行主题提取；通过调整主题数目、alpha值和beta值，当主题间平均相似度最小时，得到主题结构最优的对应模型，生成文档-主题概率矩阵(D-T矩阵)，以及每个主题下最相关的20个词用于解释主题。

按上述方案，所述主题建模及文本聚类模块中，将主题数目设置在5-50个之间，alpha值及beta值固定为0.5和0.2；通过反复迭代计算，利用余弦相似度计算结果确定经自然语言处理后的匹配数据集的最优主题数目，生成文档-主题概率矩阵(D-T矩阵)。

按上述方案，所述主题建模及文本聚类模块中，聚类过程如下：

对每一个技术主题，首先计算该主题对P篇专利文献的平均支持度S_i(0<＝i<K)，进而统计支持度大于S_i的专利文献作为匹配文献，记为MP，而匹配文献数量记为MPN_j(0<＝j<K)，如果MPN_j高于或等于P/K，则该技术主题视为重要主题；将重要主题数作为K-means算法的聚类数N，计算每个重要主题中匹配文献的平均支持度作为对应类团的初始聚类中心(C₁,C₂,C₃…C_n)；依据LDA模型生成文档-主题概率矩阵，利用K-means算法进行文本聚类，设置聚类数和初始聚类中心，设置迭代次数，实现专利文献的聚类划分。

本发明产生的有益效果是：本发明系统涉及的核心技术贯穿从“数据采集—数据处理—数据存储—数据分析—数据应用”的全过程，涵盖爬虫技术、数据库技术、自然语言处理、主题模型、文本聚类、知识图谱等，为从细粒度层面实现精准的校企合作提供技术支撑，保证系统分析结果的合理性，为企业提供全景化的分析结果。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于机器学习的高校前沿科研团队探测系统，包括：

数据采集及存储模块，精准的校企合作匹配需要专利大数据的支持，为了能够获取足够的专利数据支撑，利用爬虫技术对SIPO专利数据库或CNKI专利数据库进行数据抓取，抓取的数据仅用于学术研究使用。在抓取过程中，数据缓存在Redis数据库中，然后循环从Redis读取数据，写入到Mysql中以支持服务系统建设。

本实施例中，IUC系统专利数据主要来源于CNKI专利数据库，采用Scrapy+Redis+MySQL分布式爬取专利数据；通过Python3.6和scrapy，配合自动化测试工具Selenium，构建了一个专利数据爬虫，为了提高爬取效率，使用随机User-Agent、代理ip和scrapy-redis实现了分布式爬虫。

分类存储：通过分布式爬虫爬取的数据以json格式存储在内存数据库Redis中，通过参数设置确保专利数据缓存到内存中时实现去重；通过Mysql创建数据库和对应的数据表，设置发明人、摘要、申请人、申请号、发表时间等字段；利用python中的pymysql包实现Redis缓存数据导出至Mysql；并采用Twisted框架的连接池实现数据插入Mysql的异步化，最终实现专利数据存储，为IUC系统提供数据支持。

数据检索及处理模块，从企业视角出发，当企业检索某一技术领域，则服务系统会从Mysql数据库中进行检索，对题目和摘要字段进行全词匹配，构成匹配数据集；

进而对匹配数据集进行自然语言处理全过程，实现分词、去停用词、以及TF*IDF词权重计算；分词所参照的词典是基于专业文献关键词所构建的全学科词典，保证对不同领域数据集分词的有效性；而根据TF*IDF词权重计算的结果，采用五分位算法，去除概率在16％区间内的无效词，以获取更优的主题建模效果。

对匹配数据集进行自然语言处理全过程，应用开源技术jieba-analysis(java版)实现，自定义词典数据来源于多学科专业文献中的关键词筛选组成，通过jieba-analysis实现中文分词、去停用词以及TF*IDF算法的整个自然语言处理过程；

主题建模及聚类模块，以检索到的匹配数据集作为实验语料，此处的匹配数据集是根据用户输入的技术领域，从数据库进行模糊检索，获取的“专利名称+摘要”的文本匹配数据集；

首先利用LDA模型进行主题建模，在主题建模过程中，根据以往研究中语料库规模与设置的主题数目经验，将主题数目设置在5-50个之间，alpha值及beta值固定为0.5和0.2；通过反复迭代计算，利用余弦相似度计算结果确定当前实验语料的最优主题数目，生成文档-主题概率矩阵(D-T矩阵)，以及每个主题下最相关的20个词用于解释主题；

根据初始聚类中心的计算过程，利用D-T矩阵确定初始聚类中心，进而利用K-means算法实现专利文本聚类。主要计算过程如下：通过设置不同的主题数目、alpha值、beta值，经过多轮主题相似度计算迭代，确定最优主题数目K；利用LDA模型对P篇专利文献进行主题建模，生成P*K维的文档-主题概率矩阵；

结果分析及可视化展示模块，基于主题展示，企业从细粒度层面确定自身研究重点和薄弱领域，并选择子技术主题发掘最佳合作高校，及高校背后的核心研究团队。在分析过程中，将以相似专利密度作为排名指标，对子技术主题下的高校相关专利进行统计，企业在选择一所高校后，将进一步对该高校的专利进行更微观的分析：首先针对发明人进行共现分析，构建合作网络展示核心研究团队；进而以相似专利密度为指标，对发明人进行排名，凸显科研大咖，并对科研大咖的个人资料、合作网络、科技成果进行展示。需要说明的是，因为高校科研人员数据库构建复杂度较高，本文没有作为研究重点实现突破。

基于校企合作对象选择模型，能够为企业提供“技术主题→合作高校→科研团队→科研大咖→科技成果”五维立体的全分析过程；在明确技术领域后，依据当前高校在该技术领域各个方向上的成果形成多个子技术主题；企业根据自身研究重点和薄弱环节进行选择，最终匹配最佳合作高校，并进一步发掘高校中的核心研究团队及科技成果。为了验证模型的有效性，以及模型的应用效率，本文将以对象选择模型为逻辑支撑，构建原型系统，以此提升校企合作效率，发挥各自优势，实现企业科技创新，推动高校科技成果转化。

一个使用实例：

具体实现过程如下：

(1)首页检索。以“众安信息技术服务有限公司”作为模拟企业对象，选择“区块链”作为检索技术领域，当众安科技注册登录平台后进入IUC服务系统首页，在搜索框输入“区块链”进行分析。

(2)主题词云。目前IUC的测试专利数据来源于CNKI专利数据库，在数据抓取过程中，申请人限定为“大学”，学科为限定为农业科技、医药卫生科技、信息科技、经济与管理科学四大门类，时间为2017年1月1日至2019年9月1日，通过智能爬虫共抓取到186708条数据。为保证检索的精准度，对专利名称和摘要进行全词匹配，共检索到654条数据，生成数据集；进而进行主题建模，通过平均余弦相似度迭代计算，当主题数为10个时，平均余弦相似度最小，主题结构最优。生成主题词云。

(3)排名展示。众安科技可依据自身在区块链领域的专利申请情况，确定重点研究领域及薄弱领域，根据主题建模结果进行选择。当众安科技选择主题2→数据存储进行分析，依据文本聚类结果和相似专利密度指标，对子技术主题下的高校进行排名。

(4)核心团队展示。在主题2→数据存储中，广东工业大学、暨南大学和浙江大学的相似专利最多，可作为众安科技在区块链数据存储技术合作中重点关注的高校。在此技术上，有必要从更加微观的层面分析高校中核心研究团队，为企业提供更为细致准确的合作对象指引。

(5)大咖展示。依据发明人共现分析构建的合作网络，在主题2→数据存储中，广东工业大学形成以张浩川-余蓉和何少伟-张俊等为核心的两支研究团队，其中以张浩川-余蓉为核心的研究团队规模最大，科技成果最多，是众安科技需要重点关注的科研团队。依据相似专利密度指标，对发明人进行排名，其中张浩川是广东工业大学在在主题2→数据存储中的科研大咖，在合作网络中也占据核心位置，众安科技可选择查看科研大咖的详情。

(6)合作网络。在科研大咖页面了呈现张浩川的基本资料，包括教育情况、所处位置、研究重点及联系方式；同时，对其参与申请的专利进行词云展示，以及其历年专利申请情况。众安科技可根据详情选择关注此科研大咖，将其添加到人才库中，以备进一步的合作。通过选择研究团队可查看该科研人员与哪些人员产生过合作。

(7)科技成果展示。张浩川与余荣、倪伟权等10位科研人员有过合作，参考发明人合作网络，此11位成员构成了子技术领域下的核心研究团队，而张浩川在整个团队中处于核心位置。因此，当众安科技打算在主题2-数据存储中展开校企合作，可通过张浩川发掘到以其为核心的广东工业大学研究团队。通过查看科研大咖的相关科技成果，对其中的高价值度成果进行转化，解决当前高校科技成果转化难的困境，推动高校科研团队的技术成果转化为产业价值。

通过以上分析，众安科技获取了高校在区块链领域下重点研究的10个子技术主题，从细粒度层面，根据自身研究重点和薄弱领域，探寻子技术主题下的最佳合作高校；进而以相似专利为媒介，发掘高校核心研究团队以及科技大咖，并为其展现了高校相关科技成果。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于机器学习的高校前沿科研团队探测系统，其特征在于，包括：

主题建模及文本聚类模块，采用LDA模型对自然语言处理后的匹配数据集进行主题提取；利用余弦相似度计算结果确定最优主题数目，得到主题结构最优的对应模型，生成文档-主题概率矩阵，即D-T矩阵；

2.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统，其特征在于，所述数据采集及存储模块中，利用爬虫技术对专利数据库进行数据抓取，在抓取过程中，数据缓存在Redis数据库中，然后循环从Redis读取数据，存储写入Mysql数据库中。

3.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统，其特征在于，所述数据处理模块中，对匹配数据集进行自然语言处理全过程，分词所参照的词典是基于专业文献关键词所构建的全学科词典，保证对不同领域数据集分词的有效性；并根据TF*IDF词权重计算的结果，采用五分位算法，去除概率在16％区间内的无效词，以获取更优的主题建模效果。

4.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统，其特征在于，所述主题建模及文本聚类模块中，采用LDA模型对专利文本进行主题提取；通过调整主题数目、alpha值和beta值，当主题间平均相似度最小时，得到主题结构最优的对应模型，生成文档-主题概率D-T矩阵，以及每个主题下最相关的20个词用于解释主题。

5.根据权利要求4所述的基于机器学习的高校前沿科研团队探测系统，其特征在于，所述主题建模及文本聚类模块中，将主题数目设置在5-50个之间，alpha值及beta值固定为0.5和0.2；通过反复迭代计算，利用余弦相似度计算结果确定匹配数据集的最优主题数目，生成文档-主题概率D-T矩阵。

6.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统，其特征在于，所述主题建模及文本聚类模块中，聚类过程如下：

对每一个技术主题，首先计算该主题对P篇专利文献的平均支持度S_i，0<＝i<K，进而统计支持度大于S_i的专利文献作为匹配文献，记为MP，而匹配文献数量记为MPN_j，0<＝j<K，如果MPN_j高于或等于P/K，则该技术主题为重要主题；将重要主题数作为K-means算法的聚类数N，计算每个重要主题中匹配文献的平均支持度作为对应类团的初始聚类中心(C₁,C₂,C₃…C_n)；依据LDA模型生成文档-主题概率矩阵，利用K-means算法进行文本聚类，设置聚类数和初始聚类中心，设置迭代次数，实现专利文献的聚类划分。