CN111078852A - 基于机器学习的高校前沿科研团队探测系统 - Google Patents

基于机器学习的高校前沿科研团队探测系统 Download PDF

Info

Publication number
CN111078852A
CN111078852A CN201911252944.7A CN201911252944A CN111078852A CN 111078852 A CN111078852 A CN 111078852A CN 201911252944 A CN201911252944 A CN 201911252944A CN 111078852 A CN111078852 A CN 111078852A
Authority
CN
China
Prior art keywords
data
clustering
module
scientific research
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911252944.7A
Other languages
English (en)
Inventor
冉从敬
宋凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911252944.7A priority Critical patent/CN111078852A/zh
Publication of CN111078852A publication Critical patent/CN111078852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的高校前沿科研团队探测系统,包括:数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;数据检索模块,用于从存储数据中进行检索,对题目和摘要字段进行全词匹配,构成匹配数据集;数据处理模块,用于对匹配数据集进行自然语言处理全过程;主题建模及文本聚类模块,采用LDA模型对专利文本进行主题提取;根据初始聚类中心的计算过程,利用D‑T矩阵确定初始聚类中心,进而利用K‑means算法实现专利文本聚类;结果分析及可视化展示模块,用于对科研大咖的个人资料、合作网络、科技成果进行展示。本发明系统从细粒度层面实现精准的校企合作提供技术支撑,保证系统分析结果的合理性,为企业提供全景化的分析结果。

Description

基于机器学习的高校前沿科研团队探测系统
技术领域
本发明涉及知识产权大数据分析技术,尤其涉及一种基于机器学习的高校前沿科研团队探测系统。
背景技术
LDA模型是一种无监督机器学习技术。本发明采用LDA模型对专利文本进行主题提取。模型假设词是由一个主题混合产生,同时每个主题是在固定词表上的一个多项式分布,这些主题被集合中的所有文档所共享,每个文档有一个特定的主题比例,从Dirichlet分布中抽样产生。作为一种产生式模型,其结构模型完整清晰,采用高效的概率推断算法处理大规模数据,是目前研究和使用非常广泛的一种主题识别模型。
K-means聚类算法是一种无监督学习算法,是数据挖掘十大经典算法之一。本发明采用K-means算法实现对专利文本的划分。考虑到一件专利进行技术探讨时,技术主题具有专一性、深入化的特征,所以在进行聚类时将一件专利仅划入到一个主题类团中。聚类分析是知识发现中的一项重要研究内容,旨在将数据集合划分为若干个类,使得类内差异小,类间差异大。作为一种基于划分的算法,其具有思想简单、容易实施、时间复杂度接近线性的优点,且对大规模数据挖掘具有高效性和可伸缩性,被广泛应用于文本聚类的研究中。
共现分析是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意。专利文献中专利发明人之间的共现频次体现了其关联程度,依据发明人共现分析构建合作网络,为企业探寻高校核心研究团队和科研大咖提供指引,从更加微观的层面为企业明确合作对象、提高校企合作效率提供支持。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于机器学习的高校前沿科研团队探测系统。
本发明解决其技术问题所采用的技术方案是:一种基于机器学习的高校前沿科研团队探测系统,包括:
数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;所述数据存储的格式为:{专利名称、发明人、摘要、申请人、申请号、申请日};
数据检索模块,用于根据需求以检索的技术领域作为关键词对数据库进行模糊匹配,构成匹配数据集;
数据处理模块,用于对匹配数据集进行自然语言处理全过程,将文本向量进行分词、去停用词、以及TF*IDF词权重计算,将文本数据转换成词向量的形式;
主题建模及文本聚类模块,采用LDA模型对自然语言处理后的匹配数据集进行主题提取;利用余弦相似度计算结果确定最优主题数目,得到主题结构最优的对应模型,生成文档-主题概率矩阵(D-T矩阵);
根据初始聚类中心的计算过程,利用D-T矩阵确定初始聚类中心,进而利用K-means算法实现专利文本聚类;
结果分析及可视化展示模块,用于以相似专利密度作为排名指标,对子技术主题下的高校相关专利进行统计,确定企业选择的对应高校后,将进一步对该高校的专利进行更微观的分析:首先针对发明人进行共现分析,构建合作网络展示核心研究团队;进而以相似专利密度为指标,对发明人进行排名,凸显科研大咖,并对科研大咖的个人资料、合作网络、科技成果进行展示。
按上述方案,所述数据采集及存储模块中,利用爬虫技术对专利数据库进行数据抓取,在抓取过程中,数据缓存在Redis数据库中,然后循环从Redis读取数据,存储写入Mysql数据库中。
按上述方案,所述数据处理模块中,对匹配数据集进行自然语言处理全过程,分词所参照的词典是基于专业文献关键词所构建的全学科词典,保证对不同领域数据集分词的有效性;并根据TF*IDF词权重计算的结果,采用五分位算法,去除概率在16%区间内的无效词,以获取更优的主题建模效果。
按上述方案,所述主题建模及文本聚类模块中,采用LDA模型对专利文本进行主题提取;通过调整主题数目、alpha值和beta值,当主题间平均相似度最小时,得到主题结构最优的对应模型,生成文档-主题概率矩阵(D-T矩阵),以及每个主题下最相关的20个词用于解释主题。
按上述方案,所述主题建模及文本聚类模块中,将主题数目设置在5-50个之间,alpha值及beta值固定为0.5和0.2;通过反复迭代计算,利用余弦相似度计算结果确定经自然语言处理后的匹配数据集的最优主题数目,生成文档-主题概率矩阵(D-T矩阵)。
按上述方案,所述主题建模及文本聚类模块中,聚类过程如下:
对每一个技术主题,首先计算该主题对P篇专利文献的平均支持度Si(0<=i<K),进而统计支持度大于Si的专利文献作为匹配文献,记为MP,而匹配文献数量记为MPNj(0<=j<K),如果MPNj高于或等于P/K,则该技术主题视为重要主题;将重要主题数作为K-means算法的聚类数N,计算每个重要主题中匹配文献的平均支持度作为对应类团的初始聚类中心(C1,C2,C3…Cn);依据LDA模型生成文档-主题概率矩阵,利用K-means算法进行文本聚类,设置聚类数和初始聚类中心,设置迭代次数,实现专利文献的聚类划分。
本发明产生的有益效果是:本发明系统涉及的核心技术贯穿从“数据采集—数据处理—数据存储—数据分析—数据应用”的全过程,涵盖爬虫技术、数据库技术、自然语言处理、主题模型、文本聚类、知识图谱等,为从细粒度层面实现精准的校企合作提供技术支撑,保证系统分析结果的合理性,为企业提供全景化的分析结果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于机器学习的高校前沿科研团队探测系统,包括:
数据采集及存储模块,精准的校企合作匹配需要专利大数据的支持,为了能够获取足够的专利数据支撑,利用爬虫技术对SIPO专利数据库或CNKI专利数据库进行数据抓取,抓取的数据仅用于学术研究使用。在抓取过程中,数据缓存在Redis数据库中,然后循环从Redis读取数据,写入到Mysql中以支持服务系统建设。
本实施例中,IUC系统专利数据主要来源于CNKI专利数据库,采用Scrapy+Redis+MySQL分布式爬取专利数据;通过Python3.6和scrapy,配合自动化测试工具Selenium,构建了一个专利数据爬虫,为了提高爬取效率,使用随机User-Agent、代理ip和scrapy-redis实现了分布式爬虫。
分类存储:通过分布式爬虫爬取的数据以json格式存储在内存数据库Redis中,通过参数设置确保专利数据缓存到内存中时实现去重;通过Mysql创建数据库和对应的数据表,设置发明人、摘要、申请人、申请号、发表时间等字段;利用python中的pymysql包实现Redis缓存数据导出至Mysql;并采用Twisted框架的连接池实现数据插入Mysql的异步化,最终实现专利数据存储,为IUC系统提供数据支持。
数据检索及处理模块,从企业视角出发,当企业检索某一技术领域,则服务系统会从Mysql数据库中进行检索,对题目和摘要字段进行全词匹配,构成匹配数据集;
进而对匹配数据集进行自然语言处理全过程,实现分词、去停用词、以及TF*IDF词权重计算;分词所参照的词典是基于专业文献关键词所构建的全学科词典,保证对不同领域数据集分词的有效性;而根据TF*IDF词权重计算的结果,采用五分位算法,去除概率在16%区间内的无效词,以获取更优的主题建模效果。
对匹配数据集进行自然语言处理全过程,应用开源技术jieba-analysis(java版)实现,自定义词典数据来源于多学科专业文献中的关键词筛选组成,通过jieba-analysis实现中文分词、去停用词以及TF*IDF算法的整个自然语言处理过程;
主题建模及聚类模块,以检索到的匹配数据集作为实验语料,此处的匹配数据集是根据用户输入的技术领域,从数据库进行模糊检索,获取的“专利名称+摘要”的文本匹配数据集;
首先利用LDA模型进行主题建模,在主题建模过程中,根据以往研究中语料库规模与设置的主题数目经验,将主题数目设置在5-50个之间,alpha值及beta值固定为0.5和0.2;通过反复迭代计算,利用余弦相似度计算结果确定当前实验语料的最优主题数目,生成文档-主题概率矩阵(D-T矩阵),以及每个主题下最相关的20个词用于解释主题;
根据初始聚类中心的计算过程,利用D-T矩阵确定初始聚类中心,进而利用K-means算法实现专利文本聚类。主要计算过程如下:通过设置不同的主题数目、alpha值、beta值,经过多轮主题相似度计算迭代,确定最优主题数目K;利用LDA模型对P篇专利文献进行主题建模,生成P*K维的文档-主题概率矩阵;
对每一个技术主题,首先计算该主题对P篇专利文献的平均支持度Si(0<=i<K),进而统计支持度大于Si的专利文献作为匹配文献,记为MP,而匹配文献数量记为MPNj(0<=j<K),如果MPNj高于或等于P/K,则该技术主题视为重要主题;将重要主题数作为K-means算法的聚类数N,计算每个重要主题中匹配文献的平均支持度作为对应类团的初始聚类中心(C1,C2,C3…Cn);依据LDA模型生成文档-主题概率矩阵,利用K-means算法进行文本聚类,设置聚类数和初始聚类中心,设置迭代次数,实现专利文献的聚类划分。
结果分析及可视化展示模块,基于主题展示,企业从细粒度层面确定自身研究重点和薄弱领域,并选择子技术主题发掘最佳合作高校,及高校背后的核心研究团队。在分析过程中,将以相似专利密度作为排名指标,对子技术主题下的高校相关专利进行统计,企业在选择一所高校后,将进一步对该高校的专利进行更微观的分析:首先针对发明人进行共现分析,构建合作网络展示核心研究团队;进而以相似专利密度为指标,对发明人进行排名,凸显科研大咖,并对科研大咖的个人资料、合作网络、科技成果进行展示。需要说明的是,因为高校科研人员数据库构建复杂度较高,本文没有作为研究重点实现突破。
基于校企合作对象选择模型,能够为企业提供“技术主题→合作高校→科研团队→科研大咖→科技成果”五维立体的全分析过程;在明确技术领域后,依据当前高校在该技术领域各个方向上的成果形成多个子技术主题;企业根据自身研究重点和薄弱环节进行选择,最终匹配最佳合作高校,并进一步发掘高校中的核心研究团队及科技成果。为了验证模型的有效性,以及模型的应用效率,本文将以对象选择模型为逻辑支撑,构建原型系统,以此提升校企合作效率,发挥各自优势,实现企业科技创新,推动高校科技成果转化。
一个使用实例:
具体实现过程如下:
(1)首页检索。以“众安信息技术服务有限公司”作为模拟企业对象,选择“区块链”作为检索技术领域,当众安科技注册登录平台后进入IUC服务系统首页,在搜索框输入“区块链”进行分析。
(2)主题词云。目前IUC的测试专利数据来源于CNKI专利数据库,在数据抓取过程中,申请人限定为“大学”,学科为限定为农业科技、医药卫生科技、信息科技、经济与管理科学四大门类,时间为2017年1月1日至2019年9月1日,通过智能爬虫共抓取到186708条数据。为保证检索的精准度,对专利名称和摘要进行全词匹配,共检索到654条数据,生成数据集;进而进行主题建模,通过平均余弦相似度迭代计算,当主题数为10个时,平均余弦相似度最小,主题结构最优。生成主题词云。
(3)排名展示。众安科技可依据自身在区块链领域的专利申请情况,确定重点研究领域及薄弱领域,根据主题建模结果进行选择。当众安科技选择主题2→数据存储进行分析,依据文本聚类结果和相似专利密度指标,对子技术主题下的高校进行排名。
(4)核心团队展示。在主题2→数据存储中,广东工业大学、暨南大学和浙江大学的相似专利最多,可作为众安科技在区块链数据存储技术合作中重点关注的高校。在此技术上,有必要从更加微观的层面分析高校中核心研究团队,为企业提供更为细致准确的合作对象指引。
(5)大咖展示。依据发明人共现分析构建的合作网络,在主题2→数据存储中,广东工业大学形成以张浩川-余蓉和何少伟-张俊等为核心的两支研究团队,其中以张浩川-余蓉为核心的研究团队规模最大,科技成果最多,是众安科技需要重点关注的科研团队。依据相似专利密度指标,对发明人进行排名,其中张浩川是广东工业大学在在主题2→数据存储中的科研大咖,在合作网络中也占据核心位置,众安科技可选择查看科研大咖的详情。
(6)合作网络。在科研大咖页面了呈现张浩川的基本资料,包括教育情况、所处位置、研究重点及联系方式;同时,对其参与申请的专利进行词云展示,以及其历年专利申请情况。众安科技可根据详情选择关注此科研大咖,将其添加到人才库中,以备进一步的合作。通过选择研究团队可查看该科研人员与哪些人员产生过合作。
(7)科技成果展示。张浩川与余荣、倪伟权等10位科研人员有过合作,参考发明人合作网络,此11位成员构成了子技术领域下的核心研究团队,而张浩川在整个团队中处于核心位置。因此,当众安科技打算在主题2-数据存储中展开校企合作,可通过张浩川发掘到以其为核心的广东工业大学研究团队。通过查看科研大咖的相关科技成果,对其中的高价值度成果进行转化,解决当前高校科技成果转化难的困境,推动高校科研团队的技术成果转化为产业价值。
通过以上分析,众安科技获取了高校在区块链领域下重点研究的10个子技术主题,从细粒度层面,根据自身研究重点和薄弱领域,探寻子技术主题下的最佳合作高校;进而以相似专利为媒介,发掘高校核心研究团队以及科技大咖,并为其展现了高校相关科技成果。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于机器学习的高校前沿科研团队探测系统,其特征在于,包括:
数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;所述数据存储的格式为:{专利名称、发明人、摘要、申请人、申请号、申请日};
数据检索模块,用于根据需求以检索的技术领域作为关键词对数据库进行模糊匹配,构成匹配数据集;
数据处理模块,用于对匹配数据集进行自然语言处理全过程,将文本向量进行分词、去停用词、以及TF*IDF词权重计算,将文本数据转换成词向量的形式;
主题建模及文本聚类模块,采用LDA模型对自然语言处理后的匹配数据集进行主题提取;利用余弦相似度计算结果确定最优主题数目,得到主题结构最优的对应模型,生成文档-主题概率矩阵,即D-T矩阵;
根据初始聚类中心的计算过程,利用D-T矩阵确定初始聚类中心,进而利用K-means算法实现专利文本聚类;
结果分析及可视化展示模块,用于以相似专利密度作为排名指标,对子技术主题下的高校相关专利进行统计,确定企业选择的对应高校后,将进一步对该高校的专利进行更微观的分析:首先针对发明人进行共现分析,构建合作网络展示核心研究团队;进而以相似专利密度为指标,对发明人进行排名,凸显科研大咖,并对科研大咖的个人资料、合作网络、科技成果进行展示。
2.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述数据采集及存储模块中,利用爬虫技术对专利数据库进行数据抓取,在抓取过程中,数据缓存在Redis数据库中,然后循环从Redis读取数据,存储写入Mysql数据库中。
3.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述数据处理模块中,对匹配数据集进行自然语言处理全过程,分词所参照的词典是基于专业文献关键词所构建的全学科词典,保证对不同领域数据集分词的有效性;并根据TF*IDF词权重计算的结果,采用五分位算法,去除概率在16%区间内的无效词,以获取更优的主题建模效果。
4.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述主题建模及文本聚类模块中,采用LDA模型对专利文本进行主题提取;通过调整主题数目、alpha值和beta值,当主题间平均相似度最小时,得到主题结构最优的对应模型,生成文档-主题概率D-T矩阵,以及每个主题下最相关的20个词用于解释主题。
5.根据权利要求4所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述主题建模及文本聚类模块中,将主题数目设置在5-50个之间,alpha值及beta值固定为0.5和0.2;通过反复迭代计算,利用余弦相似度计算结果确定匹配数据集的最优主题数目,生成文档-主题概率D-T矩阵。
6.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述主题建模及文本聚类模块中,聚类过程如下:
对每一个技术主题,首先计算该主题对P篇专利文献的平均支持度Si,0<=i<K,进而统计支持度大于Si的专利文献作为匹配文献,记为MP,而匹配文献数量记为MPNj,0<=j<K,如果MPNj高于或等于P/K,则该技术主题为重要主题;将重要主题数作为K-means算法的聚类数N,计算每个重要主题中匹配文献的平均支持度作为对应类团的初始聚类中心(C1,C2,C3…Cn);依据LDA模型生成文档-主题概率矩阵,利用K-means算法进行文本聚类,设置聚类数和初始聚类中心,设置迭代次数,实现专利文献的聚类划分。
CN201911252944.7A 2019-12-09 2019-12-09 基于机器学习的高校前沿科研团队探测系统 Pending CN111078852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252944.7A CN111078852A (zh) 2019-12-09 2019-12-09 基于机器学习的高校前沿科研团队探测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252944.7A CN111078852A (zh) 2019-12-09 2019-12-09 基于机器学习的高校前沿科研团队探测系统

Publications (1)

Publication Number Publication Date
CN111078852A true CN111078852A (zh) 2020-04-28

Family

ID=70313427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252944.7A Pending CN111078852A (zh) 2019-12-09 2019-12-09 基于机器学习的高校前沿科研团队探测系统

Country Status (1)

Country Link
CN (1) CN111078852A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069314A (zh) * 2020-08-25 2020-12-11 清华大学 一种基于科技文献数据的特定领域态势分析系统
CN112100395A (zh) * 2020-08-11 2020-12-18 淮阴工学院 一种专家合作可行性分析方法
CN112579779A (zh) * 2020-12-24 2021-03-30 上海电子信息职业技术学院 一种科研成果展示用终端统计系统
CN113095637A (zh) * 2021-03-25 2021-07-09 北京理工大学 生物能和碳捕集与封存技术经济可行性的评估方法及系统
CN113222355A (zh) * 2021-04-21 2021-08-06 广东轩辕网络科技股份有限公司 基于知识图谱的校企合作匹配系统、平台、方法及设备
CN114201962A (zh) * 2021-12-03 2022-03-18 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
WO2023130774A1 (zh) * 2022-01-07 2023-07-13 华中科技大学同济医学院附属协和医院 一种基于学科发展的科研能力评估用数据采集系统
CN116992026A (zh) * 2023-07-12 2023-11-03 华南师范大学 一种文本聚类方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
US20160110428A1 (en) * 2014-10-20 2016-04-21 Multi Scale Solutions Inc. Method and system for finding labeled information and connecting concepts
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN109670037A (zh) * 2018-11-08 2019-04-23 太原理工大学 基于主题模型和粗糙集的K-means文本聚类方法
CN109829634A (zh) * 2019-01-18 2019-05-31 北京工业大学 一种自适应的高校专利科研团队识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110428A1 (en) * 2014-10-20 2016-04-21 Multi Scale Solutions Inc. Method and system for finding labeled information and connecting concepts
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN109670037A (zh) * 2018-11-08 2019-04-23 太原理工大学 基于主题模型和粗糙集的K-means文本聚类方法
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN109829634A (zh) * 2019-01-18 2019-05-31 北京工业大学 一种自适应的高校专利科研团队识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冉从敬: "知识产权生态链下的高校知识产权信息服务平台构建", 《图书馆论坛》 *
江秋菊: "融入主题和时间因素的文献影响力评价研究", 《情报科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100395A (zh) * 2020-08-11 2020-12-18 淮阴工学院 一种专家合作可行性分析方法
CN112100395B (zh) * 2020-08-11 2024-03-29 淮阴工学院 一种专家合作可行性分析方法
CN112069314A (zh) * 2020-08-25 2020-12-11 清华大学 一种基于科技文献数据的特定领域态势分析系统
CN112069314B (zh) * 2020-08-25 2022-05-24 清华大学 一种基于科技文献数据的特定领域态势分析系统
CN112579779A (zh) * 2020-12-24 2021-03-30 上海电子信息职业技术学院 一种科研成果展示用终端统计系统
CN113095637A (zh) * 2021-03-25 2021-07-09 北京理工大学 生物能和碳捕集与封存技术经济可行性的评估方法及系统
CN113222355A (zh) * 2021-04-21 2021-08-06 广东轩辕网络科技股份有限公司 基于知识图谱的校企合作匹配系统、平台、方法及设备
CN114201962A (zh) * 2021-12-03 2022-03-18 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
CN114201962B (zh) * 2021-12-03 2023-07-25 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
WO2023130774A1 (zh) * 2022-01-07 2023-07-13 华中科技大学同济医学院附属协和医院 一种基于学科发展的科研能力评估用数据采集系统
CN116992026A (zh) * 2023-07-12 2023-11-03 华南师范大学 一种文本聚类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111078852A (zh) 基于机器学习的高校前沿科研团队探测系统
Hashimi et al. Selection criteria for text mining approaches
Abello et al. Computational folkloristics
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
Chen et al. Identify topic relations in scientific literature using topic modeling
Cai et al. Heterogeneous information network embedding based personalized query-focused astronomy reference paper recommendation
Henderi et al. Unsupervised Learning Methods for Topic Extraction and Modeling in Large-scale Text Corpora using LSA and LDA
Pan [Retracted] Construction and Application of College English Blended Teaching System Based on Multidata Fusion
Cao et al. Occupational profiling driven by online job advertisements: Taking the data analysis and processing engineering technicians as an example
Tsatsaronis et al. A Maximum-Entropy approach for accurate document annotation in the biomedical domain
Majhi et al. Identifying research fronts in NLP applications in library and information science using meta-analysis approaches
Liang et al. Patent trend analysis through text clustering based on k-means algorithm
Song et al. Employing auto-annotated data for government document classification
Tar et al. Enhancing traditional text documents clustering based on ontology
Ezzat et al. Topicanalyzer: A system for unsupervised multi-label arabic topic categorization
Katsurai Using word embeddings for library and information science research: A short survey
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
Huynh et al. Automatic keywords-based classification of vietnamese texts
Wu et al. Artificial intelligence retrieval algorithm for text data from multiple data sources
Ibrahim et al. Analysis of Text Mining from Full-Text Articles and Abstracts by Postgraduates Students in Selected Nigeria Universities.
Wu et al. Natural language processing subject organizing by TTD model based on stepwise refinement framework
Mateen et al. An Analysis on Text Mining Techniques for Smart Literature Review
Liu et al. Practical skills of business english correspondence writing based on data mining algorithm
Al Madi et al. A comprehension-based framework for measuring semantic similarity
Ni An Intelligent Retrieval Algorithm for Digital Literature Promotion Information Based on TRS Information Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428