CN111259110A

CN111259110A - 高校专利个性化推荐系统

Info

Publication number: CN111259110A
Application number: CN202010031875.3A
Authority: CN
Inventors: 冉从敬; 宋凯
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-09

Abstract

本发明提供了一种高校专利个性化推荐系统，它包括：数据检索与预处理模块，检索得到特定技术领域的专利数据，并进行自然语言处理，获取最优的分词结果集；主题提取与文本聚类模块，采用LDA模型进行主题提取，得到文档‑主题概率矩阵，对主题进行概括；专利数据聚类划分模块，依据文档‑主题概率矩阵，运用K‑means算法进行文本聚类；待推荐专利数据生成模块，结合目标企业的技术强弱情况，通过相似度计算生成待推荐的专利数据列表，进行“数据检索‑数据处理‑数据存储‑数据分析‑数据应用”的全过程涵盖自然语言处理、主题建模、文本聚类、相似度计算等，最终从高校的专利汇总列表中筛选出优质的专利数据推荐给目标企业。

Description

高校专利个性化推荐系统

技术领域

本发明属于大数据分析处理技术领域，具体地涉及一种高校专利个性化推荐系统。

背景技术

专利(patent)，从字面上是指专有的权利和利益。在现代，专利一般是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件，这种文件记载了发明创造的内容，并且在一定时期内产生这样一种法律状态，即获得专利的发明创造在一般情况下他人只有经专利权人许可才能予以实施。也就是说，专利是专利权人对自己的研发成果进行技术保护的一种有效手段。

目前，在各大高校内，老师或学生在进行科学研究过程中也会产生众多发明创造，继而申请了非常多的专利。然而，各大高校面临的问题是，科研产生的众多专利仅仅只是申请了专利权，并未进行实际应用，而对该技术有需求的企业也很难找到适合自己需求的高校专利资源，造成了大量优质发明创造的浪费。因此，现有技术中缺乏一种能够将高校产生的优质专利推荐给有需求的企业的技术方案。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种能够有效地将高校的优质专利推荐给有需求的目标企业的高校专利个性化推荐系统。

本发明提供了一种高校专利个性化推荐系统，其特征在于，包括：数据检索与预处理模块，基于预设技术领域进行检索得到对应的专利数据，并对该专利数据进行自然语言处理，将文本向量转换成词向量；对分词数据集进行整理、更新、迭代，获取最优的分词结果集；

主题提取与文本聚类模块，采用LDA模型对检索得到的专利数据进行主题提取，得到文档-主题概率矩阵，并用最相关的语义词对主题进行概括；

专利数据聚类划分模块，依据文档-主题概率矩阵，计算K-means算法的初始聚类中心值，进而运用K-means算法进行文本聚类，设置聚类数、初始聚类中心、迭代次数，从而对检索得到的专利数据进行聚类划分；以及

待推荐专利数据生成模块，结合高校专利数据与目标企业的技术强弱情况，通过相似度计算生成待推荐给所述目标企业的专利数据列表。

在本发明提供的高校专利个性化推荐系统中，还可以具有这样的特征，其中，所述数据检索与预处理模块执行如下处理过程：在检索得到对应的专利数据后，利用R语言的jiebaR包对检索得到的专利数据进行文本分词、去停用词、筛选词等自然语言处理；然后对分词结果集进行词典更新、多轮迭代等最优化整理。

在本发明提供的高校专利个性化推荐系统中，还可以具有这样的特征，其中，所述主题提取与文本聚类模块执行如下处理过程：利用R语言的lda包对检索得到的专利数据进行主题提取；利用LDAvis包展示主题可视化结果，调整主题数目、alpha值和beta值，利用多维尺度分析确定最优主题数目、判断主题模型抽取结果的优异程度；将LDA模型与K-means算法融合，依据LDA提取的文档-主题概率矩阵，在K个主题的维度上确定初始聚类中心，设置聚类数、迭代次数，实现对检索得到的专利数据进行聚类划分。

在本发明提供的高校专利个性化推荐系统中，还可以具有这样的特征，其中，所述待推荐专利数据生成模块为基于内容推荐的数据生成模块，执行如下处理过程：确定所述目标企业的技术重点主题，通过与该重点主题下的专利进行平均主题相似度计算对高校专利汇总列表进行筛选，从而生成基于内容推荐的高校专利列表。

在本发明提供的高校专利个性化推荐系统中，还可以具有这样的特征，其中，所述待推荐专利数据生成模块为基于协同过滤推荐的数据生成模块，执行如下处理过程：确定所述目标企业的技术薄弱主题，统计对应主题中专利数量最多的技术竞争者集合，通过与技术竞争企业的专利进行平均主题相似度计算对高校专利汇总列表进行筛选，从而生成基于协同过滤推荐的高校专利列表。

在本发明提供的高校专利个性化推荐系统中，还可以具有这样的特征，其中，所述待推荐专利数据生成模块为混合模式推荐的生成模块，执行如下处理过程：

首先，确定所述目标企业的技术重点主题，通过与该重点主题下的专利进行平均主题相似度计算对高校专利汇总列表进行筛选，从而生成基于内容推荐的高校专利列表，

然后，确定所述目标企业的技术薄弱主题，统计对应主题中专利数量最多的技术竞争者集合，通过与技术竞争企业的专利进行平均主题相似度计算对高校专利汇总列表进行筛选，从而生成基于协同过滤推荐的高校专利列表，

最后，对基于内容推荐和基于协同过滤推荐分别得到的高校专利列表进行数据组合，从而生成最优推荐的高校专利列表。

发明的作用与效果

根据本发明所涉及的高校专利个性化推荐系统，根据高校专利汇总列表确定特定的技术领域以及目标企业，然后采用LDA模型、K-means聚类算法以及相似度计算相结合的方式进行“数据检索-数据处理-数据存储-数据分析-数据应用”的全过程，涵盖自然语言处理、主题建模、文本聚类、相似度计算等，最终从高校的专利汇总列表中筛选出优质的专利数据推荐给目标企业，为推动高校专利向企业转化、解决高校专利转化困境、提升企业科技能力、支持知识强国建设具有重要意义。

附图说明

图1是本发明的实施例中高校专利个性化推荐系统的结构框图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

<实施例>

如图1所示，在本实施例中，高校专利个性化推荐系统用于将高校的优质专利推荐给目标企业。该高校专利个性化推荐系统包括：数据检索与预处理模块、主题提取与文本聚类模块、专利数据聚类划分模块以及待推荐专利数据生成模块。

数据检索与预处理模块，基于预设技术领域进行检索得到对应的专利数据，并对该专利数据进行自然语言处理，将文本向量转换成词向量；对分词数据集进行整理、更新、迭代，获取最优的分词结果集。

具体处理过程如下：在检索得到对应的专利数据后，利用R语言的jiebaR包对检索得到的专利数据进行文本分词、去停用词、筛选词等自然语言处理；然后对分词结果集进行词典更新、多轮迭代等最优化整理。

主题提取与文本聚类模块，采用LDA模型对检索得到的专利数据进行主题提取，得到文档-主题概率矩阵，并用最相关的语义词对主题进行概括。

具体处理过程如下：利用R语言的lda包对检索得到的专利数据进行主题提取；利用LDAvis包展示主题可视化结果，调整主题数目、alpha值和beta值，利用多维尺度分析确定最优主题数目、判断主题模型抽取结果的优异程度；将LDA模型与K-means算法融合，依据LDA提取的文档-主题概率矩阵，在K个主题的维度上确定初始聚类中心，设置聚类数、迭代次数，实现对检索得到的专利数据进行聚类划分。

专利数据聚类划分模块，依据文档-主题概率矩阵，计算K-means算法的初始聚类中心值，进而运用K-means算法进行文本聚类，设置聚类数、初始聚类中心、迭代次数，从而对检索得到的专利数据进行聚类划分。

待推荐专利数据生成模块，结合高校专利数据与目标企业的技术强弱情况，通过相似度计算生成待推荐给目标企业的专利数据列表。

在本实施例中，待推荐专利数据生成模块为混合模式推荐的生成模块，包括基于内容的高校专利推荐模块、基于协同过滤的高校专利推荐模块以及生成模块。具体处理过程如下：

首先，基于内容的高校专利推荐模块执行如下处理过程：统计目标企业专利数量最多的技术重点主题，汇总技术重点主题的专利集合；汇总高校研究该技术重点主题的专利集合，将高校的每一件专利与集合内目标企业的所有专利进行余弦相似度计算得到平均余弦相似度，排名形成平均余弦相似度递减的高校专利列表。即、生成基于内容推荐的高校专利列表。

然后，基于协同过滤的高校专利推荐模块执行如下处理过程：统计目标企业的技术薄弱主题，找到该技术薄弱主题下专利数量最多的技术竞争企业，汇总技术竞争企业该技术薄弱主题的专利集合；汇总高校研究该技术薄弱主题的专利集合，将高校的每一件专利与集合内技术竞争企业的所有专利进行余弦相似度计算得到平均余弦相似度，排名形成平均余弦相似度递减的高校专利列表，即、生成基于协同过滤推荐的高校专利列表。

最后，对基于内容推荐和基于协同过滤推荐分别得到的高校专利列表进行数据组合，具体可采用加权型、混合型、特征组合型等组合方式，从而生成最优推荐的高校专利列表。

基于上述高校专利个性化推荐系统的技术方案，以下结合实际案例进行说明：

(1)数据检索与预处理模块，以CNKI专利数据库为数据来源，检索特定技术领域专利，进行数据清洗，分别得到申请人为企业和高校的专利数据集合。抽取专利名称和专利摘要，形成分析语料库，构建该技术领域的专业词典，借助R语言的jiebaR包进行分词、去停用词、筛选词等自然语言处理。

具体地，将“区块链”作为研究的技术领域，在CNKI专利数据库中以“区块链”为名称进行检索，筛选保留申请人为企业和高校的4603条专利数据，其中包含企业1127家，高校123所。目标企业选择“平安科技(深圳)有限公司”，已申请区块链相关专利95件；进行自然语言处理时，去除字符数小于3的词汇，保留解释性较高的词汇，形成分词效果较优的实验语料集用于主题建模。

(2)主题提取与文本聚类模块，利用R语言的lda包进行主题建模；利用LDAvis包进行主题结果的可视化展示，基于多维尺度分析判断主题模型抽取结果的优异程度。为使各个主题之间相对独立，主题相似度较小，设置主题数目为10个，alpha与beta值固定为0.02和0.7。

利用LDA模型进行主题提取，得到每个主题下最相关的语义词，对主题进行概括；训练文档-主题概率模型矩阵，计算K-means算法的聚类数和初始聚类中心；将文档-主题概率模型矩阵导入SPSS，设置聚类数与初始聚类中心，得到专利文本聚类结果。

具体地，进行技术领域主题抽取时，10个主题各自抽取最相关的10个词对其进行概括；进行专利文本聚类时，得到10个重要主题；利用K-means算法计算10个主题(区块链部署、医疗行业应用、智能合约、供应链、身份认证、加密技术、共识机制、数据溯源、Token、区块链金融)的初始聚类中心(0.721157151，0.724248556，，0.713041588，0.733758854，0.72711089，0.736014371，0.703095687，0.702814238，0.69800075，0.734391872)，训练文档-主题概率矩阵并导入到SPSS，设置聚类数和初始聚类中心，得到各个主题的专利分布情况。

(3)待推荐专利数据生成模块，分析目标企业在各个技术主题下的专利分布数量，明确其技术重点主题和技术薄弱主题，对技术薄弱主题下的竞争者进行统计；根据分析结果，采用基于内容和基于协同过滤的混合推荐方式，形成对目标企业的高校专利推荐列表。

具体地，根据专利文本聚类结果，确定4个专利分布数量较多的主题为平安科技的技术重点主题，其他6个专利分布较少的主题即技术薄弱主题，并统计技术薄弱主题下专利申请数量最多的企业，得到技术竞争者集合；融合基于技术重点主题的内容推荐和基于技术竞争者的协同过滤推荐形成最终的高校专利推荐列表。

实施例的作用与效果

根据本实施例所涉及的所涉及的高校专利个性化推荐系统，根据高校专利汇总列表确定特定的技术领域以及目标企业，然后采用LDA模型、K-means聚类算法以及相似度计算相结合的方式进行“数据检索-数据处理-数据存储-数据分析-数据应用”的全过程，涵盖自然语言处理、主题建模、文本聚类、相似度计算等，最终从高校的专利汇总列表中筛选出优质的专利数据推荐给目标企业，为推动高校专利向企业转化、解决高校专利转化困境、提升企业科技能力、支持知识强国建设具有重要意义。

在本实施例中，待推荐专利数据生成模块是一种采用混合模式的高校专利推荐模块，结合基于内容和基于协同推荐的高校专利推荐方法，既关注目标企业在技术重点主题层面的侧重，又兼顾其在技术薄弱主题层面的潜在需求，形成高校专利最佳的推荐结果。而在本发明中，还可以单独采用基于内容推荐的方法或基于协同过滤的推荐方法，也能够满足需求。

本发明采用LDA模型对专利文本进行主题提取。模型假设词是由一个主题混合产生，同时每个主题是在固定词表上的一个多项式分布，这些主题被集合中的所有文档所共享，每个文档有一个特定的主题比例，从Dirichlet分布中抽样产生。它是一种产生式模型，其结构模型完整清晰，采用高效的概率推断算法处理大规模数据。

本发明采用K-means算法实现对专利文本的划分。考虑到一件专利进行技术探讨时，技术主题具有专一性、深入化的特征，所以在进行聚类时将一件专利仅划入到一个主题类团中。聚类分析是知识发现中的一项重要研究内容，旨在将数据集合划分为若干个类，使得类内差异小，类间差异大。作为一种基于划分的算法，其具有思想简单、容易实施、时间复杂度接近线性的优点，且对大规模数据挖掘具有高效性和可伸缩性。

本发明采用余弦相似度计算专利文本之间的相似度。数学上用向量空间中两个向量夹角的余弦值度量两个个体间差异的大小，利用词频向量构造文本向量，比较文本相似度。由于余弦相似度注重两个样本之间在方向上的差异，而欧氏距离计算基于各维度特征的绝对数值，需要保证各维度指标在相同的刻度级别，准确度高。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种高校专利个性化推荐系统，其特征在于，包括：

数据检索与预处理模块，基于预设技术领域进行检索得到对应的专利数据，并对该专利数据进行自然语言处理，将文本向量转换成词向量；对分词数据集进行整理、更新、迭代，获取最优的分词结果集；

2.如权利要求1所述的高校专利个性化推荐系统，其特征在于：

所述数据检索与预处理模块执行如下处理过程：在检索得到对应的专利数据后，利用R语言的jiebaR包对检索得到的专利数据进行文本分词、去停用词、筛选词等自然语言处理；然后对分词结果集进行词典更新、多轮迭代等最优化整理。

3.如权利要求2所述的高校专利个性化推荐系统，其特征在于：

所述主题提取与文本聚类模块执行如下处理过程：利用R语言的lda包对检索得到的专利数据进行主题提取；利用LDAvis包展示主题可视化结果，调整主题数目、alpha值和beta值，利用多维尺度分析确定最优主题数目、判断主题模型抽取结果的优异程度；将LDA模型与K-means算法融合，依据LDA提取的文档-主题概率矩阵，在K个主题的维度上确定初始聚类中心，设置聚类数、迭代次数，实现对检索得到的专利数据进行聚类划分。

4.如权利要求3所述的高校专利个性化推荐系统，其特征在于：

所述待推荐专利数据生成模块为基于内容推荐的数据生成模块，执行如下处理过程：确定所述目标企业的技术重点主题，通过与该重点主题下的专利进行平均主题相似度计算对高校专利汇总列表进行筛选，从而生成基于内容推荐的高校专利列表。

5.如权利要求3所述的高校专利个性化推荐系统，其特征在于：

所述待推荐专利数据生成模块为基于协同过滤推荐的数据生成模块，执行如下处理过程：确定所述目标企业的技术薄弱主题，统计对应主题中专利数量最多的技术竞争者集合，通过与技术竞争企业的专利进行平均主题相似度计算对高校专利汇总列表进行筛选，从而生成基于协同过滤推荐的高校专利列表。

6.如权利要求3所述的高校专利个性化推荐系统，其特征在于：

所述待推荐专利数据生成模块为混合模式推荐的生成模块，执行如下处理过程：