CN114443961A

CN114443961A - 一种内容过滤科技成果推荐方法、模型及存储介质

Info

Publication number: CN114443961A
Application number: CN202210107644.5A
Authority: CN
Inventors: 陈冬林; 吴天昊; 徐书情
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-06

Abstract

本发明提供了一种内容过滤科技成果推荐方法、模型及存储介质，包括以下步骤：获取目标用户的科技服务需求的文本数据以及相匹配的科技成果的文本数据，形成科技服务数据集；对科技服务数据集中的文本数据进行分词处理后合并，形成总语料库；对总语料库进行词向量训练，得到总词向量库；提取科技服务数据集中每项科技服务需求的文本数据和科技成果的文本数据的关键词；通过关键词在总词向量库中筛选出科技成果关键词词向量库和科技服务需求关键词词向量库；计算每项科技服务需求与科技成果的平均词向量；计算每项科技服务需求与所有科技成果的匹配度；筛选出每项科技服务需求对应匹配度靠前的科技成果信息输出。本发明为科技服务需求推荐满足需求的科技成果。

Description

一种内容过滤科技成果推荐方法、模型及存储介质

技术领域

本发明属于大数据智能推荐技术领域，具体涉及一种内容过滤科技成果推荐方法。

背景技术

科技服务包括研究开发、检验检测认证、创业孵化、知识产权、科技咨询、科技金融、技术转移、科学技术普及八个专门服务。科技成果是指通过科学研究与技术开发所产生的具有实用价值的成果。在科技服务平台上用户会在平台上传科技服务需求文档与科技成果文档，随着科技服务业的蓬勃发展，科技成果数量不断增加，科技服务需求的多元化，随着信息数据量的不断增大，用户在利用信息的过程中容易出现信息过载与信息迷航的现象，浪费很多时间和精力，却很难获得自己想要的信息，科技服务需求方逐渐产生了个性化的信息需求，期望科技服务平台能够依据自己的需求内容，得到经过筛选的科技成果。

个性化推荐技术主要利用数据挖掘技术从用户的行为记录中提取用户的兴趣特征，基于用户兴趣特征在数据库中寻找符合服务用户需求的资源，来完成对用户的信息推荐。目前个性化推荐技术已经被应用到了如电商、图书、专利等各种领域。个性化推荐技术的初端可以追溯到信息检索、预测理论等诸多学科中的一些延伸研究。20世纪80年代由于电子邮件的使用日益频繁，用户被大量的邮件淹没，推荐系统应运而生。传统的个性化推荐技术主要包括基于协同过滤推荐、基于内容过滤推荐以及混合推荐。

协同过滤的核心思想是通过用户的历史信息计算用户之间的相似性，然后根据与目标用户相似性较高的邻居对其他项目的评价来预测目标用户对特定项目的喜好程度。该方法只需要用户对项目进行评分，不需要用户特征和项目属性，所以应用方便，易于计算，推荐结果准确率较高。

基于内容过滤的推荐技术主要是利用推荐项的特征相似度进行推荐。该类方法通常提取项的特征来表示物品,利用用户历史评价数据(如喜欢/不喜欢的项特征数据)来学习该用户的偏好特征。最后通过比较用户的偏好特征与潜在的物品特征,来为用户推荐相关项。

协同过滤推荐算法在各个领域都有广泛应用，但目前科技服务平台中用户评分评价等反馈信息较少，存在数据稀疏性问题，且协同过滤单纯地依靠评分进行计算，无法保证推荐精度。传统的内容过滤算法往往应用于结构化的数据，对非结构化的文本信息的语义理解能力有限。

发明内容

本发明的目的就是为了解决上述背景技术存在的不足，提供一种内容过滤科技成果推荐方法，根据科技服务需求与科技成果的文本内容，分别进行向量化关键词提取，并进行匹配，为科技服务需求推荐满足其需求的科技成果。

本发明采用的技术方案是：一种内容过滤科技成果推荐方法，包括以下步骤：

获取目标用户的科技服务需求的文本数据，并通过目标用户的科技服务需求检索获得相匹配的科技成果的文本数据，形成科技服务数据集；

对科技服务数据集中的科技服务需求的文本数据和科技成果的文本数据进行分词处理后合并，形成总语料库；

使用word2vec对总语料库进行词向量训练，得到总词向量库；

基于科技服务数据集中提取每项科技服务需求的关键词和每项科技成果的关键词；通过遍历检索在总词向量库中检索出每项科技成果和每项科技服务需求的关键词的词向量，分别形成每项科技成果的关键词词向量库和每项科技服务需求的关键词词向量库；

通过每项科技服务需求的关键词词向量库对应计算每项科技服务需求的平均词向量；通过每项科技成果的关键词词向量库对应计算每项科技成果的平均词向量；

通过每项科技服务需求的平均词向量与每项科技成果的平均词向量，分别计算每项科技服务需求与所有科技成果的匹配度并由高至低排序；

筛选出每项科技服务需求对应匹配度靠前的科技成果信息输出。

上述技术方案中，遍历科技服务数据集中各项科技服务需求的文本数据和各项科技成果的文本数据，并单独进行分词、词性标注、剔除掉难以展现科技服务需求与科技成果的关键信息的词性和停用词；各项科技服务需求和各项科技成果的文本数据的处理结果，作为各项科技服务需求和各项科技成果对应的语料库；合并所有科技服务需求和科技成果的语料库作为总语料库；最后对总语料库做数据统计，获取每个分词的词频。

上述技术方案中，基于每个分词的词频，采用TF—IDF算法计算总语料库中所有词语的TF—IDF权重值；分别在各项科技服务需求对应的语料库中筛选出TF—IDF权重值高的词语作为该项科技服务需求的关键词；分别在各项科技成果对应的语料库中筛选出TF—IDF权重值高的词语作为该项科技成果的关键词。

上述技术方案中，采用下式计算任一项科技服务需求和任一项科技成果的平均词向量：

其中u_i表示该项科技服务需求的关键词词向量库中第i个关键词的词向量，v_j该项科技成果的关键词词向量库中第j个关键词的词向量，U_k表示该项科技服务需求关键词词向量在第k维度的平均值；V_l表示该项科技成果关键词词向量的在第l维度的平均值；P为该项科技服务需求的关键词词向量库的关键词数量；Q为该项科技成果的关键词词向量库的的关键词数量；i∈[1,P]；j∈[1,Q]；k,l取任意整数。

上述技术方案中，采用下式计算任一项科技服务需求U与任一项科技成果V的匹配度值Sim(U，V)，

其中，n为向量的维度。

上述技术方案中，基于科技服务平台获取科技服务需求方主动上传的科技服务需求和科技服务供给方主动上传的科技成果。

本发明提供了一种内容过滤科技成果推荐模型，包括科技服务数据集词向量训练与处理模块和科技成果推荐计算模块；

其中，科技服务词向量训练与处理模块获取目标用户的科技服务需求的文本数据，并通过目标用户的科技服务需求检索获得相匹配的科技成果的文本数据，形成科技服务数据集；对科技服务数据集中的科技服务需求的文本数据和科技成果的文本数据进行分词处理后合并，形成总语料库；使用word2vec对总语料库进行词向量训练，得到总词向量库；基于科技服务数据集中提取每项科技服务需求的关键词和每项科技成果的关键词；通过遍历检索在总词向量库中检索出每项科技成果和每项科技服务需求的关键词的词向量，分别形成每项科技成果的关键词词向量库和每项科技服务需求的关键词词向量库；通过每项科技服务需求的关键词词向量库对应计算每项科技服务需求的平均词向量；通过每项科技成果的关键词词向量库对应计算每项科技成果的平均词向量；

成果推荐计算模块通过每项科技服务需求的平均词向量与每项科技成果的平均词向量，分别计算每项科技服务需求与所有科技成果的匹配度并由高至低排序；筛选出每项科技服务需求对应匹配度靠前的科技成果信息并输出，作为针对科技服务需求推荐的科技成果。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有内容过滤科技成果推荐方法程序，所述内容过滤科技成果推荐方法程序被处理器执行时实现如上述技术方案所述的内容过滤科技成果推荐方法的步骤。

本发明的有益效果是：本发明提出了一种基于word2vec的内容过滤科技成果推荐方法，能够向量化科技服务需求与科技成果的文本内容挖掘其潜在的语义信息，并根据它们的关键词的词向量相似性找出满足科技服务需求的科技成果，该方法缓降了协同过滤算法的数据稀疏性问题与冷启动问题。针对内容过滤推荐算法不适用的非结构化数据，本发明引入了word2vec方法向量化文本数据，能够精准的挖掘文本的语义信息。本发明根据科技服务需求与科技成果的文本内容，分别进行向量化关键词提取，并进行匹配，为科技服务需求推荐满足其需求的科技成果。通过执行本发明而形成的科技成果推荐模型，可以得到科技服务需求与科技成果文本数据的词向量库，并得到科技服务资源的关键词。进一步，通过关键词的词向量相似度排序可以针对科技服务需求推荐合适的科技成果，由此形成的推荐结果能满足其多种需求诉求点。

附图说明

图1为本发明的模型及流程示意图；

图2为本发明中产生的词向量的示意图；

图3为具体实施例中P取3时推荐准确率变化趋势；

图4为具体实施例中Q取6时推荐准确率变化趋势；

图5为3种模型的准确率随推荐数量增加的变化情况；

图6为3种模型的召回率随推荐数量增加的变化情况；

图7为3种模型的F1值随推荐数量增加的变化情况。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明，便于清楚地了解本发明，但它们不对本发明构成限定。

如图1所示，本发明提供了一种基于word2vec的内容过滤推荐模型，包括科技服务数据集词向量训练与处理模块和科技成果推荐计算模块。

其中，科技服务词向量训练与处理模块获取目标用户的科技服务需求的文本数据，并通过目标用户的科技服务需求检索获得相匹配的科技成果的文本数据，形成科技服务数据集；对科技服务数据集中的科技服务需求的文本数据和科技成果的文本数据进行分词处理后合并，形成总语料库；使用word2vec对总语料库进行词向量训练，得到总词向量库；基于科技服务数据集中提取每项科技服务需求的关键词和每项科技成果的关键词；通过遍历检索在总词向量库中检索出每项科技成果和每项科技服务需求的关键词的词向量，分别形成每项科技成果的关键词词向量库和每项科技服务需求的关键词词向量库；通过每项科技服务需求的关键词词向量库对应计算每项科技服务需求的平均词向量；通过每项科技成果的关键词词向量库对应计算每项科技成果的平均词向量。

本发明还提供了一种基于word2vec的内容过滤科技成果推荐方法，包括以下步骤：

S1，获取目标用户的科技服务需求的文本数据，并通过目标用户的科技服务需求检索获得相匹配的科技成果的文本数据，形成科技服务数据集；

S2，对科技服务数据集中的科技服务需求的文本数据和科技成果的文本数据进行分词处理后合并，形成总语料库；

S3，使用word2vec对总语料库进行词向量训练，得到总词向量库；

S4，基于科技服务数据集中提取每项科技服务需求的关键词和每项科技成果的关键词；通过遍历检索在总词向量库中检索出每项科技成果和每项科技服务需求的关键词的词向量，分别形成每项科技成果的关键词词向量库和每项科技服务需求的关键词词向量库；

S5，通过每项科技服务需求的关键词词向量库对应计算每项科技服务需求的平均词向量；通过每项科技成果的关键词词向量库对应计算每项科技成果的平均词向量；

S6，通过每项科技服务需求的平均词向量与每项科技成果的平均词向量，分别计算每项科技服务需求与所有科技成果的匹配度并由高至低排序；

S7，筛选出每项科技服务需求对应匹配度靠前的科技成果信息输出。

下面结合具体的应用情景，具体地描述一种基于word2vec的内容过滤科技成果推荐方法，包括以下步骤：

(1)数据准备。选取6个不同行业领域的12个科技服务需求作为实验数据，选取科技服务需求时遵循行业领域的无关性原则，行业领域涉及先进制造与自动化、现代农业、新材料、环境与资源、生物与新医药、电子信息。通过人工匹配科技服务平台中符合需求的科技成果以及上述科技服务需求的全文内容的文本数据形成数据集，最终12个科技服务需求与130个科技成果完成匹配，如表1所示。

表1实验数据一览

(2)数据预处理。对搜集的科技服务数据进行分词、词性标注，使其符合word2vec模型对数据的要求。分词与词性标注通过分词器来实现，精准的分词与词性标注对提高推荐准确率有很大的影响。例如以名词性的词作为关键词具有很高的意义指示性。本具体实施例选择目前主流的Python类中文分词器jieba分词，采用默认精准模式，同时利用jieba分词的词性标注方法对目标文本进行词性标注，选择剔除掉连词、方位词、叹词等难以展现科技服务需求与科技成果的关键信息的词性，再利用通用停用词表，剔除停用词。最后对分词结果做数据统计，分析词频等，作为关键词抽取的参考依据。

本具体实施例将所有TXT格式的科技服务需求与科技成果的文本数据放入文件夹A，作为科技服务数据集。对文件夹A内的文本数据遍历并用jieba分词器单独分词，得到语料库at(t＝1、2、3、…、142)，合并语料库a1、a2、a3、…、a142形成总语料库D。

(3)词向量训练。使用gensim中的word2vec对总语料库D训练词向量，形成总词向量库V。Word2Vec是以由文本数据构建的词汇表为训练数据，然后学习词的高维向量表示，即将词映射至有限维的高维空间中。该算法提供了CBOW和Skip_gram两种训练模型，本具体实施例使用Skip-gram模型对分词后的科技服务数据集进行词向量训练，得到经过训练的科技服务word2vec词向量模型和总词向量库。

(4)关键词提取。TF-IDF算法是信息检索领域内的重要算法之一，是自然语言处理领域里计算文本中短语或词权值的方法。该算法的假设是：如果一个词语在目标文档中出现的频率高而在别的文档中出现的频率低，那么该词语就可以用来标引目标文档。

其中TF表示词频，即某个词出现在文档中的次数，为了减少文档词数差异对结果造成的误差，需对词频进行归一化处理(即用词频除以文章总词数)，IDF表示逆文档频率，如果包含词i的文档在语料库中比较少，则表明词i在区分文档类别时可以起到良好的效果。权重W的计算公式如下：

W＝tf×idf

式中：tf_i表示词i归一化处理后的值；n_i，d表示词i出现在文档d中的总次数；∑_kn_k，d表示文档d中全部词语的总个数，|D|为语料库中的文件总数；{j：t_i∈d_j}为包含词的文档数目，如果该词不在语料库中，就会导致分母为零，一般情况下分母为|{j：t_i∈d_j}|+1。本具体实施例中利用TF—IDF分别提取每项科技服务需求与科技成果P和Q个关键词。

利用TF—IDF提取分别文件夹A内各语料库at(t＝1、2、3、…、142)的关键词，获得每项科技服务需求与每项科技成果对应的关键词。并筛选各项科技服务需求平均权重较大的前P、个关键词，各项科技成果平均权重较大的前Q个关键词部分关键词提取如表2所示：

表2关键词一览

(5)词向量计算与推荐。本具体实施例利用开源工具word2vec训练科技服务需求与科技成果的关键词的词向量，并利用词向量计算相似度进行匹配。

首先基于总词向量库，从中提取TF—IDF方法中得到的关键词的词向量分别构成每项科技成果的关键词词向量库和每项科技服务需求的关键词词向量库。采用下式计算任一项科技服务需求和任一项科技成果的平均词向量：

其中u_i表示该项科技服务需求的关键词词向量库中第i个关键词的词向量，v_j该项科技成果的关键词词向量库中第j个关键词的词向量，U_k表示该项科技服务需求关键词词向量在第k维度的平均值；V_l表示该项科技成果关键词词向量的在第1维度的平均值；P为该项科技服务需求的关键词词向量库的关键词数量；Q为该项科技成果的关键词词向量库的的关键词数量；i∈[1，P]；j∈[1,Q]；k,l取任意整数。

采用下式计算任一项科技服务需求U与任一项科技成果V的匹配度值Sim(U，V)，并将科技成果按匹配度值Sim排序取top_N个作为推荐列表。

其中，n为向量的维度。

利用上式计算出科技服务需求与科技成果的匹配度值sim，把sim值较大的前N个科技成果推荐给目标用户。

本发明基于科技服务平台，利用科技服务需求方主动上传的科技服务需求、科技服务供给方主动上传的科技成果，为科技服务需求方生成科技成果推荐列表。通过对科技服务需求与科技成果的语义信息挖掘，针对科技服务需求为其提供高质量的科技成果，满足了科技服务需求方的要求。

为了验证本发明的有效性，采用Python语言及gensim自然语言处理框架进行实践开展验证研究。本具体实施例使用科技服务平台的相关数据，计算本发明模型下科技服务推荐性能指标，同时使用相同的数据利用均值word2vec模型、textrank+word2vec模型同样进行推荐，分析对比3种推荐模型的准确率(Precisions)、召回率(Recall)、F1值等评价指标，准确率可以衡量推荐结果的准确性，召回率可以衡量需求是否被推荐满足，F1值则可以综合衡量推荐系统。

本具体实施例使用Python(3.83)对文本数据进行分析。分别使用jieba(0.42.1)、gensim(3.8.3)对文本进行分词及词向量训练。Word2vec训练参数设置情况如表3所示。此外，由于科技成果为130条，科技服务需求为12条，每个需求推荐数量约为10，则令推荐数量top_N＝10。

表2参数设置

面对不同领域，关键词提取数量存在不同的最优策略，为了提高模型准确率，首先提取不同数量的关键词进行实验。因此本具体实施例通过控制变量来确定提取的关键词的数量。令P＝3，Q依次取3、4、5、6、7，计算出推荐准确率。如图3所示，随着Q值的不断增大，推荐准确率逐步提高，当Q为6时推荐准确率达到最大，因此取Q＝6。

当Q＝6时，令P依次取3、4、5、6、7计算出推荐准确率。如图6所示，当P≤4时随着P值增大，推荐准确率提升，当P＝4时达到最佳，当P>4时随着P值的不断增大，推荐准确率逐步降低，因此取P＝4，此时本具体实施例达到最优的推荐准确率。

取Q＝6，P＝4，记录本具体实施例随着推荐科技成果数量从10至30每次递增5的情况下的准确率P、召回率R、F1值的变化趋势。在同等条件下，对均值word2vec模型的推荐进行实验，利用word2vec模型对文本数据进行向量化，即将科技服务需求与科技成果分别表示成词向量的形式，计算词向量的匹配度为科技服务需求推荐科技成果。本具体实施例还利用相同的数据采用、用textrank提取科技服务需求与科技成果的关键词，同样使用word2vec建模的词向量进行匹配值计算并以此进行排序推荐。

图5所示为本具体实施例模型、均值word2vec模型、textrank+word2vec模型推荐准确率的变化趋势。观察图5发现，随着推荐数量的增加，3种推荐模型的准确率都在下降，当数量高于15时，均值word2vec模型推荐准确率无明显变化，textrank+word2vec模型缓慢下降，而本具体实施例的模型下降趋势逐渐减缓。由此可见本发明在推荐科技成果时总体准确率更高。

图6展示了随着推荐科技成果数量从10增加到30每次递增5的不同情况下召回率的变化趋势。由图6可以发现在推荐科技成果数量为10至30时本发明的模型召回率优于均值word2vec推荐、textrank+word2vec模型。

图7展示了随着推荐科技成果数量从10增加到30每次递增5的不同情况下的F1值的变化趋势，由图7可以发现当推荐科技成果数量为10至30时，本发明的模型F1值优于均值word2vec模型、textrank+word2vec模型。

实验结果表明，当Q为6，P为4时，本发明的推荐准确率达到最优。本发明在推荐文献数量小于30时，其查准率、召回率与F1值明显优于均值word2vec推荐模型、textrank+word2vec模型，因此，本发明在现实中具有更高的应用价值。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种内容过滤科技成果推荐方法，其特征在于：包括以下步骤：

使用word2vec对总语料库进行词向量训练，得到总词向量库；

2.根据权利要求1所述的一种内容过滤科技成果推荐方法，其特征在于：遍历科技服务数据集中各项科技服务需求的文本数据和各项科技成果的文本数据，并单独进行分词、词性标注、剔除掉难以展现科技服务需求与科技成果的关键信息的词性和停用词；各项科技服务需求的文本数据的处理结果作为各项科技服务需求的语料库和；各项科技成果的文本数据的处理结果作为各项科技成果对应的语料库；合并所有科技服务需求和科技成果的语料库作为总语料库；最后对总语料库做数据统计，获取每个分词的词频。

3.根据权利要求2所述的一种内容过滤科技成果推荐方法，其特征在于：基于每个分词的词频，采用TF-IDF算法计算总语料库中所有词语的TF-IDF权重值；分别在各项科技服务需求对应的语料库中筛选出TF-IDF权重值高的词语作为该项科技服务需求的关键词；分别在各项科技成果对应的语料库中筛选出TF-IDF权重值高的词语作为该项科技成果的关键词。

4.根据权利要求1所述的一种内容过滤科技成果推荐方法，其特征在于：采用下式计算任一项科技服务需求和任一项科技成果的平均词向量：

其中u_i表示该项科技服务需求的关键词词向量库中第i个关键词的词向量，v_j该项科技成果的关键词词向量库中第j个关键词的词向量,U_k表示该项科技服务需求关键词词向量在第k维度的平均值；V_l表示该项科技成果关键词词向量的在第l维度的平均值；P为该项科技服务需求的关键词词向量库的关键词数量；Q为该项科技成果的关键词词向量库的的关键词数量；i∈[1,P]；j∈[1,Q]；k,l取任意整数。

5.根据权利要求4所述的一种内容过滤科技成果推荐方法，其特征在于：采用下式计算任一项科技服务需求U与任一项科技成果V的匹配度值Sim(U，V)，

其中，n为向量的维度。

6.根据权利要求1所述的一种内容过滤科技成果推荐方法，其特征在于：基于科技服务平台获取科技服务需求方主动上传的科技服务需求和科技服务供给方主动上传的科技成果。

7.一种内容过滤科技成果推荐模型，包括科技服务数据集词向量训练与处理模块和科技成果推荐计算模块；

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有内容过滤科技成果推荐方法程序，所述内容过滤科技成果推荐方法程序被处理器执行时实现如权利要求1至6任一项所述的内容过滤科技成果推荐方法的步骤。