CN109492156A

CN109492156A - 一种文献推送方法及装置

Info

Publication number: CN109492156A
Application number: CN201811243326.1A
Authority: CN
Inventors: 王健
Original assignee: Suzhou Yuanhua Information Technology Co Ltd
Current assignee: Suzhou Yuanhua Information Technology Co Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-19

Abstract

本发明公开了一种文献推送方法及装置，所述方法包括：获取用户的个人信息，利用所述个人信息和词频‑逆文档频率TF‑IDF向量构建用户特征向量，其中，所述个人信息至少包括：姓名、单位和已发表的文章；计算文献数据库中新文章和所述用户特征向量的余弦相似度，获得余弦相似度大小排序在前的预设数量篇文章；将获得的预设数量篇文章推送给所述用户。本发明相比现有技术具有以下优点：能够根据用户的自身信息个性化推送用户感兴趣的文献，用户针对性较强，精准度较高，且能够通过调整用户的特征向量优化文献推送，进一步增加推送的精准度。

Description

一种文献推送方法及装置

技术领域

本发明涉及信息推送技术领域，尤其涉及的是一种文献推送方法及装置。

背景技术

在科研人员进行学术研究的工作过程中，经常需要登录期刊网站查询阅读相关文献。各种期刊网站收录了海量的文献信息，使用关键词搜索自己感兴趣的或工作需要的文章比较麻烦，一般的期刊网站会根据用户的操作行为如搜索历史或点击阅读记录，推荐相似文献显示在页面上，但对想要追踪关于自身研究领域的最新科研成果的用户来说，该文献推荐方式的用户针对性不强，推荐精准度也不高。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种文献推送方法及装置。

本发明是通过以下技术方案实现的：

一种文献推送方法，所述方法包括：

获取用户的个人信息，利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量，其中，所述个人信息至少包括：姓名、单位和已发表的文章；

计算文献数据库中新文章和所述用户特征向量的余弦相似度，获得余弦相似度大小排序在前的预设数量篇文章；

将获得的预设数量篇文章推送给所述用户。

可选的，所述利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量，包括：

爬取期刊网站收集历年文献信息，将文献信息中的摘要信息进行文本清洗后储存到干净语料库，其中，所述干净语料库包含：以每篇文献的整段摘要为单位的信息；

利用所述干净语料库训练词频-逆文档频率TF-IDF向量模型，将所述用户已发表的a篇文章的摘要信息带入训练好的TF-IDF向量模型，得到每篇文章摘要的TF-IDF向量，计算得到的a个文章摘要的TF-IDF向量的平均值，作为所述用户的摘要向量；

将所述用户已发表的a篇文章的标题信息带入训练好的TF-IDF向量模型，得到每篇文章标题的TF-IDF向量，计算得到的a个文章标题的TF-IDF向量的平均值，作为所述用户的标题向量；

根据以下公式，计算用户特征向量：

其中，所述w为可调节参数，为归一化函数。

可选的，所述计算文献数据库中新文章和所述用户特征向量的余弦相似度，包括：

爬取期刊网站文献数据库中的若干篇最新文章，将所述新文章的摘要信息代入训练好的TF-IDF向量模型，计算每篇文章摘要中每个单词的词频和逆文档频率，得到每篇新文章的TF-IDF向量；

计算所述用户特征向量和新文章的TF-IDF向量之间的余弦相似度；

所述获得余弦相似度大小排序在前的预设数量篇文章，包括：

按照新文章对应的余弦相似度大小排序，得到余弦相似度大小排序最前的10或20篇新文章。

可选的，所述将获得的预设数量篇文章推送给所述用户，包括：

利用自动发送邮件程序将所述10篇或20篇新文章的内容发送给用户，其中，所述内容至少包括：文章的标题、作者和摘要，其中，文章的标题设置为超链接标题。

可选的，所述方法还包括：

根据所述用户的反馈信息调整用户特征向量。

可选的，所述根据所述用户的反馈信息调整用户特征向量，包括：

记录用户点击超链接标题所生成的操作日志，从所述操作日志中获取用户点击的文章信息，根据以下公式计算调整后的用户特征向量：

其中，所述为更新的权重因子且取值范围为[0, 1],所述为用户点击的新文章的TF-IDF向量的平均值，m为用户点击的新文章的数量，所述表示用户未点击的新文章的TF-IDF向量的平均值， n为用户未点击的新文章的数量。

一种文献推送装置，其特征在于，所述装置包括：

构建模块，用于获取用户的个人信息，利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量，其中，所述个人信息至少包括：姓名、单位和已发表的文章；

获得模块，用于计算文献数据库中新文章和所述用户特征向量的余弦相似度，获得余弦相似度大小排序在前的预设数量篇文章；

推送模块，用于将获得的预设数量篇文章推送给所述用户。

可选的，所述装置还包括：

调整模块，用于根据所述用户的反馈信息调整用户特征向量。

本发明相比现有技术具有以下优点：能够根据用户的自身信息个性化推送用户感兴趣的文献，用户针对性较强，精准度较高，且能够通过调整用户的特征向量优化文献推送，进一步增加推送的精准度。

附图说明

图1为本发明实施例提供的一种文献推送方法的流程示意图；

图2为本发明实施例提供的另一种文献推送方法的流程示意图；

图3为本发明实施例提供的一种文献推送装置的结构示意图；

图4为本发明实施例提供的另一种文献推送装置的结构示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，图1为本发明实施例提供的一种文献推送方法的流程示意图，可以包括如下步骤：

S101，获取用户的个人信息，利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量，其中，所述个人信息至少包括：姓名、单位和已发表的文章；

具体的，可以爬取期刊网站（如Web of Science网站、 arXiv网站、美国物理学会期刊网）收集历年文献信息（包括标题、摘要、作者等），将文献信息中的摘要信息进行文本清洗后（去重、去停用词、词形还原等常用文本清洗流程）储存到干净语料库，其中，所述干净语料库包含：以每篇文献的整段摘要为单位的信息（如每篇文献的doi号、标题和摘要内容，核心是文献的摘要信息）；

利用所述干净语料库训练词频-逆文档频率TF-IDF向量模型（使用上述的干净语料库计算词频-逆文档频率TF-IDF向量模型，过程如下：首先将语料库中的所有段落表示成词袋模型(BoW)向量，设词典大小为V，共有N个段落，则每个段落可表示成 1 x V的向量，总的词袋模型向量维数为N x V。本系统中使用的词典大小V为100,000，经过测试发现，V=100,000的模型比V=10,000的模型在推荐的准确率上提高约5%），将所述用户已发表的a篇文章的摘要信息带入训练好的TF-IDF向量模型，得到每篇文章摘要的1 x V维的TF-IDF向量，计算得到的a个文章摘要的TF-IDF向量的平均值，作为所述用户的摘要向量；

将所述用户已发表的a篇文章的标题信息带入相同的训练好的TF-IDF向量模型，得到每篇文章标题的1 x V维的TF-IDF向量，计算得到的a个文章标题的TF-IDF向量的平均值，作为所述用户的标题向量；根据以下公式，计算用户（初始）特征向量：

其中，所述w为可调节参数（可自行设置，0-1范围内即可），为归一化函数。

S102，计算文献数据库中新文章和所述用户特征向量的余弦相似度，获得余弦相似度大小排序在前的预设数量篇文章；

具体的，可以定期爬取期刊网站文献数据库中的若干篇最新文章，将所述新文章的摘要信息代入训练好的TF-IDF向量模型，计算每篇文章摘要中每个单词的词频和逆文档频率，得到每篇新文章的TF-IDF向量（将最新文章摘要信息代入训练好的TF-IDF模型，用总的词袋向量计算每篇文章的摘要中每个单词的词频和逆文档频率，得到每篇新文章相应的1x V维TF-IDF向量）；计算所述用户特征向量和新文章的TF-IDF向量之间的余弦相似度；按照新文章对应的余弦相似度大小排序，得到余弦相似度大小排序最前的10或20篇新文章（其他数量篇数均可，可自行根据需求设置，如5、15等等）。

S103，将获得的预设数量篇文章推送给所述用户。

具体的，可以利用自动发送邮件程序将所述10篇或20篇新文章的内容发送给用户，其中，所述内容至少包括：文章的标题、作者和摘要，其中，文章的标题设置为超链接标题，点击可跳转至中间服务器，然后中间服务器记录用户的操作日志后再跳转至文章对应的网址。在实际应用中，可以定期爬取上述期刊网站，以收集最新文章信息用于推送。

可见，能够根据用户的自身信息个性化推送用户感兴趣的文献，用户针对性较强，精准度较高。

参见图2，图2为本发明实施例提供的另一种文献推送方法的流程示意图，在途1所示实施例的基础上，增加步骤S104：根据所述用户的反馈信息调整用户特征向量。

在实际应用中，可以记录用户点击超链接标题所生成的操作日志，从所述操作日志中获取用户点击的文章信息，根据以下公式计算调整后的用户特征向量：

其中，所述为更新的权重因子且取值范围为[0，1]（可根据实际情况自行设置）,所述为用户点击的新文章的TF-IDF向量的平均值，m为用户点击的新文章的数量，所述表示用户未点击的新文章的TF-IDF向量的平均值， n为用户未点击的新文章的数量。从中间服务器记录的用户操作日志可以获取用户点击的文章信息，可以将点击表示用户对文章感兴趣，未点击表示用户对文章不感兴趣。根据该公式，可以实时更新用户特征向量，以获得更精准的推荐结果。

可见，能够根据用户的自身信息个性化推送用户感兴趣的文献，用户针对性较强，精准度较高，且能够通过调整用户的特征向量优化文献推送，进一步增加推送的精准度。

参见图3，图3为本发明实施例提供的一种文献推送装置的结构示意图，与图1所示的流程相对应，所述装置可以包括：

构建模块301，用于获取用户的个人信息，利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量，其中，所述个人信息至少包括：姓名、单位和已发表的文章；

获得模块302，用于计算文献数据库中新文章和所述用户特征向量的余弦相似度，获得余弦相似度大小排序在前的预设数量篇文章；

推送模块303，用于将获得的预设数量篇文章推送给所述用户。

参见图4，图4为本发明实施例提供的另一种文献推送装置的结构示意图，与图2所示的流程相对应，在图3所示实施例的基础上，增加调整模块304，用于根据所述用户的反馈信息调整用户特征向量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文献推送方法，其特征在于，所述方法包括：

将获得的预设数量篇文章推送给所述用户。

2.根据权利要求1所述的文献推送方法，其特征在于，所述利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量，包括：

根据以下公式，计算用户特征向量：

其中，所述w为可调节参数，为归一化函数。

3.根据权利要求2所述的文献推送方法，其特征在于，所述计算文献数据库中新文章和所述用户特征向量的余弦相似度，包括：

4.根据权利要求3所述的文献推送方法，其特征在于，所述将获得的预设数量篇文章推送给所述用户，包括：

5.根据权利要求1-4任一项所述的文献推送方法，其特征在于，所述方法还包括：

根据所述用户的反馈信息调整用户特征向量。

6.根据权利要求5所述的文献推送方法，其特征在于，所述根据所述用户的反馈信息调整用户特征向量，包括：

其中，所述为更新的权重因子且取值范围为[0, 1],所述为用户点击的新文章的 TF-IDF向量的平均值，m为用户点击的新文章的数量，所述表示用户未点击的新文章的TF-IDF向量的平均值， n为用户未点击的新文章的数量。

7.一种文献推送装置，其特征在于，所述装置包括：

推送模块，用于将获得的预设数量篇文章推送给所述用户。

8.根据权利要求7所述的文献推送装置，其特征在于，所述装置还包括：