CN109492156A - 一种文献推送方法及装置 - Google Patents

一种文献推送方法及装置 Download PDF

Info

Publication number
CN109492156A
CN109492156A CN201811243326.1A CN201811243326A CN109492156A CN 109492156 A CN109492156 A CN 109492156A CN 201811243326 A CN201811243326 A CN 201811243326A CN 109492156 A CN109492156 A CN 109492156A
Authority
CN
China
Prior art keywords
user
article
vector
idf
literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811243326.1A
Other languages
English (en)
Inventor
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yuanhua Information Technology Co Ltd
Original Assignee
Suzhou Yuanhua Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yuanhua Information Technology Co Ltd filed Critical Suzhou Yuanhua Information Technology Co Ltd
Priority to CN201811243326.1A priority Critical patent/CN109492156A/zh
Publication of CN109492156A publication Critical patent/CN109492156A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种文献推送方法及装置,所述方法包括:获取用户的个人信息,利用所述个人信息和词频‑逆文档频率TF‑IDF向量构建用户特征向量,其中,所述个人信息至少包括:姓名、单位和已发表的文章;计算文献数据库中新文章和所述用户特征向量的余弦相似度,获得余弦相似度大小排序在前的预设数量篇文章;将获得的预设数量篇文章推送给所述用户。本发明相比现有技术具有以下优点:能够根据用户的自身信息个性化推送用户感兴趣的文献,用户针对性较强,精准度较高,且能够通过调整用户的特征向量优化文献推送,进一步增加推送的精准度。

Description

一种文献推送方法及装置
技术领域
本发明涉及信息推送技术领域,尤其涉及的是一种文献推送方法及装置。
背景技术
在科研人员进行学术研究的工作过程中,经常需要登录期刊网站查询阅读相关文献。各种期刊网站收录了海量的文献信息,使用关键词搜索自己感兴趣的或工作需要的文章比较麻烦,一般的期刊网站会根据用户的操作行为如搜索历史或点击阅读记录,推荐相似文献显示在页面上,但对想要追踪关于自身研究领域的最新科研成果的用户来说,该文献推荐方式的用户针对性不强,推荐精准度也不高。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种文献推送方法及装置。
本发明是通过以下技术方案实现的:
一种文献推送方法,所述方法包括:
获取用户的个人信息,利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,其中,所述个人信息至少包括:姓名、单位和已发表的文章;
计算文献数据库中新文章和所述用户特征向量的余弦相似度,获得余弦相似度大小排序在前的预设数量篇文章;
将获得的预设数量篇文章推送给所述用户。
可选的,所述利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,包括:
爬取期刊网站收集历年文献信息,将文献信息中的摘要信息进行文本清洗后储存到干净语料库,其中,所述干净语料库包含:以每篇文献的整段摘要为单位的信息;
利用所述干净语料库训练词频-逆文档频率TF-IDF向量模型,将所述用户已发表的a篇文章的摘要信息带入训练好的TF-IDF向量模型,得到每篇文章摘要的TF-IDF向量,计算得到的a个文章摘要的TF-IDF向量的平均值,作为所述用户的摘要向量
将所述用户已发表的a篇文章的标题信息带入训练好的TF-IDF向量模型,得到每篇文章标题的TF-IDF向量,计算得到的a个文章标题的TF-IDF向量的平均值,作为所述用户的标题向量
根据以下公式,计算用户特征向量
其中,所述w为可调节参数,为归一化函数。
可选的,所述计算文献数据库中新文章和所述用户特征向量的余弦相似度,包括:
爬取期刊网站文献数据库中的若干篇最新文章,将所述新文章的摘要信息代入训练好的TF-IDF向量模型,计算每篇文章摘要中每个单词的词频和逆文档频率,得到每篇新文章的TF-IDF向量;
计算所述用户特征向量和新文章的TF-IDF向量之间的余弦相似度;
所述获得余弦相似度大小排序在前的预设数量篇文章,包括:
按照新文章对应的余弦相似度大小排序,得到余弦相似度大小排序最前的10或20篇新文章。
可选的,所述将获得的预设数量篇文章推送给所述用户,包括:
利用自动发送邮件程序将所述10篇或20篇新文章的内容发送给用户,其中,所述内容至少包括:文章的标题、作者和摘要,其中,文章的标题设置为超链接标题。
可选的,所述方法还包括:
根据所述用户的反馈信息调整用户特征向量。
可选的,所述根据所述用户的反馈信息调整用户特征向量,包括:
记录用户点击超链接标题所生成的操作日志,从所述操作日志中获取用户点击的文章信息,根据以下公式计算调整后的用户特征向量
其中,所述为更新的权重因子且取值范围为[0, 1],所述为用户点击的新文章的TF-IDF向量的平均值,m为用户点击的新文章的数量,所述表示用户未点击的新文章的TF-IDF向量的平均值, n为用户未点击的新文章的数量。
一种文献推送装置,其特征在于,所述装置包括:
构建模块,用于获取用户的个人信息,利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,其中,所述个人信息至少包括:姓名、单位和已发表的文章;
获得模块,用于计算文献数据库中新文章和所述用户特征向量的余弦相似度,获得余弦相似度大小排序在前的预设数量篇文章;
推送模块,用于将获得的预设数量篇文章推送给所述用户。
可选的,所述装置还包括:
调整模块,用于根据所述用户的反馈信息调整用户特征向量。
本发明相比现有技术具有以下优点:能够根据用户的自身信息个性化推送用户感兴趣的文献,用户针对性较强,精准度较高,且能够通过调整用户的特征向量优化文献推送,进一步增加推送的精准度。
附图说明
图1为本发明实施例提供的一种文献推送方法的流程示意图;
图2为本发明实施例提供的另一种文献推送方法的流程示意图;
图3为本发明实施例提供的一种文献推送装置的结构示意图;
图4为本发明实施例提供的另一种文献推送装置的结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,图1为本发明实施例提供的一种文献推送方法的流程示意图,可以包括如下步骤:
S101,获取用户的个人信息,利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,其中,所述个人信息至少包括:姓名、单位和已发表的文章;
具体的,可以爬取期刊网站(如Web of Science网站、 arXiv网站、 美国物理学会期刊网)收集历年文献信息(包括标题、摘要、作者等),将文献信息中的摘要信息进行文本清洗后(去重、去停用词、词形还原等常用文本清洗流程)储存到干净语料库,其中,所述干净语料库包含:以每篇文献的整段摘要为单位的信息(如每篇文献的doi号、标题和摘要内容,核心是文献的摘要信息);
利用所述干净语料库训练词频-逆文档频率TF-IDF向量模型(使用上述的干净语料库计算词频-逆文档频率TF-IDF向量模型,过程如下:首先将语料库中的所有段落表示成词袋模型(BoW)向量,设词典大小为V,共有N个段落,则每个段落可表示成 1 x V的向量,总的词袋模型向量维数为N x V。本系统中使用的词典大小V为100,000,经过测试发现,V=100,000的模型比V=10,000的模型在推荐的准确率上提高约5%),将所述用户已发表的a篇文章的摘要信息带入训练好的TF-IDF向量模型,得到每篇文章摘要的1 x V维的TF-IDF向量,计算得到的a个文章摘要的TF-IDF向量的平均值,作为所述用户的摘要向量
将所述用户已发表的a篇文章的标题信息带入相同的训练好的TF-IDF向量模型,得到每篇文章标题的1 x V维的TF-IDF向量,计算得到的a个文章标题的TF-IDF向量的平均值,作为所述用户的标题向量;根据以下公式,计算用户(初始)特征向量
其中,所述w为可调节参数(可自行设置,0-1范围内即可),为归一化函数。
S102,计算文献数据库中新文章和所述用户特征向量的余弦相似度,获得余弦相似度大小排序在前的预设数量篇文章;
具体的,可以定期爬取期刊网站文献数据库中的若干篇最新文章,将所述新文章的摘要信息代入训练好的TF-IDF向量模型,计算每篇文章摘要中每个单词的词频和逆文档频率,得到每篇新文章的TF-IDF向量(将最新文章摘要信息代入训练好的TF-IDF模型,用总的词袋向量计算每篇文章的摘要中每个单词的词频和逆文档频率,得到每篇新文章相应的1x V维TF-IDF向量);计算所述用户特征向量和新文章的TF-IDF向量之间的余弦相似度;按照新文章对应的余弦相似度大小排序,得到余弦相似度大小排序最前的10或20篇新文章(其他数量篇数均可,可自行根据需求设置,如5、15等等)。
S103,将获得的预设数量篇文章推送给所述用户。
具体的,可以利用自动发送邮件程序将所述10篇或20篇新文章的内容发送给用户,其中,所述内容至少包括:文章的标题、作者和摘要,其中,文章的标题设置为超链接标题,点击可跳转至中间服务器,然后中间服务器记录用户的操作日志后再跳转至文章对应的网址。在实际应用中,可以定期爬取上述期刊网站,以收集最新文章信息用于推送。
可见,能够根据用户的自身信息个性化推送用户感兴趣的文献,用户针对性较强,精准度较高。
参见图2,图2为本发明实施例提供的另一种文献推送方法的流程示意图,在途1所示实施例的基础上,增加步骤S104:根据所述用户的反馈信息调整用户特征向量。
在实际应用中,可以记录用户点击超链接标题所生成的操作日志,从所述操作日志中获取用户点击的文章信息,根据以下公式计算调整后的用户特征向量
其中,所述为更新的权重因子且取值范围为[0,1](可根据实际情况自行设置),所述为用户点击的新文章的TF-IDF向量的平均值,m为用户点击的新文章的数量,所述表示用户未点击的新文章的TF-IDF向量的平均值, n为用户未点击的新文章的数量。从中间服务器记录的用户操作日志可以获取用户点击的文章信息,可以将点击表示用户对文章感兴趣,未点击表示用户对文章不感兴趣。根据该公式,可以实时更新用户特征向量,以获得更精准的推荐结果。
可见,能够根据用户的自身信息个性化推送用户感兴趣的文献,用户针对性较强,精准度较高,且能够通过调整用户的特征向量优化文献推送,进一步增加推送的精准度。
参见图3,图3为本发明实施例提供的一种文献推送装置的结构示意图,与图1所示的流程相对应,所述装置可以包括:
构建模块301,用于获取用户的个人信息,利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,其中,所述个人信息至少包括:姓名、单位和已发表的文章;
获得模块302,用于计算文献数据库中新文章和所述用户特征向量的余弦相似度,获得余弦相似度大小排序在前的预设数量篇文章;
推送模块303,用于将获得的预设数量篇文章推送给所述用户。
可见,能够根据用户的自身信息个性化推送用户感兴趣的文献,用户针对性较强,精准度较高。
参见图4,图4为本发明实施例提供的另一种文献推送装置的结构示意图,与图2所示的流程相对应,在图3所示实施例的基础上,增加调整模块304,用于根据所述用户的反馈信息调整用户特征向量。
可见,能够根据用户的自身信息个性化推送用户感兴趣的文献,用户针对性较强,精准度较高,且能够通过调整用户的特征向量优化文献推送,进一步增加推送的精准度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文献推送方法,其特征在于,所述方法包括:
获取用户的个人信息,利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,其中,所述个人信息至少包括:姓名、单位和已发表的文章;
计算文献数据库中新文章和所述用户特征向量的余弦相似度,获得余弦相似度大小排序在前的预设数量篇文章;
将获得的预设数量篇文章推送给所述用户。
2.根据权利要求1所述的文献推送方法,其特征在于,所述利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,包括:
爬取期刊网站收集历年文献信息,将文献信息中的摘要信息进行文本清洗后储存到干净语料库,其中,所述干净语料库包含:以每篇文献的整段摘要为单位的信息;
利用所述干净语料库训练词频-逆文档频率TF-IDF向量模型,将所述用户已发表的a篇 文章的摘要信息带入训练好的TF-IDF向量模型,得到每篇文章摘要的TF-IDF向量,计算得 到的a个文章摘要的TF-IDF向量的平均值,作为所述用户的摘要向量
将所述用户已发表的a篇文章的标题信息带入训练好的TF-IDF向量模型,得到每篇文 章标题的TF-IDF向量,计算得到的a个文章标题的TF-IDF向量的平均值,作为所述用户的标 题向量
根据以下公式,计算用户特征向量
其中,所述w为可调节参数,为归一化函数。
3.根据权利要求2所述的文献推送方法,其特征在于,所述计算文献数据库中新文章和所述用户特征向量的余弦相似度,包括:
爬取期刊网站文献数据库中的若干篇最新文章,将所述新文章的摘要信息代入训练好的TF-IDF向量模型,计算每篇文章摘要中每个单词的词频和逆文档频率,得到每篇新文章的TF-IDF向量;
计算所述用户特征向量和新文章的TF-IDF向量之间的余弦相似度;
所述获得余弦相似度大小排序在前的预设数量篇文章,包括:
按照新文章对应的余弦相似度大小排序,得到余弦相似度大小排序最前的10或20篇新文章。
4.根据权利要求3所述的文献推送方法,其特征在于,所述将获得的预设数量篇文章推送给所述用户,包括:
利用自动发送邮件程序将所述10篇或20篇新文章的内容发送给用户,其中,所述内容至少包括:文章的标题、作者和摘要,其中,文章的标题设置为超链接标题。
5.根据权利要求1-4任一项所述的文献推送方法,其特征在于,所述方法还包括:
根据所述用户的反馈信息调整用户特征向量。
6.根据权利要求5所述的文献推送方法,其特征在于,所述根据所述用户的反馈信息调整用户特征向量,包括:
记录用户点击超链接标题所生成的操作日志,从所述操作日志中获取用户点击的文章 信息,根据以下公式计算调整后的用户特征向量
其中,所述为更新的权重因子且取值范围为[0, 1],所述为用户点击的新文章的 TF-IDF向量的平均值,m为用户点击的新文章的数量,所述表示用户未点击的新文章 的TF-IDF向量的平均值, n为用户未点击的新文章的数量。
7.一种文献推送装置,其特征在于,所述装置包括:
构建模块,用于获取用户的个人信息,利用所述个人信息和词频-逆文档频率TF-IDF向量构建用户特征向量,其中,所述个人信息至少包括:姓名、单位和已发表的文章;
获得模块,用于计算文献数据库中新文章和所述用户特征向量的余弦相似度,获得余弦相似度大小排序在前的预设数量篇文章;
推送模块,用于将获得的预设数量篇文章推送给所述用户。
8.根据权利要求7所述的文献推送装置,其特征在于,所述装置还包括:
调整模块,用于根据所述用户的反馈信息调整用户特征向量。
CN201811243326.1A 2018-10-24 2018-10-24 一种文献推送方法及装置 Withdrawn CN109492156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811243326.1A CN109492156A (zh) 2018-10-24 2018-10-24 一种文献推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811243326.1A CN109492156A (zh) 2018-10-24 2018-10-24 一种文献推送方法及装置

Publications (1)

Publication Number Publication Date
CN109492156A true CN109492156A (zh) 2019-03-19

Family

ID=65692720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811243326.1A Withdrawn CN109492156A (zh) 2018-10-24 2018-10-24 一种文献推送方法及装置

Country Status (1)

Country Link
CN (1) CN109492156A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统
CN110110228A (zh) * 2019-04-22 2019-08-09 南京工业大学 基于互联网与词袋的专业文献智能即时推荐方法及系统
CN110119477A (zh) * 2019-05-14 2019-08-13 腾讯科技(深圳)有限公司 一种信息推送方法、装置和存储介质
CN110275943A (zh) * 2019-06-26 2019-09-24 南京中孚信息技术有限公司 文章推送方法及装置
CN110795570A (zh) * 2019-10-11 2020-02-14 上海上湖信息技术有限公司 一种用户时序行为特征提取方法及装置
CN111209480A (zh) * 2020-01-09 2020-05-29 上海风秩科技有限公司 一种推送文本的确定方法、装置、计算机设备和介质
CN111916225A (zh) * 2020-07-31 2020-11-10 东南大学 基于Android平台的血压健康数据管理系统
CN112883248A (zh) * 2021-01-29 2021-06-01 北京百度网讯科技有限公司 信息推送方法、装置以及电子设备
CN118468345A (zh) * 2024-07-12 2024-08-09 成都金科玉律科技有限公司 一种基于档案安全管理的档案存储管控方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110228A (zh) * 2019-04-22 2019-08-09 南京工业大学 基于互联网与词袋的专业文献智能即时推荐方法及系统
CN110083696B (zh) * 2019-04-23 2022-11-25 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统
CN110119477A (zh) * 2019-05-14 2019-08-13 腾讯科技(深圳)有限公司 一种信息推送方法、装置和存储介质
CN110119477B (zh) * 2019-05-14 2024-02-27 腾讯科技(深圳)有限公司 一种信息推送方法、装置和存储介质
CN110275943A (zh) * 2019-06-26 2019-09-24 南京中孚信息技术有限公司 文章推送方法及装置
CN110795570B (zh) * 2019-10-11 2022-06-17 上海上湖信息技术有限公司 一种用户时序行为特征提取方法及装置
CN110795570A (zh) * 2019-10-11 2020-02-14 上海上湖信息技术有限公司 一种用户时序行为特征提取方法及装置
CN111209480A (zh) * 2020-01-09 2020-05-29 上海风秩科技有限公司 一种推送文本的确定方法、装置、计算机设备和介质
CN111916225A (zh) * 2020-07-31 2020-11-10 东南大学 基于Android平台的血压健康数据管理系统
CN112883248A (zh) * 2021-01-29 2021-06-01 北京百度网讯科技有限公司 信息推送方法、装置以及电子设备
CN112883248B (zh) * 2021-01-29 2024-01-09 北京百度网讯科技有限公司 信息推送方法、装置以及电子设备
CN118468345A (zh) * 2024-07-12 2024-08-09 成都金科玉律科技有限公司 一种基于档案安全管理的档案存储管控方法
CN118468345B (zh) * 2024-07-12 2024-09-13 成都金科玉律科技有限公司 一种基于档案安全管理的档案存储管控方法

Similar Documents

Publication Publication Date Title
CN109492156A (zh) 一种文献推送方法及装置
KR101361182B1 (ko) 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법
Jomsri et al. A framework for tag-based research paper recommender system: an IR approach
CN103455487B (zh) 一种搜索词的提取方法及装置
JP2008139928A5 (zh)
CN101853308A (zh) 一种个性化元搜索的方法及其应用终端
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
CN101256596A (zh) 一种站内导航的方法及系统
CN102236719A (zh) 基于网页分类的网页搜索引擎及快速查找方法
Berberich et al. Time-aware authority ranking
Balog et al. Finding similar experts
CN103294681A (zh) 一种搜索结果的生成方法和装置
JP4875911B2 (ja) コンテンツ特定方法及び装置
CN103399862A (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
Samar et al. Quantifying retrieval bias in Web archive search
CN107992563A (zh) 一种用户浏览内容的推荐方法及系统
CN111177514B (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
Ernsting et al. Language modeling approaches to blog post and feed finding
Dahiwale et al. Design of improved focused web crawler by analyzing semantic nature of URL and anchor text
Duan et al. Research on Enterprise Track of TREC 2007 at SJTU APEX Lab.
Iraji et al. Web pages retrieval with adaptive neuro fuzzy system based on content and structure
Jomsri et al. A comparison of search engine using “tag title and abstract” with CiteULike—An initial evaluation
Zaveri et al. Mining User's Browsing History to Personalize Web Search
Ganeshiya et al. A novel approach for webpage ranking using updated content
Chaudhary et al. A new contrive to evaluate web page ranking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200407

Address after: Area 5, di space office building, building C1, maker space, tus Technology City, No. 175, Houde Road, Hefei Economic and Technological Development Zone, 230000 Anhui Province

Applicant after: Anhui Guoke Digital Intelligent Technology Co., Ltd

Address before: Room 1206, No. 8 Gongchen Road Science and Technology Building, High-tech Industrial Development Zone, Longqiao District, Suzhou City, Anhui Province

Applicant before: SUZHOU YUANHUA INFORMATION TECHNOLOGY Co.,Ltd.

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190319