CN109213908A

CN109213908A - 一种基于数据挖掘的学术会议论文推送系统

Info

Publication number: CN109213908A
Application number: CN201810860314.7A
Authority: CN
Inventors: 梅建萍; 王杰; 张昊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2019-01-15

Abstract

一种基于数据挖掘的学术会议论文推送系统，包括：用户登录注册模块，用于供用户注册和登录，系统通过数据库修改和保存用户信息；数据抓取模块，用于采用Webmagic开源工具从指定会议网站爬取相关论文信息；论文浏览和记录模块，用于实现浏览、搜索、收藏、笔记和留言功能；论文更新检测及新论文检测模块，用于定时监测会议网站对论文的更新情况；论文推送模块，用于在检测到新论文或生产需要推荐的论文时，每天定时触发邮件推送任务；个性化推荐模块，用于根据用户的历史数据推测出用户可能喜欢的论文。本发明为研究人员从繁复、费时的搜寻论文、跟踪论文状态活动中解放出来，提高科研效率。

Description

一种基于数据挖掘的学术会议论文推送系统

技术领域

本发明涉及数据挖掘领域，更进一步涉及一种基于数据挖掘的学术会议论文推送系统。

背景技术

学术会议特别是国内外某一研究领域的顶级会议成为该领域展示其最新科研成果的主要平台之一，也是研究人员了解相关方向最新科研动态的主要途径。以机器学习和数据挖掘领域每年举行的国际顶级会议ICML和SIGKDD为例，每年都会不定时在其官网上发布其接受的论文。但是由于这些网站只是简单地不定时发布审核通过的论文，科研工作者需要不断关注网站对论文的发布进度，并通过逐一浏览论文信息进行人工删选才能获得最新的与其工作相关的论文信息。这显然耗费了大量研究人员宝贵的时间和精力。

发明内容

为了克服已有学术会议论文信息人工筛选方式的效率较低、实时性较差的不足,本发明提供了一种基于数据挖掘的学术会议论文推送系统，为了让研究人员更加即时、高效地获得最新论文信息，本发明系统不仅具有自动论文爬取、搜索、浏览记录、主动推送等基本功能，同时提供基于数据挖掘和文本分析技术的热门课题分析和个性化推荐功能。为研究人员从繁复、费时的搜寻论文、跟踪论文状态活动中解放出来，提高科研效率。

本发明解决其技术问题所采用的技术方案是：

一种基于数据挖掘的学术会议论文推送系统，所述学术会议论文推送系统包括：

用户登录注册模块，用于供用户注册和登录，系统通过数据库修改和保存用户信息；

数据抓取模块，用于采用Webmagic开源工具从指定会议网站爬取相关论文信息；

论文浏览和记录模块，用于实现浏览、搜索、收藏、笔记和留言功能；

论文更新检测及新论文检测模块，用于定时监测会议网站对论文的更新情况；

论文推送模块，用于在检测到新论文或生产需要推荐的论文时，每天定时触发邮件推送任务，从Redis数据库中读取要推送给对应用户的论文信息进行编辑然后发送到用户注册时提交的邮箱账号中；

个性化推荐模块，用于根据用户的历史数据推测出用户可能喜欢的论文。

进一步，所述个性化推荐模中，利用开源工具ElasticSearch提供的MoreLikeThis功能，将用户数据填入，调整参数配置如匹配百分比、一篇文档中一个词语最小出现次数、包含该词的最少文档数和包含该词的最大文档数，再加入停用词，即可实现较为精准的个性化推荐。

再进一步，所述学术会议论文推送系统还包括：

热点分析模块，用于利用文本分析技术，对数据库中的论文信息进行热点词、热门课题进行分析和可视化，过程如下：

1)将论文标题与摘要拼接成长文本，进行分词和去除停用词；

2)使用以下公式计算每个长文本中词的TF-IDF值；

TF-IDF＝词频(TF)×逆文档频率(IDF)

其中

以上公式中，ln表示以自然树e为底的对数；

3)最后选取一个阈值对词进行过滤，将高于阈值的词与其TF-IDF值保留，将数据传送到前端，并使用词云图插件进行展示；

4)对每个论文的词向量，利用经典主体检测的LDA算法得到k个主题，每个主题由最具有代表性的n个关键词来描述，k和n的取值范围在5到10之间。

更进一步，所述学术会议论文推送系统还包括：

论文热度排行模块，用于计算论文热度，并按热度值对论文排序，热度来自于用户点击浏览的次数，用户每次点击浏览论文详情，论文热度都会加1，在用户不点击的时候，使用牛顿冷却定律模拟物理降温过程对论文热度进行降低，计算为

当前热度得分＝上一次得分×e^{(-(冷却系数)×间隔时间)}

以上公式中，e为自然数，冷却系数根据系统整体的人气进行设置；间隔时间为秒和分，冷却系数分别在10^-2和10^-3数量级。

所述论文热度排行模块中，在启动时将所有论文的ID与热度以键值对的形式存储到Redis数据库中，并在Redis数据库中实现热度降序排名；每次用户点击某篇论文，从Redis中获取该论文热度，使用基于牛顿冷却定律的冷却算法计算出当前时刻热度，然后加一，更新到Redis数据库中并记录更新时刻；系统每隔一分钟从Redis数据库中获取一次排名前十的论文ID，再从MySQL中查出这十篇论文的详细信息，对排行榜进行更新；每隔十分钟，计算所有论文相对于上次更新时热度的当前时刻热度，更新排行榜。

所述数据抓取模块中，爬虫操作为Webmagic的PageProcessor模块，选择FileCacheQueueScheduler工具类进行抓取url的管理，该工具将需要抓取的和抓取过的url保存到本地文件中，在下次启动爬虫程序时检测爬取过的url进行跳过，防止重复爬取。

所述论文更新检测及新论文检测模块中，监测已有论文的补充信息的过程为：在最开始的论文数据抓取阶段，需要对抓取的信息进行检测，将信息不全的论文进行标记；在论文更新时，只需要针对论文信息不全的进行检测；将更新的论文编号存储到Redis数据库中，并设置失效时间为12小时，提供给论文推送模块使用。

所述论文更新检测及新论文检测模块中，对于网站新发布的论文的检测过程为：由于在抓取数据时会记录抓取过的网页，所以只需要再次启动爬虫程序即可自动跳过已抓取网页，抓取新发布的论文网页；爬虫程序将入口url，即用来显示所有论文链接的url也进行了保存，所以在启动爬虫程序之前需要删除本地文件中保存的这条url，否则爬虫程序将认为入口页面已经抓取过，则无法获取更多论文url链接，爬虫程序运行结束。

本发明的技术构思为：考虑到该系统的使用场景主要在PC端，B/S结构已经成为代替C/S结构的全新技术。使用这种结构时，客户端通过浏览器实现，在客户端和数据库之间加入逻辑层，实现主要的事务逻辑，形成三层体系结构。具有三层体系的应用程序能在中间层对业务规则、数据访问、合法性校验等工作进行处理。客户端不会直接与数据库进行交互，而是通过COM/DCOM通讯与逻辑层建立连接，再通过逻辑层与数据库进行交互。这种结构简化了客户机的工作，客户机上只需要安装配置好浏览器，服务器负责对数据库的访问和应用程序的执行。

系统前端主要采用Bootstrap和JQuery框架，并结合ECharts做图表处理。后端使用Spring Boot进行快速构建，使用主流的SpringMVC、Spring、Mybatis三种框架进行开发。在数据获取方面使用开源工具Webmagic，在数据存储方面使用MySQL作为主数据库，存储所有数据、Redis作为辅数据库，进行缓存管理、ElasticSearch作为文档数据库提供检索支持。

本发明包含以下几个功能：(1)定时监测所指定会议平台发布的论文信息，在第一时间推送给相关研究人员；(2)自动爬取和整合论文数据，提供检索、浏览、收藏、笔记、和留言功能；(3)基于文本分析技术对热门课题、热门词以及热门论文进行分析；(4)通过对用户行为浏览行为的记录，分析用户研究偏好，进而对用户进行个性化的精准推荐。

本发明的有益效果主要表现在：能够让研究人员更加即时、高效地获得最新论文信息；为研究人员从繁复、费时的搜寻论文、跟踪论文状态活动中解放出来，提高科研效率。

附图说明

图1是系统功能结构；

图2是系统架构图；

图3是系统数据库E-R图；

图4是用户注册时序图；

图5是论文浏览时序图；

图6是用户评论时序图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图6，一种基于数据挖掘的学术会议论文推送系统，包括：

以用户注册为例，用户在登录注册时需要输入用户名、邮箱、密码等信息，点击确认按钮，先由页面JavaScript函数进行数据校验，校验包括输入不能为空、邮箱格式等，如果不通过则提醒用户重新输入，如果通过则请求发送到服务端。服务端接收到请求，也需要对数据进行二次校验，不通过则返回相应提示信息给客户端。如果通过，则将数据传递到业务处理层，查询数据库，检验用户是否存在，如果存在返回给客户端用户已存在，注册失败的信息，否则注册成功，跳转到主页面。关于其时序图，可以参考附图4。

爬虫主要定制了Webmagic的PageProcessor模块。由于不同的会议网站论文的链接、排版方式不同，页面HTML标签也不尽相同，所以针对每个会议网站，需要定制一套数据抓取规则。在抓取到论文信息后进行实体类装载并持久化到数据库中。在Webmagic的Scheduler模块，选择FileCacheQueueScheduler工具类进行抓取url的管理，该工具可以将需要抓取的和抓取过的url保存到本地文件中，在下次启动爬虫程序时可以检测爬取过的url进行跳过，防止重复爬取。

论文浏览和记录模块，用于实现浏览、搜索、收藏、笔记和留言功能。在该模块用户可以查看到系统抓取的所有论文，分别罗列在不同的会议名下并以分页形式展现。用户可以点击论文标题，进入论文详情页面。用户也可使用关键词搜索。在论文详情页面，论文标题旁边有一个五角星，如果用户收藏过这篇论文，那么这个五角星会被点亮，否则为灰色。用户再次点击五角星，会添加或取消收藏该论文。用户可以点击笔记按钮，在下方弹出的输入框内进行笔记记录。用户可以在留言评论区查看留言，也可以添加留言，留言一旦添加不可更改。关于其时序图，可以参考附图5和6。

论文更新检测及新论文检测模块，用于定时监测会议网站对论文的更新情况，包括对已爬取得论文的信息的补充以及新论文的公布，分别采用以下方法：

监测已有论文的补充信息：由于系统抓取到的论文数量较多，对每篇论文都进行对比检测会耗费服务器过多性能，而且对于已经全文发布的论文这一操作是没有意义的。因此在最开始的论文数据抓取阶段，需要对抓取的信息进行检测，将信息不全的论文进行标记。在论文更新时，只需要针对论文信息不全的进行检测。将更新的论文编号存储到Redis数据库中，并设置失效时间为12小时，提供给论文推送模块使用。

对于网站新发布的论文的检测：由于在抓取数据时会记录抓取过的网页，所以只需要再次启动爬虫程序即可自动跳过已抓取网页，抓取新发布的论文网页。但需要注意的是，爬虫程序将入口url，即用来显示所有论文链接的url也进行了保存，所以在启动爬虫程序之前需要删除本地文件中保存的这条url，否则爬虫程序将认为入口页面已经抓取过，则无法获取更多论文url链接，爬虫程序运行结束。

论文推送模块，用于在检测到新论文或生产需要推荐的论文时，本系统每天定时触发邮件推送任务，从Redis数据库中读取要推送给对应用户的论文信息进行编辑然后发送到用户注册时提交的邮箱账号中。把监测和推送分开的好处是，降低系统的耦合性，使两个模块都可以多线程执行，提高效率，两个模块错峰执行，避免了对服务器性能的过度占用。

个性化推荐模块，用于根据用户的历史数据推测出用户可能喜欢的论文。用户的历史数据主要包括用户注册时输入的研究偏好、用户搜索记录、用户的收藏记录这三个方面。利用开源工具ElasticSearch提供的MoreLikeThis功能，将用户数据填入，调整参数配置如percent_terms_to_match(匹配百分比)、min_term_freq(一篇文档中一个词语最小出现次数)、min_doc_freq(包含该词的最少文档数)、max_doc_freq(包含该词的最大文档数)等，再加入停用词，即可实现较为精准的个性化推荐。

2)使用以下公式计算每个长文本中词的TF-IDF值；

TF-IDF＝词频(TF)×逆文档频率(IDF)

其中

以上公式中，ln表示以自然树e为底的对数。

4)对每个论文的词向量，利用经典主体检测的LDA(Latent DirichletAllocation)算法得到k个主题，每个主题由最具有代表性的n个关键词来描述。k和n的取值范围建议在5到10之间。

论文热度排行模块，用于计算论文热度，并按热度值对论文排序。热度主要来自于用户点击浏览的次数，用户每次点击浏览论文详情，论文热度都会加1，在用户不点击的时候，使用牛顿冷却定律模拟物理降温过程对论文热度进行降低，具体计算为

当前热度得分＝上一次得分×e^{(-(冷却系数)×间隔时间)}

以上公式中，e为自然数。冷却系数应该根据系统整体的人气进行设置，既不能太高，也不能太低。太高会导致系统使用人数较多的时候系统热度得分普遍偏高，而太低会导致系统使用人数较少的时候系统热度的份普遍偏低甚至降为0。对应间隔时间为秒和分，冷却系数建议分别在10^-2和10^-3数量级。

为了较为实时的反映论文热度，系统在启动时将所有论文的ID与热度以键值对的形式存储到Redis数据库中，并在Redis数据库中实现热度降序排名。每次用户点击某篇论文，从Redis中获取该论文热度，使用基于牛顿冷却定律的冷却算法计算出当前时刻热度，然后加一，更新到Redis数据库中并记录更新时刻。系统每隔一分钟从Redis数据库中获取一次排名前十的论文ID，再从MySQL中查出这十篇论文的详细信息，对排行榜进行更新。每隔十分钟，计算所有论文相对于上次更新时热度的当前时刻热度，更新排行榜。

本实施例的基于数据挖掘的学术会议论文推送系统，实现过程如下：

1)用户登录注册

用户注册需要填入用户名、邮箱、研究方向、密码。其中邮箱需为未在本系统中使用过的邮箱。如果已经拥有本系统账号，可以点击登录按钮，进入登录页面，输入邮箱、密码进行登录。

2)数据抓取

数据抓取为系统定时功能，目前实时抓取与维护着SIGKDD(www.kdd.org/)会议与ICML会议(www.icml.cc/)2016年和2017年论文数据。

3)论文浏览和记录

登录系统后，进入系统主页面；

用户可以使用搜索框搜索论文关键词，或者在左侧导航栏选择论文分类信息进行浏览，后台会根据用户选择提供相应的论文，以分页形式展示，如图为论文列表。搜索框下面为词云图，词的大小对应其TF-IDF值。

用户可以浏览部分摘要，在更多种显示论文的来源、作者等。用户可以下载论文。

点击论文标题，进入论文详情页面。

点击右侧热点论文栏中的论文，可以查看热点论文详情。

在论文详情页的底部区域有评论展示区和发布区，用户可以查看评论和发布评论。对某篇论文的评论为所有用户可见。

评论按钮旁有笔记按钮，点击后用户可以添加笔记，添加后的笔记会显示在论文详情页右侧的笔记栏中。

4)论文推送

论文推送分为新论文推送和论文推荐。系统每天定时检测KDD和ICML两大会议网站，如果有新的论文会以邮件形式推送给用户。

系统每天定时分析用户数据，根据分析结果推荐用户可能感兴趣的论文，以邮件形式发送给用户。

Claims

1.一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述学术会议论文推送系统包括：

2.如权利要求1所述的一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述个性化推荐模中，利用开源工具ElasticSearch提供的MoreLikeThis功能，将用户数据填入，调整参数配置如匹配百分比、一篇文档中一个词语最小出现次数、包含该词的最少文档数和包含该词的最大文档数，再加入停用词，即可实现较为精准的个性化推荐。

3.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述学术会议论文推送系统还包括：

2)使用以下公式计算每个长文本中词的TF-IDF值；

TF-IDF＝词频(TF)×逆文档频率(IDF)

其中

以上公式中，ln表示以自然树e为底的对数；

4.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述学术会议论文推送系统还包括：

当前热度得分＝上一次得分×e^{(-(冷却系数)×间隔时间)}

5.如权利要求4所述的一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述论文热度排行模块中，在启动时将所有论文的ID与热度以键值对的形式存储到Redis数据库中，并在Redis数据库中实现热度降序排名；每次用户点击某篇论文，从Redis中获取该论文热度，使用基于牛顿冷却定律的冷却算法计算出当前时刻热度，然后加一，更新到Redis数据库中并记录更新时刻；系统每隔一分钟从Redis数据库中获取一次排名前十的论文ID，再从MySQL中查出这十篇论文的详细信息，对排行榜进行更新；每隔十分钟，计算所有论文相对于上次更新时热度的当前时刻热度，更新排行榜。

6.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述数据抓取模块中，爬虫操作为Webmagic的PageProcessor模块，选择FileCacheQueueScheduler工具类进行抓取url的管理，该工具将需要抓取的和抓取过的url保存到本地文件中，在下次启动爬虫程序时检测爬取过的url进行跳过，防止重复爬取。

7.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述论文更新检测及新论文检测模块中，监测已有论文的补充信息的过程为：在最开始的论文数据抓取阶段，需要对抓取的信息进行检测，将信息不全的论文进行标记；在论文更新时，只需要针对论文信息不全的进行检测；将更新的论文编号存储到Redis数据库中，并设置失效时间为12小时，提供给论文推送模块使用。

8.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统，其特征在于，所述论文更新检测及新论文检测模块中，对于网站新发布的论文的检测过程为：由于在抓取数据时会记录抓取过的网页，所以只需要再次启动爬虫程序即可自动跳过已抓取网页，抓取新发布的论文网页；爬虫程序将入口url，即用来显示所有论文链接的url也进行了保存，所以在启动爬虫程序之前需要删除本地文件中保存的这条url，否则爬虫程序将认为入口页面已经抓取过，则无法获取更多论文url链接，爬虫程序运行结束。