CN109213908A - 一种基于数据挖掘的学术会议论文推送系统 - Google Patents

一种基于数据挖掘的学术会议论文推送系统 Download PDF

Info

Publication number
CN109213908A
CN109213908A CN201810860314.7A CN201810860314A CN109213908A CN 109213908 A CN109213908 A CN 109213908A CN 201810860314 A CN201810860314 A CN 201810860314A CN 109213908 A CN109213908 A CN 109213908A
Authority
CN
China
Prior art keywords
paper
user
module
temperature
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810860314.7A
Other languages
English (en)
Inventor
梅建萍
王杰
张昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810860314.7A priority Critical patent/CN109213908A/zh
Publication of CN109213908A publication Critical patent/CN109213908A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于数据挖掘的学术会议论文推送系统,包括:用户登录注册模块,用于供用户注册和登录,系统通过数据库修改和保存用户信息;数据抓取模块,用于采用Webmagic开源工具从指定会议网站爬取相关论文信息;论文浏览和记录模块,用于实现浏览、搜索、收藏、笔记和留言功能;论文更新检测及新论文检测模块,用于定时监测会议网站对论文的更新情况;论文推送模块,用于在检测到新论文或生产需要推荐的论文时,每天定时触发邮件推送任务;个性化推荐模块,用于根据用户的历史数据推测出用户可能喜欢的论文。本发明为研究人员从繁复、费时的搜寻论文、跟踪论文状态活动中解放出来,提高科研效率。

Description

一种基于数据挖掘的学术会议论文推送系统
技术领域
本发明涉及数据挖掘领域,更进一步涉及一种基于数据挖掘的学术会议论文推送系统。
背景技术
学术会议特别是国内外某一研究领域的顶级会议成为该领域展示其最新科研成果的主要平台之一,也是研究人员了解相关方向最新科研动态的主要途径。以机器学习和数据挖掘领域每年举行的国际顶级会议ICML和SIGKDD为例,每年都会不定时在其官网上发布其接受的论文。但是由于这些网站只是简单地不定时发布审核通过的论文,科研工作者需要不断关注网站对论文的发布进度,并通过逐一浏览论文信息进行人工删选才能获得最新的与其工作相关的论文信息。这显然耗费了大量研究人员宝贵的时间和精力。
发明内容
为了克服已有学术会议论文信息人工筛选方式的效率较低、实时性较差的不足,本发明提供了一种基于数据挖掘的学术会议论文推送系统,为了让研究人员更加即时、高效地获得最新论文信息,本发明系统不仅具有自动论文爬取、搜索、浏览记录、主动推送等基本功能,同时提供基于数据挖掘和文本分析技术的热门课题分析和个性化推荐功能。为研究人员从繁复、费时的搜寻论文、跟踪论文状态活动中解放出来,提高科研效率。
本发明解决其技术问题所采用的技术方案是:
一种基于数据挖掘的学术会议论文推送系统,所述学术会议论文推送系统包括:
用户登录注册模块,用于供用户注册和登录,系统通过数据库修改和保存用户信息;
数据抓取模块,用于采用Webmagic开源工具从指定会议网站爬取相关论文信息;
论文浏览和记录模块,用于实现浏览、搜索、收藏、笔记和留言功能;
论文更新检测及新论文检测模块,用于定时监测会议网站对论文的更新情况;
论文推送模块,用于在检测到新论文或生产需要推荐的论文时,每天定时触发邮件推送任务,从Redis数据库中读取要推送给对应用户的论文信息进行编辑然后发送到用户注册时提交的邮箱账号中;
个性化推荐模块,用于根据用户的历史数据推测出用户可能喜欢的论文。
进一步,所述个性化推荐模中,利用开源工具ElasticSearch提供的MoreLikeThis功能,将用户数据填入,调整参数配置如匹配百分比、一篇文档中一个词语最小出现次数、包含该词的最少文档数和包含该词的最大文档数,再加入停用词,即可实现较为精准的个性化推荐。
再进一步,所述学术会议论文推送系统还包括:
热点分析模块,用于利用文本分析技术,对数据库中的论文信息进行热点词、热门课题进行分析和可视化,过程如下:
1)将论文标题与摘要拼接成长文本,进行分词和去除停用词;
2)使用以下公式计算每个长文本中词的TF-IDF值;
TF-IDF=词频(TF)×逆文档频率(IDF)
其中
以上公式中,ln表示以自然树e为底的对数;
3)最后选取一个阈值对词进行过滤,将高于阈值的词与其TF-IDF值保留,将数据传送到前端,并使用词云图插件进行展示;
4)对每个论文的词向量,利用经典主体检测的LDA算法得到k个主题,每个主题由最具有代表性的n个关键词来描述,k和n的取值范围在5到10之间。
更进一步,所述学术会议论文推送系统还包括:
论文热度排行模块,用于计算论文热度,并按热度值对论文排序,热度来自于用户点击浏览的次数,用户每次点击浏览论文详情,论文热度都会加1,在用户不点击的时候,使用牛顿冷却定律模拟物理降温过程对论文热度进行降低,计算为
当前热度得分=上一次得分×e(-(冷却系数)×间隔时间)
以上公式中,e为自然数,冷却系数根据系统整体的人气进行设置;间隔时间为秒和分,冷却系数分别在10-2和10-3数量级。
所述论文热度排行模块中,在启动时将所有论文的ID与热度以键值对的形式存储到Redis数据库中,并在Redis数据库中实现热度降序排名;每次用户点击某篇论文,从Redis中获取该论文热度,使用基于牛顿冷却定律的冷却算法计算出当前时刻热度,然后加一,更新到Redis数据库中并记录更新时刻;系统每隔一分钟从Redis数据库中获取一次排名前十的论文ID,再从MySQL中查出这十篇论文的详细信息,对排行榜进行更新;每隔十分钟,计算所有论文相对于上次更新时热度的当前时刻热度,更新排行榜。
所述数据抓取模块中,爬虫操作为Webmagic的PageProcessor模块,选择FileCacheQueueScheduler工具类进行抓取url的管理,该工具将需要抓取的和抓取过的url保存到本地文件中,在下次启动爬虫程序时检测爬取过的url进行跳过,防止重复爬取。
所述论文更新检测及新论文检测模块中,监测已有论文的补充信息的过程为:在最开始的论文数据抓取阶段,需要对抓取的信息进行检测,将信息不全的论文进行标记;在论文更新时,只需要针对论文信息不全的进行检测;将更新的论文编号存储到Redis数据库中,并设置失效时间为12小时,提供给论文推送模块使用。
所述论文更新检测及新论文检测模块中,对于网站新发布的论文的检测过程为:由于在抓取数据时会记录抓取过的网页,所以只需要再次启动爬虫程序即可自动跳过已抓取网页,抓取新发布的论文网页;爬虫程序将入口url,即用来显示所有论文链接的url也进行了保存,所以在启动爬虫程序之前需要删除本地文件中保存的这条url,否则爬虫程序将认为入口页面已经抓取过,则无法获取更多论文url链接,爬虫程序运行结束。
本发明的技术构思为:考虑到该系统的使用场景主要在PC端,B/S结构已经成为代替C/S结构的全新技术。使用这种结构时,客户端通过浏览器实现,在客户端和数据库之间加入逻辑层,实现主要的事务逻辑,形成三层体系结构。具有三层体系的应用程序能在中间层对业务规则、数据访问、合法性校验等工作进行处理。客户端不会直接与数据库进行交互,而是通过COM/DCOM通讯与逻辑层建立连接,再通过逻辑层与数据库进行交互。这种结构简化了客户机的工作,客户机上只需要安装配置好浏览器,服务器负责对数据库的访问和应用程序的执行。
系统前端主要采用Bootstrap和JQuery框架,并结合ECharts做图表处理。后端使用Spring Boot进行快速构建,使用主流的SpringMVC、Spring、Mybatis三种框架进行开发。在数据获取方面使用开源工具Webmagic,在数据存储方面使用MySQL作为主数据库,存储所有数据、Redis作为辅数据库,进行缓存管理、ElasticSearch作为文档数据库提供检索支持。
本发明包含以下几个功能:(1)定时监测所指定会议平台发布的论文信息,在第一时间推送给相关研究人员;(2)自动爬取和整合论文数据,提供检索、浏览、收藏、笔记、和留言功能;(3)基于文本分析技术对热门课题、热门词以及热门论文进行分析;(4)通过对用户行为浏览行为的记录,分析用户研究偏好,进而对用户进行个性化的精准推荐。
本发明的有益效果主要表现在:能够让研究人员更加即时、高效地获得最新论文信息;为研究人员从繁复、费时的搜寻论文、跟踪论文状态活动中解放出来,提高科研效率。
附图说明
图1是系统功能结构;
图2是系统架构图;
图3是系统数据库E-R图;
图4是用户注册时序图;
图5是论文浏览时序图;
图6是用户评论时序图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图6,一种基于数据挖掘的学术会议论文推送系统,包括:
用户登录注册模块,用于供用户注册和登录,系统通过数据库修改和保存用户信息;
以用户注册为例,用户在登录注册时需要输入用户名、邮箱、密码等信息,点击确认按钮,先由页面JavaScript函数进行数据校验,校验包括输入不能为空、邮箱格式等,如果不通过则提醒用户重新输入,如果通过则请求发送到服务端。服务端接收到请求,也需要对数据进行二次校验,不通过则返回相应提示信息给客户端。如果通过,则将数据传递到业务处理层,查询数据库,检验用户是否存在,如果存在返回给客户端用户已存在,注册失败的信息,否则注册成功,跳转到主页面。关于其时序图,可以参考附图4。
数据抓取模块,用于采用Webmagic开源工具从指定会议网站爬取相关论文信息;
爬虫主要定制了Webmagic的PageProcessor模块。由于不同的会议网站论文的链接、排版方式不同,页面HTML标签也不尽相同,所以针对每个会议网站,需要定制一套数据抓取规则。在抓取到论文信息后进行实体类装载并持久化到数据库中。在Webmagic的Scheduler模块,选择FileCacheQueueScheduler工具类进行抓取url的管理,该工具可以将需要抓取的和抓取过的url保存到本地文件中,在下次启动爬虫程序时可以检测爬取过的url进行跳过,防止重复爬取。
论文浏览和记录模块,用于实现浏览、搜索、收藏、笔记和留言功能。在该模块用户可以查看到系统抓取的所有论文,分别罗列在不同的会议名下并以分页形式展现。用户可以点击论文标题,进入论文详情页面。用户也可使用关键词搜索。在论文详情页面,论文标题旁边有一个五角星,如果用户收藏过这篇论文,那么这个五角星会被点亮,否则为灰色。用户再次点击五角星,会添加或取消收藏该论文。用户可以点击笔记按钮,在下方弹出的输入框内进行笔记记录。用户可以在留言评论区查看留言,也可以添加留言,留言一旦添加不可更改。关于其时序图,可以参考附图5和6。
论文更新检测及新论文检测模块,用于定时监测会议网站对论文的更新情况,包括对已爬取得论文的信息的补充以及新论文的公布,分别采用以下方法:
监测已有论文的补充信息:由于系统抓取到的论文数量较多,对每篇论文都进行对比检测会耗费服务器过多性能,而且对于已经全文发布的论文这一操作是没有意义的。因此在最开始的论文数据抓取阶段,需要对抓取的信息进行检测,将信息不全的论文进行标记。在论文更新时,只需要针对论文信息不全的进行检测。将更新的论文编号存储到Redis数据库中,并设置失效时间为12小时,提供给论文推送模块使用。
对于网站新发布的论文的检测:由于在抓取数据时会记录抓取过的网页,所以只需要再次启动爬虫程序即可自动跳过已抓取网页,抓取新发布的论文网页。但需要注意的是,爬虫程序将入口url,即用来显示所有论文链接的url也进行了保存,所以在启动爬虫程序之前需要删除本地文件中保存的这条url,否则爬虫程序将认为入口页面已经抓取过,则无法获取更多论文url链接,爬虫程序运行结束。
论文推送模块,用于在检测到新论文或生产需要推荐的论文时,本系统每天定时触发邮件推送任务,从Redis数据库中读取要推送给对应用户的论文信息进行编辑然后发送到用户注册时提交的邮箱账号中。把监测和推送分开的好处是,降低系统的耦合性,使两个模块都可以多线程执行,提高效率,两个模块错峰执行,避免了对服务器性能的过度占用。
个性化推荐模块,用于根据用户的历史数据推测出用户可能喜欢的论文。用户的历史数据主要包括用户注册时输入的研究偏好、用户搜索记录、用户的收藏记录这三个方面。利用开源工具ElasticSearch提供的MoreLikeThis功能,将用户数据填入,调整参数配置如percent_terms_to_match(匹配百分比)、min_term_freq(一篇文档中一个词语最小出现次数)、min_doc_freq(包含该词的最少文档数)、max_doc_freq(包含该词的最大文档数)等,再加入停用词,即可实现较为精准的个性化推荐。
热点分析模块,用于利用文本分析技术,对数据库中的论文信息进行热点词、热门课题进行分析和可视化,过程如下:
1)将论文标题与摘要拼接成长文本,进行分词和去除停用词;
2)使用以下公式计算每个长文本中词的TF-IDF值;
TF-IDF=词频(TF)×逆文档频率(IDF)
其中
以上公式中,ln表示以自然树e为底的对数。
3)最后选取一个阈值对词进行过滤,将高于阈值的词与其TF-IDF值保留,将数据传送到前端,并使用词云图插件进行展示;
4)对每个论文的词向量,利用经典主体检测的LDA(Latent DirichletAllocation)算法得到k个主题,每个主题由最具有代表性的n个关键词来描述。k和n的取值范围建议在5到10之间。
论文热度排行模块,用于计算论文热度,并按热度值对论文排序。热度主要来自于用户点击浏览的次数,用户每次点击浏览论文详情,论文热度都会加1,在用户不点击的时候,使用牛顿冷却定律模拟物理降温过程对论文热度进行降低,具体计算为
当前热度得分=上一次得分×e(-(冷却系数)×间隔时间)
以上公式中,e为自然数。冷却系数应该根据系统整体的人气进行设置,既不能太高,也不能太低。太高会导致系统使用人数较多的时候系统热度得分普遍偏高,而太低会导致系统使用人数较少的时候系统热度的份普遍偏低甚至降为0。对应间隔时间为秒和分,冷却系数建议分别在10-2和10-3数量级。
为了较为实时的反映论文热度,系统在启动时将所有论文的ID与热度以键值对的形式存储到Redis数据库中,并在Redis数据库中实现热度降序排名。每次用户点击某篇论文,从Redis中获取该论文热度,使用基于牛顿冷却定律的冷却算法计算出当前时刻热度,然后加一,更新到Redis数据库中并记录更新时刻。系统每隔一分钟从Redis数据库中获取一次排名前十的论文ID,再从MySQL中查出这十篇论文的详细信息,对排行榜进行更新。每隔十分钟,计算所有论文相对于上次更新时热度的当前时刻热度,更新排行榜。
本实施例的基于数据挖掘的学术会议论文推送系统,实现过程如下:
1)用户登录注册
用户注册需要填入用户名、邮箱、研究方向、密码。其中邮箱需为未在本系统中使用过的邮箱。如果已经拥有本系统账号,可以点击登录按钮,进入登录页面,输入邮箱、密码进行登录。
2)数据抓取
数据抓取为系统定时功能,目前实时抓取与维护着SIGKDD(www.kdd.org/)会议与ICML会议(www.icml.cc/)2016年和2017年论文数据。
3)论文浏览和记录
登录系统后,进入系统主页面;
用户可以使用搜索框搜索论文关键词,或者在左侧导航栏选择论文分类信息进行浏览,后台会根据用户选择提供相应的论文,以分页形式展示,如图为论文列表。搜索框下面为词云图,词的大小对应其TF-IDF值。
用户可以浏览部分摘要,在更多种显示论文的来源、作者等。用户可以下载论文。
点击论文标题,进入论文详情页面。
点击右侧热点论文栏中的论文,可以查看热点论文详情。
在论文详情页的底部区域有评论展示区和发布区,用户可以查看评论和发布评论。对某篇论文的评论为所有用户可见。
评论按钮旁有笔记按钮,点击后用户可以添加笔记,添加后的笔记会显示在论文详情页右侧的笔记栏中。
4)论文推送
论文推送分为新论文推送和论文推荐。系统每天定时检测KDD和ICML两大会议网站,如果有新的论文会以邮件形式推送给用户。
系统每天定时分析用户数据,根据分析结果推荐用户可能感兴趣的论文,以邮件形式发送给用户。

Claims (8)

1.一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述学术会议论文推送系统包括:
用户登录注册模块,用于供用户注册和登录,系统通过数据库修改和保存用户信息;
数据抓取模块,用于采用Webmagic开源工具从指定会议网站爬取相关论文信息;
论文浏览和记录模块,用于实现浏览、搜索、收藏、笔记和留言功能;
论文更新检测及新论文检测模块,用于定时监测会议网站对论文的更新情况;
论文推送模块,用于在检测到新论文或生产需要推荐的论文时,每天定时触发邮件推送任务,从Redis数据库中读取要推送给对应用户的论文信息进行编辑然后发送到用户注册时提交的邮箱账号中;
个性化推荐模块,用于根据用户的历史数据推测出用户可能喜欢的论文。
2.如权利要求1所述的一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述个性化推荐模中,利用开源工具ElasticSearch提供的MoreLikeThis功能,将用户数据填入,调整参数配置如匹配百分比、一篇文档中一个词语最小出现次数、包含该词的最少文档数和包含该词的最大文档数,再加入停用词,即可实现较为精准的个性化推荐。
3.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述学术会议论文推送系统还包括:
热点分析模块,用于利用文本分析技术,对数据库中的论文信息进行热点词、热门课题进行分析和可视化,过程如下:
1)将论文标题与摘要拼接成长文本,进行分词和去除停用词;
2)使用以下公式计算每个长文本中词的TF-IDF值;
TF-IDF=词频(TF)×逆文档频率(IDF)
其中
以上公式中,ln表示以自然树e为底的对数;
3)最后选取一个阈值对词进行过滤,将高于阈值的词与其TF-IDF值保留,将数据传送到前端,并使用词云图插件进行展示;
4)对每个论文的词向量,利用经典主体检测的LDA算法得到k个主题,每个主题由最具有代表性的n个关键词来描述,k和n的取值范围在5到10之间。
4.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述学术会议论文推送系统还包括:
论文热度排行模块,用于计算论文热度,并按热度值对论文排序,热度来自于用户点击浏览的次数,用户每次点击浏览论文详情,论文热度都会加1,在用户不点击的时候,使用牛顿冷却定律模拟物理降温过程对论文热度进行降低,计算为
当前热度得分=上一次得分×e(-(冷却系数)×间隔时间)
以上公式中,e为自然数,冷却系数根据系统整体的人气进行设置;间隔时间为秒和分,冷却系数分别在10-2和10-3数量级。
5.如权利要求4所述的一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述论文热度排行模块中,在启动时将所有论文的ID与热度以键值对的形式存储到Redis数据库中,并在Redis数据库中实现热度降序排名;每次用户点击某篇论文,从Redis中获取该论文热度,使用基于牛顿冷却定律的冷却算法计算出当前时刻热度,然后加一,更新到Redis数据库中并记录更新时刻;系统每隔一分钟从Redis数据库中获取一次排名前十的论文ID,再从MySQL中查出这十篇论文的详细信息,对排行榜进行更新;每隔十分钟,计算所有论文相对于上次更新时热度的当前时刻热度,更新排行榜。
6.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述数据抓取模块中,爬虫操作为Webmagic的PageProcessor模块,选择FileCacheQueueScheduler工具类进行抓取url的管理,该工具将需要抓取的和抓取过的url保存到本地文件中,在下次启动爬虫程序时检测爬取过的url进行跳过,防止重复爬取。
7.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述论文更新检测及新论文检测模块中,监测已有论文的补充信息的过程为:在最开始的论文数据抓取阶段,需要对抓取的信息进行检测,将信息不全的论文进行标记;在论文更新时,只需要针对论文信息不全的进行检测;将更新的论文编号存储到Redis数据库中,并设置失效时间为12小时,提供给论文推送模块使用。
8.如权利要求1或2所述的一种基于数据挖掘的学术会议论文推送系统,其特征在于,所述论文更新检测及新论文检测模块中,对于网站新发布的论文的检测过程为:由于在抓取数据时会记录抓取过的网页,所以只需要再次启动爬虫程序即可自动跳过已抓取网页,抓取新发布的论文网页;爬虫程序将入口url,即用来显示所有论文链接的url也进行了保存,所以在启动爬虫程序之前需要删除本地文件中保存的这条url,否则爬虫程序将认为入口页面已经抓取过,则无法获取更多论文url链接,爬虫程序运行结束。
CN201810860314.7A 2018-08-01 2018-08-01 一种基于数据挖掘的学术会议论文推送系统 Pending CN109213908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810860314.7A CN109213908A (zh) 2018-08-01 2018-08-01 一种基于数据挖掘的学术会议论文推送系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810860314.7A CN109213908A (zh) 2018-08-01 2018-08-01 一种基于数据挖掘的学术会议论文推送系统

Publications (1)

Publication Number Publication Date
CN109213908A true CN109213908A (zh) 2019-01-15

Family

ID=64990398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810860314.7A Pending CN109213908A (zh) 2018-08-01 2018-08-01 一种基于数据挖掘的学术会议论文推送系统

Country Status (1)

Country Link
CN (1) CN109213908A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704713A (zh) * 2019-09-26 2020-01-17 国家计算机网络与信息安全管理中心 一种基于多数据源的论文数据爬取方法及系统
CN111090674A (zh) * 2019-12-28 2020-05-01 安徽微沃信息科技股份有限公司 一种基于热词和缓存的搜索引擎系统
CN111488424A (zh) * 2020-03-27 2020-08-04 中国科学院计算技术研究所 一种特定学术领域人物的发现与跟踪方法及系统
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统
CN116737869A (zh) * 2023-07-12 2023-09-12 广东万方数据信息科技有限公司 学位论文提交管理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049575A (zh) * 2013-01-05 2013-04-17 华中科技大学 一种主题自适应的学术会议搜索系统
CN103593425A (zh) * 2013-11-08 2014-02-19 南方电网科学研究院有限责任公司 基于偏好的智能检索方法及系统
CN105095258A (zh) * 2014-05-08 2015-11-25 腾讯科技(北京)有限公司 一种媒体信息排序方法、装置和媒体信息推荐系统
CN105335517A (zh) * 2015-11-06 2016-02-17 努比亚技术有限公司 选择热度多媒体的方法及终端
CN105740471A (zh) * 2016-03-14 2016-07-06 燕山大学 一种可动态查询论文收录状态的智能方法
CN105787068A (zh) * 2016-03-01 2016-07-20 上海交通大学 基于引用网络及用户熟练度分析的学术推荐方法及系统
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049575A (zh) * 2013-01-05 2013-04-17 华中科技大学 一种主题自适应的学术会议搜索系统
CN103593425A (zh) * 2013-11-08 2014-02-19 南方电网科学研究院有限责任公司 基于偏好的智能检索方法及系统
CN105095258A (zh) * 2014-05-08 2015-11-25 腾讯科技(北京)有限公司 一种媒体信息排序方法、装置和媒体信息推荐系统
CN105335517A (zh) * 2015-11-06 2016-02-17 努比亚技术有限公司 选择热度多媒体的方法及终端
CN105787068A (zh) * 2016-03-01 2016-07-20 上海交通大学 基于引用网络及用户熟练度分析的学术推荐方法及系统
CN105740471A (zh) * 2016-03-14 2016-07-06 燕山大学 一种可动态查询论文收录状态的智能方法
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统
CN110704713A (zh) * 2019-09-26 2020-01-17 国家计算机网络与信息安全管理中心 一种基于多数据源的论文数据爬取方法及系统
CN111090674A (zh) * 2019-12-28 2020-05-01 安徽微沃信息科技股份有限公司 一种基于热词和缓存的搜索引擎系统
CN111090674B (zh) * 2019-12-28 2022-11-29 安徽微沃信息科技股份有限公司 一种基于热词和缓存的搜索引擎系统
CN111488424A (zh) * 2020-03-27 2020-08-04 中国科学院计算技术研究所 一种特定学术领域人物的发现与跟踪方法及系统
CN116737869A (zh) * 2023-07-12 2023-09-12 广东万方数据信息科技有限公司 学位论文提交管理方法及系统

Similar Documents

Publication Publication Date Title
CN109213908A (zh) 一种基于数据挖掘的学术会议论文推送系统
Donato et al. Do you want to take notes? Identifying research missions in Yahoo! Search Pad
Vargiu et al. Exploiting web scraping in a collaborative filtering-based approach to web advertising.
Ionescu et al. Retrieving Diverse Social Images at MediaEval 2014: Challenge, Dataset and Evaluation.
JP4185059B2 (ja) トレンド予測装置およびトレンド予測方法
US11294873B2 (en) Query-goal-mission structures
Gunjan et al. Search engine optimization with Google
US20100058195A1 (en) System And Method For Interfacing A Web Browser Widget With Social Indexing
US20140229487A1 (en) System and method for user preference augmentation through social network inner-circle knowledge discovery
TW200917070A (en) System and method to facilitate matching of content to advertising information in a network
CN103473354A (zh) 基于电子商务平台的保险推荐系统框架及保险推荐方法
CN104268292A (zh) 画像系统的标签词库更新方法
CN103970796A (zh) 查询偏好排序方法和装置
Thakur et al. Quantitative measurement and comparison of effects of various search engine optimization parameters on Alexa Traffic Rank
CN104516961A (zh) 一种基于地域的话题挖掘及话题走势分析方法及系统
US20130262454A1 (en) Identifying web pages of the world wide web having relevance to a first file
Gupta et al. A review on search engine optimization: Basics
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
Ortiz-Cordova et al. External to internal search: Associating searching on search engines with searching on sites
Zhang et al. An approach of service discovery based on service goal clustering
CN106934046A (zh) 一种出版物发行分析系统和方法
KR101846122B1 (ko) 빅데이터 분석을 활용한 공모전 관리 시스템
Kate et al. FoodSIS: a text mining system to improve the state of food safety in singapore
Zhang et al. Complementary classification techniques based personalized software requirements retrieval with semantic ontology and user feedback
Dennis Search Engine Optimization and the Long Tail of Web Search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115