CN112765464A - 面向主题的新内容检索推送方法、装置、设备及存储介质 - Google Patents

面向主题的新内容检索推送方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112765464A
CN112765464A CN202110041726.XA CN202110041726A CN112765464A CN 112765464 A CN112765464 A CN 112765464A CN 202110041726 A CN202110041726 A CN 202110041726A CN 112765464 A CN112765464 A CN 112765464A
Authority
CN
China
Prior art keywords
content
theme
pushing
information
new content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110041726.XA
Other languages
English (en)
Inventor
朱俊杰
陈秋实
王瑜
杨妮
张婷婷
左泽均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202110041726.XA priority Critical patent/CN112765464A/zh
Publication of CN112765464A publication Critical patent/CN112765464A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种面向主题的新内容检索推送方法、装置、设备及存储介质。本发明针对各主题信息有需求的用户,能够准时地向这些用户提供关于给定主题领域的新信息。用户在输入想要跟踪的主题内容后,设置希望获得推送的时间以及接收推送信息的邮箱后,系统会在指定的时间采用爬虫技术对给定主题的信息进行获取,经过数据库比较,将最新的内容推送至用户预留邮箱。此方案可以使用户节省许多搜索的时间以及浪费在信息过滤过程中的时间,使得用户在获取信息时更加便捷灵活。同时本方法除了使用基本的邮件提示外,还提供一种直接采用pdf格式将网页内容推送至用户邮箱的方法,使信息获取更为便捷。

Description

面向主题的新内容检索推送方法、装置、设备及存储介质
技术领域
本发明涉及主题信息推送技术领域,具体涉及一种面向主题的新内容检索推送方法、装置、设备及存储介质。
背景技术
目前对于主题信息检索推送技术的研究并不多,典型的主要有Google alert,用于随时追踪是否有用户感兴趣的新内容,但是这种技术设置了相关权限,仅限于部分用户使用,对国内用户来说,无法体验到这个功能。此外在数据源上可能与国内的受众并不相匹配,对用户来说,在新内容接收的形式上有所欠缺,未提供PDF文件形式的内容推送,在内容呈现上不够清晰、完整。因此,传统的信息检索推送方法数据源匹配度不高、推送形式单一、内容呈现不佳式亟待解决的技术问题。
发明内容
本发明提供了一种面向主题的新内容检索推送方法,旨在解决传统的信息检索推送方法的数据源匹配度不高、推送形式单一、内容呈现不佳的技术问题。
为了实现上述目的,本发明提供的一种面向主题的新内容检索推送方法,包括以下步骤:
S1、添加用户输入的订阅信息,并将所述订阅信息存入数据库,具体步骤为:
提供系统表单,收集用户输入的感兴趣的主题信息,支持多关键字联合创建主题,收集用户推送频率需求,收集用户邮箱信息,收集用户指定新内容返回形式。根据以上用户输入的订阅信息,在数据库内存储该项记录。
S2、遍历所述订阅信息,并根据遍历到的订阅信息执行对应的订阅任务,获得相关主题内容,具体步骤包括:
后台服务器在获取当前订阅记录后,开启相关服务,包括:
通过对订阅记录的获取,系统进入静默状态直到达到用户预设推送时间,此时,根据遍历到的订阅信息执行对应的订阅任务,系统开始启动新内容获取服务,根据主题及关键字内容,系统采用爬虫技术对相应主题的内容进行获取,根据用户设定的时间频率自动设置主题订阅的时间跨度,最终实现对数据的获取,获得相关主题内容。
S3、将所述相关主题内容与数据库中已有的内容进行比较筛选,获得新内容,具体步骤包括:
在获取相关主题内容后,根据url链接判断获取到的结果唯一性,同一个url链接仅记录为一条内容。将获取得到相关内容,与数据库内已有内容进行对比,判断当前获取的内容是否为新内容,若为新内容,将此记录添加至缓存,直到所有的新查询内容与数据库内数据进行完全对比,筛选出新内容。
S4、根据用户所设置的推送形式,将新内容进行推送至用户端,推送形式包括:
(1)订阅记录直接传递
订阅记录直接传递的格式是,通过邮件,直接将新内容的标题、链接、以及摘要内容进行传递,用户可以通过邮件直接对获取到的内容进行点击访问。
(2)PDF文件形式传递
PDF形式传递则是获取新内容的url链接,并通由程序对这些链接进行访问,将这些链接页面进行下载,形成一份包含全部新内容页面的pdf文件,可以使获取到的结果更加直观、清晰。
此外,为了实现上述目的,本发明还提供了一种面向主题的新内容检索推送设备,所述面向主题的新内容检索推送设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的面向主题的新内容检索推送程序,所述面向主题的新内容检索推送程序被所述处理器执行时实现所述的面向主题的新内容检索推送方法的步骤。
此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有面向主题的新内容检索推送程序,所述面向主题的新内容检索推送程序被处理器执行时实现所述的面向主题的新内容检索推送方法的步骤。
此外,为了实现上述目的,本发明还提供了一种面向主题的新内容检索推送装置,所述面向主题的新内容检索推送装置包括:
订阅信息添加模块,用于添加用户输入的订阅信息,并将所述订阅信息存入数据库;
订阅任务执行模块,用于遍历所述订阅信息,并根据所述订阅信息执行订阅任务,获得相关主题内容;
订阅内容获取模块,用于将所述相关主题内容并与数据库中已有的内容进行比较,获得新内容;
订阅内容推送模块,用于将所述新内容推送至用户设备。
与现有技术相比,本发明的有益效果是:为用户提供感兴趣的主题内容的追踪,可以在用户指定的时间频率内进行获取,使得用户免除了对某一感兴趣的主题内容的重复搜索,解决了用户在对感兴趣内容的搜索时耗费大量时间的问题,提高了用户获取新信息的效率。同时本发明除了普通文本形式的邮件传递之外,还加入了PDF格式的文件传递,免除了用户对新主题订阅内容链接的手动点击,在节省了点击消耗的时间的同时,还能对订阅结果有更加清晰,更加直观的了解,也能实现在网络状况并不是特别好的情况下,对感兴趣的内容进行直接的浏览。
附图说明
图1为本发明实施例提供的新内容检索推送整体流程示意图;
图2为本发明实施例提供的新内容获取及推送流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,图1为本发明实施例提供的新内容检索推送整体流程示意图。新内容检索推送整体流程包括以下步骤:
步骤S1、系统获取用户输入相关订阅信息,包括:主题及关键字信息、订阅推送频率信息、推送形式以及用户邮箱,系统将这些信息存入数据库。
步骤S2、系统对数据库内已有订阅信息进行查询,若是查询结果不为空,开启相应的服务进程,系统开始持续运行,等到时间达到用户预设的具体执行时间,系统开始执行本次主题订阅查询操作。
系统使用爬虫技术对相应的主题在网络上进行主题内容搜索,获取到相应主题的内容,包括:
(1)主题相关网页标题;
(2)主题相关网页内容部分摘要;
(3)主题相关网页url链接。
步骤S3、对数据库进行查询,查询得到本次所执行订阅原有查询记录,将新得到的内容与原有查询记录进行比较,将url链接作为比较的手段,筛选过滤掉已有内容,得到最终的新内容。
步骤S4、根据用户订阅信息,选择用户所需要的返回形式,包括:
(1)普通邮件格式发送
普通邮件格式发送,邮件内文本包括新内容标题,新内容部分摘要,新内容链接。
(2)PDF文件格式
PDF格式发送则是将新内容网页以PDF形式进行保存,得到PDF文件。
步骤S5、系统将最终得到的新内容推送到用户指定邮箱之中。
请参考图2,图2为本发明实施例提供的新内容获取及推送流程示意图,新内容获取及推送流程包括以下步骤:
步骤S1、使用爬虫技术,在网络上将对应主题、关键字的内容进行爬取,将得到的数据存入缓存之中。
步骤S2、在数据库内对该订阅内容下的订阅信息结果进行查询,得到订阅结果信息集,将此信息集也存入缓存之中。
步骤S3、对存在缓存中的两份数据进行唯一比较,即根据url链接值是否相同判断是否为同一网页,据此来判断是否为本次新内容,比较完成后得到新内容。
步骤S4、将新内容对用户推送,并将本次搜索结果存入数据库之中,作为下一次搜索结果的比较副本。
此外,本发明具体实施例还提供了一种面向主题的新内容检索推送设备,所述面向主题的新内容检索推送设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的面向主题的新内容检索推送程序,所述面向主题的新内容检索推送程序被所述处理器执行时实现所述的面向主题的新内容检索推送方法的步骤。
此外,本发明具体实施例还提供了一种存储介质,所述存储介质上存储有面向主题的新内容检索推送程序,所述面向主题的新内容检索推送程序被处理器执行时实现所述的面向主题的新内容检索推送方法的步骤。
此外,本发明具体实施例还提供了一种面向主题的新内容检索推送装置,所述面向主题的新内容检索推送装置包括:
订阅信息添加模块,用于添加用户输入的订阅信息,并将所述订阅信息存入数据库;
订阅任务执行模块,用于遍历所述订阅信息,并根据所述订阅信息执行订阅任务,获得相关主题内容;
订阅内容获取模块,用于将所述相关主题内容并与数据库中已有的内容进行比较,获得新内容;
订阅内容推送模块,用于将所述新内容推送至用户设备。
本发明针对各类对某一方面主题感兴趣的人群,旨在减少这类人群在获取新信息时消耗的时间,通过邮件形式定时地给用户推送新消息,可以使用户在获取感兴趣主题内容方面拥有更好的灵活性和及时性。同时对新内容进行了PDF格式的包装,对部分情况下某一时刻网络状况不太好的用户,提供了一种更为清晰直观的数据形式。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向主题的新内容检索推送方法,其特征在于,所述面向主题的新内容检索推送方法包括以下步骤:
添加用户输入的订阅信息,并将所述订阅信息存入数据库;
遍历所述订阅信息,并根据遍历到的订阅信息执行对应的订阅任务,获得相关主题内容;
将所述相关主题内容与数据库中已有的内容进行比较筛选,删除重复的内容,获得新内容;
将所述新内容推送至用户设备。
2.根据权利要求1所述的一种面向主题的新内容检索推送方法,其特征在于,所述用户输入的订阅信息包括:
订阅主题信息、订阅推送时间信息、订阅推送形式信息和订阅信息接收邮箱。
3.根据权利要求2所述的一种面向主题的新内容检索推送方法,其特征在于,所述订阅主题信息包括:订阅主题名称和订阅相关的关键字;
所述订阅推送时间信息包括年、月、日、时选项;
所述订阅推送形式信息包括普通文本形式和PDF文件形式。
4.如权利要求3所述的一种面向主题的新内容检索推送方法,其特征在于,所述普通文本形式包括:标题、内容和网址;
所述PDF文件形式包括:网址和页面内容;所述页面内容以PDF文件形式进行展现。
5.根据权利要求1所述的一种面向主题的新内容检索推送方法,其特征在于,所述遍历所述订阅信息,并根据遍历到的订阅信息执行对应的订阅任务,获得相关主题内容的步骤包括:
对数据库内订阅信息进行遍历,获得所有的订阅信息;
后台开启监听服务,在预设时间和预设网站对所有的所述订阅信息依次进行相关主题的信息搜索,获得相关主题内容。
6.根据权利要求1所述的一种面向主题的新内容检索推送方法,其特征在于,所述将所述相关主题内容与数据库中已有的内容进行比较筛选,删除重复的内容,获得新内容的步骤包括:
在数据库内进行查询,得到相关主题下的已有的内容;
将所述相关主题内容与所述已有的内容进行唯一性比较筛选,删除重复的内容,获得新内容,并存入数据库中。
7.根据权利要求6所述的一种面向主题的新内容检索推送方法,其特征在于,将所述相关主题内容与所述已有的内容进行唯一性比较的字段是url。
8.一种面向主题的新内容检索推送装置,其特征在于,所述面向主题的新内容检索推送装置包括:
订阅信息添加模块,用于添加用户输入的订阅信息,并将所述订阅信息存入数据库;
订阅任务执行模块,用于遍历所述订阅信息,并根据所述订阅信息执行订阅任务,获得相关主题内容;
订阅内容获取模块,用于将所述相关主题内容并与数据库中已有的内容进行比较,获得新内容;
订阅内容推送模块,用于将所述新内容推送至用户设备。
9.一种面向主题的新内容检索推送设备,其特征在于,所述面向主题的新内容检索推送设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的面向主题的新内容检索推送程序,所述面向主题的新内容检索推送程序被所述处理器执行时实现如权利要求1至7中任一项所述的面向主题的新内容检索推送方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有面向主题的新内容检索推送程序,所述面向主题的新内容检索推送程序被处理器执行时实现如权利要求1至7中任一项所述的面向主题的新内容检索推送方法的步骤。
CN202110041726.XA 2021-01-13 2021-01-13 面向主题的新内容检索推送方法、装置、设备及存储介质 Pending CN112765464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110041726.XA CN112765464A (zh) 2021-01-13 2021-01-13 面向主题的新内容检索推送方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110041726.XA CN112765464A (zh) 2021-01-13 2021-01-13 面向主题的新内容检索推送方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112765464A true CN112765464A (zh) 2021-05-07

Family

ID=75700111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110041726.XA Pending CN112765464A (zh) 2021-01-13 2021-01-13 面向主题的新内容检索推送方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112765464A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197204A1 (en) * 2022-04-13 2023-10-19 Comcast Cable Communications, Llc Managing transmission resources

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798032A (zh) * 2004-12-30 2006-07-05 腾讯科技(深圳)有限公司 一种互联网上实现资讯订阅的方法及系统
CN102129452A (zh) * 2011-03-04 2011-07-20 李丽平 未来信息获取系统及获取方法
CN102902733A (zh) * 2012-09-11 2013-01-30 北京奇艺世纪科技有限公司 一种基于内容订阅的信息推送方法、装置及系统
CN103714115A (zh) * 2013-10-29 2014-04-09 北京奇虎科技有限公司 一种网页内容的加载方法和装置
CN104915439A (zh) * 2015-06-25 2015-09-16 百度在线网络技术(北京)有限公司 搜索结果推送方法和装置
CN104951448A (zh) * 2014-03-26 2015-09-30 北京雪球信息科技有限公司 一种为用户推送订阅类别的消息的方法和服务器
CN105930539A (zh) * 2016-06-27 2016-09-07 北京百度网讯科技有限公司 话题订阅方法和装置
CN106506618A (zh) * 2016-10-24 2017-03-15 北京奇虎科技有限公司 一种信息分享方法、装置及移动终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798032A (zh) * 2004-12-30 2006-07-05 腾讯科技(深圳)有限公司 一种互联网上实现资讯订阅的方法及系统
CN102129452A (zh) * 2011-03-04 2011-07-20 李丽平 未来信息获取系统及获取方法
CN102902733A (zh) * 2012-09-11 2013-01-30 北京奇艺世纪科技有限公司 一种基于内容订阅的信息推送方法、装置及系统
CN103714115A (zh) * 2013-10-29 2014-04-09 北京奇虎科技有限公司 一种网页内容的加载方法和装置
CN104951448A (zh) * 2014-03-26 2015-09-30 北京雪球信息科技有限公司 一种为用户推送订阅类别的消息的方法和服务器
CN104915439A (zh) * 2015-06-25 2015-09-16 百度在线网络技术(北京)有限公司 搜索结果推送方法和装置
CN105930539A (zh) * 2016-06-27 2016-09-07 北京百度网讯科技有限公司 话题订阅方法和装置
CN106506618A (zh) * 2016-10-24 2017-03-15 北京奇虎科技有限公司 一种信息分享方法、装置及移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
包瑞: "《高校图书馆服务与资源开发》", 吉林大学出版社, pages: 174 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197204A1 (en) * 2022-04-13 2023-10-19 Comcast Cable Communications, Llc Managing transmission resources

Similar Documents

Publication Publication Date Title
US8533199B2 (en) Intelligent bookmarks and information management system based on the same
US8510377B2 (en) Methods and systems for exploring a corpus of content
US20170255626A1 (en) Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
US8271481B2 (en) System and method for automatically searching for documents related to calendar and email entries
US8949217B2 (en) Server bookmarks
US8122028B2 (en) System for remotely searching a local user index
US7634461B2 (en) System and method for enhancing keyword relevance by user's interest on the search result documents
US8706748B2 (en) Methods for enhancing digital search query techniques based on task-oriented user activity
US8161064B2 (en) System for searching network accessible data sets
WO2008089294A1 (en) System and method for automatically organizing bookmarks through the use of tag data
WO2008113045A1 (en) Query templates and labeled search tip system, methods, and techniques
CN102982058A (zh) 用于支持播客的技术和系统
CN102768683B (zh) 一种图片信息的搜索方法及搜索装置
US20050240489A1 (en) Retaining custom item order
US9471699B2 (en) Managing bookmarks within a collaborative application
JP2006099341A (ja) 更新履歴生成装置及びプログラム
US7424471B2 (en) System for searching network accessible data sets
US20110161318A1 (en) Method and apparatus for assigning tags to digital content
US8261196B2 (en) Method for displaying usage metrics as part of search results
CN112765464A (zh) 面向主题的新内容检索推送方法、装置、设备及存储介质
US8140583B2 (en) Tag syndicates
CN103823805B (zh) 基于社区的相关帖推荐系统及推荐方法
US20100211561A1 (en) Providing representative samples within search result sets
KR20110102052A (ko) 검색 결과 페이지에서 개별 컨텐츠를 이용하여 블로그를 생성하는 검색 시스템 및 검색 방법
Park et al. Web Information Management System: Personalization and Generalization.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination