CN108255963A - 一种基于互联网的新闻信息检索的控制方法及装置 - Google Patents

一种基于互联网的新闻信息检索的控制方法及装置 Download PDF

Info

Publication number
CN108255963A
CN108255963A CN201711408540.3A CN201711408540A CN108255963A CN 108255963 A CN108255963 A CN 108255963A CN 201711408540 A CN201711408540 A CN 201711408540A CN 108255963 A CN108255963 A CN 108255963A
Authority
CN
China
Prior art keywords
information
database
news information
news
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711408540.3A
Other languages
English (en)
Inventor
李青龙
周世勇
彭璿韬
王雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wisdom Star Information Technology Co Ltd
Original Assignee
Beijing Wisdom Star Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom Star Information Technology Co Ltd filed Critical Beijing Wisdom Star Information Technology Co Ltd
Priority to CN201711408540.3A priority Critical patent/CN108255963A/zh
Publication of CN108255963A publication Critical patent/CN108255963A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于互联网的新闻信息检索的控制方法及装置,包括:输入关键字信息和逻辑关系,用颜色区分显示逻辑关系;将设置的关键字信息和逻辑关系的信息转换成标准的逻辑关系表达式;将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息后进行检索;对检索到的新闻信息进行清洗操作,并写入搜索服务器的数据库;进行内容去重操作,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,并将检索后的新闻信息通过高亮关键字的方式显示。本发明解决了用户能够从多个维度检索到微信公众号等信息交互平台中需要的文章信息的技术问题。

Description

一种基于互联网的新闻信息检索的控制方法及装置
技术领域
本申请涉及计算机信息技术领域,特别涉及一种基于互联网的新闻信息检索的控制方法及装置。
背景技术
随着互联网信息的蓬勃发展,各种信息交互平台应运而生,随之出现了海量的信息,而这些信息来自于不同的信息交互平台。在信息的传播过程中,信息检索是一种常见方式,当前信息检索主要是对网站信息进行关键字的检索,但是现在的网络信息除了网页信息,微信和微博也越来越成为网络信息传播的重要的信息交互平台。
在微信平台上,微信公众账号是开发者或商家在微信公众平台上申请的应用账号,通过公众账号,微信公众账号使用者可在微信平台上实现和特定群体的文字、图片、语音和视频等信息的全方位沟通、互动。
当前的搜索引擎一般可以搜索网页的相关新闻信息,但是对于微信公众号等信息交互平台中的文章信息,用户并不能有效的从多个维度(例如:媒体类型、热度、时间、倾向性以及类别等维度)检索到微信公众号等信息交互平台中需要的文章信息。
由此可见,当前需要一种基于互联网的新闻信息检索的控制的技术方案,确保用户能够从多个维度检索到微信公众号等信息交互平台中需要的文章信息。
发明内容
本申请实施例提供一种基于互联网的新闻信息检索的控制方法及装置,以解决用户能够从多个维度检索到微信公众号等信息交互平台中需要的文章信息的技术问题。
本发明提供了一种基于互联网的新闻信息检索的控制方法,包括:
输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息,并将关键字之间的不同逻辑关系在服务端的可视化界面上通过不同颜色来区分显示;
服务端将设置的关键字信息和关键字之间的逻辑关系的信息转换成标准的逻辑关系表达式并存储到服务端中;
服务端将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息后,进行新闻信息的检索;
服务端对检索到的新闻信息进行信息过滤的清洗操作,并将清洗操作后的新闻信息写入搜索服务器的数据库;
服务端通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示。
进一步地,所述方法还可包括:所述输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息,并将关键字之间的不同逻辑关系在服务端的可视化界面上通过不同颜色来区分显示的步骤,还包括:
在服务端的可视化界面上通过点击操作完成切换关键字之间的逻辑关系。
进一步地,所述方法还可包括:所述服务端对检索到的新闻信息进行信息过滤的清洗操作的步骤,包括:
服务端根据预设的网站和预设类型的新闻信息,对检索到的新闻信息进行信息过滤的清洗操作;
服务端通过大数据处理引擎方式过滤检索到的垃圾新闻信息;及
服务端对检索到的新闻信息进行格式化操作,去掉无用的html信息。
进一步地,所述方法还可包括:所述服务端将清洗操作后的新闻信息写入搜索服务器的数据库的步骤,包括:
服务端将清洗操作后的新闻信息写入ElasticSearch数据库。
进一步地,所述方法还可包括:所述服务端通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示的步骤,包括:
服务端计算每条写入搜索服务器的数据库的新闻信息的simhash数值,根据得到的相同simhash数值的新闻条数来进行内容去重操作并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入ElasticSearch数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示。
本发明还提供了一种基于互联网的新闻信息检索的控制装置,包括:
输入单元,用于输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息;
显示单元,用于显示输入的信息和检索后的新闻信息,其中,所述关键字之间的不同逻辑关系通过不同颜色来区分显示,检索后的新闻信息通过高亮关键字的方式在进行显示;
转换单元,用于将设置的关键字信息和关键字之间的逻辑关系的信息转换成标准的逻辑关系表达式,并将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息;
检索单元,用于检索新闻信息,并对检索到的新闻信息进行信息过滤的清洗操作,并将清洗操作后的新闻信息写入搜索服务器的数据库;通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库;及
数据库存储单元,用于存储信息。
进一步地,所述装置还可包括:所述输入单元还用于,在显示单元上通过点击操作完成切换关键字之间的逻辑关系。
进一步地,所述装置还可包括:所述检索单元对检索到的新闻信息进行信息过滤的清洗操作,是指:
检索单元根据预设的网站和预设类型的新闻信息,对检索到的新闻信息进行信息过滤的清洗操作;
检索单元通过大数据处理引擎方式过滤检索到的垃圾新闻信息;及
检索单元对检索到的新闻信息进行格式化操作,去掉无用的html信息。
进一步地,所述装置还可包括:所述检索单元将清洗操作后的新闻信息写入搜索服务器的数据库,是指:
所述检索单元将清洗操作后的新闻信息写入ElasticSearch数据库。
进一步地,所述装置还可包括:所述检索单元通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,是指:
检索单元计算每条写入搜索服务器的数据库的新闻信息的simhash数值,根据得到的相同simhash数值的新闻条数来进行内容去重操作并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入ElasticSearch数据库。
与现有技术相比,应用本发明,能够根据用户需求检索媒体网站或微信公众号等信息交互平台,确保用户能够从多个维度检索到微信公众号等信息交互平台中需要的文章信息,可以对检索结果提供更多的选择方式,提高用户体验度,并且能够通过用户设定的主题,持续关注对应的主题。最大程度上满足用户的不同维度的信息需求。
附图说明
此处所说明的附图用于提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于互联网的新闻信息检索的控制方法的一种具体实施方式的流程示意图;
图2为本申请实施例提供的一种本申请中基于互联网的新闻信息检索的控制装置的具体实施方式的结构示意图。
图3为本申请实施例提供的一种本申请中基于互联网的新闻信息检索的控制方法的具体实施方式的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供了一种基于互联网的新闻信息检索的控制方法及装置,能够根据用户需求检索媒体网站或微信公众号等信息交互平台,确保用户能够从多个维度(例如:媒体类型、热度、时间、倾向性以及类别等维度)检索到微信公众号等信息交互平台中需要的文章信息,可以对检索结果提供更多的选择方式,提高用户体验度,并且能够通过用户设定的主题,持续关注对应的主题。最大程度上满足用户的不同维度的信息需求。
为了方便描述,在本申请实施例中,主要通过计算机的服务端操作为例进行介绍。
请参考图1,如图1所示,本申请实施例提供的一种基于互联网的新闻信息检索的控制方法,包括如下步骤:
步骤110、输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息,并将关键字之间的不同逻辑关系在服务端的可视化界面上通过不同颜色来区分显示;
其中,具体包括:
用户可通过服务端的可视化界面,输入检索的新闻信息的关键字(其中包括排除词等相关信息)和关键字之间的逻辑关系的信息,服务端的可视化界面可通过颜色来标示各个关键字逻辑关系,例如:黄色为“或”关系,蓝色为“与”关系,给用户以极大的可读性和可操作性。
应用本方法,表达式输入的检索方式,并能通过颜色表示各个关键字之间的“与”“或”逻辑关系,本方法用颜色表达逻辑关系,用户非常容易理解且易于操作。
具体实例,如果用户想查询北京和上海的公园票务的信息,可以输入“北京市”“上海市”的关键字数据,通过鼠标点击即可切换关键字数据的逻辑关系,其中北京市和上海市是橙色,表示北京市和上海市之间是或的关系。然后输入“公园”“票务”的关键字数据,点击鼠标调整颜色为蓝色,表示公园和票务之间是与的关系。同时也可调整词组之间的逻辑关系,本实例是“北京市上海市”和“公园票务”是与关系。这样既能够表达出相对复杂的逻辑,更让用户易于理解。
进一步包括:在服务端的可视化界面上还可通过点击操作完成切换关键字之间的逻辑关系(例如:通过鼠标点击即可切换逻辑关系,或者在触屏设备中通过手指的点击即可切换逻辑关系,其中点击可以是单击也可以是双连击等操作,本申请对此不作任何限定),这样的设置方式非常便于用户操作。
步骤120、服务端将设置的关键字信息和关键字之间的逻辑关系的信息转换成标准的逻辑关系表达式并存储到服务端中;
步骤130、服务端将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息后,进行新闻信息的检索;
搜索服务器的数据库可以包括:ElasticSearch数据库(ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,可以主动发现用户当前或潜在需求,并主动推送信息给用户,同好似可以挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。其中关键点是主动推送,而不是被动查找,是主动学习的搜索引擎。ElasticSearch基于RESTful web接口,ElasticSearch经常用于云计算中,能够达到实时搜索、稳定、可靠、快速,而且使用方便)或者solr文本搜索数据库(solr文本搜索数据库是基于 Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面)等。
服务端将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息,可以是指:
服务端将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息通过程序转换为符合ElasticSearch的查询语法信息。(例如:由于ElasticSearch的查询是有ElasticSearch规则,通过算法,通过固定的方式,将一种表达式转换成另一种表达式。举例:将数据储存的数据为json:{“and”:“北京上海房价”}表示:“北京上海房价是and关系的查询)。
所述多个维度检索信息可以包括:(例如:媒体类型、热度、时间、倾向性以及类别等维度)。通过多个维度检索信息,可以对检索结果提供更多的选择方式,提高用户体验度。
其中,进行新闻信息的检索可以包括在预设周期(例如:30分钟、40分钟或50分钟等,本申请对此不作限定)对预设的所有网址进行新闻信息的检索,其中对预先设置的论坛网址在更短的预设周期(例如:2分钟、3分钟或5 分钟等,本申请对此不作限定)进行新闻信息的检索,由于论坛数据更新更快,所以检索频率会高一些,提高了对新闻信息检索的时效性。
步骤140、服务端对检索到的新闻信息进行信息过滤的清洗操作,并将清洗操作后的新闻信息写入搜索服务器的数据库;
其中还包括:服务端是通过采集模块将检索到的新闻信息发送到新发送到消息队列。
服务端对检索到的新闻信息进行信息过滤的清洗操作,通过以下三种方式实现,具体包括:
服务端根据预设的网站和预设类型的新闻信息,对检索到的新闻信息进行信息过滤的清洗操作;
服务端通过大数据处理引擎方式过滤检索到的垃圾新闻信息;
服务端对检索到的新闻信息进行格式化操作,去掉无用的html信息。
通过上述三种方式,可以初步对检索到的不需要的新闻信息进行过滤,提高了检索新闻信息的准确性和效率。
服务端将清洗操作后的新闻信息写入搜索服务器的数据库,具体包括:
服务端将清洗操作后的新闻信息写入ElasticSearch数据库。
步骤150、服务端通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示。
具体包括:
所述搜索服务器的数据库可以包括MongoDB数据库、mysql数据库或者 Oracle数据库等,只要是可用于管理文档的数据库,都可为本申请应用,本申请对此不作限定。
服务端计算每条写入搜索服务器的数据库的新闻信息的simhash数值,根据得到的相同simhash数值的新闻条数来进行内容去重操作并写入MongoDB 数据库后,将写入MongoDB数据库中进行内容去重操作后的新闻信息写入 ElasticSearch数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示,方便用户查看结果;
或者,服务端通过计算从写入搜索服务器的数据库的新闻信息中提取出部分关键句的hash值来进行内容去重操作并写入MongoDB数据库后,将写入 MongoDB数据库中进行内容去重操作后的新闻信息写入ElasticSearch数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示,方便用户查看结果。
其中simhash是一种网页去重的哈希算法方式。可以根据得到的simhash 数值进行去重操作,例如:预设simhash为3,那么如果得到的3个新闻信息的simhash只要小于等于3,譬如为1、2或3,则这3个新闻信息都是相同信息。
其中,MongoDB数据库(MongoDB数据库是一个面向文档的数据库,是一个可以基于分布式文件存储的数据库。MongoDB数据库是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。MongoDB数据库最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引)。
图2是本申请的一种基于互联网的新闻信息检索的控制装置的结构示意图,包括:输入单元、显示单元、转换单元、检索单元和数据库存储单元,其中,
输入单元,用于输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息;
显示单元,用于显示输入的信息和检索后的新闻信息,其中,所述关键字之间的不同逻辑关系通过不同颜色来区分显示,检索后的新闻信息通过高亮关键字的方式在进行显示;
转换单元,用于将设置的关键字信息和关键字之间的逻辑关系的信息转换成标准的逻辑关系表达式,并将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息;
检索单元,用于检索新闻信息,并对检索到的新闻信息进行信息过滤的清洗操作,并将清洗操作后的新闻信息写入搜索服务器的数据库;通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库;
数据库存储单元,用于存储信息。
所述输入单元还用于,在显示单元上通过点击操作完成切换关键字之间的逻辑关系。
所述检索单元对检索到的新闻信息进行信息过滤的清洗操作,是指:
检索单元根据预设的网站和预设类型的新闻信息,对检索到的新闻信息进行信息过滤的清洗操作;
检索单元通过大数据处理引擎方式过滤检索到的垃圾新闻信息;及
检索单元对检索到的新闻信息进行格式化操作,去掉无用的html信息。
所述检索单元将清洗操作后的新闻信息写入搜索服务器的数据库,是指:
所述检索单元将清洗操作后的新闻信息写入ElasticSearch数据库。
所述检索单元通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,是指:
检索单元计算每条写入搜索服务器的数据库的新闻信息的simhash数值,根据得到的相同simhash数值的新闻条数来进行内容去重操作并写入 MongoDB数据库后,将写入MongoDB数据库中进行内容去重操作后的新闻信息写入ElasticSearch数据库。
图3示出了是本申请实施例提供的一种电子设备的结构示意图。请参考图 3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成网络覆盖性能表征装置。处理器,执行存储器所存放的程序,并具体用于控制操作。
如图3所示的一种电子设备,上述如本申请图1所示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP) 等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中的控制方法,并具体用于执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,本申请中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于互联网的新闻信息检索的控制方法,其特征在于,包括:
输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息,并将关键字之间的不同逻辑关系在服务端的可视化界面上通过不同颜色来区分显示;
服务端将设置的关键字信息和关键字之间的逻辑关系的信息转换成标准的逻辑关系表达式并存储到服务端中;
服务端将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息后,进行新闻信息的检索;
服务端对检索到的新闻信息进行信息过滤的清洗操作,并将清洗操作后的新闻信息写入搜索服务器的数据库;
服务端通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示。
2.根据权利要求1所述的方法,其特征在于,
所述输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息,并将关键字之间的不同逻辑关系在服务端的可视化界面上通过不同颜色来区分显示的步骤,还包括:
在服务端的可视化界面上通过点击操作完成切换关键字之间的逻辑关系。
3.根据权利要求1所述的方法,其特征在于,
所述服务端对检索到的新闻信息进行信息过滤的清洗操作的步骤,包括:
服务端根据预设的网站和预设类型的新闻信息,对检索到的新闻信息进行信息过滤的清洗操作;
服务端通过大数据处理引擎方式过滤检索到的垃圾新闻信息;及
服务端对检索到的新闻信息进行格式化操作,去掉无用的html信息。
4.根据权利要求3所述的方法,其特征在于,
所述服务端将清洗操作后的新闻信息写入搜索服务器的数据库的步骤,包括:
服务端将清洗操作后的新闻信息写入ElasticSearch数据库。
5.根据权利要求4所述的方法,其特征在于,
所述服务端通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示的步骤,包括:
服务端计算每条写入搜索服务器的数据库的新闻信息的simhash数值,根据得到的相同simhash数值的新闻条数来进行内容去重操作并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入ElasticSearch数据库,并将检索后的新闻信息通过高亮关键字的方式在服务端的可视化界面上进行显示。
6.一种基于互联网的新闻信息检索的控制装置,其特征在于,包括:
输入单元,用于输入需要检索的新闻信息的关键字信息和关键字之间的逻辑关系的信息;
显示单元,用于显示输入的信息和检索后的新闻信息,其中,所述关键字之间的不同逻辑关系通过不同颜色来区分显示,检索后的新闻信息通过高亮关键字的方式在进行显示;
转换单元,用于将设置的关键字信息和关键字之间的逻辑关系的信息转换成标准的逻辑关系表达式,并将转换后的逻辑关系表达式、设定的多个维度检索信息以及设置的需要检索的新闻信息的关键字信息转换为搜索服务器的数据库可识别的语法接口信息;
检索单元,用于检索新闻信息,并对检索到的新闻信息进行信息过滤的清洗操作,并将清洗操作后的新闻信息写入搜索服务器的数据库;通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库;及
数据库存储单元,用于存储信息。
7.根据权利要求6所述的装置,其特征在于,
所述输入单元还用于,在显示单元上通过点击操作完成切换关键字之间的逻辑关系。
8.根据权利要求6所述的装置,其特征在于,
所述检索单元对检索到的新闻信息进行信息过滤的清洗操作,是指:
检索单元根据预设的网站和预设类型的新闻信息,对检索到的新闻信息进行信息过滤的清洗操作;
检索单元通过大数据处理引擎方式过滤检索到的垃圾新闻信息;及
检索单元对检索到的新闻信息进行格式化操作,去掉无用的html信息。
9.根据权利要求8所述的装置,其特征在于,
所述检索单元将清洗操作后的新闻信息写入搜索服务器的数据库,是指:
所述检索单元将清洗操作后的新闻信息写入ElasticSearch数据库。
10.根据权利要求9所述的装置,其特征在于,
所述检索单元通过哈希算法方式对写入搜索服务器的数据库的新闻信息进行内容去重操作,并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入搜索服务器的数据库,是指:
检索单元计算每条写入搜索服务器的数据库的新闻信息的simhash数值,根据得到的相同simhash数值的新闻条数来进行内容去重操作并写入一面向文档的数据库后,将写入一面向文档的数据库中进行内容去重操作后的新闻信息写入ElasticSearch数据库。
CN201711408540.3A 2017-12-22 2017-12-22 一种基于互联网的新闻信息检索的控制方法及装置 Pending CN108255963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711408540.3A CN108255963A (zh) 2017-12-22 2017-12-22 一种基于互联网的新闻信息检索的控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711408540.3A CN108255963A (zh) 2017-12-22 2017-12-22 一种基于互联网的新闻信息检索的控制方法及装置

Publications (1)

Publication Number Publication Date
CN108255963A true CN108255963A (zh) 2018-07-06

Family

ID=62723916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711408540.3A Pending CN108255963A (zh) 2017-12-22 2017-12-22 一种基于互联网的新闻信息检索的控制方法及装置

Country Status (1)

Country Link
CN (1) CN108255963A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597938A (zh) * 2018-12-05 2019-04-09 北京投肯科技有限公司 区块链资讯的识别方法以及装置
CN110727663A (zh) * 2019-09-09 2020-01-24 光通天下网络科技股份有限公司 数据清洗方法、装置、设备及介质
CN111061755A (zh) * 2019-12-24 2020-04-24 嘉兴太美医疗科技有限公司 基于文献的药物警戒方法和系统
CN111859230A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于监控互联网信息的热点趋势的控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681222B2 (en) * 2001-07-16 2004-01-20 Quip Incorporated Unified database and text retrieval system
CN1904884A (zh) * 2005-07-29 2007-01-31 株式会社理光 用于异构媒体的图形化查询构建器及其方法
CN101211348A (zh) * 2006-12-25 2008-07-02 刘江海 一种在多项关键词相互之间建立搜索逻辑关系的办法
CN101290634A (zh) * 2008-06-03 2008-10-22 北京搜狗科技发展有限公司 一种识别重复缩略图的方法、装置及在搜索引擎中的应用
CN102156712A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力信息检索方法及系统
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681222B2 (en) * 2001-07-16 2004-01-20 Quip Incorporated Unified database and text retrieval system
CN1904884A (zh) * 2005-07-29 2007-01-31 株式会社理光 用于异构媒体的图形化查询构建器及其方法
CN101211348A (zh) * 2006-12-25 2008-07-02 刘江海 一种在多项关键词相互之间建立搜索逻辑关系的办法
CN101290634A (zh) * 2008-06-03 2008-10-22 北京搜狗科技发展有限公司 一种识别重复缩略图的方法、装置及在搜索引擎中的应用
CN102156712A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力信息检索方法及系统
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597938A (zh) * 2018-12-05 2019-04-09 北京投肯科技有限公司 区块链资讯的识别方法以及装置
CN111859230A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于监控互联网信息的热点趋势的控制方法
CN111859230B (zh) * 2019-04-30 2024-02-06 北京智慧星光信息技术有限公司 一种用于监控互联网信息的热点趋势的控制方法
CN110727663A (zh) * 2019-09-09 2020-01-24 光通天下网络科技股份有限公司 数据清洗方法、装置、设备及介质
CN111061755A (zh) * 2019-12-24 2020-04-24 嘉兴太美医疗科技有限公司 基于文献的药物警戒方法和系统

Similar Documents

Publication Publication Date Title
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US10713291B2 (en) Electronic document generation using data from disparate sources
US8719308B2 (en) Method and system to process unstructured data
CN104516910B (zh) 在客户端服务器环境中推荐内容
JP6646931B2 (ja) 推薦情報を提供するための方法および装置
US8843483B2 (en) Method and system for interactive search result filter
US9582486B2 (en) Apparatus and method for classifying and analyzing documents including text
CA2919878C (en) Refining search query results
CN107480158A (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
CN108255963A (zh) 一种基于互联网的新闻信息检索的控制方法及装置
CN105550241A (zh) 多维数据库查询方法及装置
DE202016008357U1 (de) Entdeckung einer verbundenen entität
US9633110B2 (en) Enrichment of data using a semantic auto-discovery of reference and visual data
CN104077415A (zh) 搜索方法及装置
US20150081690A1 (en) Network sourced enrichment and categorization of media content
CN105183916A (zh) 一种管理非结构化数据的装置和方法
CA2955672A1 (en) Database grid search methods and systems
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
Chen et al. An intelligent annotation-based image retrieval system based on RDF descriptions
WO2019056727A1 (zh) 机构名称检索式的显示方法、装置、设备及存储介质
CN104240107A (zh) 社群数据筛选系统及其方法
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN113761213B (zh) 一种基于知识图谱的数据查询系统、方法及终端设备
CN104156492A (zh) 搜索内容的提示方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706