CN105468729A - 一种互联网移动垂直搜索引擎 - Google Patents

一种互联网移动垂直搜索引擎 Download PDF

Info

Publication number
CN105468729A
CN105468729A CN201510814451.3A CN201510814451A CN105468729A CN 105468729 A CN105468729 A CN 105468729A CN 201510814451 A CN201510814451 A CN 201510814451A CN 105468729 A CN105468729 A CN 105468729A
Authority
CN
China
Prior art keywords
unit
search
page
search engine
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510814451.3A
Other languages
English (en)
Inventor
蔡斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dayue Network Vision Co Ltd
Original Assignee
Shenzhen Dayue Network Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dayue Network Vision Co Ltd filed Critical Shenzhen Dayue Network Vision Co Ltd
Priority to CN201510814451.3A priority Critical patent/CN105468729A/zh
Publication of CN105468729A publication Critical patent/CN105468729A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种互联网移动垂直搜索引擎,包括以下特征单元:定向信息抓取单元,网页数据库单元,索引库单元,搜索请求获取单元,排名计算单元,适于根据接收到的搜索关键词与所述索引库中预设关键词的匹配程度和根据所述网页数据库单元中所有与搜索请求关键词相关的页面的特征属性权重进行综合计算,获得关于该搜索请求的页面排行结果;搜索结果反馈单元,结果推送单元。本发明中搜索引擎以单一领域为对象进行优化的垂直搜索引擎。特别中国老人进入移动智能化时代,本发明中的互联网移动垂直搜索引擎可针对老人健康方面提供专一的垂直移动搜索,结果排名准确率高,对应性强,解决了老人的搜索需求。

Description

一种互联网移动垂直搜索引擎
技术领域
本发明涉及一种网络搜索引擎,具体涉及一种互联网移动垂直搜索引擎。
背景技术
互联网移动垂直搜索是以移动设备(以智能手机为代表)为终端进行对互联网信息的搜索。受制于电池、带宽、屏幕等客观因素,在搜索引擎的海量搜索结果中寻找目标结果的方式已不再适应移动用户需求,所以开发更加便捷更加省时的移动垂直搜索引擎就更加迫切。
移动搜索绝大部分是综合搜索(集中式检索),信息量大而且耗时,目前移动运营商是按流量收费,这就要求移动搜索引擎必须尽力为用户节省流量,传统检索效率通常很低。所以智能手机为代表的移动搜索需要更多垂直搜索引擎(垂直搜索指某领域特定的搜索引擎),以服务特定的人群。
发明内容
本发明要解决的技术问题是:提出一种针对移动设备结构特点优化搜索结果的搜索引擎。
本发明为解决上述技术问题提出的技术方案是:一种互联网移动垂直搜索引擎,包括以下特征单元:
定向信息抓取单元,适于在网络中抓取关于定向领域的网络资源页面;
网页数据库单元,适于存储抓取到的相关页面的特征属性;
索引库单元,适于存储预设关键词与所抓取到页面之间的索引关系;
搜索请求获取单元,适于接收用户的搜索请求并获得搜索关键词;
排名计算单元,适于从所述网页数据库单元中挑选出所有与搜索请求关键词相关的页面,根据所选页面在所述索引库中的预设关键词与所述搜索关键词之间的匹配程度,再结合所选页面的不同特征属性的权重值进行综合计算,获得关于该搜索请求的页面排行结果;
搜索结果反馈单元,适于将页面排行结果结合各页面形成可视化页面反馈给搜索用户;
结果推送单元,适于将该搜索请求的搜索结果同步推送给与此搜索用户相关联的关联用户。
进一步的,所述网页数据库单元中还包括网页提取子单元和网页分类子单元,所述网页提取子单元适于对所抓取到的相关页面进行结构化提取建立所述特征属性,所述网页分类子单元适于对所抓取到的相关页面按其内容进行分类并将其分类存放。
进一步的,所述索引库单元还包括预处理子单元,所述预处理子单元适于在所抓取到的相关页面中提取关键词的中文分词并消除噪音、进行正向索引和/或倒排索引的链接关系计算和处理特殊文件。
进一步的,所述相关页面的特征属性包括预设关键词在页面中出现的频率、页面的流量和跳出率。
进一步的,所述特殊文件包括PDF、Word、WPS、XLS、PPT、TXT文件。
本发明的有益效果是:
本发明中的互联网移动垂直搜索引擎以单一领域为对象进行优化的垂直搜索引擎。特别中国老人进入移动智能化时代,本发明中的互联网移动垂直搜索引擎可针对老人健康方面提供专一的垂直移动搜索,结果排名准确率高,对应性强,解决了老人的搜索需求。
附图说明
下面结合附图对本发明的互联网移动垂直搜索引擎作进一步说明。
图1是本发明中互联网移动垂直搜索引擎的结构框图。
具体实施方式
实施例
根据图1所示,本发明包括中的互联网移动垂直搜索引擎,包括以下单元:
定向信息抓取单元,适于在网络中抓取关于定向领域的网络资源页面。如对应定向于老人健康领域,那么通过过滤子单元对所抓回的页面进行过滤。
网页数据库单元,适于存储抓取到的相关页面的特征属性。特征属性包括如相关网页属于哪一具体领域(如心血管健康或糖尿病领域等等)、相关页面中预设关键词的出现频率、相关页面的流量和跳出率、域名权重、外链分数、内容质量分数等。
可作为优选的是:网页数据库单元中还包括网页提取子单元和网页分类子单元,网页提取子单元适于对所抓取到的相关页面进行结构化提取建立特征属性,网页分类子单元适于对所抓取到的相关页面按其内容进行分类并将其分类存放。
索引库单元,适于存储预设关键词与所抓取到页面之间的索引关系;可作为优选的是:索引库单元还包括预处理子单元,预处理子单元适于在所抓取到的相关页面中提取关键词的中文分词并消除噪音、进行正向索引和/或倒排索引的链接关系计算和处理特殊文件。其中特殊文件包括PDF、Word、WPS、XLS、PPT、TXT文件。
搜索请求获取单元,适于接收用户的搜索请求并获得搜索关键词。
排名计算单元,适于从所述网页数据库单元中挑选出所有与搜索请求关键词相关的页面,根据所选页面在所述索引库中的预设关键词与所述搜索关键词之间的匹配程度,再结合所选页面的不同特征属性的权重值进行综合计算,获得关于该搜索请求的页面排行结果。
具体在计算时:将某一网页的预设关键词和搜索关键词之间的匹配程度进行赋值,再将该网页的不同特征属性的权重值与预设系数结合后进行加减计算得出该网页的排名值,再将多个网页的排名值进行横向比较,最后获得响应该次搜索的具体页面排名结果。
搜索结果反馈单元,适于将页面排行结果结合各页面形成可视化页面反馈给搜索用户。
结果推送单元,适于将该搜索请求的搜索结果同步推送给与此搜索用户相关联的关联用户。其中关联用户是指用户的子女、监护人或其他利益相关人。
本发明的不局限于上述实施例,本发明的上述各个实施例的技术方案彼此可以交叉组合形成新的技术方案,另外凡采用等同替换形成的技术方案,均落在本发明要求的保护范围内。

Claims (5)

1.一种互联网移动垂直搜索引擎,包括以下特征单元:
定向信息抓取单元,适于在网络中抓取关于定向领域的网络资源页面;
网页数据库单元,适于存储抓取到的相关页面的特征属性;
索引库单元,适于存储预设关键词与所抓取到页面之间的索引关系;
搜索请求获取单元,适于接收用户的搜索请求并获得搜索关键词;
排名计算单元,适于从所述网页数据库单元中挑选出所有与搜索请求关键词相关的页面,根据所选页面在所述索引库中的预设关键词与所述搜索关键词之间的匹配程度,再结合所选页面的不同特征属性的权重值进行综合计算,获得关于该搜索请求的页面排行结果;
搜索结果反馈单元,适于将页面排行结果结合各页面形成可视化页面反馈给搜索用户;
结果推送单元,适于将该搜索请求的搜索结果同步推送给与此搜索用户相关联的关联用户。
2.根据权利要求1所述互联网移动垂直搜索引擎,其特征在于:所述网页数据库单元中还包括网页提取子单元和网页分类子单元,所述网页提取子单元适于对所抓取到的相关页面进行结构化提取建立所述特征属性,所述网页分类子单元适于对所抓取到的相关页面按其内容进行分类并将其分类存放。
3.根据权利要求1所述互联网移动垂直搜索引擎,其特征在于:所述索引库单元还包括预处理子单元,所述预处理子单元适于在所抓取到的相关页面中提取关键词的中文分词并消除噪音、进行正向索引和/或倒排索引的链接关系计算和处理特殊文件。
4.根据权利要求1所述互联网移动垂直搜索引擎,其特征在于:所述相关页面的特征属性包括预设关键词在页面中出现的频率、页面的流量和跳出率。
5.根据权利要求3所述互联网移动垂直搜索引擎,其特征在于:所述特殊文件包括PDF、Word、WPS、XLS、PPT、TXT文件。
CN201510814451.3A 2015-11-23 2015-11-23 一种互联网移动垂直搜索引擎 Pending CN105468729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510814451.3A CN105468729A (zh) 2015-11-23 2015-11-23 一种互联网移动垂直搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510814451.3A CN105468729A (zh) 2015-11-23 2015-11-23 一种互联网移动垂直搜索引擎

Publications (1)

Publication Number Publication Date
CN105468729A true CN105468729A (zh) 2016-04-06

Family

ID=55606430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510814451.3A Pending CN105468729A (zh) 2015-11-23 2015-11-23 一种互联网移动垂直搜索引擎

Country Status (1)

Country Link
CN (1) CN105468729A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250392A (zh) * 2016-07-15 2016-12-21 北京奇虎科技有限公司 数据排行的方法及装置
CN106407476A (zh) * 2016-11-16 2017-02-15 百度在线网络技术(北京)有限公司 页面加载方法和装置
CN107784123A (zh) * 2017-11-06 2018-03-09 北京中科智营科技发展有限公司 一种基于主题的搜索优化方法
CN108093013A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 一种网页数据计算方法及服务器
CN108804540A (zh) * 2018-05-08 2018-11-13 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889079A (zh) * 2006-07-27 2007-01-03 唐晨辉 用户协作搜索引擎
CN101089843A (zh) * 2006-06-15 2007-12-19 王刘忠 一种仅针对产品或服务供需信息的搜索方法
CN101566984A (zh) * 2008-07-11 2009-10-28 博采林电子科技(深圳)有限公司 一种应用在个人手持设备中的搜索引擎和资源搜索方法
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
CN101641697A (zh) * 2007-03-23 2010-02-03 微软公司 对网页的相关搜索查询及其应用
CN102053983A (zh) * 2009-11-02 2011-05-11 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置
CN102236663A (zh) * 2010-04-30 2011-11-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
CN102332025A (zh) * 2011-09-29 2012-01-25 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统
CN104063513A (zh) * 2011-09-29 2014-09-24 北京奇虎科技有限公司 一种智能垂直搜索方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089843A (zh) * 2006-06-15 2007-12-19 王刘忠 一种仅针对产品或服务供需信息的搜索方法
CN1889079A (zh) * 2006-07-27 2007-01-03 唐晨辉 用户协作搜索引擎
CN101641697A (zh) * 2007-03-23 2010-02-03 微软公司 对网页的相关搜索查询及其应用
CN101566984A (zh) * 2008-07-11 2009-10-28 博采林电子科技(深圳)有限公司 一种应用在个人手持设备中的搜索引擎和资源搜索方法
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
CN102053983A (zh) * 2009-11-02 2011-05-11 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置
CN102236663A (zh) * 2010-04-30 2011-11-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
CN102332025A (zh) * 2011-09-29 2012-01-25 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统
CN104063513A (zh) * 2011-09-29 2014-09-24 北京奇虎科技有限公司 一种智能垂直搜索方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250392A (zh) * 2016-07-15 2016-12-21 北京奇虎科技有限公司 数据排行的方法及装置
CN106407476A (zh) * 2016-11-16 2017-02-15 百度在线网络技术(北京)有限公司 页面加载方法和装置
CN108093013A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 一种网页数据计算方法及服务器
CN107784123A (zh) * 2017-11-06 2018-03-09 北京中科智营科技发展有限公司 一种基于主题的搜索优化方法
CN107784123B (zh) * 2017-11-06 2021-01-01 北京中科智营科技发展有限公司 一种基于主题的搜索优化方法
CN108804540A (zh) * 2018-05-08 2018-11-13 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN108804540B (zh) * 2018-05-08 2020-12-22 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法

Similar Documents

Publication Publication Date Title
CN105468729A (zh) 一种互联网移动垂直搜索引擎
KR102080362B1 (ko) 쿼리 확장
CN108304444B (zh) 信息查询方法及装置
CN103186574B (zh) 一种搜索结果的生成方法和装置
CN102402619A (zh) 一种搜索方法和装置
CN103778148B (zh) Hadoop分布式文件系统数据文件的生命周期管理方法和设备
CN101963965B (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN101000623A (zh) 通过手机拍照进行图像识别搜索的方法及采用该方法的装置
JP2009048380A5 (zh)
CN105243103A (zh) 一种基于内容的推送时间确定方法
CN104778208A (zh) 一种搜索引擎 seo 网站数据的优化抓取方法及系统
CN104050235A (zh) 基于集合选择的分布式信息检索方法
CN105721944A (zh) 智能电视的新闻资讯推荐方法
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN106294815B (zh) 一种url的聚类方法及装置
CN104423621A (zh) 拼音字符串处理方法和装置
CN103455593B (zh) 一种基于社交网络的服务竞争性实现系统及方法
CN104133868B (zh) 一种用于垂直爬虫数据分类整合的策略
CN103077250A (zh) 一种网页内容抓取方法及装置
CN101706790A (zh) 搜索引擎中包含web对象的聚类方法
CN104298780A (zh) 一种浏览器网页信息的预获取方法及系统
CN104281619A (zh) 搜索结果排序系统及方法
CN103020208B (zh) 一种与移动终端相适应的搜索方法及装置
CN103268347A (zh) 一种基于短信的移动互联网搜索系统及实现方法
CN108090186A (zh) 一种大数据平台上的电力数据去重方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160406