CN101059815A - 网络文摘定制搜索引擎 - Google Patents

网络文摘定制搜索引擎 Download PDF

Info

Publication number
CN101059815A
CN101059815A CN 200710097796 CN200710097796A CN101059815A CN 101059815 A CN101059815 A CN 101059815A CN 200710097796 CN200710097796 CN 200710097796 CN 200710097796 A CN200710097796 A CN 200710097796A CN 101059815 A CN101059815 A CN 101059815A
Authority
CN
China
Prior art keywords
user
search
search engine
network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710097796
Other languages
English (en)
Inventor
宋鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 200710097796 priority Critical patent/CN101059815A/zh
Publication of CN101059815A publication Critical patent/CN101059815A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及一种基于网络空间定制后自动生成的搜索引擎服务平台系统和方法。本发明包括:网络平台用户可根据个性需求设置关键字和链主题目录,由系统自动、定时或实时逐层在互联网上浏览到用户所需最新信息;无论用户是否在线,系统都将已获取的特定信息自动存放到用户的自有网络空间内;系统支持用户可根据个人需求自行设置搜索时间和搜索频率。本发明使得新型的搜索引擎技术与用户间定向、定时、定位的需求统一为一体,它实现了“搜索引擎”技术的“网络文摘定制”方法。

Description

网络文摘定制搜索引擎
技术领域
本发明是涉及一种互联网通讯信息技术领域,特别是指网络文摘类的定制搜索引擎。
背景技术
对目前互联网上的信息搜索的技术,常见的有网络爬行、分词引索、搜索等技术。这些网络搜索信息只是面对互联网海量信息的积累。当我们采用现有搜索技术查询某个特定的确切信息时,用一个关键词即可搜索出来成千上万的链接网页结果。而在这些成千上万的搜索结果中不一定有用户所期望和关注的准确信息,用户也不可能有更多的时间去逐个翻看现有搜索技术所呈现出来的成千上万个网页链接结果。同时,当用户离线时,如果互联网上有出现用户所希望的最新信息,因用户不在线而没有发出搜索指令,用户就会失去及时阅读和保存该信息的时机。为此,现有的搜索技术和方法已经无法满足人们希望在海量信息中,要求准确、及时、方便的找出目标信息的愿望。于是个性化网络文摘定制搜索引擎的出现将带来信息搜索技术领域内的革命性变化。
发明内容
本发明的目的在于提出一种网络文摘类的定制搜索引擎技术和方法。
为了适应人们快节奏网络信息生活,满足人们在海量信息中希望得到准确、及时、方便、快速的找出目标信息的愿望。本发明提供了一个既满足人们希望在互联网上获取个性需求信息,又可以对所搜索出的成千上万的结果进行定时搜索、自动过滤和分类存储;同时还可以使用户在离线状态下,将用户自行设定和经常关注的最新信息即时保存到用户的网络自有空间内。使得用户不再为搜索不准确和必须查看成千上万个网页结果而烦恼,并解决了因用户离线失去及时获得网络上最新信息的难题。该系统提供了人性化,量身打造的网络文摘类服务平台。同时该系统还可以实现移动手机与电脑为一体的快速查阅方式;让用户及时和便捷地掌握所关注最新准确的网络信息。
本发明采用全新的算法能够精确匹配搜索是缩小搜索结果范围的有力工具。该系统平台为用户提供个性化的设置专业词语和关键字,之后由平台系统的搜索引擎功能自动地从互联网上搜索符合用户设置的专业词语和关键字的文摘信息,并将搜索到的文摘信息分类并存储到指定的个人空间库,供用户在线或离线时查阅。在系统平台的个人空间中,用户还可以根据需要设置和划分不同的信息存入各个子目录,系统平台会将搜索到的信息结果自动归类、定时和定向放置在个人空间中,供用户登录后阅读或离线整理。为防止用户在不在线的情况下错失所关注最新文摘信息,该平台的移动手机短信定制功能,可以查阅用户自己定制的搜索目标有无最新信息;并且也可以通过手机短信定制方式随时接收和阅读最新定制的网络文摘信息。
本发明的技术方案是:
一种适用与于个性化网络文摘类的定制搜索引擎技术和方法,其特征在于:全新的设计理念和程序算法精确定位用户需求的信息,采用实时或自动定时抽取和信息归类技术实现用户获取信息的及时性以及分类的自动化,同时还实现了搜索引擎和移动设备的绑定,成为移动手机用户登录互联网的入口,为用户打造准确、及时、方便的个性化网络文摘信息服务空间。
其流程主要分为:在线网络用户设定定制的资源→抓取网络资源建立资源库→系统自动归类到用户的个人空间。
首先,用户定制资源。用户在系统平台的个人空间内,根据个性需求选取或设定行业网站链接和关键词;选取或设定要求系统进行的搜索时间或搜索频率;选取或设定个人空间内的子目录名称和归类。
其次,系统对用户所设置行业和关键词建立搜索机制;按照用户设定的时间周期自动获取站点更新信息。系统采取一个能访问网络的爬虫器程序,依据URL之间的关联性自动爬行整个互联网,并对爬行过的网页进行抓取收集。当网页被收集回来后,采用索引分析程序进行网页信息的分析,依据一定的相关算法进行大量计算,创建倒排序的索引库。索引库建好后系统就可以通过提供的搜索界面提交关键词进行再搜索,然后依据特定的排序算法返回搜索结果。因此,搜索引擎并不是对互联网进行直接搜索,而是对已抓取网页索引库的搜索,这也是能快速返回搜索结果的原因,索引在其中扮演了最为重要的角色,索引算法的效率直接影响搜索引擎的效率,是评测搜索引擎是否高效的关键因素。
网页爬行器、索引器、查询器共同构成了搜索引擎的重要组成单元,针对像中文、韩文,英文等系统的特定语言,还需要分词器进行分词,一般情况下,分词器与索引器一起使用创建特定语言的索引库。
其三,无论用户是否在线,系统都将把获得资源进行分类定向放置到用户指定空间中去;
最后,用户通过登录自有空间以及采取手机短信定制的功能,时时查阅和整理自己定制的个性化网络文摘类搜索信息;
本发明的优点在于:
通过全新的程序算法判断哪些是用户个性需求的搜索结果信息,用定时或实时抽取的搜索引擎和新型的定向放置技术,无论用户是否在线,系统将搜索到信息自动归纳存储到系统用户的自有空间中,以供用户再次登陆自有空间时任意阅读和整理。该发明实现了为用户量身定制的个性化网络文摘服务机制,为用户提供了更加准确、及时和方便的网络信息检索服务。
附图说明
[图1]是本发明网络系统平台的搜索引擎过程流程在技术方案已进一步说明。
[图2]是本发明网络系统平台的技术模式如所示。
[图3]是本实用网络系统平台的业务功能事务处理流程。
[图4]是本实用网络系统平台的网络部署结构。
具体实施方式
第一步:本发明实施前期条件准备:
1.准备系统数据库:用户存储会员信息、资源分类信息、会员存档资料信息、收集的资源信息;
2.准备相应的操作系统:系统数据库与相应的操作系统相结合,不仅维护成本低,而且二者结合可提高系统的优越性;
3.准备本系统套件:实现互联网信息的爬行,下载的资源建立索引,构建索引库以及提供信息检索的功能;
4.准备防火墙和防毒系统:用于防止黑客攻击和病毒的侵犯;
5.选择合适的CDN缓存服务器供应商。
第二步:系统网络部署
本发明网络部署结构,结合附图[图4]对本发明的具体实施方式作进一步详细说明:
(01)系统从互联网上搜索的最新信息经过防火墙过滤把病毒和各种垃圾信息过虑掉,保存最新关注搜索信息到系统数据库中;
(02)主要是管理(01)防火墙的过滤功能的详细设置;
(03)索引服务器是对从互联网上搜索并经过(01)防火墙过滤的信息进行分词处理存入系统数据库中;
(04)数据库服务器是安装(05)系统信息索引数据库的服务器,用来保证系统能读取到搜索的最新信息;
(05)用于存放系统经过索引器处理的搜索信息数据的数据仓库;
(06)数据库服务器是安装(05)系统数据库的服务器,用来保证系统的正常运行;
(07)网站服务器是安装该搜索引擎系统网络服务系统的服务器;
(08)短信网关是该搜索引擎系统网络服务系统与短信服务提供商连续的接口;
(09)在线支付是网络服务平台会员缴纳会费时与银行管理系统联结传输数据的接口;
(010)主要是对CND外网缓存服务器进行过滤和防止网络病毒的入侵功能;
(011)对过滤和防止网络病毒防火墙的过滤功能管理合理管理;
(012)系统网络服务平台外网缓存服务器,外部机构访问网络缓存器就能访问到网络服务平台系统,其中网络服务平台外网缓存服务器必须和系统在(03)互联网搜索的信息保持同步。
第三步:系统搭建
本发明系统搭建业务功能,结合附图[图3]对的具体实施方式作进一步详细说明:
(101)注册会员用户登录服务平台系统平台对该登录用户进行判断是否为新用户;
(102)登录系统的会员用户输入或定制与搜索相关的关键字,保存到系统数据库中;
(103)网面爬行器从系统数据库中提取用户输入或定制的关键字信息资源在互联网上爬行大量网页进行搜索结果;
(104)网页爬行器搜索的结果信息通过控制器接口存放于信息库中;
(105)索引器(分词器)从信息库中读取搜索结果信息通过索引器分词处理后存放入索引库中;
(106)通过定向放置技术处理从索引库中读取的搜索结果信息经过分类存放入设置好的用户个人空间库网络文件夹中;
(107)显示定制的信息从个人空间库中提取搜索最新信息存入系统数据库中;
(108)会员用户登录系统查看存档数据或进入设置好的个人空间即可看到搜索结果信息,还可以通过手机短信定制功能及时查看到搜索的最新信息。

Claims (6)

1、一种基于网络空间定制后自动生成的搜索引擎服务平台系统,其特征在于:系统通过特殊程序算法实时或定时并特定抽取的搜索引擎方式,以及智能的定向放置技术实现特殊要求的网络文摘型的空间服务模式。
2、根据权利要求1所述的网络文摘定制搜索引擎服务平台系统,其特征在于:平台网络用户可根据个性需求设置关键字和链主题目录,当用户离线下网时系统将自动在互联网上逐层浏览并准确而不漏的抓取到用户设定的所需最新信息。
3、根据权利要求1所述的网络文摘定制搜索引擎服务平台系统,其特征在于:无论用户是否在线,系统平台都能将用户设定的需求信息自动抓取并自动分类放置到用户的自有网络空间内。
4、根据权利要求1所述的网络文摘定制搜索引擎服务平台系统,其特征在于:平台系统可支持超文本信息格式,DOC、PDF、EXCEL格式和超媒体的搜索方式。利用信息分类主题树形结构,以节点为基本单位建立节点间的超链方式将文本信息形成信息搜索方式,使用户从任一节点,不同角度,灵活、方便地设定需要浏览和查询搜索到的最新信息。
5、根据权利要求1所述的网络文摘定制搜索引擎服务平台系统,其特征在于:平台系统同时还支持自然语言和受控语言的检索方式。该系统可接受主题词、关键字或一段检索要求语言,并由系统对其进行分词处理和“分类主题词表”的主题词匹配,匹配者进行索引式检索,未匹配者进行关键字或短语的全文检索。
6、根据权利要求1所述的网络文摘定制搜索引擎服务平台系统,其特征在于:平台系统支持用户可根据个人需求自行设置搜索内容、搜索时间和搜索频率。同时具有无线网络移动手机短信定制通讯功能,用户可即时获得自有空间内的最新信息。
CN 200710097796 2007-05-09 2007-05-09 网络文摘定制搜索引擎 Pending CN101059815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710097796 CN101059815A (zh) 2007-05-09 2007-05-09 网络文摘定制搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710097796 CN101059815A (zh) 2007-05-09 2007-05-09 网络文摘定制搜索引擎

Publications (1)

Publication Number Publication Date
CN101059815A true CN101059815A (zh) 2007-10-24

Family

ID=38865918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710097796 Pending CN101059815A (zh) 2007-05-09 2007-05-09 网络文摘定制搜索引擎

Country Status (1)

Country Link
CN (1) CN101059815A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011000254A1 (zh) * 2009-06-30 2011-01-06 华为技术有限公司 一种搜索方法、装置和系统
CN102222078A (zh) * 2010-12-08 2011-10-19 常华 实时信息推送方法及设备
CN102841913A (zh) * 2011-05-18 2012-12-26 索尼公司 信息处理装置、信息处理方法和程序
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
CN103514168A (zh) * 2012-06-15 2014-01-15 富士通株式会社 数据处理方法和设备
CN106156105A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 电子邮件聚合分类方法和装置
TWI616761B (zh) * 2010-03-09 2018-03-01 Alibaba Group Holding Ltd Information matching method and system applied to e-commerce website
CN108897831A (zh) * 2018-06-22 2018-11-27 济源职业技术学院 一种计算机人工智能信息筛选系统
US10452662B2 (en) 2012-02-22 2019-10-22 Alibaba Group Holding Limited Determining search result rankings based on trust level values associated with sellers

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011000254A1 (zh) * 2009-06-30 2011-01-06 华为技术有限公司 一种搜索方法、装置和系统
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
TWI616761B (zh) * 2010-03-09 2018-03-01 Alibaba Group Holding Ltd Information matching method and system applied to e-commerce website
CN102222078A (zh) * 2010-12-08 2011-10-19 常华 实时信息推送方法及设备
CN102222078B (zh) * 2010-12-08 2013-10-09 常华 实时信息推送方法及设备
CN102841913A (zh) * 2011-05-18 2012-12-26 索尼公司 信息处理装置、信息处理方法和程序
CN102841913B (zh) * 2011-05-18 2017-03-01 索尼公司 信息处理装置、信息处理方法和程序
US10452662B2 (en) 2012-02-22 2019-10-22 Alibaba Group Holding Limited Determining search result rankings based on trust level values associated with sellers
CN103514168A (zh) * 2012-06-15 2014-01-15 富士通株式会社 数据处理方法和设备
CN106156105A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 电子邮件聚合分类方法和装置
CN108897831A (zh) * 2018-06-22 2018-11-27 济源职业技术学院 一种计算机人工智能信息筛选系统

Similar Documents

Publication Publication Date Title
CN101059815A (zh) 网络文摘定制搜索引擎
CN101369276B (zh) 一种Web浏览器缓存数据的取证方法
CN100541495C (zh) 一种个性化搜索引擎的搜索方法
KR101130108B1 (ko) 만년력 형태의 웹문서 트랩 검출 및 이를 이용한 검색 데이터베이스 구축 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US20120203734A1 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN104838413A (zh) 基于用户提交来调整内容递送
US20200175081A1 (en) Server, method and system for providing information search service by using sheaf of pages
CN102253939A (zh) 一种基于云计算技术的搜索方法及系统
CN110297961A (zh) 一种政策信息的快速采集与优化提取方法
EP1302868A2 (en) Document sorting method based on link relation
KR20030016037A (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
RU2339078C2 (ru) Назначение веб-страницам идентификаторов географических местоположений
CN105574162A (zh) 关键字自动超级链接的方法
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
KR20000054312A (ko) 맞춤 웹정보 구축 제공 방법
US20080301541A1 (en) Online internet navigation system and method
Klein et al. Evaluating methods to rediscover missing web pages from the web infrastructure
Dijk et al. NARCIS: The Gateway to Dutch Scientific Information. ELPUB 2006
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
Tamura et al. A method for language‐specific Web crawling and its evaluation
CN108255831B (zh) 一种用于为网站生成网站地图的方法及系统
CN101923548A (zh) 一种互联网信息搜索方法及一种搜索引擎
KR20030034265A (ko) 인터넷 게시판 통합 서비스 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication