CN101923548A - 一种互联网信息搜索方法及一种搜索引擎 - Google Patents

一种互联网信息搜索方法及一种搜索引擎 Download PDF

Info

Publication number
CN101923548A
CN101923548A CN2009100872786A CN200910087278A CN101923548A CN 101923548 A CN101923548 A CN 101923548A CN 2009100872786 A CN2009100872786 A CN 2009100872786A CN 200910087278 A CN200910087278 A CN 200910087278A CN 101923548 A CN101923548 A CN 101923548A
Authority
CN
China
Prior art keywords
information
company
search
company information
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009100872786A
Other languages
English (en)
Inventor
李东亚
郭勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HUAZHI DAWEI TECHNOLOGY Co Ltd
Original Assignee
BEIJING HUAZHI DAWEI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HUAZHI DAWEI TECHNOLOGY Co Ltd filed Critical BEIJING HUAZHI DAWEI TECHNOLOGY Co Ltd
Priority to CN2009100872786A priority Critical patent/CN101923548A/zh
Publication of CN101923548A publication Critical patent/CN101923548A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种互联网信息搜索方法及一种搜索引擎,能够提高搜索准确率。所述方法包括:接收用户输入的查询信息;对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从预置的公司信息索引库中查找与该查询信息相匹配的结果;其中,所述公司信息索引库至少包括公司主页信息;将搜索结果返回并展示。当用户需要查询公司主页时,直接到该公司信息索引库中查询即可,因此极大地提高了搜索准确率。

Description

一种互联网信息搜索方法及一种搜索引擎
技术领域
本发明涉及网络技术领域,特别是涉及一种互联网信息搜索方法及一种搜索引擎。
背景技术
随着互联网的发展,越来越多的人开始通过计算机网络搜索引擎在互联网中定位自己需要的信息。常见的网络搜索引擎,例如Google.com,Yahoo.com都是通过网络爬虫获得Internet上的网页,然后由搜索引擎分析网页中的内容,确定并保存搜索条件和这些网页之间的索引关系。网络搜索用户向搜索引擎服务器提交搜索条件后,网络搜索引擎就根据事先分析的结果向网络搜索用户发送搜索结果,这个搜索结果包含和这个搜索条件相关的网页的URL(Unifom Resource Locator,统一资源定位符)集合的信息,这些URL集合一般是以链接的方式呈现给搜索用户。
随着互联网的极度膨胀,人们越来越依赖于各种搜索引擎查找信息。但是,它们的可信赖度到底有多大呢?根据专家的评测,目前主要的搜索引擎返回的相关结果的比率不足45%。例如,用户想搜索一家公司的主页以及有助于了解该公司的其他信息,但返回的搜索结果中,很大一部分是关于该公司招聘信息的网页URL,并没有其他有助于了解该公司的信息。甚至,返回的第一个搜索结果也不是该公司的主页链接,而是介绍该公司产品的网页链接。因此,要想获得一个比较全面、准确的搜索结果,就必须反复使用多个关键词进行搜索。
发明内容
本发明所要解决的技术问题是提供一种互联网信息搜索方法及一种搜索引擎,能够提高搜索准确率。
为了解决上述问题,本发明公开了一种互联网信息搜索方法,包括:
接收用户输入的查询信息;
对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从预置的公司信息索引库中查找与该查询信息相匹配的结果;其中,所述公司信息索引库至少包括公司主页信息;
将搜索结果返回并展示。
其中,如果所述查询信息为查询词,则根据预置的公司名称列表,判断该查询词是否为公司名称,如果是,则表明用户要查找公司信息。
其中,如果所述查询信息为英文网址,则对该英文网址进行分析,当该英文网址为域名信息时,表明用户要查找公司信息。
本发明还提供了一种互联网信息搜索方法,包括:
接收用户输入的查询信息;
对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则按照索引库中预置的索引分类,从公司信息索引分类中查找与该查询信息相匹配的结果;其中,所述公司信息索引分类中至少包括公司主页信息;
将搜索结果返回并展示。
其中,所述公司信息索引分类通过以下方式预置:对索引库中所有的网页地址进行解析,将解析结果为域名的网页判断为公司主页;然后将至少包括公司主页的地址归为一类并建立索引,成为公司信息索引分类。
本发明还提供了一种搜索引擎,包括:
公司信息索引库,用于建立至少包括公司主页信息的索引;
接收单元,用于接收用户输入的查询信息;
搜索单元,用于对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从所述公司信息索引库中查找与该查询信息相匹配的结果;
结果返回单元,用于将搜索结果返回并展示。
优选的,所述公司信息索引库还包括公司地址信息、公司评价信息、公司热点新闻信息。
本发明还提供了一种搜索引擎,包括:
索引库,用于分类建立信息索引,其中一类为至少包括公司主页信息的公司信息索引分类;
接收单元,用于接收用户输入的查询信息;
索引单元,用于对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从所述索引库中的公司信息索引分类中查找与该查询信息相匹配的结果;其中,所述公司信息索引分类中至少包括公司主页信息;
结果返回单元,用于将搜索结果返回并展示。
优选的,所述公司信息索引库还包括公司地址信息、公司评价信息、公司热点新闻信息。
与现有技术相比,本发明具有以下优点:
本发明根据用户的实际需求,将搜索引擎索引库中的公司主页信息单独建立一个公司信息索引库,或单独设为一个公司信息索引分类,当用户需要查询公司主页时,直接到该公司信息索引库或公司信息索引分类中查询即可,因此极大地提高了搜索准确率。
而且,公司信息索引库或公司信息索引分类中还可以包括其他有助于了解公司的信息,如公司的地址、对公司的评价、公司近期出现的热点新闻等信息。这些信息可以帮助用户快速了解一家公司的情况。
附图说明
图1是本发明实施例一所述一种互联网信息搜索方法的流程图;
图2是本发明实施例二所述一种互联网信息搜索方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
随着信息检索技术的飞速发展,文本信息检索技术进入了一个比较成熟的阶段,从最原始的关键字匹配到现在的基于上下文的分析、模式匹配、实例匹配以及应用统计策略进行分析等等,已经形成了一套比较完整的思路和完善的算法,并被广泛应用到了各类搜索引擎上。
搜索引擎系统为用户提供搜索网页的方法是:
首先网页收集器通过网络蜘蛛等网页抓取程序从互联网上抓取网页,把网页送入原始网页数据库,网页收集器从网页中提取URL交给搜集控制器判断,搜集控制器得到网页的URL,控制网络蜘蛛抓取其它网页,反复循环直到把所有的网页抓取完成。
然后,系统从原始网页数据库中得到文本信息,对单个网页进行预处理,送入“文本索引器”模块建立索引,形成索引数据库;同时进行链接信息提取,把链接信息送入链接分析模块建立网页评级,形成链接评级库,其中,链接信息包括锚文本、链接本身等信息。
用户通过提交查询请求给查询服务器,查询服务器在索引数据库中进行相关网页的查找,同时链接评级库把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过查询服务器按照相关度进行排序,并提取关键字的内容摘要,最后通过用户接口格式化查询显示内容并返回给用户。
本发明针对用户需要查找公司主页及了解公司相关信息的需求,对现有的搜索引擎系统进行了改进,将搜索引擎索引库中的公司主页以及有助于了解公司相关信息的网页归为一类,单独建立一个公司信息索引库,或者在搜索引擎索引库中单独建立一个公司信息索引分类。当用户需要查询公司主页时,直接到该公司信息索引库或公司信息索引分类中查询即可,因此极大地提高了搜索准确率。
其中,根据搜索引擎索引库建立公司信息索引库或公司信息索引分类的方法是:对搜索引擎索引库中所有的网页地址进行解析,将解析结果为域名的网页判断为公司主页;然后将公司主页归为一类并建立索引库或索引分类。例如,搜索引擎索引库中某些网页的地址为www.sohu.com/,www.lenovo.com.cn/,这些网址为域名,则相应的网页即为公司的主页。还例如,某网址为www.lenovo.com.cn/about/channel/,按照网址间的“/”进行分隔,虽然该网址包含域名www.lenovo.com.cn/,但是还包含其他信息about/channel/,这表示该网页不是主页。按照上述方法,就可以将搜索引擎索引库中的公司主页与其他网页加以区别,然后单独建立一个公司信息索引库或公司信息索引分类。
参照图1,是本发明实施例一所述一种互联网信息搜索方法的流程图。
S101,接收用户输入的查询信息;
其中,所述查询信息可以是查询词,如公司名称;也可以是英文网址,如某公司的网址。
S102,对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从预置的公司信息索引库中查找与该查询信息相匹配的结果;其中,所述公司信息索引库至少包括公司主页信息;
如果所述查询信息为查询词,则根据预置的公司名称列表,判断该查询词是否为公司名称,如果是,则表明用户要查找公司信息。然后,直接到所述公司信息索引库中进行搜索。如果不是,则到原始的索引库中查询。其中,所述公司名称列表中收集了公司信息索引库中的所有公司名称。所述查询词可以为公司全称,也可以是公司简称,总之查询词包含在某个公司名称中即可判断为用户需要查询公司信息。
如果所述查询信息为英文网址,则对该英文网址进行分析,当该英文网址为域名信息时,表明用户要查找公司信息。
S103,将搜索结果返回并展示。
优选的,所述公司信息索引库还可以包括其他有助于了解公司的信息,如公司的地址、对公司的评价、公司近期出现的热点新闻等信息。这些信息可以帮助用户快速了解一家公司的情况。
上述搜索方法可以提高搜索公司信息的准确率,当用户希望了解一个公司的情况时,搜索引擎从所述公司信息索引库中直接进行查询即可,这样就过滤掉了很多与该公司无关的信息,如招聘信息等,这些不是用户希望了解的信息。
参照图2,是本发明实施例二所述一种互联网信息搜索方法的流程图。
S201,接收用户输入的查询信息;
其中,所述查询信息可以是查询词,如公司名称;也可以是英文网址,如某公司的网址。
S202,对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则按照索引库中预置的索引分类,从公司信息索引分类中查找与该查询信息相匹配的结果;其中,所述公司信息索引分类中至少包括公司主页信息;
如果所述查询信息为查询词,则根据预置的公司名称列表,判断该查询词是否为公司名称,如果是,则表明用户要查找公司信息。然后,直接到所述公司信息索引库中进行搜索。如果不是,则到原始的索引库中查询。其中,所述公司名称列表中收集了公司信息索引分类中的所有公司名称。所述查询词可以为公司全称,也可以是公司简称,总之查询词包含在某个公司名称中即可判断为用户需要查询公司信息。
如果所述查询信息为英文网址,则对该英文网址进行分析,当该英文网址为域名信息时,表明用户要查找公司信息。
S203,将搜索结果返回并展示。
优选的,所述公司信息索引分类中还可以包括其他有助于了解公司的信息,如公司的地址、对公司的评价、公司近期出现的热点新闻等信息。这些信息可以帮助用户快速了解一家公司的情况。
基于上述方法的描述,本发明实施例还提供了一种搜索引擎,其结构如下:
公司信息索引库,用于建立至少包括公司主页信息的索引;
接收单元,用于接收用户输入的查询信息;
搜索单元,用于对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从所述公司信息索引库中查找与该查询信息相匹配的结果;
结果返回单元,用于将搜索结果返回并展示。
优选的,所述公司信息索引库还包括公司地址信息、公司评价信息、公司热点新闻信息。
本发明实施例还提供了另一种结构的搜索引擎,包括:
索引库,用于分类建立信息索引,其中一类为至少包括公司主页信息的公司信息索引分类;
接收单元,用于接收用户输入的查询信息;
索引单元,用于对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从所述索引库中的公司信息索引分类中查找与该查询信息相匹配的结果;其中,所述公司信息索引分类中至少包括公司主页信息;
结果返回单元,用于将搜索结果返回并展示。
优选的,所述公司信息索引库还包括公司地址信息、公司评价信息、公司热点新闻信息。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种互联网信息搜索方法及一种搜索引擎,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种互联网信息搜索方法,其特征在于,包括:
接收用户输入的查询信息;
对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从预置的公司信息索引库中查找与该查询信息相匹配的结果;其中,所述公司信息索引库至少包括公司主页信息;
将搜索结果返回并展示。
2.根据权利要求1所述的方法,其特征在于:
如果所述查询信息为查询词,则根据预置的公司名称列表,判断该查询词是否为公司名称,如果是,则表明用户要查找公司信息。
3.根据权利要求1所述的方法,其特征在于:
如果所述查询信息为英文网址,则对该英文网址进行分析,当该英文网址为域名信息时,表明用户要查找公司信息。
4.一种互联网信息搜索方法,其特征在于,包括:
接收用户输入的查询信息;
对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则按照索引库中预置的索引分类,从公司信息索引分类中查找与该查询信息相匹配的结果;其中,所述公司信息索引分类中至少包括公司主页信息;
将搜索结果返回并展示。
5.根据权利要求4所述的方法,其特征在于,所述公司信息索引分类通过以下方式预置:
对索引库中所有的网页地址进行解析,将解析结果为域名的网页判断为公司主页;然后将至少包括公司主页的地址归为一类并建立索引,成为公司信息索引分类。
6.一种搜索引擎,其特征在于,包括:
公司信息索引库,用于建立至少包括公司主页信息的索引;
接收单元,用于接收用户输入的查询信息;
搜索单元,用于对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从所述公司信息索引库中查找与该查询信息相匹配的结果;
结果返回单元,用于将搜索结果返回并展示。
7.根据权利要求6所述的搜索引擎,其特征在于:
所述公司信息索引库还包括公司地址信息、公司评价信息、公司热点新闻信息。
8.一种搜索引擎,其特征在于,包括:
索引库,用于分类建立信息索引,其中一类为至少包括公司主页信息的公司信息索引分类;
接收单元,用于接收用户输入的查询信息;
索引单元,用于对所述查询信息进行识别,判断用户是否要查找公司信息,如果是,则从所述索引库中的公司信息索引分类中查找与该查询信息相匹配的结果;其中,所述公司信息索引分类中至少包括公司主页信息;
结果返回单元,用于将搜索结果返回并展示。
9.根据权利要求8所述的搜索引擎,其特征在于:
所述公司信息索引库还包括公司地址信息、公司评价信息、公司热点新闻信息。
CN2009100872786A 2009-06-15 2009-06-15 一种互联网信息搜索方法及一种搜索引擎 Pending CN101923548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100872786A CN101923548A (zh) 2009-06-15 2009-06-15 一种互联网信息搜索方法及一种搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100872786A CN101923548A (zh) 2009-06-15 2009-06-15 一种互联网信息搜索方法及一种搜索引擎

Publications (1)

Publication Number Publication Date
CN101923548A true CN101923548A (zh) 2010-12-22

Family

ID=43338490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100872786A Pending CN101923548A (zh) 2009-06-15 2009-06-15 一种互联网信息搜索方法及一种搜索引擎

Country Status (1)

Country Link
CN (1) CN101923548A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779137A (zh) * 2011-05-13 2012-11-14 北京搜狗科技发展有限公司 针对网页的用户个性化反馈信息的处理方法和装置
CN106202555A (zh) * 2016-07-29 2016-12-07 苏州商信宝信息科技有限公司 一种基于搜索企业时的交易服务评价展现方法
CN107908684A (zh) * 2017-10-31 2018-04-13 北京金堤科技有限公司 企业信息搜索方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779137A (zh) * 2011-05-13 2012-11-14 北京搜狗科技发展有限公司 针对网页的用户个性化反馈信息的处理方法和装置
CN106202555A (zh) * 2016-07-29 2016-12-07 苏州商信宝信息科技有限公司 一种基于搜索企业时的交易服务评价展现方法
CN107908684A (zh) * 2017-10-31 2018-04-13 北京金堤科技有限公司 企业信息搜索方法及装置

Similar Documents

Publication Publication Date Title
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
CN101454748B (zh) 用于改进对网页的信息检索的系统和方法
CN102171689B (zh) 用于提供搜索结果的方法、系统
CN101320373B (zh) 网站支撑数据库安全搜索引擎系统
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
CN101399818A (zh) 基于导航路径信息的主题相关网页过滤方法和系统
CN100507918C (zh) 一种网络关键资源页面的自动定位方法
CN101178728A (zh) 一种网址导航的方法和系统
CN102737021B (zh) 搜索引擎及其实现方法
CN102722498A (zh) 搜索引擎及其实现方法
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
CN102663048A (zh) 一种搜索结果提供方法及装置
US20090187516A1 (en) Search summary result evaluation model methods and systems
CN102402589A (zh) 一种提供与搜索请求相关的参考搜索信息的方法与设备
CN101382954A (zh) 提供网址收藏名称的方法及系统
CN102722501A (zh) 搜索引擎及其实现方法
CN102722499A (zh) 搜索引擎及其实现方法
CN102375813A (zh) 搜索引擎排重系统及方法
CN102819384B (zh) 一种输入栏处进行提示显示的方法和装置
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN101676901A (zh) 搜索调度方法及搜索服务器
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
CN103020083A (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20101222