CN102043831A - 代理搜索引擎方法 - Google Patents

代理搜索引擎方法 Download PDF

Info

Publication number
CN102043831A
CN102043831A CN2010105507989A CN201010550798A CN102043831A CN 102043831 A CN102043831 A CN 102043831A CN 2010105507989 A CN2010105507989 A CN 2010105507989A CN 201010550798 A CN201010550798 A CN 201010550798A CN 102043831 A CN102043831 A CN 102043831A
Authority
CN
China
Prior art keywords
search
word string
engine
search engine
behalf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105507989A
Other languages
English (en)
Inventor
李梦怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN SHENGWANG TECHNOLOGY Co Ltd
Original Assignee
SICHUAN SHENGWANG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN SHENGWANG TECHNOLOGY Co Ltd filed Critical SICHUAN SHENGWANG TECHNOLOGY Co Ltd
Priority to CN2010105507989A priority Critical patent/CN102043831A/zh
Publication of CN102043831A publication Critical patent/CN102043831A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

代理搜索引擎方法,其步骤包括A、搜索问题描述字串输入,B、搜索问题描述字串分析,C、代理资源优选,D、搜索分发和驱动和E、搜索结果处理。本发明在用户搜索和数量繁多的专业的垂直搜索引擎群之间建立起新的代理搜索机制,为建立起一个统一的便于使用的基于垂直搜索技术的搜索平台提供了重要的技术途径。本代理搜索引擎方法有效避免了垂直搜索细分产品数量繁多选用困难的问题,并且保持了垂直搜索技术所贡献的搜索高精度和实时性。

Description

代理搜索引擎方法
一.技术领域
本发明公开一种新的互联网搜索引擎方法,特别是基于代理模式的搜索引擎方法。
二.背景技术
时下常见的互联网信息搜索方法有两种:①通过百度、谷歌这类综合搜索门户网站;②通过垂直搜索门户网站。这两种搜索引擎从技术而言是有很大差异的。百度、谷歌这类综合搜索门户采用水平搜索技术,而垂直搜索门户采用的是垂直搜索技术。
百度、谷歌等综合搜索引擎由于采用的是水平搜索技术,存在以下明显的不足:①网页更新慢:由于水平搜索技术需要将各种网页本地化,面对海量的网页,综合搜索引擎的网页本地化更新周期需要十几天到数十天之久,不能充分满足对实时性要求很高的商业类资讯搜索的要求;②搜索精度低:这是百度、谷歌等综合搜索引擎的致命短板,其结果是用户在使用综合搜索引擎时面对数以百万计而仅有少部分符合要求的答案茫然不知所措。
垂直搜索技术正是因为综合搜索引擎的不足而发展起来的。垂直搜索技术由于没有海量网页本地化要求,因此也不存在网页本地化更新周期的问题,理论上讲垂直搜索技术可以做到以秒为单位的信息更新。同时,垂直搜索技术深入网页精准抓取网页数据,搜索精度非常高,反馈给用户的结果皆是有用的答案,避免了用户在海量答案中进一步寻找的苦差。
由于网页中的信息与应用领域密切相关,垂直搜索技术在应用上便自然分化为与应用领域或行业密切相关的细分产品,例如:音乐搜索、图片搜索、博客搜索等。垂直搜索引擎这种行业细化分类有效解决了搜索精度问题。研究表明,每增加一个细化分类,就能使搜索精度得到成倍的提高。然而,市场分得越细,搜索引擎细分产品的数量也会越多。面对众多的垂直搜索引擎,用户搜索前并不清楚他的问题需要选择哪个搜索引擎去实现。指望用户记住这数百乃至上千个技术方法、技术水平、操作风格、服务特点各不相同的垂直搜索引擎是不现实的?对用户来说,要找到他所需要的垂直搜索引擎或许会比他在精度不足的综合搜索引擎上寻找结果更加麻烦。这就是垂直搜索虽然比水平搜索既快又精准,但人们仍然喜欢使用百度、谷歌这种精准度不高信息获得需要一系列网页浏览操作的综合搜索引擎完成搜索的内在原因。
三.发明内容
本发明的目的在于提供一种新的代理搜索引擎方法,该方法的核心是在用户和众多专业的垂直搜索引擎群之间建立代理机制。该方法的既保持搜索的高精度和实时性,又避免垂直搜索细分产品数量繁多选用困难的问题。
本发明代理搜索引擎方法包括以下步骤:
A、搜索问题描述字串输入。接收用户搜索问题描述字串的输入。
B、搜索问题描述字串分析。首先将搜索问题描述字串通过分词技术从词库中的标准词与搜索问题描述字串各分离词汇的匹配关系确定搜索问题描述字串的关键词集合,再从领域分类索引库找出这些关键词各自的领域特征,最后按照特定的规则和推理算法推断出搜索问题描述字串所对应的领域。
C、代理资源优选。根据前述搜索问题描述字串分析后所推断出的领域归属情况,从代理搜索资源库中过滤出符合领域特征的搜索引擎集合,并按照优选原则筛选出承担本次搜索任务的搜索引擎。
D、搜索分发和驱动。通过调用事先建好的代理搜索资源调用驱动方法库中相应的方法对优选的搜索引擎逐个实施搜索驱动,由这些搜索引擎各自独立完成实际的搜索动作。
E、搜索结果处理。从所驱动的各搜索引擎输出页面中抓取搜索答案并按输出需要进行必要的去重、格式化加工等处理,最后将搜索答案反馈给用户。
本发明的使用效果是:
本发明在用户搜索和数量繁多的专业的垂直搜索引擎群之间建立起新的代理搜索机制,该代理搜索机制有效避免了垂直搜索细分产品数量繁多选用困难的问题,并且保持了垂直搜索技术所贡献的搜索高精度和实时性。同时,代理搜索引擎和众多垂直搜索引擎之间相对独立,不受众多垂直搜索引擎各自的技术水平差异、技术深入演变情况、和数量急剧膨胀等条件的制约。对解决垂直搜索技术不能构建起像百度、谷歌那样统一的搜索平台的难题,改善目前垂直搜索引擎的应用现状,促进垂直搜索技术的进一步发展,为用户提供更加优越的搜索环境等方面都具有明显的积极意义。
四.附图说明
图1为本发明代理搜索引擎方法逻辑流程图。
五.具体实施方式
实施例1
本实施例说明本发明代理搜索引擎方法中搜索问题描述字串分析所使用的领域分类索引库的技术特征。在本实施例中,领域分类索引库是基于语义分类方法实现词库中所有标准词的领域归属特征的刻画和索引。
实施例2
本实施例说明本发明代理搜索引擎方法中搜索问题描述字串分析所采用的特定的规则和推理算法。在本实施例中,特定的规则采用的是语义规则,特定的推理算法采用的是语义推理算法。
实施例3
本实施例说明本发明代理搜索引擎方法中筛选承担搜索的搜索引擎所采用的优选原则。在本实施例中,优选原则包括使用一个代理搜索资源优化参数库和一个优化分发算法库。代理搜索资源优化参数库包括各种搜索引擎的领域特征、在同类搜索引擎中的权重比较评价值等参数。优化分发算法库与代理搜索资源优化参数库配套的相关优化计算方法。
实施例4
本实施例说明本发明代理搜索引擎方法中代理搜索资源调用驱动方法库的主要内容。本实施例中,代理搜索资源调用驱动方法库主要包括激活并驱动各搜索引擎的网页地址、嵌入模拟搜索问题描述字串的网页搜索问题描述字串输入框入口描述、搜索按钮模拟激活方法,以及该搜索引擎所特别需要的用户名称和密码等参数。

Claims (1)

1.代理搜索引擎方法,其特征在于包括以下步骤:
A、搜索问题描述字串输入。接收用户搜索问题描述字串的输入。
B、搜索问题描述字串分析。首先将搜索问题描述字串通过分词技术从词库中的标准词与搜索问题描述字串各分离词汇的匹配关系确定搜索问题描述字串的关键词集合,再从领域分类索引库找出这些关键词各自的领域特征,最后按照特定的规则和推理算法推断出搜索问题描述字串所对应的领域。
C、代理资源优选。根据前述搜索问题描述字串分析后所推断出的领域归属情况,从代理搜索资源库中过滤出符合领域特征的搜索引擎集合,并按照优选原则筛选出承担本次搜索任务的搜索引擎。
D、搜索分发和驱动。通过调用事先建好的代理搜索资源调用驱动方法库中相应的方法对优选的搜索引擎逐个实施搜索驱动,由这些搜索引擎各自独立完成实际的搜索动作。
E、搜索结果处理。从所驱动的各搜索引擎输出页面中抓取搜索答案并按输出需要进行必要的去重、格式化加工等处理,最后将搜索答案反馈给用户。
CN2010105507989A 2010-11-19 2010-11-19 代理搜索引擎方法 Pending CN102043831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105507989A CN102043831A (zh) 2010-11-19 2010-11-19 代理搜索引擎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105507989A CN102043831A (zh) 2010-11-19 2010-11-19 代理搜索引擎方法

Publications (1)

Publication Number Publication Date
CN102043831A true CN102043831A (zh) 2011-05-04

Family

ID=43909969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105507989A Pending CN102043831A (zh) 2010-11-19 2010-11-19 代理搜索引擎方法

Country Status (1)

Country Link
CN (1) CN102043831A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332025A (zh) * 2011-09-29 2012-01-25 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统
CN102521762A (zh) * 2011-12-02 2012-06-27 苏州慧飞信息科技有限公司 一种客户信息采集系统
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN102651022A (zh) * 2012-03-31 2012-08-29 奇智软件(北京)有限公司 一种搜索方法和装置
CN103810204A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 一种信息查找的方法及装置
CN104239586A (zh) * 2014-10-16 2014-12-24 北京奇虎科技有限公司 一种处理信息物料文件的方法和装置
CN104268175A (zh) * 2014-09-15 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索的装置及其方法
CN105808740A (zh) * 2016-03-11 2016-07-27 程书京 信息搜索方法及信息搜索装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332025B (zh) * 2011-09-29 2014-08-27 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统
CN102332025A (zh) * 2011-09-29 2012-01-25 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统
CN102521762A (zh) * 2011-12-02 2012-06-27 苏州慧飞信息科技有限公司 一种客户信息采集系统
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN102651022B (zh) * 2012-03-31 2017-05-10 北京奇虎科技有限公司 一种搜索方法和装置
CN102651022A (zh) * 2012-03-31 2012-08-29 奇智软件(北京)有限公司 一种搜索方法和装置
CN103810204A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 一种信息查找的方法及装置
CN103810204B (zh) * 2012-11-13 2019-02-05 腾讯科技(深圳)有限公司 一种信息查找的方法及装置
CN104268175A (zh) * 2014-09-15 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索的装置及其方法
CN104268175B (zh) * 2014-09-15 2017-12-08 乐视网信息技术(北京)股份有限公司 一种数据搜索的装置及其方法
CN104239586A (zh) * 2014-10-16 2014-12-24 北京奇虎科技有限公司 一种处理信息物料文件的方法和装置
CN104239586B (zh) * 2014-10-16 2018-10-09 北京奇虎科技有限公司 一种处理信息物料文件的方法和装置
CN105808740A (zh) * 2016-03-11 2016-07-27 程书京 信息搜索方法及信息搜索装置

Similar Documents

Publication Publication Date Title
CN102043831A (zh) 代理搜索引擎方法
US11423082B2 (en) Methods and apparatus for subgraph matching in big data analysis
US10546006B2 (en) Method and system for hybrid information query
US8473473B2 (en) Object oriented data and metadata based search
US8782051B2 (en) System and method for text categorization based on ontologies
CN108846029B (zh) 基于知识图谱的情报关联分析方法
US11061974B2 (en) Facilitating discovery of information items using dynamic knowledge graph
Sheth Semantic Services, Interoperability and Web Applications: Emerging Concepts: Emerging Concepts
RU2670494C2 (ru) Способ обработки поискового запроса, сервер и машиночитаемый носитель для его осуществления
US9946799B2 (en) Federated search page construction based on machine learning
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
Feng et al. Patent text mining and informetric-based patent technology morphological analysis: an empirical study
CN106919682A (zh) 一种基于redis技术的搜索联想词实现方法
Ammar Query optimization techniques in graph Databases
US10127322B2 (en) Efficient retrieval of fresh internet content
Babu et al. Concept networks for personalized web search using genetic algorithm
Tarasova Classification of hate tweets and their reasons using svm
EP4002152A1 (en) Data tagging and synchronisation system
WO2021221828A1 (en) Assessing similarity between items using embeddings produced using a distributed training framework
WO2016013175A1 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
KR20100068964A (ko) 연관 질의어 추천 장치 및 방법
WO2015047075A1 (en) A system and method for ranking recommendations
Raj Automated service recommendation with preference awareness: An application of colaborative filtering approach in big data analytics
CN105159899A (zh) 一种搜索的方法和装置
JP6448006B2 (ja) 文書及び/又は検索クエリの関連性を変更する方法、コンピュータ・プログラム及びシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Sichuan Shengwang Technology Co., Ltd.

Document name: Notification of before Expiration of Request of Examination as to Substance

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110504