CN111241390A - 一种元搜索引擎的检索方法 - Google Patents
一种元搜索引擎的检索方法 Download PDFInfo
- Publication number
- CN111241390A CN111241390A CN201911417352.6A CN201911417352A CN111241390A CN 111241390 A CN111241390 A CN 111241390A CN 201911417352 A CN201911417352 A CN 201911417352A CN 111241390 A CN111241390 A CN 111241390A
- Authority
- CN
- China
- Prior art keywords
- search engine
- search
- keywords
- meta
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
发明名称一种元搜索引擎的检索方法摘要本发明公开了一种元搜索引擎的检索方法,实现步骤如下:建立关键词和相关词的检索表;用户在元搜索引擎搜索关键词;元搜索在检索表搜索关键词,找到相关词;在独立搜索引擎搜索关键词和关键词+相关词内容;合并来自各独立搜索引擎的结果,并排序去重;展示搜索结果。本发明所述方法可以提高元搜索引擎的准确性,将独立搜索引擎中重要但排序靠后的结果提前显示。
Description
技术领域
本发明属于信息处理技术领域,更进一步涉及互联网信息检索技术领域中的元搜索引擎的检索方法。
背景技术
元搜索引擎(metasearchengine)是一种调用其他独立搜索引擎的引擎。“元”(meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。与独立搜索引擎相比,元搜索引擎不需要维护庞大的索引数据库,也不需要网络爬虫去采集网页。具体说来,元搜索引擎主要由三部分组成:请求提交代理、检索接口代理、结果显示代理。
由于元搜索引擎的结果来自独立搜索引擎,在独立搜索引擎结果质量下降时元搜索引擎的质量也会随之下降,独立搜索引擎在运营过程中,会将热点信息、营销信息、竞价信息的排位提前,而真实的、官方信息的排位下降,元搜索引擎只能根据独立搜索引擎的结果进行投票,难以分辨信息的真实合理性。
河海大学申请的专利“基于可拒绝策略的元搜索结果排序算法”(专利申请号:CN201410382660.0,公布号CN104268142A)中公开了一种基于可拒绝策略的元搜索结果排序算法。该算法针对用户输入检索请求,按照用户所选择的独立搜索引擎进行分发。通过返回文档的标题与摘要信息对检索结果计算相关度,并依照改进的Borda方法进行排序后呈现给用户;根据用户对所返回结果的点击情况调整独立搜索引擎权重大小,直至拒绝调用某个独立搜索引擎,对用户偏好模型进行优化。该方法存在的不足之处是:用户只能人工选择搜索引擎,元搜索引擎无法对搜索引擎内结果进行分析排序。
西安电子科技大学的专利“个性化元搜索引擎检索结果合成排序方法”(专利申请号:201610273518.1,公开号CN201610273518)中公开了一种个性化元搜索引擎检索结果合成排序方法法,实现步骤如下,(1)建立用户系统兴趣;(2)搜索引擎检索文档;(3)合并独立搜索引擎结果文档;(4)划分结果文档兴趣类别;(5)获得个性化排序权值;(6)展示检索结果;(7)更新用户系统兴趣。本发明所述方法同时考虑独立搜索引擎的数量、独立搜索引擎结果总数、相同结果文档数、结果文档在各独立搜索引擎中的位置信息,并结合不同个性化程度用户兴趣对结果排序的影响,实现元搜索引擎更准确、更高效的用户个性化检索体验。该方法存在的不足之处是:只能依照用户的习惯提供用户容易看到的内容,而不是找到应该提供给用户的内容。
本发明的目的在于克服上述已有技术的不足,提出一种元搜索引擎的检索方法。本发明通过在检索独立搜索引擎结果时追加相关词,将官方信息和真实信息的排序提前,来改善搜索质量,使搜索结果更符合社会主义核心价值观的要求。
发明内容
为实现以上目的,本发明的具体步骤包括如下:
步骤1建立关键词和相关词的检索表;
步骤2用户在元搜索引擎搜索关键词;
步骤3元搜索在检索表搜索关键词,找到相关词;
步骤4在独立搜索引擎搜索关键词和关键词+相关词内容;
步骤5合并来自各独立搜索引擎的结果,并排序去重;
步骤6展示搜索结果。
更进一步的,步骤1的关键词和相关词检索表中,包括关键词、相关词、适用搜索引擎;
关键词用于检索用户提供的搜索内容,包含通配符;
相关词是元搜索引擎向独立搜索引擎搜索关键字时提供的附带内容;
适用搜索引擎是使用该相关词的搜索引擎,可以为一个、多个或全部搜索引擎。
元搜索通过自动或者手动方式向检索表中添加内容,内容可以来自新闻报道、政府通报等。
更进一步的,所述的相关词,可以是搜索引擎的算法语句。
本发明与现有的技术相比具有以下优点:
通过相关词,元搜索引擎能在独立搜索引擎的基础上提供更准确的结果,将原始排序靠后的内容提前优先显示,提升官方信息、官方网站、非营销内容的权重,使搜索结果更符合社会主义核心价值观的要求。
附图说明
图1是本发明的流程图。
图2是关键词和相关词的检索表的示意。
具体实施方式
为了更清楚地说明本发明实施例和技术方案,下面将结合附图及实施例对本发明的技术方案进行更详细的说明,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图1对本发明的步骤作进一步的详细描述。
步骤1建立关键词和相关词的检索表。
该检索表通过手工自动方式生成,包括关键字、相关词、适用搜索引擎。
关键词用于检索用户提供的搜索内容,包含通配符。
相关词是元搜索引擎向独立搜索引擎搜索关键字时提供的附带内容。
适用搜索引擎是使用该相关词的搜索引擎,可以为一个、多个或全部搜索引擎。
如,根据曝光的山寨大学和教育部的官方高校列表,生成如图二的检索表:
该检索表的含义是搜索高校列表关键词的相关词是对所有搜索引擎适用的“教育部”和对百度搜索适用的“site:(moe.gov.cn)”。
搜索以大学结尾的关键词时,也会触发对所有搜索引擎适用的“教育部”和对百度搜索适用的“site:(moe.gov.cn)”相关词。
步骤2用户在元搜索引擎搜索关键词“中国邮电大学”。
步骤3元搜索首先会在检索表的关键词中搜索“中国邮电大学”。
找到符合的检索项“*大学,site:(moe.gov.cn),baidu” 和“*大学,教育部,*”。
该检索项的含义是增加所有搜索引擎带有教育部+关键词内容和增加百度查找site:(moe.gov.cn)+关键字内容。
步骤4根据检索项,向所有搜索引擎提交“中国邮电大学”和“中国邮电大学 教育部”的搜索请求,并向百度提交“中国邮电大学 site:(moe.gov.cn)”的请求。
步骤5合并来自各独立搜索引擎的结果,并排序去重。
对搜索结果采用波达计数排序,来自教育部和包含教育部的内容会因为额外搜索得到加权,可以得到优先排序。
步骤6展示搜索结果。
来自教育部和包含教育部的内容会排在其他结果之前,避免错误结果给用户带来的误导。
再次说明,以上所述均为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构及等效流程变化,例如各实施例之间的技术特征的相互结合,或直接或间接运用在其他相关的技术领域,均同理包含在本发明的专利保护范围内。
Claims (3)
1.一种元搜索引擎的检索方法,包括以下步骤:
步骤1建立关键词和相关词的检索表;
步骤2用户在元搜索引擎搜索关键词;
步骤3元搜索在检索表搜索关键词,找到相关词;
步骤4在独立搜索引擎搜索关键词和关键词+相关词内容;
步骤5合并来自各独立搜索引擎的结果,并排序去重;
步骤6展示搜索结果。
2.根据权利要求1所述的元搜索引擎的检索方法,其特征在于:
步骤1的关键词和相关词检索表中,包括关键词、相关词、适用搜索引擎;
关键词用于检索用户提供的搜索内容,包含通配符;
相关词是元搜索引擎向独立搜索引擎搜索关键字时提供的附带内容;
适用搜索引擎是使用该相关词的搜索引擎,可以为一个、多个或全部搜索引擎。
3.根据权利要求1所述的元搜索引擎的检索方法,其特征在于所述的相关词,可以是搜索引擎的算法语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417352.6A CN111241390A (zh) | 2019-12-31 | 2019-12-31 | 一种元搜索引擎的检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417352.6A CN111241390A (zh) | 2019-12-31 | 2019-12-31 | 一种元搜索引擎的检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111241390A true CN111241390A (zh) | 2020-06-05 |
Family
ID=70879704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911417352.6A Pending CN111241390A (zh) | 2019-12-31 | 2019-12-31 | 一种元搜索引擎的检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241390A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201838A (zh) * | 2007-08-21 | 2008-06-18 | 新百丽鞋业(深圳)有限公司 | 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法 |
CN104268142A (zh) * | 2014-08-05 | 2015-01-07 | 河海大学 | 基于可拒绝策略的元搜索结果排序算法 |
WO2015180775A1 (en) * | 2014-05-28 | 2015-12-03 | GoEuro Corp. | Smart cache for travel search computer system hosting a travel meta-search engine |
CN105808740A (zh) * | 2016-03-11 | 2016-07-27 | 程书京 | 信息搜索方法及信息搜索装置 |
CN106202313A (zh) * | 2016-07-01 | 2016-12-07 | 西安电子科技大学 | 面向学术元搜索的检索结果合成排序方法 |
CN110163688A (zh) * | 2019-05-30 | 2019-08-23 | 复旦大学 | 商品网络舆情检测系统 |
KR20190118905A (ko) * | 2018-04-11 | 2019-10-21 | 지피엠 주식회사 | 쇼핑 정보 제공 시스템 및 방법 |
-
2019
- 2019-12-31 CN CN201911417352.6A patent/CN111241390A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201838A (zh) * | 2007-08-21 | 2008-06-18 | 新百丽鞋业(深圳)有限公司 | 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法 |
WO2015180775A1 (en) * | 2014-05-28 | 2015-12-03 | GoEuro Corp. | Smart cache for travel search computer system hosting a travel meta-search engine |
CN104268142A (zh) * | 2014-08-05 | 2015-01-07 | 河海大学 | 基于可拒绝策略的元搜索结果排序算法 |
CN105808740A (zh) * | 2016-03-11 | 2016-07-27 | 程书京 | 信息搜索方法及信息搜索装置 |
CN106202313A (zh) * | 2016-07-01 | 2016-12-07 | 西安电子科技大学 | 面向学术元搜索的检索结果合成排序方法 |
KR20190118905A (ko) * | 2018-04-11 | 2019-10-21 | 지피엠 주식회사 | 쇼핑 정보 제공 시스템 및 방법 |
CN110163688A (zh) * | 2019-05-30 | 2019-08-23 | 复旦大学 | 商品网络舆情检测系统 |
Non-Patent Citations (1)
Title |
---|
刘伟成 等: "《数字信息资源检索》", 28 February 2018 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11354356B1 (en) | Video segments for a video related to a task | |
US10963522B2 (en) | Systems for and methods of finding relevant documents by analyzing tags | |
US9811566B1 (en) | Modifying search result ranking based on implicit user feedback | |
US8738596B1 (en) | Refining search results | |
US8498984B1 (en) | Categorization of search results | |
US7707208B2 (en) | Identifying sight for a location | |
CN101819578B (zh) | 检索方法、索引建立方法和装置及检索系统 | |
US9092510B1 (en) | Modifying search result ranking based on a temporal element of user feedback | |
US8423541B1 (en) | Using saved search results for quality feedback | |
US20140280113A1 (en) | Context based systems and methods for presenting media file annotation recommendations | |
US20080005101A1 (en) | Method and apparatus for determining the significance and relevance of a web page, or a portion thereof | |
US20050065959A1 (en) | Systems and methods for clustering search results | |
US20080086686A1 (en) | User interface for displaying images of sights | |
US20140108445A1 (en) | System and Method for Personalizing Query Suggestions Based on User Interest Profile | |
US20100228714A1 (en) | Analysing search results in a data retrieval system | |
AU2005209586A1 (en) | Systems, methods, and interfaces for providing personalized search and information access | |
KR20120030389A (ko) | 검색 결과 통합 | |
CN103235796B (zh) | 一种基于用户点击行为的搜索方法及系统 | |
CN111522905A (zh) | 一种基于数据库的文档搜索方法和装置 | |
Behnert et al. | Ranking search results in library information systems—Considering ranking approaches adapted from web search engines | |
CN102214183A (zh) | 按页面反馈内容与固定排名相结合的搜索引擎查询方法 | |
CN110569273A (zh) | 一种基于相关性排序的专利检索系统及方法 | |
Jepsen et al. | Characteristics of scientific Web publications: Preliminary data gathering and analysis | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
CN111782956A (zh) | 一种基于用户行为和关键词分类的搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210616 Address after: 100176 505-4c, 5th floor, building 6, yard 10, KEGU 1st Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing Applicant after: BEIJING SHENGXIN NETWORK TECHNOLOGY Co.,Ltd. Address before: 100029 426-3, 4th floor, building 6 (North), No.1 Shuangqing Road, Haidian District, Beijing Applicant before: SHANGJIA NETWORK TECHNOLOGY (BEIJING) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |
|
RJ01 | Rejection of invention patent application after publication |