CN103646034B - 一种基于内容可信的Web搜索引擎系统及搜索方法 - Google Patents
一种基于内容可信的Web搜索引擎系统及搜索方法 Download PDFInfo
- Publication number
- CN103646034B CN103646034B CN201310564892.3A CN201310564892A CN103646034B CN 103646034 B CN103646034 B CN 103646034B CN 201310564892 A CN201310564892 A CN 201310564892A CN 103646034 B CN103646034 B CN 103646034B
- Authority
- CN
- China
- Prior art keywords
- search
- content
- module
- query result
- credibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims description 33
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 abstract 1
- 238000013139 quantization Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于内容可信的Web搜索引擎系统及搜索方法,其特征在于它包括:Web用户接口模块;搜索请求处理模块;查询结果去重模块;内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;查询结果重排序模块;查询结果存储数据库,存储具有内容可信度的查询结果。本发明为基于内容可信的搜索引擎及搜索方法,不仅实现了web搜索网页的内容可信因素的量化和内容可信度的计算,还提供了基于可信度高低的Web搜索网页的重排序。与传统搜索引擎及搜索方法相比,本发明可以提供更为准确和更加可信的搜索结果。
Description
技术领域
本发明涉及网络通信处理领域,具体为一种基于内容可信的Web搜索引擎系统及搜索方法。
背景技术
随着信息技术和网络技术的不断发展,基于互联网的信息检索日益成为人们生活中的一部分,搜索引擎也成为其中不可或缺的工具。然而,基于传统搜索引擎和搜索方法检索到的Web信息来源广泛,内容丰富多样,但存在质量良莠不齐、表述不一,事实真假难辨等问题,使得基于传统搜索引擎和搜索方法检索到的Web信息难以保证其可信性。网页的过时、新闻的失真、垃圾广告、反动宣传等无处不在,并与正常的、可靠的信息资源鱼目混珠在一起。当前,为了从互联网上检索到用户期望的信息,用户必须通过人工的方式,判断从传统搜索引擎返回的海量Web信息中,哪些信息是可靠的或可信的。这种方法不仅耗时,而且,对大部分用户来讲,也很难判断搜索引擎返回Web信息的可信性。
虽然目前的研究者在搜索引擎返回Web信息的质量方面做了一些工作,但很少考虑Web信息的内容可信问题。目前的搜索引擎系统及搜索方法都不能实现基于内容可信的搜索。
发明内容
针对以上技术问题,本发明提供了一种基于内容可信的Web搜索引擎系统及搜索方法,可以实现web搜索网页的内容可信因素的量化、内容可信度的计算,以及基于内容可信判断的Web信息检索。
本发明包括:
一种基于内容可信的Web搜索引擎系统,包括:
(1) Web用户接口模块,接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低显示最终的搜索结果;
(2) 搜索请求处理模块,将Web用户的搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页;
(3) 查询结果去重模块,对上所述搜索引擎以及查询结果存储数据库返回的搜索结果进行去重处理;
(4) 内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;
(5) 查询结果重排序模块,将上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序;
(6) 查询结果存储数据库,存储具有内容可信度的查询结果。
一种基于内容可信的Web搜索引擎系统的搜索方法,通过以下技术方案实现:
(1)用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
(2)通过相应的接口,搜索请求处理模块将搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
(3)查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
(4)内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
(5)查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户。
进一步地,Web网页的内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
其中,
网页内容相关性的计算为:对任一用户搜索请求q,p为返回的某一Web网页,则p和q的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,表示q和T(p)重叠的个数;
网站权威性的计算方法参考文献“Judgment of information quality andcognitive authority in the web”中的计算方法;
网页外部链接数的计算为:对网页p在Google、Bing、百度、搜狗等搜索引擎中的外部链接数取平均值;
网页时间的计算为:用户查询的当前时间减去网页创建的时间;
网页点击率的计算为:对任一用户搜索请求q,p i 为返回的某一Web网页,则p i 的点击率计算如下,其中H i 表示p i 被用户点击的次数;
本发明为基于内容可信的Web搜索引擎系统及搜索方法,不仅对Web搜索网页实现了内容可信因素的量化和内容可信度的计算,还提供了基于可信度高低的Web搜索网页的重排序。与传统的搜索引擎及搜索方法相比,本发明可以提供更为准确和更加可信的搜索结果。
附图说明
图1是本发明实施例1的系统结构示意图。
图2是本发明实施例1的工作流程图。
具体实施方式
本发明可以通过技术方案具体实施,通过对下面的实施例可以对本发明进行进一步的描述,然而,本发明的范围并不限于下述实施例。
实施例1:如图1所示,本发明所述的Web搜索引擎系统各模块之间的连接关系如下:
(1) Web用户接口模块,与搜索请求处理模块和查询结果重排序模块相连接,负责接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低,将查询结果重排序模块的最终可信搜索结果显示给用户;
(2) 搜索请求处理模块,与Web用户接口模块、查询结果存储数据库和查询结果去重模块相连接,负责将Web用户接口模块传来的用户搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,同时将这些搜索结果传送给查询结果去重模块;
(3) 查询结果去重模块,与搜索请求处理模块和内容可信度计算模块相连接,负责将搜索请求处理模块传来的传统搜索结果进行去重处理,并将去重后的搜索结果传送给内容可信度计算模块;
(4) 内容可信度计算模块,与查询结果去重模块、查询结果存储数据库和查询结果重排序模块相连接,对查询结果去重模块传来的去重后的搜索结果,根据内容可信的5个因素进行内容可信度计算,并将带有内容可信度的搜索结果分发给查询结果存储数据库和查询结果重排序模块相;
(5) 查询结果重排序模块,与内容可信度计算模块和Web用户接口模块相连接,负责将内容可信度计算模块传来的具有内容可信度的搜索结果,根据可信度的高低,按照降序重新进行排序,并将排序后的搜索结果传送给Web用户接口模块;
(6) 查询结果存储数据库,与搜索请求处理模块和内容可信度计算模块相连接,接收搜索请求处理模块传来的搜索请求,并返回相应的搜索结果,同时存储经过处理后的具有内容可信度的搜索结果。
如图1所示,本发明的一种基于内容可信的Web搜索引擎系统的搜索方法的实施流程如下:
1 用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
2 通过相应的接口,搜索请求处理模块将搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
3 查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
4 内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
5 查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户。
如图2所示,本发明的搜索过程如下:
1 用户通过本发明提供的Web用户接口输入搜索关键字;
2 通过相应的API接口,本发明将该搜索关键字分发给Google等搜索引擎以及查询结果存储数据库;
3 本发明对Google等传统搜索引擎以及查询结果存储数据库返回的搜索结果,即搜索到的Web网页,进行去重处理;
4 本发明对去重后的每个web网页,根据本发明的方法依次计算其网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,然后根据公式:
计算web网页的内容可信度;
5 将具有内容可信度的web网页的相关信息存储到本发明的查询结果存储数据库中;
6 最后,本搜索引擎根据内容可信度的高低,按照降序,对查询结果重新进行排序,并通过Web用户接口模块显示给用户。
Claims (2)
1.一种基于内容可信的Web搜索引擎系统,其特征在于它包括:
(1)Web用户接口模块,接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低显示最终的搜索结果;
(2)搜索请求处理模块,将Web用户的搜索关键字分发给传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页;
(3)查询结果去重模块,对上所述搜索引擎以及查询结果存储数据库返回的搜索结果进行去重处理;
(4)内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;
(5)查询结果重排序模块,将上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序;
(6)查询结果存储数据库,存储具有内容可信度的查询结果;
各模块之间的连接关系如下:
(1)Web用户接口模块,与搜索请求处理模块和查询结果重排序模块相连接,负责接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低,将查询结果重排序模块的最终可信搜索结果显示给用户;
(2)搜索请求处理模块,与Web用户接口模块、查询结果存储数据库和查询结果去重模块相连接,负责将Web用户接口模块传来的用户搜索关键字分发给传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,同时将这些搜索结果传送给查询结果去重模块;
(3)查询结果去重模块,与搜索请求处理模块和内容可信度计算模块相连接,负责将搜索请求处理模块传来的传统搜索结果进行去重处理,并将去重后的搜索结果传送给内容可信度计算模块;
(4)内容可信度计算模块,与查询结果去重模块、查询结果存储数据库和查询结果重排序模块相连接,对查询结果去重模块传来的去重后的搜索结果,根据内容可信的5个因素进行内容可信度计算,并将带有内容可信度的搜索结果分发给查询结果存储数据库和查询结果重排序模块相;
(5)查询结果重排序模块,与内容可信度计算模块和Web用户接口模块相连接,负责将内容可信度计算模块传来的具有内容可信度的搜索结果,根据可信度的高低,按照降序重新进行排序,并将排序后的搜索结果传送给Web用户接口模块;
(6)查询结果存储数据库,与搜索请求处理模块和内容可信度计算模块相连接,接收搜索请求处理模块传来的搜索请求,并返回相应的搜索结果,同时存储经过处理后的具有内容可信度的搜索结果;
所述内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
其中,网页内容相关性的计算为:对任一搜索请求q,p为返回的某一Web网页,则p和q的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,N(q∧T(p))表示q和T(p)重叠的个数;
网页点击率的计算为:对任一用户搜索请求q,pi为返回的某一Web网页,则pi的点击率计算如下,其中Hi表示pi被用户点击的次数;
2.一种基于内容可信的Web搜索引擎系统的搜索方法,其特征在于:
(1)用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
(2)通过相应的接口,搜索请求处理模块将搜索关键字分发给传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
(3)查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
(4)内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
(5)查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户;
所述内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
其中,网页内容相关性的计算为:对任一搜索请求q,p为返回的某一Web网页,则p和q的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,N(q∧T(p))表示q和T(p)重叠的个数;
网页点击率的计算为:对任一用户搜索请求q,pi为返回的某一Web网页,则pi的点击率计算如下,其中Hi表示pi被用户点击的次数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310564892.3A CN103646034B (zh) | 2013-11-14 | 2013-11-14 | 一种基于内容可信的Web搜索引擎系统及搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310564892.3A CN103646034B (zh) | 2013-11-14 | 2013-11-14 | 一种基于内容可信的Web搜索引擎系统及搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103646034A CN103646034A (zh) | 2014-03-19 |
CN103646034B true CN103646034B (zh) | 2017-03-08 |
Family
ID=50251250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310564892.3A Active CN103646034B (zh) | 2013-11-14 | 2013-11-14 | 一种基于内容可信的Web搜索引擎系统及搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103646034B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126616B (zh) * | 2016-06-21 | 2020-01-10 | 东软集团股份有限公司 | 汇聚网络素材的方法和装置 |
CN110569335B (zh) * | 2018-03-23 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 基于人工智能的三元组校验方法、装置及存储介质 |
CN112199514B (zh) | 2020-11-12 | 2022-11-18 | 同济大学 | 一种基于知识图谱的搜索引擎可信搜索方法 |
CN116662631B (zh) * | 2023-04-23 | 2024-05-28 | 无锡览山信息科技有限公司 | 一种基于互联网的云运维管理平台多云纳管系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN102103598A (zh) * | 2009-12-21 | 2011-06-22 | 同济大学 | 一种基于内容信任的可信搜索方法 |
CN102193999A (zh) * | 2011-05-09 | 2011-09-21 | 北京百度网讯科技有限公司 | 一种对搜索结果进行排序的方法及设备 |
CN102880609A (zh) * | 2011-07-13 | 2013-01-16 | 北京百度网讯科技有限公司 | 一种用于提供与查询序列相对应的搜索结果的设备和方法 |
CN103294693A (zh) * | 2012-02-27 | 2013-09-11 | 华为技术有限公司 | 搜索方法、服务器及系统 |
-
2013
- 2013-11-14 CN CN201310564892.3A patent/CN103646034B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN102103598A (zh) * | 2009-12-21 | 2011-06-22 | 同济大学 | 一种基于内容信任的可信搜索方法 |
CN102193999A (zh) * | 2011-05-09 | 2011-09-21 | 北京百度网讯科技有限公司 | 一种对搜索结果进行排序的方法及设备 |
CN102880609A (zh) * | 2011-07-13 | 2013-01-16 | 北京百度网讯科技有限公司 | 一种用于提供与查询序列相对应的搜索结果的设备和方法 |
CN103294693A (zh) * | 2012-02-27 | 2013-09-11 | 华为技术有限公司 | 搜索方法、服务器及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103646034A (zh) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176124B2 (en) | Managing a search | |
JP6522136B2 (ja) | パーソナルコンテンツアイテム検索システム及び方法 | |
TWI463337B (zh) | 用於實施於跨多搜尋引擎之結盟搜尋之方法及系統 | |
US9613008B2 (en) | Dynamic aggregation and display of contextually relevant content | |
Shinzato et al. | Tsubaki: An open search engine infrastructure for developing information access methodology | |
US8745067B2 (en) | Presenting comments from various sources | |
US9305100B2 (en) | Object oriented data and metadata based search | |
US9740881B2 (en) | Defense against search engine tracking | |
US20090094210A1 (en) | Intelligently sorted search results | |
US20130013616A1 (en) | Systems and Methods for Natural Language Searching of Structured Data | |
US9563691B2 (en) | Providing search suggestions from user selected data sources for an input string | |
US10592841B2 (en) | Automatic clustering by topic and prioritizing online feed items | |
US20100011025A1 (en) | Transfer learning methods and apparatuses for establishing additive models for related-task ranking | |
US10095789B2 (en) | Method and system of searching composite web page elements and annotations presented by an annotating proxy server | |
US20100125781A1 (en) | Page generation by keyword | |
US20110072025A1 (en) | Ranking entity relations using external corpus | |
KR20160053933A (ko) | 스마트 검색 정제 기법 | |
US10127322B2 (en) | Efficient retrieval of fresh internet content | |
US11481454B2 (en) | Search engine results for low-frequency queries | |
CN103646034B (zh) | 一种基于内容可信的Web搜索引擎系统及搜索方法 | |
EP3485394A1 (en) | Contextual based image search results | |
US20140108090A1 (en) | Price mining system and method for mining the price | |
CN102737045B (zh) | 一种相关度计算方法和装置 | |
US20100332491A1 (en) | Method and system for utilizing user selection data to determine relevance of a web document for a search query | |
CN103902687B (zh) | 一种搜索结果的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180510 Address after: 215000 E-1804 388, Shui Shui Road, Suzhou Industrial Park, Jiangsu. Patentee after: Suzhou Wen Dao network Polytron Technologies Inc Address before: 344000 room 509, letter engineering building, information technology school, Donghua Polytechnic University, 56 Fu Fu Road, Fuzhou, Jiangxi. Patentee before: East China Institute of Technology |