CN103646034B - 一种基于内容可信的Web搜索引擎系统及搜索方法 - Google Patents

一种基于内容可信的Web搜索引擎系统及搜索方法 Download PDF

Info

Publication number
CN103646034B
CN103646034B CN201310564892.3A CN201310564892A CN103646034B CN 103646034 B CN103646034 B CN 103646034B CN 201310564892 A CN201310564892 A CN 201310564892A CN 103646034 B CN103646034 B CN 103646034B
Authority
CN
China
Prior art keywords
search
content
module
query result
credibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310564892.3A
Other languages
English (en)
Other versions
CN103646034A (zh
Inventor
徐洪珍
许杰云
于臻
汤彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wen Dao Network Polytron Technologies Inc
Original Assignee
East China Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Institute of Technology filed Critical East China Institute of Technology
Priority to CN201310564892.3A priority Critical patent/CN103646034B/zh
Publication of CN103646034A publication Critical patent/CN103646034A/zh
Application granted granted Critical
Publication of CN103646034B publication Critical patent/CN103646034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于内容可信的Web搜索引擎系统及搜索方法,其特征在于它包括:Web用户接口模块;搜索请求处理模块;查询结果去重模块;内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;查询结果重排序模块;查询结果存储数据库,存储具有内容可信度的查询结果。本发明为基于内容可信的搜索引擎及搜索方法,不仅实现了web搜索网页的内容可信因素的量化和内容可信度的计算,还提供了基于可信度高低的Web搜索网页的重排序。与传统搜索引擎及搜索方法相比,本发明可以提供更为准确和更加可信的搜索结果。

Description

一种基于内容可信的Web搜索引擎系统及搜索方法
技术领域
本发明涉及网络通信处理领域,具体为一种基于内容可信的Web搜索引擎系统及搜索方法。
背景技术
随着信息技术和网络技术的不断发展,基于互联网的信息检索日益成为人们生活中的一部分,搜索引擎也成为其中不可或缺的工具。然而,基于传统搜索引擎和搜索方法检索到的Web信息来源广泛,内容丰富多样,但存在质量良莠不齐、表述不一,事实真假难辨等问题,使得基于传统搜索引擎和搜索方法检索到的Web信息难以保证其可信性。网页的过时、新闻的失真、垃圾广告、反动宣传等无处不在,并与正常的、可靠的信息资源鱼目混珠在一起。当前,为了从互联网上检索到用户期望的信息,用户必须通过人工的方式,判断从传统搜索引擎返回的海量Web信息中,哪些信息是可靠的或可信的。这种方法不仅耗时,而且,对大部分用户来讲,也很难判断搜索引擎返回Web信息的可信性。
虽然目前的研究者在搜索引擎返回Web信息的质量方面做了一些工作,但很少考虑Web信息的内容可信问题。目前的搜索引擎系统及搜索方法都不能实现基于内容可信的搜索。
发明内容
针对以上技术问题,本发明提供了一种基于内容可信的Web搜索引擎系统及搜索方法,可以实现web搜索网页的内容可信因素的量化、内容可信度的计算,以及基于内容可信判断的Web信息检索。
本发明包括:
一种基于内容可信的Web搜索引擎系统,包括:
(1) Web用户接口模块,接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低显示最终的搜索结果;
(2) 搜索请求处理模块,将Web用户的搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页;
(3) 查询结果去重模块,对上所述搜索引擎以及查询结果存储数据库返回的搜索结果进行去重处理;
(4) 内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;
(5) 查询结果重排序模块,将上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序;
(6) 查询结果存储数据库,存储具有内容可信度的查询结果。
一种基于内容可信的Web搜索引擎系统的搜索方法,通过以下技术方案实现:
(1)用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
(2)通过相应的接口,搜索请求处理模块将搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
(3)查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
(4)内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
(5)查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户。
进一步地,Web网页的内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
其中,
网页内容相关性的计算为:对任一用户搜索请求qp为返回的某一Web网页,则pq的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,表示qT(p)重叠的个数;
网站权威性的计算方法参考文献“Judgment of information quality andcognitive authority in the web”中的计算方法;
网页外部链接数的计算为:对网页p在Google、Bing、百度、搜狗等搜索引擎中的外部链接数取平均值;
网页时间的计算为:用户查询的当前时间减去网页创建的时间;
网页点击率的计算为:对任一用户搜索请求qp i 为返回的某一Web网页,则p i 的点击率计算如下,其中H i 表示p i 被用户点击的次数;
本发明为基于内容可信的Web搜索引擎系统及搜索方法,不仅对Web搜索网页实现了内容可信因素的量化和内容可信度的计算,还提供了基于可信度高低的Web搜索网页的重排序。与传统的搜索引擎及搜索方法相比,本发明可以提供更为准确和更加可信的搜索结果。
附图说明
图1是本发明实施例1的系统结构示意图。
图2是本发明实施例1的工作流程图。
具体实施方式
本发明可以通过技术方案具体实施,通过对下面的实施例可以对本发明进行进一步的描述,然而,本发明的范围并不限于下述实施例。
实施例1:如图1所示,本发明所述的Web搜索引擎系统各模块之间的连接关系如下:
(1) Web用户接口模块,与搜索请求处理模块和查询结果重排序模块相连接,负责接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低,将查询结果重排序模块的最终可信搜索结果显示给用户;
(2) 搜索请求处理模块,与Web用户接口模块、查询结果存储数据库和查询结果去重模块相连接,负责将Web用户接口模块传来的用户搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,同时将这些搜索结果传送给查询结果去重模块;
(3) 查询结果去重模块,与搜索请求处理模块和内容可信度计算模块相连接,负责将搜索请求处理模块传来的传统搜索结果进行去重处理,并将去重后的搜索结果传送给内容可信度计算模块;
(4) 内容可信度计算模块,与查询结果去重模块、查询结果存储数据库和查询结果重排序模块相连接,对查询结果去重模块传来的去重后的搜索结果,根据内容可信的5个因素进行内容可信度计算,并将带有内容可信度的搜索结果分发给查询结果存储数据库和查询结果重排序模块相;
(5) 查询结果重排序模块,与内容可信度计算模块和Web用户接口模块相连接,负责将内容可信度计算模块传来的具有内容可信度的搜索结果,根据可信度的高低,按照降序重新进行排序,并将排序后的搜索结果传送给Web用户接口模块;
(6) 查询结果存储数据库,与搜索请求处理模块和内容可信度计算模块相连接,接收搜索请求处理模块传来的搜索请求,并返回相应的搜索结果,同时存储经过处理后的具有内容可信度的搜索结果。
如图1所示,本发明的一种基于内容可信的Web搜索引擎系统的搜索方法的实施流程如下:
1 用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
2 通过相应的接口,搜索请求处理模块将搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
3 查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
4 内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
5 查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户。
如图2所示,本发明的搜索过程如下:
1 用户通过本发明提供的Web用户接口输入搜索关键字;
2 通过相应的API接口,本发明将该搜索关键字分发给Google等搜索引擎以及查询结果存储数据库;
3 本发明对Google等传统搜索引擎以及查询结果存储数据库返回的搜索结果,即搜索到的Web网页,进行去重处理;
4 本发明对去重后的每个web网页,根据本发明的方法依次计算其网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,然后根据公式:
计算web网页的内容可信度;
5 将具有内容可信度的web网页的相关信息存储到本发明的查询结果存储数据库中;
6 最后,本搜索引擎根据内容可信度的高低,按照降序,对查询结果重新进行排序,并通过Web用户接口模块显示给用户。

Claims (2)

1.一种基于内容可信的Web搜索引擎系统,其特征在于它包括:
(1)Web用户接口模块,接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低显示最终的搜索结果;
(2)搜索请求处理模块,将Web用户的搜索关键字分发给传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页;
(3)查询结果去重模块,对上所述搜索引擎以及查询结果存储数据库返回的搜索结果进行去重处理;
(4)内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;
(5)查询结果重排序模块,将上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序;
(6)查询结果存储数据库,存储具有内容可信度的查询结果;
各模块之间的连接关系如下:
(1)Web用户接口模块,与搜索请求处理模块和查询结果重排序模块相连接,负责接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低,将查询结果重排序模块的最终可信搜索结果显示给用户;
(2)搜索请求处理模块,与Web用户接口模块、查询结果存储数据库和查询结果去重模块相连接,负责将Web用户接口模块传来的用户搜索关键字分发给传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,同时将这些搜索结果传送给查询结果去重模块;
(3)查询结果去重模块,与搜索请求处理模块和内容可信度计算模块相连接,负责将搜索请求处理模块传来的传统搜索结果进行去重处理,并将去重后的搜索结果传送给内容可信度计算模块;
(4)内容可信度计算模块,与查询结果去重模块、查询结果存储数据库和查询结果重排序模块相连接,对查询结果去重模块传来的去重后的搜索结果,根据内容可信的5个因素进行内容可信度计算,并将带有内容可信度的搜索结果分发给查询结果存储数据库和查询结果重排序模块相;
(5)查询结果重排序模块,与内容可信度计算模块和Web用户接口模块相连接,负责将内容可信度计算模块传来的具有内容可信度的搜索结果,根据可信度的高低,按照降序重新进行排序,并将排序后的搜索结果传送给Web用户接口模块;
(6)查询结果存储数据库,与搜索请求处理模块和内容可信度计算模块相连接,接收搜索请求处理模块传来的搜索请求,并返回相应的搜索结果,同时存储经过处理后的具有内容可信度的搜索结果;
所述内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
0.2 * Re v ( p ) + 0.2 * A u t h ( p ) + 0.2 * B N ( p ) + 0.2 * A g e ( p ) + 0.2 * C l i R ( p ) Re v ( p ) + A u t h ( p ) + B N ( p ) + A g e ( p ) + C l i R ( p )
其中,网页内容相关性的计算为:对任一搜索请求q,p为返回的某一Web网页,则p和q的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,N(q∧T(p))表示q和T(p)重叠的个数;
网页点击率的计算为:对任一用户搜索请求q,pi为返回的某一Web网页,则pi的点击率计算如下,其中Hi表示pi被用户点击的次数;
C l i R ( p i | q j ) = H i j Σ ∀ i H i j .
2.一种基于内容可信的Web搜索引擎系统的搜索方法,其特征在于:
(1)用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
(2)通过相应的接口,搜索请求处理模块将搜索关键字分发给传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
(3)查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
(4)内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
(5)查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户;
所述内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
0.2 * Re v ( p ) + 0.2 * A u t h ( p ) + 0.2 * B N ( p ) + 0.2 * A g e ( p ) + 0.2 * C l i R ( p ) Re v ( p ) + A u t h ( p ) + B N ( p ) + A g e ( p ) + C l i R ( p )
其中,网页内容相关性的计算为:对任一搜索请求q,p为返回的某一Web网页,则p和q的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,N(q∧T(p))表示q和T(p)重叠的个数;
网页点击率的计算为:对任一用户搜索请求q,pi为返回的某一Web网页,则pi的点击率计算如下,其中Hi表示pi被用户点击的次数;
C l i R ( p i | q j ) = H i j Σ ∀ i H i j .
CN201310564892.3A 2013-11-14 2013-11-14 一种基于内容可信的Web搜索引擎系统及搜索方法 Active CN103646034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310564892.3A CN103646034B (zh) 2013-11-14 2013-11-14 一种基于内容可信的Web搜索引擎系统及搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310564892.3A CN103646034B (zh) 2013-11-14 2013-11-14 一种基于内容可信的Web搜索引擎系统及搜索方法

Publications (2)

Publication Number Publication Date
CN103646034A CN103646034A (zh) 2014-03-19
CN103646034B true CN103646034B (zh) 2017-03-08

Family

ID=50251250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310564892.3A Active CN103646034B (zh) 2013-11-14 2013-11-14 一种基于内容可信的Web搜索引擎系统及搜索方法

Country Status (1)

Country Link
CN (1) CN103646034B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126616B (zh) * 2016-06-21 2020-01-10 东软集团股份有限公司 汇聚网络素材的方法和装置
CN110569335B (zh) * 2018-03-23 2022-05-27 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN112199514B (zh) 2020-11-12 2022-11-18 同济大学 一种基于知识图谱的搜索引擎可信搜索方法
CN116662631B (zh) * 2023-04-23 2024-05-28 无锡览山信息科技有限公司 一种基于互联网的云运维管理平台多云纳管系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN102103598A (zh) * 2009-12-21 2011-06-22 同济大学 一种基于内容信任的可信搜索方法
CN102193999A (zh) * 2011-05-09 2011-09-21 北京百度网讯科技有限公司 一种对搜索结果进行排序的方法及设备
CN102880609A (zh) * 2011-07-13 2013-01-16 北京百度网讯科技有限公司 一种用于提供与查询序列相对应的搜索结果的设备和方法
CN103294693A (zh) * 2012-02-27 2013-09-11 华为技术有限公司 搜索方法、服务器及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN102103598A (zh) * 2009-12-21 2011-06-22 同济大学 一种基于内容信任的可信搜索方法
CN102193999A (zh) * 2011-05-09 2011-09-21 北京百度网讯科技有限公司 一种对搜索结果进行排序的方法及设备
CN102880609A (zh) * 2011-07-13 2013-01-16 北京百度网讯科技有限公司 一种用于提供与查询序列相对应的搜索结果的设备和方法
CN103294693A (zh) * 2012-02-27 2013-09-11 华为技术有限公司 搜索方法、服务器及系统

Also Published As

Publication number Publication date
CN103646034A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
US11176124B2 (en) Managing a search
JP6522136B2 (ja) パーソナルコンテンツアイテム検索システム及び方法
TWI463337B (zh) 用於實施於跨多搜尋引擎之結盟搜尋之方法及系統
US9613008B2 (en) Dynamic aggregation and display of contextually relevant content
Shinzato et al. Tsubaki: An open search engine infrastructure for developing information access methodology
US8745067B2 (en) Presenting comments from various sources
US9305100B2 (en) Object oriented data and metadata based search
US9740881B2 (en) Defense against search engine tracking
US20090094210A1 (en) Intelligently sorted search results
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
US9563691B2 (en) Providing search suggestions from user selected data sources for an input string
US10592841B2 (en) Automatic clustering by topic and prioritizing online feed items
US20100011025A1 (en) Transfer learning methods and apparatuses for establishing additive models for related-task ranking
US10095789B2 (en) Method and system of searching composite web page elements and annotations presented by an annotating proxy server
US20100125781A1 (en) Page generation by keyword
US20110072025A1 (en) Ranking entity relations using external corpus
KR20160053933A (ko) 스마트 검색 정제 기법
US10127322B2 (en) Efficient retrieval of fresh internet content
US11481454B2 (en) Search engine results for low-frequency queries
CN103646034B (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
EP3485394A1 (en) Contextual based image search results
US20140108090A1 (en) Price mining system and method for mining the price
CN102737045B (zh) 一种相关度计算方法和装置
US20100332491A1 (en) Method and system for utilizing user selection data to determine relevance of a web document for a search query
CN103902687B (zh) 一种搜索结果的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180510

Address after: 215000 E-1804 388, Shui Shui Road, Suzhou Industrial Park, Jiangsu.

Patentee after: Suzhou Wen Dao network Polytron Technologies Inc

Address before: 344000 room 509, letter engineering building, information technology school, Donghua Polytechnic University, 56 Fu Fu Road, Fuzhou, Jiangxi.

Patentee before: East China Institute of Technology