CN112199514B - 一种基于知识图谱的搜索引擎可信搜索方法 - Google Patents

一种基于知识图谱的搜索引擎可信搜索方法 Download PDF

Info

Publication number
CN112199514B
CN112199514B CN202011263730.2A CN202011263730A CN112199514B CN 112199514 B CN112199514 B CN 112199514B CN 202011263730 A CN202011263730 A CN 202011263730A CN 112199514 B CN112199514 B CN 112199514B
Authority
CN
China
Prior art keywords
search
knowledge
support degree
graph
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011263730.2A
Other languages
English (en)
Other versions
CN112199514A (zh
Inventor
丁春玲
曾国荪
谢英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202011263730.2A priority Critical patent/CN112199514B/zh
Publication of CN112199514A publication Critical patent/CN112199514A/zh
Priority to US17/376,097 priority patent/US11775598B2/en
Application granted granted Critical
Publication of CN112199514B publication Critical patent/CN112199514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于知识图谱的搜索引擎可信搜索方法,包括获取用户输入的搜索关键词,构建关键词池;根据关键词选择策略选择关键词,分别依次输入搜索引擎进行搜索,获得搜索引擎返回的结果;根据搜索结果选择策略从搜索返回的Web网页集合中选取返回结果;依次构建Web网页的知识图谱;选择具体的知识模式;将知识图谱与既有语义可靠知识图谱库进行匹配,然后根据匹配结果计算各个Web网页内容支持度;利用网页的内容支持度期望对同一个关键词下的搜索引擎进行排序,并综合关键词的网页内容支持度情况,获得最终的搜索引擎可信搜索排序结果;完成基于知识图谱的搜索引擎可信搜索。与现有技术相比,本发明具有可靠性高等优点。

Description

一种基于知识图谱的搜索引擎可信搜索方法
技术领域
本发明涉及一种搜索方法,尤其是涉及一种基于知识图谱的搜索引擎可信搜索方法。
背景技术
当前,用户在使用网络搜索引擎时有多个选择,好的搜索引擎往往搜索返回的结果信息质量高、可信度强,较差的搜索引擎往往得到的结果质量低、真实性差,因而有必要对搜索引擎进行搜索可信度评测,以便帮助用户合理选择搜索引擎。国内外已有众多搜索引擎可信搜索的相关工作,主要围绕Web网页的源站点、传输链路、内外部链接、内容与结构可靠性、搜索相关性、用户点击率、以及用户反馈等层面开展研究。本技术发明关注搜索引擎搜索返回的Web网页内容可信度,给出一种基于知识图谱的搜索引擎可信搜索评价方法。
在内容可信方面,现有的研究主要有:(1)利用Web网页的内外部链接数量、与搜索关键字的相关性、用户点击率等简单含糊地计算内容可信度,但是缺乏对Web网页内容真实可靠的度量,完全依赖和考虑外部因素;(2)通过聚类、神经网络等方法提取分析网页内容的主题,认为主题越集中、关联性越高则内容可靠度越强,但是仅仅分析了内容的主题,缺乏对内容中实体、关系等的可信度量;(3)利用自然语言处理技术和语义推理,分析网页中包含的不同实体之间的关联可靠度,虽然考虑了实体和关系的可信度,但是缺乏相对深入和综合的可信度测评过程。总之,这些方法虽然能够从一定层面上计算内容可信度,但是终究都没有实质、更深层面地对内容可信度进行评测。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可靠性高的基于知识图谱的搜索引擎可信搜索方法。
本发明的目的可以通过以下技术方案来实现:
一种基于知识图谱的搜索引擎可信搜索方法,所述的可信搜索方法包括以下步骤:
步骤1:获取用户输入的搜索关键词,构建关键词池;
步骤2:根据关键词选择策略SQ选择n个关键词,分别依次输入m个搜索引擎进行搜索,获得搜索引擎返回的结果;
步骤3:根据搜索结果选择策略SR从搜索返回的Web网页集合中选取k个返回结果;
步骤4:对步骤3选取的k个返回结果,依次构建Web网页的知识图谱;
步骤5:选择具体的知识模式;
步骤6:将根据步骤4获取的知识图谱与既有语义可靠知识图谱库进行匹配,然后根据匹配结果计算各个Web网页内容支持度;
步骤7:利用k个网页的内容支持度期望对同一个关键词下的m个搜索引擎进行排序,并综合n个关键词的网页内容支持度情况,获得最终的搜索引擎可信搜索排序结果;
步骤8:完成基于知识图谱的搜索引擎可信搜索。
优选地,所述的关键词选择策略SQ具体为:
对于用户输入的任意关键词qi∈Q,分别统计其所属于的领域dj∈D和类型ck∈C,得到所有关键词的领域集合为D={d1,d2,...,d|D|},类型集合为C={c1,c2,...,c|C|},将所有关键词按照领域和类型分为
Figure BDA0002775451150000021
个块,其中块Qjk中有njk个关键词,该关键词的领域均为dj,类型均为ck
Figure BDA0002775451150000022
对于每一个块Qjk,以概率
Figure BDA0002775451150000023
从中随机地选择一个关键词进行后续操作。
优选地,所述的搜索结果选择策略SR具体为:
将搜索返回的Web网页集合R均分为m个块,m<<|R|,R=R1∪R2∪...∪Rm
Figure BDA0002775451150000024
分别选择块Ri内TOP
Figure BDA0002775451150000025
个Web网页用于后续操作,其中i∈{1,2,...,m},
Figure BDA0002775451150000031
优选地,所述的步骤4具体为:
每个搜索返回结果对应一个Web网页,将Web网页经过过滤和内容分析抽取后,将Web网页转换为一个唯一的知识图WG=(Vw,Ew);遵循既有知识图谱库KG=(Vk,Ek)构建规则,将知识图构建为一个有向图,图中节点类型ve、vc和vv分别表示Web网页中存在的实体、类型和值;知识图中的有向边ep和er分别表示Web网页中存在的属性和关系;通过节点-有向边-节点构成的三元组,即(v,e,v)表示Web网页中蕴含的知识。
优选地,所述步骤5中的知识模式包括:事实、信任链和信任域;
所述的知识模式中的事实具体为:由节点-有向边-节点,即(v,e,v)构成的三元组,对应知识图WG=(Vw,Ew)的一条边;
所述的知识模式中的信任链具体为:形式上为一条路径(v1,e<1,2>,v2,e<2,3>,v3,…,vn-1,e<n-1,n>,vn),对应知识图WG=(Vw,Ew)中的一条可达路径;
所述的知识模式中的信任域具体为:一个可信区域,对应知识图WG=(Vw,Ew)中的一颗生成树。
优选地,所述的步骤6具体为:
根据步骤5选取的知识模式计算网页内容支持度;若选用事实知识模式,则使用事实支持度计算子方法OFSD()计算每个事实的支持度θ0;若选用信任链知识模式,则使用信任链支持度计算子方法TCD()计算信任链支持度;若选用信任域知识模式,则使用信任域支持度计算子方法TBD()计算信任域支持度。
更加优选地,所述的事实支持度计算子方法OFSD()具体为:
首先求出知识图WG中所有单个事实的支持度θ0,然后计算所有单个事实的支持度均值,将其作为最终的事实支持度。
更加优选地,所述的信任链支持度计算子方法TCD()具体为:
在进行信任链支持度计算时,对事实的支持度进行修正,修正后的事实支持度为:
Figure BDA0002775451150000032
其中,t1为信任链中包含的事实个数;s为当前连续传播的可靠事实个数;ρ1∈[0,1],为第一修正激励因子;
在计算信任链中各个事实的支持度之后,通过均值计算出信任链的支持度。
更加优选地,所述的信任域支持度计算子方法TBD()具体为:
在进行信任域支持度计算时,对事实的支持度进行修正,修正后的事实支持度为:
Figure BDA0002775451150000041
其中,ρ2∈[0,1]为第二修正激励因子;skl为生成树根节点到当前节点形成的路径中可靠事实连续传播个数;t2为生成树包含的边的个数。
更加优选地,所述的步骤7具体为:
计算k个网页的支持度期望,并根据支持度期望值对m个搜索引擎进行排序,然后综合n个关键词下的搜索引擎排序结果,获得最终的搜索引擎可信排序。
与现有技术相比,本发明具有以下优点:
可靠性高:本发明中的搜索引擎可信搜索方法将Web网页转换为知识图,通过分析和设计可信的知识模式,给出各个知识模式下Web网页的内容支持度计算方法,进而创新性地辅助搜索引擎进行内容可信的搜索,采用“小图配大图”的思想,分别在不同知识模式下设计Web网页的内容支持度算法,把计算得到的匹配支持度作为排序的重要依据,最后选择多个搜索关键字和多个搜索返回结果,根据Web网页的内容可信度,对搜索引擎进行可信排序,大大提高了排序的可靠性和准确度。
附图说明
图1为本发明中搜索引擎可信搜索方法的流程示意图;
图2为本发明实施例中搜索引擎可信搜索方法的过程示意图;
图3为本发明实施例中知识图的示意图;
图4为本发明实施例中事实的示意图;
图5为本发明实施例中信任链的示意图;
图6为本发明实施例中信任圈的示意图;
图7为本发明实施例中第一种信任域的示意图;
图8为本发明实施例中第二中信任域的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种基于知识图谱的搜索引擎可信搜索方法,其流程如图1和图2所示,包括:
步骤1:获取用户输入的搜索关键词,构建关键词池;
步骤2:根据关键词选择策略SQ选择n个关键词,分别依次输入m个搜索引擎进行搜索,获得搜索引擎返回的结果;
步骤3:根据搜索结果选择策略SR从搜索返回的Web网页集合中选取k个返回结果;
由于用户可以根据需要,输入任意内容和形式的关键词,而搜索引擎具有关键词搜索敏感性,任意或者随机地选择关键词对搜索引擎可信搜索评价可能有失公平,因而应该尽量消除关键词选择随机性,同时保证关键词选择具有代表性。本实施例从关键词所属的领域和类型两个角度,结合分块选择的思想,给出关键词的选择策略SQ。对于搜索返回的Web网页集合,常用的评价选择策略是选择和利用其中TOP k个网页来对搜索引擎评价分析。本实施例兼顾TOP k选择思想,并从搜索返回的Web集合整体性考虑,给出从返回结果集合R中选择k个网页R(k)用于可信搜索评价的层次选择策略SR
本实施例中关键词选择策略SQ具体为:
对于用户输入的任意关键词qi∈Q,分别统计其所属于的领域dj∈D和类型ck∈C,得到所有关键词的领域集合为D={d1,d2,...,d|D|},类型集合为C={c1,c2,...,c|C|},将所有关键词按照领域和类型分为
Figure BDA0002775451150000051
个块,其中块Qjk中有njk个关键词,该关键词的领域均为dj,类型均为ck
Figure BDA0002775451150000052
对于每一个块Qjk,以概率
Figure BDA0002775451150000053
从中随机地选择一个关键词进行后续操作。
本实施例中搜索结果选择策略SR具体为:
将搜索返回的Web网页集合R均分为m个块,m<<|R|,R=R1∪R2∪...∪Rm
Figure BDA0002775451150000061
分别选择块Ri内TOP
Figure BDA0002775451150000062
个Web网页用于后续操作,其中i∈{1,2,...,m},
Figure BDA0002775451150000063
函数round表示四舍五入计数过程。
步骤4:对步骤3选取的k个返回结果,依次构建Web网页的知识图谱,即“小图”,具体为:
每个搜索返回结果对应一个Web网页,将Web网页经过过滤和内容分析抽取后,将Web网页转换为一个唯一的知识图WG=(Vw,Ew);遵循既有知识图谱库KG=(Vk,Ek)构建规则,将知识图构建为一个有向图,图中节点类型ve、vc和vv分别表示Web网页中存在的实体、类型和值;知识图中的有向边ep和er分别表示Web网页中存在的属性和关系;通过节点-有向边-节点构成的三元组,即(v,e,v)表示Web网页中蕴含的知识;
步骤5:选择具体的知识模式,知识模式包括:事实、信任链和信任域;
大量Web网页的信息内容是由自然语言描述的字串,其中一条完整的陈述句是对事物或者对象的客观陈述,多条陈述句经过事实关联反映了内容语义和主题。为了分析Web网页的内容可信语义,本实施例设计了事实、信任链、信任域三种可信知识模式。
知识模式中的事实具体为:由节点-有向边-节点,即(v,e,v)构成的三元组,对应知识图WG=(Vw,Ew)的一条边;
知识模式中的信任链具体为:形式上为一条路径(v1,e<1,2>,v2,e<2,3>,v3,…,vn-1,e<n-1,n>,vn),对应知识图WG=(Vw,Ew)中的一条可达路径;
知识模式中的信任域具体为:一个可信区域,对应知识图WG=(Vw,Ew)中的一颗生成树;
知识图和三种知识模式的示意如图3~8所示,在知识图中存在多条信任链和多个信任域,在本实施例中,将知识图的唯一直径作为信任链,并且选择一棵最小生成树作为信任域;
步骤6:将根据步骤4获取的知识图谱与被称为“大图”的既有语义可靠知识图谱库进行匹配,然后根据匹配结果计算各个Web网页内容支持度,具体为:
利用“小图配大图”的思想,根据步骤5选取的知识模式计算网页内容支持度;若选用事实知识模式,则使用事实支持度计算子方法OFSD()计算每个事实的支持度θ0;若选用信任链知识模式,则使用信任链支持度计算子方法TCD()计算信任链支持度;若选用信任域知识模式,则使用信任域支持度计算子方法TBD()计算信任域支持度;
事实支持度计算子方法OFSD()具体为:
在进行事实支持度计算时,首先求出知识图WG中所有单个事实的支持度θ0,接着计算所有单个事实的支持度均值,将其作为事实支持度。
信任链支持度计算子方法TCD()具体为:
在进行信任链支持度计算时,对事实的支持度进行修正,修正后的事实支持度为:
Figure BDA0002775451150000071
其中,t1为信任链中包含的事实个数;s为当前连续传播的可靠事实个数;ρ1∈[0,1],为第一修正激励因子;
在计算信任链中各个事实的支持度之后,通过均值计算出信任链的支持度。
信任域支持度计算子方法TBD()具体为:
在进行信任域支持度计算时,对事实的支持度进行修正,修正后的事实支持度为:
Figure BDA0002775451150000072
其中,ρ2∈[0,1]为第二修正激励因子;skl为生成树根节点到当前节点形成的路径中可靠事实连续传播个数;t2为生成树包含的边的个数;
步骤7:利用k个网页的内容支持度期望对同一个关键词下的m个搜索引擎进行排序,并综合n个关键词的网页内容支持度情况,获得最终的搜索引擎可信搜索排序结果,具体为:
计算k个网页的支持度期望,并根据支持度期望值对m个搜索引擎进行排序,然后综合n个关键词下的搜索引擎排序结果,获得最终的搜索引擎可信排序;
步骤8:完成基于知识图谱的搜索引擎可信搜索。
本实施例中整个流程的具体实施步骤如下:
输入:一组待评价的搜索引擎SE={se1,se2,...,sem},一组搜索关键词Q={q1,q2,...,qn},知识图谱库KG=(Vk,Ek),预先设置的一组常量参数{ρ,k};
输出:待评价搜索引擎的可信搜索排序集合;
(1)制定关键词和搜索返回结果的选择策略:SQ和SR
(2)依次将关键词qi输入搜索引擎sej进行搜索,得到大量Web网页返回结果,根据策略SR分别选择Web网页集合
Figure BDA0002775451150000081
(3)对于任意Web网页
Figure BDA0002775451150000082
将其过滤转换为知识图WGx
(4)根据选择的知识模式,以及相应支持度算法,计算
Figure BDA0002775451150000083
的支持度为
Figure BDA0002775451150000084
(5)计算k个网页的支持度期望,
Figure BDA0002775451150000085
并根据其对m个搜索引擎进行可信搜索评价排序
Figure BDA0002775451150000086
(6)综合n个关键词下的搜索引擎排序值
Figure BDA0002775451150000087
给出最终搜索引擎sej的可信搜索排序:
Figure BDA0002775451150000088
(7)根据πjE返回待评价搜索引擎的可信搜索排序集合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述的可信搜索方法包括以下步骤:
步骤1:获取用户输入的搜索关键词,构建关键词池;
步骤2:根据关键词选择策略SQ选择n个关键词,分别依次输入m个搜索引擎进行搜索,获得搜索引擎返回的结果;
步骤3:根据搜索结果选择策略SR从搜索返回的Web网页集合中选取k个返回结果;
步骤4:对步骤3选取的k个返回结果,依次构建Web网页的知识图谱;
步骤5:选择具体的知识模式;
步骤6:将根据步骤4获取的知识图谱与既有语义可靠知识图谱库进行匹配,然后根据匹配结果计算各个Web网页内容支持度;
步骤7:利用k个网页的内容支持度期望对同一个关键词下的m个搜索引擎进行排序,并综合n个关键词的网页内容支持度情况,获得最终的搜索引擎可信搜索排序结果;
步骤8:完成基于知识图谱的搜索引擎可信搜索;
所述的关键词选择策略SQ具体为:
对于用户输入的任意关键词qi∈Q,分别统计其所属于的领域dj∈D和类型ck∈C,得到所有关键词的领域集合为D={d1,d2,...,d|D|},类型集合为C={c1,c2,...,c|C|},将所有关键词按照领域和类型分为
Figure FDA0003834527530000011
个块,其中块Qjk中有njk个关键词,该关键词的领域均为dj,类型均为ck
Figure FDA0003834527530000012
对于每一个块Qjk,以概率
Figure FDA0003834527530000013
从中随机地选择一个关键词进行后续操作;
所述的搜索结果选择策略SR具体为:
将搜索返回的Web网页集合R均分为m个块,m<<|R|,R=R1∪R2∪...∪Rm
Figure FDA0003834527530000014
分别选择块Ri
Figure FDA0003834527530000015
个Web网页用于后续操作,其中i∈{1,2,...,m},
Figure FDA0003834527530000021
2.根据权利要求1所述的一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述的步骤4具体为:
每个搜索返回结果对应一个Web网页,将Web网页经过过滤和内容分析抽取后,将Web网页转换为一个唯一的知识图WG=(Vw,Ew);遵循既有知识图谱库KG=(Vk,Ek)构建规则,将知识图构建为一个有向图,图中节点类型ve、vc和vv分别表示Web网页中存在的实体、类型和值;知识图中的有向边ep和er分别表示Web网页中存在的属性和关系;通过节点-有向边-节点构成的三元组,即(v,e,v)表示Web网页中蕴含的知识。
3.根据权利要求1所述的一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述步骤5中的知识模式包括:事实、信任链和信任域;
所述的知识模式中的事实具体为:由节点-有向边-节点,即(v,e,v)构成的三元组,对应知识图WG=(Vw,Ew)的一条边;
所述的知识模式中的信任链具体为:形式上为一条路径(v1,e<1,2>,v2,e<2,3>,v3,…,vn-1,e<n-1,n>,vn),对应知识图WG=(Vw,Ew)中的一条可达路径;
所述的知识模式中的信任域具体为:一个可信区域,对应知识图WG=(Vw,Ew)中的一颗生成树。
4.根据权利要求1所述的一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述的步骤6具体为:
根据步骤5选取的知识模式计算网页内容支持度;若选用事实知识模式,则使用事实支持度计算子方法OFSD()计算每个事实的支持度θ0;若选用信任链知识模式,则使用信任链支持度计算子方法TCD()计算信任链支持度;若选用信任域知识模式,则使用信任域支持度计算子方法TBD()计算信任域支持度。
5.根据权利要求4所述的一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述的事实支持度计算子方法OFSD()具体为:
首先求出知识图WG中所有单个事实的支持度θ0,然后计算所有单个事实的支持度均值,将其作为最终的事实支持度。
6.根据权利要求5所述的一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述的信任链支持度计算子方法TCD()具体为:
在进行信任链支持度计算时,对事实的支持度进行修正,修正后的事实支持度为:
Figure FDA0003834527530000031
其中,t1为信任链中包含的事实个数;s为当前连续传播的可靠事实个数;ρ1∈[0,1],为第一修正激励因子;
在计算信任链中各个事实的支持度之后,通过均值计算出信任链的支持度。
7.根据权利要求6所述的一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述的信任域支持度计算子方法TBD()具体为:
在进行信任域支持度计算时,对事实的支持度进行修正,修正后的事实支持度为:
Figure FDA0003834527530000032
其中,ρ2∈[0,1]为第二修正激励因子;skl为生成树根节点到当前节点形成的路径中可靠事实连续传播个数;t2为生成树包含的边的个数。
8.根据权利要求6所述的一种基于知识图谱的搜索引擎可信搜索方法,其特征在于,所述的步骤7具体为:
计算k个网页的支持度期望,并根据支持度期望值对m个搜索引擎进行排序,然后综合n个关键词下的搜索引擎排序结果,获得最终的搜索引擎可信排序。
CN202011263730.2A 2020-11-12 2020-11-12 一种基于知识图谱的搜索引擎可信搜索方法 Active CN112199514B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011263730.2A CN112199514B (zh) 2020-11-12 2020-11-12 一种基于知识图谱的搜索引擎可信搜索方法
US17/376,097 US11775598B2 (en) 2020-11-12 2021-07-14 Trustworthy search method for search engine based on knowledge graph

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011263730.2A CN112199514B (zh) 2020-11-12 2020-11-12 一种基于知识图谱的搜索引擎可信搜索方法

Publications (2)

Publication Number Publication Date
CN112199514A CN112199514A (zh) 2021-01-08
CN112199514B true CN112199514B (zh) 2022-11-18

Family

ID=74033432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011263730.2A Active CN112199514B (zh) 2020-11-12 2020-11-12 一种基于知识图谱的搜索引擎可信搜索方法

Country Status (2)

Country Link
US (1) US11775598B2 (zh)
CN (1) CN112199514B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646034A (zh) * 2013-11-14 2014-03-19 东华理工大学 一种基于内容可信的Web搜索引擎系统及搜索方法
WO2014089776A1 (en) * 2012-12-12 2014-06-19 Google Inc. Ranking search results based on entity metrics
CN111191042A (zh) * 2019-12-10 2020-05-22 同济大学 一种基于知识图谱路径语义关系的搜索准确性评价方法
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490579B1 (en) * 1998-07-16 2002-12-03 Perot Systems Corporation Search engine system and method utilizing context of heterogeneous information resources
US6564213B1 (en) * 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US20120130814A1 (en) * 2007-11-14 2012-05-24 Paul Vincent Hayes System and method for search engine result ranking
CN102103598B (zh) * 2009-12-21 2012-12-05 同济大学 一种基于内容信任的可信搜索方法
US20120296918A1 (en) * 2011-05-18 2012-11-22 Microsoft Corporation Credibility Information in Returned Web Results
US20160294846A1 (en) * 2013-11-15 2016-10-06 Yandex Europe Ag Method of and system for presenting trust information in respect of web resources using favicons
US9578043B2 (en) * 2015-03-20 2017-02-21 Ashif Mawji Calculating a trust score
US10061819B2 (en) * 2015-12-18 2018-08-28 International Business Machines Corporation Unsupervised boosting of unique search results in a metasearch environment
US20170235792A1 (en) * 2016-02-17 2017-08-17 Www.Trustscience.Com Inc. Searching for entities based on trust score and geography
CN113312537A (zh) * 2021-06-22 2021-08-27 中山大学 一种搜索引擎服务可靠性的评价指标计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014089776A1 (en) * 2012-12-12 2014-06-19 Google Inc. Ranking search results based on entity metrics
CN103646034A (zh) * 2013-11-14 2014-03-19 东华理工大学 一种基于内容可信的Web搜索引擎系统及搜索方法
CN111191042A (zh) * 2019-12-10 2020-05-22 同济大学 一种基于知识图谱路径语义关系的搜索准确性评价方法
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的在线商品评论可信性排序研究;王忠群,叶安杰,皇苏斌,陈云霞;《情报理论与实践》;20200830;第43卷(第8期);134-139 *

Also Published As

Publication number Publication date
US20220147581A1 (en) 2022-05-12
US11775598B2 (en) 2023-10-03
CN112199514A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
Jin et al. An improved ID3 decision tree algorithm
CN109086356B (zh) 大规模知识图谱的错误连接关系诊断及修正方法
CN105045875B (zh) 个性化信息检索方法及装置
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
Li et al. An approach for approximate subgraph matching in fuzzy RDF graph
Fang et al. High quality candidate generation and sequential graph attention network for entity linking
Grosse et al. An Argument-based Approach to Mining Opinions from Twitter.
Nakashole et al. Real-time population of knowledge bases: opportunities and challenges
Emamgholizadeh et al. A framework for quantifying controversy of social network debates using attributed networks: biased random walk (BRW)
CN103793589B (zh) 一种高速列车故障处理方法
Seth et al. A personalized credibility model for recommending messages in social participatory media environments
Otay et al. A novel pythagorean fuzzy AHP and TOPSIS method for the wind power farm location selection problem
CN107016135B (zh) 一种资源环境的正反双向动态平衡搜索策略
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
CN112199514B (zh) 一种基于知识图谱的搜索引擎可信搜索方法
CN103646035A (zh) 一种基于启发式方法的信息搜索方法
CN107480130B (zh) 基于web信息的关系数据的属性值同一性判定方法
CN105912637A (zh) 一种基于知识的用户兴趣挖崛方法
CN115146022A (zh) 用于知识图中的关键词搜索的计算机实现方法
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法
CN109446424B (zh) 一种无效地址网页过滤方法及系统
Jia et al. Research on joint ranking recommendation model based on Markov chain
CN111274498A (zh) 一种网络特征社区查找方法
Xie et al. Influential attribute community search
Zhang et al. Discovering frequent induced subgraphs from directed networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant