CN112199514B

CN112199514B - 一种基于知识图谱的搜索引擎可信搜索方法

Info

Publication number: CN112199514B
Application number: CN202011263730.2A
Authority: CN
Inventors: 丁春玲; 曾国荪; 谢英杰
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-11-18
Anticipated expiration: 2040-11-12
Also published as: US20220147581A1; US11775598B2; CN112199514A

Abstract

本发明涉及一种基于知识图谱的搜索引擎可信搜索方法，包括获取用户输入的搜索关键词，构建关键词池；根据关键词选择策略选择关键词，分别依次输入搜索引擎进行搜索，获得搜索引擎返回的结果；根据搜索结果选择策略从搜索返回的Web网页集合中选取返回结果；依次构建Web网页的知识图谱；选择具体的知识模式；将知识图谱与既有语义可靠知识图谱库进行匹配，然后根据匹配结果计算各个Web网页内容支持度；利用网页的内容支持度期望对同一个关键词下的搜索引擎进行排序，并综合关键词的网页内容支持度情况，获得最终的搜索引擎可信搜索排序结果；完成基于知识图谱的搜索引擎可信搜索。与现有技术相比，本发明具有可靠性高等优点。

Description

一种基于知识图谱的搜索引擎可信搜索方法

技术领域

本发明涉及一种搜索方法，尤其是涉及一种基于知识图谱的搜索引擎可信搜索方法。

背景技术

当前，用户在使用网络搜索引擎时有多个选择，好的搜索引擎往往搜索返回的结果信息质量高、可信度强，较差的搜索引擎往往得到的结果质量低、真实性差，因而有必要对搜索引擎进行搜索可信度评测，以便帮助用户合理选择搜索引擎。国内外已有众多搜索引擎可信搜索的相关工作，主要围绕Web网页的源站点、传输链路、内外部链接、内容与结构可靠性、搜索相关性、用户点击率、以及用户反馈等层面开展研究。本技术发明关注搜索引擎搜索返回的Web网页内容可信度，给出一种基于知识图谱的搜索引擎可信搜索评价方法。

在内容可信方面，现有的研究主要有：(1)利用Web网页的内外部链接数量、与搜索关键字的相关性、用户点击率等简单含糊地计算内容可信度，但是缺乏对Web网页内容真实可靠的度量，完全依赖和考虑外部因素；(2)通过聚类、神经网络等方法提取分析网页内容的主题，认为主题越集中、关联性越高则内容可靠度越强，但是仅仅分析了内容的主题，缺乏对内容中实体、关系等的可信度量；(3)利用自然语言处理技术和语义推理，分析网页中包含的不同实体之间的关联可靠度，虽然考虑了实体和关系的可信度，但是缺乏相对深入和综合的可信度测评过程。总之，这些方法虽然能够从一定层面上计算内容可信度，但是终究都没有实质、更深层面地对内容可信度进行评测。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可靠性高的基于知识图谱的搜索引擎可信搜索方法。

本发明的目的可以通过以下技术方案来实现：

一种基于知识图谱的搜索引擎可信搜索方法，所述的可信搜索方法包括以下步骤：

步骤1：获取用户输入的搜索关键词，构建关键词池；

步骤2：根据关键词选择策略S_Q选择n个关键词，分别依次输入m个搜索引擎进行搜索，获得搜索引擎返回的结果；

步骤3：根据搜索结果选择策略S_R从搜索返回的Web网页集合中选取k个返回结果；

步骤4：对步骤3选取的k个返回结果，依次构建Web网页的知识图谱；

步骤5：选择具体的知识模式；

步骤6：将根据步骤4获取的知识图谱与既有语义可靠知识图谱库进行匹配，然后根据匹配结果计算各个Web网页内容支持度；

步骤7：利用k个网页的内容支持度期望对同一个关键词下的m个搜索引擎进行排序，并综合n个关键词的网页内容支持度情况，获得最终的搜索引擎可信搜索排序结果；

步骤8：完成基于知识图谱的搜索引擎可信搜索。

优选地，所述的关键词选择策略S_Q具体为：

对于用户输入的任意关键词q_i∈Q，分别统计其所属于的领域d_j∈D和类型c_k∈C，得到所有关键词的领域集合为D＝{d₁，d₂，...，d_|D|}，类型集合为C＝{c₁，c₂，...，c_|C|}，将所有关键词按照领域和类型分为

个块，其中块Q_jk中有n_jk个关键词，该关键词的领域均为d_j，类型均为c_k，

对于每一个块Q_jk，以概率

从中随机地选择一个关键词进行后续操作。

优选地，所述的搜索结果选择策略S_R具体为：

将搜索返回的Web网页集合R均分为m个块，m＜＜|R|，R＝R₁∪R₂∪...∪R_m，

分别选择块R_i内TOP

个Web网页用于后续操作，其中i∈{1，2，...，m}，

优选地，所述的步骤4具体为：

每个搜索返回结果对应一个Web网页，将Web网页经过过滤和内容分析抽取后，将Web网页转换为一个唯一的知识图WG＝(V_w,E_w)；遵循既有知识图谱库KG＝(V_k,E_k)构建规则，将知识图构建为一个有向图，图中节点类型v_e、v_c和v_v分别表示Web网页中存在的实体、类型和值；知识图中的有向边e_p和e_r分别表示Web网页中存在的属性和关系；通过节点-有向边-节点构成的三元组，即(v,e,v)表示Web网页中蕴含的知识。

优选地，所述步骤5中的知识模式包括：事实、信任链和信任域；

所述的知识模式中的事实具体为：由节点-有向边-节点，即(v,e,v)构成的三元组，对应知识图WG＝(V_w,E_w)的一条边；

所述的知识模式中的信任链具体为：形式上为一条路径(v₁,e_＜1,2＞,v₂,e_＜2,3＞,v₃,…,v_n-1,e_＜n-1,n＞,v_n)，对应知识图WG＝(V_w,E_w)中的一条可达路径；

所述的知识模式中的信任域具体为：一个可信区域，对应知识图WG＝(V_w,E_w)中的一颗生成树。

优选地，所述的步骤6具体为：

根据步骤5选取的知识模式计算网页内容支持度；若选用事实知识模式，则使用事实支持度计算子方法OFSD()计算每个事实的支持度θ₀；若选用信任链知识模式，则使用信任链支持度计算子方法TCD()计算信任链支持度；若选用信任域知识模式，则使用信任域支持度计算子方法TBD()计算信任域支持度。

更加优选地，所述的事实支持度计算子方法OFSD()具体为：

首先求出知识图WG中所有单个事实的支持度θ₀，然后计算所有单个事实的支持度均值，将其作为最终的事实支持度。

更加优选地，所述的信任链支持度计算子方法TCD()具体为：

在进行信任链支持度计算时，对事实的支持度进行修正，修正后的事实支持度为：

其中，t₁为信任链中包含的事实个数；s为当前连续传播的可靠事实个数；ρ₁∈[0,1]，为第一修正激励因子；

在计算信任链中各个事实的支持度之后，通过均值计算出信任链的支持度。

更加优选地，所述的信任域支持度计算子方法TBD()具体为：

在进行信任域支持度计算时，对事实的支持度进行修正，修正后的事实支持度为：

其中，ρ₂∈[0,1]为第二修正激励因子；s_kl为生成树根节点到当前节点形成的路径中可靠事实连续传播个数；t₂为生成树包含的边的个数。

更加优选地，所述的步骤7具体为：

计算k个网页的支持度期望，并根据支持度期望值对m个搜索引擎进行排序，然后综合n个关键词下的搜索引擎排序结果，获得最终的搜索引擎可信排序。

与现有技术相比，本发明具有以下优点：

可靠性高：本发明中的搜索引擎可信搜索方法将Web网页转换为知识图，通过分析和设计可信的知识模式，给出各个知识模式下Web网页的内容支持度计算方法，进而创新性地辅助搜索引擎进行内容可信的搜索，采用“小图配大图”的思想，分别在不同知识模式下设计Web网页的内容支持度算法，把计算得到的匹配支持度作为排序的重要依据，最后选择多个搜索关键字和多个搜索返回结果，根据Web网页的内容可信度，对搜索引擎进行可信排序，大大提高了排序的可靠性和准确度。

附图说明

图1为本发明中搜索引擎可信搜索方法的流程示意图；

图2为本发明实施例中搜索引擎可信搜索方法的过程示意图；

图3为本发明实施例中知识图的示意图；

图4为本发明实施例中事实的示意图；

图5为本发明实施例中信任链的示意图；

图6为本发明实施例中信任圈的示意图；

图7为本发明实施例中第一种信任域的示意图；

图8为本发明实施例中第二中信任域的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于知识图谱的搜索引擎可信搜索方法，其流程如图1和图2所示，包括：

步骤1：获取用户输入的搜索关键词，构建关键词池；

由于用户可以根据需要，输入任意内容和形式的关键词，而搜索引擎具有关键词搜索敏感性，任意或者随机地选择关键词对搜索引擎可信搜索评价可能有失公平，因而应该尽量消除关键词选择随机性，同时保证关键词选择具有代表性。本实施例从关键词所属的领域和类型两个角度，结合分块选择的思想，给出关键词的选择策略S_Q。对于搜索返回的Web网页集合，常用的评价选择策略是选择和利用其中TOP k个网页来对搜索引擎评价分析。本实施例兼顾TOP k选择思想，并从搜索返回的Web集合整体性考虑，给出从返回结果集合R中选择k个网页R^(k)用于可信搜索评价的层次选择策略S_R。

本实施例中关键词选择策略S_Q具体为：

对于每一个块Q_jk，以概率

从中随机地选择一个关键词进行后续操作。

本实施例中搜索结果选择策略S_R具体为：

分别选择块R_i内TOP

个Web网页用于后续操作，其中i∈{1，2，...，m}，

函数round表示四舍五入计数过程。

步骤4：对步骤3选取的k个返回结果，依次构建Web网页的知识图谱，即“小图”，具体为：

每个搜索返回结果对应一个Web网页，将Web网页经过过滤和内容分析抽取后，将Web网页转换为一个唯一的知识图WG＝(V_w,E_w)；遵循既有知识图谱库KG＝(V_k,E_k)构建规则，将知识图构建为一个有向图，图中节点类型v_e、v_c和v_v分别表示Web网页中存在的实体、类型和值；知识图中的有向边e_p和e_r分别表示Web网页中存在的属性和关系；通过节点-有向边-节点构成的三元组，即(v,e,v)表示Web网页中蕴含的知识；

步骤5：选择具体的知识模式，知识模式包括：事实、信任链和信任域；

大量Web网页的信息内容是由自然语言描述的字串，其中一条完整的陈述句是对事物或者对象的客观陈述，多条陈述句经过事实关联反映了内容语义和主题。为了分析Web网页的内容可信语义，本实施例设计了事实、信任链、信任域三种可信知识模式。

知识模式中的事实具体为：由节点-有向边-节点，即(v,e,v)构成的三元组，对应知识图WG＝(V_w,E_w)的一条边；

知识模式中的信任链具体为：形式上为一条路径(v₁,e_＜1,2＞,v₂,e_＜2,3＞,v₃,…,v_n-1,e_＜n-1,n＞,v_n)，对应知识图WG＝(V_w,E_w)中的一条可达路径；

知识模式中的信任域具体为：一个可信区域，对应知识图WG＝(V_w,E_w)中的一颗生成树；

知识图和三种知识模式的示意如图3～8所示，在知识图中存在多条信任链和多个信任域，在本实施例中，将知识图的唯一直径作为信任链，并且选择一棵最小生成树作为信任域；

步骤6：将根据步骤4获取的知识图谱与被称为“大图”的既有语义可靠知识图谱库进行匹配，然后根据匹配结果计算各个Web网页内容支持度，具体为：

利用“小图配大图”的思想，根据步骤5选取的知识模式计算网页内容支持度；若选用事实知识模式，则使用事实支持度计算子方法OFSD()计算每个事实的支持度θ₀；若选用信任链知识模式，则使用信任链支持度计算子方法TCD()计算信任链支持度；若选用信任域知识模式，则使用信任域支持度计算子方法TBD()计算信任域支持度；

事实支持度计算子方法OFSD()具体为：

在进行事实支持度计算时，首先求出知识图WG中所有单个事实的支持度θ₀，接着计算所有单个事实的支持度均值，将其作为事实支持度。

信任链支持度计算子方法TCD()具体为：

信任域支持度计算子方法TBD()具体为：

其中，ρ₂∈[0,1]为第二修正激励因子；s_kl为生成树根节点到当前节点形成的路径中可靠事实连续传播个数；t₂为生成树包含的边的个数；

步骤7：利用k个网页的内容支持度期望对同一个关键词下的m个搜索引擎进行排序，并综合n个关键词的网页内容支持度情况，获得最终的搜索引擎可信搜索排序结果，具体为：

计算k个网页的支持度期望，并根据支持度期望值对m个搜索引擎进行排序，然后综合n个关键词下的搜索引擎排序结果，获得最终的搜索引擎可信排序；

步骤8：完成基于知识图谱的搜索引擎可信搜索。

本实施例中整个流程的具体实施步骤如下：

输入：一组待评价的搜索引擎SE＝{se₁,se₂,...,se_m}，一组搜索关键词Q＝{q1,q2,...,q_n}，知识图谱库KG＝(V_k,E_k)，预先设置的一组常量参数{ρ,k}；

输出：待评价搜索引擎的可信搜索排序集合；

(1)制定关键词和搜索返回结果的选择策略：S_Q和S_R；

(2)依次将关键词q_i输入搜索引擎se_j进行搜索，得到大量Web网页返回结果，根据策略S_R分别选择Web网页集合

(3)对于任意Web网页

将其过滤转换为知识图WG_x；

(4)根据选择的知识模式，以及相应支持度算法，计算

的支持度为

(5)计算k个网页的支持度期望，

并根据其对m个搜索引擎进行可信搜索评价排序

(6)综合n个关键词下的搜索引擎排序值

给出最终搜索引擎se_j的可信搜索排序：

(7)根据π_jE返回待评价搜索引擎的可信搜索排序集合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。