CN107103100B

CN107103100B - 一种容错的基于图谱架构的智能语义搜索方法

Info

Publication number: CN107103100B
Application number: CN201710435186.7A
Authority: CN
Inventors: 段玉聪; 邵礼旭
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2017-06-10
Filing date: 2017-06-10
Publication date: 2019-07-30
Anticipated expiration: 2037-06-10
Also published as: CN107103100A

Abstract

本发明是一种投入驱动的容错的基于数据图谱、信息图谱和知识图谱架构的智能语义搜索方法，属于分布式计算和软件工程学技术交叉领域，主要用于解决使用搜索引擎过程中面对非确定不保真信息情况下的决策问题。引入数据图谱、信息图谱和知识图谱三层架构，将网络上资源进行组织，根据用户的预等待时间和计划支付金额建立用户的投入模型，通过语义分析理解用户检索信息的倾向性，按照不同倾向搜索的次数根据每个倾向的比重分配用户投入。根据每次搜索的条目数以及每项条目对应资源的熵值计算该倾向资源的可靠性，虚假信息以及失效信息会随着递进搜索的次数被排除，将资源返回给用户后，获取用户反馈，若用户不满意，提示用户增加投入继续递进搜索。

Description

一种容错的基于图谱架构的智能语义搜索方法

技术领域

本发明是一种容错的基于图谱架构的智能语义搜索方法，主要用于解决使用搜索引擎过程中面对非确定不保真信息情况下的决策问题。根据用户提出的检索需求，评估用户投入，对应不同投入制订不同搜索策略，并对搜索出的答案进行主动要素建模，正反倾向双向递进搜索，提高搜索的查准率和查全率以及搜索答案的可信度，属于分布式计算和软件工程学技术交叉领域。

背景技术

搜索引擎（Search Engine）是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。随着互联网数据的增长，网络上资源变得十分庞杂，用户对搜索结果的精确性要求大大增加。目前，主流的搜索引擎普遍存在由于对数据筛选的低精确度标准等客观或主观的因素导致搜索结果不准确，从而无法解决实际问题的情况。当在搜索引擎输入问题后通过搜索引擎工作机制获取到大量的资源，资源中涵盖了旧的信息、新的信息以及利益相关者传播的带有明显倾向性的虚假信息，导致搜索出的结果不能令用户满意。网络上资源存在时效性，在为特定用户搜索答案时以前的资源在当下可能失效或者不适用。同时，资源的来源也是衡量资源可信度的一个指标，存在个人或机构为了自身利益传播倾向于自身利益的虚假信息，正确的答案便会因为虚假信息的相对高频度出现而被淹没。在整合互联网上海量资源的基础上，分别基于显式和隐式的知识资源中匹配用户搜索需求，有针对性地找出解决方案，并将可信度高的答案和更加丰富的语义关联资源返回给用户。

发明内容

技术问题：本发明是一种容错图谱架构的智能语义搜索方法的整个方法流程，用于解决搜索出的资源失效、可信度低、资源不完整等问题。本发明可显著地提高搜索结果的准确率和完整率，提高用户满意度。

技术方案：本发明是一种策略性方法，可以应用于各种搜索引擎。本发明通过引入数据图谱、信息图谱和知识图谱三层架构，将网络上资源进行组织，对应于用户的投入等级，制订不同的搜索粒度。对用户的检索需求提取关键词，通过语义理解用户的查询意图，对搜索出的资源通过关联要素建模得出的可信度由高到低进行排序，最终将有序的资源返回给用户。

方法流程：

一种容错的基于图谱架构的智能语义搜索方法的整个方法流程具体如下：

步骤1）根据已有资源，建立处理资源框架；

步骤2）获取用户投入的金额(M)和预等待时间(T)，建立用户投入模型。预等待时间决定搜索的次数(S_times)、每次搜索的项数(S_item)和每项要搜索的时间(Pert_item)，本发明设定每次搜索的项数和每项要搜索的时间是固定的：

步骤3）获取用户搜索需求。允许用户以自然语言文本描述的形式输入其信息需求；

步骤4）提取用户搜索需求关键词；

步骤5）遍历处理资源架构，搜索相关资源。根据步骤4提取出的关键词，遍历处理资源架构，寻找相关资源；

步骤6）判断能否找到相关资源。若不能找到，在知识图谱上通过关系推理挖掘新的实体和关联关系，增强图谱结点密度和边密度，更新处理资源架构，然后重新遍历处理资源架构，寻找资源；

步骤7）构建模糊倾向性词汇表。模糊倾向性词汇指的是 “可能”、“或许”这种倾向性不确定的词语；

步骤8）对找到的资源根据倾向性按照正向和反向进行分类，答案中包括模糊倾向词汇表中词汇的资源视为无用资源；

步骤9）根据步骤（8）得到的两种倾向性资源，统计正向资源和反向资源在资源总数所占的比重（weight），其中Resource_正表示正向资源数，Resource_反表示反向资源数，Resource_总表示资源总数：

步骤10）根据步骤9得到的正反双向资源所占权重分配用户投入，确定正向和反向搜索分别要花费的时间和金额，进而确定正反双向搜索分别要递进搜索的次数：

步骤11）根据步骤8得到的资源按照资源中的关键词进行关联因素递进搜索，并计算得到信息的熵值，熵值范围是0到1，熵值越大，信息倾向越分散，可信度越低。资源是有时效性的，是按照某一关联因素进行递进搜索时，在T_k时间下得到的资源的熵值，p_i是每类答案出现的概率，entropy表示按照某一关联因素进行递进搜索时，在不同时效下得到资源的加权平均熵值，Timeliness是T_k时间资源的时效性，T_s是资源开始出现的时间，T_t是资源终止传播的时间，T_c是当前搜索者搜索资源的时间：

（7）

步骤12）根据步骤9得到的递进搜索项的熵，计算资源可信度Confidence，本发明设定在搜索前正反倾向的资源可信度都为1，n是搜索的次数，m是每次搜索的条目总数，item_i表示条目i，是按条目i递进搜索得到的资源的熵：

（9）

步骤13）根据步骤10得到的资源的可信度，判断正向资源可信度和反向资源可信度的比值是否大于阈值T或小于1/T，该阈值可根据学习算法得到。若可信度比值满足阈值条件，返回可信度大的资源给搜索者；否则步骤11遍历处理资源架构继续递进搜索；

步骤14）获取用户反馈，若用户对答案不满意，提示用户是否增加投入重新检索。若用户增加了投入，返回步骤10重新分配正向和反向投入比例，继续递进搜索。

体系结构：

与传统的搜索策略相比较，该体系结构具有基于数据图谱、信息图谱和知识图谱三层架构的优势，数据图谱允许资源出现冗余不一致等情况，对数据图谱上资源进行去冗处理，集成相关资源得到信息图谱，信息图谱允许资源缺失现象存在，在知识图谱上通过关系推理可以构建出新的实体或关系，挖掘隐式存在的资源，增加图谱的点密度和边密度。经过数据的采集和清洗、信息的描述和集成、知识的描述和推理，最终构建出资源处理架构。下面给出数据图谱、信息图谱和知识图谱的具体说明。

数据图谱

数据是通过观察获得的数字或其他类型信息的基本个体项目，但是在没有上下文语境的情况下，它们本身没有意义。数据图谱可以通过数组、链表、队列、树、栈、图等数据结构来表达。在数据图谱上，通过计算数据的频度，得出数据在数据图谱上的支持度和置信度来删除错误或无用数据，删除的条件是必须同时满足支持度和置信度的阈值要求，阈值过大不利于图谱表达的准确性，过小会不利于表达的完整性，可以根据计算图谱反馈的结果信息动态调整。数据图谱能记录关键词出现的频度，包括结构、时间和空间三个层次的频度。但数据图谱上未对数据的准确性进行分析，可能出现不同名称的数据但表示同一含义，即数据冗余。综上，数据图谱只能对数据进行静态分析，无法分析和预测数据的动态变化。结构频度、空间频度和时间频度的定义如下：

结构频度：表示数据出现在不同数据结构中的次数。请注意，数据的结构频度应根据数据出现的最大数据结构进行计算。例如，如果在图形结构的分支中以树结构出现的数据，将按图结构来计算数据的结构频度为1，不重复计算数据在树结构中出现的频度；

空间频度：我们将空间频率定义为在不同空间位置出现的数据时间，描述多个对象的相对位置。我们利用空间频率来识别物体之间的空间关系，一旦它们被下层识别并用边界框标记；

时间频度：我们将时间频率定义为在不同时间段内出现的数据时间。初始获取到的数据集合可能不完整，对于具有时间性的流式数据，一旦我们观察到这些数据，应该及时做出响应，因为过期的数据将是无意义的。

信息图谱

信息是通过数据和数据经过组合之后的上下文传达的，经过概念映射和相关关系连接之后的适合分析和解释的信息。信息图谱可以通过关系数据库来表达。信息图谱上的频度指的是实体与实体之间的交互的频度，信息图谱可以表达实体之间的交互关系，根据数据图谱上记录的数据频度和信息图谱上记录的交互频度计算多个交互实体的综合频度，筛选综合频度低于阈值的结点，并把交互频度高的实体进行集成从而提高模块的内聚性。在信息图谱上可以进行数据清洗，消除冗余数据，根据实体之间的交互度进行初步抽象，提高设计的内聚性，降低耦合度。通过圈定特定数量的实体，计算内部交互度和外部交互度，内聚性等于内部交互度和外部交互度的比值，我们设定所圈定的实体之间必须是相互连通的。

知识图谱

知识是从积累的信息中获得的总体理解和意识，将信息进行进一步的抽象和归类可以形成知识。知识图谱可以通过包含结点和结点之间关系的有向图来表达。知识图谱可以表达各种语义关系，在知识图谱上能通过信息推理和实体链接提高知识图谱的边密度和结点密度，知识图谱的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持，这些规则可以由人手动构建，但往往耗时费力，得到复杂关系中的所有推理规则更加困难。使用路径排序算法将每个不同的关系路径作为一维特征，通过在知识图谱中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系，关系的正确度超过某一阈值后认为新关系成立。关系的正确度Cr可以通过以下公式衡量，Q表示实体E1到实体E2的所有关系，π表示一类关系， θ（π）表示关系的权重，可由训练得出，最后正确度超过某一阈值后认为该关系成立：

有益效果：一种容错的基于图谱架构的智能语义搜索方法，具有如下一些显著优点：

（1）用户投入驱动：根据用户投入为用户提供搜索服务，用户投入的多少决定正反双向搜索的搜索次数、时间和内容的精度；

（2）提高搜索资源的可抽象性：面对海量结构复杂的资源，通过数据图谱、信息图谱和知识图谱三层架构建立资源处理框架，通过关系抽象规则和信息推理挖掘出隐式出现的资源，减少无法找到答案的情况；

（3）面对具有高时效性的流式数据，能有效的衡量出资源的时效性，避免失效信息影响资源的准确度；

（4）通过关联要素递进搜索，提高搜索答案的准确率和可信度。本发明通过关联要素计算出资源的可信度，避免用户收到非确信不保真的答案。

附图说明

图1是用户投入模型示意图。

图2是一种容错的基于图谱架构的智能语义搜索方法的流程示意图。

具体实施方式

一种容错的基于图谱架构的智能语义搜索方法为：

（1）对应于图2步骤001根据已有资源体系，基于数据图谱、信息图谱和知识图谱三层架构建立处理资源框架；

（2）002获取用户投入，003建立用户投入模型；

（3）对应图2步骤004获取用户搜索需求，假定用户输入的问题是“专利变更联系人地址要不要付费”；

（4）根据步骤（3）中用户的需求，005遍历处理资源架构，寻找相关资源；

（5）006判断能否找到相关资源。若不能找到，007在知识图谱上通过关系推理挖掘新的实体和关联关系，增强图谱结点密度和边密度，008更新处理资源架构，然后重新009遍历处理资源架构，寻找资源；

（6）007构建模糊倾向性词汇表。模糊倾向性词汇指的是 “可能”、“或许”这种倾向性不确定的词语；

（7）008对找到的资源根据倾向性按照正向和反向进行分类，答案中包括模糊倾向词汇表中词汇的资源视为无用资源；

（8）根据步骤（8）得到的两种倾向性资源，009统计正向资源和反向资源在资源总数所占的比重（weight），其中Resource_正表示正向资源数，Resource_反表示反向资源数，Resource_总表示资源总数：

（10）根据步骤9得到的正反双向资源所占权重010分配用户投入，011确定正向和反向搜索分别要花费的时间和金额，进而确定正反双向搜索分别要递进搜索的次数：

（11）012根据步骤8得到的资源按照资源中的关键词进行关联因素递进搜索，013并计算得到信息的熵值，熵值范围是0到1，熵值越大，信息倾向越分散，可信度越低。资源是有时效性的，是按照某一关联因素进行递进搜索时，在T_k时间下得到的资源的熵值，p_i是每类答案出现的概率，entropy表示按照某一关联因素进行递进搜索时，在不同时效下得到资源的加权平均熵值，Timeliness是T_k时间资源的时效性，T_s是资源开始出现的时间，T_t是资源终止传播的时间，T_c是当前搜索者搜索资源的时间：

（7）

（12）根据步骤9得到的递进搜索项的熵，014计算资源可信度Confidence，本发明设定在搜索前正反倾向的资源可信度都为1，n是搜索的次数，m是每次搜索的条目总数，item_i表示条目i，是按条目i递进搜索得到的资源的熵：

（9）

（13）根据步骤10得到的资源的可信度，判断正向资源可信度和反向资源可信度的比值是否大于阈值T或小于1/T，该阈值可根据学习算法得到。若可信度比值满足阈值条件，015返回可信度大的资源给搜索者；否则返回步骤11（对应图2步骤012）遍历处理资源架构继续递进搜索；

（14）016获取用户反馈，若用户对答案不满意，提示用户是否增加投入重新检索。若用户增加了投入，返回步骤10重新分配正向和反向投入比例，继续递进搜索。若用户不增加投入，020搜索结束。

Claims

1.一种容错的基于图谱架构的智能语义搜索方法，其所包含的步骤如下：

步骤1）根据已有资源，建立处理资源框架；

步骤2）获取用户投入的金额和预等待时间，建立用户投入模型，预等待时间决定搜索的次数、每次搜索的项数和每次要搜索的时间，设定每次搜索的项数和每项要搜索的时间是固定的：

步骤3）获取用户搜索需求，允许用户以自然语言文本描述的形式输入其信息需求；

步骤4）提取用户搜索需求关键词；

步骤5）遍历处理资源架构，搜索相关资源，根据步骤4提取出的关键词，遍历处理资源架构，寻找相关资源；

步骤6）判断能否找到相关资源，若不能找到，在知识图谱上通过关系推理挖掘新的实体和关联关系，增强图谱结点密度和边密度，更新处理资源架构，然后重新遍历处理资源架构，寻找资源；

步骤7）构建模糊倾向性词汇表，模糊倾向性词汇指的是 “可能”、“或许”这种倾向性不确定的词语；

步骤9）根据步骤（8）得到两种倾向性资源，统计正向资源和反向资源在资源总数所占的比重” “M表示用户投入的金额，T表示预等待时间，S_times表示搜索的次数、S_item表示每次搜索的项数，Pert_item表示每次要搜索的时间”、“weight表示两种倾向性资源，统计正向资源和反向资源在资源总数所占的比重，其中Resource_正表示正向资源数，Resource_反表示反向资源数，Resource_总表示资源总数：

其中T_{（正/反）}表示正向与反向搜索分别要花费的时间、M_{（正/反）}表示正向与反向搜索分别要花费的金额、weight_{（正/反）}表示正反双向资源所占权重，正/反表示的含义是正或反；

步骤11）根据步骤8得到的资源按照资源中的关键词进行关联因素递进搜索，并计算得到信息的熵值，熵值范围是0到1，熵值越大，信息倾向越分散，可信度越低，资源是有时效性的，是按照某一关联因素进行递进搜索时，在T_k时间下得到的资源的熵值，p_i是每类答案出现的概率，entropy表示按照某一关联因素进行递进搜索时，在不同时效下得到资源的加权平均熵值，Timeliness是T_k时间资源的时效性，T_s是资源开始出现的时间，T_t是资源终止传播的时间，T_c是当前搜索者搜索资源的时间：

（7）

步骤12）根据步骤9得到的递进搜索项的熵，计算资源可信度Confidence，设定在搜索前正反倾向的资源可信度都为1，n是搜索的次数，m是每次搜索的条目总数，item_i表示条目i，是按条目i递进搜索得到的资源的熵：

（9）

步骤13）根据步骤10得到的资源的可信度，判断正向资源可信度和反向资源可信度的比值是否大于阈值T或小于1/T，该阈值可根据学习算法得到，若可信度比值满足阈值条件，返回可信度大的资源给搜索者；否则步骤11遍历处理资源架构继续递进搜索；

步骤14）获取用户反馈，若用户对答案不满意，提示用户是否增加投入重新检索，若用户增加了投入，返回步骤10重新分配正向和反向投入比例，继续递进搜索。