CN115017255A

CN115017255A - 一种基于树状结构的知识库构建和搜索方法

Info

Publication number: CN115017255A
Application number: CN202210944028.5A
Authority: CN
Inventors: 徐海平
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-06
Anticipated expiration: 2042-08-08
Also published as: CN115017255B

Abstract

本发明公开了一种基于树状结构的知识库构建和搜索方法，属于人工智能技术领域。该方法中，知识库由若干棵知识树构成，每棵树包含分类知识以及树的整体权重。在构建知识库时先对知识进行分类，再抽取出若干的实体，计算各个实体之间的关联权重，在弱关联实体之间加入通配实体，最后根据关联权重构建知识树。访问知识库时，依照树的权重挨个访问所有的树，并根据实体之间的关联权重进行深度优先搜索，找到结果之后根据全链路权重计算得分，当得分高于设定的阈值，则忽略尚未访问的树返回立即结果，否则在所有的结果中取最高分为最终结果。根据最终结果，增强树的权重以及链路中实体的关系，否则弱化树的权重和链路中实体的关系。

Description

一种基于树状结构的知识库构建和搜索方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于树状结构的知识库构建和搜索方法。

背景技术

目前的聊天机器人中，除去深度学习训练的机器人之外，还有大量依靠人工配置知识库的聊天机器人应用。这些聊天机器人知识库中的知识按照其特征被按照一定的组织和结构存储，再通过一定的推理算法从知识库中找出给定问题的答案。当前使用最广泛的推理算法都采用了轮询方式进行结果推理，数据的存放也采用了扁平化结构，这种结构不利于包含大量知识的知识库构建，对于问题的输入也有着较为严格的要求。其次在实际应用中同一个问题在不同场合下往往有着完全不同的答案，这种情况下传统的知识库推理算法在一些问题求解过程中容易出现答非所问的情况，无法对当前语境做出正确的判断，而且这种情况即使通过人工干预的方式也难得到满意的结果。

发明内容

本发明提供了一种基于树状结构的知识库构建和搜索方法，解决了在基于人工配置知识库的聊天机器人中，现有的构建和搜索知识库的技术中存在的上述局限性问题，使得相同问题可以在不同的场合下给出不同的答案，实现更加智能的聊天机器人。

本发明提供了一种基于树状结构的知识库构建和搜索方法，包括：知识分类；对知识进行实体抽取；计算实体之间的关联权重；在弱关联实体间插入通配实体；根据权重构建知识树；搜索时依据权重进行深度优先搜索；找到搜索结果时计算全链路得分；得分高于阈值时终止搜索并返回结果，否则继续搜索；所有得分均不高于阈值时在所有搜索结果中取出最高分并返回结果；根据最终结果动态调整树的权重；根据最终结果增强或者弱化实体间关系。

对知识分类的步骤，包括：将知识按照其所属领域进行分类划分，每个领域的知识依次进行实体抽取。

对实体抽取的步骤，包括：对待抽取的内容进行分词处理，基于预先准备的分词模型，得到分词列表，对分词列表进行初步过滤保留预设词性的分词。

对实体关联权重计算步骤，包括：基于预先训练的分词统计模型，获取分词的出现频，根据分词共同的出现频率计算权重。共同出现频率越多的分词权重越大。

对弱关联实体插入通配实体步骤，包括：对于关联权重值小于设定阈值的两个实体，在两个实体中间插入一个通配实体，由通配实体分别关联两个实体，通配实体用于锁定两个实体之间的关联权重。

对根据权重构建知识树步骤，包括：将实体按照关联关系依次加入知识树中，从知识树的根节点R开始，将第一个实体和根节点R相连接，链接强度设定为0，如果已经存在相同实体则跳过该实体，将第二个实体和第一个节点相连，链接强度为设定为实体1和实体2的关联权重，同样如果存在相同实体则跳过该实体，直到所有实体都加入知识树。

对搜索时依据权重进行深度优先搜索步骤，包括：从每棵树的根节点R开始访问，从与根节点R相连的未被访问的实体节点出发，对知识树进行深度优先遍历，优先遍历关联权重更高的实体，直至树中和根节点R有路径相通的实体都被访问或者找到符合条件的答案，每棵树都可能会找到不定数量的答案。

对找到搜索结果时计算全链路得分步骤，包括：统计全链路上所有实体之间关系的权重值，将所有权重值相加之后除以实体总数获取平均权重值，平均权重值即为本次搜索结果的得分。

对得分高于阈值时终止搜索并返回结果，否则继续搜索步骤，包括：出现符合条件的搜索结果，计算其全链路得分之后，当得分大于设定的阈值，则终止后续的搜索行为，将该搜索结果作为最终结果。

对所有得分均不高于阈值时在所有搜索结果中取出最高分并返回结果步骤，包括：如果所有的搜索结果的得分都无法达到设定的阈值，那么从所有可用的搜索结果中找出链路得分最高的一项搜索结果作为最终结果。

对根据最终结果动态调整树的权重步骤，包括：将本次最终结果所在树的权重加1，达到设定的上限之后不再增加，搜索结果但并未提供最终结果的树权重不变，其他树的权重减1，达到设定的下限之后不再减少。

对根据最终结果增强或者弱化实体间关系步骤，包括：全链路上实体之间的关联权重根据所在深度，依次增加深度对应的值，例如第一层实体关联关系增加1，第二层关联关系增加2，达到设定的上限之后不再增加，通配实体的权重不做调整。如果本次最终结果被标记为错误，则依次扣除深度对应的权重值。

本发明还提供了一种基于树状结构的知识库构建和搜索系统，所述系统包括至少一个处理器和至少一个存储器，所述至少一个存储器中存储有计算机程序代码，通过所述至少一个处理器执行所述至少一个存储器中存储的所述计算机程序代码以实现上述一种基于树状结构的知识库构建和搜索方法的各个步骤，其中，所述至少一个存储器中的每个存储器至少存储有所述计算机程序代码中的一部分。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码的至少一部分，所述计算机程序代码在被至少一个处理器执行时能够实现上述一种基于树状结构的知识库构建和搜索方法的各个步骤。

本发明不仅提升了知识库中知识搜索的准确性，减少了知识库优化中的人工干预耗时，还提供了针对其他领域的泛化性。同时，本发明不仅考虑实体之间的关联性，还支持根据搜索历史动态调节实体之间的关系权重，这样可以更好的刻画实体之间的关系，提升知识搜索中边界判断的准确率。

附图说明

图1为本发明实施例提供的一种基于树状结构的知识库构建和搜索方法的步骤流程图；

图2为本发明实施例提供的一种抽取知识中的实体并拼接获得新的实体的过程示意图；

图3为本发明实施例提供的一种计算实体权重并在弱关联实体之间加入通配实体的过程示意图；

图4为本发明实施例提供的一种关联实体合并的过程示意图；

图5为本发明实施例提供的一种通过实体构建的知识树的结构示意图；

图6为本发明实施例提供的一种知识树中实体搜索过程示意图；

图7为本发明实施例提供的一种计算链路得分的过程示意图；

图8为本发明实施例提供的一种知识树权重调整过程示意图；

图9为本发明实施例提供的一种实体权重调整过程示意图。

具体实施方式

本发明提供了一种基于树状结构的知识库构建和搜索方法，为了使本发明的特征能够更加明显且易懂，下面将结合附图对本发明的具体实施方式做详细说明，显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。

基于所描述的具体实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种基于树状结构的知识库构建和搜索方法的步骤流程图。

本发明提供了一种基于树状结构的知识库构建和搜索方法，具体包括以下步骤：

步骤101，知识分类；在本发明的实施例中，在构建知识库之前，需要先对知识按照所属领域进行人工标注分类。知识领域划分可以面向业务或者行业，例如金融领域、保险领域、通信领域等等，可按照实际的应用场景进行领域规划。

每个知识数据由三段文本构成，分别是输入模板、反馈条件以及反馈输出，其中输入模板和反馈输出不可缺少，反馈条件则指触发该问题所需要的知识库前置输出结果，其作为可选项可用于支持上下文语境判断。

步骤102，对知识进行实体抽取；在知识按照所属领域分类之后，可以执行实体抽取，其中抽取得到的结果由若干组分词构成。

步骤102可以包括以下子步骤：

S201，对输入模板进行实体抽取；

S202，对反馈条件进行实体抽取；

S203，将输入模板抽取的实体和反馈条件抽取的实体组合成新的实体。

对于输入模板和反馈条件的实体抽取，主要抽取出文本中原子信息，例如组织机构、地理位置、时间日期、人物名称等等。在本实施例中，对于文本中原子信息抽取可以通过预设的分词模型或命名实体识别相关算法进行实体提取。首先对文本按分词进行划分，得到一个分词列表，然后再从分词列表中过滤出关键实体。在得到输入模板和反馈条件的实体列表之后，按照输入模板的实体在前，反馈条件的实体在后，中间插入边界实体的规则将两组实体重新拼接成一组新的实体，插入边界实体是为了能在新的实体列表中区分出输入模板的实体和反馈条件的实体。如图2所示，本发明实施例提供的一种抽取知识中的实体并拼接获得新的实体的过程示意图。

步骤103，计算实体之间的关联权重；知识实体抽取完成之后得到一组实体，遍历这组实体，依次计算两个实体之间的关联权重。

在本实施例中，对于实体之间关联权重的计算可以通过预设的分词模型。将边界实体左右两边的实体依次遍历，每次计算相邻的两个实体，统计两个实体在分词库中共同出现的频率，将共同出现的次数作为初始权重值，此外还可以通过加权的方式调整实体之间的权重。

步骤104，在弱关联实体间插入通配实体；计算得到实体之间关联权重后，如果关联权重的值小于给定的阈值，则在这两个实体中间插入通配实体，除此之外还可以在实体列表的头部和尾部固定加入通配实体。

通配实体的作用是在搜索知识时，如果两个弱关联实体之间插入了其他实体，而这些实体在构建知识库时并未加入到知识库中，通配实体可以暂时替代插入的其他实体，实现锁定实体之间权重的功能，使得知识搜索链路可以联通，从而找到正确的结果。

如图3所示，本发明实施例提供的一种计算实体一种基于高空空气质量监测的权重并在弱关联实体之间加入通配实体的过程示意图。

通配实体也为之后的知识库优化以及扩展提供空间，当将新的知识加入到知识库中，一些新增的实体以及实体间关联关系也会产生，而原本为了填充实体间弱关联关系的通配实体则会被这些强关联关系的实体替代，并加入新的通配实体完善知识链路。

如图4所示，本发明实施例提供的一种关联实体合并的过程示意图。

步骤105，根据权重构建知识树；插入通配实体之后，得到最终的实体列表，遍历该实体列表，将实体依次加入树中，构建知识树。

每个知识领域都有独立的知识树，所有该领域的知识都会添加到该知识树上，在构建知识树之前，首先判断知识所属的知识树是否存在，如果不存在则新建一棵只包含根节点的知识树。然后遍历知识的实体列表从知识树的根节点R开始，将第一个实体和根节点R相连接，链接强度设定为0，如果已经存在相同实体则跳过该实体，将第二个实体和第一个节点相连，链接强度为设定为实体1和实体2的关联权重，同样如果存在相同实体则跳过该实体，直到所有实体都加入知识树。最后将知识的反馈输出绑定到最后一个实体所在的节点上，这个反馈输出就是这条知识链路搜索的最终结果，节点可以绑定多个输出反馈，这些输出反馈可以组成一组反馈结果。如图5所示，本发明实施例提供的一种通过实体构建的知识树的结构示意图。

步骤106，搜索时依据权重进行深度优先搜索；知识库构建完成之后，即可通过该知识库实现问题求解，知识库会记录每颗知识树的权重，权重高的树将优先成为搜索对象，初始所有树的权重都为100。

步骤106可以包括以下子步骤：

S601，对输入的问题进行实体抽取；

S602，对知识库前置结果进行实体抽取；

S603，将输入问题抽取的实体和前置结果抽取的实体组合成新的实体；

S604，将实体列表输入知识库中，查找问题求解的结果；

求解问题时，首先对输入的问题进行实体抽取，主要抽取出文本中原子信息，例如组织机构、地理位置、时间日期、人物名称等等。在本实施例中，对于文本中原子信息抽取可以通过预设的分词模型进行实体提取。首先对输入文本按分词进行划分，得到一个分词列表，然后再从分词列表中过滤出关键实体。如果知识库包含前置输出，则同样对前置输出进行实体抽取，然后将输入问题抽取的实体和前置结果抽取的实体组合成新的实体。

然后将获取的问题实体列表输入知识库中，知识库从所有知识树中找出和输入实体列表相匹配的知识链路，按照每棵树的权重，从权重最高的树开始，从树的根节点R出发，按照权重顺序访问R的子节点，如果R的子节点包含需要搜索的实体，则进入该子节点，继续在该节点的子节点中搜索下一个实体，搜索不到实体则跳回父节点。当无法在强关联节点中搜索到实体时，则继续在弱关联节点中查找，弱关联节点在搜索时可以暂时代替任何实体，实现链路的暂时联通。按照该流程对知识树进行深度优先搜索，当搜索到实体列表的最后一个实体或者边界实体时，如该当前节点包含反馈输出，则将该反馈输出作为求解的答案记录并继续搜索，如没有搜索到符合链路的知识或者节点不存在反馈输出，则表示当前知识树对该问题暂时无法求解。如图6所示，本发明实施例提供的一种知识树中实体搜索过程示意图。

步骤107，找到搜索结果时计算全链路得分；当在知识树中获得反馈输出后，统计该链路的所有节点上实体的关系权重值，将所有权重值相加之后除以实体总数获取平均权重值，平均权重值即为本次搜索结果的全链路得分，并将结果以及其链路得分保存。

在本实施例中，考虑到使用通配实体找到的知识链路，其链路得分应当受到链路上通配实体的影响，故链路中的通配实体越多，最终的全链路得分也更低。

如图7所示，本发明实施例提供的一种计算链路得分的过程示意图。

步骤108，得分高于阈值返回结果，否则继续搜索；在每次搜索找到结果时，获取结果对应的链路得分，将链路得分与设定的阈值进行比较，如果得分大于设定的阈值，则停止搜索并将该结果作为问题的最终解返回。

步骤109，在所有搜索结果中取出最高分；如果所有的搜索结果都无法达到设定的链路得分阈值，那么从所有可用的结果中找出链路得分最高的一项作为问题的最终解返回。

步骤110，根据最终结果动态调整树的权重；当获取到最终结果之后，将本次最终结果所处的知识树的权重增加1，权重达到设定的上限之后不再增加，其他找到结果但并未被选为最终结果的知识树的权重不变，其他知识树的权重减1，权重达到设定的下限之后不再减少。

如果最终结果是链路得分大于阈值的，这种情况下有一些知识树并未进行过搜索，在本实施例中，依然遵循上述的权重调整方案，对于这些并未执行过搜索的知识树，将其权重减1，权重达到设定的下限之后不再减少。

知识树的权重调整之后，下一次问题求解将按照最新的知识树权重进行搜索。

如图8所示，本发明实施例提供的一种知识树权重调整过程示意图。

步骤111，根据最终结果增强或者弱化实体间关系；当获取到最终结果之后，将本次最终结果知识链路上除通配实体之外的所有实体，根据实体所在树节点的深度增加关联权重。

首先获取最终结果的知识链路上的所有节点列表，从根节点开始，依次增加节点上实体的关联权重，例如第一层节点的实体关联权重增加1，第二层节点的实体关联权重增加2，如果实体类型是通配实体则跳过该节点，直到链路上所有节点的实体关联权重都调整完成，权重达到设定的上限之后不再增加。

知识库产生的最终的结果不一定是输入问题的最终解，知识库允许对产生的最终结果做人工错误标注，如果产生的结果被人工标注为错误解，那么则相应的弱化最终结果的知识链路上的所有节点实体的关联权重，扣除权重是增加权重的2倍，从根节点开始，依次扣除节点上实体的关联权重，例如第一层节点的实体关联权重减少2，第二层节点的实体关联权重减少4，如果实体类型是通配实体则跳过该节点，直到链路上所有节点的实体关联权重都调整完成，权重达到设定的下限之后不再减小。

如图9所示，本发明实施例提供的一种实体权重调整过程示意图。

本发明的又一实施例提供了一种基于树状结构的知识库构建和搜索系统，所述系统包括至少一个处理器和至少一个存储器，所述至少一个存储器中存储有计算机程序代码，通过所述至少一个处理器执行所述至少一个存储器中存储的所述计算机程序代码以实现上述一种基于树状结构的知识库构建和搜索方法的各个步骤，其中，所述至少一个存储器中的每个存储器至少存储有所述计算机程序代码中的一部分。

本发明的又一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码的至少一部分，所述计算机程序代码在被至少一个处理器执行时能够实现上述一种基于树状结构的知识库构建和搜索方法的各个步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制，显然本发明不限于上述示范性实施例的细节；对于本领域技术人员而言，其可以在上述实施例的技术方案上进行修改或者对部分技术特征进行等同替换，在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于树状结构的知识库构建的方法，其特征在于包括以下步骤：

步骤S1：对知识按照其所属领域进行分类划分；步骤S2：对知识分类后的每个领域的知识依次进行实体抽取；步骤S3：计算实体之间的关联权重；步骤S4：在弱关联实体间插入通配实体；步骤S5：根据关联权重构建每个领域的知识树，根据所有构建的知识树构建树状结构的知识库。

2.根据权利要求1所述的一种基于树状结构的知识库构建的方法，其特征在于，所述步骤S2包括：步骤S21：对待抽取的内容进行分词处理；步骤S22：基于预先准备的分词模型或命名实体识别相关算法，得到分词列表，对分词列表进行初步过滤保留预设词性的分词。

3.根据权利要求1所述的一种基于树状结构的知识库构建的方法，其特征在于，所述步骤S3包括：基于预先训练的分词统计模型，获取分词的出现频率，根据分词共同的出现频率计算权重，共同出现频率越多的分词得到的权重越大。

4.根据权利要求1所述的一种基于树状结构的知识库构建的方法，其特征在于，所述步骤S4包括：对于关联权重值小于设定阈值的两个实体，在两个实体中间插入一个通配实体，由通配实体分别关联两个实体，通配实体用于锁定两个实体之间的关联权重。

5.根据权利要求1所述的一种基于树状结构的知识库构建的方法，其特征在于，所述步骤S5包括：步骤S51：将实体按照关联关系依次加入知识树中，从知识树的根节点R开始；步骤S52：将第一个实体和根节点R相连接，链接强度设定为0，如果已经存在相同实体则跳过该实体；步骤S53：将第二个实体和第一个节点相连，链接强度为设定为第一个实体和第二个实体之间的关联权重，同样如果存在相同实体则跳过该实体，直到所有实体都加入对应领域的知识树，根据所有构建的知识树构建树状结构的知识库。

6.一种搜索知识节点的方法，应用于上述权利要求1至5任一项所述的树状结构的知识库，其特征在于，所述方法包括以下步骤：对于用户输入的问题依据权重进行深度优先搜索；找到搜索结果时计算全链路得分；得分高于阈值时停止搜索并返回结果，否则继续搜索；所有得分均不高于阈值时在所有搜索结果中取出最高分并返回结果；根据最终结果动态调整树的权重；根据最终结果增强或者弱化实体间关系；输出用户所需搜索结果。

7.根据权利要求6所述的一种搜索知识节点的方法，其特征在于：所述一种搜索知识节点的方法步骤具体包括：从每棵树的根节点R开始访问，从与根节点R相连的未被访问的实体节点出发，对知识树进行深度优先遍历，优先遍历关联权重更高的实体，直至树中和根节点R有路径相通的实体都被访问或者找到符合条件的答案，每棵树都可能会找到不定数量的答案。

8.根据权利要求6所述的一种搜索知识节点的方法，其特征在于：所述找到搜索结果时计算全链路得分的步骤具体包括：统计全链路上所有实体之间关系的权重值，将所有权重值相加之后除以实体总数获取平均权重值，所述平均权重值即为本次搜索结果的得分。

9.根据权利要求6所述的一种搜索知识节点的方法，其特征在于：所述根据最终结果动态调整树的权重的步骤具体包括：将本次最终结果所在树的权重增加预设值，达到设定的上限之后不再增加，搜索结果但并未被采纳的答案的树权重不变，其他树的权重减少预设值，达到设定的下限之后不再减少。

10.根据权利要求6所述的一种搜索知识节点的方法，其特征在于：所述根据最终结果增强或者弱化实体间关系的步骤具体包括：全链路上实体之间的关联权重根据所在深度，依次增加深度对应的值，达到设定的上限之后不再增加，通配实体的权重不做调整，如果本次最终结果被标记为错误，则依次扣除深度对应的权重值，达到设定的下限之后不再减少。

11.一种基于树状结构的知识库构建和搜索系统，所述系统包括至少一个处理器和至少一个存储器，所述至少一个存储器中存储有计算机程序代码，通过所述至少一个处理器执行所述至少一个存储器中存储的所述计算机程序代码以实现权利要求1-5任一项所述的基于树状结构的知识库构建的方法或者权利要求6-10任一项所述的搜索知识节点的方法的各个步骤，其中，所述至少一个存储器中的每个存储器至少存储有所述计算机程序代码中的一部分。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码的至少一部分，所述计算机程序代码在被至少一个处理器执行时能够实现权利要求1-5任一项所述的基于树状结构的知识库构建的方法或者权利要求6-10任一项所述的搜索知识节点的方法的各个步骤。