CN111984688A

CN111984688A - 业务知识关联关系的确定方法及装置

Info

Publication number: CN111984688A
Application number: CN202010837959.6A
Authority: CN
Inventors: 申亚坤
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-24
Anticipated expiration: 2040-08-19
Also published as: CN111984688B

Abstract

本发明公开了一种业务知识关联关系的确定方法及装置，该方法包括：根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；根据每条知识与客户业务请求的相关性，确定每条知识的权重；筛选出权重大于阈值的多条知识，根据筛选出的多条知识和对应的权重，建立频繁模式树FP‑tree，确定筛选出的多条知识包含的各个元素的频繁项集；根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系，本发明可以基于权重计算得到与客户业务请求相关性较高的知识，基于FP树挖掘多条知识之间的关联关系，提高知识关联关系的精确度。

Description

业务知识关联关系的确定方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种业务知识关联关系的确定方法及装置。

背景技术

知识库是银行业务知识沉淀的仓库，知识库应用时对关联知识的使用是非常频繁的，但是现有的关联知识只能通过人工设置或者简单的文本相似度计算进行关联，不能真实的反映知识之间的关联关系。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供一种业务知识关联关系的确定方法，用以精确的确定业务知识关联关系，该方法包括：

根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；

根据每条知识与客户业务请求的相关性，确定每条知识的权重；

筛选出权重大于阈值的多条知识；

根据筛选出的多条知识和对应的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各个元素的频繁项集；

根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系。

本发明实施例提供一种业务知识关联关系的确定装置，用以精确的确定业务知识关联关系，该装置包括：

相关知识查询模块，用于根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；

权重确定模块，用于根据每条知识与客户业务请求的相关性，确定每条知识的权重；

筛选模块，用于筛选出权重大于阈值的多条知识；

频繁项集确定模块，用于根据筛选出的多条知识和对应的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各个元素的频繁项集；

关联关系确定模块，用户根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述业务知识关联关系的确定方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有执行上述业务知识关联关系的确定方法的计算机程序。

本发明实施例通过：根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；根据每条知识与客户业务请求的相关性，确定每条知识的权重；筛选出权重大于阈值的多条知识，可以得到与客户业务请求相关性较高的知识；根据筛选出的多条知识和对应的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各个元素的频繁项集；根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系可以基于FP树挖掘多条知识之间的关联关系，提高知识关联关系的精确度，减少了客服端对关联知识的检索时长，便于客服端为客户提供高效、优质的业务服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中业务知识关联关系的确定方法流程的示意图；

图2为图1中步骤102的具体流程的示意图；

图3为图1中步骤104的具体流程的示意图；

图4为本发明实施例中业务知识关联关系的确定装置结构的示意图；

图5为频繁项集确定模块结构的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、装置、方法或计算机程序产品。因此，本发明公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

为了解决现有的关联知识只能通过人工设置或者简单的文本相似度计算进行关联，不能真实的反映知识之间的关联关系的技术问题，本发明实施例提供一种业务知识关联关系的确定方法，用以精确的确定业务知识关联关系，图1为本发明实施例中业务知识关联关系的确定方法流程的示意图，如图1所示该方法包括：

步骤101：根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；

步骤102：根据每条知识与客户业务请求的相关性，确定每条知识的权重；

步骤103：筛选出权重大于阈值的多条知识；

步骤104：根据筛选出的多条知识和对应的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各个元素的频繁项集；

步骤105：根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系。

如图1所示，本发明实施例通过：根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；根据每条知识与客户业务请求的相关性，确定每条知识的权重；筛选出权重大于阈值的多条知识，可以得到与客户业务请求相关性较高的知识；根据筛选出的多条知识和对应的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各个元素的频繁项集；根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系可以基于FP树挖掘多条知识之间的关联关系，提高知识关联关系的精确度，减少了客服端对关联知识的检索时长，便于客服端为客户提供高效、优质的业务服务。

具体实施时，知识库是银行业务知识沉淀的仓库，步骤101中，可以根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识，接着，需要对多条知识进行筛选。

图2为图1中步骤102的具体流程的示意图，如图2所示，在一个实施例中，步骤102中，根据每条知识与客户的业务请求的相关性，确定每条知识的权重，可以包括：

步骤201：对于每条知识，分别确定知识的标题、知识包含的元素、知识的类型、知识的关键词和知识的模板字段，与客户的业务请求的相关性；

步骤202：根据知识的标题、知识包含的元素、知识的类型、知识的关键词和知识的模板字段，与客户的业务请求的相关性，确定每条知识的权重。

在一个实施例中，可以按照如下公式确定每条知识的权重：

weight＝title^1.5×knowledgecontent^1.3×attachcontent^0.7×attachrname×subject^1.2×keyword^1.5×filedname^1.5；

式中，weight为知识的权重；title为知识的标题与客户业务请求的相关性；knowlegecontent为知识包含的元素与客户业务请求的相关性；attachcontent为知识附件包含的元素与客户业务请求的相关性；attachrname为知识附件的标题与客户业务请求的相关性；subject为知识的类型与客户业务请求的相关性；keyword为知识的关键词与客户业务请求的相关性；filedname为知识的模板字段与客户业务请求的相关性。

具体实施时，在客服端使用知识库的过程中，有一些维度是他们选择知识的依据，例如：关联知识与客户业务请求标题最相近、关联知识与客户业务请求模板字段一致、关联知识中包含客户业务请求的关键词等，步骤102中，对于每条知识，可以分别确定知识的标题、知识包含的元素、知识的类型、知识的关键词和知识的模板字段，与客户的业务请求的相关性，由于一些知识中包含有附件，还可以计算知识附件的标题与客户业务请求的相关性、知识附件的标题与客户业务请求的相关性，然后可以基于上述公式计算每条知识的权重。

步骤103中，可以将多条知识的权重按照从大到小的顺序排序，筛选出权重大于阈值的多条知识，这样，一方面可以得到与客户业务请求相关性较高的知识，另一方面可以缩减知识的范围，避免客户端遍历海量知识。

图3为图1中步骤104的具体流程的示意图，如图3所示，在一个实施例中，步骤104，根据筛选出的多条知识，以及每条知识的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各项元素的频繁项集，可以包括：

步骤301：遍历筛选出的多条知识，计算筛选出的多条知识包含的各项元素的频数；

步骤302：对于每条知识，将该条知识包含的各项元素按照频数从大到小的顺序排序，将频数小于最小支持度对应的元素删除；

步骤303：建立初始FP-tree，创建FP-tree的根节点；

步骤304：再次遍历筛选出的多条知识，按照筛选出的多条知识的权重从大到小的顺序，依次将多条知识加入FP-tree中，其中，对于每条知识，按照该条知识包含的各项元素的频数从大到小的顺序，依次将各项元素加入FP-tree的子节点中；

步骤305：根据建立好的FP-tree确定各项元素的条件模式基；

步骤306：根据各项元素的条件模式基，确定各项元素的频繁项集。

在一个实施例中，上述步骤304中，按照该条知识包含的各项元素的频数从大到小的顺序，依次将各项元素加入FP-tree的子节点中，可以包括：

按照该条知识包含的各项元素的频数从大到小的顺序，依次判断该条知识中的元素是否存在于FP-tree的已有的子节点中；

若存在，则更新对应的子节点的计数值；

若不存在，则建立新的子节点。

具体实施时，步骤104中，首先遍历筛选出的多条知识，计算筛选出的多条知识包含的各项元素的频数，创建头指针列表，每个列表元素包括：元素项、该项的全局最小支持度、指向FP-tree中该项链表的表头的指针，接着，对于每条知识，将该条知识包含的各项元素按照频数从大到小的顺序排序，将频数小于最小支持度对应的元素过滤，接着，建立初始FP-tree，创建FP-tree的根节点，再次遍历筛选出的多条知识(过滤后的数据)，按照筛选出的多条知识的权重从大到小的顺序，即步骤102中确定的权重，依次将多条知识加入FP-tree中，需要说明的是，根据权重将多条知识排序将会影响FP-tree的结构，从而影响后续频繁项集的结果，能够得到与客户业务需求强相关的频繁项集，在依次将多条知识加入FP-tree的过程中，对于每条知识，可以按照该条知识包含的各项元素的频数从大到小的顺序，依次将各项元素加入FP-tree的子节点中，具体过程包括：依次判断该条知识中的元素是否存在于FP-tree的已有的子节点中，若存在，则按路径找到该元素对应的子节点，修改对应的子节点的计数值，若不存在，则建立新的子节点，并在头指针列表中添加一个指向该子节点的指针。

在建立好FP-tree后，从FP-tree的头指针列表中的单个频繁元素项开始，对于每一个元素项，获得其对应的条件模式基(conditional pattern base)，为了发现更多的频繁项集，对于每一个频繁项，都要创建一棵条件FP-tree树，可以使用条件模式基作为输入数据，并通过相同的建树代码来构建这些树，过滤不满足最小支持度的频繁项，然后，递归地发现频繁项、发现条件模式基，以及发现另外的条件树，重复执行上述步骤，直至确定各个元素的最终的频繁项集。

具体实施时，步骤105中，在确定筛选出的多条知识包含的各个元素的频繁项集后，可以根据置信度发现关联规则，进而确定筛选出的多条知识的关联关系，将筛选出的多条知识的关联关系推送至客服端，这样基于FP树挖掘多条知识之间的关联关系，提高了知识关联关系的精确度，减少了客服端对关联知识的检索时长，便于客服端为客户提供高效、优质的业务服务。

基于同一发明构思，本发明实施例中还提供了一种业务知识关联关系的确定装置，如下面的实施例。由于业务知识关联关系的确定装置解决问题的原理与业务知识关联关系的确定方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明实施例提供一种业务知识关联关系的确定装置，用以精确的确定业务知识关联关系，图4为本发明实施例中业务知识关联关系的确定装置结构的示意图，如图4所示，该装置包括：

相关知识查询模块01，用于根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；

权重确定模块02，用于根据每条知识与客户业务请求的相关性，确定每条知识的权重；

筛选模块03，用于筛选出权重大于阈值的多条知识；

频繁项集确定模块04，用于根据筛选出的多条知识和对应的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各个元素的频繁项集；

关联关系确定模块05，用户根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系。

在一个实施例中，权重确定模块02具体用于：

对于每条知识，分别确定知识的标题、知识包含的元素、知识的类型、知识的关键词和知识的模板字段，与客户的业务请求的相关性；

根据知识的标题、知识包含的元素、知识的类型、知识的关键词和知识的模板字段，与客户的业务请求的相关性，确定每条知识的权重。

在一个实施例中，权重确定模块02进一步用于：

按照如下方式确定每条知识的权重：

图5为频繁项集确定模块结构的示意图，如图5所示，在一个实施例中，频繁项集确定模块04可以包括：

FP-tree建立单元041，用于：

遍历筛选出的多条知识，计算筛选出的多条知识包含的各项元素的频数；

对于每条知识，将该条知识包含的各项元素按照频数从大到小的顺序排序，将频数小于最小支持度对应的元素删除；

建立初始FP-tree，创建FP-tree的根节点；

再次遍历筛选出的多条知识，按照筛选出的多条知识的权重从大到小的顺序，依次将多条知识加入FP-tree中，其中，对于每条知识，按照该条知识包含的各项元素的频数从大到小的顺序，依次将各项元素加入FP-tree的子节点中；

频繁项集确定单元042，用于：

根据建立好的FP-tree确定各项元素的条件模式基；根据各项元素的条件模式基，确定各项元素的频繁项集。

在一个实施例中，FP-tree建立单元041具体用于：

若存在，则更新对应的子节点的计数值；

若不存在，则建立新的子节点。

综上所述，本发明实施例通过：根据客户的业务请求，从知识库中查询与客户业务请求相关的多条知识；根据每条知识与客户业务请求的相关性，确定每条知识的权重；筛选出权重大于阈值的多条知识，可以得到与客户业务请求相关性较高的知识；根据筛选出的多条知识和对应的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各个元素的频繁项集；根据筛选出的多条知识包含的各个元素的频繁项集，确定筛选出的多条知识的关联关系可以基于FP树挖掘多条知识之间的关联关系，提高知识关联关系的精确度，减少了客服端对关联知识的检索时长，便于客服端为客户提供高效、优质的业务服务。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种业务知识关联关系的确定方法，其特征在于，包括：

筛选出权重大于阈值的多条知识；

2.如权利要求1所述的方法，其特征在于，根据每条知识与客户的业务请求的相关性，确定每条知识的权重，包括：

3.如权利要求2所述的方法，其特征在于，按照如下方式确定每条知识的权重：

4.如权利要求1所述的方法，其特征在于，根据筛选出的多条知识，以及每条知识的权重，建立频繁模式树FP-tree，确定筛选出的多条知识包含的各项元素的频繁项集，包括：

建立初始FP-tree，创建FP-tree的根节点；

根据建立好的FP-tree确定各项元素的条件模式基；

根据各项元素的条件模式基，确定各项元素的频繁项集。

5.如权利要求4所述的方法，其特征在于，按照该条知识包含的各项元素的频数从大到小的顺序，依次将各项元素加入FP-tree的子节点中，包括：

若存在，则更新对应的子节点的计数值；

若不存在，则建立新的子节点。

6.一种业务知识关联关系的确定装置，其特征在于，包括：

筛选模块，用于筛选出权重大于阈值的多条知识；

7.如权利要求6所述的装置，其特征在于，所述权重确定模块具体用于：

8.如权利要求7所述的装置，其特征在于，所述权重确定模块进一步用于：

按照如下方式确定每条知识的权重：

9.如权利要求6所述的装置，其特征在于，所述频繁项集确定模块具体用于：

建立初始FP-tree，创建FP-tree的根节点；

根据建立好的FP-tree确定各项元素的条件模式基；

根据各项元素的条件模式基，确定各项元素的频繁项集。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。