CN111444327B

CN111444327B - 热点知识确定方法、装置及系统

Info

Publication number: CN111444327B
Application number: CN202010274549.5A
Authority: CN
Inventors: 宋雨
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2023-08-11
Anticipated expiration: 2040-04-09
Also published as: CN111444327A

Abstract

本发明提供了一种热点知识确定方法、装置及系统，其中方法包括：依据业务场景建立业务节点树并将知识集中各个知识点与所述业务节点树中对应的业务节点绑定；基于所述业务节点树和所述知识集计算各个知识点的关联度；至少基于各个知识点的关联度进行排序操作获得排序结果；基于排序结果确定热点知识。本发明能够基于业务节点树和知识集各个知识点的关联度，这样得到各个知识点的关联度会比较贴合真实业务场景，这样基于各个知识点的关联度确定的排序结果，能够更加贴合真实业务场景，提高确定热点知识的准确率。

Description

热点知识确定方法、装置及系统

技术领域

本申请涉及大数据技术领域，尤其涉及热点知识确定方法、装置及系统。

背景技术

智能问答系统通过一系列的逻辑处理，将用户提出的问题与知识集比对，将命中某条知识作为答案。为了能够更快的提供答案和确定热门知识，通常需要从知识集中确定热点知识。

目前主要采用统计知识点被用户问题命中的次数，将命中次数按照从高到低进行排序，排列在前的即为热点知识。

不过在业务系统上线初期用户访问量少，根据命中次数得到的热点知识存在一定偶然性，假设用户仅询问天气情况，那么则将天气作为业务系统的热点知识显然不合适。

另外，知识点与知识点之间是具有关联性的，仅仅通过命中次数来确定的热点知识，确定得到的热点知识点会偏离真实业务场景，导致确定热点知识的准确率较低。

发明内容

鉴于此，本申请提供热点知识确定方法、装置及系统，可以从知识集中准确得到符合真实业务场景的热点知识，提高确定热点知识的准确率。

为了实现上述目的，本发明提供了下述技术特征：

一种热点知识确定方法，包括：

依据业务场景建立业务节点树并将知识集中各个知识点与所述业务节点树中对应的业务节点绑定；

基于所述业务节点树和所述知识集计算各个知识点的关联度；

至少基于各个知识点的关联度进行排序操作获得排序结果；

基于排序结果确定热点知识。

可选的，在所述至少基于各个知识点的关联度进行排序操作获得排序结果之前还包括：

对各个知识点的关联度进行归一化处理，获得各个知识点的归一化关联度；

统计各个知识点的命中次数并进行归一化处理，获得各个知识点的归一化次数；

则所述至少基于各个知识点进行排序操作获得排序结果包括：

将各个知识点的归一化关联度和所述归一化次数的调和值作为各个知识点的调和平均数；

对各个知识点的调和平均数进行排序操作，基于排序结果确定热点知识。

可选的，所述基于所述业务节点树和所述知识集计算各个知识点的关联度包括：

对所述知识集中各个知识点的关联度赋予初始值；

从知识集中选择下一个知识点作为当前知识点；

基于所述业务节点树和所述知识集计算当前知识点的关联度；

判断是否遍历完所述知识集；

若未遍历完所述知识集，则重新进入所述从知识集中选择下一个知识点作为当前知识点的步骤；

若遍历完所述知识集，则计算各个知识点的关联度与上一关联度的差值；

判断各个知识点的差值是否小于阈值；

若任一知识点的差值不小于阈值则进入所述从知识集中选择下一个知识点作为当前知识点的步骤；

若各个知识点的差值均小于阈值则确定各个知识点的关联度。

可选的，所述基于所述业务节点树和所述知识集计算当前知识点的关联度包括：

基于下述公式计算当前知识点K_i的关联度KS(K_i)：

其中，d为阻尼系数，out(K_i)指全量知识集中除去K_i后的所有知识点，out(K_j)指全量知识集中除去K_j后的所有知识点，b_ji表示out(K_i)中第i个知识点与第j个知识点于所述业务节点树中的业务距离，w_ji表示out(K_i)中第i个知识点与第j个知识点于所述知识集中语义距离；

b_jm表示out(K_j)中第i个知识点与第m个知识点于所述业务节点树中的业务距离，w_jm表示out(K_j)中第i个知识点与第m个知识点于所述知识集中语义距离。

可选的，在基于下述公式计算当前知识点K_i的关联度KS(K_i)之前还包括：

计算各个知识点于所述业务节点树中的业务距离；

计算各个知识点于所述知识集的语义距离。

可选的，所述计算各个知识点于所述业务节点树中的业务距离包括：

确定任意两个知识点于所述业务节点树对应的两个业务节点；

通过下述公式计算两个业务节点之间的业务距离：

Dist(n1,n2)＝Dist(root,n1)+Dist(root,n2)-2*Dist(root,lca)；

其中，n1和n2分别为两个业务节点于业务节点树中的层数；

root为所述业务节点树的根节点层数；

lca为两个业务节点的最低公共祖先节点的层数。

可选的，所述计算各个知识点于所述知识集的语义距离包括：

使用训练好的神经网络模型对各个知识点进行分词操作；

确定每个知识点各个分词的词向量，并组成各个知识点的语句向量；

将任意两个知识点之间的夹角余弦作为该两个知识点之间的语义距离。

可选的，所述将各个知识点的归一化关联度和所述归一化次数的调和值作为各个知识点的调和平均数包括：

基于下述公式计算第i个知识点的调和平均数S_i：

其中，α，β为预先设置的归一化次数和归一化关联度的权重；

P_i为第i个知识点的归一化次数；

S_i为第i个知识点的归一化关联度。

一种热点知识确定装置，包括：

绑定单元，用于依据业务场景建立业务节点树并将知识集中各个知识点与所述业务节点树中对应的业务节点绑定；

关联度计算单元，用于基于所述业务节点树和所述知识集计算各个知识点的关联度；

排序单元，用于至少基于各个知识点的关联度进行排序操作获得排序结果；

确定单元，用于基于排序结果确定热点知识。

一种处理设备，包括：

存储器，用于存储软件程序；

处理器，用于运行所述软件程序并实现下述操作：

至少基于各个知识点的关联度进行排序操作获得排序结果；

基于排序结果确定热点知识。

通过以上技术手段，可以实现以下有益效果：

本发明提供了一种热点知识的确定方法，可以依据业务场景建立业务节点数，将知识点和业务节点数绑定，从而将知识点与业务节点建立关系。然后，基于业务节点树和知识集各个知识点的关联度，这样得到各个知识点的关联度会比较贴合真实业务场景。

然后对各个知识点的关联度进行归一化处理，获得各个知识点的归一化关联度，基于归一化关联度进行排序操作获得排序结果，基于排序结果确定热点知识。

本发明能够基于业务节点树和知识集各个知识点的关联度，这样得到各个知识点的关联度会比较贴合真实业务场景，这样基于各个知识点的关联度确定的排序结果，能够更加贴合真实业务场景，提高确定热点知识的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种热点知识的确定方法实施例一的流程图；

图2为本申请实施例公开的一种热点知识的确定方法实施例二的流程图；

图3为本申请实施例公开的一种热点知识的确定方法实施例三的流程图；

图4为本申请实施例公开的一种热点知识的确定装置的结构示意图；

图5为本申请实施例公开的一种处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提供的热点知识确定方法，应用于处理设备。处理设备可以包括业务服务器、业务处理器或业务服务器集群等设备。

下面以热点知识确定方法应用于业务服务器为例，来阐述本申请的执行过程。

参见图1，本发明提供了一种热点知识确定方法的实施例一，包括以下步骤：

步骤S101：依据业务场景建立业务节点树并将知识集中各个知识点与所述业务节点树中对应的业务节点绑定。

业务服务器存储有业务场景中各个业务节点，以及各个业务节点的结构关系(上下位关系)，然后可以基于各个业务节点的结构关系构建业务节点树。

首先，可以才能够结构关系中找到最上位的业务节点作为业务节点树的父节点，然后基于结构关系中上下位关系确定父节点下的各个子节点，再确定各个子节点的子节点，循环往复直到所有业务节点均挂在业务节点树中。

业务服务器存储有业务节点与业务节点所包含的知识点的对应关系，通过业务节点与知识点的对应关系，将知识集中各个知识点与业务节点树中对应的业务节点执行绑定操作。

知识点于业务节点树中的距离远近可以体现出知识点之间的业务距离，若两个知识点的业务距离较近，则表示两个知识点的业务功能较为相似，若两个知识点的业务距离较远，则表示两个知识点的业务功能不相似。

步骤S102：基于所述业务节点树和所述知识集计算各个知识点的关联度。

基于所述业务节点树和所述知识集计算各个知识点的关联度，该过程可以详见图3所示的实施例，在此暂时不赘述。

各个知识点的关联度可以体现出知识点的重要性，如果与某个知识点关联的知识点越多，其关联度便会越大，则说明该知识点越重要，也即为热点知识。反之，说明该知识点不重要不是热点知识。

步骤S103：至少基于各个知识点的关联度进行排序操作获得排序结果；

基于知识点的关联度进行排序操作，获得排序结果。

步骤S104：基于排序结果确定热点知识。

若排序方式为由高至低的方式获得的排序结果，则按照由高至低的顺序获得预设数量个热点知识，并可以展示或推送热点知识。

参见图2，本发明提供了一种热点知识确定方法的实施例二，包括以下步骤：

步骤S201：依据业务场景建立业务节点树并将知识集中各个知识点与所述业务节点树中对应的业务节点绑定。

步骤S202：基于所述业务节点树和所述知识集计算各个知识点的关联度。

步骤S203：对各个知识点的关联度进行归一化处理，获得各个知识点的归一化关联度。

后续需要将知识点的关联度与各个知识点的命中次数进行融合，为了便于融合，对各个知识点的关联度进行归一化处理，获得各个知识点的归一化关联度KS(K_i)。

步骤S204：统计各个知识点的命中次数并进行归一化处理，获得各个知识点的归一化次数。

在一段时间内统计各个知识点的命中次数，对各个知识点的命中次数进行归一化处理，并获得各个知识点的归一化次数P_i。

步骤S205：将各个知识点的归一化关联度和所述归一化次数的调和值作为各个知识点的调和平均数。

基于下述公式计算第i个知识点的调和平均数S_i：

P_i为第i个知识点的归一化次数；

S_i为第i个知识点的归一化关联度。

当然，还可以采用其它方式来计算各个知识点的调和平均数，例如，将各个知识点的归一化关联度和所述归一化次数的平均值作为各个知识点的调和平均数。

步骤S206：对各个知识点的调和平均数进行排序操作，获得排序结果。

步骤S207：基于排序结果确定热点知识。

参见图3，下面介绍步骤S102和步骤S202基于所述业务节点树和所述知识集计算各个知识点的关联度的过程。

步骤S301：计算各个知识点于所述业务节点树中的业务距离。

首先确定任意两个知识点于所述业务节点树对应的两个业务节点；

然后通过下述公式计算两个业务节点之间的业务距离：

Dist(n1,n2)＝Dist(root,n1)+Dist(root,n2)-2*Dist(root,lca)；

其中，n1和n2分别为两个业务节点于业务节点树中的层数；

root为所述业务节点树的根节点层数；

lca为两个业务节点的最低公共祖先节点的层数。

通过上述方式计算任意两个知识点之间的业务距离b_jt。

步骤S302：计算各个知识点于所述知识集的语义距离。

首先使用训练好的神经网络模型(例如word2vec)对各个知识点进行分词操作；然后确定每个知识点各个分词的词向量，并组成各个知识点的语句向量；最后将任意两个知识点之间的夹角余弦作为该两个知识点之间的语义距离w_jt。

步骤S303：对所述知识集中各个知识点的关联度赋予初始值。

对知识集中各个知识点的关联度赋予初始值1。

步骤S304：从知识集中选择下一个知识点作为当前知识点。

步骤S305：基于所述业务节点树和所述知识集计算当前知识点的关联度。

本实例中利用投票机制迭代出知识点的关联度，具体而言，基于下述公式计算当前知识点K_i的关联度KS(K_i)：

步骤S306：判断是否遍历完所述知识集；若是则进入步骤S307，若否则进入步骤S304。

步骤S307：若遍历完所述知识集，则计算各个知识点的关联度与上一关联度的差值。

步骤S308：判断各个知识点的差值是否小于阈值；若是则进入步骤S309，若否则进入步骤S304；

若任一知识点的差值不小于阈值则进入所述判断是否遍历完所述知识集的步骤；若各个知识点的差值均小于阈值则确定各个知识点的关联度。

步骤S309：确定各个知识点的关联度。

通过以上技术手段，可以实现以下有益效果：

参见图4，本发明提供了一种热点知识确定装置，包括：

绑定单元41，用于依据业务场景建立业务节点树并将知识集中各个知识点与所述业务节点树中对应的业务节点绑定；

关联度计算单元42，用于基于所述业务节点树和所述知识集计算各个知识点的关联度；

排序单元43，用于至少基于各个知识点的化关联度进行排序操作获得排序结果；

确定单元44，用于基于排序结果确定热点知识。

关于图4所示的实施例，可以详见图1、图2和图3所示的实施例，在此不再赘述。

通过以上技术手段，可以实现以下有益效果：

参见图5，本发明提供了一种处理设备，包括：

存储器100，用于存储软件程序；

处理器200，用于运行所述软件程序并实现下述操作：

基于所述业务节点树和所述知识集计算各个知识点的关联度并进行归一化处理，获得各个知识点的归一化关联度；

至少基于各个知识点的归一化关联度进行排序操作获得排序结果；

基于排序结果确定热点知识。

关于图5所示的实施例，可以详见图1、图2和图3所示的实施例，在此不再赘述。

通过以上技术手段，可以实现以下有益效果：

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种热点知识确定方法，其特征在于，包括：

至少基于各个知识点的关联度进行排序操作获得排序结果；

基于排序结果确定热点知识；

所述基于所述业务节点树和所述知识集计算各个知识点的关联度包括：

对所述知识集中各个知识点的关联度赋予初始值；

从知识集中选择下一个知识点作为当前知识点；

判断是否遍历完所述知识集；

判断各个知识点的差值是否小于阈值；

若各个知识点的差值均小于阈值则确定各个知识点的关联度；

所述基于所述业务节点树和所述知识集计算当前知识点的关联度包括：

基于下述公式计算当前知识点K_i的关联度KS(K_i)：

2.如权利要求1所述的方法，其特征在于，在所述至少基于各个知识点的关联度进行排序操作获得排序结果之前还包括：

3.如权利要求1所述的方法，其特征在于，在基于下述公式计算当前知识点K_i的关联度KS(K_i)之前还包括：

计算各个知识点于所述业务节点树中的业务距离；

计算各个知识点于所述知识集的语义距离。

4.如权利要求3所述的方法，其特征在于，所述计算各个知识点于所述业务节点树中的业务距离包括：

通过下述公式计算两个业务节点之间的业务距离：

Dist(n1,n2)＝Dist(root,n1)+Dist(root,n2)-2*Dist(root,lca)；

其中，n1和n2分别为两个业务节点于业务节点树中的层数；

root为所述业务节点树的根节点层数；

lca为两个业务节点的最低公共祖先节点的层数。

5.如权利要求3所述的方法，其特征在于，所述计算各个知识点于所述知识集的语义距离包括：

使用训练好的神经网络模型对各个知识点进行分词操作；

6.如权利要求2所述的方法，其特征在于，所述将各个知识点的归一化关联度和所述归一化次数的调和值作为各个知识点的调和平均数包括：

基于下述公式计算第i个知识点的调和平均数S_i：

KS(K_i)为当前知识点K_i的归一化关联度；

P_i为第i个知识点的归一化次数；

S_i为第i个知识点的归一化关联度。

7.一种热点知识确定装置，其特征在于，包括：

确定单元，用于基于排序结果确定热点知识；

所述关联度计算单元具体用于：

对所述知识集中各个知识点的关联度赋予初始值；

从知识集中选择下一个知识点作为当前知识点；

判断是否遍历完所述知识集；

判断各个知识点的差值是否小于阈值；

所述关联度计算单元具体用于：

基于下述公式计算当前知识点K_i的关联度KS(K_i)：

8.一种处理设备，其特征在于，包括：

存储器，用于存储软件程序；

处理器，用于运行所述软件程序并实现下述操作：

至少基于各个知识点的关联度进行排序操作获得排序结果；

基于排序结果确定热点知识；

对所述知识集中各个知识点的关联度赋予初始值；

从知识集中选择下一个知识点作为当前知识点；

判断是否遍历完所述知识集；

判断各个知识点的差值是否小于阈值；

基于下述公式计算当前知识点K_i的关联度KS(K_i)：