CN109446410A

CN109446410A - 知识点推送方法、装置及计算机可读存储介质

Info

Publication number: CN109446410A
Application number: CN201811096338.6A
Authority: CN
Inventors: 周俊琨; 石卢靖; 许扬; 曲风龙
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-03-08
Also published as: WO2020056977A1

Abstract

本发明涉及一种大数据技术，揭露了一种知识点推送方法，包括：获取预设知识库中的所有知识点；根据所述知识库中各个知识点的标题以及正文内容，计算各个知识点之间的相似度；获取所述知识库中各个知识点的历史操作行为数据，根据所述历史操作行为数据，利用预设算法，计算各个知识点之间的关联度；及侦测用户当前对知识点的点击行为，获知用户点击的知识点，并根据知识点之间的相似度以及关联度，计算与当前所点击的知识点相关的知识点，将所述相关的知识点推送给用户。本发明还提出一种知识点推送装置以及一种计算机可读存储介质。本发明实现了在用户浏览知识点的时候，能够给用户推荐与所述知识点更为相关的其他知识点。

Description

知识点推送方法、装置及计算机可读存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于知识内容和用户行为协同的知识点推送方法、装置及计算机可读存储介质。

背景技术

现有的通用搜索引擎都是基于关键词进行检索，在海量知识点中进行检索时，检索结果大都是包含该关键词的网页，很难形成一个系统的、全面的、关于该条目的详细介绍，从而也很难满足用户的知识需求。

知识推荐方法可以给用户提供更全面的知识体系。传统的知识推荐方法通常是指根据用户输入的当前知识，从知识库中存储的现有知识中找出与用户输入的知识在内容上相匹配的知识来推荐给用户。

这些传统的知识推荐方法大多是基于知识内容来进行知识匹配的。这种方法仅采用类别作为知识是否相似的唯一匹配标准，可能导致知识内容的相关度不高，匹配准确率差。利用这种方法推荐给用户的知识可能不是用户真正感兴趣的知识。

发明内容

本发明提供一种知识点推送方法、装置及计算机可读存储介质，其主要目的在于在用户浏览知识点的时候，能够给用户推荐与所述知识点更为相关的其他知识点。

为实现上述目的，本发明提供的一种知识点推送方法，包括：

获取预设知识库中的所有知识点；

根据所述知识库中各个知识点的标题以及正文内容，计算各个知识点之间的相似度；

获取所述知识库中各个知识点的历史操作行为数据，根据所述历史操作行为数据，利用预设算法，计算各个知识点之间的关联度；及

侦测用户当前对知识点的点击行为，获知用户点击的知识点，并根据知识点之间的相似度以及关联度，计算与当前所点击的知识点相关的知识点，将所述相关的知识点推送给用户。

可选地，所述根据各个知识点的标题以及正文内容，计算各个知识点之间的相似度

计算所述所有知识点中每两条知识点的标题的编辑距离；

计算每条知识点中的标题由词向量转句向量的欧式距离，以及计算每条知识点中正文的词向量转文档向量的欧式距离；及

根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度。

可选地，所述计算每条知识点中的标题由词向量转句向量的欧式距离，以及计算每条知识点中正文的词向量转文档向量的欧式距离，包括：

根据预设词库，对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作，得到标题以及正文中的特征词；

将所述标题的特征词输入第一向量模型，获取所述第一向量模型输出的所述标题的词向量，根据所述词向量构造所述标题的句向量；

将所述正文的特征词输入所述第一向量模型，获取所述第一向量模型输出的所述正文的词向量，及将所述正文中的特征词输入第二向量模型，获取第二向量模型输出的正文的文档向量。

可选地，根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度的方法如下：

相似度＝权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离；

其中，权重1、权重2以及权重3为根据经验设定，且权重2大于权重3。

可选地，所述预设算法为FP-Growth算法，其过程如下：

第一步：构造FP树，包括：

1：扫描用户历史操作行为数据库，获取每个知识点的点击行为记录；

2：定义最小支持度；

3：按照点击行为的次数的降序排列重新排列知识点集，其中如果出现小于所述最小支持度的知识点进行删除；

4：按照点击行为记录出现次数重新调整知识点清单；

5：进行FP树的构建；

第二步：从FP树中挖掘频繁项集，获取被用户大量点击的知识点，并根据所述频繁项计算各个知识点之间的关联度。

此外，为实现上述目的，本发明还提供一种知识点推送装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的知识点推送程序，所述知识点推送程序被所述处理器执行时实现如下步骤：

获取预设知识库中的所有知识点；

计算所述所有知识点中每两条知识点的标题的编辑距离；

可选地，所述预设算法为FP-Growth算法，其过程如下：

第一步：构造FP树，包括：

2：定义最小支持度；

3：按照点击行为的次数的降序排列重新排列知识点集，其中如果出

现小于所述最小支持度的知识点进行删除；

4：按照点击行为记录出现次数重新调整知识点清单；

5：进行FP树的构建；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有知识点推送程序，所述知识点推送程序可被一个或者多个处理器执行，以实现如上所述的知识点推送方法的步骤。

本发明提出的知识点推送方法、装置及计算机可读存储介质，计算知识库中的各条知识点之间的相似度与关联度，并在用户浏览所述知识库中的任何一条知识点时，根据所述各条知识点之间的相似度与关联度，计算与当前浏览的知识点相关的其他知识点，并推送给用户。

附图说明

图1为本发明一实施例提供的知识点推送方法的流程示意图；

图2为本发明一实施例提供的知识点推送装置的内部结构示意图；

图3为本发明一实施例提供的知识点推送装置中知识点推送程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种知识点推送方法。参照图1所示，为本发明一实施例提供的知识点推送方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，知识点推送方法包括：

S1、获取预设知识库中的所有知识点。

本方案中，所述知识点可以是一个网页，一篇论文等。

本发明较佳实施例中，所述装置可以从与其相连接的知识库中获取的所有知识点。

S2、计算所述所有知识点中每两条知识点的标题的编辑距离。

所述编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

例如：计算两个字符串kitten和sitting之间的编辑距离，需要包括如下转换：

1、kitten–>sitten将k替换成s；

2、sitten–>sittin将e替换成i；

3、sittin–>sitting添加g。

本案较佳实施例可以设置每经过一次编辑，也就是变化(插入，删除，替换)需要花费的代价都是1，因此，从kitten和sitting之间的编辑距离为3。

S3、根据预设词库，对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作，得到标题以及正文中的特征词。

优选地，所述预先确定的分词规则如下：

按预设类型标点符号(例如，“，”、“。”、“！”、“；”等等)对获取的各个标题以及正文进行短句拆分(例如，从起始位置至第一个预设类型标点符号之间的信息为一个短句；若结束位置无预设类型标点符号，则从倒数第一个预设类型标点符号至结束位置之间的信息为一个短句，且针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息，每两个预设类型标点符号之间的信息为一个短句；若信息结束位置有预设类型标点符号，则针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息，每两个预设类型标点符号之间的信息为一个短句)；

对拆分的每一个短句，采用长词优先原则根据预存的词库，进行分词(例如，长词优先原则指的是：对于一个需要分词的短语T1，先从第一个字A开始，从预存的词库找出一个由A起始的最长词语X1，然后从T1中剔除X1剩下T2，再对T2采用相同的切分原理，切分后的结果为“X1/X2/、、、、、、”；例如，在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”时，短语“平安推出了尊宏人生产品”的切分结果为“平安”/“推出”/“了”/“尊宏人生”/“产品”)。

在本发明优选实施例中，还可以进一步对得到的特征词进行过滤处理，具体地，过滤处理采用以下任一种或两种方式：方式一：根据词性对特征词进行过滤，保留名词、动词以及形容词；方式二：根据频次对特征词进行过滤，保留频次大于频次阈值的特征词，其中，频次是指特征词在知识库中出现的频率或者次数。

本发明较佳实施例中，所述预存的词库包括常规的词库，以及特定词库，如金融词库和产品词库等。

S4、计算每条知识点中的标题由词向量转句向量的欧式距离。

在本发明较佳实施例中，步骤S4进一步包括：计算所述标题的词向量。

计算词向量的方式包括：将所述特征词输入第一向量模型，获取所述第一向量模型输出的特征词的词向量。其中，所述第一向量模型可以包括：word2vector模型。

进一步地，在本发明较佳实施例中，步骤S4还包括：根据所述词向量构造所述标题的句向量。

构造所述标题的句向量的方式包括，但不限于，将所有词向量进行矢量叠加并取平均值，获取所述句向量，或者将所述标题的词向量*标题所有特征词的反词频，再除以所述标题所有特征词的个数。

其中，所述欧式距离是指在二维和三维空间中两点之间的实际距离。

S5、计算每条知识点中正文的词向量转文档向量的欧式距离。

本发明实施例中，步骤S5进一步包括：计算所述正文的词向量以及文档向量。

计算所述正文的词向量的方法可以参照上述计算所述标题的词向量的方法。

计算所述正文的文档向量的方法包括如下如下几种：

一、将所述正文中的特征词输入第二向量模型，获取第二向量模型输出的特征词的词向量。其中，所述第二向量模型可以包括：Doc2Vec模型或者叫做paragraph2vec模型；

二、将所述正文的词向量用矢量叠加并取平均值的方法计算所述正文的文档向量；

三、将所述正文的词向量*正文所有特征词的反词频，再除以所述正文所有特征词的个数。

S6、根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度。

本发明较佳实施例中，所述知识点之间的相似度采用如下方法计算：

相似度＝权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离。

其中，权重1、权重2以及权重3为根据经验设定，且权重2〉权重3。

S7、获取所述知识库中各个知识点的历史操作行为数据。

本案较佳实施例中，所述历史操作行为数据包括用户对所述知识点的点击操作。所述点击行为是指，用户通过点击开启了某一个知识点进行浏览。

本发明较佳实施例可以从一个用户历史行为数据库中获取每一个用户对各个知识点的点击行为。

S8、根据所述历史操作行为数据，利用预设算法，计算各个知识点之间的关联度。

本发明优选实施例中，所述预设算法为FPG算法。

所述FPG算法又称FP-Growth算法，是一种关联分析算法，它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree)，但仍保留项集关联信息。

FP-growth算法的过程如下：

首先，构造FP树。

2：定义minsup＝20％，即最小支持度(知识点最少点击的次数)为2；

3：按照点击行为的次数的降序排列重新排列知识点集。(如果出现小

于2的物品则需要删除)；

4：按照点击行为记录出现次数重新调整知识点清单；

5：进行FP树的构建。

其次，从FP树中挖掘频繁项集，获取被用户大量点击的知识点，并根据所述频繁项计算各个知识点之间的关联度。

S9、侦测用户当前对知识点的点击行为，获知用户点击的知识点。

S10、根据知识点之间的相似度以及关联度，计算与当前所点击的知识点相关的知识点，并将所述相关的知识点推送给用户。

本发明优选实施例中，与所点击的知识点相关的知识点的计算方法如下：

权重4*知识点之间的相似度+权重5*知识点之间的关联度。

其中，权重4以及权重5为根据经验设定，且权重4〉权重5。

发明还提供一种知识点推送装置。参照图2所示，为本发明一实施例提供的知识点推送装置的内部结构示意图。

在本实施例中，所述知识点推送装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该知识点推送装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是知识点推送装置1的内部存储单元，例如该知识点推送装置1的硬盘。存储器11在另一些实施例中也可以是知识点推送装置1的外部存储设备，例如知识点推送装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括知识点推送装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于知识点推送装置1的应用软件及各类数据，例如知识点推送程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行知识点推送程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在知识点推送装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及知识点推送程序01的知识点推送装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对知识点推送装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有知识点推送程序01；处理器12执行存储器11中存储的知识点推送程序01时实现如下步骤：

步骤一、获取预设知识库中的所有知识点。

本方案中，所述知识点可以是一个网页，一篇论文等。

步骤二、计算所述所有知识点中每两条知识点的标题的编辑距离。

1、kitten–>sitten将k替换成s；

2、sitten–>sittin将e替换成i；

3、sittin–>sitting添加g。

步骤三、根据预设词库，对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作，得到标题以及正文中的特征词。

优选地，所述预先确定的分词规则如下：

在本发明优选实施例中，还可以进一步对得到的特征词进行过滤处理，具体地，过滤处理采用以下任一种或两种方式：

方式一：根据词性对特征词进行过滤，保留名词、动词以及形容词；

方式二：根据频次对特征词进行过滤，保留频次大于频次阈值的特征词，其中，频次是指特征词在知识库中出现的频率或者次数。

步骤四、计算每条知识点中的标题由词向量转句向量的欧式距离。

在本发明较佳实施例中，步骤S4进一步包括：

计算所述标题的词向量。

进一步地，在本发明较佳实施例中，步骤S4还包括：

根据所述词向量构造所述标题的句向量。

步骤五、计算每条知识点中正文的词向量转文档向量的欧式距离。

本发明实施例中，步骤S5进一步包括：

计算所述正文的词向量以及文档向量。

计算所述正文的文档向量的方法包括如下如下几种：

一、将所述正文中的特征词输入第二向量模型，获取第二向量模型输出的特征词的文档向量。其中，所述第二向量模型可以包括：Doc2Vec模型或者叫做paragraph2vec模型；

步骤六、根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度。

步骤七、获取所述知识库中各个知识点的历史操作行为数据。

本案较佳实施例中，所述历史操作行为数据包括用户对所述知识点的点击操作。所述点击行为是指，用户通过点击开启了某一个知识点，以浏览该知识点的内容。

步骤八、根据所述历史操作行为数据，利用预设算法，计算各个知识点之间的关联度。

本发明优选实施例中，所述预设算法为FPG算法。

FP-growth算法的过程如下：

第一步：构造FP树。

于2的物品则需要删除)；

4：按照点击行为记录出现次数重新调整知识点清单；

5：进行FP树的构建。

步骤九、侦测用户当前对知识点的点击行为，获知用户点击的知识点。

步骤十、根据知识点之间的相似度以及关联度，计算与当前所点击的知识点相关的知识点，并将所述相关的知识点推送给用户。

权重4*知识点之间的相似度+权重5*知识点之间的关联度。

其中，权重4以及权重5为根据经验设定，且权重4〉权重5。

可选地，在其他实施例中，知识点推送程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述知识点推送程序在知识点推送装置中的执行过程。

例如，参照图3所示，为本发明知识点推送装置一实施例中的知识点推送程序的程序模块示意图，该实施例中，所述知识点推送程序可以被分割为知识点获取模块10、相似度计算模块20、关联度计算模块30以及推送模块40，示例性地：

所述知识点获取模块10用于：获取预设知识库中的所有知识点。

所述相似度计算模块20用于：计算所述所有知识点中每两条知识点的标题的编辑距离，计算每条知识点中的标题由词向量转句向量的欧式距离，以及计算每条知识点中正文的词向量转文档向量的欧式距离，并根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度。

所述关联度计算模块30用于：获取所述知识库中各个知识点的历史操作行为数据，根据所述历史操作行为数据，利用预设算法，计算各个知识点之间的关联度。

所述推送模块40用于：侦测用户当前对知识点的点击行为，获知用户点击的知识点，并根据知识点之间的相似度以及关联度，计算与当前所点击的知识点相关的知识点，将所述相关的知识点推送给用户。

上述知识点获取模块10、相似度计算模块20、关联度计算模块30以及推送模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有知识点推送程序，所述知识点推送程序可被一个或多个处理器执行，以实现如下操作：

获取预设知识库中的所有知识点；

计算所述所有知识点中每两条知识点的标题的编辑距离，计算每条知识点中的标题由词向量转句向量的欧式距离，以及计算每条知识点中正文的词向量转文档向量的欧式距离，并根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度；

获取所述知识库中各个知识点的历史操作行为数据，根据所述历史操作行为数据，利用预设算法，计算各个知识点之间的关联度；

本发明计算机可读存储介质具体实施方式与上述知识点推送装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种知识点推送方法，其特征在于，所述方法包括：

获取预设知识库中的所有知识点；

2.如权利要求1所述的知识点推送方法，其特征在于，所述根据所述知识库中各个知识点的标题以及正文内容，计算各个知识点之间的相似度，包括：

计算所述所有知识点中每两条知识点的标题的编辑距离；

3.如权利要求2所述的知识点推送方法，其特征在于，所述计算每条知识点中的标题由词向量转句向量的欧式距离，以及计算每条知识点中正文的词向量转文档向量的欧式距离，包括：

4.如权利要求3所述的知识点推送方法，其特征在于，根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度的方法如下：

5.如权利要求4所述的知识点推送方法，其特征在于，所述预设算法为FP-Growth算法，其过程如下：

第一步：构造FP树，包括：

2：定义最小支持度；

4：按照点击行为记录出现次数重新调整知识点清单；

5：进行FP树的构建；

6.一种知识点推送装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的知识点推送程序，所述知识点推送程序被所述处理器执行时实现如下步骤：

获取预设知识库中的所有知识点；

7.如权利要求6所述的知识点推送装置，其特征在于，所述根据各个知识点的标题以及正文内容，计算各个知识点之间的相似度，包括：

计算所述所有知识点中每两条知识点的标题的编辑距离；

8.如权利要求7所述的知识点推送装置，其特征在于，根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离，计算各个知识点之间的相似度的方法如下：

9.如权利要求8所述的知识点推送装置，其特征在于，所述预设算法为FP-Growth算法，其过程如下：

第一步：构造FP树，包括：

2：定义最小支持度；

4：按照点击行为记录出现次数重新调整知识点清单；

5：进行FP树的构建；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有知识点推送程序，所述知识点推送程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的知识点推送方法的步骤。