CN116226523B

CN116226523B - 一种基于大数据的知识培训方法及系统

Info

Publication number: CN116226523B
Application number: CN202310174708.8A
Authority: CN
Inventors: 朱峻修
Original assignee: Guangzhou Interest Island Information Technology Co ltd
Current assignee: Guangzhou Interest Island Information Technology Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-11-07
Anticipated expiration: 2043-02-24
Also published as: CN116226523A

Abstract

本发明公开了一种基于大数据的知识培训方法，包括步骤建立大数据计算平台，获取用户标签并录入，提取课程的内容，根据课程的内容生成课程标签和标签对应的系数并录入课程标签管理模块，根据用户标签筛选出具有相同标签的课程，计算知识累积系数并得到推送序列，根据推送序列显示课程，显示后获得用户的反馈，根据用户的反馈更新课程的标签，标签对应的系数和用户的标签。本发明实现了根据课程的标签以及用户的标签进行课程的匹配，课程的创建时间/最后修改时间排序后根据顺序推送，推送后根据用户的反馈包括停留时间和动作进行标签系数的动态调整，使得推送的内容更具有时效性和更符合用户的购买意愿和兴趣。

Description

一种基于大数据的知识培训方法及系统

技术领域

本发明涉及大数据处理技术领域，具体涉及一种基于大数据的知识培训方法及系统。

背景技术

课程网站上，需要根据用户的喜好和需求进行课程推荐，以提高网站的成交率和营收，用户的喜好可以根据用户行为进行调整，课程的推荐依据课程的内容和用户习惯生成的标签匹配。现有的知识培训方法基于用户标签与现有的数据库进行筛选，得到吻合的匹配结果再推送，无法根据反馈对课程进行实时的更新，会导致推送算法无法根据新的或者不同的用户习惯适应性调整。而课程内容具有时效性，课程的属性在建立时已经固定，因此需要根据用户反馈对课程的属性进行更新。

发明内容

本发明的目的在于提出一种基于大数据的知识培训方法，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

为实现上述技术目的，本发明技术方案如下：

一种基于大数据的知识培训方法，所述方法包括以下步骤：

步骤1，建立标签管理模块，标签管理模块包括课程标签管理模块和用户标签管理模块；

步骤2，建立大数据计算平台，大数据计算平台包括智能推荐系统和推送模块；

步骤3，获取用户一个或多个标签并录入用户标签管理模块；

步骤4，录入课程并提取课程的内容，根据课程的内容生成课程标签和标签对应的系数并录入课程标签管理模块；

步骤5，根据用户标签筛选出具有相同标签的课程，计算知识累积系数并得到推送序列，根据推送序列显示课程，显示后获得用户的反馈；

步骤6，根据用户的反馈更新课程的标签，标签对应的系数和用户的标签。

进一步地，步骤3中获取用户的信息并根据信息赋予用户一个或多个标签并录入用户标签管理模块的子步骤为：用户的标签来源于用户注册后选择的标签，用户购买的课程中课程的标签，用户浏览的课程中课程的标签和用户分享的课程中课程的标签。

优选地，用户标签从用户浏览的网页的类别，用户的地理位置信息和主动行为信息中的一种或多种提取。

进一步地，步骤4，录入课程并提取课程的内容，根据课程的内容生成课程标签和标签对应的系数并录入课程标签管理模块，子步骤为：课程标签为课程创建时手工设置或者从课程的文字中抓取关键字，通过聚类算法对抓取的关键字进行聚类操作，提取出一个或多个标签；课程内容还包括课程的图片，对课程中的图片进行OCR识别得到关键字，通过聚类算法对抓取的关键字进行聚类操作，提取出一个或多个标签；课程还包括音频，对课程中的音频进行声音识别得到关键字，通过聚类算法对抓取的关键字进行聚类操作，提取出一个或多个标签。每个课程获得的标签建立课程标签二元组集合C＝{(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}，其中{w1,w2,w3,…,wn}为一个课程的各个标签{t1,t2,t3,…,tn}对应的系数，{(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}中w的值递减，课程的系数与课程标签与课程内容的关联性有关，即标签相关的关键字/图片/音频在课程中出现的次数越多则关联性越大。优选地，所述聚类算法为K-means聚类算法、DBSCAN聚类算法、均值漂移聚类算法、混合高斯模型的最大期望聚类算法、凝聚层次聚类算法中的一种或多种。

进一步地，步骤5，根据用户标签筛选出具有相同标签的课程，计算知识累积系数并得到推送序列，根据推送序列显示课程，显示后获得用户反馈，子步骤为：筛选出所有课程中存在与用户的标签有重合的课程，所述课程构成课程待选集合C_set；C_set包括了每个课程与用户标签有重合的标签以及所述有重合的标签在所属课程中的系数；

计算课程待选集合C_set中每个课程的知识累积系数K；

式中，Kx为第x个课程的知识累积系数，X为集合C_set的大小，wt(i)为获取第i个课程与用户标签有重合的标签的系数，wu_max为课程待选集合C_set中所有课程中标签系数的最大值，ord(i)为第i个课程在课程待选集合C_set的标签在所属课程标签二元组集合中的序号，T1为用户的上次登录时间或者注册时间到现在时刻的时间间隔，Tx第x个课程的登记时间到现在的时间间隔，T1为用户上次登录的时间距离现在的时间间隔。

上述知识累积系数结合了课程的创建时间/最后修改时间，克服了传统推荐系统的推送内容时效性不强的缺点；得到匹配到有相同标签或者相似标签的课程的知识累积系数后进行排序，考虑了课程中标签与用户的关联度，用户能获得实时推送通知，能够有效地刺激用户消费，提高了匹配效率和成交率。结合后续的课程标签系数更新算法，能自动对老的课程降低推送频率。解决了知识课程的时效性问题，避免了推送陈旧的课程。

当一个知识培训课程需要提高或者保持高推送优先度，可以对知识培训课程进行更新以更新最后修改时间。

同一个课程在课程待选集合C_set出现的次数大于等于1，则把重复的课程合并并把重复课程的知识累积系数相加。

当一个课程有多于一个标签与用户的标签重合时，应该提升推送的权重。

获得所有课程的知识累积系数K并构造知识累积系数集合后，对课程待选集合C_set的课程根据知识累积系数进行降序排序；

根据需要推送的课程数量从排序后的课程待选集合提取相应数量的课程得到训练课程集合，对训练课程集合进行推送。

进一步地，步骤6，根据用户的反馈更新课程的标签，标签对应的系数和用户的标签的子步骤为：推送课程后，获取用户的反馈，根据用户反馈调整课程标签和用户标签，用户反馈包括正反馈和负反馈；

如果课程获得正反馈，对课程的标签进行更新，增加当前课程与用户标签有重合的标签的系数；

如果课程获得负反馈，对课程的标签进行更新，减少当前课程与用户标签有重合的标签的系数；

正反馈包括用户在课程的停留时间大于设定的阈值或者大于用户在单个课程的平均停留时间，用户进行了课程点击或购买；

负反馈包括用户在课程的停留时间小于设定的阈值或者小于用户在单个课程的平均停留时间或者手动反馈。

用户在课程的停留时间可以通过网页的JavaScript代码获得，手机端APP也可以获得用户的行为，在一个优选的方案里，通过对课程在页面中的位置对停留时间进行加权，在页面的焦点附近的内容有更高的停留时间权重。

进一步地，如果获得正反馈，对课程的标签进行更新，增加当前课程与用户标签有重合的标签的系数的子步骤为：

记当前课程的课程标签二元组集合为C＝{(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}，获取所述课程中与用户的标签有重合的标签为t_j且记其系数为w_j，j∈[1,n]，如果课程获得的正反馈是用户进行了购买行为则按照设定的参数对w_j进行调整，调整后标签的参数大于调整前标签的参数；

如果用户在所述课程的停留时间大于设定的阈值或者大于用户在单个课程的平均停留时间，则根据用户在课程的停留时间tr调整课程中标签的参数，具体为：

计算新的标签系数：

式中，tag_c为新的标签系数，对应一个标签，w_j为上述标签调整前的系数，当前用户在用户终端上浏览的课程时每个课程平均停留时间为tr'，或者tr'为设定的阈值，n为当前课程中标签的数量，tr为用户在当前课程的停留时间，根据tag_c的值更新对应的课程标签的系数，exp()为以自然对数为底的指数函数，ord()为标签在所述课程标签二元组集合中的序号；如果tag_c小于w_j则不进行更新；

所述课程与用户的标签可以存在多个标签重合，则把重合的标签记为集合tag，tagw则为tag对应标签对应的系数，计算新的标签系数：

式中，tagw_k为集合tag中第k个标签的新的标签系数，tagw_k'为第k个标签的系数，当前用户在用户终端上浏览的课程时每个课程平均停留时间为tr'，或者tr'为设定的阈值，n为当前课程中标签的数量，tr为用户在当前课程的停留时间，ord()为标签在所述课程标签二元组集合中的序号，tag_k为集合tag中第k个标签，依次计算集合tag中各个标签的新的标签系数并更新所在课程的标签系数，如果tagw_k小于tagw_k’则不进行更新。

进一步地，如果获得负反馈，对课程的标签进行更新，减少当前课程与用户标签有重合的标签的系数的子步骤为：

记当前课程的课程标签二元组集合为C＝{(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}，获取所述课程中与用户的标签有重合的标签为t_j且记其系数为w_j，j∈[1,n]，调整后标签的参数小于调整前标签的参数；

如果用户在所述课程的停留时间小于设定的阈值或者大于用户在单个课程的平均停留时间，则根据用户在课程的停留时间tr调整课程中标签的参数，具体为：

计算新的标签系数：

式中，tag_c为新的标签系数，对应一个标签，w_j为上述标签调整前的系数，当前用户在用户终端上浏览的课程时每个课程平均停留时间为tr'，或者tr'为设定的阈值，n为当前课程中标签的数量，tr为用户在当前课程的停留时间，根据tag_c的值更新对应的课程标签的系数，log2为底数为2的对数函数，ord()为标签在所述课程标签二元组集合中的序号；如果tag_c大于w_j则不进行更新；

式中，tagw_k为集合tag中第k个标签的新的标签系数，tagw_k'为第k个标签的系数，当前用户在用户终端上浏览的课程时每个课程平均停留时间为tr'，或者tr'为设定的阈值，n为当前课程中标签的数量，tr为用户在当前课程的停留时间，ord()为标签在所述课程标签二元组集合中的序号，tag_k为集合tag中第k个标签，依次计算集合tag中各个标签的新的标签系数并更新所在课程的标签系数，如果tagw_k大于tagw_k'则不进行更新。

以上2个标签系数更新步骤，结合了用户的停留时间和点击行为，购买行为对课程的系数进行更新，使得课程的标签更准确匹配到合适的用户，使大数据知识培训的课程提供更为高效。优选地，其中，本发明中所有未定义的变量，若未有明确定义，均可为人工设置的阈值。

一种基于大数据的知识培训系统，所述系统包括：

标签管理模块，标签管理模块包括课程标签管理模块和用户标签管理模块；

课程标签管理模块：用于获得课程标签和管理课程标签，更新课程的标签系数；

用户标签管理模块：用于获得用户标签和管理用户标签；

标签数据库：用于连接课程标签管理模块、用户标签管理模块和课程推荐模块；并存储课程标签和用户标签；

课程推荐模块：用于根据筛选的课程并进行课程推送，课程推送后获取用户反馈；

用户终端：用于显示推送的课程，记录用户行为。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面提供的所述一种基于大数据的知识培训方法方法的步骤。

第四方面，本发明提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现本发明提供的所述一种基于大数据的知识培训方法方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

根据课程的标签以及用户的标签进行课程的匹配，课程的创建时间/最后修改时间排序后根据顺序推送，推送后根据用户的反馈包括停留时间和动作进行标签系数的动态调整，使得推送的内容更具有时效性和更符合用户的购买意愿和兴趣。

附图说明

图1为本发明提供的一种基于大数据的知识培训方法的流程图；

图2为本发明一个实施例的一种基于大数据的知识培训系统结构示意框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及实施例，对本发明进行进一步详尽说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

同样应理解，以下实施例只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限制，本领域的技术人员根据本发明上述内容做出的一些非本质的改进和调整均属于本发明的保护范围。下述示例具体的工艺参数等也仅是合适范围内的一个示例，即本领域技术人员可以通过本文的说明做合适的范围内选择，而并非要限定于下文示例的具体数值。

以下示例性地说明本发明提供的一种基于大数据的知识培训方法。

如图1所示为一种基于大数据的知识培训方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种基于大数据的知识培训方法，所述方法包括以下步骤：

步骤3，获取用户一个或多个标签并录入用户标签管理模块；

计算课程待选集合C_set中每个课程的知识累积系数K；

计算新的标签系数：

以上2个标签系数更新步骤，结合了用户的停留时间和点击行为，购买行为对课程的系数进行更新，使得课程的标签更准确匹配到合适的用户，使大数据知识培训的课程提供更为高效。优选地，其中，本发明中所有未定义的变量，若未有明确定义，均可为人工设置的阈值。优选地，其中，本发明中所有未定义的变量，若未有明确定义，均可为人工设置的阈值。如图2所示是本发明一个实施例的一种基于大数据的知识培训系统结构示意框图。

一种基于大数据的知识培训系统，所述系统包括：

用户标签管理模块：用于获得用户标签和管理用户标签；

用户终端：用于显示推送的课程，记录用户行为。

所述基于一种基于大数据的知识培训系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端服务器等计算设备中。所述一种基于大数据的知识培训系统，可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于大数据的知识培训系统的示例，并不构成对一种基于大数据的知识培训系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于大数据的知识培训系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于大数据的知识培训系统运行系统的控制中心，利用各种接口和线路连接整个一种基于大数据的知识培训系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于大数据的知识培训系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型。

Claims

1.一种基于大数据的知识培训方法，其特征在于，所述方法包括步骤：

步骤3，获取用户标签并录入用户标签管理模块；

步骤6，根据用户的反馈更新课程的标签，标签对应的系数和用户的标签；

其中，步骤4子步骤为：课程标签为课程创建时手工设置或者从课程的文字中抓取关键字，通过聚类算法对抓取的关键字进行聚类操作，提取出一个或多个标签；课程内容还包括课程的图片，对课程中的图片进行OCR识别得到关键字，通过聚类算法对抓取的关键字进行聚类操作，提取出一个或多个标签；课程还包括音频，对课程中的音频进行声音识别得到关键字，通过聚类算法对抓取的关键字进行聚类操作，提取出一个或多个标签；

每个课程获得的标签建立课程标签二元组集合C={(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}，其中{w1,w2,w3,…,wn}为一个课程的各个标签{t1,t2,t3,…,tn}对应的系数，{(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}中w的值递减，课程的系数与课程标签与课程内容的关联性有关，即标签相关的关键字/图片/音频在课程中出现的次数越多则关联性越大；

步骤5的子步骤为：筛选出所有课程中存在与用户的标签有重合的课程，所述课程构成课程待选集合C_set；C_set包括了每个课程与用户标签有重合的标签以及所述有重合的标签在所属课程中的系数；

计算课程待选集合C_set中每个课程的知识累积系数K；

，

式中，Kx为第x个课程的知识累积系数，X为集合C_set的大小，wt(i)为获取第i个课程与用户标签有重合的标签的系数，wu_max为课程待选集合C_set中所有课程中标签系数的最大值，ord(i)为第i个课程在课程待选集合C_set的标签在所属课程标签二元组集合中的序号，T1为用户的上次登录时间或者注册时间到现在时刻的时间间隔，Tx第x个课程的登记时间到现在的时间间隔；

同一个课程在课程待选集合C_set出现的次数大于等于1，则把重复的课程合并并把重复课程的知识累积系数相加；

根据需要推送的课程数量从排序后的课程待选集合提取相应数量的课程得到训练课程集合，对训练课程集合进行推送；

步骤6根据用户的反馈更新课程的标签，标签对应的系数和用户的标签的子步骤为：

推送课程后，获取用户的反馈，根据用户反馈调整课程标签和用户标签，用户反馈包括正反馈和负反馈；

如果课程获得正反馈，对课程的标签进行更新，增加当前课程与用户标签有重合的标签的系数，子步骤为：

记当前课程的课程标签二元组集合为C={(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}，获取所述课程中与用户的标签有重合的标签为t_j且记其系数为w_j，j∈[1,n]，如果课程获得的正反馈是用户进行了购买行为则按照设定的参数对w_j进行调整，调整后标签的参数大于调整前标签的参数；

计算新的标签系数：

，

所述课程与用户的标签如果存在标签重合，则把重合的标签记为集合tag，tagw则为tag对应标签对应的系数，计算新的标签系数：

，

式中，tagw_k为集合tag中第k个标签的新的标签系数，tagw_k'为第k个标签的系数，当前用户在用户终端上浏览的课程时每个课程平均停留时间为tr'，或者tr'为设定的阈值，n为当前课程中标签的数量，tr为用户在当前课程的停留时间，ord()为标签在所述课程标签二元组集合中的序号，tag_k为集合tag中第k个标签，依次计算集合tag中各个标签的新的标签系数并更新所在课程的标签系数，如果tagw_k小于tagw_k’则不进行更新；

如果课程获得负反馈，对课程的标签进行更新，减少当前课程与用户标签有重合的标签的系数，子步骤为：

记当前课程的课程标签二元组集合为C={(t1,w1),(t2,w2),(t3,w3),……,(tn,wn)}，获取所述课程中与用户的标签有重合的标签为t_j且记其系数为w_j，j∈[1,n]，调整后标签的参数小于调整前标签的参数；

计算新的标签系数：

，

2.根据权利要求1所述的一种基于大数据的知识培训方法，其特征在于，步骤3中获取用户的信息并根据信息赋予用户一个或多个标签并录入用户标签管理模块的子步骤为：用户的标签来源于用户注册后选择的标签，用户购买的课程中课程的标签，用户浏览的课程中课程的标签和用户分享的课程中课程的标签。

3.据权利要求1所述的一种基于大数据的知识培训方法，其特征在于，正反馈包括用户在课程的停留时间大于设定的阈值或者大于用户在单个课程的平均停留时间，用户进行了课程点击或购买；

负反馈包括用户在课程的停留时间小于设定的阈值或者小于用户在单个课程的平均停留时间。

4.一种基于大数据的知识培训系统，其特征在于，所述系统运行权利要求1~3任一项权利要求中所述一种基于大数据的知识培训方法的步骤；

所述系统包括：

用户标签管理模块：用于获得用户标签和管理用户标签；

用户终端：用于显示推送的课程，记录用户行为。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1~3中任一项所述一种基于大数据的知识培训方法的步骤。

6.一种电子设备，其特征在于，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1~3中任一项所述一种基于大数据的知识培训方法的步骤。