CN113850485A

CN113850485A - 跨领域的多源数据评价模型训练方法、系统、装置及介质

Info

Publication number: CN113850485A
Application number: CN202111063467.7A
Authority: CN
Inventors: 彭荣荣; 丁艳; 黄文�; 梁思妍; 周攀; 刘勇; 曾珍; 高思凯; 周小军
Original assignee: Shenzhen Zhongfu Hengsheng Technology Co ltd
Current assignee: Shenzhen Zhongfu Hengsheng Technology Co ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-28

Abstract

本发明公开了一种跨领域的多源数据评价模型训练方法、系统、装置及介质，方法包括：确定多个教学领域的关键指标因子；确定各教学领域的多个数据来源，并对与关键指标因子相匹配的数据来源进行埋点；根据关键指标因子构建多源数据评价模型和对应的预测模型；通过埋点后的数据来源获取用户行为数据；将用户行为数据输入到多源数据评价模型和预测模型，得到评价预测结果，进而根据评价预测结果对多源数据评价模型进行优化，得到训练好的多源数据评价模型。本发明适合模块化教学、跨领域组合教学等复杂的应用场景，解决了评价模型数据来源单一、评价指标单一以及评价结果滞后的问题，提高了评价模型的准确性和可靠性，可广泛应用于教学评价技术领域。

Description

跨领域的多源数据评价模型训练方法、系统、装置及介质

技术领域

本发明涉及教学评价技术领域，尤其是一种跨领域的多源数据评价模型训练方法、系统、装置及介质。

背景技术

随着互联网、大数据时代的到来，数据驱动已成为数字经济新时代的主旋律。通过数据分析系统的建立来评价教学成效，已经成为教育工作者的重要工具。如何构建一个有效的数据评价模型，并有效获取关键数据成为一个重要问题。

传统评价系统通过前置数据埋点，然后收集数据，最终根据评价指标输出评价结果。这种方式往往存在评价结果滞后性，导致不能及时指导教学过程的改进；同时数据埋点通常需要在预定条件下进行数据采集，数据量非常大；同时会存在评价指标单一、评价模型不能有效反应实际教学效果等问题。

尤其如今教学改革的推动下，模块化教学、跨专业领域教学已经开始普及和流行。不同的专业领域对于各个专业不同的教师评价标准和评价方式不一，一套可靠的评价体系显得尤其重要。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种跨领域的多源数据评价模型训练方法，该方法可以有效解决评价模型数据来源单一、评价指标单一、评价结果滞后等问题。

本发明实施例的另一个目的在于提供一种跨领域的多源数据评价模型训练系统。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种跨领域的多源数据评价模型训练方法，包括以下步骤：

确定多个教学领域的关键指标因子；

确定各所述教学领域的多个数据来源，并对与所述关键指标因子相匹配的数据来源进行埋点；

根据所述关键指标因子构建多源数据评价模型和对应的预测模型；

通过埋点后的数据来源获取用户行为数据；

将所述用户行为数据输入到所述多源数据评价模型和所述预测模型，得到评价预测结果，进而根据所述评价预测结果对所述多源数据评价模型进行优化，得到训练好的多源数据评价模型。

进一步地，在本发明的一个实施例中，所述确定多个教学领域的关键指标因子这一步骤，其具体包括：

根据预设的维度确定多个教学领域；

确定各所述教学领域的关键考核指标，并对所述关键考核指标进行编码，得到关键指标因子。

进一步地，在本发明的一个实施例中，所述对与所述关键指标因子相匹配的数据来源进行埋点这一步骤，其具体为：

获取用户历史行为轨迹，并根据所述用户历史行为轨迹确定多个与所述关键指标因子相匹配的数据来源；

在匹配到的数据来源处加载SDK数据埋点工具。

进一步地，在本发明的一个实施例中，所述根据所述关键指标因子构建多源数据评价模型和预测模型这一步骤，其具体包括：

根据不同教学领域的关键指标因子确定关联影响因子；

通过贝叶斯分析方法确定所述关键指标因子和所述关联影响因子的初始权重；

根据所述关键指标因子、所述关联影响因子以及所述初始权重构建多源数据评价模型和对应的预测模型。

进一步地，在本发明的一个实施例中，所述将所述用户行为数据输入到所述多源数据评价模型和所述预测模型，得到评价预测结果这一步骤，其具体包括：

将所述用户行为数据输入到所述多源数据评价模型，得到第一评价数据集；

将所述第一评价数据集输入到所述预测模型，得到评价预测结果。

进一步地，在本发明的一个实施例中，所述根据所述评价预测结果对所述多源数据评价模型进行优化这一步骤，其具体包括：

根据所述评价预测结果确定所述关键指标因子和所述关联影响因子的后验概率；

根据所述后验概率调整所述多源数据评价模型中关键指标因子和关联影响因子的权重。

第二方面，本发明实施例提供了一种跨领域的多源数据评价模型训练系统，包括：

关键指标因子确定模块，用于确定多个教学领域的关键指标因子；

数据来源埋点模块，用于确定各所述教学领域的多个数据来源，并对与所述关键指标因子相匹配的数据来源进行埋点；

模型构建模块，用于根据所述关键指标因子构建多源数据评价模型和对应的预测模型；

数据获取模块，用于通过埋点后的数据来源获取用户行为数据；

模型训练模块，用于将所述用户行为数据输入到所述多源数据评价模型和所述预测模型，得到评价预测结果，进而根据所述评价预测结果对所述多源数据评价模型进行优化，得到训练好的多源数据评价模型。

进一步地，在本发明的一个实施例中，所述模型构建模块包括：

关联影响因子确定单元，用于根据不同教学领域的关键指标因子确定关联影响因子；

初始权重确定单元，用于通过贝叶斯分析方法确定所述关键指标因子和所述关联影响因子的初始权重；

模型构建单元，用于根据所述关键指标因子、所述关联影响因子以及所述初始权重构建多源数据评价模型和对应的预测模型。

第三方面，本发明实施例提供了一种跨领域的多源数据评价模型训练装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的一种跨领域的多源数据评价模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的一种跨领域的多源数据评价模型训练方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明实施例先确定多个教学领域的关键指标因子，然后确定各所述教学领域的多个数据来源，并对与所述关键指标因子相匹配的数据来源进行埋点，再根据所述关键指标因子构建多源数据评价模型和对应的预测模型，然后通过埋点后的数据来源获取用户行为数据，将所述用户行为数据输入到所述多源数据评价模型和所述预测模型，得到评价预测结果，进而根据所述评价预测结果对所述多源数据评价模型进行优化，得到训练好的多源数据评价模型。本发明实施例适合模块化教学、跨领域组合教学等复杂的应用场景，解决了评价模型数据来源单一、评价指标单一以及评价结果滞后的问题，提高了评价模型的准确性和可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对本发明实施例中所需要使用的附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例提供的一种跨领域的多源数据评价模型训练方法的步骤流程图；

图2为本发明实施例提供的一种跨领域的多源数据评价模型训练系统的结构框图；

图3为本发明实施例提供的一种跨领域的多源数据评价模型训练装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，多个的含义是两个或两个以上，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。

参照图1，本发明实施例提供了一种跨领域的多源数据评价模型训练方法，具体包括以下步骤：

S101、确定多个教学领域的关键指标因子。

具体地，识别跨领域关键指标因子，分别针对各个教学领域识别全部可能的关键指标因子，并逐一进行编码。步骤S101具体包括以下步骤：

S1011、根据预设的维度确定多个教学领域；

S1012、确定各教学领域的关键考核指标，并对关键考核指标进行编码，得到关键指标因子。

具体地，按照预设的不同维度，识别涉及的教学领域，然后分别识别各个教学领域的关键考核指标，对该关键考核指标进行编码得到关键指标因子，可表示为n₁₁、n₁₂、n_1j…n₂₁、n₂₂、n_2j…n_ij。

S102、确定各教学领域的多个数据来源，并对与关键指标因子相匹配的数据来源进行埋点。

具体地，识别步骤S101中各个教学领域的不同数据来源，包括跨平台的数据源，包括PC端、APP端等不同来源，并对用户历史行为轨迹中匹配关键指标因子的所有数据进行埋点。

进一步作为可选的实施方式，对与关键指标因子相匹配的数据来源进行埋点这一步骤，其具体为：

A1、获取用户历史行为轨迹，并根据用户历史行为轨迹确定多个与关键指标因子相匹配的数据来源；

A2、在匹配到的数据来源处加载SDK数据埋点工具。

具体地，本发明实施例无埋点技术采集数据，即通过跨平台的不同数据源端自身的特点来完成数据收集的自动化过程，将网络数据进行反解析，无需手动一个个埋点，只需在第一次使用时加载SDK(数据埋点软件工具包)，即可采集全量、实时的用户行为数据。例如PC端通过监听JS事件，把页面上发生的所有用户操作都采集下来；IOS端是利用runtime机制，把系统事件、点击事件的指针替换成数据埋点软件开发包中的函数来监测用户的操作，在软件开发包的函数中采集并发送需要的数据。

S103、根据关键指标因子构建多源数据评价模型和对应的预测模型。

具体地，根据步骤S101确定的关键指标因子确定关联影响因子，然后建立步骤S102中埋点后的数据来源采集的数据与模型的映射关系，创建多源数据评价模型M，以及对应的预测模型P。步骤S103具体包括以下步骤：

S1031、根据不同教学领域的关键指标因子确定关联影响因子；

S1032、通过贝叶斯分析方法确定关键指标因子和关联影响因子的初始权重；

S1033、根据关键指标因子、关联影响因子以及初始权重构建多源数据评价模型和对应的预测模型。

具体地，本发明实施例中采用贝叶斯分析方法确定关键指标因子和关联影响因子的初始权重，所有初始权重预设1/x作为先验概率，x表示关键指标因子和关联影响因子的总数。假定随机向量(x，θ)的联合分布密度是p(x，θ)，其边际密度分别是p(x)、P(θ)，设x为所有可能的关键因子总数量(也即观测向量)，θ是未知参数向量(还存在其他未识别可能的关键因子)，通过观测向量获得未知参数向量的估计，贝叶斯定理记作：

其中，π(θ)是θ的先验分布。

本发明实施例通过贝叶斯分析方法可以估计出所有关键因子(包括关键指标因子和关联影响因子)并确定其权重，从而可以建立多源数据评价模型如下：

其中，S_i为关键因子i对应的数据集。

然后根据样本数据，创建多源数据模型M对应的预测模型P，创建方法步骤同多源数据模型M，使用贝叶斯学习模型进行预测，能极大提高模型计算效率。

S104、通过埋点后的数据来源获取用户行为数据。

具体地，根据步骤S102的埋点，系统自动收集用户行为数据。通过无埋点技术中的可视化配置，新增关键指标因子的数据配置埋点，即可追加随时生效的事件数据点，从而实现系统自动收集用户行为数据。

S105、将用户行为数据输入到多源数据评价模型和预测模型，得到评价预测结果，进而根据评价预测结果对多源数据评价模型进行优化，得到训练好的多源数据评价模型。

具体地，将收集的用户行为数据映射到多源数据评价模型M和预测模型P，得到评价预测结果，根据该评价预测结果调整多源数据评价模型M中关键标识因子和关联影响因子的权重。

进一步作为可选的实施方式，将用户行为数据输入到多源数据评价模型和预测模型，得到评价预测结果这一步骤，其具体包括：

B1、将用户行为数据输入到多源数据评价模型，得到第一评价数据集；

B2、将第一评价数据集输入到预测模型，得到评价预测结果。

进一步作为可选的实施方式，根据评价预测结果对多源数据评价模型进行优化这一步骤，其具体包括：

C1、根据评价预测结果确定关键指标因子和关联影响因子的后验概率；

C2、根据后验概率调整多源数据评价模型中关键指标因子和关联影响因子的权重。

具体地，通过贝叶斯学习一一计算预测模型P中，所有可能关键因子的后验概率，对应调整多源数据评价模型M权重与预测模型P一致。同样通过全量数据计算评价模型M的收益。优化后的多源数据评价模型M如下：

其中，P(B_i|A)表示关键因子i的后验概率。

重复执行上述步骤S104-S105，直至预测模型P与多源数据评价模型M的收益一致，至此多源数据评价模型M达到最优，对应采集的数据集为最优埋点数据集，从而实现自动配置数据。

以上对本发明实施例的方法步骤进行了说明。可以理解的是，本发明实施例可应用于多个不同专业领域的教师任教同一课程的不同班级或者同一课程的同一班级，同样适用于模块化教学，与其他评价体系比较，本发明实施例具有以下优势：

1)支持跨领域：传统的评价方法仅支持单领域，本发明实施例适合模块化教学、跨领域组合教学更复杂的应用场景。

2)模型可靠：解决了评价模型数据来源单一、评价指标单一、评价结果滞后的问题，评价模型更加可靠。

3)自动化配置：新增业务不需要考虑模型优化，只需考虑评价关键因子，可实现自动配置数据，大大简化了业务复杂度。

参照图2，本发明实施例提供了一种跨领域的多源数据评价模型训练系统，包括：

数据来源埋点模块，用于确定各教学领域的多个数据来源，并对与关键指标因子相匹配的数据来源进行埋点；

模型构建模块，用于根据关键指标因子构建多源数据评价模型和对应的预测模型；

模型训练模块，用于将用户行为数据输入到多源数据评价模型和预测模型，得到评价预测结果，进而根据评价预测结果对多源数据评价模型进行优化，得到训练好的多源数据评价模型。

进一步作为可选的实施方式，模型构建模块包括：

初始权重确定单元，用于通过贝叶斯分析方法确定关键指标因子和关联影响因子的初始权重；

模型构建单元，用于根据关键指标因子、关联影响因子以及初始权重构建多源数据评价模型和对应的预测模型。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图3，本发明实施例提供了一种跨领域的多源数据评价模型训练装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当上述至少一个程序被上述至少一个处理器执行时，使得上述至少一个处理器实现上述的一种跨领域的多源数据评价模型训练方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，该处理器可执行的程序在由处理器执行时用于执行上述一种跨领域的多源数据评价模型训练方法。

本发明实施例的一种计算机可读存储介质，可执行本发明方法实施例所提供的一种跨领域的多源数据评价模型训练方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种跨领域的多源数据评价模型训练方法，其特征在于，包括以下步骤：

确定多个教学领域的关键指标因子；

通过埋点后的数据来源获取用户行为数据；

2.根据权利要求1所述的一种跨领域的多源数据评价模型训练方法，其特征在于，所述确定多个教学领域的关键指标因子这一步骤，其具体包括：

根据预设的维度确定多个教学领域；

3.根据权利要求1所述的一种跨领域的多源数据评价模型训练方法，其特征在于，所述对与所述关键指标因子相匹配的数据来源进行埋点这一步骤，其具体为：

在匹配到的数据来源处加载SDK数据埋点工具。

4.根据权利要求1所述的一种跨领域的多源数据评价模型训练方法，其特征在于，所述根据所述关键指标因子构建多源数据评价模型和预测模型这一步骤，其具体包括：

根据不同教学领域的关键指标因子确定关联影响因子；

5.根据权利要求4所述的一种跨领域的多源数据评价模型训练方法，其特征在于，所述将所述用户行为数据输入到所述多源数据评价模型和所述预测模型，得到评价预测结果这一步骤，其具体包括：

6.根据权利要求4所述的一种跨领域的多源数据评价模型训练方法，其特征在于，所述根据所述评价预测结果对所述多源数据评价模型进行优化这一步骤，其具体包括：

7.一种跨领域的多源数据评价模型训练系统，其特征在于，包括：

8.根据权利要求7所述的一种跨领域的多源数据评价模型训练系统，其特征在于，所述模型构建模块包括：

9.一种跨领域的多源数据评价模型训练装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至6中任一项所述的一种跨领域的多源数据评价模型训练方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至6中任一项所述的一种跨领域的多源数据评价模型训练方法。