CN113761217A

CN113761217A - 基于人工智能的题目集数据处理方法、装置和计算机设备

Info

Publication number: CN113761217A
Application number: CN202110424283.2A
Authority: CN
Inventors: 孙朝旭; 吴嫒博; 刘萌; 蔡晓凤; 孙康明; 叶礼伟; 卢鑫鑫; 夏志群; 滕达; 覃伟枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-12-07

Abstract

本申请涉及一种基于人工智能的题目集数据处理方法、装置、计算机设备和存储介质，属于人工智能技术领域。所述方法包括：针对目标题目集，确定所述目标题目集中各题目的关联知识点；获取所述关联知识点对应的知识点图谱特征；提取所述目标题目集中各题目的题目语义特征，并将所述题目语义特征和所述知识点图谱特征输入至预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果；其中，所述预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；根据所述预测作答结果，确定所述用户账户与各个所述关联知识点间的匹配程度。采用本方法能够在考试前准确地预测出学生对目标题目集所涉及知识点的掌握状态。

Description

基于人工智能的题目集数据处理方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于人工智能的题目集数据处理方法、装置、计算机设备和存储介质。

背景技术

在教学实践中，学校往往会在一个学期的不同学习阶段对学生进行针对性的考核，而通过考试检查学生的学习能力和其知识储备，是目前主流的考核方式。

在通过考试的方式对学生进行考核时，大多数是从固定的题库中直接抽取若干道试题以组成一套完整的考卷下发至学生进行考试。然而，这种方式往往只能基于学生在考试结束后提交的答卷，确定出学生对该考卷所涉及知识点的掌握状态，使得学校无法在考试前确定该考卷能否很好地考核到学生的知识薄弱点，进而无法确定该考卷对学生的知识点考核效果。

因此，相关技术中存在无法在考试前预测出学生对考卷所涉及知识点的掌握状态的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在考试前预测出学生对目标试卷所涉及知识点的掌握状态的题目集数据处理方法、装置、计算机设备和存储介质。

一种题目集数据处理方法，所述方法包括：

针对目标题目集，确定所述目标题目集中各题目的关联知识点；

获取所述关联知识点对应的知识点图谱特征；所述知识点图谱特征为所述关联知识点于目标知识图谱中的特征；所述目标知识图谱为所述关联知识点所处的知识图谱；

提取所述目标题目集中各题目的题目语义特征，并将所述题目语义特征和所述知识点图谱特征输入至预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果；其中，所述预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；

根据所述预测作答结果，确定所述用户账户与各个所述关联知识点间的匹配程度。

一种题目集数据处理装置，所述装置包括：

确定模块，用于针对目标题目集，确定所述目标题目集中各题目的关联知识点；

获取模块，用于获取所述关联知识点对应的知识点图谱特征；所述知识点图谱特征为所述关联知识点于目标知识图谱中的特征；所述目标知识图谱为所述关联知识点所处的知识图谱；

提取模块，用于提取所述目标题目集中各题目的题目语义特征，并将所述题目语义特征和所述知识点图谱特征输入至预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果；其中，所述预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；

知识追踪模块，用于根据所述预测作答结果，确定所述用户账户与各个所述关联知识点间的匹配程度。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述题目集数据处理方法、装置、计算机设备和存储介质，针对目标题目集，通过确定目标题目集中各题目的关联知识点，以及，获取关联知识点对应的知识点图谱特征；其中，知识点图谱特征为关联知识点于目标知识图谱中的特征；目标知识图谱为关联知识点所处的知识图谱；然后，提取目标题目集中各题目的题目语义特征，并将题目语义特征和知识点图谱特征输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果；其中，预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；最后，根据预测作答结果，确定用户账户与各个关联知识点间的匹配程度；如此，实现了通过将目标题目集中各题目的关联知识点对应的知识点图谱特征和目标题目集中各题目的题目语义特征相结合来准确预测出用户账户针对目标题目集的作答结果，并基于作答结果，确定用户账户与各个关联知识点间的匹配程度，从而实现基于目标题目集中的多方特征信息来在考试前准确地预测学生对目标题目集所涉及知识点的掌握程度，进而实现在考试前确定该目标题目集能否很好地考核到学生的知识薄弱点，提前确定该目标题目集对学生的知识点考核效果。

附图说明

图1为一个实施例中一种题目集数据处理方法的应用环境图；

图2为一个实施例中一种题目集数据处理方法的流程示意图；

图3为一个实施例中一种知识点的掌握概率的可视化示意图；

图4为一个实施例中一种知识点关联矩阵的示意图；

图5为一个实施例中一种题目集数据处理方法的流程示意图；

图6为一个实施例中一种试卷推送方法的流程逻辑图；

图7为一个实施例中一种题目集数据处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的题目集数据处理方法，可以应用于如图1所示的应用环境中。其中，计算机设备110针对目标题目集，确定目标题目集中各题目的关联知识点；计算机设备110获取关联知识点对应的知识点图谱特征；知识点图谱特征为关联知识点于目标知识图谱中的特征；目标知识图谱为关联知识点所处的知识图谱；计算机设备110提取目标题目集中各题目的题目语义特征，并将题目语义特征和知识点图谱特征输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果；其中，预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；计算机设备110根据预测作答结果，确定用户账户与各个所述关联知识点间的匹配程度。实际应用中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑，也可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。实际应用中，多个物理服务器可以基于区块链储存服务技术实现题目集数据的同步。

其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

另外，服务器还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个实施例中，如图2所示，提供了一种题目集数据处理方法，以该方法应用于图1中的计算机设备110为例进行说明，包括以下步骤：

步骤S210，针对目标题目集，确定目标题目集中各题目的关联知识点。

其中，题目集可以是指由至少一个题目组成的集合。实际应用中，题目集也可以命名为试卷。

其中，目标题目集可以是指需要推送至用户账户的题目集。实际应用中，目标题目集也可以命名为待推送题目集或待下发题目集。

其中，关联知识点可以是指题目涉及到的知识点。

具体实现中，计算机设备在针对目标题目集进行推送的过程中，计算机设备可以针对目标题目集，确定目标题目集中各题目的关联知识点。

步骤S220，获取关联知识点对应的知识点图谱特征。

其中，知识点图谱特征为关联知识点于目标知识图谱中的特征。

其中，目标知识图谱为关联知识点所处的知识图谱。

具体实现中，计算机设备在确定目标题目集中各题目的关联知识点后，计算机设备则获取关联知识点对应的知识点图谱特征。其中，计算机设备可以确定关联知识点所处的知识图谱即目标知识图谱。然后，计算机设备获取该联知识点于目标知识图谱中的特征得到知识点图谱特征。

步骤S230，提取目标题目集中各题目的题目语义特征，并将题目语义特征和知识点图谱特征输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果。

其中，预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；历史作答数据包括历史题目集和对应的历史作答结果。实际应用中，预训练的作答结果预测模型可以是人工智能领域中的transformer模型。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体来说，计算机设备可以获取历史题目集中各历史题目对应的知识点图谱特征和题目语义特征，并基于该历史题目集对应的知识点图谱特征和题目语义特征和历史作答结果，对待训练的作答结果预测模型，得到预训练的作答结果预测模型。

需要说明的是，获取历史题目集中各历史题目对应的知识点图谱特征和题目语义特征所采用的方法与上文中获取目标题目集中各题目对应的知识点图谱特征和题目语义特征所采用的方法相同，在此不再赘述。

具体实现中，计算机设备提取目标题目集中各题目的题目语义特征；具体来说，计算机设备可以将目标题目集中各题目的文本输入至预训练的语义提取模型中，通过该预训练的语义提取模型提取出目标题目集中各题目的题目语义特征。

然后，计算机设备将题目语义特征和知识点图谱特征输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果。

步骤S240，根据预测作答结果，确定用户账户与各个关联知识点间的匹配程度。

其中，匹配程度可以是指用户账户与关联知识点的相关联程度。应当理解的是，当学生A对关联知识点B的知识点掌握程度越高，则该学生A的用户账户与该关联知识点B的匹配程度越高。

实际应用中，计算机设备可以采用用户账户于关联知识点的掌握概率来表征该用户账户与该关联知识点间的匹配程度。

具体实现中，计算机设备可以根据预测作答结果，确定用户账户于各个关联知识点的掌握概率，进而表征出用户账户与各个关联知识点间的匹配程度。为了便于本领域技术人员的理解，图3提供了一种知识点的掌握概率的可视化示意图。如图3所示，图中的每个圆圈对应于一个知识点，可以包括关联知识点和未涉及知识点；关联知识点对应的圆圈中的显示样式用于表征用户账户对该知识点的掌握概率；服务器可以基于关联知识点的掌握概率的数值大小将该关联知识点对应的显示样式分为已掌握显示样式、部分掌握显示样式、未掌握显示样式。

实际应用中，还可以通过关联知识点对应的圆圈中的填充颜色来表征用户账户对该知识点的掌握概率。

例如，当用户账户对关联知识点A的掌握概率大于90％时，则将关联知识点A对应的圆圈中的填充颜色设置为绿色，用于表征该用户账户已掌握该关联知识点A；当用户账户对关联知识点A的掌握概率为大于20％且小于90％时，则将关联知识点A对应的圆圈中的填充颜色设置为黄色，用于表征该用户账户已部分掌握该关联知识点A；当用户账户对关联知识点A的掌握概率为小于20％时，则将关联知识点A对应的圆圈中的填充颜色设置为红色，用于表征该用户账户未掌握该关联知识点A。如此，可以直观地展示出用户账户于各个知识点的掌握状态。

实际应用中，用户账户于各个关联知识点的掌握概率可以用于判断该目标试题集能否对用户账户未掌握的知识点进行考察。例如，当用户账户于各个关联知识点的掌握概率为100％时，说明该目标题目集只能考察到用户账户已掌握的知识点，该目标题目集并无法对用户账户未掌握的知识点进行考察，即该目标题目集并没有起到对用户账户的考核作用，因此，出题者账户可以重新对目标题目集中的各道题目进行调整，不断地对目标题目集进行优化，使得目标题目集可以准确地考核到目标账户未掌握的知识点。

上述题目集数据处理方法中，针对目标题目集，通过确定目标题目集中各题目的关联知识点，以及，获取关联知识点对应的知识点图谱特征；其中，知识点图谱特征为关联知识点于目标知识图谱中的特征；目标知识图谱为关联知识点所处的知识图谱；然后，提取目标题目集中各题目的题目语义特征，并将题目语义特征和知识点图谱特征输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果；其中，预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；历史作答数据包括历史题目集和对应的历史作答结果；最后，根据预测作答结果，确定用户账户与各个关联知识点间的匹配程度；如此，实现了通过将目标题目集中各题目的关联知识点对应的知识点图谱特征和目标题目集中各题目的题目语义特征相结合来准确预测出用户账户针对目标题目集的作答结果，并基于作答结果，确定用户账户与各个关联知识点间的匹配程度，从而实现基于目标题目集中的多方特征信息来在考试前准确地预测学生对目标题目集所涉及知识点的掌握程度，进而实现在考试前确定该目标题目集能否很好地考核到学生的知识薄弱点，提前确定该目标题目集对学生的知识点考核效果。

在一个实施例中，获取关联知识点对应的知识图谱特征，包括：获取目标知识图谱的知识图谱特征向量，以及，获取目标题目集的知识点关联矩阵；将知识图谱特征向量与知识点关联矩阵进行矩阵乘法处理，得到知识点图谱特征向量；知识点图谱特征向量用于表征关联知识点对应的知识点图谱特征。

其中，知识点关联矩阵用于表征目标题目集中各题目的关联知识点。为了便于本领域技术人员的理解，图4提供了一种知识点关联矩阵的示意图：其中，横向分别表示知识点1,2,3,4,5,6，纵向分别表示题目1,2,3,4,5,6，若题目A考察了知识点B，则(题目A，知识点B)对应的矩阵元素值为1，反之为0；如图4所示，该知识点关联矩阵表示，第一道题目考察的是知识点2和知识点4即知识点2和知识点4为第一道题目的关联知识点，第二道题目考察的是知识点5即知识点5为第二道题目的关联知识点，以此类推。实际应用中，知识点关联矩阵可以记为B。

换句话说，知识点关联矩阵B可以表示的是T道题目与N个知识点之间的关联关系。

其中，知识图谱特征向量可以是指目标知识图谱的知识图谱特征对应的向量表示。实际应用中，知识图谱特征向量可以记为X'。其中，知识图谱特征向量X'的维度为(N,V')；其中，N表示知识点特征的数量；V'表示单个知识点特征的长度。

具体实现中，计算机设备在获取关联知识点对应的知识图谱特征的过程中，计算机设备可以获取目标知识图谱的知识图谱特征向量X'，以及，获取目标题目集的知识点关联矩阵B；将知识图谱特征向量与知识点关联矩阵进行矩阵乘法处理，得到知识点图谱特征向量B*X'；知识点图谱特征向量用于表征关联知识点对应的知识点图谱特征。

本实施例的技术方案，知识点图谱特征向量可以用于表征T道题目关联的知识点的特征，从而实现不仅可以得到直接相关的知识点的关系，还可以得到这T道目与间接关联的知识点之间的关系。

在一个实施例中，获取目标知识图谱的知识图谱特征向量，包括：获取目标知识图谱中各知识点节点的知识点语义向量，以及，获取目标知识图谱的知识点节点邻接矩阵；将知识点语义向量和知识点节点邻接矩阵输入至预训练的图谱特征提取网络，得到知识图谱特征向量。

其中，知识点节点邻接矩阵用于表征目标知识图谱中各知识点节点之间的邻接关系。实际应用中，知识点节点邻接矩阵可以记为A，该知识点节点邻接矩阵A的维度为(N,N)，其中N为知识点节点个数。若第i节点和第j节点之间连通，则对应矩阵的(i,j)位置为1，否则为0。

其中，知识点语义向量可以是知识点语义向量表示(embedding向量)。实际应用中，知识点语义向量可以记为X，其维度为(N,V)，其中N为知识点节点个数，V为embedding特征向量长度。

具体实现中，计算机设备在获取目标知识图谱的知识图谱特征向量的过程中，计算机设备可以获取目标知识图谱中各知识点节点的知识点语义向量；具体来说，计算机设备可以采用预训练的语义特征提取模型(如，word2vec、Bert、Elmo等语义特征提取模型)提取出每个知识点的语义embedding向量。以及，计算机设备获取目标知识图谱的知识点节点邻接矩阵A。然后，计算机设备将知识点语义向量B和知识点节点邻接矩阵A输入至预训练的图谱特征提取网络，得到知识图谱特征向量。实际应用中，预训练的图谱特征提取网络可以采用传统图神经网络(如，GCN)；但是传统图神经网络GCN依赖拉普拉斯矩阵，不能直接用于有向图；模型训练不能用于动图；传统图神经网络GCN无法为更加邻近的节点分配更高的权重。

因而，预训练的图谱特征提取网络也可以采用多层图注意力网络GAT，根据multi-head(多头)注意力机制对图中节点特征进行更新。计算机设备将知识点语义向量B和知识点节点邻接矩阵A输入至预训练的多层图注意力网络GAT后，通过该预训练的多层图注意力网络GAT输出提取的知识图谱特征向量X’。

具体来说，假设图数据包含N个节点，每个节点的特征向量为h_i，维度为F，即为h＝{h₁，h₂，...，h_N}。首先对特征向量力进行线性变换，即乘以权重矩阵W，然后使用attention(注意力)机制来计算每个节点j对节点i的重要性，即可得到attention得分，计算公式如下所示：

e_ij＝Attention(Wh_i，Wh_j)

通过attention机制的计算，可以计算两个节点之间的不同权重，从而不同节点j对节点i对的重要性是不同的。也可以采用multi-head注意力，计算多个attention得分的平均值。

GAT不依赖于完整的图结构，只依赖于边，可以用于有向图，适用于知识图谱的情况；采用attention机制，可以为不同的相邻节点分配不同的权重。

本实施例的技术方案，获取目标知识图谱中各知识点节点的知识点语义向量，以及，获取目标知识图谱的知识点节点邻接矩阵；将知识点语义向量和知识点节点邻接矩阵输入至预训练的图谱特征提取网络，从而可以准确地得到知识图谱特征向量。

在一个实施例中，提取目标题目集中各题目的题目语义特征，并将题目语义特征和知识点图谱特征输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果，包括：提取目标题目集的题目语义向量，以及，获取目标题目集的题目信息向量；将题目语义向量、题目信息向量和知识点图谱特征向量输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果。

其中，题目语义向量用于表征目标题目集中各题目的题目语义特征。实际应用中，题目语义向量可以记为E，其维度为(T,V)，其中T为历史做题数目，V为embedding特征向量长度。

其中，题目信息向量可以是题目信息的向量表示。其中，题目信息向量可以记为C，题目信息向量C的维度为(T,M)；其中，T为题目数量，M为特征长度。

具体实现中，计算机设备在提取目标题目集中各题目的题目语义特征，并将题目语义特征和知识点图谱特征输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果的过程中，计算机设备可以提取目标题目集的题目语义向量；具体来说，计算机设备可以采用预训练的语义特征提取模型(如，word2vec、Bert、Elmo等语义特征提取模型)提取出目标题目集中每个题目对应的语义向量即题目语义向量E；计算机设备获取目标题目集的题目信息向量C；最后，计算机设备将题目语义向量E、题目信息向量C和知识点图谱特征向量B*X'输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果。

本实施例的技术方案，通过提取目标题目集的题目语义向量，以及，获取目标题目集的题目信息向量；将题目语义向量、题目信息向量和知识点图谱特征向量输入至预训练的作答结果预测模型，从而可以结合多维度的特征，准确地得到针对目标题目集的预测作答结果。

在一个实施例中，将题目语义向量、题目信息向量和知识点图谱特征向量输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果，包括：将题目语义向量、题目信息向量和知识点图谱特征向量进行融合，得到融合特征向量；将融合特征向量输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果。

具体实现中，计算机设备在将题目语义向量E、题目信息向量C和知识点图谱特征向量B*X'输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果的过程中，计算机设备可以将题目语义向量E、题目信息向量C和知识点图谱特征向量B*X'进行融合，得到融合特征向量concat(B*X',E,C)；其中，concat()为特征融合函数；最后，计算机设备再将融合特征向量concat(B*X',E,C)输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果。

本实施例的技术方案，通过将题目语义向量、题目信息向量和知识点图谱特征向量进行融合，得到融合特征向量；将融合特征向量输入至预训练的作答结果预测模型，减少了预训练的作答结果预测模型的数据处理量，实现快速地得到针对目标题目集的预测作答结果。

在一个实施例中，预训练的作答结果预测模型包括预训练的编码层和预训练的解码层，将融合特征向量输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果，包括：通过预训练的编码层，对融合特征向量进行编码处理，得到融合特征编码；通过预训练的解码层，对融合特征编码进行解码处理，将解码结果作为目标题目集的预测作答结果。

其中，预训练的作答结果预测模型包括预训练的编码层和预训练的解码层。实际应用中，该预训练的作答结果预测模型可以是预训练的Transformer模型(一种Encoder-Decoder模型，编码解码模型)。

具体实现中，计算机设备在将融合特征向量输入至预训练的作答结果预测模型，得到针对目标题目集的预测作答结果的过程中，计算机设备可以通过预训练的编码层，对融合特征向量进行编码处理，得到融合特征编码；通过预训练的解码层，对融合特征编码进行解码处理，将解码结果作为目标题目集的预测作答结果。

本实施例的技术方案，通过采用编码解码模型结构的作答结果预测模型，通过该作答结果预测模型中的预训练的编码层，对融合特征向量进行编码处理，得到融合特征编码；通过该作答结果预测模型中的预训练的解码层，对融合特征编码进行解码处理，将解码结果作为目标题目集的预测作答结果；实现并行、且更加高效地预测出用户账户的预测作答结果，还能够使模型可以捕捉到更长距离的文本信息。

在一个实施例中，根据预测作答结果，确定用户账户与各个关联知识点间的匹配程度，包括：在预测作答结果中，确定用户账户于目标题目集中的目标题目对应的答对概率；目标题目为目标题目集中的任意一道题目；获取目标题目的各个关联知识点与目标题目间的相关系数；基于各个关联知识点的相关系数与答对概率，生成用户账户于目标题目的各个关联知识点的掌握概率；关联知识点的掌握概率用于表征用户账户与关联知识点间的匹配程度。

其中，预测作答结果包括用户账户于目标题目集中各题目的答对概率或答错概率。

具体实现中，计算机设备在根据预测作答结果，确定用户账户与关联知识点的匹配程度的过程中，计算机设备可以在预测作答结果中，确定用户账户于目标题目集中各题目的答对概率；然后，计算机设备可以获取目标题目的各个关联知识点与目标题目间的相关系数；基于各个关联知识点的相关系数与答对概率，生成用户账户于目标题目的各个关联知识点的掌握概率，用于表征用户账户与关联知识点间的匹配程度。举例来说，计算机设备在确定用户账户A于第一题目“三分之一的倒数乘以六等于多少”的答对概率为98％时，然后，计算机设备则确定该第一题目所关联的知识点分别为第一关联知识点“倒数”和第二关联知识点“乘法运算”；且获取该第一题目与第一关联知识点的相关系数为0.6；第一题目与第二关联知识点的相关系数为0.8；然后，计算机设备基于各个关联知识点的相关系数与答对概率，生成用户账户于目标题目的各个关联知识点的掌握概率。计算机设备可以将第一题目的答对概率98％与第一题目与第一关联知识点的相关系数0.6相乘，得到用户账户A于第一关联知识点的掌握概率58.8％。将第一题目的答对概率98％与第一题目与第二关联知识点的相关系数0.8相乘，得到用户账户A于第一关联知识点的掌握概率78.4％。

如此，计算机设备可以确定该用户账户已经掌握了第一关联知识点“倒数”和第二关联知识点“有理数加减乘除混合运算”；计算机设备通过用户账户于关联知识点的知识点掌握概率，表征用户账户与关联知识点的匹配程度。即用户账户于关联知识点的知识点掌握概率越高，用户账户与关联知识点的匹配程度越高，此时该目标题目集的题目则未能考察到用户账户未掌握的知识点。

上述实施例的技术方案，通过获取目标题目的各个关联知识点与目标题目间的相关系数，并基于各个关联知识点的相关系数与答对概率，使得生成的用户账户于目标题目的各个关联知识点的掌握概率可以客观地表征出用户账户于目标题目的各个关联知识点的掌握状态。

在一个实施例中，历史作答数据包括样本题目集和用户账户于样本题目集的实际作答结果，方法还包括：获取样本题目集中各题目的关联知识点对应的知识点图谱样本特征，以及，提取样本题目集中各题目的题目语义样本特征；将题目语义样本特征和知识点图谱样本特征输入至待训练的作答结果预测模型，得到针对样本题目集的预测作答结果；基于样本题目集的预测作答结果与实际作答结果之间的差异，对待训练的作答结果预测模型的模型参数进行调整；当调整后的作答结果预测模型的模型参数满足预设条件时，得到预训练的作答结果预测模型。

其中，待训练的作答结果预测模型可以采用时间序列模型(如，transformer模型)。

具体实现中，计算机设备还需要对待训练的作答结果预测模型进行训练，其中，计算机设备可以获取样本题目集中各题目的关联知识点对应的知识点图谱样本特征，以及，提取样本题目集中各题目的题目语义样本特征。需要说明的是，计算机设备获取样本题目集中各题目的关联知识点对应的知识点图谱样本特征采用的方法与上文中计算机设备获取目标题目集中各题目的关联知识点对应的知识点图谱特征采用的方法相同，计算机设备提取样本题目集中各题目的题目语义样本特征采用的方法与上文中计算机设备提取目标题目集中各题目的题目语义特征采用的方法相同，在此不再赘述。然后，计算机设备将题目语义样本特征和知识点图谱样本特征输入至待训练的作答结果预测模型，得到针对样本题目集的预测作答结果。

最后，计算机设备基于样本题目集的预测作答结果与实际作答结果之间的差异，对待训练的作答结果预测模型的模型参数进行调整；当调整后的作答结果预测模型的模型参数满足预设条件时，得到预训练的作答结果预测模型。具体来说，计算机设备可以将样本题目集的预测作答结果与实际作答结果输入至损失函数，得到用于表征预测作答结果与实际作答结果之间的差异的损失函数值；然后，计算机设备可以基于反向传播算法，利用该损失函数值计算出该预训练的作答结果预测模型中各个模型节点的参数的梯度；然后，再基于各个模型节点的参数的梯度对对应的参数进行调整，得到调整后的作答结果预测模型的模型参数满足预设条件(如，训练次数到达预设次数阈值、模型损失值小于预设阈值等)时，得到预训练的作答结果预测模型。

本实施例的技术方案，通过采用用户账户对应的包括有样本题目集和用户账户于样本题目集的实际作答结果的历史作答数据对待训练的作答结果预测模型进行有监督的模型训练，使得训练得到的预训练的作答结果预测模型可以准确且快速地基于输入的题目语义特征和知识点图谱特征，生成针对目标题目集的预测作答结果。

在另一个实施例中，如图5所示，提供了一种题目集数据处理方法，以该方法应用于图1中的计算机设备110为例进行说明，包括以下步骤：步骤S510，针对目标题目集，确定所述目标题目集中各题目的关联知识点。步骤S520，获取目标知识图谱中各知识点节点的知识点语义向量，以及，获取所述目标知识图谱的知识点节点邻接矩阵；所述知识点节点邻接矩阵用于表征所述目标知识图谱中各知识点节点之间的邻接关系。步骤S530，将所述知识点语义向量和所述知识点节点邻接矩阵输入至预训练的图谱特征提取网络，得到知识图谱特征向量，以及，获取所述目标题目集的知识点关联矩阵；其中，所述知识点关联矩阵用于表征所述目标题目集中各题目的关联知识点。步骤S540，将所述知识图谱特征向量与所述知识点关联矩阵进行矩阵乘法处理，得到知识点图谱特征向量；所述知识点图谱特征向量用于表征所述关联知识点对应的知识点图谱特征；所述知识点图谱特征为所述关联知识点于目标知识图谱中的特征；所述目标知识图谱为所述关联知识点所处的知识图谱。步骤S550，提取所述目标题目集的题目语义向量；所述题目语义向量用于表征所述目标题目集中各题目的题目语义特征，以及，获取所述目标题目集的题目信息向量。步骤S560，将所述题目语义向量、所述题目信息向量和所述知识点图谱特征向量进行融合，得到融合特征向量。步骤S570，将所述融合特征向量输入至所述预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果；其中，所述预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；所述历史作答数据包括历史题目集和对应的历史作答结果。步骤S580，在所述预测作答结果中，确定所述用户账户于所述目标题目集中的目标题目对应的答对概率，以及，获取所述目标题目的各个关联知识点与所述目标题目间的相关系数；所述目标题目为所述目标题目集中的任意一道题目。步骤S590，基于各个所述关联知识点的相关系数与所述答对概率，生成所述用户账户于所述目标题目的各个关联知识点的掌握概率；所述关联知识点的掌握概率用于表征所述用户账户与所述关联知识点间的匹配程度。需要说明的是，上述步骤的具体限定可以参见上文对一种题目集数据处理方法的具体限定。

为了便于本领域技术人员的理解，图6实例性地提供了一种试卷推送方法的流程逻辑图；其中，计算机设备获取目标知识图谱；然后，计算机设备可以采用预训练的语义特征提取模型(如，word2vec、Bert、Elmo等语义特征提取模型)提取出每个知识点的语义embedding向量。以及，计算机设备获取目标知识图谱的知识点节点邻接矩阵A。然后，然后，计算机设备将知识点语义向量B和知识点节点邻接矩阵A输入至预训练的多层图注意力网络GAT，输出提取的图谱特征X'。

计算机设备可以获取目标试卷的知识点关联矩阵B；将知识图谱特征向量与知识点关联矩阵进行矩阵乘法处理，得到知识点图谱特征向量B*X'；知识点图谱特征向量用于表征关联知识点对应的知识点图谱特征。

计算机设备可以采用预训练的语义特征提取模型(如，word2vec、Bert、Elmo等语义特征提取模型)提取出目标试卷中每个题目对应的语义向量即题目语义向量E；计算机设备获取目标试卷的题目信息向量C；然后，计算机设备将题目语义向量E、题目信息向量C和知识点图谱特征向量B*X'进行融合，得到融合特征向量concat(B*X',E,C)；其中，concat()为特征融合函数；最后，计算机设备再将融合特征向量concat(B*X',E,C)输入至预训练的作答结果预测模型，得到针对目标试卷的预测作答结果，并根据预测作答结果，确定用户账户与各个关联知识点间的匹配程度。

应该理解的是，虽然图2、图5和图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图5和图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种题目集数据处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：确定模块、获取模块、提取模块和知识追踪模块，其中：

确定模块710，用于针对目标题目集，确定所述目标题目集中各题目的关联知识点；

获取模块720，用于获取所述关联知识点对应的知识点图谱特征；所述知识点图谱特征为所述关联知识点于目标知识图谱中的特征；所述目标知识图谱为所述关联知识点所处的知识图谱；

提取模块730，用于提取所述目标题目集中各题目的题目语义特征，并将所述题目语义特征和所述知识点图谱特征输入至预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果；其中，所述预训练的作答结果预测模型为基于用户账户的历史作答数据训练得到的；所述历史作答数据包括历史题目集和对应的历史作答结果；

知识追踪模块740，用于根据所述预测作答结果，确定所述用户账户与各个所述关联知识点间的匹配程度。

在其中一个实施例中，所述获取模块720，具体用于获取所述目标知识图谱的知识图谱特征向量，以及，获取所述目标题目集的知识点关联矩阵；其中，所述知识点关联矩阵用于表征所述目标题目集中各题目的关联知识点；将所述知识图谱特征向量与所述知识点关联矩阵进行矩阵乘法处理，得到知识点图谱特征向量；所述知识点图谱特征向量用于表征所述关联知识点对应的知识点图谱特征。

在其中一个实施例中，所述获取模块720，具体用于获取所述目标知识图谱中各知识点节点的知识点语义向量，以及，获取所述目标知识图谱的知识点节点邻接矩阵；所述知识点节点邻接矩阵用于表征所述目标知识图谱中各知识点节点之间的邻接关系；将所述知识点语义向量和所述知识点节点邻接矩阵输入至预训练的图谱特征提取网络，得到所述知识图谱特征向量。

在其中一个实施例中，所述提取模块730，具体用于提取所述目标题目集的题目语义向量；所述题目语义向量用于表征所述目标题目集中各题目的题目语义特征，以及，获取所述目标题目集的题目信息向量；将所述题目语义向量、所述题目信息向量和所述知识点图谱特征向量输入至所述预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果。

在其中一个实施例中，所述提取模块730，具体用于将所述题目语义向量、所述题目信息向量和所述知识点图谱特征向量进行融合，得到融合特征向量；将所述融合特征向量输入至所述预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果。

在其中一个实施例中，所述预训练的作答结果预测模型包括预训练的编码层和预训练的解码层，所述提取模块730，具体用于通过所述预训练的编码层，对所述融合特征向量进行编码处理，得到融合特征编码；通过所述预训练的解码层，对所述融合特征编码进行解码处理，将解码结果作为所述目标题目集的预测作答结果。

在其中一个实施例中，所述提取模块730，具体用于在所述预测作答结果中，确定所述用户账户于所述目标题目集中的目标题目对应的答对概率；所述目标题目为所述目标题目集中的任意一道题目；获取所述目标题目的各个关联知识点与所述目标题目间的相关系数；基于各个所述关联知识点的相关系数与所述答对概率，生成所述用户账户于所述目标题目的各个关联知识点的掌握概率；所述关联知识点的掌握概率用于表征所述用户账户与所述关联知识点间的匹配程度。

在其中一个实施例中，所述历史作答数据包括样本题目集和所述用户账户于所述样本题目集的实际作答结果，所述题目集数据处理装置还包括：样本获取模块，用于获取所述样本题目集中各题目的关联知识点对应的知识点图谱样本特征，以及，提取所述样本题目集中各题目的题目语义样本特征；训练模块，用于将所述题目语义样本特征和所述知识点图谱样本特征输入至待训练的作答结果预测模型，得到针对所述样本题目集的预测作答结果；调整模块，用于基于所述样本题目集的预测作答结果与所述实际作答结果之间的差异，对所述待训练的作答结果预测模型的模型参数进行调整；模型确定模块，用于当调整后的作答结果预测模型的模型参数满足预设条件时，得到所述预训练的作答结果预测模型。

关于一种题目集数据处理装置的具体限定可以参见上文中对于一种题目集数据处理方法的限定，在此不再赘述。上述一种题目集数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储题目集数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种题目集数据处理方法。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种题目集数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述关联知识点对应的知识图谱特征，包括：

获取所述目标知识图谱的知识图谱特征向量，以及，获取所述目标题目集的知识点关联矩阵；其中，所述知识点关联矩阵用于表征所述目标题目集中各题目的关联知识点；

将所述知识图谱特征向量与所述知识点关联矩阵进行矩阵乘法处理，得到知识点图谱特征向量；所述知识点图谱特征向量用于表征所述关联知识点对应的知识点图谱特征。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标知识图谱的知识图谱特征向量，包括：

获取所述目标知识图谱中各知识点节点的知识点语义向量，以及，获取所述目标知识图谱的知识点节点邻接矩阵；所述知识点节点邻接矩阵用于表征所述目标知识图谱中各知识点节点之间的邻接关系；

将所述知识点语义向量和所述知识点节点邻接矩阵输入至预训练的图谱特征提取网络，得到所述知识图谱特征向量。

4.根据权利要求2所述的方法，其特征在于，所述提取所述目标题目集中各题目的题目语义特征，并将所述题目语义特征和所述知识点图谱特征输入至预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果，包括：

提取所述目标题目集的题目语义向量；所述题目语义向量用于表征所述目标题目集中各题目的题目语义特征，以及，获取所述目标题目集的题目信息向量；

将所述题目语义向量、所述题目信息向量和所述知识点图谱特征向量输入至所述预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果。

5.根据权利要求4所述的方法，其特征在于，所述将所述题目语义向量、所述题目信息向量和所述知识点图谱特征向量输入至所述预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果，包括：

将所述题目语义向量、所述题目信息向量和所述知识点图谱特征向量进行融合，得到融合特征向量；

将所述融合特征向量输入至所述预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果。

6.根据权利要求5所述的方法，其特征在于，所述预训练的作答结果预测模型包括预训练的编码层和预训练的解码层，所述将所述融合特征向量输入至所述预训练的作答结果预测模型，得到针对所述目标题目集的预测作答结果，包括：

通过所述预训练的编码层，对所述融合特征向量进行编码处理，得到融合特征编码；

通过所述预训练的解码层，对所述融合特征编码进行解码处理，将解码结果作为所述目标题目集的预测作答结果。

7.根据权利要求1所述的方法，其特征在于，所述根据所述预测作答结果，确定所述用户账户与各个所述关联知识点间的匹配程度，包括：

在所述预测作答结果中，确定所述用户账户于所述目标题目集中的目标题目对应的答对概率；所述目标题目为所述目标题目集中的任意一道题目；

获取所述目标题目的各个关联知识点与所述目标题目间的相关系数；

基于各个所述关联知识点的相关系数与所述答对概率，生成所述用户账户于所述目标题目的各个关联知识点的掌握概率；所述关联知识点的掌握概率用于表征所述用户账户与所述关联知识点间的匹配程度。

8.根据权利要求1所述的方法，其特征在于，所述历史作答数据包括样本题目集和所述用户账户于所述样本题目集的实际作答结果，所述方法还包括：

获取所述样本题目集中各题目的关联知识点对应的知识点图谱样本特征，以及，提取所述样本题目集中各题目的题目语义样本特征；

将所述题目语义样本特征和所述知识点图谱样本特征输入至待训练的作答结果预测模型，得到针对所述样本题目集的预测作答结果；

基于所述样本题目集的预测作答结果与所述实际作答结果之间的差异，对所述待训练的作答结果预测模型的模型参数进行调整；

当调整后的作答结果预测模型的模型参数满足预设条件时，得到所述预训练的作答结果预测模型。

9.一种题目集数据处理装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。