CN115935967A

CN115935967A - 试题资源推荐方法、装置、电子设备及存储介质

Info

Publication number: CN115935967A
Application number: CN202211726737.2A
Authority: CN
Inventors: 张星; 汪成成; 程泽宇; 关桑海; 沙晶; 王士进
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-04-07

Abstract

本发明提供一种试题资源推荐方法、装置、电子设备及存储介质，该方法包括：获取目标试题的试题信息；根据试题信息，对目标试题进行特征编码，得到目标试题的试题特征；根据目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从资源库中所有候选试题中确定与目标试题相匹配的推荐试题；根据推荐试题，对目标试题进行试题资源推荐。本发明实现在避免人工参与影响试题推荐可靠性的同时，全自动完成推荐流程，省时省力，有助于提高试题资源推荐的准确率、可靠性、合理性以及推荐效率。

Description

试题资源推荐方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种试题资源推荐方法、装置、电子设备及存储介质。

背景技术

为了有效减轻义务教育阶段学生过重作业负担和校外培训负担，通过试题资源推荐可以使得学生通过在学习机终端进行系统的学习和针对性的做题训练并给出批改结果，同时会给出题目涉及知识点的相关讲解以及推荐出带有视屏讲解的相似试题，达到举一反三、做一题掌握一类题的目的，巩固提高学生对相关知识点的理解和掌握程度。因此，如何准确的推荐出相似试题对于提高学生的学习效率就显得尤为重要。

现有技术中通常需要教研老师人工选择推荐资源，严重依赖教研人员的专业能力，试题推荐的准确性无法保证，且均需要耗费大量的人力和时间成本，效率低下。

发明内容

本发明提供一种试题资源推荐方法、装置、电子设备及存储介质，用以解决现有技术中依赖教研老师人工选择推荐资源，试题推荐的准确性无法保证，且效率低下的缺陷。

本发明提供一种试题资源推荐方法，包括：

获取目标试题的试题信息；

根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征；

根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题；

根据所述推荐试题，对所述目标试题进行试题资源推荐。

根据本发明提供的一种试题资源推荐方法，所述根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征，包括：

根据所述目标试题的试题信息，确定所述目标试题对应的特征编码模型；

基于所述特征编码模型，对所述目标试题进行特征编码，得到所述目标试题的试题特征。

根据本发明提供的一种试题资源推荐方法，所述根据所述目标试题的试题信息，确定所述目标试题对应的特征编码模型，包括：

在所述目标试题的试题信息中不包含答案信息和答案解析信息的情况下，将第一特征编码模型作为所述目标试题对应的特征编码模型；

所述第一特征编码模型是基于对比损失训练得到的；所述对比损失是对不包含答案信息和答案解析信息的第一样本试题，以及包括答案信息和答案解析信息的第二样本试题进行对比学习训练得到的。

在所述目标试题的试题信息中包含答案信息和答案解析信息的情况下，将第二特征编码模型作为所述目标试题对应的特征编码模型；

所述第二特征编码模型是基于误差损失训练得到的；所述误差损失是对包括答案信息和答案解析信息的第二样本试题以及所述第二样本试题对应的知识类别标签进行有监督训练得到的。

根据本发明提供的一种试题资源推荐方法，所述根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题，包括：

根据所述目标试题的试题特征和各候选试题的试题特征，计算所述目标试题与各候选试题之间的第一相似度；

根据所述第一相似度，从所述资源库中所有候选试题中选择第一目标数量的目标候选试题；

根据所述目标试题的试题信息和各目标候选试题的试题信息，计算所述目标试题与各目标候选试题之间的第二相似度；

根据所述第一相似度和所述第二相似度，在所述第一目标数量的目标候选试题中确定与所述目标试题相匹配的推荐试题。

根据本发明提供的一种试题资源推荐方法，所述根据所述第一相似度和所述第二相似度，在所述第一目标数量的目标候选试题中确定与所述目标试题相匹配的推荐试题，包括：

对所述第一相似度和所述第二相似度进行融合；

根据融合结果，在所述第一目标数量的目标候选试题中选择第二目标数量的待推荐候选试题；所述第一目标数量大于所述第二目标数量；

根据所述待推荐候选试题，确定所述推荐试题。

根据本发明提供的一种试题资源推荐方法，所述根据所述目标试题的试题信息和各目标候选试题的试题信息，计算所述目标试题与各目标候选试题之间的第二相似度，包括：

从所述目标试题的试题信息中解析出第一知识点信息、第一试题难度信息和第一试题类型信息，从各目标候选试题的试题信息中解析出第二知识点信息、第二试题难度信息和第二试题类型信息；

计算所述目标试题的第一知识点信息与各目标候选试题的第二知识点信息之间的知识点相似度；

计算所述目标试题的第一试题难度信息与各目标候选试题的第二试题难度信息之间的难度相似度；

计算所述目标试题的第一试题类型信息与各目标候选试题的第二试题类型信息之间的类型相似度；

对所述知识点相似度、所述难度相似度和所述类型相似度进行融合，得到所述第二相似度。

根据本发明提供的一种试题资源推荐方法，所述资源库是基于如下步骤预先构建的：

对于当前次资源构建，确定上一次资源构建获取的资源库中的资源覆盖率是否大于预设阈值；

在确定所述资源覆盖率小于或等于所述预设阈值的情况下，从数据库中选择目标章节下的多个初始试题；

根据学科关键词库，对各初始试题进行数据预处理，得到待筛选试题；所述数据预处理包括数据清洗和数据规范化；

对多个待筛选试题进行聚类，并根据聚类结果，在所述多个待筛选试题中，确定与每一聚类簇的中心簇之间的距离小于预设距离，且试题信息完整的关键试题；

将所述关键试题合并至所述上一次资源构建获取的资源库中，得到所述当前次资源构建对应的资源库；

迭代执行资源构建的步骤，直到所述资源库中的资源覆盖率大于所述预设阈值。

根据本发明提供的一种试题资源推荐方法，所述对多个待筛选试题进行聚类，包括：

对各待筛选试题的试题信息中的题干信息和试题选项信息进行特征提取，得到各待筛选试题的第一试题特征；

对各待筛选试题的试题信息中的题干信息、试题选项信息、答案信息和答案解析信息进行特征提取，得到各待筛选试题的第二试题特征；

基于所述第一试题特征和所述第二试题特征，对所述多个待筛选试题进行聚类。

本发明还提供一种试题资源推荐装置，包括：

获取单元，用于获取目标试题的试题信息；

编码单元，用于根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征；

匹配单元，用于根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题；

推荐单元，用于根据所述推荐试题，对所述目标试题进行试题资源推荐。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述试题资源推荐方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述试题资源推荐方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述试题资源推荐方法。

本发明提供的试题资源推荐方法、装置、电子设备及存储介质，通过根据目标试题的试题信息，自动对目标试题进行特征编码，以深度挖掘表征目标试题的位置信息和上下文信息的试题特征，进而综合目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，自动精准地挖掘出与目标试题相匹配的推荐试题，推荐过程无需人工参与，在避免人工参与影响试题推荐可靠性的同时，全自动完成推荐流程，省时省力，有助于提高试题资源推荐的准确率、可靠性、合理性以及推荐效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术提供的试题资源推荐方法的流程示意图；

图2是本发明提供的试题资源推荐方法的流程示意图之一；

图3是本发明提供的试题资源推荐方法中的第一初始特征编码模型的结构示意图；

图4是本发明提供的试题资源推荐方法中的第一特征编码模型的结构示意图；

图5是本发明提供的试题资源推荐方法中的第二特征编码模型的结构示意图；

图6是本发明提供的试题资源推荐方法的流程示意图之二；

图7是本发明提供的试题资源推荐方法中构建资源库的流程示意图之一；

图8是本发明提供的试题资源推荐方法中构建资源库的流程示意图之二；

图9是本发明提供的试题资源推荐装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所述，现有技术中，通常需要教研老师人工选择推荐资源，具体依赖人工选择某个章节的典型试题，并依据典型试题中出现的关键词表征出试题向量，以得到典型试题的TFTF-IDF(Term Frequency-Inverse Document Frequency，词频的逆文本频率指数)特征，并手动将典型试题的TFTF-IDF特征存储在数据库中；在线上获取到目标试题之后，表征出目标试题的TFTF-IDF特征，并在资源库中搜索与目标试题的TFTF-IDF特征相似的试题并排序，以根据业务需求推荐出排名靠前的多个相似试题。

综上，现有的试题推荐方式，存在以下弊端：

首先，人工选题覆盖度偏低，依靠教研老师人工的从海量试题中选取典型试题作为推荐资源，对人力依赖较大且有相当的主观性，选题的覆盖度难以保障，进而使得试题推荐的准确性无法保证；

其次，试题表征方法无法表达深层语义信息，TF-IDF表征特征向量主要依赖关键词，无法捕捉深层次的语义信息，也无法表征出不同关键词顺序的差异，导致推荐出的相似试题准确率较低，且需要耗费大量的人力和时间成本，效率低下。

综上，现有的试题资源推荐方式存在试题推荐的准确性无法保证，且效率低下的缺陷。

针对上述问题，本实施例提供一种试题资源推荐方法。如图2所示，为本实施例提供的试题资源推荐方法的流程示意图之一，该方法包括如下步骤：

步骤201，获取目标试题的试题信息；

其中，目标试题为需要进行试题资源推送的试题，其可以是试题文本、试题图片或试题音频等，本实施对此不做具体地限定。

试题信息包括但不限于第一子信息和第二子信息；第一子信息用于表征试题的题面信息，包括但不限于题干信息、试题选项信息、答案信息和答案解析信息中的一种或多种；第二子信息用于表征试题的知识信息，包括但不限于知识点信息、试题难度信息以及试题类型信息中的一种或多种，本实施例对此不做具体地限定。

需要说明的是，在获取到目标试题的试题信息之后，可以对试题信息进行预处理，包括但不限于基于学科关键词库，进行数据清洗和数据规范化等，以提高数据信息的质量，便于后续进行试题特征提取和试题推荐，以更加快速精准地实现试题资源推荐。

步骤202，根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征；

可选地，为了能够对目标试题进行精准资源推荐，可以根据试题信息，对目标试题进行特征编码，从而深度挖掘表征目标试题的位置信息和上下文信息的试题特征。

此处，针对试题特征的提取，可以是通过一个或多个预先训练好的特征编码模型实现，也可以是通过一个或多个预先配置好的特征编码规则实现。当针对不同的试题信息配置有多个预先训练好的特征编码模型时，可以先根据试题信息的信息内容，确定相应的特征编码模型，以根据相应的特征编码模型实现目标试题的试题特征提取；当针对不同的试题信息仅配置有一个预先训练好的特征编码模型时，可以直接根据特征编码模型实现目标试题的试题特征提取，本实施例对此不做具体地限定。

步骤203，根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题；

其中，资源库可以是推荐装置预先根据资源推荐需求进行自动构建的。资源库中包含多个候选试题，此处的候选试题可以是与目标试题的教学资源适配的试题，候选试题可以涵盖资源推荐需求所需覆盖的所有试题，也可以是从资源推荐需求所需章节中的所有试题中筛选出的典型试题，例如可以根据教学资源所需章节中，定位该章节下的所有试题，进而从该章节下的所有试题中筛选出符合该教学资源推荐需求的试题作为候选试题。

此处，资源库中各候选试题的试题信息，也可以包括第一子信息和第二子信息。

针对各候选试题的试题特征提取，可以是从各候选试题中分别深度挖掘表征各候选试题的位置信息和上下文信息的试题特征。针对各候选试题的试题特征提取，与目标试题的特征提取相类似，可以是通过一个或多个预先训练好的特征编码模型实现，也可以是通过一个或多个预先配置好的特征编码规则实现；其中，候选试题和目标试题的特征提取可以通过相同的特征编码模型或者编码规则实现，也可以通过不同的特征编码模型和编码规则实现，本发明实施例对此不作具体限定。

需要说明的是，候选试题的试题特征的提取，可以在确定目标试题的试题特征之后执行，也可以在此之前对所有候选试题均进行特征提取，仅在确定目标试题的试题特征之后，查询得到各候选试题的试题特征即可。

可选地，在获取到目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息之后，可以将试题特征和试题信息作为一个整体特征，计算目标试题与各候选试题之间的整体匹配程度；也可以先根据试题特征，计算目标试题与各候选试题之间的第一匹配程度，以及根据试题信息，计算目标试题与各候选试题之间的第二匹配程度，以对第一匹配程度和第二匹配程度进行融合，得到目标试题与各候选试题之间的整体匹配程度。由此，可以根据目标试题与各候选试题之间的整体匹配程度，从所有候选试题中确定与目标试题更加适配的候选试题作为待推荐试题。

此处，推荐试题可以是一个或者多个，基于特征匹配程度选取推荐试题的方式可以是根据目标试题与各候选试题之间的整体匹配程度按照从高到低的顺序进行排序，选择特征匹配程度排在最前的预设数量个候选试题作为推荐试题，此处的预设数量可以是预先设定好的3个、4个；也可以是先基于第一匹配程度，按照从高到低的顺序选择第一特征匹配程度排在最前的第一预设数量个候选试题作为目标候选试题，然后，再根据目标试题与各候选试题之间的整体匹配程度按照从高到低的顺序进行排序，从目标候选试题中，选择整体匹配程度排在最前的第二预设数量个目标候选试题作为推荐试题，此处的第一预设数量大于第二预设数量。

步骤204，根据所述推荐试题，对所述目标试题进行试题资源推荐。

可选地，在获取到目标试题的推荐试题之后，即可针对目标试题，精准地向用户推荐目标试题的推荐试题，以便用户可通过对推荐试题的学习，提高学习效率。

本实施例提供的试题资源推荐方法，通过根据目标试题的试题信息，自动对目标试题进行特征编码，以深度挖掘表征目标试题的位置信息和上下文信息的试题特征，进而综合目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，自动精准地挖掘出与目标试题相匹配的推荐试题，推荐过程无需人工参与，在避免人工参与影响试题推荐可靠性的同时，全自动完成推荐流程，省时省力，有助于提高试题资源推荐的准确率、可靠性、合理性以及推荐效率。

在一些实施例中，根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征，包括：

可选地，为了确保可以深度挖掘出表征目标试题的位置信息和上下文信息的试题特征，可以针对不同试题信息配置多个预先训练的特征编码模型。示例性地，可以根据试题信息中是否包含答案信息和答案解析信息，来配置多种不同的特征编码模型。

针对目标试题的试题特征提取，先确定目标试题的试题信息中所包含的信息内容，以根据试题信息中所包含的信息内容，选择相应的特征编码模型，对目标试题的试题特征进行提取，实现针对不同试题信息下的目标试题，针对性地进行特征编码，进而使得特征编码得到的试题特征更能表征目标试题的题面特征，进一步提高试题推荐的精准性。

此处，针对目标试题的试题特征提取，和针对候选试题的试题特征提取，可以是同一特征编码模型，也可以是不同的特征编码模型，具体是根据目标试题的试题信息和候选试题的试题信息进行适应性地确定的，本实施例对此不做具体地限定。

本实施例中，针对不同的试题信息，适应性地选择相应的特征编码模型，以对目标试题进行分类特征编码，提高特征编码的效率的同时，由于特征编码模型更具有针对性，还可以特征编码的准确性，挖掘到更能表征目标试题的题面特征，进一步提高试题推荐的精准性。

在一些实施例中，在所述目标试题的试题信息中不包含答案信息和答案解析信息的情况下，将第一特征编码模型作为所述目标试题对应的特征编码模型；

可选地，在对目标试题的试题信息进行解析，确定目标试题的试题信息中不包含答案信息和答案解析信息的情况下，为了在特征编码过程中学习到答案信息和答案解析信息的特征，使得试题特征中包含更加丰富的特征，提高试题推荐精度，可将通过对比学习训练得到第一特征编码模型作为目标试题对应的特征编码模型。

进一步地，在基于第一特征编码模型进行试题特征提取之前，需要对第一特征编码模型进行预先训练，具体训练步骤包括：

首先，预先收集大量样本数据，此处的样本数据包括第一样本试题和第二样本试题，其中，第一样本试题的试题信息中包含有题干信息和试题选项信息，而不包含答案信息和答案解析信息；第二样本试题的试题信息中既包含题干信息和试题选项信息，又包含答案信息和答案解析信息。

在训练过程中，可以随机从大量样本数据中选择一批样本试题，包括第一样本试题和第二样本试题，本发明实施例不对样本试题中包含的第一样本试题和第二样本试题的数量占比作限定。

从同一批次中第一样本试题和第二样本试题中的随机抽取一个第一样本试题和第二样本组成样本试题对，将样本试题对中第一样本试题的题干信息与第二样本试题的答案信息和答案解析信息匹配的样本试题对标记为正样本对，将样本试题对中第一样本试题的题干信息与第二样本试题的答案信息和答案解析信息不匹配的样本试题对标记为负样本对，进而得到对比学习标签。

并且，创建第一初始特征编码模型。如图3所示，此处的第一初始特征编码模型包括第一样本试题对应的特征提取分支模型和第二样本试题对应的特征提取分支模型、拼接层和分类层；两个分支模型均包括Bert模块和/或注意力编码模块，还可以包括池化层等，本实施例对此不做具体地限定。

随后，通过将样本试题对中的第一样本试题的试题信息和第二样本试题的试题信息分别输入至第一初始特征编码模型中各自对应的特征提取分支模型中，得到第一样本试题的试题特征U和第二样本试题的试题特征V，然后，对第一样本试题的试题特征和第二样本试题的试题特征进行拼接和相减，再经过分类层计算第一样本试题的试题特征和第二样本试题的试题特征之间的距离，得到第一样本试题和第二样本试题之间的对比学习结果；

根据对比学习结果和对比学习标签确定对比损失，以通对比损失对应的模型信号，激励第一初始特征编码模型拉近正样本对间的距离，拉远负样本对间的距离，即使语义内容相近的样本试题对应的试题特征表示之间的距离在表示空间中更接近，语义不相近的样本试题对应的试题特征表示之间的距离更远。对于一个样本试题对(x1,x2),其对应的标签集合为y∈{0,1}，其中，y＝1代表样本试题对互为正样本对，y＝0代表样本试题互为负样本对，由此，对比损失的计算公式为：

L((x₁,x₂),y)＝yL_p(D(f_θ(x₁),f_θ(x₂)))+(1-y)L_n(D(f_θ(x₁),f_θ(x₂)))；

其中，L(·)为对比损失，D(·)为距离函数，L_p(·)为一级递增函数，L_n(·)为一级递减函数，f_θ(x₁)和f_θ(x₂)分别为样本试题对中的第一样本试题的试题特征和第二样本试题的试题特征。需要说明的是，在样本试题对为正样本对的情况下，样本试题对中的第一样本试题的试题特征和第二样本试题的试题特征之间的距离越远，对比损失越高；在样本试题对为负样本对的情况下，样本试题对中的第一样本试题的试题特征和第二样本试题的试题特征之间的距离越近，对比损失越高。

由此，通过上述对比损失对第一初始特征编码模型进行训练，以根据训练后的第一初始特征编码模型中第一样本试题对应的特征提取分支模型，构建第一特征编码模型。

如图4所示，为对比学习训练得到的第一特征编码模型的结构示意图，包括Bert模块、注意力编码模块，以及池化层。

在获取到第一特征编码模型之后，即可将目标试题的试题信息，经过第一特征编码模型中的Bert模块、注意力编码模块，以及池化层，进而提取融合答案信息和答案解析信息的试题特征。

相比于现有技术中仅使用题干信息，尤其是答案解析缺失和题干信息比较少的情况下，存在仅使用题干无法有效召回相似的推荐试题的问题，本实施例将目标试题的试题信息输入至第一特征编码模型，使得第一特征编码模型可以在不包含答案信息和答案解析信息的目标试题的试题特征中融合答案信息和答案解析信息的特征，使得试题特征中包含更加丰富和完整的特征表示，进而提高试题推荐精度。

在一些实施例中，所述根据所述目标试题的试题信息，确定所述目标试题对应的特征编码模型，包括：

所述第二特征编码模型是基于误差损失训练得到的；所述误差损失是对包括答案信息和答案解析信息的第二样本试题以及所述第二样本试题对应的试题特征进行有监督训练得到的。

可选地，在确定目标试题的试题信息中包含答案信息和答案解析信息时，即确定目标试题的试题信息中不仅包含题干信息和试题选项信息，还包括答案信息和答案解析信息，此时，可以直接基于误差损失训练得到的第二特征编码模型对试题信息中包含的题干信息和试题选项信息，以及答案信息和答案解析信息进行深度特征提取，得到可表征目标试题的位置信息和上下信息的试题特征。

进一步地，在基于第二特征编码模型进行试题特征提取之前，需要对第二特征编码模型进行预先训练，具体训练步骤包括：

首先，预先收集大量样本数据，此处的样本数据包括第二样本试题，其中，第二样本试题的试题信息中既包含题干信息和试题选项信息，又包含答案信息和答案解析信息。在此基础上，对第二样本试题的知识类别标签进行标注。此处的知识类别标签可以是通过人工标注得到，或者通过预先训练好的用于知识类别识别的网络模型进行预测得到的。

在此基础上，首先将第二样本试题输入至知识识别模型的第二初始特征编码模型，通过第二初始特征编码模型对第二样本试题进行编码特征提取，得到第二样本试题的试题特征，再将第二样本试题的试题特征输入至知识识别模型的识别层，得到所述第二样本试题的预测知识类别；计算预测知识类别和知识类别标签之间的误差损失，根据误差损失对知识识别模型进行训练，得到训练后的知识识别模型。并根据训练后的知识识别模型的第二初始特征编码模型，构建生成第二特征编码模型。

如图5所示，第二特征编码模型包括Bert模块和基于注意力机制的编码模块；其中，Bert模块作为特征嵌入层用于将第二特征编码模型的输入信息映射成维度为R^m×n的向量表示，使用该向量表示具备位置和上下文信息，且包含与各个位置向量的深层次联系的嵌入特征，具体计算公式如下：

E＝Bert_Emb(T),E∈R^m×n；

其中，E为Bert模块输出的嵌入特征，T为第二特征编码模型的输入，m×n为嵌入特征的特征维度。

随后，使用基于注意力机制的编码模块对嵌入特征进行编码。针对长序列数据，RNN(Recurrent Neural Network，循环神经网络)模型往往会产生梯度消失问题，导致输出长序列数据中靠前的内容被模型忽略，而基于注意力机制的编码模块中的Transformer则可以解决梯度消失问题，经过Transformer编码层可输出包含上下文信息的联合编码信息，即试题特征T_C，特征编码的具体计算公式如下：

T_C＝Transformer_Encoder(E),T_C∈R^m×h；

其中，T_C为编码模块输出的试题特征，m×h为试题特征的特征维度。

由此，根据构建的第二特征编码模型，对试题信息中包含的题干信息和试题选项信息，以及答案信息和答案解析信息进行深度特征提取，得到可表征目标试题的位置信息和上下信息的试题特征，使得试题特征包含丰富的表面特征，进而提高试题推荐的精准性。

如图6所示，是本实施例提供的试题资源推荐方法的流程示意图之二；在一些实施例中，步骤203进一步包括：

步骤2031，根据所述目标试题的试题特征和各候选试题的试题特征，计算所述目标试题与各候选试题之间的第一相似度；

步骤2032，根据所述第一相似度，从所述资源库中所有候选试题中选择第一目标数量的目标候选试题；

步骤2033，根据所述目标试题的试题信息和各目标候选试题的试题信息，计算所述目标试题与各目标候选试题之间的第二相似度；

步骤2034，根据所述第一相似度和所述第二相似度，在所述第一目标数量的目标候选试题中确定与所述目标试题相匹配的推荐试题。

可选地，在获取到目标试题的试题特征和试题信息，以及各候选试题的试题特征和试题信息之后，可以计算目标试题的试题特征与各候选试题的试题特征之间的相似度，进而获取目标试题与各候选试题之间的第一相似度。

其中，相似度可以是采用余弦距离、皮尔逊相似度等相似度计算公式计算获取。当采用余弦距离计算相似度时，以目标试题的试题特征与各候选试题的试题特征之间的向量夹角为考量角度，以特征向量的内积(各对应元素相乘求和)比两个向量的模的积为计算结果，具体计算公式为：

其中，similarity为相似度；θ为目标试题的试题特征与各候选试题的试题特征之间的向量夹角，A_i和B_i分别为目标试题的试题特征中的第i个子特征和候选试题的试题特征中的第i个子特征，n为目标试题或候选试题的试题特征中子特征的数量。

随后，按照目标试题与各候选试题之间的第一相似度从高到低的顺序，在资源库中的所有候选试题中粗召回排序靠前的第一目标数量的候选试题作为目标候选试题，并按照排序从高到低依次召回。第一目标数量可以根据推荐需求进行设置，如100个。

对于第二相似度计算，可以先从试题信息中获取知识点信息、试题难度信息和试题类型信息等信息，然后将知识点信息、试题难度信息和试题类型信息整体作为特征向量，按照第一相似度的计算方式计算获取第二相似度；或者，按照第一相似度的计算方式分别针对知识点信息计算得到目标试题与各目标候选试题之间的知识点相似度、针对试题难度信息计算得到目标试题与各目标候选试题之间的难度相似度，针对试题类型信息计算得到目标试题与各目标候选试题之间的难度相似度，以联合知识点相似度、难度相似度和类型相似度，计算得到第二相似度，本实施例对此不做具体地限定。

随后，再联合第一相似度和第二相似度，从第一目标数量的目标候选试题中选择预设数量或预设比例的目标候选试题作为推荐试题。

本实施例中，通过在线基于深度学习的特征编码模型提取的试题题面的试题特征以及试题信息中的知识点信息、试题难度信息和试题类型信息等信息进行多次和多维度召回，可以针对目标试题精准推荐最为相似的推荐试题，提高试题推荐的精准性。

在一些实施例中，步骤2034中根据所述第一相似度和所述第二相似度，在所述第一目标数量的目标候选试题中确定与所述目标试题相匹配的推荐试题的步骤进一步包括：

对所述第一相似度和所述第二相似度进行融合；

根据所述待推荐候选试题，确定所述推荐试题。

可选地，对第一相似度和第二相似度进行加权融合，得到整体相似度，以按照目标试题与各目标候选试题之间的整体相似度从高到低的顺序，选择排序靠前的第二数量的目标候选试题作为推荐试题，并按照排序从高到低依次召回。第二目标数量可以根据推荐需求进行设置，但需要小于第一目标数量，如3个或5个等。

其中，加权融合的权重可以根据试题特征和试题信息对试题资源推荐的贡献度，进行适应性地设置，贡献度越高的试题特征对应的相似度所占的权重越大，贡献度越低的试题特征对应的相似度所占的权重越小。

本实施例中，通过多次和多维度地进行相似试题召回，可以针对目标试题精准推荐最为相似的推荐试题，提高试题推荐的精准性。

在一些实施例中，所述根据所述目标试题的试题信息和各目标候选试题的试题信息，计算所述目标试题与各目标候选试题之间的第二相似度，包括：

可选地，对于第二相似度计算，可以先从目标试题的试题信息和各目标候选试题的试题信息中获取知识点信息、试题难度信息和试题类型信息等信息，然后按照第一相似度的计算方式分别针对知识点信息计算得到目标试题与各目标候选试题之间的知识点相似度、针对试题难度信息计算得到目标试题与各目标候选试题之间的难度相似度，针对试题类型信息计算得到目标试题与各目标候选试题之间的难度相似度；对知识点相似度、难度相似度和类型相似度进行加权融合，计算得到第二相似度，本实施例对此不做具体地限定。

其中，知识点相似度、难度相似度和类型相似度的加权融合的权重也可以根据其对试题资源推荐的贡献度，进行适应性地设置。示例性地，设置第一相似度、知识点相似度、难度相似度和类型相似度的加权融合的权重分别为0.3、0.3、0.2和0.2；

然后，根据第一相似度和知识点相似度、难度相似度和类型相似度进行加权相加，得到整体相似度，以按照目标试题与各目标候选试题之间的整体相似度从高到低的顺序，选择排序靠前的第二数量的目标候选试题作为推荐试题依次召回。

如表1所示，为了进一步验证本实施例提供的试题推荐的有效性，对各种用于推荐试题的召回方式进行了比较，通过比较可知，本实施例提供的根据第一相似度、知识点相似度、难度相似度和类型相似度的加权融合结果进行推荐试题的召回方式具有更好的试题推荐的精准性。

表1各种用于推荐试题的召回方式的比较结果

本实施例中通过多维度特征进行推荐试题召回，可以针对目标试题精准推荐最为相似的推荐试题，进一步提高试题推荐的精准性。

在一些实施例中，所述资源库是基于如下步骤预先构建的：

需要说明的是，资源库的构建是以章节为维度进行展开的。如图7所示，为构建资源库的流程示意图之一。针对每一目标章节下的资源库构建的方式具体包括：

步骤701，验证上一次资源构建获取的目标章节下的资源覆盖率。

步骤702，确定上一次资源构建获取的目标章节下的资源覆盖率是否大于预设阈值。具体从高频教辅材料中获取目标章节下的测试数据集，验证基于上一次资源构建的资源库中已有资源的相似试题覆盖度是否大于预设阈值，即验证当前资源的相似题覆盖度是否达到业务确定的标准。在确定资源覆盖率大于预设阈值的情况下，执行步骤604；在确定资源覆盖率小于或等于预设阈值的情况下，执行步骤603；

步骤703，在线上用户回流的试题以及数据库中预先存储的试题中选择多个初始试题进行重新聚类，以完善资源库；具体在上一次资源构建的资源库中的已有试题资源上，验证线上用户回流的试题以及数据库中预先存储的试题中是否存在与已有试题资源相似的相似试题，选择目标章节下，与已有试题资源不相似的试题作为初始试题，以根据多个初始试题进行资源选取与入库，进而实现资源库构建，具体步骤如图8所示，包括如下步骤：

步骤7031，选择目标章节下，与已有试题资源不相似的多个试题作为初始试题；

步骤7032，根据学科关键词库，对各初始试题进行数据预处理，得到待筛选试题；具体根据学科关键词库中的学科关键词对各初始试题进行数据清洗和数据规范化，以使得预处理后的各初始试题的试题信息中完整保留学科关键词，不会因预处理而消失。其中，学科关键词包括但不限于角度、函数、一元一次方程等关键词。

步骤7033，对各待筛选试题的试题信息进行编码特征提取，得到各待筛选试题的特征向量；

步骤7034，基于各待筛选试题的特征向量对多个待筛选试题进行聚类，以将多个待筛选试题聚合形成多个聚类簇；在多个待筛选试题中，确定与每一聚类簇的中心簇之间的距离小于预设距离，且试题信息完整的关键试题。其中，试题信息完整表征试题中至少包括知识点信息、试题难度信息以试题题型信息。预设距离可以根据实际需求进行设置。

步骤7035，将关键试题合并至上一次资源构建获取的资源库中，以得到当前次资源构建对应的资源库；并返回至步骤701继续执行资源库构建的步骤，直到资源库中的资源覆盖率大于预设阈值，返回至步骤704；

步骤704，目标章节下的试题资源部署完成。

本实施例中，在资源库构建过程中，同时构建学科关键词库以保证预处理阶段不丢失学科信息，并通过各初始试题的语义特征向量完成资源的聚类，选取出中心点附近且试题信息完整的初始试题录制视屏形成资源库，有效避免人工经验构建资源库，在提高资源库的构建效率的同时，可以确保资源库具有良好的试题资源覆盖度，进而辅助提高试题推荐的效率和准确性。

在一些实施例中，对多个待筛选试题进行聚类的步骤进一步包括：

其中，对于试题聚类，可以通过K均值聚类等其他聚类算法实现。

可选地，考虑到在资源库制作过程中，考虑到实际应用过程中，存在有些试题的试题信息中不包含答案信息和答案解析信息，为了使得资源库的资源覆盖率更大，可分别针对各待筛选试题的试题信息中的题干信息和试题选项信息进行特征提取，得到第一试题特征，针对各待筛选试题的试题信息中的题干信息、试题选项信息、答案信息和答案解析信息进行特征提取，得到第二试题特征；分别基于第一试题特征和第二试题特征对多个待筛选试题进行聚类，以实现对待筛选试题的精准聚类，进而筛选出更具有代表性的关键试题构建资源库。

下面对本发明提供的试题资源推荐装置进行描述，下文描述的试题资源推荐装置与上文描述的试题资源推荐方法可相互对应参照。

如图9所示，本实施例提供一种试题资源推荐装置，该装置包括：

获取单元901用于获取目标试题的试题信息；

编码单元902用于根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征；

匹配单元903用于根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题；

推荐单元904用于根据所述推荐试题，对所述目标试题进行试题资源推荐。

本实施例提供的试题资源推荐装置，通过根据目标试题的试题信息，自动对目标试题进行特征编码，以深度挖掘表征目标试题的位置信息和上下文信息的试题特征，进而综合目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，自动精准地挖掘出与目标试题相匹配的推荐试题，推荐过程无需人工参与，在避免人工参与影响试题推荐可靠性的同时，全自动完成推荐流程，省时省力，有助于提高试题资源推荐的准确率、可靠性、合理性以及推荐效率。

在一些实施例中，编码单元902具体用于：

根据所述目标试题的试题信息，确定所述目标试题对应的特征编码模型；基于所述特征编码模型，对所述目标试题进行特征编码，得到所述目标试题的试题特征。

在一些实施例中，编码单元902还用于：

在所述目标试题的试题信息中不包含答案信息和答案解析信息的情况下，将第一特征编码模型作为所述目标试题对应的特征编码模型；所述第一特征编码模型是基于对比损失训练得到的；所述对比损失是对不包含答案信息和答案解析信息的第一样本试题，以及包括答案信息和答案解析信息的第二样本试题进行对比学习训练得到的。

在一些实施例中，编码单元902还用于：

在所述目标试题的试题信息中包含答案信息和答案解析信息的情况下，将第二特征编码模型作为所述目标试题对应的特征编码模型；所述第二特征编码模型是基于误差损失训练得到的；所述误差损失是对包括答案信息和答案解析信息的第二样本试题以及所述第二样本试题对应的知识类别标签进行有监督训练得到的。

在一些实施例中，匹配单元903具体用于：

根据所述目标试题的试题特征和各候选试题的试题特征，计算所述目标试题与各候选试题之间的第一相似度；根据所述第一相似度，从所述资源库中所有候选试题中选择第一目标数量的目标候选试题；根据所述目标试题的试题信息和各目标候选试题的试题信息，计算所述目标试题与各目标候选试题之间的第二相似度；根据所述第一相似度和所述第二相似度，在所述第一目标数量的目标候选试题中确定与所述目标试题相匹配的推荐试题。

在一些实施例中，匹配单元903还用于：

对所述第一相似度和所述第二相似度进行融合；根据融合结果，在所述第一目标数量的目标候选试题中选择第二目标数量的待推荐候选试题；所述第一目标数量大于所述第二目标数量；根据所述待推荐候选试题，确定所述推荐试题。

在一些实施例中，匹配单元903还用于：

从所述目标试题的试题信息中解析出第一知识点信息、第一试题难度信息和第一试题类型信息，从各目标候选试题的试题信息中解析出第二知识点信息、第二试题难度信息和第二试题类型信息；计算所述目标试题的第一知识点信息与各目标候选试题的第二知识点信息之间的知识点相似度；计算所述目标试题的第一试题难度信息与各目标候选试题的第二试题难度信息之间的难度相似度；计算所述目标试题的第一试题类型信息与各目标候选试题的第二试题类型信息之间的类型相似度；对所述知识点相似度、所述难度相似度和所述类型相似度进行融合，得到所述第二相似度。

在一些实施例中，该装置还包括构建单元，具体用于：

对于当前次资源构建，确定上一次资源构建获取的资源库中的资源覆盖率是否大于预设阈值；在确定所述资源覆盖率小于或等于所述预设阈值的情况下，从数据库中选择目标章节下的多个初始试题；根据学科关键词库，对各初始试题进行数据预处理，得到待筛选试题；所述数据预处理包括数据清洗和数据规范化；对多个待筛选试题进行聚类，并根据聚类结果，在所述多个待筛选试题中，确定与每一聚类簇的中心簇之间的距离小于预设距离，且试题信息完整的关键试题；将所述关键试题合并至所述上一次资源构建获取的资源库中，得到所述当前次资源构建对应的资源库；迭代执行资源构建的步骤，直到所述资源库中的资源覆盖率大于所述预设阈值。

在一些实施例中，构建单元，还用于：

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令，以执行试题资源推荐方法，该方法包括：获取目标试题的试题信息；根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征；根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题；根据所述推荐试题，对所述目标试题进行试题资源推荐。

此外，上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的试题资源推荐方法，该方法包括：获取目标试题的试题信息；根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征；根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题；根据所述推荐试题，对所述目标试题进行试题资源推荐。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的试题资源推荐方法，该方法包括：获取目标试题的试题信息；根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征；根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题；根据所述推荐试题，对所述目标试题进行试题资源推荐。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种试题资源推荐方法，其特征在于，包括：

获取目标试题的试题信息；

根据所述推荐试题，对所述目标试题进行试题资源推荐。

2.根据权利要求1所述的试题资源推荐方法，其特征在于，所述根据所述试题信息，对所述目标试题进行特征编码，得到所述目标试题的试题特征，包括：

3.根据权利要求2所述的试题资源推荐方法，其特征在于，所述根据所述目标试题的试题信息，确定所述目标试题对应的特征编码模型，包括：

4.根据权利要求2所述的试题资源推荐方法，其特征在于，所述根据所述目标试题的试题信息，确定所述目标试题对应的特征编码模型，包括：

5.根据权利要求1-4任一所述的试题资源推荐方法，其特征在于，所述根据所述目标试题的试题特征和试题信息，以及资源库中各候选试题的试题特征和试题信息，从所述资源库中所有候选试题中确定与所述目标试题相匹配的推荐试题，包括：

6.根据权利要求5所述的试题资源推荐方法，其特征在于，所述根据所述第一相似度和所述第二相似度，在所述第一目标数量的目标候选试题中确定与所述目标试题相匹配的推荐试题，包括：

对所述第一相似度和所述第二相似度进行融合；

根据所述待推荐候选试题，确定所述推荐试题。

7.根据权利要求5所述的试题资源推荐方法，其特征在于，所述根据所述目标试题的试题信息和各目标候选试题的试题信息，计算所述目标试题与各目标候选试题之间的第二相似度，包括：

8.根据权利要求1-4任一所述的试题资源推荐方法，其特征在于，所述资源库是基于如下步骤预先构建的：

9.根据权利要求8所述的试题资源推荐方法，其特征在于，所述对多个待筛选试题进行聚类，包括：

10.一种试题资源推荐装置，其特征在于，包括：

获取单元，用于获取目标试题的试题信息；

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述试题资源推荐方法。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述试题资源推荐方法。