CN112069295B

CN112069295B - 相似题推荐方法、装置、电子设备和存储介质

Info

Publication number: CN112069295B
Application number: CN202010989614.2A
Authority: CN
Inventors: 李松; 汪洋; 付瑞吉; 王士进; 张敏
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-12-06
Anticipated expiration: 2040-09-18
Also published as: CN112069295A

Abstract

本发明实施例提供一种相似题推荐方法、装置、电子设备和存储介质，其中方法包括：确定与待推荐试题的知识点相似的多个候选试题；分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词；基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题。本发明实施例提供的相似题推荐方法、装置、电子设备和存储介质，实现了语法变式题的推荐，优化了相似题推荐的效果。

Description

相似题推荐方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种相似题推荐方法、装置、电子设备和存储介质。

背景技术

在现代化教育领域，智能习题推荐方法，为根据学生的真实需求，智能化推送合适的学习资源，实现因材施教这一目标提供了机遇。其中，语法相似题的推荐，有助于提高学生语法学习的针对性。

然而，现有的智能习题推荐方法，通常会更关注试题中考察对象本身的语义信息，因而更倾向于推荐与待推荐试题答案相同的其他试题，导致推荐推荐效果欠佳，难以实现语法变式题的推荐。

发明内容

本发明实施例提供一种相似题推荐方法、装置、电子设备和存储介质，用以解决现有技术难以实现语法变式题推荐的缺陷。

本发明实施例提供一种相似题推荐方法，包括：

确定与待推荐试题的知识点相似的多个候选试题；

分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词；

基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题。

根据本发明一个实施例的相似题推荐方法，所述分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词，具体包括：

对任一试题的正确试题文本进行句法分析，得到所述正确试题文本中每两个分词之间的句法关联性；所述正确试题文本包括对应试题的试题题目和正确答案的文本；

基于所述正确试题文本中每两个分词之间的句法关联性，确定与所述任一试题的正确答案存在句法关联的分词，作为所述任一试题的关联分词。

根据本发明一个实施例的相似题推荐方法，所述对任一试题的正确试题文本进行句法分析，具体包括：

对所述正确试题文本的文本向量进行自注意力变换，得到所述正确试题文本中每一分词的自注意力向量；

基于所述正确试题文本中每一分词的自注意力向量，对所述正确试题文本进行句法分析。

根据本发明一个实施例的相似题推荐方法，所述确定与待推荐试题的知识点相似的多个候选试题，具体包括：

从预先构建的题库中选取多个与所述待推荐试题的知识点特征向量相似的候选试题；

所述待推荐试题的知识点特征向量是基于所述待推荐试题的正确答案和错误答案确定的。

根据本发明一个实施例的相似题推荐方法，所述知识点特征向量是基于如下步骤确定的：

基于所述待推荐试题的正确试题文本，确定所述待推荐试题的正确答案的上下文编码；所述正确试题文本包括对应试题的试题题目和正确答案的文本；

基于所述待推荐试题的错误试题文本，确定所述待推荐试题的错误答案的上下文编码；所述错误试题文本包括对应试题的试题题目和错误答案的文本；

对所述正确答案的上下文编码和所述错误答案的上下文编码进行减乘交互，得到所述正确答案的交互编码，所述交互编码用于表征所述正确答案与所述错误答案之间的差异和关联；

基于所述正确答案的上下文编码和交互编码，确定所述待推荐试题的知识点特征向量。

根据本发明一个实施例的相似题推荐方法，所述基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题，具体包括：

基于所述待推荐试题与各个候选试题之间的知识点相似度，以及所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题。

根据本发明一个实施例的相似题推荐方法，所述确定与待推荐试题的知识点相似的多个候选试题，之后还包括：

若所述待推荐试题的知识点属于辨析类知识点，则基于所述待推荐试题与各个候选试题的知识点相似度，选取若干个候选试题作为所述待推荐试题的相似题。

本发明实施例还提供一种相似题推荐装置，包括：

候选试题确定单元，用于确定与待推荐试题的知识点相似的多个候选试题；

关联分词确定单元，用于分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词；

推荐单元，用于基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述相似题推荐方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述相似题推荐方法的步骤。

本发明实施例提供的相似题推荐方法、装置、电子设备和存储介质，通过对待推荐试题以及各个与其知识点相似的候选试题进行句法分析，得到待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词，并基于待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定待推荐试题的相似题，实现了语法变式题的推荐，优化了相似题推荐的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的相似题推荐方法的流程示意图；

图2为本发明实施例提供的关联分词确定方法的流程示意图；

图3为本发明实施例提供的句法分析方法的流程示意图；

图4为本发明实施例提供的候选试题筛选方法的示意图；

图5为本发明实施例提供的知识点特征向量确定方法的流程示意图；

图6为本发明实施例提供的知识点预测模型运行方法的流程示意图；

图7为本发明实施例提供的句法分析模型运行方法的流程示意图；

图8为本发明实施例提供的相似题推荐装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

因材施教一直是教学领域所追求的目标，在教学评阅过程中，如果能对学生的薄弱环节补充特定习题，将更有针对性。因此，智能习题推荐方法，为根据学生的真实需求，智能化推送合适的学习资源，实现因材施教这一目标提供了机遇。其中，语法相似题的推荐，有助于提高学生语法学习的针对性。

然而，现有的习题推荐方法，通常会更关注试题中考察对象本身的语义信息。其中，考察对象为试题题目中需要学生填入或选择的分词或短语。因此，现有的习题推荐方法更倾向于推荐与待推荐试题答案相同的其他试题。例如，对于填空题With it’sconstruction now entering(enter)the final period…，现有的习题推荐方法更关注于考察对象entering在该试题中的语义信息，因此推荐的题目可能大多为类似The attackled to us entering(enter)the second war或者On entering(enter)the hall…等答案相同、考察的语法知识却可能不同的试题。因此，现有的习题推荐方法推荐效果欠佳，难以实现语法变式题的推荐。其中，语法变式题是与待推荐试题考察的语法知识相同，但正确答案不同的试题。例如，对于待推荐试题With it’s construction now entering(enter)thefinal period…，推荐的语法变式题可以为With Christmas approaching(approach)，或者With the global economy becoming(become)more interconnected。

对此，本发明实施例提供了一种相似题推荐方法。图1为本发明实施例提供的相似题推荐方法的流程示意图，如图1所示，该方法包括：

步骤110，确定与待推荐试题的知识点相似的多个候选试题。

具体地，待推荐试题为需要进行相似题推荐的试题，例如学生的历史错题，或者针对特定知识点选择的试题，例如考察学生薄弱知识点或重点知识点的试题等，本发明实施例对此不作具体限定。进行相似题推荐时，其前提是推荐的相似题与待推荐试题的知识点相似，以保证相似题推荐的针对性。因此，可以对待推荐试题进行知识点检测，从而从题库中选取与待推荐试题的知识点相似的候选试题，再从候选试题中选取最终用于推荐的相似题。此处，知识点可以用于表征试题的考察对象的语法信息。例如，试题With it’sconstruction now entering(enter)the final period…中，考察对象为“entering”，可以确定得到该试题考察的知识点为动名词，可以从题库中选取考察的知识点同为动名词的候选试题。

步骤120，分别对待推荐试题以及各个候选试题进行句法分析，得到待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词。

具体地，由于在获取待推荐试题的知识点时，更关注待推荐试题的考察对象本身的语法信息，而忽视了待推荐试题的句法结构中，考察对象与其他相距较远的分词可能构成的固定搭配语法，而这更深层、更精细的固定搭配语法，才是该试题实际想考察的语法知识。例如，对于试题With it’s construction now entering(enter)the final period…，除了考察对象“entering”本身的知识点“动名词”以外，该试题的句法结构中，“with”和“entering”组合而成的词语搭配，构成了“with前置+动名词”这一更精细的固定搭配语法。因此，该试题实际考察的语法知识不是“动名词”，而是“with前置+动名词”。

为了获取待推荐试题中更精细的语法信息，以挖掘出该试题实际考察的语法知识，从而提高推荐的针对性，可以对待推荐试题进行句法分析，得到待推荐试题的句法结构，然后基于句法结构，获取待推荐试题中与正确答案存在句法关联的关联分词。其中，待推荐试题的正确答案以及与其存在句法关联的关联分词可能构成固定搭配语法。此处，句法分析能够获取待推荐试题中各个分词之间的句法关联性，即使两个相互关联的分词相距较远，通过句法分析，也能分析得到二者之间的关联性，进而挖掘到试题中更深层、更精细的语法信息。同样地，还可以按照相同方式对各个候选试题进行句法分析，得到各个候选试题中与正确答案存在句法关联的关联分词，以方便对比待推荐试题与各个候选试题，以判断待推荐试题与各个候选试题是否考察类似的固定搭配语法。

步骤130，基于待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定待推荐试题的相似题。

具体地，分别计算待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，然后选取相似度最高的若干个候选试题作为待推荐试题的相似题。其中，待推荐试题的关联分词与任一候选试题的关联分词之间的相似度越高，表明该候选试题考察的固定搭配语法与待推荐试题越相似，也越可能作为待推荐试题的相似题进行推荐。另外，由于在选取相似题时，额外考虑了待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，因此选取出的相似题需要满足与待推荐试题包含的固定搭配语法相似这一条件。然而，步骤110中选取的多个候选试题中，既满足固定搭配语法相似，又满足正确答案相同的试题较少，因此选取出的相似题与待推荐试题的答案相同的概率也较低，故可以保证推荐的相似题与待推荐试题考察的语法知识相同，但正确答案不同，从而实现语法变式题的推荐。

本发明实施例提供的方法，通过对待推荐试题以及各个与其知识点相似的候选试题进行句法分析，得到待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词，并基于待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定待推荐试题的相似题，实现了语法变式题的推荐，优化了相似题推荐的效果。

基于上述实施例，图2为本发明实施例提供的关联分词确定方法的流程示意图，如图2所示，步骤120具体包括：

步骤121，对任一试题的正确试题文本进行句法分析，得到正确试题文本中每两个分词之间的句法关联性；正确试题文本包括对应试题的试题题目和正确答案的文本；

步骤122，基于正确试题文本中每两个分词之间的句法关联性，确定与该试题的正确答案存在句法关联的分词，作为该试题的关联分词。

具体地，对待推荐试题和各个候选试题中的任一试题进行句法分析时，分析对象为该试题的试题题目和正确答案的文本构成的正确试题文本。句法分析时，可以采用分词工具，例如斯坦福分词工具等，在得到分词结果以及词性标注结果后，根据工具内置的规则判别各句子成分间的依赖关系，实现句法分析。也可以利用神经网络模型进行句法分析，例如基于转移(transition-based)的句法分析模型和基于图(graph-based)的句法分析模型，以提高句法分析的准确性，本发明实施例对此不作具体限定。其中，基于转移的句法分析模型主要用多个堆叠的长短时记忆网络建模已规约单词、待规约单词以及历史规约动作的信息，并基于多个长短时记忆网络的输出表征预测下一个规约动作，从而不断对句子各成分间的关系进行建模，直至整句话被规约成一棵完整的句法分析树。基于图的句法分析模型则能并行生成每层节点之间的句法依赖关系，直至生成一棵完整的句法分析树。另外，生成句法分析树时，还可以采用自顶向下的分析方法和动态规划的线图分析法(chart-parsing)，本发明实施例对此不作具体限定。

句法分析完毕后，可以确定得到正确试题文本中每两个分词之间的句法关联性。基于正确试题文本中每两个分词之间的句法关联性，可以确定与该试题的正确答案存在句法关联的分词，作为该试题的关联分词。

例如，可以对正确试题文本进行句法分析，并生成该正确试题文本对应的句法分析树。以文本“A boy saw a cat”为例，其对应生成的句法分析树为：

该句法分析树中包含的依存关系为：[根(root,saw)决定词(boy,a)名词主语(saw,boy)直接宾语(saw,cat)限定词修饰(cat,a)]。

由于句法分析树中，任一节点对应的分词与其父节点和子节点对应的分词之间存在句法关联性。因此，可以从句法分析树中，直接取正确答案对应节点的父节点和/或子节点对应的分词，作为该试题的关联分词。上述示例中，若正确答案为“boy”，则可以选取其父节点对应的分词“saw”和/或其子节点对应的分词“A”作为关联分词。

由于句法分析树中，非叶子节点既有父节点又有子节点，因此与非叶子节点对应分词存在句法关联的关联分词有两个，分别是该非叶子节点的父节点对应的父关联分词，以及子节点对应的子关联分词。因此，在计算待推荐试题的关联分词与任一候选试题的关联分词之间的相似度时，可以分别计算待推荐试题的父关联分词与该候选试题的父关联分词之间的相似度，以及待推荐试题的子关联分词与该候选试题的子关联分词之间的相似度，再将两个相似度融合，得到待推荐试题的关联分词与该候选试题的关联分词之间的相似度。此处，可以直接对两个相似度求平均，也可以为两个相似度设置不同的权重，再对其进行加权求和，实现两个相似度的融合，本发明实施例对此不作具体限定。其中，可以根据父关联分词和子关联分词的词性，为两个相似度设置权重。例如，词性为介词等虚词的关联分词对应的相似度权重可以设置得较高，词性为名词等实词的关联分词对应的相似度权重可以设置得较低。

基于上述任一实施例，图3为本发明实施例提供的句法分析方法的流程示意图，如图3所示，步骤121中，对任一试题的正确试题文本进行句法分析，具体包括：

步骤1211，对正确试题文本的文本向量进行自注意力变换，得到正确试题文本中每一分词的自注意力向量。

具体地，可以对正确试题文本中的每一分词进行编码，得到每一分词的词向量，所有分词的词向量组成正确试题文本的文本向量。然后，对正确试题文本的文本向量进行自注意力变换，得到正确试题文本中每一分词的自注意力向量，以获取各分词之间的关联关系，有助于提取各分词间的句法关联关系。其中，可以采用双向transformer预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)提取正确试题文本中每一分词的词向量，还可以将正确试题文本的文本向量输入至多层Transformer模型中进行自注意力变换，本发明实施例对此不作具体限定。

步骤1212，基于正确试题文本中每一分词的自注意力向量，对正确试题文本进行句法分析。

具体地，由于任一分词的自注意力向量中包含了该分词与其上下文中其他分词之间的关联关系，因此可以利用正确试题文本中每一分词的自注意力向量，计算各个分词的句法关联性，从而解析得到正确试题文本的句法结构，以提高句法分析的准确性。以自顶向下方式生成句法分析树为例，可以基于每一分词的自注意力向量，不断对正确文本进行划分，以从根节点开始生成句法分析树中的各个节点，直至解析至叶子节点。其中，叶子节点为句法分析树中最末级的节点。每次迭代时，对此次迭代对应的文本片段进行句法解析，以将该文本片段进行再一次划分，划分的分界点即为此次迭代生成的节点，然后再对划分得到的两个文本片段进行下一轮迭代。此处，划分的步骤可以包括：

步骤1、预测该文本片段的句法成分预测结果。其中，句法成分预测结果可以包括该文本片段对应各个类型句法成分的概率。此处，可以基于该文本片段首个分词和最末分词的自注意力向量确定该文本片段的句法成分预测结果。例如，可以采用如下方式确定句法成分预测结果s_labels(i,j)：

s_labels(i,j)＝V_lg(W_ls_ij+b_l)

其中，i和j为该文本片段首个分词和最末分词在正确试题文本中的序号，V_l、W_l和b_l为可学习得到的参数，g()为非线性变换，s_ij用于表征第i个分词和第j个分词的关联性，可以由两个分词的自注意力向量相减得到，即s_ij＝s_i-s_j，其中，s_i和s_j为第i个分词和第j个分词的自注意力向量。需要说明的是，若i＝j，则s_ij＝s_i。

步骤2、将该文本片段划分成两个更短的文本片段i～k和k+1～j。具体而言，可以尝试将各个分词作为分界点对该文本片段进行划分，然后选取其中最合适的分界点。其中，对于分界点k，可以计算划分得到的两个子片段的句法完整性得分，从而确定该种划分方式下的句法完整性总分，然后选取句法完整性总分最高的划分方式对该文本片段进行划分，将句法成分预测结果中概率最大的句法成分类型作为该文本片段的句法成分标签。其中，子片段的句法完整性得分为该子片段能够组成一个完整短语成分的概率，该种划分方式下的句法完整性总分为划分得到的两个子片段的句法完整性得分之和。具体可采用如下方式确定该文本片段的分界点

和句法成分标签

其中，s_labels(i,j,l)为该文本片段属于类型l的句法成分的概率，s_split(i,k,j)为以k为分界点进行划分时的句法完整性总分。

此处，可以采用如下方式计算以k为分界点的划分方式下的句法完整性总分s_split(i,k,j)：

s_split(i,k,j)＝s_span(i,k)+s_span(k,j)

其中，s_span(i,k)和s_span(k,j)为两个子片段的句法完整性得分。子片段的句法完整性得分s_span(i,j)可以采用如下方式确定：

s_span(i,j)＝V_s(W_ss_ij+b_s)

其中，V_s、W_s和b_s为可学习得到的参数。

若是利用神经网络模型执行上述句法分析，则在此之前还需训练该神经网络模型。因此，可以首先获取大量的样本文本以及该样本文本对应的样本句法分析树。在模型的训练过程中，每一次迭代划分时，以样本句法分析树为训练目标，使模型每一次生成的节点与样本句法分析树对应的节点拟合，同时每次预测的句法成分标签也与样本文本中对应的文本片段的样本句法成分标签拟合。

本发明实施例提供的方法，通过对正确试题文本的文本向量进行自注意力变换，得到每一分词的自注意力向量，并基于每一分词的自注意力向量，对正确试题文本进行句法分析，提高了句法分析的准确性。

基于上述任一实施例，步骤110具体包括：

从预先构建的题库中选取多个与待推荐试题的知识点特征向量相似的候选试题；

其中，待推荐试题的知识点特征向量是基于待推荐试题的正确答案和错误答案确定的。

具体地，试题的知识点可以通过获取将正确答案填入试题题目后所得的正确试题文本与将错误答案填入试题题目后所得的错误试题文本之间的语义差异来确定。因此，可以将待推荐试题的题目和正确答案组合成待推荐试题的正确试题文本，将待推荐试题的题目和错误答案组合成待推荐试题的错误试题文本，然后获取正确试题文本与错误试题文本在语义上的差异，并基于该语义上的差异，确定待推荐试题的知识点特征向量。其中，知识点特征向量可以用于表征待推荐试题的知识点信息。另外，还可以预先以相同方式获取题库中各个试题的知识点特征向量，从而将待推荐试题的知识点特征向量与题库中各个试题的知识点特征向量进行相似度计算，选取部分相似度较高的试题作为待推荐试题的候选试题。其中，可以采用余弦相似度的计算方式计算待推荐试题与题库中各试题的知识点特征向量之间的相似度。此外，为了方便筛选候选试题，可以将题库中各个试题的知识点特征向量存储于题库向量数据库中。

可选地，可以预先构建知识点预测模型，用于提取待推荐试题的知识点特征向量。由于知识点特征向量可以用于表征试题的知识点信息，因此知识点预测模型还可以同步输出待推荐试题的知识点。图4为本发明实施例提供的候选试题筛选方法的示意图，如图4所示，将待推荐试题输入至知识点预测模型，可以得到知识点预测模型输出的待推荐试题的知识点和知识点特征向量，然后将知识点特征向量与题库向量数据库中存储的各试题的知识点特征向量进行相似度计算，从而选取出待推荐试题的候选试题。

基于上述任一实施例，图5为本发明实施例提供的知识点特征向量确定方法的流程示意图，如图5所示，该方法包括：

步骤510，基于待推荐试题的正确试题文本，确定待推荐试题的正确答案的上下文编码；正确试题文本包括对应试题的试题题目和正确答案的文本；

步骤520，基于待推荐试题的错误试题文本，确定待推荐试题的错误答案的上下文编码；错误试题文本包括对应试题的试题题目和错误答案的文本；

步骤530，对正确答案的上下文编码和错误答案的上下文编码进行减乘交互，得到正确答案的交互编码，交互编码用于表征正确答案与错误答案之间的差异和关联；

步骤540，基于正确答案的上下文编码和交互编码，确定待推荐试题的知识点特征向量。

具体地，将待推荐试题的正确答案填入待推荐试题的试题题目中，得到待推荐试题的正确试题文本，将待推荐试题的错误答案填入待推荐试题的试题题目中，得到待推荐试题的错误试题文本。然后，分别基于正确试题文本和错误试题文本，确定正确答案的上下文编码以及错误答案的上下文编码。

其中，正确答案的上下文编码中包含了正确答案及其上下文的语义信息，错误答案的上下文编码中包含了错误答案及其上下文的语义信息。此处，可以将正确试题文本或错误试题文本中每一分词的词向量以及每一分词中每一字符的字符向量输入到知识点预测模型的上下文编码层，得到正确答案或错误答案的上下文编码。其中，上下文编码层可以基于卷积神经网络(convolutional neural network,CNN)、双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)，或其组合构建得到，例如，可以利用1层CNN叠加2层BiLSTM构建上下文编码层。

需要说明的是，本发明实施例不对步骤510和步骤520的执行顺序作出具体限定，步骤510可以在步骤520之前或之后执行，且步骤510和步骤520还可以同时执行。

由于正确答案和错误答案的上下文编码中已包含有充足的上下文语义信息，因此可以直接对正确答案的上下文编码和错误答案的上下文编码进行减乘交互，即将正确答案的上下文编码和错误答案的上下文编码分别进行向量减法处理和向量乘法处理，得到正确答案的交互编码，以提高编码效率。其中，交互编码用于表征正确答案与错误答案之间的差异和关联。此处，可以将向量减法处理后得到的向量与向量乘法处理后得到的向量进行拼接，得到交互编码。以减乘交互的方式获取正确答案与错误答案之间的差异和关联，相较于注意力机制的交互方式，其计算量较小，交互效率更高，并且减乘交互方式可以更好地保留正确答案本身的语义信息，也有助于提高知识点预测的准确性。

基于正确答案的上下文编码和交互编码，可以确定待推荐试题的知识点特征向量。具体可以拼接正确答案的上下文编码和交互编码，然后将拼接后的向量乘以矩阵W，以将拼接后的向量的长度压缩为预设知识点数量，此时得到的向量即为待推荐试题的知识点特征向量。

基于上述任一实施例，步骤130具体包括：

基于待推荐试题与各个候选试题之间的知识点相似度，以及待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定待推荐试题的相似题。

具体地，为了更加灵活地进行相似题推荐，可以综合考虑待推荐试题与各个候选试题之间的知识点相似度，以及待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定推荐的相似题。其中，可以为知识点相似度与关联分词之间的相似度设定不同的权重，以调整在确定相似题的过程中，知识点的一致性和固定搭配语法的一致性所占的比重。此处，关联分词之间的相似度的权重越大，则筛选出的相似题在固定搭配语法上越趋于一致，考察对象本身知识点的一致性越弱，由此确定的相似题相较于待推荐试题的变式越明显。

本发明实施例提供的方法，通过综合考虑待推荐试题与各个候选试题之间的知识点相似度，以及待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，从而确定待推荐试题的相似题，提高了相似题推荐的灵活性。

基于上述任一实施例，步骤110之后，还包括：

若待推荐试题的知识点属于辨析类知识点，则基于待推荐试题与各个候选试题的知识点相似度，选取若干个候选试题作为待推荐试题的相似题。

具体地，若待推荐试题涉及的知识点为辨析类知识点，包括介词辨析、代词辨析以及动词各种形态的辨析等，例如“in的用法”、“through的用法”等涉及特定单词用法的知识点，则表明该待推荐试题实际考察的就是考察对象本身的语法知识，而不涉及考察对象与其他分词构成的固定搭配语法知识。因此，可以直接从候选试题中选取知识点相似度高的若干个候选试题作为待推荐试题的相似题，而无须进行句法分析及其之后的步骤。在判断待推荐试题的知识点是否属于辨析类知识点之前，可以预先列举所有属于辨析类知识点的知识点类型，然后根据待推荐试题的知识点特征向量，利用sigmoid等方法确定待推荐试题的知识点类型，从而判断待推荐试题的知识点类型是否属于列举的辨析类知识点类型。

若待推荐试题涉及的知识点为非辨析类知识点，则可以继续对待推荐试题以及各个候选试题进行句法分析，以得到其对应的关联分词，并基于待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，从候选试题中选取待推荐试题的相似题。

基于上述任一实施例，本发明又一实施例提供了一种相似题推荐方法，该方法包括：

确定与待推荐试题的知识点相似的多个候选试题。此处，可以将待推荐试题的正确试题文本和错误试题文本输入至知识点预测模型，以得到待推荐试题的知识点特征向量。图6为本发明实施例提供的知识点预测模型运行方法的流程示意图，如图6所示，将正确试题文本中每一分词的词向量Rw1、Rw2、…、Rwn以及每一分词中每一字符的字符向量Rc1、Rc2、...、Rcm输入至上下文编码层，得到正确答案的上下文编码。同样地，将错误试题文本中每一分词的词向量Ww1、Ww2、…、Wwi以及每一分词中每一字符的字符向量Wc1、Wc2、...、Wcj输入至上下文编码层，得到错误答案的上下文编码。将正确答案的上下文编码和错误答案的上下文编码输入至减乘交互层，得到正确答案的交互编码。然后，将正确答案的上下文编码和交互编码输入至知识点表征层，得到待推荐试题的知识点特征向量。随后，将知识点特征向量输入至知识点预测层，得到待推荐试题的知识点。

基于待推荐试题的知识点特征向量，计算待推荐试题与题库中各个试题的知识点相似度，从而选取多个知识点相似度较高的试题，作为候选试题。若待推荐试题的知识点为辨析类知识点，则可以直接将候选试题作为待推荐试题的相似题推荐给用户。否则，还需对待推荐试题和各个候选试题进行句法分析，以得到待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词。此处，可以将待推荐试题以及各个候选试题输入至句法分析模型以进行句法分析。

图7为本发明实施例提供的句法分析模型运行方法的流程示意图，如图7所示，将任一试题的正确试题文本中每一分词在词典中的索引输入至BERT层，得到每一分词的词向量。再将每一分词的词向量输入至8层堆叠的Transformer层作自注意力变换，得到每一分词的自注意力向量。将每一分词的自注意力向量输入至句法分析树生成层，得到该试题的句法分析树。关联分词获取层基于该句法分析树，获取正确答案的父节点和子节点对应的父关联单词in_relate_word和子关联单词out_relate_word在正确文本中的位置。需要说明的是，若正确答案仅有父节点或仅有子节点，则只获取相应的父关联单词或子关联单词。然后将该试题的正确试题文本输入至上下文编码层，得到in_relate_word和out_relate_word的上下文编码in_relate_embedding和out_relate_embedding。此处，句法分析模型的上下文编码层可以直接采用知识点预测模型的上下文编码层。

最后，将待推荐试题的in_relate_embedding与各个候选试题的in_relate_embedding的相似度，以及待推荐试题的out_relate_embedding与各个候选试题的out_relate_embedding的相似度，加权叠加到待推荐试题与各个候选试题的知识点相似度上，对各个候选试题进行排序，从而筛选出待推荐试题的相似题。

下面对本发明实施例提供的相似题推荐装置进行描述，下文描述的相似题推荐装置与上文描述的相似题推荐方法可相互对应参照。

基于上述任一实施例，图8为本发明实施例提供的相似题推荐装置的结构示意图，如图8所示，该装置包括：候选试题确定单元810、关联分词确定单元820和推荐单元830。

其中，候选试题确定单元810用于确定与待推荐试题的知识点相似的多个候选试题；

关联分词确定单元820用于分别对待推荐试题以及各个候选试题进行句法分析，得到待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词；

推荐单元830用于基于待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定待推荐试题的相似题。

本发明实施例提供的装置，通过对待推荐试题以及各个与其知识点相似的候选试题进行句法分析，得到待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词，并基于待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定待推荐试题的相似题，实现了语法变式题的推荐，优化了相似题推荐的效果。

基于上述任一实施例，关联分词确定单元820具体包括：

句法分析单元，用于对任一试题的正确试题文本进行句法分析，得到正确试题文本中每两个分词之间的句法关联性；正确试题文本包括对应试题的试题题目和正确答案的文本

关联分词获取单元，用于基于正确试题文本中每两个分词之间的句法关联性，确定与该试题的正确答案存在句法关联的分词，作为该试题的关联分词。

基于上述任一实施例，句法分析单元具体用于：

对正确试题文本的文本向量进行自注意力变换，得到正确试题文本中每一分词的自注意力向量；

基于正确试题文本中每一分词的自注意力向量，对正确试题文本进行句法分析。

本发明实施例提供的装置，通过对正确试题文本的文本向量进行自注意力变换，得到每一分词的自注意力向量，并基于每一分词的自注意力向量，对正确试题文本进行句法分析，提高了句法分析的准确性。

基于上述任一实施例，候选试题确定单元810具体用于：

基于上述任一实施例，该装置还包括知识点表征单元。其中，知识点表征单元具体用于：

基于待推荐试题的正确试题文本，确定待推荐试题的正确答案的上下文编码；正确试题文本包括对应试题的试题题目和正确答案的文本；

基于待推荐试题的错误试题文本，确定待推荐试题的错误答案的上下文编码；错误试题文本包括对应试题的试题题目和错误答案的文本；

对正确答案的上下文编码和错误答案的上下文编码进行减乘交互，得到正确答案的交互编码，交互编码用于表征正确答案与错误答案之间的差异；

基于正确答案的上下文编码和交互编码，确定待推荐试题的知识点特征向量。

基于上述任一实施例，推荐单元830具体用于：

本发明实施例提供的装置，通过综合考虑待推荐试题与各个候选试题之间的知识点相似度，以及待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，从而确定待推荐试题的相似题，提高了相似题推荐的灵活性。

基于上述任一实施例，该装置还包括辨析类相似题推荐单元。其中，辨析类相似题推荐单元具体用于：

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行相似题推荐方法，该方法包括：确定与待推荐试题的知识点相似的多个候选试题；分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词；基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的相似题推荐方法，该方法包括：确定与待推荐试题的知识点相似的多个候选试题；分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词；基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的相似题推荐方法，该方法包括：确定与待推荐试题的知识点相似的多个候选试题；分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词；基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种相似题推荐方法，其特征在于，包括：

确定与待推荐试题的知识点相似的多个候选试题；

基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题；

所述分别对所述待推荐试题以及各个候选试题进行句法分析，得到所述待推荐试题以及各个候选试题中与正确答案存在句法关联的关联分词，具体包括：

2.根据权利要求1所述的相似题推荐方法，其特征在于，所述对任一试题的正确试题文本进行句法分析，具体包括：

3.根据权利要求1所述的相似题推荐方法，其特征在于，所述确定与待推荐试题的知识点相似的多个候选试题，具体包括：

4.根据权利要求3所述的相似题推荐方法，其特征在于，所述知识点特征向量是基于如下步骤确定的：

5.根据权利要求1至4任一项所述的相似题推荐方法，其特征在于，所述基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题，具体包括：

6.根据权利要求1至4任一项所述的相似题推荐方法，其特征在于，所述确定与待推荐试题的知识点相似的多个候选试题，之后还包括：

7.一种相似题推荐装置，其特征在于，包括：

推荐单元，用于基于所述待推荐试题的关联分词与各个候选试题的关联分词之间的相似度，确定所述待推荐试题的相似题；

所述关联分词确定单元具体用于：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述相似题推荐方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述相似题推荐方法的步骤。