CN112818120B

CN112818120B - 习题标注方法、装置、存储介质及电子设备

Info

Publication number: CN112818120B
Application number: CN202110105977.XA
Authority: CN
Inventors: 邱伟伟; 陶俊杰; 张晓雷; 杨翕雯; 时静一
Original assignee: Beijing Zhitong Oriental Software Technology Co ltd
Current assignee: Beijing Zhitong Oriental Software Technology Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2024-07-09
Anticipated expiration: 2041-01-26
Also published as: CN112818120A

Abstract

本公开涉及一种习题标注方法、装置、存储介质及电子设备。该方法包括：获取待标注习题的习题数据，并将根据习题数据转换成的待标注习题特征向量输入一级标签分类器，得到一级标签分类器输出的目标一级标签；确定目标一级标签下包括的二级标签集合；基于待标注习题特征向量与二级标签集合中各个二级标签的相关性大小，从二级标签集合中确定至少一个目标二级标签；确定与至少一个目标二级标签对应的三级标签规则集合，根据三级标签规则集合确定与习题数据匹配的目标三级标签；将由目标一级标签、目标二级标签、目标三级标签组成的集合标注为待标注习题的分类标签。本公开的这种方式可提升习题知识点标注的效率和准确率。

Description

习题标注方法、装置、存储介质及电子设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种习题标注方法、装置、存储介质及电子设备。

背景技术

随着人工智能技术的发展和在线教育的推广，实现个性化教学和自适应学习逐渐成为可能。题库作为一种基础资源，在教、学、测、练、评的各种应用中占有重要的地位，而如何准确地为习题打上知识点标签并由此形成一个规范的知识点标签体系是题库建设和实现个性化教学、自适应学习的首要问题。

目前，可以通过人工标注的方式对题库中的习题进行标签标注。但由于习题数量庞大，因而人工标注的方式费时费力，而且还不可避免的存在知识点标注错误的问题。此外也存在由多人标注而导致的标注标准不一致的问题。

发明内容

本公开的目的是提供一种习题标注方法、装置、存储介质及电子设备，以提升习题知识点标注的效率和准确率。

为了实现上述目的，本公开实施例的第一方面，提供一种习题标注方法，所述方法包括：

获取待标注习题的习题数据，并将所述习题数据转换成待标注习题特征向量；

将所述待标注习题特征向量输入一级标签分类器，得到所述一级标签分类器输出的与所述待标注习题对应的目标一级标签；

确定所述目标一级标签下包括的二级标签集合，其中，一级标签的粒度大于二级标签的粒度；

基于所述待标注习题特征向量与所述二级标签集合中各个所述二级标签的相关性大小，从所述二级标签集合中确定至少一个目标二级标签；

确定与所述至少一个目标二级标签对应的三级标签规则集合，根据所述三级标签规则集合确定与所述习题数据匹配的目标三级标签，其中，所述二级标签的粒度大于三级标签的粒度，所述三级标签规则集合包括对应每一所述三级标签的匹配规则；

将由所述目标一级标签、所述目标二级标签、所述目标三级标签组成的集合标注为所述待标注习题的分类标签。

可选地，所述基于所述待标注习题特征向量与所述二级标签集合中各个所述二级标签的相关性大小，从所述二级标签集合中确定至少一个目标二级标签，包括：

针对所述二级标签集合中的每一所述二级标签，构建该二级标签对应的至少N个二级标签向量，其中，所述N为该二级标签下包括的三级标签集合中三级标签的数量，每一所述二级标签向量至少包括所述目标一级标签的向量信息、该二级标签的向量信息以及所述三级标签集合中的一个三级标签的向量信息；

将各所述二级标签向量分别与所述待标注习题特征向量进行组合，得到数据对集合；

根据所述数据对集合中各数据对之间的相关性值的大小，对所述各数据对由大到小进行排序，得到数据对序列；

将所述数据对序列中的前M个所述数据对对应的每一种所述二级标签均作为所述目标二级标签，其中N和M均为正整数。

可选地，每一所述二级标签向量还包括：所述目标一级标签的一级关键词向量、该二级标签的二级关键词向量以及所述一个三级标签的关键词向量。

可选地，所述将所述习题数据转换成待标注习题特征向量，包括：

抽取所述习题数据中的一级关键词以及语言模型；

将所述习题数据、所述一级关键词以及所述语言模型输入特征生成器，得到所述特征生成器输出的习题特征向量；

通过PCA算法对所述习题特征向量进行降维处理，得到预设维度的所述待标注习题特征向量。

可选地，所述确定与所述至少一个目标二级标签对应的三级标签规则集合，包括：

确定每一所述目标二级标签下包括的所述三级标签集合；

获取各所述三级标签集合中的每一三级标签对应的预设匹配规则，得到所述三级标签规则集合。

可选地，所述根据所述三级标签规则集合确定与所述习题数据匹配的目标三级标签，包括：

对所述三级标签规则集合以及所述习题数据利用正则表达式匹配算法进行计算，得到所述目标三级标签。

可选地，所述习题数据包括习题题干数据、习题解析数据、习题答案数据；相应地，所述待标注习题特征向量包括习题题干特征向量、习题解析特征向量、习题答案特征向量。

本公开实施例的第二方面，提供一种习题标注装置，所述装置包括：

获取模块，用于获取待标注习题的习题数据，并将所述习题数据转换成待标注习题特征向量；

输入模块，用于将所述待标注习题特征向量输入一级标签分类器，得到所述一级标签分类器输出的与所述待标注习题对应的目标一级标签；

第一确定模块，用于确定所述目标一级标签下包括的二级标签集合，其中，一级标签的粒度大于二级标签的粒度；

第二确定模块，用于基于所述待标注习题特征向量与所述二级标签集合中各个所述二级标签的相关性大小，从所述二级标签集合中确定至少一个目标二级标签；

第三确定模块，用于确定与所述至少一个目标二级标签对应的三级标签规则集合，根据所述三级标签规则集合确定与所述习题数据匹配的目标三级标签，其中，所述二级标签的粒度大于三级标签的粒度，所述三级标签规则集合包括对应每一所述三级标签的匹配规则；

执行模块，用于将由所述目标一级标签、所述目标二级标签、所述目标三级标签组成的集合标注为所述待标注习题的分类标签。

可选地，所述第二确定模块包括：

构建子模块，用于针对所述二级标签集合中的每一所述二级标签，构建该二级标签对应的至少N个二级标签向量，其中，所述N为该二级标签下包括的三级标签集合中三级标签的数量，每一所述二级标签向量至少包括所述目标一级标签的向量信息、该二级标签的向量信息以及所述三级标签集合中的一个三级标签的向量信息；

组合子模块，用于将各所述二级标签向量分别与所述待标注习题特征向量进行组合，得到数据对集合；

排序子模块，用于根据所述数据对集合中各数据对之间的相关性值的大小，对所述各数据对由大到小进行排序，得到数据对序列；

第一执行子模块，用于将所述数据对序列中的前M个所述数据对对应的每一种所述二级标签均作为所述目标二级标签，其中N和M均为正整数。

可选地，所述获取模块包括：

抽取子模块，用于抽取所述习题数据中的一级关键词以及语言模型；

输入子模块，用于将所述习题数据、所述一级关键词以及所述语言模型输入特征生成器，得到所述特征生成器输出的习题特征向量；

降维子模块，用于通过PCA算法对所述习题特征向量进行降维处理，得到预设维度的所述待标注习题特征向量。

可选地，所述第三确定模块包括：

确定子模块，用于确定每一所述目标二级标签下包括的所述三级标签集合；

获取子模块，用于获取各所述三级标签集合中的每一三级标签对应的预设匹配规则，得到所述三级标签规则集合。

可选地，所述第三确定模块包括：

第二执行子模块，用于对所述三级标签规则集合以及所述习题数据利用正则表达式匹配算法进行计算，得到所述目标三级标签。

本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。

本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面中任一项所述方法的步骤。

采用上述技术方案，至少能够达到如下技术效果：

通过获取待标注习题的习题数据，并将习题数据转换成待标注习题特征向量。将待标注习题特征向量输入一级标签分类器，得到一级标签分类器输出的与待标注习题对应的目标一级标签。进一步地，确定目标一级标签下包括的二级标签集合。基于待标注习题特征向量与二级标签集合中各个二级标签的相关性大小，从二级标签集合中确定至少一个目标二级标签。再进一步地，确定与目标二级标签对应的三级标签规则集合，根据三级标签规则集合确定与习题数据匹配的目标三级标签。将由目标一级标签、目标二级标签、目标三级标签组成的集合标注为待标注习题的分类标签。本公开的这种方式，相较于相关技术中人工标注的方式，可以避免由人工标注导致的低效率、错误标注以及标注标准不一致等问题，本公开的这种方式实现了提升习题标注的效率和准确率的技术效果。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种习题标注方法的流程图。

图2是根据本公开一示例性实施例示出的一种生成习题特征向量的示意图。

图3是根据本公开一示例性实施例示出的一种确定目标一级标签的示意图。

图4是根据本公开一示例性实施例示出的一种确定目标三级标签的示意图。

图5是根据本公开一示例性实施例示出的一种相关性排序模型的框架图。

图6是根据本公开一示例性实施例示出的一种习题标注装置的框图。

图7是根据本公开一示例性实施例示出的一种电子设备的框图。

图8是根据本公开一示例性实施例示出的另一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，可以通过人工标注的方式对题库中的习题进行知识点标注。但由于习题数量庞大，因而人工标注的方式费时费力，而且还不可避免的存在知识点标注错误的问题。此外也存在由多人标注而导致的标注标准不一致的问题。

为了解决相关技术中存在的问题，本公开提出可以训练知识点标签多分类模型，利用训练好的知识点标签多分类模型对待标注习题进行知识点标签标注。具体地，可以针对任一学科预先构建知识点标签体系，根据知识点标签体系进行建模得到知识点标签多分类模型，接着利用人工标注的少量样本数据训练知识点标签多分类模型。如此可以利用训练好的知识点标签多分类模型对该学科的任一习题进行知识点标签标注。采用这种方式，虽然相较于人工标注的方式能够提升习题标注的效率和准确率。但任一学科都存在不同粒度大小的知识点，因而任一学科的知识点标签体系中各个知识点标签的粒度大小不一定相同，不同粒度大小的知识点标签之间存在差异，若将不同粒度大小的知识点标签均作为多分类模型的分别标签，那么因该多分类模型没有考虑到不同粒度大小的知识点标签之间的差异，而可能会导致对习题知识点标注的结果准确率不高。

有鉴于此，本公开实施例提出一种习题标注方法、装置、存储介质及电子设备，用以在考虑到不同粒度大小的知识点标签之间的区别特征之后，采用不同的策略将不同粒度大小的知识点标签标注给待标注习题。本公开的这种基于知识点标签分层多策略的习题标注方式可以提升习题知识点标注的效率和准确率。

为了使本领域普通技术人员更加容易理解本公开的技术方案，下面首先说明本公开的应用场景，本公开的习题标注方案用于对习题数据库中的习题进行知识点标注，或者用于对待存入习题数据库中的习题进行知识点标注。本公开以小学数学学科的习题标注进行详细的实施例说明。

本公开中一级标签、二级标签、三级标签等不同粒度大小的标签均为知识点标签，各级标签具有预设的对应关系。示例地，假设一级标签包括：数与代数、图形与几何、统计与概率、综合与实践、综合与实践综合。一级标签“数与代数”标签下可以包括的二级标签有：数学基础、1～5的认识和加减法、6～10的认识和加减法、11～20各数的认识、20以内的进位加法、20以内的退位减法、100以内数的认识、100以内的加法和减法、表内乘法、表内除法、混合运算、有余数的除法、万以内数的认识、万以内的加法和减法、倍的认识、多位数乘一位数、分数的初步认识、除数是一位数的除法、两位数乘两位数、小数的初步认识、大数的认识、三位数乘两位数、除数是两位数的除法、四则运算、运算定律、小数的意义和性质、小数的加法和减法、小数乘法、小数除法、简易方程、因数与倍数、分数的意义和性质、分数的加法和减法、分数乘法、分数除法、比、百分数、生活中的百分数、负数、比例、数与代数综合。二级标签“数学基础”包括的三级标签可以有：数一数、比多少。三级标签“数一数”可以包括的四级标签有：在一幅复杂的图中数出指定图形的数量、在几幅图中找到数量不同的图、指定数量的图与数字连线、给出一定数量的图形与一个数字，将图形数量补齐到与数字相同、几个数字组成一个图形，从其中分离出数字。

下面对本公开的技术方案进行详细地实施例说明。

图1是根据本公开一示例性实施例示出的一种习题标注方法的流程图，如题1所示，该习题标注方法包括以下步骤：

S11、获取待标注习题的习题数据，并将所述习题数据转换成待标注习题特征向量。

值得说明的是，习题题干数据、习题解析数据、习题答案数据包括但不限于文本数据。示例地，当待标注习题为数据学科的习题时，习题题干数据、习题解析数据、习题答案数据中可以包括图像数据。

详细地，获取待标注习题的习题数据query，该待标注习题的习题数据query包括习题题干数据stem、习题解析数据analysis、习题答案数据answer。将该待标注习题的习题数据query输入特征生成器feature generator中，得到待标注习题特征向量，该待标注习题特征向量是一系列的one-hot高维特征表示，包括习题题干特征向量、习题解析特征向量、习题答案特征向量。

一种可实现的实施方式，所述将所述习题数据转换成待标注习题特征向量，具体包括以下步骤：

抽取所述习题数据中的一级关键词以及语言模型；将所述习题数据、所述一级关键词以及所述语言模型输入特征生成器，得到所述特征生成器输出的习题特征向量；通过PCA算法对所述习题特征向量进行降维处理，得到预设维度的所述待标注习题特征向量。

其中，一级关键词是根据先验知识确定的用于区分各个一级标签的关键词。语言模型是生成n-gram特征的模版。例如，“鸡”/“兔”组成一个template，如果query中同时存在“鸡”和“兔”，那么该query就命中这个template特征，而该query对应的知识点标签可能会是“鸡兔同笼问题”。

具体地，参见图2，可以根据一级关键词集合、语言模型库抽取待标注习题的习题数据中的一级关键词keyword-level1和语言模型template-level1。将习题数据query、一级关键词keyword-level1以及语言模型template-level1输入特征生成器featuregenerator，得到特征生成器feature generator输出的包括character-level1 feature(习题数据query对应的单字符one-hot特征)、keyword-level1 feature、template-level1feature的习题特征向量。进一步地，由于该习题特征向量是one-hot高维特征表示，为了降低后序步骤中数据处理的复杂度，可以用PCA算法对该习题特征向量进行降维处理，得到预设维度的待标注习题特征向量，预设维度可以为256维度。容易理解的是，在不考虑后序步骤中数据处理的复杂度的情况下，可将该习题特征向量直接作为待标注习题特征向量。

其中，值得说明的是PCA算法(Principal Component Analysis，主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

S12、将所述待标注习题特征向量输入一级标签分类器，得到所述一级标签分类器输出的与所述待标注习题对应的目标一级标签。

一种可实现的实施方式，考虑到一级标签的粒度大、数量少且正交性好，本公开的一级标签分类器具体可以为基于XGBoost的多分类器。如图3所示，将待标注习题特征向量输入一级标签分类器，得到一级标签分类器输出的至少一个目标一级标签。

S13、确定所述目标一级标签下包括的二级标签集合，其中，一级标签的粒度大于二级标签的粒度。

具体地，在确定目标一级标签之后，可以根据各级标签的对应关系，确定每一个目标一级标签下包括的二级标签集合。示例地，假设目标一级标签为“统计与概率”，那么“统计与概率”包括的二级标签集合为(分类与整理，数据整理收集，复式统计表，条形统计图，平均数与条形统计图，折线统计图，扇形统计图，可能性，统计与概率综合)。假设目标一级标签为“综合与实践综合”，那么“综合与实践综合”包括的二级标签集合为(数学思考、绿色出行、北京五日游、邮票中的数学问题、有趣的平衡)。在目标一级标签不止一个的情况下，可将各个目标一级标签下包括的二级标签集合合并为一个二级标签集合。

S14、基于所述待标注习题特征向量与所述二级标签集合中各个所述二级标签的相关性大小，从所述二级标签集合中确定至少一个目标二级标签。

在具体实施时，将二级标签集合中与待标注习题特征向量相关性最高的一个或多个二级标签作为目标二级标签。

S15、确定与所述至少一个目标二级标签对应的三级标签规则集合，根据所述三级标签规则集合确定与所述习题数据匹配的目标三级标签，其中，所述二级标签的粒度大于三级标签的粒度，所述三级标签规则集合包括对应每一所述三级标签的匹配规则。

在确定目标二级标签的情况下，可以根据各级标签的对应关系，确定目标二级标签包括的三级标签集合，根据确定的三级标签集合可以确定对应的三级标签规则集合。因而一种可能的实施方式，所述确定与所述至少一个目标二级标签对应的三级标签规则集合，具体包括以下步骤：确定每一所述目标二级标签下包括的所述三级标签集合；获取各所述三级标签集合中的每一三级标签对应的预设匹配规则，得到所述三级标签规则集合。

示例地，假设目标二级标签为“分类与整理”，那么根据各级标签的对应关系可以确定“分类与整理”标签包括的三级标签集合为(选出不同类的物体，判断两个物体是否相关，根据形状将图形进行分类，将物体按要求进行分类并统计数量，制定分类标准并将物体分类)。

进一步地，根据每一三级标签，确定该三级标签对应的匹配规则，得到三级标签规则集合。例如对三级标签“选出不同类的物体”，设置的匹配规则可以为文字是否匹配“选出不同类的物体”。根据三级标签集合(选出不同类的物体，判断两个物体是否相关，根据形状将图形进行分类，将物体按要求进行分类并统计数量，制定分类标准并将物体分类)，可以确定对应的三级标签规则集合为(选出不同类的物体，判断两个物体是否相关，根据形状将图形进行分类，将物体按要求进行分类并统计数量，制定分类标准并将物体分类)。

再进一步地，参见图4，对所述三级标签规则集合以及所述习题数据利用正则表达式匹配算法进行计算，得到所述目标三级标签。

示例地，根据三级标签规则集合(选出不同类的物体，判断两个物体是否相关，根据形状将图形进行分类，将物体按要求进行分类并统计数量，制定分类标准并将物体分类)，可以确定与习题数据query(文本数据)文本相相匹配的目标三级标签。

S16、将由所述目标一级标签、所述目标二级标签、所述目标三级标签组成的集合标注为所述待标注习题的分类标签。

采用上述技术方案，通过获取待标注习题的习题数据，并将习题数据转换成待标注习题特征向量。将待标注习题特征向量输入一级标签分类器，得到一级标签分类器输出的与待标注习题对应的目标一级标签。进一步地，确定目标一级标签下包括的二级标签集合。基于待标注习题特征向量与二级标签集合中各个二级标签的相关性大小，从二级标签集合中确定至少一个目标二级标签。再进一步地，确定与目标二级标签对应的三级标签规则集合，根据三级标签规则集合确定与习题数据匹配的目标三级标签。将由目标一级标签、目标二级标签、目标三级标签组成的集合标注为待标注习题的分类标签。本公开的这种方式，相较于相关技术中人工标注的方式，可以避免由人工标注导致的低效率、错误标注以及标注标准不一致等问题，本公开的这种方式实现了提升习题标注的效率和准确率的技术效果。

值得说明的是，由于二级标签的粒度较小，各二级标签之间的区分性不高，因而不同二级标签包括的三级标签集合可以部分相同。也就是说每道数学习题完全可能同时对应多个二级标签。所以，可选地，所述基于所述待标注习题特征向量与所述二级标签集合中各个所述二级标签的相关性大小，从所述二级标签集合中确定至少一个目标二级标签，具体可以包括以下步骤：

S21、针对所述二级标签集合中的每一所述二级标签，构建该二级标签对应的至少N个二级标签向量，其中，所述N为该二级标签下包括的三级标签集合中三级标签的数量，每一所述二级标签向量至少包括所述目标一级标签的向量信息、该二级标签的向量信息以及所述三级标签集合中的一个三级标签的向量信息。

一种实施方式，针对二级标签集合中的每一二级标签，构建该二级标签对应的至少N个二级标签向量，其中N为该二级标签下包括的三级标签集合中三级标签的数量。每一二级标签向量包括目标一级标签的向量信息、该二级标签的向量信息以及三级标签集合中的一个三级标签的向量信息。

示例地，假设二级标签为“分类与整理”，那么二级标签“分类与整理”包括的三级标签集合为(选出不同类的物体，判断两个物体是否相关，根据形状将图形进行分类，将物体按要求进行分类并统计数量，制定分类标准并将物体分类)。该三级标签集合中有5个三级标签。因此对应的5个二级标签向量为：统计与概率+分类与整理+选出不同类的物体，统计与概率+分类与整理+判断两个物体是否相关，统计与概率+分类与整理+根据形状将图形进行分类，统计与概率+分类与整理+将物体按要求进行分类并统计数量，统计与概率+分类与整理+制定分类标准并将物体分类分别对应的向量。

另一种实施方式，针对二级标签集合中的每一二级标签，构建该二级标签对应的N’个二级标签向量，其中N’为该二级标签下包括的最小粒度的n级标签集合中n级标签的数量。假设二级标签为“数学基础”。“数学基础”标签下包括的三级标签集合为(数一数，比多少)。其中，三级标签“数一数”包括四级标签集合(在一幅复杂的图中数出指定图形的数量；在几幅图中找到数量不同的图；指定数量的图与数字连线；给出一定数量的图形与一个数字，将图形数量补齐到与数字相同；几个数字组成一个图形，从其中分离出数字)。三级标签“比多少”包括四级标签集合(在几幅图片中找到数量最多的；根据题目要求画出多几个或少几个的图形；描述谁比谁多几个或少几个；连线数量相同的两幅图；观察杯子中的水，比较多少；将方糖放入不同的杯子中，杯子中的水不同，判断哪个嘴甜；将东西分给人或筐，判断够还是不够；相同的东西用掉一些，比较谁用掉的多谁用掉的少)。此种情况下，N’为13，二级标签“数学基础”对应的13个二级标签向量为：数与代数+数学基础+数一数+在一幅复杂的图中数出指定图形的数量；数与代数+数学基础+数一数+在几幅图中找到数量不同的图；数与代数+数学基础+数一数+指定数量的图与数字连线；数与代数+数学基础+数一数+给出一定数量的图形与一个数字，将图形数量补齐到与数字相同；数与代数+数学基础+数一数+几个数字组成一个图形，从其中分离出数字；数与代数+数学基础+比多少+在几幅图片中找到数量最多的；数与代数+数学基础+比多少+根据题目要求画出多几个或少几个的图形；数与代数+数学基础+比多少+描述谁比谁多几个或少几个；数与代数+数学基础+比多少+连线数量相同的两幅图；数与代数+数学基础+比多少+观察杯子中的水，比较多少；数与代数+数学基础+比多少+将方糖放入不同的杯子中，杯子中的水不同，判断哪个嘴甜；数与代数+数学基础+比多少+将东西分给人或筐，判断够还是不够；数与代数+数学基础+比多少+相同的东西用掉一些，比较谁用掉的多谁用掉的少分别对应的向量。

S22、将各所述二级标签向量分别与所述待标注习题特征向量进行组合，得到数据对集合。

将各二级标签向量level2_tagn分别与待标注习题特征向量Query进行组合，得到数据对Query-level2_tagn的集合。

S23、根据所述数据对集合中各数据对之间的相关性值的大小，对所述各数据对由大到小进行排序，得到数据对序列。

在具体实施时，将数据对Query-level2_tagn的集合输入相关性排序模型，得到每一数据对Query-level2_tagn的相关性分数。其中相关性排序模型可以采用如图5所示的Deep Structured Semantic Models加attention的双塔型模型结构，分别用3层神经网络构建query侧特征的query embedding和标签tag侧特征的tag embedding，利用attention计算得到reverence embedding，然后根据reverence embedding计算相关性分数。

可以根据每一数据对Query-level2_tagn的相关性分数大小进行从大到小的排序，以得到数据对序列。或者可以根据每一数据对Query-level2_tagn的相关性分数大小进行从小到大的排序，以得到数据对序列。

S24、将所述数据对序列中的前M个所述数据对对应的每一种所述二级标签均作为所述目标二级标签，其中N和M均为正整数。

其中，M为根据需求进行设置的数值。M为10，30等数值。示例地，假设M为10，那么将数据对序列中的前10个数据对对应的每一种二级标签均作为目标二级标签。

采用这种方式，可以从二级标签集合中确定一个或多个与待标注习题相关的目标二级标签。

一种可能的实施方式，在可以从二级标签集合中确定一个或多个与待标注习题相关的目标二级标签的基础之上，为了使确定的目标二级标签更加准确，可以用各级标签的关键词进行约束。具体地，每一所述二级标签向量至少还包括：所述目标一级标签的一级关键词向量、该二级标签的二级关键词向量以及所述一个三级标签的关键词向量。

采用这种方式，在利用上下级标签来约束得到更准确的目标二级标签的基础之上，可以进一步利用各级标签的关键词进行进一步的约束，以得到更准确的目标二级标签。

在采用本公开的上述习题标注方法对习题数据库中的所有习题进行知识点标注之后，可以根据习题数据库中所有的习题以及每一习题的标签生成以各标签为实体节点的习题知识图谱。

本公开提供的上述习题标注方法，可以应用于试卷分析场景，具体地，确定待分析试卷中的习题数量，以及每一道习题的目标一级标签、目标二级标签、目标三级标签；根据各所述习题的所述目标一级标签、目标二级标签、目标三级标签，统计所述目标一级标签的种类、所述目标二级标签的种类、所述目标三级标签的种类，并确定每一种标签的数量与习题数量的比值；根据所述每一种标签的数量与所述习题数量的比值生成所述待分析试卷的知识点分析结果。

采用这种方法，可以实现对试卷自动进行知识点分布情况分析。

本公开提供的上述习题标注方法，还可以应用于生成试卷的场景，具体地，响应于用户的输入操作，确定组卷参数，所述组卷参数至少包括目标一级标签、目标二级标签、目标三级标签以及对应的试题数量；根据所述目标一级标签、目标二级标签、目标三级标签以及对应的试题数量从习题数据库中抽取对应的习题；根据抽取到的所述习题生成试卷。

采用这种方式，可以根据用户的需求，自动生成对应知识点和数量的试卷。无需用户从海量题库中进行筛选习题，提升了组卷的效率。

图6是根据本公开一示例性实施例示出的一种习题标注装置的框图。如图6所示，该装置600包括：

获取模块610，用于获取待标注习题的习题数据，并将所述习题数据转换成待标注习题特征向量；

输入模块620，用于将所述待标注习题特征向量输入一级标签分类器，得到所述一级标签分类器输出的与所述待标注习题对应的目标一级标签；

第一确定模块630，用于确定所述目标一级标签下包括的二级标签集合，其中，一级标签的粒度大于二级标签的粒度；

第二确定模块640，用于基于所述待标注习题特征向量与所述二级标签集合中各个所述二级标签的相关性大小，从所述二级标签集合中确定至少一个目标二级标签；

第三确定模块650，用于确定与所述至少一个目标二级标签对应的三级标签规则集合，根据所述三级标签规则集合确定与所述习题数据匹配的目标三级标签，其中，所述二级标签的粒度大于三级标签的粒度，所述三级标签规则集合包括对应每一所述三级标签的匹配规则；

执行模块660，用于将由所述目标一级标签、所述目标二级标签、所述目标三级标签组成的集合标注为所述待标注习题的分类标签。

采用这种装置，通过获取待标注习题的习题数据，并将习题数据转换成待标注习题特征向量。将待标注习题特征向量输入一级标签分类器，得到一级标签分类器输出的与待标注习题对应的目标一级标签。进一步地，确定目标一级标签下包括的二级标签集合。基于待标注习题特征向量与二级标签集合中各个二级标签的相关性大小，从二级标签集合中确定至少一个目标二级标签。再进一步地，确定与目标二级标签对应的三级标签规则集合，根据三级标签规则集合确定与习题数据匹配的目标三级标签。将由目标一级标签、目标二级标签、目标三级标签组成的集合标注为待标注习题的分类标签。本公开的这种方式，相较于相关技术中人工标注的方式，可以避免由人工标注导致的低效率、错误标注以及标注标准不一致等问题，本公开的这种方式实现了提升习题标注的效率和准确率的技术效果。

可选地，所述第二确定模块640包括：

可选地，所述获取模块610包括：

可选地，所述第三确定模块650包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的习题标注方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的习题标注方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的习题标注方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的习题标注方法。

图8是根据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图8，电子设备700包括处理器701，其数量可以为一个或多个，以及存储器702，用于存储可由处理器701执行的计算机程序。存储器702中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器701可以被配置为执行该计算机程序，以执行上述的习题标注方法。

另外，电子设备700还可以包括电源组件1926和通信组件705，该电源组件1926可以被配置为执行电子设备700的电源管理，该通信组件705可以被配置为实现电子设备700的通信，例如，有线或无线通信。此外，该电子设备700还可以包括输入/输出(I/O)接口704。电子设备700可以操作基于存储在存储器702的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的习题标注方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种习题标注方法，其特征在于，所述方法包括：

其中，所述基于所述待标注习题特征向量与所述二级标签集合中各个所述二级标签的相关性大小，从所述二级标签集合中确定至少一个目标二级标签，包括：

将所述数据对序列中的前M个所述数据对对应的每一种所述二级标签均作为所述目标二级标签，其中N和M均为正整数；

2.根据权利要求1所述的方法，其特征在于，每一所述二级标签向量还包括：所述目标一级标签的一级关键词向量、该二级标签的二级关键词向量以及所述一个三级标签的关键词向量。

3.根据权利要求1或2所述的方法，其特征在于，所述将所述习题数据转换成待标注习题特征向量，包括：

抽取所述习题数据中的一级关键词以及语言模型；

4.根据权利要求3所述的方法，其特征在于，所述确定与所述至少一个目标二级标签对应的三级标签规则集合，包括：

确定每一所述目标二级标签下包括的三级标签集合；

5.根据权利要求4所述的方法，其特征在于，所述根据所述三级标签规则集合确定与所述习题数据匹配的目标三级标签，包括：

6.根据权利要求1或2所述的方法，其特征在于，所述习题数据包括习题题干数据、习题解析数据、习题答案数据；相应地，所述待标注习题特征向量包括习题题干特征向量、习题解析特征向量、习题答案特征向量。

7.一种习题标注装置，其特征在于，所述装置包括：

其中，所述第二确定模块包括：

第一执行子模块，用于将所述数据对序列中的前M个所述数据对对应的每一种所述二级标签均作为所述目标二级标签，其中N和M均为正整数；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

9.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤。