CN106776724A

CN106776724A - 一种题目分类方法及系统

Info

Publication number: CN106776724A
Application number: CN201611024333.3A
Authority: CN
Inventors: 刘德建; 詹博悍; 章亮; 陈霖; 吴拥民; 陈宏展
Original assignee: Fujian Tianquan Educational Technology Ltd
Current assignee: Fujian Tianquan Educational Technology Ltd
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2017-05-31
Anticipated expiration: 2036-11-16
Also published as: CN106776724B

Abstract

本发明涉及分类领域，尤其涉及一种题目分类方法及系统。本发明通过提取第一题目中的符号；根据所述的符号进行分类，得到第一分类；根据所述第一分类集合相应的第一题目。实现充分利用题目中的信息，从而提高题目按知识点分类的精确度。

Description

一种题目分类方法及系统

技术领域

本发明涉及分类领域，尤其涉及一种题目分类方法及系统。

背景技术

大数据时代每天所产生的数据量爆炸式的增长。K12教育作为中国最重要的教育形式之一，每天产生的数据量不可忽视。中国在线教育的规模正以每年30％以上的速度增长，市场估值将超过1600亿元。K12在线教育资源成为了各个企业必争之地，若能对日益增长的题目数据加以分析利用，合理归类到相应知识点中，则能提高应用的用户体验。

在K12的在线教育中，绝大多数教学网站和应用，都需要大量的题库资源作为基础支撑。通常这些题目资源需在教学系统中被归类于其涉及的知识点之下，以便于学生对自身薄弱的知识点选择相应的题目进行练习。目前的题目知识点标注方法仅以人工为主，需要大量的教学相关人员为不同学龄段、不同学科的知识点进行归类。事实上单个学科在单个学龄段的知识点就可能超过千数，这很难保证相关人员在分类归档时不发生知识点遗漏或出错。而各教学网站或应用目前已经归档的题目资源仅是K12教育题中的很小一部分。尚未归类的题目，加上每一年新增的大量新题，都需要大量的教学人员为这些题目资源归类，这更是加大了难度和出错的概率。如何利用已经标以知识点的题目为未知知识点的题目进行分类便成为一种需求。

根据现有题目分类的相关方法，只是将题目分类成不同的学科，例如：A题属于数学，B题属于语文，而无法精确到具体的知识点。

发明内容

本发明所要解决的技术问题是：提供一种题目分类方法及系统，实现提高题目按知识点分类的精确度。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种题目分类方法，包括：

提取第一题目中的符号；

根据所述的符号进行分类，得到第一分类；

根据所述第一分类集合相应的第一题目。

本发明还提供一种题目分类系统，包括：

提取模块，用于提取第一题目中的符号；

分类模块，用于根据所述的符号进行分类，得到第一分类；

集合模块，用于根据所述第一分类集合相应的第一题目。

本发明的有益效果在于：通过提取第一题目中的符号，并根据所述符号进行分类，实现充分利用题目中的信息，从而提高题目按知识点分类的精确度。

附图说明

图1为本发明一种题目分类方法的流程框图；

图2为本发明一种题目分类系统的结构框图；

标号说明：

1、提取模块；2、分类模块；3、集合模块；4、更新模块。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

本发明最关键的构思在于：通过根据题目中的符号进行分类，实现充分利用题目中的信息，从而提高题目按知识点分类的精确度。

如图1所示，本发明提供一种题目分类方法，包括：

提取第一题目中的符号；

根据所述的符号进行分类，得到第一分类；

根据所述第一分类集合相应的第一题目。

进一步地，根据所述的符号进行分类，得到第一分类，具体为：

根据预设的转义字符转换所述符号，得到第二题目；

提取所述第二题目的特征，得到第一向量；

根据预设的知识点分类模型，得到与所述第一向量相应的第一分类。

由上述描述可知，由于不同来源的题目的描述方式可能不同，尤其是不同的公式编辑器对公式中的符号的描述差异较大，因此，通过预设的转义字符转换所述公式中的符号，可归一化不同描述方式但代表相同意思的符号，从而提高分类的效率和精确度，且降低题库的冗余度。

例如：待分类的题目1为“使函数有意义的的正整数取值范围组成的集合的元素有？”。待分类的题目2为“使函数有意义的y＝(5-x)^1/2的正整数取值范围组成的集合的元素有？”。待分类的题目3为“使函数有意义的的正整数取值范围组成的集合的元素有？”。待分类的题目4为“使函数有意义的y＝1/(x-6)的正整数取值范围组成的集合的元素有？”。实际上，题目1和题目2本质上是相同的，但是现有的分类方法无法识别和判断，造成题库数据冗余。在本发明中，可根据预设的转义字符“\sqrt”转换题目1和题目2中的数学公式为y＝\sqrt(5-x)。另，区别于现有技术，本发明可提取公式中符号的信息，根据符号进行分类，因此可更精确地将题目1、题目2和题目3分为一类，题目4为另一类，从而充分利用题目中的信息，提高题目按知识点分类的精确度。

此外，使用预设的转义字符转换题目中的符号，有利于提高分类的准确度。例如将上述题目1中的公式转换成y＝\sqrt(5-x)，这样可以将\sqrt作为分类的信息，从而保留公式信息。根据现有的分类方法，题目1被解析为“使函数有意义的正整数取值范围组成的集合的元素有？”这样无法准确获取题目需要传达的意思，但是如果能够保留公式部分，可以获取更多的题目信息，便于提高题目知识点的分类精确度。

进一步地，提取所述第二题目的特征，得到第一向量，具体为：

解析所述第二题目，得到中文字符栈和非中文字符栈；

使用切词算法对所述中文字符栈中的字符进行切词处理，并使用预设的正则表达式匹配所述非中文字符栈中存储的公式，得到第三题目；

从所述第三题目中删除停止词，得到第四题目；

提取所述第四题目的特征，得到第一向量。

由上述描述可知，由于现有的切词算法如jieba等会删除题目中的非中文字符，只对中文字符进行切词处理，因此，本发明先将题目中的中文字符和非中文字符分别放入不同的栈，对中文字符栈进行切词处理，对非中文字符栈使用正则表达式匹配相应的公式，尽量将公式中可识别的部分分开，能够在保留题目中信息的同时，对题目进行切词，有利于提取题目中的特征向量。此外，使用栈保存中文字符和非中文字符能够保证字符顺序不变，在切词处理过程中不改变题目的原意。再者，删除题目中的停止词，即无意义的词，如“的”、“它”、“在”、“为”、“里面”等，能够更精确地提取题目的特征向量，忽略无关信息，降低特征向量的冗余度。

进一步地，从所述第三题目中删除停止词，得到第四题目，具体为：

计算所述第三题目中各个词的权重；

根据所述权重将所述第三题目中的词排序，形成第一队列；

从所述第三题目中删除与预设个数元素相应的词，得到第四题目。

由上述描述可知，由于不同学科和不同学龄段的停止词的具体内容不同，现有的停止词获取方法为通过停止词表进行查阅，灵活性和针对性较低，本发明通过停止词计算算法，如TF-IDF算法，计算各个词在题目中的权重，并删除所述第三题目中权重较小的词，能够针对不同学科获得不同的停止词，从而提高获取到的近似题的相关性。

例如，常见词汇“加速度”在物理学科中是经常出现的词汇，而且对题意的理解也是很重要的，然而在生物学中，1000道题目都未必能有这种词汇，因此如果在生物学科中发现有“加速度”，就可以认定为其是停止词，并不能作为生物学科中重要的词看待，可以将其删除。

其中，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF)，以防止它偏向长的文件。其计算公式如下：

上述公式中n_i,j是该词在文件d_j中出现的次数，而分母这是在文件d_j中所有字词出现的次数之和。

逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。其公式如下所示：

其中|D|是语料文件的总数，|{j:t_i∈d_j}|包含词语t_i的文件数目，如果该词不在语料库中，就会导致被除数为0，因此一般情况下使用的是1+|{j:t_i∈d_j}|。最后得到TF-IDF的公式，如下所示：

tf-idf_i,j＝tf_i,j×idf_i

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

根据预设的转义字符转换所述符号，得到第二题目；

根据所述第二题目构建词频向量；所述词频向量中元素的个数为预设训练数据集中不同词的数量，所述词频向量中元素的值为与所述元素相应的词在所述第二题目中出现的次数；

根据预设的维度建立语义特征抽取模型；

根据所述语义特征抽取模型构建与所述第二题目相应的语义向量；

根据预设的知识点分类模型，得到与所述词频向量和所述语义向量相应的第一分类。

由上述描述可知，由于传统的机器学习模型中只使用了词频向量或者0-1向量来提取题目的特征，而忽略了题目中上下文之间的关系，本发明不仅包含有词频向量而特意引入了可以度量上下文之间关系的语义向量(即word2vec向量或者gloVe向量)，将两种向量结合可有效提高分类正确率，保证在获取词汇对整个题库的重要程度的基础上，加入词汇之间的上下文关系，使得后续输入到分类模型中的向量具有更丰富的含义。此外，在训练语义特征抽取模型时可以根据实际情况确定词向量的维度，达到降维的目的，从而降低计算的复杂度，降低分类过程所需的内存空间，降低特征抽取模型的大小，避免占用过多内存。

进一步地，还包括：

根据所述第一分类更新所述知识点分类模型。

由上述描述可知，定期根据分类结果更新知识点分类模型，能够提高分类模型分类的精确度。

进一步地，根据预设的知识点分类模型，得到与所述词频向量和所述语义向量相应的第一分类，具体为：

根据基于词频的知识点分类模型，得到与所述词频向量相应的第一知识点集合；

根据基于语义的知识点分类模型，得到与所述语义向量相应的第二知识点集合；

根据所述第一知识点集合和所述第二知识点集合，得到第三知识点集合；

根据所述第三知识点集合中的知识点分类。

由上述描述可知，通过基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合，能够得到题目所包含的知识点，从而添加该题目到所述知识点相应的分类中，实现精确地按知识点分类。

进一步地，根据所述第一知识点集合和所述第二知识点集合，得到第三知识点集合，具体为：

获取所述第一知识点集合和所述第二知识点集合中相同的知识点；

获取所述相同的知识点根据基于词频的知识点分类模型得到的第一权重值；

获取所述相同的知识点根据基于语义的知识点分类模型得到的第二权重值；

根据所述第一权重值和所述第二权重值，形成与所述相同的知识点集合相应的权重值集合；

根据所述权重值集合将所述相同的知识点按权重值从大到小排序，获取与预设知识点数相应的知识点，形成第三知识点集合。

由上述描述可知，通过综合分析基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合中各知识点所占的权重值，可获知题目与各知识点的关联程度，从而实现将题目添加到关联度较高的知识点分类中，提高分类的精确度，降低分类的冗余度。

如图2所述，本发明提供一种题目分类系统，包括：

提取模块1，用于提取第一题目中的符号；

分类模块2，用于根据所述的符号进行分类，得到第一分类；

集合模块3，用于根据所述第一分类集合相应的第一题目。

进一步地，还包括：

更新模块4，用于根据所述第一分类更新所述知识点分类模型。

由上述描述可知，本发明提供的题目分类系统可对题目按知识点分类，并可提高分类的精确度。

本发明的实施例一为：

提取第一题目中的符号；

根据预设的转义字符转换所述符号，得到第二题目；

解析所述第二题目，得到中文字符栈和非中文字符栈；

计算所述第三题目中各个词的权重；

根据所述权重将所述第三题目中的词排序，形成第一队列；

从所述第三题目中删除与预设个数元素相应的词，得到第四题目；

提取所述第四题目的特征，得到第一向量；

根据预设的知识点分类模型，得到与所述第一向量相应的第一分类；

根据所述第一分类集合相应的第一题目；

根据所述第一分类更新所述知识点分类模型。

由上述描述可知，本实施例实现按知识点分类，并通过将题目中的符号通过预设的转义字符进行归一化处理，通过对题目中的中文字符进行切词处理，通过对题目中的非中文字符使用正则表达式匹配，通过删除题目中的停止词，实现提高题目按知识点分类的精确度。

本发明的实施例二为：

提取第一题目中的符号；

根据预设的转义字符转换所述符号，得到第二题目；

解析所述第二题目，得到中文字符栈和非中文字符栈；

计算所述第三题目中各个词的权重；

根据所述权重将所述第三题目中的词排序，形成第一队列；

根据所述第四题目构建词频向量；所述词频向量中元素的个数为所述第四题目中不同词的数量，所述词频向量中元素的值为与所述元素相应的词在所述第四题目中出现的次数；

根据预设的维度建立语义特征抽取模型；

根据所述语义特征抽取模型构建与所述第四题目相应的语义向量；

根据所述权重值集合将所述相同的知识点按权重值从大到小排序，获取与预设知识点数相应的知识点，形成第三知识点集合；

根据所述第三知识点集合中的知识点得到第一分类；

根据所述第一分类集合相应的第一题目；

根据所述第一分类更新所述知识点分类模型。

由上述描述可知，本实施例与本发明的实施例一相比，本实施例进一步结合词频向量和可以度量上下文之间关系的语义向量，有效提高分类的准确率。

本发明的实施例一提供的方案随着题目字数的增加，分类的准确率降低。本发明的实施例二进一步结合词频向量和可以度量上下文之间关系的语义向量，使得分类的准确率不受题目字数的影响。但是，对于字数较短的题目，本发明的实施例一可以在保证高分类准确率的同时，比本发明的实施例二具有更高的效率。

本发明的实施例三为：

S1、提取第一题目中的符号；

其中，第一题目为“使函数有意义的的正整数取值范围组成的集合的元素有？”提取第一题目中的符号“√”、“＝”和“-”。

S2、根据预设的转义字符转换所述符号，得到第二题目；

其中，符号“√”的转义字符为“\sqrt”，符号“＝”的转义字符为英文状态下输入的等于号，符号“-”的转义字符为英文状态下输入的减号。经转义字符转换后得到的第二题目为“使函数有意义的y＝\sqrt(5-x)正整数取值范围组成的集合的元素有？”

S3、解析所述第二题目，得到中文字符栈和非中文字符栈；

其中，使用jieba切词算法对所述中文字符栈中的字符进行切词处理，并使用预设的正则表达式匹配所述非中文字符栈中存储的公式得到的第三题目为：“使@函数@有意义@的@y@＝@\sqrt@(@5@-@x@)@正整数@取值范围@组成@的@集合@的@元素@有@？”其中，符号@表示分隔符。

S4、计算所述第三题目中各个词的权重；

根据所述权重将所述第三题目中的词排序，形成第一队列；

其中，使用TF-IDF算法根据训练数据集计算得到所述第三题目中各个词的权重依次为：

使(0.05)@函数(0.51)@有意义(0.22)@的(0.02)@y(0.09)@＝(0.07)@\sqrt(0.22)@((0.01)@5(0.01)@-(0.07)@x(0.07)@)(0.01)@正整数(0.49)@取值范围(0.44)@组成(0.15)@的(0.02)@集合(0.38)@的(0.02)@元素(0.35)@有(0.05)@？(0.01)。

从第三题目中删除词的权重较小的词，如将第三题目中各个词按其权重从大到小排序，得到第一队列：“函数@正整数@取值范围@集合@元素@有意义@\sqrt@组成@y@＝@使@x@-@有@的@的@的@(@)@？@5”，从第三题目中删除与第一队列中后13个元素对应的词，得到第四题目，所述第四题目为：“函数@有意义@\sqrt@正整数@取值范围@组成@集合@元素”。

S5、根据所述第四题目构建词频向量；所述词频向量中元素的个数为预设训练数据集中不同词的数量，所述词频向量中元素的值为与所述元素相应的词在所述第四题目中出现的次数；

其中，先统计第四题目中每个词出现的次数，再根据所有非停止词所构建的非停止词向量，构建第四题目的词频向量。

例如，非停止词向量长度为1000维，从第四题目中可知每个词都只出现了一次，那么所构建的词频向量长度等于非停止词向量长度1000维，每维元素为该维所代表的词在第四题目中出现的次数。因此除了第四题目中的词汇所代表的维度为1之外，其他维度的值都将为0。

S6、根据预设的维度建立语义特征抽取模型；

其中，将第四题目中出现的每个词输入到已经训练好的语义模型中(例如word2vec或者GloVe模型)获得每个词的向量，由于得到的每个词的向量是等长的，因此可以将每个词的向量进行叠加，即相同维度值相加，得到一个包含整个题目的向量，语义模型是一种可以保存语义上下文关系的表示方法。

S7、根据基于词频的知识点分类模型，得到与所述词频向量相应的第一知识点集合；

根据所述第三知识点集合中的知识点得到第一分类；

其中，第一知识点集合为：{集合元素的取值范围，函数的表示方法，集合的表示法，集合中元素的最值根的存在性，集合中元素的最值根的个数判定，函数的值，根式运算}，表示第四题目经过基于词频的知识点分类模型的处理得知第四题目所包含的知识点，且第四题目与各个知识点的关联度分别为:{0.85，0.04，0.03，0.02，0.03，0.02，0.01}。第二知识点集合为：{集合元素的取值范围，根式运算，集合的表示法，集合中元素的最值，集合的相等，函数的定义域及其求法，函数的值}，表示第四题目经过基于语义的知识点分类模型的处理得知第四题目所包含的知识点，且第四题目与各个知识点的关联度分别为：{0.73，0.08，0.08，0.04，0.04，0.02，0.01}。获取第一知识点集合和第二知识点集合中相同的知识点，形成第三知识点集合。

形成第三知识点集合有以下两种方式：

方式一，获取第一知识点集合和第二知识点集合中相同的，且关联度较大的知识点。所述第三知识点集合的知识点同时满足第四题目的词频向量和语义向量的特征，与第四题目的关联度较大，可获取相关度高的知识点分类。

方式二，获取第一知识点集合和第二知识点集合的并集为第三知识点集合。该方式使得获得的知识点分类更加全面。

S8、根据所述第一分类集合相应的第一题目；

其中，将第一题目添加至第三知识点集合中各知识点对应的分类中。

S9、根据所述第一分类更新所述知识点分类模型。

其中，根据最新的分类结果更新知识点分类模型可调整知识点分类模型中的参数，从而提高该知识点分类模型分类的准确度。

由上述描述可知，本实施例实现按知识点分类，并通过将题目中的符号通过预设的转义字符进行归一化处理，通过对题目中的中文字符进行切词处理，通过对题目中的非中文字符使用正则表达式匹配，通过删除题目中的停止词，实现提高题目按知识点分类的精确度。进一步地，本实施例结合词频向量和可以度量上下文之间关系的语义向量，有效提高分类的正确率。

综上所述，本发明提供的一种题目分类方法，通过提取第一题目中的符号，并根据所述符号进行分类，实现充分利用题目中的信息，从而提高题目按知识点分类的精确度。进一步地，通过预设的转义字符转换所述公式中的符号，可归一化不同描述方式但代表相同意思的符号，从而提高分类的效率和精确度，且降低题库的冗余度。进一步地，能够在保留题目中信息的同时，对题目进行切词，有利于提取题目中的特征向量。此外，使用栈保存中文字符和非中文字符能够保证字符顺序不变，在切词处理过程中不改变题目的原意。再者，删除题目中的停止词，能够更精确地提取题目的特征向量，忽略无关信息，降低特征向量的冗余度。进一步地，能够针对不同学科设置不同的停止词，从而提高分类方法的灵活性和精确度。进一步地，结合词频向量和语义向量可有效提高分类正确率，保证在获取词汇对整个题库的重要程度的基础上，加入词汇之间的上下文关系，使得后续输入到分类模型中的向量具有更丰富的含义。此外，在训练语义特征抽取模型时可以根据实际情况确定词向量的维度，达到降维的目的。进一步地，定期根据分类结果更新知识点分类模型，能够提高分类模型分类的精确度。进一步地，通过基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合，能够得到题目所包含的知识点，从而添加该题目到所述知识点相应的分类中，实现精确地按知识点分类。进一步地，通过综合分析基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合中各知识点所占的权重值，可获知题目与各知识点的关联程度，从而实现将题目添加到关联度较高的知识点分类中，提高分类的精确度，降低分类的冗余度。此外，本发明还提供的题目分类系统可对题目按知识点分类，并可提高分类的精确度。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种题目分类方法，其特征在于，包括：

提取第一题目中的符号；

根据所述的符号进行分类，得到第一分类；

根据所述第一分类集合相应的第一题目。

2.根据权利要求1所述的题目分类方法，其特征在于，根据所述的符号进行分类，得到第一分类，具体为：

根据预设的转义字符转换所述符号，得到第二题目；

提取所述第二题目的特征，得到第一向量；

3.根据权利要求2所述的题目分类方法，其特征在于，提取所述第二题目的特征，得到第一向量，具体为：

解析所述第二题目，得到中文字符栈和非中文字符栈；

从所述第三题目中删除停止词，得到第四题目；

提取所述第四题目的特征，得到第一向量。

4.根据权利要求3所述的题目分类方法，其特征在于，从所述第三题目中删除停止词，得到第四题目，具体为：

计算所述第三题目中各个词的权重；

根据所述权重将所述第三题目中的词排序，形成第一队列；

5.根据权利要求1所述的题目分类方法，其特征在于，根据所述的符号进行分类，得到第一分类，具体为：

根据预设的转义字符转换所述符号，得到第二题目；

根据预设的维度建立语义特征抽取模型；

6.根据权利要求2或5所述的题目分类方法，其特征在于，还包括：

根据所述第一分类更新所述知识点分类模型。

7.根据权利要求5所述的题目分类方法，其特征在于，根据预设的知识点分类模型，得到与所述词频向量和所述语义向量相应的第一分类，具体为：

根据所述第三知识点集合中的知识点得到第一分类。

8.根据权利要求7所述的题目分类方法，其特征在于，根据所述第一知识点集合和所述第二知识点集合，得到第三知识点集合，具体为：

9.一种题目分类系统，其特征在于，包括：

提取模块，用于提取第一题目中的符号；

分类模块，用于根据所述的符号进行分类，得到第一分类；

集合模块，用于根据所述第一分类集合相应的第一题目。

10.根据权利要求9所述的题目分类系统，其特征在于，还包括：

更新模块，用于根据所述第一分类更新所述知识点分类模型。