CN106776724A - 一种题目分类方法及系统 - Google Patents

一种题目分类方法及系统 Download PDF

Info

Publication number
CN106776724A
CN106776724A CN201611024333.3A CN201611024333A CN106776724A CN 106776724 A CN106776724 A CN 106776724A CN 201611024333 A CN201611024333 A CN 201611024333A CN 106776724 A CN106776724 A CN 106776724A
Authority
CN
China
Prior art keywords
exercise question
knowledge point
word
classification
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611024333.3A
Other languages
English (en)
Other versions
CN106776724B (zh
Inventor
刘德建
詹博悍
章亮
陈霖
吴拥民
陈宏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Tianquan Educational Technology Ltd
Original Assignee
Fujian Tianquan Educational Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Tianquan Educational Technology Ltd filed Critical Fujian Tianquan Educational Technology Ltd
Priority to CN201611024333.3A priority Critical patent/CN106776724B/zh
Publication of CN106776724A publication Critical patent/CN106776724A/zh
Application granted granted Critical
Publication of CN106776724B publication Critical patent/CN106776724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及分类领域,尤其涉及一种题目分类方法及系统。本发明通过提取第一题目中的符号;根据所述的符号进行分类,得到第一分类;根据所述第一分类集合相应的第一题目。实现充分利用题目中的信息,从而提高题目按知识点分类的精确度。

Description

一种题目分类方法及系统
技术领域
本发明涉及分类领域,尤其涉及一种题目分类方法及系统。
背景技术
大数据时代每天所产生的数据量爆炸式的增长。K12教育作为中国最重要的教育形式之一,每天产生的数据量不可忽视。中国在线教育的规模正以每年30%以上的速度增长,市场估值将超过1600亿元。K12在线教育资源成为了各个企业必争之地,若能对日益增长的题目数据加以分析利用,合理归类到相应知识点中,则能提高应用的用户体验。
在K12的在线教育中,绝大多数教学网站和应用,都需要大量的题库资源作为基础支撑。通常这些题目资源需在教学系统中被归类于其涉及的知识点之下,以便于学生对自身薄弱的知识点选择相应的题目进行练习。目前的题目知识点标注方法仅以人工为主,需要大量的教学相关人员为不同学龄段、不同学科的知识点进行归类。事实上单个学科在单个学龄段的知识点就可能超过千数,这很难保证相关人员在分类归档时不发生知识点遗漏或出错。而各教学网站或应用目前已经归档的题目资源仅是K12教育题中的很小一部分。尚未归类的题目,加上每一年新增的大量新题,都需要大量的教学人员为这些题目资源归类,这更是加大了难度和出错的概率。如何利用已经标以知识点的题目为未知知识点的题目进行分类便成为一种需求。
根据现有题目分类的相关方法,只是将题目分类成不同的学科,例如:A题属于数学,B题属于语文,而无法精确到具体的知识点。
发明内容
本发明所要解决的技术问题是:提供一种题目分类方法及系统,实现提高题目按知识点分类的精确度。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种题目分类方法,包括:
提取第一题目中的符号;
根据所述的符号进行分类,得到第一分类;
根据所述第一分类集合相应的第一题目。
本发明还提供一种题目分类系统,包括:
提取模块,用于提取第一题目中的符号;
分类模块,用于根据所述的符号进行分类,得到第一分类;
集合模块,用于根据所述第一分类集合相应的第一题目。
本发明的有益效果在于:通过提取第一题目中的符号,并根据所述符号进行分类,实现充分利用题目中的信息,从而提高题目按知识点分类的精确度。
附图说明
图1为本发明一种题目分类方法的流程框图;
图2为本发明一种题目分类系统的结构框图;
标号说明:
1、提取模块;2、分类模块;3、集合模块;4、更新模块。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:通过根据题目中的符号进行分类,实现充分利用题目中的信息,从而提高题目按知识点分类的精确度。
如图1所示,本发明提供一种题目分类方法,包括:
提取第一题目中的符号;
根据所述的符号进行分类,得到第一分类;
根据所述第一分类集合相应的第一题目。
进一步地,根据所述的符号进行分类,得到第一分类,具体为:
根据预设的转义字符转换所述符号,得到第二题目;
提取所述第二题目的特征,得到第一向量;
根据预设的知识点分类模型,得到与所述第一向量相应的第一分类。
由上述描述可知,由于不同来源的题目的描述方式可能不同,尤其是不同的公式编辑器对公式中的符号的描述差异较大,因此,通过预设的转义字符转换所述公式中的符号,可归一化不同描述方式但代表相同意思的符号,从而提高分类的效率和精确度,且降低题库的冗余度。
例如:待分类的题目1为“使函数有意义的的正整数取值范围组成的集合的元素有?”。待分类的题目2为“使函数有意义的y=(5-x)1/2的正整数取值范围组成的集合的元素有?”。待分类的题目3为“使函数有意义的的正整数取值范围组成的集合的元素有?”。待分类的题目4为“使函数有意义的y=1/(x-6)的正整数取值范围组成的集合的元素有?”。实际上,题目1和题目2本质上是相同的,但是现有的分类方法无法识别和判断,造成题库数据冗余。在本发明中,可根据预设的转义字符“\sqrt”转换题目1和题目2中的数学公式为y=\sqrt(5-x)。另,区别于现有技术,本发明可提取公式中符号的信息,根据符号进行分类,因此可更精确地将题目1、题目2和题目3分为一类,题目4为另一类,从而充分利用题目中的信息,提高题目按知识点分类的精确度。
此外,使用预设的转义字符转换题目中的符号,有利于提高分类的准确度。例如将上述题目1中的公式转换成y=\sqrt(5-x),这样可以将\sqrt作为分类的信息,从而保留公式信息。根据现有的分类方法,题目1被解析为“使函数有意义的正整数取值范围组成的集合的元素有?”这样无法准确获取题目需要传达的意思,但是如果能够保留公式部分,可以获取更多的题目信息,便于提高题目知识点的分类精确度。
进一步地,提取所述第二题目的特征,得到第一向量,具体为:
解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
从所述第三题目中删除停止词,得到第四题目;
提取所述第四题目的特征,得到第一向量。
由上述描述可知,由于现有的切词算法如jieba等会删除题目中的非中文字符,只对中文字符进行切词处理,因此,本发明先将题目中的中文字符和非中文字符分别放入不同的栈,对中文字符栈进行切词处理,对非中文字符栈使用正则表达式匹配相应的公式,尽量将公式中可识别的部分分开,能够在保留题目中信息的同时,对题目进行切词,有利于提取题目中的特征向量。此外,使用栈保存中文字符和非中文字符能够保证字符顺序不变,在切词处理过程中不改变题目的原意。再者,删除题目中的停止词,即无意义的词,如“的”、“它”、“在”、“为”、“里面”等,能够更精确地提取题目的特征向量,忽略无关信息,降低特征向量的冗余度。
进一步地,从所述第三题目中删除停止词,得到第四题目,具体为:
计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与预设个数元素相应的词,得到第四题目。
由上述描述可知,由于不同学科和不同学龄段的停止词的具体内容不同,现有的停止词获取方法为通过停止词表进行查阅,灵活性和针对性较低,本发明通过停止词计算算法,如TF-IDF算法,计算各个词在题目中的权重,并删除所述第三题目中权重较小的词,能够针对不同学科获得不同的停止词,从而提高获取到的近似题的相关性。
例如,常见词汇“加速度”在物理学科中是经常出现的词汇,而且对题意的理解也是很重要的,然而在生物学中,1000道题目都未必能有这种词汇,因此如果在生物学科中发现有“加速度”,就可以认定为其是停止词,并不能作为生物学科中重要的词看待,可以将其删除。
其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。其计算公式如下:
上述公式中ni,j是该词在文件dj中出现的次数,而分母这是在文件dj中所有字词出现的次数之和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。其公式如下所示:
其中|D|是语料文件的总数,|{j:ti∈dj}|包含词语ti的文件数目,如果该词不在语料库中,就会导致被除数为0,因此一般情况下使用的是1+|{j:ti∈dj}|。最后得到TF-IDF的公式,如下所示:
tf-idfi,j=tfi,j×idfi
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
进一步地,根据所述的符号进行分类,得到第一分类,具体为:
根据预设的转义字符转换所述符号,得到第二题目;
根据所述第二题目构建词频向量;所述词频向量中元素的个数为预设训练数据集中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第二题目中出现的次数;
根据预设的维度建立语义特征抽取模型;
根据所述语义特征抽取模型构建与所述第二题目相应的语义向量;
根据预设的知识点分类模型,得到与所述词频向量和所述语义向量相应的第一分类。
由上述描述可知,由于传统的机器学习模型中只使用了词频向量或者0-1向量来提取题目的特征,而忽略了题目中上下文之间的关系,本发明不仅包含有词频向量而特意引入了可以度量上下文之间关系的语义向量(即word2vec向量或者gloVe向量),将两种向量结合可有效提高分类正确率,保证在获取词汇对整个题库的重要程度的基础上,加入词汇之间的上下文关系,使得后续输入到分类模型中的向量具有更丰富的含义。此外,在训练语义特征抽取模型时可以根据实际情况确定词向量的维度,达到降维的目的,从而降低计算的复杂度,降低分类过程所需的内存空间,降低特征抽取模型的大小,避免占用过多内存。
进一步地,还包括:
根据所述第一分类更新所述知识点分类模型。
由上述描述可知,定期根据分类结果更新知识点分类模型,能够提高分类模型分类的精确度。
进一步地,根据预设的知识点分类模型,得到与所述词频向量和所述语义向量相应的第一分类,具体为:
根据基于词频的知识点分类模型,得到与所述词频向量相应的第一知识点集合;
根据基于语义的知识点分类模型,得到与所述语义向量相应的第二知识点集合;
根据所述第一知识点集合和所述第二知识点集合,得到第三知识点集合;
根据所述第三知识点集合中的知识点分类。
由上述描述可知,通过基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合,能够得到题目所包含的知识点,从而添加该题目到所述知识点相应的分类中,实现精确地按知识点分类。
进一步地,根据所述第一知识点集合和所述第二知识点集合,得到第三知识点集合,具体为:
获取所述第一知识点集合和所述第二知识点集合中相同的知识点;
获取所述相同的知识点根据基于词频的知识点分类模型得到的第一权重值;
获取所述相同的知识点根据基于语义的知识点分类模型得到的第二权重值;
根据所述第一权重值和所述第二权重值,形成与所述相同的知识点集合相应的权重值集合;
根据所述权重值集合将所述相同的知识点按权重值从大到小排序,获取与预设知识点数相应的知识点,形成第三知识点集合。
由上述描述可知,通过综合分析基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合中各知识点所占的权重值,可获知题目与各知识点的关联程度,从而实现将题目添加到关联度较高的知识点分类中,提高分类的精确度,降低分类的冗余度。
如图2所述,本发明提供一种题目分类系统,包括:
提取模块1,用于提取第一题目中的符号;
分类模块2,用于根据所述的符号进行分类,得到第一分类;
集合模块3,用于根据所述第一分类集合相应的第一题目。
进一步地,还包括:
更新模块4,用于根据所述第一分类更新所述知识点分类模型。
由上述描述可知,本发明提供的题目分类系统可对题目按知识点分类,并可提高分类的精确度。
本发明的实施例一为:
提取第一题目中的符号;
根据预设的转义字符转换所述符号,得到第二题目;
解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与预设个数元素相应的词,得到第四题目;
提取所述第四题目的特征,得到第一向量;
根据预设的知识点分类模型,得到与所述第一向量相应的第一分类;
根据所述第一分类集合相应的第一题目;
根据所述第一分类更新所述知识点分类模型。
由上述描述可知,本实施例实现按知识点分类,并通过将题目中的符号通过预设的转义字符进行归一化处理,通过对题目中的中文字符进行切词处理,通过对题目中的非中文字符使用正则表达式匹配,通过删除题目中的停止词,实现提高题目按知识点分类的精确度。
本发明的实施例二为:
提取第一题目中的符号;
根据预设的转义字符转换所述符号,得到第二题目;
解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与预设个数元素相应的词,得到第四题目;
根据所述第四题目构建词频向量;所述词频向量中元素的个数为所述第四题目中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第四题目中出现的次数;
根据预设的维度建立语义特征抽取模型;
根据所述语义特征抽取模型构建与所述第四题目相应的语义向量;
根据基于词频的知识点分类模型,得到与所述词频向量相应的第一知识点集合;
根据基于语义的知识点分类模型,得到与所述语义向量相应的第二知识点集合;
获取所述第一知识点集合和所述第二知识点集合中相同的知识点;
获取所述相同的知识点根据基于词频的知识点分类模型得到的第一权重值;
获取所述相同的知识点根据基于语义的知识点分类模型得到的第二权重值;
根据所述第一权重值和所述第二权重值,形成与所述相同的知识点集合相应的权重值集合;
根据所述权重值集合将所述相同的知识点按权重值从大到小排序,获取与预设知识点数相应的知识点,形成第三知识点集合;
根据所述第三知识点集合中的知识点得到第一分类;
根据所述第一分类集合相应的第一题目;
根据所述第一分类更新所述知识点分类模型。
由上述描述可知,本实施例与本发明的实施例一相比,本实施例进一步结合词频向量和可以度量上下文之间关系的语义向量,有效提高分类的准确率。
本发明的实施例一提供的方案随着题目字数的增加,分类的准确率降低。本发明的实施例二进一步结合词频向量和可以度量上下文之间关系的语义向量,使得分类的准确率不受题目字数的影响。但是,对于字数较短的题目,本发明的实施例一可以在保证高分类准确率的同时,比本发明的实施例二具有更高的效率。
本发明的实施例三为:
S1、提取第一题目中的符号;
其中,第一题目为“使函数有意义的的正整数取值范围组成的集合的元素有?”提取第一题目中的符号“√”、“=”和“-”。
S2、根据预设的转义字符转换所述符号,得到第二题目;
其中,符号“√”的转义字符为“\sqrt”,符号“=”的转义字符为英文状态下输入的等于号,符号“-”的转义字符为英文状态下输入的减号。经转义字符转换后得到的第二题目为“使函数有意义的y=\sqrt(5-x)正整数取值范围组成的集合的元素有?”
S3、解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
其中,使用jieba切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式得到的第三题目为:“使@函数@有意义@的@y@=@\sqrt@(@5@-@x@)@正整数@取值范围@组成@的@集合@的@元素@有@?”其中,符号@表示分隔符。
S4、计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与预设个数元素相应的词,得到第四题目;
其中,使用TF-IDF算法根据训练数据集计算得到所述第三题目中各个词的权重依次为:
使(0.05)@函数(0.51)@有意义(0.22)@的(0.02)@y(0.09)@=(0.07)@\sqrt(0.22)@((0.01)@5(0.01)@-(0.07)@x(0.07)@)(0.01)@正整数(0.49)@取值范围(0.44)@组成(0.15)@的(0.02)@集合(0.38)@的(0.02)@元素(0.35)@有(0.05)@?(0.01)。
从第三题目中删除词的权重较小的词,如将第三题目中各个词按其权重从大到小排序,得到第一队列:“函数@正整数@取值范围@集合@元素@有意义@\sqrt@组成@y@=@使@x@-@有@的@的@的@(@)@?@5”,从第三题目中删除与第一队列中后13个元素对应的词,得到第四题目,所述第四题目为:“函数@有意义@\sqrt@正整数@取值范围@组成@集合@元素”。
S5、根据所述第四题目构建词频向量;所述词频向量中元素的个数为预设训练数据集中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第四题目中出现的次数;
其中,先统计第四题目中每个词出现的次数,再根据所有非停止词所构建的非停止词向量,构建第四题目的词频向量。
例如,非停止词向量长度为1000维,从第四题目中可知每个词都只出现了一次,那么所构建的词频向量长度等于非停止词向量长度1000维,每维元素为该维所代表的词在第四题目中出现的次数。因此除了第四题目中的词汇所代表的维度为1之外,其他维度的值都将为0。
S6、根据预设的维度建立语义特征抽取模型;
根据所述语义特征抽取模型构建与所述第四题目相应的语义向量;
其中,将第四题目中出现的每个词输入到已经训练好的语义模型中(例如word2vec或者GloVe模型)获得每个词的向量,由于得到的每个词的向量是等长的,因此可以将每个词的向量进行叠加,即相同维度值相加,得到一个包含整个题目的向量,语义模型是一种可以保存语义上下文关系的表示方法。
S7、根据基于词频的知识点分类模型,得到与所述词频向量相应的第一知识点集合;
根据基于语义的知识点分类模型,得到与所述语义向量相应的第二知识点集合;
获取所述第一知识点集合和所述第二知识点集合中相同的知识点;
获取所述相同的知识点根据基于词频的知识点分类模型得到的第一权重值;
获取所述相同的知识点根据基于语义的知识点分类模型得到的第二权重值;
根据所述第一权重值和所述第二权重值,形成与所述相同的知识点集合相应的权重值集合;
根据所述权重值集合将所述相同的知识点按权重值从大到小排序,获取与预设知识点数相应的知识点,形成第三知识点集合;
根据所述第三知识点集合中的知识点得到第一分类;
其中,第一知识点集合为:{集合元素的取值范围,函数的表示方法,集合的表示法,集合中元素的最值根的存在性,集合中元素的最值根的个数判定,函数的值,根式运算},表示第四题目经过基于词频的知识点分类模型的处理得知第四题目所包含的知识点,且第四题目与各个知识点的关联度分别为:{0.85,0.04,0.03,0.02,0.03,0.02,0.01}。第二知识点集合为:{集合元素的取值范围,根式运算,集合的表示法,集合中元素的最值,集合的相等,函数的定义域及其求法,函数的值},表示第四题目经过基于语义的知识点分类模型的处理得知第四题目所包含的知识点,且第四题目与各个知识点的关联度分别为:{0.73,0.08,0.08,0.04,0.04,0.02,0.01}。获取第一知识点集合和第二知识点集合中相同的知识点,形成第三知识点集合。
形成第三知识点集合有以下两种方式:
方式一,获取第一知识点集合和第二知识点集合中相同的,且关联度较大的知识点。所述第三知识点集合的知识点同时满足第四题目的词频向量和语义向量的特征,与第四题目的关联度较大,可获取相关度高的知识点分类。
方式二,获取第一知识点集合和第二知识点集合的并集为第三知识点集合。该方式使得获得的知识点分类更加全面。
S8、根据所述第一分类集合相应的第一题目;
其中,将第一题目添加至第三知识点集合中各知识点对应的分类中。
S9、根据所述第一分类更新所述知识点分类模型。
其中,根据最新的分类结果更新知识点分类模型可调整知识点分类模型中的参数,从而提高该知识点分类模型分类的准确度。
由上述描述可知,本实施例实现按知识点分类,并通过将题目中的符号通过预设的转义字符进行归一化处理,通过对题目中的中文字符进行切词处理,通过对题目中的非中文字符使用正则表达式匹配,通过删除题目中的停止词,实现提高题目按知识点分类的精确度。进一步地,本实施例结合词频向量和可以度量上下文之间关系的语义向量,有效提高分类的正确率。
综上所述,本发明提供的一种题目分类方法,通过提取第一题目中的符号,并根据所述符号进行分类,实现充分利用题目中的信息,从而提高题目按知识点分类的精确度。进一步地,通过预设的转义字符转换所述公式中的符号,可归一化不同描述方式但代表相同意思的符号,从而提高分类的效率和精确度,且降低题库的冗余度。进一步地,能够在保留题目中信息的同时,对题目进行切词,有利于提取题目中的特征向量。此外,使用栈保存中文字符和非中文字符能够保证字符顺序不变,在切词处理过程中不改变题目的原意。再者,删除题目中的停止词,能够更精确地提取题目的特征向量,忽略无关信息,降低特征向量的冗余度。进一步地,能够针对不同学科设置不同的停止词,从而提高分类方法的灵活性和精确度。进一步地,结合词频向量和语义向量可有效提高分类正确率,保证在获取词汇对整个题库的重要程度的基础上,加入词汇之间的上下文关系,使得后续输入到分类模型中的向量具有更丰富的含义。此外,在训练语义特征抽取模型时可以根据实际情况确定词向量的维度,达到降维的目的。进一步地,定期根据分类结果更新知识点分类模型,能够提高分类模型分类的精确度。进一步地,通过基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合,能够得到题目所包含的知识点,从而添加该题目到所述知识点相应的分类中,实现精确地按知识点分类。进一步地,通过综合分析基于词频的知识点分类模型得到的第一知识点集合和基于语义的知识点分类模型得到的第二知识点集合中各知识点所占的权重值,可获知题目与各知识点的关联程度,从而实现将题目添加到关联度较高的知识点分类中,提高分类的精确度,降低分类的冗余度。此外,本发明还提供的题目分类系统可对题目按知识点分类,并可提高分类的精确度。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种题目分类方法,其特征在于,包括:
提取第一题目中的符号;
根据所述的符号进行分类,得到第一分类;
根据所述第一分类集合相应的第一题目。
2.根据权利要求1所述的题目分类方法,其特征在于,根据所述的符号进行分类,得到第一分类,具体为:
根据预设的转义字符转换所述符号,得到第二题目;
提取所述第二题目的特征,得到第一向量;
根据预设的知识点分类模型,得到与所述第一向量相应的第一分类。
3.根据权利要求2所述的题目分类方法,其特征在于,提取所述第二题目的特征,得到第一向量,具体为:
解析所述第二题目,得到中文字符栈和非中文字符栈;
使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;
从所述第三题目中删除停止词,得到第四题目;
提取所述第四题目的特征,得到第一向量。
4.根据权利要求3所述的题目分类方法,其特征在于,从所述第三题目中删除停止词,得到第四题目,具体为:
计算所述第三题目中各个词的权重;
根据所述权重将所述第三题目中的词排序,形成第一队列;
从所述第三题目中删除与预设个数元素相应的词,得到第四题目。
5.根据权利要求1所述的题目分类方法,其特征在于,根据所述的符号进行分类,得到第一分类,具体为:
根据预设的转义字符转换所述符号,得到第二题目;
根据所述第二题目构建词频向量;所述词频向量中元素的个数为预设训练数据集中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第二题目中出现的次数;
根据预设的维度建立语义特征抽取模型;
根据所述语义特征抽取模型构建与所述第二题目相应的语义向量;
根据预设的知识点分类模型,得到与所述词频向量和所述语义向量相应的第一分类。
6.根据权利要求2或5所述的题目分类方法,其特征在于,还包括:
根据所述第一分类更新所述知识点分类模型。
7.根据权利要求5所述的题目分类方法,其特征在于,根据预设的知识点分类模型,得到与所述词频向量和所述语义向量相应的第一分类,具体为:
根据基于词频的知识点分类模型,得到与所述词频向量相应的第一知识点集合;
根据基于语义的知识点分类模型,得到与所述语义向量相应的第二知识点集合;
根据所述第一知识点集合和所述第二知识点集合,得到第三知识点集合;
根据所述第三知识点集合中的知识点得到第一分类。
8.根据权利要求7所述的题目分类方法,其特征在于,根据所述第一知识点集合和所述第二知识点集合,得到第三知识点集合,具体为:
获取所述第一知识点集合和所述第二知识点集合中相同的知识点;
获取所述相同的知识点根据基于词频的知识点分类模型得到的第一权重值;
获取所述相同的知识点根据基于语义的知识点分类模型得到的第二权重值;
根据所述第一权重值和所述第二权重值,形成与所述相同的知识点集合相应的权重值集合;
根据所述权重值集合将所述相同的知识点按权重值从大到小排序,获取与预设知识点数相应的知识点,形成第三知识点集合。
9.一种题目分类系统,其特征在于,包括:
提取模块,用于提取第一题目中的符号;
分类模块,用于根据所述的符号进行分类,得到第一分类;
集合模块,用于根据所述第一分类集合相应的第一题目。
10.根据权利要求9所述的题目分类系统,其特征在于,还包括:
更新模块,用于根据所述第一分类更新所述知识点分类模型。
CN201611024333.3A 2016-11-16 2016-11-16 一种题目分类方法及系统 Active CN106776724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611024333.3A CN106776724B (zh) 2016-11-16 2016-11-16 一种题目分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611024333.3A CN106776724B (zh) 2016-11-16 2016-11-16 一种题目分类方法及系统

Publications (2)

Publication Number Publication Date
CN106776724A true CN106776724A (zh) 2017-05-31
CN106776724B CN106776724B (zh) 2020-09-08

Family

ID=58969810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611024333.3A Active CN106776724B (zh) 2016-11-16 2016-11-16 一种题目分类方法及系统

Country Status (1)

Country Link
CN (1) CN106776724B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108389147A (zh) * 2018-02-26 2018-08-10 浙江创课教育科技有限公司 试题难度分级处理方法及系统
CN110472044A (zh) * 2019-07-11 2019-11-19 平安国际智慧城市科技股份有限公司 数学题的知识点分类方法、装置、可读存储介质及服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104573099A (zh) * 2015-01-29 2015-04-29 百度在线网络技术(北京)有限公司 题目的搜索方法及装置
CN104834729A (zh) * 2015-05-14 2015-08-12 百度在线网络技术(北京)有限公司 题目推荐方法和题目推荐装置
US20150269862A1 (en) * 2014-03-21 2015-09-24 Xerox Corporation Methods and systems for providing penmanship feedback
CN105893362A (zh) * 2014-09-26 2016-08-24 北大方正集团有限公司 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN105955962A (zh) * 2016-05-10 2016-09-21 北京新唐思创教育科技有限公司 题目相似度的计算方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US20150269862A1 (en) * 2014-03-21 2015-09-24 Xerox Corporation Methods and systems for providing penmanship feedback
CN105893362A (zh) * 2014-09-26 2016-08-24 北大方正集团有限公司 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN104573099A (zh) * 2015-01-29 2015-04-29 百度在线网络技术(北京)有限公司 题目的搜索方法及装置
CN104834729A (zh) * 2015-05-14 2015-08-12 百度在线网络技术(北京)有限公司 题目推荐方法和题目推荐装置
CN105955962A (zh) * 2016-05-10 2016-09-21 北京新唐思创教育科技有限公司 题目相似度的计算方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FEIYUE YE ET AL: "Finding the Semantic Relation between Web Pages through Topic Knowledge Repository", 《2009 NINTH IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION TECHNOLOGY》 *
MIN-YUH DAY ET AL: "An integrated knowledge-based and machine learning approach for Chinese question classification", 《2005 INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND KNOWLEDGE ENGINEERING》 *
吴旭 等: "面向机构知识库结构化数据的文本相似度评价算法", 《信息网络安全》 *
董奥根 等: "基于向量空间模型的知识点与试题自动关联方法", 《计算机与现代化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108389147A (zh) * 2018-02-26 2018-08-10 浙江创课教育科技有限公司 试题难度分级处理方法及系统
CN108389147B (zh) * 2018-02-26 2020-11-03 浙江创课教育科技有限公司 试题难度分级处理方法及系统
CN110472044A (zh) * 2019-07-11 2019-11-19 平安国际智慧城市科技股份有限公司 数学题的知识点分类方法、装置、可读存储介质及服务器

Also Published As

Publication number Publication date
CN106776724B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN106599054A (zh) 一种题目分类及推送的方法及系统
US9779085B2 (en) Multilingual embeddings for natural language processing
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN106651696A (zh) 一种近似题推送方法及系统
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN104391835A (zh) 文本中特征词选择方法及装置
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
Fitriana et al. Sentiment analysis on kai twitter post using multiclass support vector machine (svm)
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN106708940A (zh) 用于处理图片的方法和装置
CN103020167B (zh) 一种计算机中文文本分类方法
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN107169086A (zh) 一种文本分类方法
CN112686025B (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN103092966A (zh) 一种挖掘词汇的方法及装置
CN107463715A (zh) 基于信息增益的英文社交媒体账号分类方法
CN106776724A (zh) 一种题目分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant