CN109214445A

CN109214445A - 一种基于人工智能的多标签分类方法

Info

Publication number: CN109214445A
Application number: CN201810978962.2A
Authority: CN
Inventors: 陈超; 朱润凯; 时维维; 王扬
Original assignee: Lu Yiqi (beijing) Technology Co Ltd
Current assignee: Lu Yiqi (beijing) Technology Co Ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-01-15

Abstract

一种基于人工智能的多标签分类方法，涉及互联网教育领域。本发明的方法步骤为：1）训练数据集：获取题目集；合并为字符串S；对字符串S进行预处理；统计该知识点下出现该关键词的概率；统计该知识点在数据集中出现的概率；2）对任意目标新题提取多知识点：将目标新题的内容合并为一个字符串Sn；对字符串Sn进行预处理；统计该知识点下出现该题Q的概率；目标新题包含该知识点的概率；进行归一化；对目标题目包含某知识点的概率进行排序；将上一步获得的知识点作为目标题目涉及的知识点。同现有技术相比，本发明采用短文本多标签的分类方式，具有良好的可扩展性，适合互联网教育领域。

Description

一种基于人工智能的多标签分类方法

技术领域

本发明涉及互联网教育领域，特别是题目多知识点的提取方法。

背景技术

随着移动互联网时代的到来，人们每时每刻都在产生海量的数据。在教育领域，每年诞生了大量的新题，如何快速精准的确定每道题目涉及的所有知识点对广大教育工作者具有重要意义。我们考虑使用文本分类的方式，来解决这个问题。

现有技术中，机器学习针对文本分类的算法层出不穷，如朴素贝叶斯算法，K-近邻算法，神经网络算法和支持向量机等等。例如，中国专利公开号是‘CN108073677 A'的“一种基于人工智能的多级文本多标签分类方法及系统”，其主要思想就是利用神经网络构建多级文本多标签分类模型。不过该方法主要针对细粒度文本（子句）的分类问题，更适用于电商网站的用户评论分析，这样的文本有明显的正面情感和负面情感。而教育领域的题目涉及不同的知识点，知识点高达数千个，无法单纯的以两方面划分，因此在教育领域很难应用。

再例如，中国专利公开号为‘CN 104866573 A’的“一种文本分类方法”，主要使用TFIDF对文本进行分类。这种方法认为在文本分类过程中，关键词的权重起决定性的作用。然而 TFIDF初衷是抑制某一文档内无意义高频词的负面影响，低频词将因此而被凸现出来。但是在教育领域，某一类题目中出现常见词并不等于无意义词，更可能是该分类的关键词，因此无法在教育领域得到应用。

发明内容

针对上述现有技术中存在的局限性和不足，本发明的目的是提供一种基于人工智能的多标签分类方法。它采用短文本多标签的分类方式，具有良好的可扩展性，适合互联网教育领域。

为了达到上述发明目的，本发明的技术方案以如下方式实现：

一种基于人工智能的多标签分类方法，其方法步骤为：

1）训练数据集：

获取某一具体科目的题目集。

将每道题的题目、选项、答案、解析内容合并为一个字符串S。

对字符串S进行预处理，获得关键词组。

统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K，以W/K作为该知识点下出现该关键词的概率P(W/K)；同时，统计总的数据集的次数A，以K/A作为该知识点在数据集中出现的概率P(K)。

2）对任意目标新题提取多知识点：

将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn。

对字符串Sn进行预处理，获得题目的一组关键词。

对每一个知识点，将所有关键词在该知识点中出现的概率P(W/K)相乘，作为在该知识点下出现该题Q的概率P(Q/K)。

对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q)。

对所有的P(K/Q)进行概率归一化。

对目标题目包含某知识点的概率进行排序，将返回概率超过阈值Y的几个知识点从小到大排列；其中,阈值Y通过测试集获得：

步骤1：从题库中获取一组题目作为测试集；

步骤2：对测试集的预处理同训练数据集相同；

步骤3：将阈值初始值设置为w0。

步骤4：对测试集提取多个知识点，若测试集中题目原本的知识点出现在提取所得的知识点集中，视作提取结果正确，否则结果错误，统计正确率；

步骤5：调整阈值，使得正确率达到目标正确率，即为目标阈值w；如果正确率不达标，将阈值调整为之前的一半，返回步骤4，继续算法。

将上一步获得的知识点作为目标题目涉及的知识点。

在上述多标签分类方法中，所述对字符串S进行预处理包括：去除图片，加载学科词汇，英文短语以及特殊符号，对文本进行分词，然后去除停用词。

在上述多标签分类方法中，所述对字符串Sn进行预处理包括：去除图片，加载学科词汇，英文短语以及特殊符号，对文本进行分词，然后去除停用词。

在上述多标签分类方法中，所述返回概率超过阈值w的几个知识点，最多五个。

同现有技术相比，本发明中使用的多知识点提取方法，是基于理论实践都很成熟的朴素贝叶斯算法，并特别针对于教育领域做出了改进，在短文本分类上表现良好。且本发明方法具有良好的可扩展性，每个知识点和关键词都有独立的概率，适合持续学习，对于新收集的训练集，如果出现新的类别或关键词，可以很容易更新已有模型。

下面结合附图和具体实施方式对本发明做进一步说明。

附图说明

图1为本发明中练数据集的方法流程图

图2为本发明中对任意新题提取多知识点的方法流程图。

具体实施方式

参看图1和图2，本发明的方法步骤为：

1）训练数据集：

获取某一具体科目的题目集，例如获取20000道生物题。

选取一系列学科专业词汇及英文专业短语，在分词过程中不可分。将每道题的题目、选项、答案、解析等文字内容合并为一个字符串S。

对字符串S进行预处理，去除图片，加载学科词汇，英文短语以及特殊符号，对文本进行分词，然后去除停用词，获得关键词组。

统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K，以W/K作为该知识点下出现该关键词的概率P(W/K)。同时，统计各个知识点在数据集中出现的次数和总的数据集的次数A，以K/A作为该知识点在数据集中出现的概率P(K)；

2）对任意目标新题提取多知识点：

对字符串Sn进行预处理，去除图片，加载学科词汇，英文短语以及特殊符号，对文本进行分词，然后去除停用词，获得题目的一组关键词。

对每一个知识点，将所有关键词在该知识点中出现的概率P(W/K)相乘，作为在该知识点下出现该题Q的概率P(Q/K)；

对新题包含的各个知识点概率P(K/Q)进行概率归一化。

对目标题目包含某知识点的概率进行排序，将返回概率超过阈值Y的几个知识点，最多五个从小到大排列。其中,阈值Y通过测试集获得：

步骤1：从题库中获取5000道生物题作为测试集。

步骤2：对测试集的预处理同训练数据集相同。

步骤3：将阈值初始值设置为0.01。

步骤4：对测试集提取多个知识点，若测试集中题目原本的知识点出现在提取所得的知识点集中，视作提取结果正确，否则结果错误，统计正确率。

步骤5：如果正确率达标，则该阈值即为目标阈值。如果正确率不达标，将阈值调整为之前的一半，返回步骤4，继续算法。

将上一步获得的知识点作为目标题目涉及的知识点。

上述具体实施方式仅是本发明算法的具体个案，专利保护范围包括但不限于上述具体实施方式。任何符合本申请技术方案的方法或者所属领域的普通技术人员对其做出的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种基于人工智能的多标签分类方法，其方法步骤为：

1）训练数据集：

获取某一具体科目的题目集；

将每道题的题目、选项、答案、解析内容合并为一个字符串S；

对字符串S进行预处理，获得关键词组；

统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K，以W/K作为该知识点下出现该关键词的概率P(W/K)；同时，统计总的数据集的次数A，以K/A作为该知识点在数据集中出现的概率P(K)；

2）对任意目标新题提取多知识点：

将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn；

对字符串Sn进行预处理，获得题目的一组关键词；

对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q)；

对所有的P(K/Q)进行概率归一化；

步骤1：从题库中获取一组题目作为测试集；

步骤2：对测试集的预处理同训练数据集相同；

步骤3：将阈值初始值设置为w0；

步骤5：调整阈值，使得正确率达到目标正确率，即为目标阈值w；如果正确率不达标，将阈值调整为之前的一半，返回步骤4，继续算法；

将上一步获得的知识点作为目标题目涉及的知识点。

2.根据权利要求1所述基于人工智能的多标签分类方法，其特征在于，所述对字符串S进行预处理包括：去除图片，加载学科词汇，英文短语以及特殊符号，对文本进行分词，然后去除停用词。

3.根据权利要求1或2所述基于人工智能的多标签分类方法，其特征在于，所述对字符串Sn进行预处理包括：去除图片，加载学科词汇，英文短语以及特殊符号，对文本进行分词，然后去除停用词。

4.根据权利要求3所述基于人工智能的多标签分类方法，其特征在于，所述返回概率超过阈值w的几个知识点，最多五个。