CN109214445A - 一种基于人工智能的多标签分类方法 - Google Patents

一种基于人工智能的多标签分类方法 Download PDF

Info

Publication number
CN109214445A
CN109214445A CN201810978962.2A CN201810978962A CN109214445A CN 109214445 A CN109214445 A CN 109214445A CN 201810978962 A CN201810978962 A CN 201810978962A CN 109214445 A CN109214445 A CN 109214445A
Authority
CN
China
Prior art keywords
knowledge point
probability
topic
knowledge
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810978962.2A
Other languages
English (en)
Inventor
陈超
朱润凯
时维维
王扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lu Yiqi (beijing) Technology Co Ltd
Original Assignee
Lu Yiqi (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lu Yiqi (beijing) Technology Co Ltd filed Critical Lu Yiqi (beijing) Technology Co Ltd
Priority to CN201810978962.2A priority Critical patent/CN109214445A/zh
Publication of CN109214445A publication Critical patent/CN109214445A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于人工智能的多标签分类方法,涉及互联网教育领域。本发明的方法步骤为:1)训练数据集:获取题目集;合并为字符串S;对字符串S进行预处理;统计该知识点下出现该关键词的概率;统计该知识点在数据集中出现的概率;2)对任意目标新题提取多知识点:将目标新题的内容合并为一个字符串Sn;对字符串Sn进行预处理;统计该知识点下出现该题Q的概率;目标新题包含该知识点的概率;进行归一化;对目标题目包含某知识点的概率进行排序;将上一步获得的知识点作为目标题目涉及的知识点。同现有技术相比,本发明采用短文本多标签的分类方式,具有良好的可扩展性,适合互联网教育领域。

Description

一种基于人工智能的多标签分类方法
技术领域
本发明涉及互联网教育领域,特别是题目多知识点的提取方法。
背景技术
随着移动互联网时代的到来,人们每时每刻都在产生海量的数据。在教育领域,每年诞生了大量的新题,如何快速精准的确定每道题目涉及的所有知识点对广大教育工作者具有重要意义。我们考虑使用文本分类的方式,来解决这个问题。
现有技术中,机器学习针对文本分类的算法层出不穷,如朴素贝叶斯算法,K-近邻算法,神经网络算法和支持向量机等等。例如,中国专利公开号是‘CN108073677 A'的“一种基于人工智能的多级文本多标签分类方法及系统”,其主要思想就是利用神经网络构建多级文本多标签分类模型。不过该方法主要针对细粒度文本(子句)的分类问题,更适用于电商网站的用户评论分析,这样的文本有明显的正面情感和负面情感。而教育领域的题目涉及不同的知识点,知识点高达数千个,无法单纯的以两方面划分,因此在教育领域很难应用。
再例如,中国专利公开号为‘CN 104866573 A’的“一种文本分类方法”,主要使用TFIDF对文本进行分类。这种方法认为在文本分类过程中,关键词的权重起决定性的作用。然而 TFIDF初衷是抑制某一文档内无意义高频词的负面影响,低频词将因此而被凸现出来。但是在教育领域,某一类题目中出现常见词并不等于无意义词,更可能是该分类的关键词,因此无法在教育领域得到应用。
发明内容
针对上述现有技术中存在的局限性和不足,本发明的目的是提供一种基于人工智能的多标签分类方法。它采用短文本多标签的分类方式,具有良好的可扩展性,适合互联网教育领域。
为了达到上述发明目的,本发明的技术方案以如下方式实现:
一种基于人工智能的多标签分类方法,其方法步骤为:
1)训练数据集:
获取某一具体科目的题目集。
将每道题的题目、选项、答案、解析内容合并为一个字符串S。
对字符串S进行预处理,获得关键词组。
统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K,以W/K作为该知识点下出现该关键词的概率P(W/K);同时,统计总的数据集的次数A,以K/A作为该知识点在数据集中出现的概率P(K)。
2)对任意目标新题提取多知识点:
将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn。
对字符串Sn进行预处理,获得题目的一组关键词。
对每一个知识点,将所有关键词在该知识点中出现的概率P(W/K)相乘,作为在该知识点下出现该题Q的概率P(Q/K)。
对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q)。
对所有的P(K/Q)进行概率归一化。
对目标题目包含某知识点的概率进行排序,将返回概率超过阈值Y的几个知识点从小到大排列;其中,阈值Y通过测试集获得:
步骤1:从题库中获取一组题目作为测试集;
步骤2:对测试集的预处理同训练数据集相同;
步骤3:将阈值初始值设置为w0。
步骤4:对测试集提取多个知识点,若测试集中题目原本的知识点出现在提取所得的知识点集中,视作提取结果正确,否则结果错误,统计正确率;
步骤5:调整阈值,使得正确率达到目标正确率,即为目标阈值w;如果正确率不达标,将阈值调整为之前的一半,返回步骤4,继续算法。
将上一步获得的知识点作为目标题目涉及的知识点。
在上述多标签分类方法中,所述对字符串S进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
在上述多标签分类方法中,所述对字符串Sn进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
在上述多标签分类方法中,所述返回概率超过阈值w的几个知识点,最多五个。
同现有技术相比,本发明中使用的多知识点提取方法,是基于理论实践都很成熟的朴素贝叶斯算法,并特别针对于教育领域做出了改进,在短文本分类上表现良好。且本发明方法具有良好的可扩展性,每个知识点和关键词都有独立的概率,适合持续学习,对于新收集的训练集,如果出现新的类别或关键词,可以很容易更新已有模型。
下面结合附图和具体实施方式对本发明做进一步说明。
附图说明
图1为本发明中练数据集的方法流程图
图2为本发明中对任意新题提取多知识点的方法流程图。
具体实施方式
参看图1和图2,本发明的方法步骤为:
1)训练数据集:
获取某一具体科目的题目集,例如获取20000道生物题。
选取一系列学科专业词汇及英文专业短语,在分词过程中不可分。将每道题的题目、选项、答案、解析等文字内容合并为一个字符串S。
对字符串S进行预处理,去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词,获得关键词组。
统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K,以W/K作为该知识点下出现该关键词的概率P(W/K)。同时,统计各个知识点在数据集中出现的次数和总的数据集的次数A,以K/A作为该知识点在数据集中出现的概率P(K);
2)对任意目标新题提取多知识点:
将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn。
对字符串Sn进行预处理,去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词,获得题目的一组关键词。
对每一个知识点,将所有关键词在该知识点中出现的概率P(W/K)相乘,作为在该知识点下出现该题Q的概率P(Q/K);
对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q)。
对新题包含的各个知识点概率P(K/Q)进行概率归一化。
对目标题目包含某知识点的概率进行排序,将返回概率超过阈值Y的几个知识点,最多五个从小到大排列。其中,阈值Y通过测试集获得:
步骤1:从题库中获取5000道生物题作为测试集。
步骤2:对测试集的预处理同训练数据集相同。
步骤3:将阈值初始值设置为0.01。
步骤4: 对测试集提取多个知识点,若测试集中题目原本的知识点出现在提取所得的知识点集中,视作提取结果正确,否则结果错误,统计正确率。
步骤5: 如果正确率达标,则该阈值即为目标阈值。如果正确率不达标,将阈值调整为之前的一半,返回步骤4,继续算法。
将上一步获得的知识点作为目标题目涉及的知识点。
上述具体实施方式仅是本发明算法的具体个案,专利保护范围包括但不限于上述具体实施方式。任何符合本申请技术方案的方法或者所属领域的普通技术人员对其做出的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (4)

1.一种基于人工智能的多标签分类方法,其方法步骤为:
1)训练数据集:
获取某一具体科目的题目集;
将每道题的题目、选项、答案、解析内容合并为一个字符串S;
对字符串S进行预处理,获得关键词组;
统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K,以W/K作为该知识点下出现该关键词的概率P(W/K);同时,统计总的数据集的次数A,以K/A作为该知识点在数据集中出现的概率P(K);
2)对任意目标新题提取多知识点:
将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn;
对字符串Sn进行预处理,获得题目的一组关键词;
对每一个知识点,将所有关键词在该知识点中出现的概率P(W/K)相乘,作为在该知识点下出现该题Q的概率P(Q/K);
对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q);
对所有的P(K/Q)进行概率归一化;
对目标题目包含某知识点的概率进行排序,将返回概率超过阈值Y的几个知识点从小到大排列;其中,阈值Y通过测试集获得:
步骤1:从题库中获取一组题目作为测试集;
步骤2:对测试集的预处理同训练数据集相同;
步骤3:将阈值初始值设置为w0;
步骤4:对测试集提取多个知识点,若测试集中题目原本的知识点出现在提取所得的知识点集中,视作提取结果正确,否则结果错误,统计正确率;
步骤5:调整阈值,使得正确率达到目标正确率,即为目标阈值w;如果正确率不达标,将阈值调整为之前的一半,返回步骤4,继续算法;
将上一步获得的知识点作为目标题目涉及的知识点。
2.根据权利要求1所述基于人工智能的多标签分类方法,其特征在于,所述对字符串S进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
3.根据权利要求1或2所述基于人工智能的多标签分类方法,其特征在于,所述对字符串Sn进行预处理包括:去除图片,加载学科词汇,英文短语以及特殊符号,对文本进行分词,然后去除停用词。
4.根据权利要求3所述基于人工智能的多标签分类方法,其特征在于,所述返回概率超过阈值w的几个知识点,最多五个。
CN201810978962.2A 2018-08-27 2018-08-27 一种基于人工智能的多标签分类方法 Pending CN109214445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810978962.2A CN109214445A (zh) 2018-08-27 2018-08-27 一种基于人工智能的多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810978962.2A CN109214445A (zh) 2018-08-27 2018-08-27 一种基于人工智能的多标签分类方法

Publications (1)

Publication Number Publication Date
CN109214445A true CN109214445A (zh) 2019-01-15

Family

ID=64989699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810978962.2A Pending CN109214445A (zh) 2018-08-27 2018-08-27 一种基于人工智能的多标签分类方法

Country Status (1)

Country Link
CN (1) CN109214445A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852071A (zh) * 2019-11-08 2020-02-28 科大讯飞股份有限公司 知识点检测方法、装置、设备及可读存储介质
CN111767307A (zh) * 2020-07-06 2020-10-13 北京猿力未来科技有限公司 对象处理方法及系统、数学题目批改方法及系统
CN111881285A (zh) * 2020-07-28 2020-11-03 扬州大学 一种错题收集及重难点知识提取方法
CN112163421A (zh) * 2020-10-09 2021-01-01 厦门大学 一种基于N-Gram的新型关键词提取方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402566A (zh) * 2011-08-09 2012-04-04 江苏欣网视讯科技有限公司 基于中文网页自动分类技术的Web用户行为分析方法
KR101232641B1 (ko) * 2012-07-25 2013-02-15 공주대학교 산학협력단 컨텍스트 모델링 기반 자동 블로깅 시스템
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法
CN107168951A (zh) * 2017-05-10 2017-09-15 山东大学 一种基于规则与词典的监狱犯人短信自动审核方法
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107562918A (zh) * 2017-09-12 2018-01-09 北京点易通科技有限公司 一种数学题知识点发现与批量标签获取方法
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法
WO2018107953A1 (zh) * 2016-12-12 2018-06-21 惠州Tcl移动通信有限公司 智能终端及其应用程序的自动分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402566A (zh) * 2011-08-09 2012-04-04 江苏欣网视讯科技有限公司 基于中文网页自动分类技术的Web用户行为分析方法
KR101232641B1 (ko) * 2012-07-25 2013-02-15 공주대학교 산학협력단 컨텍스트 모델링 기반 자동 블로깅 시스템
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法
WO2018107953A1 (zh) * 2016-12-12 2018-06-21 惠州Tcl移动通信有限公司 智能终端及其应用程序的自动分类方法
CN107168951A (zh) * 2017-05-10 2017-09-15 山东大学 一种基于规则与词典的监狱犯人短信自动审核方法
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107562918A (zh) * 2017-09-12 2018-01-09 北京点易通科技有限公司 一种数学题知识点发现与批量标签获取方法
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫琰: ""基于深度学习的文本表示与分类方法研究"", 《中国博士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852071A (zh) * 2019-11-08 2020-02-28 科大讯飞股份有限公司 知识点检测方法、装置、设备及可读存储介质
CN110852071B (zh) * 2019-11-08 2023-10-24 科大讯飞股份有限公司 知识点检测方法、装置、设备及可读存储介质
CN111767307A (zh) * 2020-07-06 2020-10-13 北京猿力未来科技有限公司 对象处理方法及系统、数学题目批改方法及系统
CN111881285A (zh) * 2020-07-28 2020-11-03 扬州大学 一种错题收集及重难点知识提取方法
CN112163421A (zh) * 2020-10-09 2021-01-01 厦门大学 一种基于N-Gram的新型关键词提取方法

Similar Documents

Publication Publication Date Title
CN108182279B (zh) 基于文本特征的对象分类方法、装置和计算机设备
CN103914494B (zh) 一种微博用户身份识别方法及系统
Li et al. Twiner: named entity recognition in targeted twitter stream
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
TWI554896B (zh) Information Classification Method and Information Classification System Based on Product Identification
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN105488098B (zh) 一种基于领域差异性的新词提取方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
Zhang et al. Semi-supervised discovery of informative tweets during the emerging disasters
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN105893606A (zh) 文本分类方法和装置
CN105930416A (zh) 一种用户反馈信息的可视化处理方法及系统
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190115

WD01 Invention patent application deemed withdrawn after publication