CN104820724A - 文本类教育资源知识点预测模型获得方法及模型应用方法 - Google Patents

文本类教育资源知识点预测模型获得方法及模型应用方法 Download PDF

Info

Publication number
CN104820724A
CN104820724A CN201510289318.0A CN201510289318A CN104820724A CN 104820724 A CN104820724 A CN 104820724A CN 201510289318 A CN201510289318 A CN 201510289318A CN 104820724 A CN104820724 A CN 104820724A
Authority
CN
China
Prior art keywords
word
educational resource
knowledge point
participle
text class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510289318.0A
Other languages
English (en)
Other versions
CN104820724B (zh
Inventor
沙龙
洪鹏宇
余海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Blue Warship Information Technology Nanjing Co Ltd
Original Assignee
Blue Warship Information Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Blue Warship Information Technology Nanjing Co Ltd filed Critical Blue Warship Information Technology Nanjing Co Ltd
Priority to CN201510289318.0A priority Critical patent/CN104820724B/zh
Publication of CN104820724A publication Critical patent/CN104820724A/zh
Application granted granted Critical
Publication of CN104820724B publication Critical patent/CN104820724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本类教育资源知识点预测模型获得方法,基于大数据分析方法,设计全新特征工程,在收集了足够数量的文本类教育资源后,针对文本类教育资源内容和关联的知识点进行分析,形成学习模型,逐渐优化,完善预测,对于特征的选取和优化流程进行了新的定义,并整合了针对特定公式和相关内容间的转化,使得最终获得的文本类教育资源知识点预测模型;本发明还涉及文本类教育资源知识点预测模型应用方法,基于本发明设计的文本类教育资源知识点预测模型,能够有效通过文本类教育资源内容,针对待预测文本类教育资源进行所属知识点的预测,并且预测过程稳定、有效,预测结果准确性高。

Description

文本类教育资源知识点预测模型获得方法及模型应用方法
技术领域
本发明涉及文本类教育资源知识点预测模型获得方法及模型应用方法,属于智能知识点预测应用技术领域。
背景技术
在在线学习的互联网应用中,题库部分是资源核心部分,在线题库中文本类教育资源所包含的知识点是串通整个在线学习系统的基本单元,然而对题库中知识点的标注,需要比较高的知识门槛,需要专业的人员进行相关的培训才能完成,非常耗时,而且在准确性上经常出现问题,影响用户体验,在题库的收集、录入和使用中成为了很大的技术屏障。而且现有技术,没有针对题库类型文档进行制定化分析,并且现有成熟解决方案对该类型数据表现不佳,没有将公式和文字以及文字与文字之间的关系处理完全整合到系统中。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种文本类教育资源知识点预测模型获得方法,基于大数据分析方法,设计全新特征工程,能够获得稳定、有效的文本类教育资源知识点预测模型。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种文本类教育资源知识点预测模型获得方法,基于针对数据库中文本类教育资源的分析,获得知识点预测模型,包括如下步骤:
步骤001.将数据库中的各个文本类教育资源按照知识点进行分类,并将按知识点分类的各个文本类教育资源,分别导出为预设格式文本类教育资源,按知识点分类构成语料库;
步骤002.针对语料库中的各个预设格式文本类教育资源,分别提取各个预设格式文本类教育资源中的信息元,由分别对应于各个预设格式文本类教育资源的各个信息元,分别构成对应于各个预设格式文本类教育资源的词料,并且由分别对应于各个预设格式文本类教育资源的词料构成词料库;
步骤003.针对语料库中各个预设格式文本类教育资源,进行知识点分布统计,格式校验,合理度检验,更新语料库,并按语料库,针对词料库进行相应更新;
步骤004.根据预设的特定文本判别规则,获得词料库中的公式特定文本,并根据预设的公式字典和特殊词字典,针对词料库中的公式特定文本进行文字内容转换,更新词料库;
步骤005.根据预设分词分析法,针对词料库中的词料进行分词处理,获得分词结果,包括各个分词单元,以及分别对应于各个分词单元的分词数量,并针对分词结果进行存储;
步骤006.根据人为预设的中文停用词表,针对分词结果进行过滤,更新分词结果;
步骤007.根据预设加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序;
步骤008.根据预设的加权统计值阈值,获得分词结果加权统计排序中大于该加权统计值阈值的各个分词,构成待处理分词集;
步骤009.根据预设的聚类获取方法,获得待处理分词集中的各个聚类,根据预设聚类分析方法获得各个聚类的统计值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的统计值阈值,获得大于该统计值阈值的各个聚类,构成待处理聚类集;
步骤010.分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
步骤011.根据预设的知识点分层结构和预设级数的数据层级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得预设级数的层级知识点数据;
步骤012.根据预设嵌套特征选择方法,分别针对各级知识点数据进行特征选取,分别获得各级知识点数据的特征结果,并分别通过预设的分类器组装进行机器学习,分别建立获得各级知识点数据的知识点预测模型;
步骤013.针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和统计值阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
作为本发明的一种优选技术方案:所述步骤001、步骤002和步骤003中,所述预设格式文本类教育资源为JSON格式文本类教育资源。
作为本发明的一种优选技术方案:所述步骤005中,所述预设分词分析法为NGRAM分词分析法。
作为本发明的一种优选技术方案:所述步骤007中,将针对分词结果中词料长度的正则处理,作为词频参数引入预设加权统计算法中之后,同时将反文档频率的光滑处理引入预设加权统计算法中,构成改进型加权统计算法;根据改进型加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序。
作为本发明的一种优选技术方案:所述步骤007、步骤008和步骤013中,所述预设加权统计算法为TF-IDF算法,所述改进型加权统计算法为改进型TF-IDF算法,所述加权统计值为TF-IDF值,所述分词结果加权统计排序为分词结果TF-IDF排序,所述加权统计值阈值为TF-IDF值阈值。
作为本发明的一种优选技术方案:所述步骤009中,根据两两聚类方法,获得待处理分词集中的各个聚类,根据PMI聚类分析方法获得各个聚类的PMI值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的PMI值阈值,获得大于该PMI值阈值的各个聚类,构成待处理聚类集;
所述步骤010中,分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
所述步骤013中,针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和PMI阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
作为本发明的一种优选技术方案:所述步骤011中,根据预设的知识点分层结构和预设的数据四级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得四级知识点数据。
作为本发明的一种优选技术方案:所述步骤012和步骤013中,所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。
本发明所述文本类教育资源知识点预测模型获得方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的文本类教育资源知识点预测模型获得方法,基于大数据分析方法,设计全新特征工程,在收集了足够数量的文本类教育资源后,针对文本类教育资源内容和关联的知识点进行分析,形成学习模型,逐渐优化,完善预测,对于特征的选取和优化流程进行了新的定义,并整合了针对特定公式和相关内容间的转化,使得最终获得的文本类教育资源知识点预测模型;不仅如此,NGRAM分词分析法和改进型TF-IDF算法的引入,能够大大有效提高文本类教育资源知识点预测模型的预测准确率,还有采用Bagging嵌套特征选择方法,对样本进行小采样聚合,结合特征选取以及分类器对文本类教育资源数据的机器学习,在尝试了其他若干方法之后,证明该方法表现最佳。
与此相应,针对上述技术问题,本发明所要解决的技术问题是提供文本类教育资源知识点预测模型应用方法,基于本发明设计的文本类教育资源知识点预测模型,能够针对待预测文本类教育资源进行所属知识点的预测,并且预测过程稳定、有效,预测结果准确性高。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了文本类教育资源知识点预测模型应用方法,包括如下步骤:
步骤a.根据预设分词分析法,针对待预测文本类教育资源进行分词处理,获得待预测文本类教育资源分词结果;
步骤b.根据预设嵌套特征选择方法,针对待预测文本类教育资源分词结果进行特征选取,获得待预测文本类教育资源分词结果特征;
步骤c.根据所述筛检分词集,针对待预测文本类教育资源分词结果特征进行筛检,更新获得待预测文本类教育资源分词结果特征;
步骤d.将待预测文本类教育资源分词结果特征依次代入各级知识点数据的知识点预测模型进行所属知识点预测,获得待预测文本类教育资源所属知识点的预测结果。
作为本发明的一种优选技术方案:所述步骤a中,所述预设分词分析法为NGRAM分词分析法;所述步骤b中,所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。
本发明所述文本类教育资源知识点预测模型应用方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的文本类教育资源知识点预测模型应用方法,基于本发明设计的文本类教育资源知识点预测模型,能够有效通过文本类教育资源内容,针对待预测文本类教育资源进行所属知识点的预测,并且预测过程稳定、有效,预测结果准确性高。
附图说明
图1为本发明设计文本类教育资源知识点预测模型获得方法的控制方法的流程示意图。
具体实施方式
下面结合说明书附图针对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明设计的文本类教育资源知识点预测模型获得方法在实际应用过程当中,基于针对数据库中文本类教育资源的分析,获得知识点预测模型,具体包括如下步骤:
步骤001.将数据库中的各个文本类教育资源按照知识点进行分类,并将按知识点分类的各个文本类教育资源,分别导出为JSON格式文本类教育资源,按知识点分类构成语料库。
上述针对数据库中各个文本类教育资源的分类,使得各个文本类教育资源按照知识点进行分类后,满足如下优点:(1)分类详尽–cover所有知识点;(2)分类明确–不同叶节点类别之间概念上无交集和包含关系;(3)分类层级–对不同知识点完成知识点语义森林建立;(4)分布合理–对应知识点的采集样本数量相对平均合理;(5)样本代表性–对于采集的样本要求具备代表性;(6)样本的准确性–对于资源本身的知识点标注采用两级校验方法保证样本的准确性。
JSON文本类教育资源源文件示例:
{
"choiceA":"$6 500$户",
"choiceB":"$3 000$户",
"choiceC":"$19 000$户",
"choiceD":"$9 500$户",
"analysis":"解:由图表可知,调查的$200$户居民中安装电话的有$95$户,所以安装电话的居民频率为$\\frac{95}{200}$,\r\n根据用户样本中已安装电话的频率得:$20000\\times\\frac{95}{200}=9500$.\r\n所以该小区已安装电话的住户估计有$9500$(户).\r\n故选D.\r\n",
"hint":"首先根据图表提供的数据算出$200$户居民中安装电话的频率,用总住户乘以频率即可.",
"content":"某住宅小区有居民$2$万户,从中随机抽取$200$户,调查是否已安装电话,调查结果如下表所示,则该小区已安装电话的住户估计有()"
}。
步骤002.针对语料库中的各个JSON格式文本类教育资源,分别提取各个JSON格式文本类教育资源中的信息元(文本类教育资源题干,答案,知识点,提示等代表性信息),由分别对应于各个JSON格式文本类教育资源的各个信息元,分别构成对应于各个JSON格式文本类教育资源的词料,并且由分别对应于各个JSON格式文本类教育资源的词料构成词料库。
步骤003.针对语料库中各个JSON格式文本类教育资源,进行知识点分布统计,格式校验,合理度检验,更新语料库,并按语料库,针对词料库进行相应更新。
步骤004.根据预设的特定文本判别规则,获得词料库中的公式特定文本,并根据预设的公式字典和特殊词字典,针对词料库中的公式特定文本进行文字内容转换,更新词料库。
步骤005.根据NGRAM分词分析法,针对词料库中的词料进行分词处理,获得分词结果,包括各个分词单元,以及分别对应于各个分词单元的分词数量,并针对分词结果进行存储。
步骤006.根据人为预设的中文停用词表,针对分词结果进行过滤,更新分词结果。
步骤007.为了更贴近我们的数据源特点(教育资源),将针对分词结果中词料长度的正则处理,作为词频参数引入TF-IDF算法中,同时将反文档频率的光滑处理引入TF-IDF算法中,构成改进型TF-IDF算法;根据改进型TF-IDF算法,获得分词结果中各个分词分别对应的TF-IDF值,并按照TF-IDF值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果TF-IDF排序;
步骤008.根据预设的TF-IDF值阈值,获得分词结果TF-IDF排序中大于该TF-IDF值阈值的各个分词,构成待处理分词集;
步骤009.根据两两聚类方法,获得待处理分词集中的各个聚类,根据PMI聚类分析方法获得各个聚类的PMI值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的PMI值阈值,获得大于该PMI值阈值的各个聚类,构成待处理聚类集;
步骤010.分别获得待处理聚类集中各个聚类中对应TF-IDF值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
步骤011.根据预设的知识点分层结构和预设的数据四级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得四级知识点数据。
步骤012.根据预设Bagging嵌套特征选择方法,分别针对各级知识点数据进行特征选取,分别获得各级知识点数据的特征结果,并分别通过预设的分类器组装进行机器学习,分别建立获得各级知识点数据的知识点预测模型。
步骤013.针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设Bagging嵌套特征选择方法调整建模过程中的TF-IDF值阈值和PMI阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
基于上述获得各级知识点数据的知识点预测模型,根据本发明设计文本类教育资源知识点预测模型应用方法,实现针对待测文本类教育资源所述知识点的预测,其中,具体包括如下步骤:
步骤a.根据NGRAM分词分析法,针对待预测文本类教育资源进行分词处理,获得待预测文本类教育资源分词结果;
步骤b.根据Bagging嵌套特征选择方法,针对待预测文本类教育资源分词结果进行特征选取,获得待预测文本类教育资源分词结果特征;
步骤c.根据所述筛检分词集,针对待预测文本类教育资源分词结果特征进行筛检,更新获得待预测文本类教育资源分词结果特征;
步骤d.将待预测文本类教育资源分词结果特征依次代入各级知识点数据的知识点预测模型进行所属知识点预测,获得待预测文本类教育资源所属知识点的预测结果。
上述设计的文本类教育资源知识点预测模型获得方法及预测模型应用方法,基于大数据分析方法,设计全新特征工程,在收集了足够数量的文本类教育资源后,针对文本类教育资源内容和关联的知识点进行分析,形成学习模型,逐渐优化,完善预测,对于特征的选取和优化流程进行了新的定义,并整合了针对特定公式和相关内容间的转化,使得最终获得的文本类教育资源知识点预测模型;不仅如此,NGRAM分词分析法和改进型TF-IDF算法的引入,能够大大有效提高文本类教育资源知识点预测模型的预测准确率,还有采用Bagging嵌套特征选择方法,对样本进行小采样聚合,结合特征选取以及分类器对文本类教育资源数据的机器学习,在尝试了其他若干方法之后,证明该方法表现最佳;并且基于本发明设计的文本类教育资源知识点预测模型,能够有效通过文本类教育资源内容,针对待预测文本类教育资源进行所属知识点的预测,并且预测过程稳定、有效,预测结果准确性高。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (10)

1.文本类教育资源知识点预测模型获得方法,其特征在于,基于针对数据库中文本类教育资源的分析,获得知识点预测模型,包括如下步骤:
步骤001. 将数据库中的各个文本类教育资源按照知识点进行分类,并将按知识点分类的各个文本类教育资源,分别导出为预设格式文本类教育资源,按知识点分类构成语料库;
步骤002. 针对语料库中的各个预设格式文本类教育资源,分别提取各个预设格式文本类教育资源中的信息元,由分别对应于各个预设格式文本类教育资源的各个信息元,分别构成对应于各个预设格式文本类教育资源的词料,并且由分别对应于各个预设格式文本类教育资源的词料构成词料库;
步骤003. 针对语料库中各个预设格式文本类教育资源,进行知识点分布统计,格式校验,合理度检验,更新语料库,并按语料库,针对词料库进行相应更新;
步骤004. 根据预设的特定文本判别规则,获得词料库中的公式特定文本,并根据预设的公式字典和特殊词字典,针对词料库中的公式特定文本进行文字内容转换,更新词料库;
步骤005. 根据预设分词分析法,针对词料库中的词料进行分词处理,获得分词结果,包括各个分词单元,以及分别对应于各个分词单元的分词数量,并针对分词结果进行存储;
步骤006. 根据人为预设的中文停用词表,针对分词结果进行过滤,更新分词结果;
步骤007. 根据预设加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序;
步骤008. 根据预设的加权统计值阈值,获得分词结果加权统计排序中大于该加权统计值阈值的各个分词,构成待处理分词集;
步骤009. 根据预设的聚类获取方法,获得待处理分词集中的各个聚类,根据预设聚类分析方法获得各个聚类的统计值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的统计值阈值,获得大于该统计值阈值的各个聚类,构成待处理聚类集;
步骤010. 分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
步骤011. 根据预设的知识点分层结构和预设级数的数据层级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得预设级数的层级知识点数据;
步骤012. 根据预设嵌套特征选择方法,分别针对各级知识点数据进行特征选取,分别获得各级知识点数据的特征结果,并分别通过预设的分类器组装进行机器学习,分别建立获得各级知识点数据的知识点预测模型;
步骤013. 针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和统计值阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
2.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤001、步骤002和步骤003中,所述预设格式文本类教育资源为JSON格式文本类教育资源。
3.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤005中,所述预设分词分析法为NGRAM分词分析法。
4.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤007中,将针对分词结果中词料长度的正则处理,作为词频参数引入预设加权统计算法中之后,同时将反文档频率的光滑处理引入预设加权统计算法中,构成改进型加权统计算法;根据改进型加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序。
5.根据权利要求4所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤007、步骤008和步骤013中,所述预设加权统计算法为TF-IDF算法,所述改进型加权统计算法为改进型TF-IDF算法,所述加权统计值为TF-IDF值,所述分词结果加权统计排序为分词结果TF-IDF排序,所述加权统计值阈值为TF-IDF值阈值。
6.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤009中,根据两两聚类方法,获得待处理分词集中的各个聚类,根据PMI聚类分析方法获得各个聚类的PMI值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的PMI值阈值,获得大于该PMI值阈值的各个聚类,构成待处理聚类集;
所述步骤010中,再分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
所述步骤013中,针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和PMI阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
7.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤011中,根据预设的知识点分层结构和预设的数据四级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得四级知识点数据。
8.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于:所述步骤012和步骤013中,所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。
9.基于权利要求1至8中任意一项所述文本类教育资源知识点预测模型获得方法的模型应用方法,其特征在于,包括如下步骤:
步骤a. 根据预设分词分析法,针对待预测文本类教育资源进行分词处理,获得待预测文本类教育资源分词结果;
步骤b. 根据预设嵌套特征选择方法,针对待预测文本类教育资源分词结果进行特征选取,获得待预测文本类教育资源分词结果特征;
步骤c. 根据所述筛检分词集,针对待预测文本类教育资源分词结果特征进行筛检,更新获得待预测文本类教育资源分词结果特征;
步骤d. 将待预测文本类教育资源分词结果特征依次代入各级知识点数据的知识点预测模型进行所属知识点预测,获得待预测文本类教育资源所属知识点的预测结果。
10.根据权利要求9所述文本类教育资源知识点预测模型的应用方法,其特征在于:所述步骤a中,所述预设分词分析法为NGRAM分词分析法;所述步骤b中,所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。
CN201510289318.0A 2015-05-29 2015-05-29 文本类教育资源知识点预测模型获得方法及模型应用方法 Active CN104820724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510289318.0A CN104820724B (zh) 2015-05-29 2015-05-29 文本类教育资源知识点预测模型获得方法及模型应用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510289318.0A CN104820724B (zh) 2015-05-29 2015-05-29 文本类教育资源知识点预测模型获得方法及模型应用方法

Publications (2)

Publication Number Publication Date
CN104820724A true CN104820724A (zh) 2015-08-05
CN104820724B CN104820724B (zh) 2017-12-08

Family

ID=53731019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510289318.0A Active CN104820724B (zh) 2015-05-29 2015-05-29 文本类教育资源知识点预测模型获得方法及模型应用方法

Country Status (1)

Country Link
CN (1) CN104820724B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294318A (zh) * 2016-08-03 2017-01-04 浪潮电子信息产业股份有限公司 一种处理教育资源的方法及装置
CN106447561A (zh) * 2016-10-08 2017-02-22 华中师范大学 一种基于教育大数据的动态可视化方法与系统
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN110309300A (zh) * 2018-08-23 2019-10-08 北京慧经知行信息技术有限公司 一种识别理科试题知识点的方法
CN110827966A (zh) * 2019-11-11 2020-02-21 重庆亚德科技股份有限公司 一种区域单病种监管系统
CN110852071A (zh) * 2019-11-08 2020-02-28 科大讯飞股份有限公司 知识点检测方法、装置、设备及可读存储介质
CN113254604A (zh) * 2021-07-15 2021-08-13 山东大学 一种基于参考规范的专业文本生成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100159438A1 (en) * 2008-12-19 2010-06-24 Xerox Corporation System and method for recommending educational resources
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN104102635A (zh) * 2013-04-01 2014-10-15 腾讯科技(深圳)有限公司 一种挖掘知识图谱的方法及装置
CN104281617A (zh) * 2013-07-10 2015-01-14 广州中国科学院先进技术研究所 一种基于领域知识的多层关联规则挖掘方法及系统
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN104484454A (zh) * 2014-12-27 2015-04-01 西安交通大学 一种面向知识地图的网络学习行为与效能分析方法
CN104504597A (zh) * 2014-12-26 2015-04-08 湖南亿谷信息科技发展有限公司 学习平台的知识商城管理系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100159438A1 (en) * 2008-12-19 2010-06-24 Xerox Corporation System and method for recommending educational resources
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN104102635A (zh) * 2013-04-01 2014-10-15 腾讯科技(深圳)有限公司 一种挖掘知识图谱的方法及装置
CN104281617A (zh) * 2013-07-10 2015-01-14 广州中国科学院先进技术研究所 一种基于领域知识的多层关联规则挖掘方法及系统
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN104504597A (zh) * 2014-12-26 2015-04-08 湖南亿谷信息科技发展有限公司 学习平台的知识商城管理系统及方法
CN104484454A (zh) * 2014-12-27 2015-04-01 西安交通大学 一种面向知识地图的网络学习行为与效能分析方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294318A (zh) * 2016-08-03 2017-01-04 浪潮电子信息产业股份有限公司 一种处理教育资源的方法及装置
CN106447561A (zh) * 2016-10-08 2017-02-22 华中师范大学 一种基于教育大数据的动态可视化方法与系统
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN110309300A (zh) * 2018-08-23 2019-10-08 北京慧经知行信息技术有限公司 一种识别理科试题知识点的方法
CN110309300B (zh) * 2018-08-23 2021-05-11 北京慧经知行信息技术有限公司 一种识别理科试题知识点的方法
CN110852071A (zh) * 2019-11-08 2020-02-28 科大讯飞股份有限公司 知识点检测方法、装置、设备及可读存储介质
CN110852071B (zh) * 2019-11-08 2023-10-24 科大讯飞股份有限公司 知识点检测方法、装置、设备及可读存储介质
CN110827966A (zh) * 2019-11-11 2020-02-21 重庆亚德科技股份有限公司 一种区域单病种监管系统
CN113254604A (zh) * 2021-07-15 2021-08-13 山东大学 一种基于参考规范的专业文本生成方法及装置
CN113254604B (zh) * 2021-07-15 2021-10-01 山东大学 一种基于参考规范的专业文本生成方法及装置

Also Published As

Publication number Publication date
CN104820724B (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN104820724A (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
RU2648946C2 (ru) Способ и устройство распознавания категории объекта изображения
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN106503254A (zh) 语料分类方法、装置及终端
CN104965905A (zh) 一种网页分类的方法和装置
CN109857862A (zh) 基于智能决策的文本分类方法、装置、服务器及介质
CN103810162A (zh) 推荐网络信息的方法和系统
CN105677640A (zh) 一种面向开放文本的领域概念抽取方法
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN106843941A (zh) 信息处理方法、装置和计算机设备
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
CN108664635A (zh) 数据库统计信息的获取方法、装置、设备和存储介质
CN106844554A (zh) 一种合同分类自动识别方法及系统
CN107122395B (zh) 数据抽样方法和装置
CN102521402B (zh) 文本过滤系统及方法
CN110189799B (zh) 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法
CN106294307A (zh) 语料筛选方法及装置
CN103268346A (zh) 半监督分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant