CN104820724A

CN104820724A - 文本类教育资源知识点预测模型获得方法及模型应用方法

Info

Publication number: CN104820724A
Application number: CN201510289318.0A
Authority: CN
Inventors: 沙龙; 洪鹏宇; 余海涛
Original assignee: Blue Warship Information Technology Nanjing Co Ltd
Current assignee: Blue Warship Information Technology Nanjing Co Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2015-08-05
Anticipated expiration: 2035-05-29
Also published as: CN104820724B

Abstract

本发明涉及文本类教育资源知识点预测模型获得方法，基于大数据分析方法，设计全新特征工程，在收集了足够数量的文本类教育资源后，针对文本类教育资源内容和关联的知识点进行分析，形成学习模型，逐渐优化，完善预测，对于特征的选取和优化流程进行了新的定义，并整合了针对特定公式和相关内容间的转化，使得最终获得的文本类教育资源知识点预测模型；本发明还涉及文本类教育资源知识点预测模型应用方法，基于本发明设计的文本类教育资源知识点预测模型，能够有效通过文本类教育资源内容，针对待预测文本类教育资源进行所属知识点的预测，并且预测过程稳定、有效，预测结果准确性高。

Description

文本类教育资源知识点预测模型获得方法及模型应用方法

技术领域

本发明涉及文本类教育资源知识点预测模型获得方法及模型应用方法，属于智能知识点预测应用技术领域。

背景技术

在在线学习的互联网应用中，题库部分是资源核心部分，在线题库中文本类教育资源所包含的知识点是串通整个在线学习系统的基本单元，然而对题库中知识点的标注，需要比较高的知识门槛，需要专业的人员进行相关的培训才能完成，非常耗时，而且在准确性上经常出现问题，影响用户体验，在题库的收集、录入和使用中成为了很大的技术屏障。而且现有技术，没有针对题库类型文档进行制定化分析，并且现有成熟解决方案对该类型数据表现不佳，没有将公式和文字以及文字与文字之间的关系处理完全整合到系统中。

发明内容

针对上述技术问题，本发明所要解决的技术问题是提供一种文本类教育资源知识点预测模型获得方法，基于大数据分析方法，设计全新特征工程，能够获得稳定、有效的文本类教育资源知识点预测模型。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种文本类教育资源知识点预测模型获得方法,基于针对数据库中文本类教育资源的分析，获得知识点预测模型，包括如下步骤：

步骤001.将数据库中的各个文本类教育资源按照知识点进行分类，并将按知识点分类的各个文本类教育资源，分别导出为预设格式文本类教育资源，按知识点分类构成语料库；

步骤002.针对语料库中的各个预设格式文本类教育资源，分别提取各个预设格式文本类教育资源中的信息元，由分别对应于各个预设格式文本类教育资源的各个信息元，分别构成对应于各个预设格式文本类教育资源的词料，并且由分别对应于各个预设格式文本类教育资源的词料构成词料库；

步骤003.针对语料库中各个预设格式文本类教育资源，进行知识点分布统计，格式校验，合理度检验，更新语料库，并按语料库，针对词料库进行相应更新；

步骤004.根据预设的特定文本判别规则，获得词料库中的公式特定文本，并根据预设的公式字典和特殊词字典，针对词料库中的公式特定文本进行文字内容转换，更新词料库；

步骤005.根据预设分词分析法，针对词料库中的词料进行分词处理，获得分词结果，包括各个分词单元，以及分别对应于各个分词单元的分词数量，并针对分词结果进行存储；

步骤006.根据人为预设的中文停用词表，针对分词结果进行过滤，更新分词结果；

步骤007.根据预设加权统计算法，获得分词结果中各个分词分别对应的加权统计值，并按照加权统计值由高到低的顺序，针对分词结果中的分词进行排序，获得分词结果加权统计排序；

步骤008.根据预设的加权统计值阈值，获得分词结果加权统计排序中大于该加权统计值阈值的各个分词，构成待处理分词集；

步骤009.根据预设的聚类获取方法，获得待处理分词集中的各个聚类，根据预设聚类分析方法获得各个聚类的统计值，将各个聚类按其对应统计值由高到低顺序进行排序，并通过预设的统计值阈值，获得大于该统计值阈值的各个聚类，构成待处理聚类集；

步骤010.分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词，构成删减分词集，针对待处理分词集，删除其中属于删减分词集的分词，获得筛检分词集；

步骤011.根据预设的知识点分层结构和预设级数的数据层级整理规则，针对筛检分词集中各个分词所对应的知识点，进行分层级数据整理，获得预设级数的层级知识点数据；

步骤012.根据预设嵌套特征选择方法，分别针对各级知识点数据进行特征选取，分别获得各级知识点数据的特征结果，并分别通过预设的分类器组装进行机器学习，分别建立获得各级知识点数据的知识点预测模型；

步骤013.针对各级知识点数据的知识点预测模型，分别进行模型评估，并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和统计值阈值，直到达到预设的最优表现值，存储该最优表现值所对应的知识点预测模型，更新获得各级知识点数据的知识点预测模型。

作为本发明的一种优选技术方案：所述步骤001、步骤002和步骤003中，所述预设格式文本类教育资源为JSON格式文本类教育资源。

作为本发明的一种优选技术方案：所述步骤005中，所述预设分词分析法为NGRAM分词分析法。

作为本发明的一种优选技术方案：所述步骤007中，将针对分词结果中词料长度的正则处理，作为词频参数引入预设加权统计算法中之后，同时将反文档频率的光滑处理引入预设加权统计算法中，构成改进型加权统计算法；根据改进型加权统计算法，获得分词结果中各个分词分别对应的加权统计值，并按照加权统计值由高到低的顺序，针对分词结果中的分词进行排序，获得分词结果加权统计排序。

作为本发明的一种优选技术方案：所述步骤007、步骤008和步骤013中，所述预设加权统计算法为TF-IDF算法，所述改进型加权统计算法为改进型TF-IDF算法，所述加权统计值为TF-IDF值，所述分词结果加权统计排序为分词结果TF-IDF排序，所述加权统计值阈值为TF-IDF值阈值。

作为本发明的一种优选技术方案：所述步骤009中，根据两两聚类方法，获得待处理分词集中的各个聚类，根据PMI聚类分析方法获得各个聚类的PMI值，将各个聚类按其对应统计值由高到低顺序进行排序，并通过预设的PMI值阈值，获得大于该PMI值阈值的各个聚类，构成待处理聚类集；

所述步骤010中，分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词，构成删减分词集，针对待处理分词集，删除其中属于删减分词集的分词，获得筛检分词集；

所述步骤013中，针对各级知识点数据的知识点预测模型，分别进行模型评估，并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和PMI阈值，直到达到预设的最优表现值，存储该最优表现值所对应的知识点预测模型，更新获得各级知识点数据的知识点预测模型。

作为本发明的一种优选技术方案：所述步骤011中，根据预设的知识点分层结构和预设的数据四级整理规则，针对筛检分词集中各个分词所对应的知识点，进行分层级数据整理，获得四级知识点数据。

作为本发明的一种优选技术方案：所述步骤012和步骤013中，所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。

本发明所述文本类教育资源知识点预测模型获得方法采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计的文本类教育资源知识点预测模型获得方法，基于大数据分析方法，设计全新特征工程，在收集了足够数量的文本类教育资源后，针对文本类教育资源内容和关联的知识点进行分析，形成学习模型，逐渐优化，完善预测，对于特征的选取和优化流程进行了新的定义，并整合了针对特定公式和相关内容间的转化，使得最终获得的文本类教育资源知识点预测模型；不仅如此，NGRAM分词分析法和改进型TF-IDF算法的引入，能够大大有效提高文本类教育资源知识点预测模型的预测准确率，还有采用Bagging嵌套特征选择方法，对样本进行小采样聚合，结合特征选取以及分类器对文本类教育资源数据的机器学习，在尝试了其他若干方法之后，证明该方法表现最佳。

与此相应，针对上述技术问题，本发明所要解决的技术问题是提供文本类教育资源知识点预测模型应用方法，基于本发明设计的文本类教育资源知识点预测模型，能够针对待预测文本类教育资源进行所属知识点的预测，并且预测过程稳定、有效，预测结果准确性高。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了文本类教育资源知识点预测模型应用方法，包括如下步骤：

步骤a.根据预设分词分析法，针对待预测文本类教育资源进行分词处理，获得待预测文本类教育资源分词结果；

步骤b.根据预设嵌套特征选择方法，针对待预测文本类教育资源分词结果进行特征选取，获得待预测文本类教育资源分词结果特征；

步骤c.根据所述筛检分词集，针对待预测文本类教育资源分词结果特征进行筛检，更新获得待预测文本类教育资源分词结果特征；

步骤d.将待预测文本类教育资源分词结果特征依次代入各级知识点数据的知识点预测模型进行所属知识点预测，获得待预测文本类教育资源所属知识点的预测结果。

作为本发明的一种优选技术方案：所述步骤a中，所述预设分词分析法为NGRAM分词分析法；所述步骤b中，所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。

本发明所述文本类教育资源知识点预测模型应用方法采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计的文本类教育资源知识点预测模型应用方法，基于本发明设计的文本类教育资源知识点预测模型，能够有效通过文本类教育资源内容，针对待预测文本类教育资源进行所属知识点的预测，并且预测过程稳定、有效，预测结果准确性高。

附图说明

图1为本发明设计文本类教育资源知识点预测模型获得方法的控制方法的流程示意图。

具体实施方式

下面结合说明书附图针对本发明的具体实施方式作进一步详细的说明。

如图1所示，本发明设计的文本类教育资源知识点预测模型获得方法在实际应用过程当中，基于针对数据库中文本类教育资源的分析，获得知识点预测模型，具体包括如下步骤：

步骤001.将数据库中的各个文本类教育资源按照知识点进行分类，并将按知识点分类的各个文本类教育资源，分别导出为JSON格式文本类教育资源，按知识点分类构成语料库。

上述针对数据库中各个文本类教育资源的分类，使得各个文本类教育资源按照知识点进行分类后，满足如下优点：(1)分类详尽–cover所有知识点；(2)分类明确–不同叶节点类别之间概念上无交集和包含关系；(3)分类层级–对不同知识点完成知识点语义森林建立；(4)分布合理–对应知识点的采集样本数量相对平均合理；(5)样本代表性–对于采集的样本要求具备代表性；(6)样本的准确性–对于资源本身的知识点标注采用两级校验方法保证样本的准确性。

JSON文本类教育资源源文件示例：

{

"choiceA":"$6 500$户",

"choiceB":"$3 000$户",

"choiceC":"$19 000$户",

"choiceD":"$9 500$户",

"analysis":"解：由图表可知，调查的$200$户居民中安装电话的有$95$户，所以安装电话的居民频率为$\\frac{95}{200}$，\r\n根据用户样本中已安装电话的频率得：$20000\\times\\frac{95}{200}＝9500$.\r\n所以该小区已安装电话的住户估计有$9500$(户).\r\n故选D.\r\n",

"hint":"首先根据图表提供的数据算出$200$户居民中安装电话的频率，用总住户乘以频率即可.",

"content":"某住宅小区有居民$2$万户，从中随机抽取$200$户，调查是否已安装电话，调查结果如下表所示，则该小区已安装电话的住户估计有()"

}。

步骤002.针对语料库中的各个JSON格式文本类教育资源，分别提取各个JSON格式文本类教育资源中的信息元(文本类教育资源题干，答案，知识点，提示等代表性信息)，由分别对应于各个JSON格式文本类教育资源的各个信息元，分别构成对应于各个JSON格式文本类教育资源的词料，并且由分别对应于各个JSON格式文本类教育资源的词料构成词料库。

步骤003.针对语料库中各个JSON格式文本类教育资源，进行知识点分布统计，格式校验，合理度检验，更新语料库，并按语料库，针对词料库进行相应更新。

步骤004.根据预设的特定文本判别规则，获得词料库中的公式特定文本，并根据预设的公式字典和特殊词字典，针对词料库中的公式特定文本进行文字内容转换，更新词料库。

步骤005.根据NGRAM分词分析法，针对词料库中的词料进行分词处理，获得分词结果，包括各个分词单元，以及分别对应于各个分词单元的分词数量，并针对分词结果进行存储。

步骤006.根据人为预设的中文停用词表，针对分词结果进行过滤，更新分词结果。

步骤007.为了更贴近我们的数据源特点(教育资源)，将针对分词结果中词料长度的正则处理，作为词频参数引入TF-IDF算法中，同时将反文档频率的光滑处理引入TF-IDF算法中，构成改进型TF-IDF算法；根据改进型TF-IDF算法，获得分词结果中各个分词分别对应的TF-IDF值，并按照TF-IDF值由高到低的顺序，针对分词结果中的分词进行排序，获得分词结果TF-IDF排序；

步骤008.根据预设的TF-IDF值阈值，获得分词结果TF-IDF排序中大于该TF-IDF值阈值的各个分词，构成待处理分词集；

步骤009.根据两两聚类方法，获得待处理分词集中的各个聚类，根据PMI聚类分析方法获得各个聚类的PMI值，将各个聚类按其对应统计值由高到低顺序进行排序，并通过预设的PMI值阈值，获得大于该PMI值阈值的各个聚类，构成待处理聚类集；

步骤010.分别获得待处理聚类集中各个聚类中对应TF-IDF值最小的分词，构成删减分词集，针对待处理分词集，删除其中属于删减分词集的分词，获得筛检分词集；

步骤011.根据预设的知识点分层结构和预设的数据四级整理规则，针对筛检分词集中各个分词所对应的知识点，进行分层级数据整理，获得四级知识点数据。

步骤012.根据预设Bagging嵌套特征选择方法，分别针对各级知识点数据进行特征选取，分别获得各级知识点数据的特征结果，并分别通过预设的分类器组装进行机器学习，分别建立获得各级知识点数据的知识点预测模型。

步骤013.针对各级知识点数据的知识点预测模型，分别进行模型评估，并根据预设Bagging嵌套特征选择方法调整建模过程中的TF-IDF值阈值和PMI阈值，直到达到预设的最优表现值，存储该最优表现值所对应的知识点预测模型，更新获得各级知识点数据的知识点预测模型。

基于上述获得各级知识点数据的知识点预测模型，根据本发明设计文本类教育资源知识点预测模型应用方法，实现针对待测文本类教育资源所述知识点的预测，其中，具体包括如下步骤：

步骤a.根据NGRAM分词分析法，针对待预测文本类教育资源进行分词处理，获得待预测文本类教育资源分词结果；

步骤b.根据Bagging嵌套特征选择方法，针对待预测文本类教育资源分词结果进行特征选取，获得待预测文本类教育资源分词结果特征；

上述设计的文本类教育资源知识点预测模型获得方法及预测模型应用方法，基于大数据分析方法，设计全新特征工程，在收集了足够数量的文本类教育资源后，针对文本类教育资源内容和关联的知识点进行分析，形成学习模型，逐渐优化，完善预测，对于特征的选取和优化流程进行了新的定义，并整合了针对特定公式和相关内容间的转化，使得最终获得的文本类教育资源知识点预测模型；不仅如此，NGRAM分词分析法和改进型TF-IDF算法的引入，能够大大有效提高文本类教育资源知识点预测模型的预测准确率，还有采用Bagging嵌套特征选择方法，对样本进行小采样聚合，结合特征选取以及分类器对文本类教育资源数据的机器学习，在尝试了其他若干方法之后，证明该方法表现最佳；并且基于本发明设计的文本类教育资源知识点预测模型，能够有效通过文本类教育资源内容，针对待预测文本类教育资源进行所属知识点的预测，并且预测过程稳定、有效，预测结果准确性高。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.文本类教育资源知识点预测模型获得方法,其特征在于，基于针对数据库中文本类教育资源的分析，获得知识点预测模型，包括如下步骤：

步骤001. 将数据库中的各个文本类教育资源按照知识点进行分类，并将按知识点分类的各个文本类教育资源，分别导出为预设格式文本类教育资源，按知识点分类构成语料库；

步骤002. 针对语料库中的各个预设格式文本类教育资源，分别提取各个预设格式文本类教育资源中的信息元，由分别对应于各个预设格式文本类教育资源的各个信息元，分别构成对应于各个预设格式文本类教育资源的词料，并且由分别对应于各个预设格式文本类教育资源的词料构成词料库；

步骤003. 针对语料库中各个预设格式文本类教育资源，进行知识点分布统计，格式校验，合理度检验，更新语料库，并按语料库，针对词料库进行相应更新；

步骤004. 根据预设的特定文本判别规则，获得词料库中的公式特定文本，并根据预设的公式字典和特殊词字典，针对词料库中的公式特定文本进行文字内容转换，更新词料库；

步骤005. 根据预设分词分析法，针对词料库中的词料进行分词处理，获得分词结果，包括各个分词单元，以及分别对应于各个分词单元的分词数量，并针对分词结果进行存储；

步骤006. 根据人为预设的中文停用词表，针对分词结果进行过滤，更新分词结果；

步骤007. 根据预设加权统计算法，获得分词结果中各个分词分别对应的加权统计值，并按照加权统计值由高到低的顺序，针对分词结果中的分词进行排序，获得分词结果加权统计排序；

步骤008. 根据预设的加权统计值阈值，获得分词结果加权统计排序中大于该加权统计值阈值的各个分词，构成待处理分词集；

步骤009. 根据预设的聚类获取方法，获得待处理分词集中的各个聚类，根据预设聚类分析方法获得各个聚类的统计值，将各个聚类按其对应统计值由高到低顺序进行排序，并通过预设的统计值阈值，获得大于该统计值阈值的各个聚类，构成待处理聚类集；

步骤010. 分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词，构成删减分词集，针对待处理分词集，删除其中属于删减分词集的分词，获得筛检分词集；

步骤011. 根据预设的知识点分层结构和预设级数的数据层级整理规则，针对筛检分词集中各个分词所对应的知识点，进行分层级数据整理，获得预设级数的层级知识点数据；

步骤012. 根据预设嵌套特征选择方法，分别针对各级知识点数据进行特征选取，分别获得各级知识点数据的特征结果，并分别通过预设的分类器组装进行机器学习，分别建立获得各级知识点数据的知识点预测模型；

步骤013. 针对各级知识点数据的知识点预测模型，分别进行模型评估，并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和统计值阈值，直到达到预设的最优表现值，存储该最优表现值所对应的知识点预测模型，更新获得各级知识点数据的知识点预测模型。

2.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于：所述步骤001、步骤002和步骤003中，所述预设格式文本类教育资源为JSON格式文本类教育资源。

3.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于：所述步骤005中，所述预设分词分析法为NGRAM分词分析法。

4.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于：所述步骤007中，将针对分词结果中词料长度的正则处理，作为词频参数引入预设加权统计算法中之后，同时将反文档频率的光滑处理引入预设加权统计算法中，构成改进型加权统计算法；根据改进型加权统计算法，获得分词结果中各个分词分别对应的加权统计值，并按照加权统计值由高到低的顺序，针对分词结果中的分词进行排序，获得分词结果加权统计排序。

5.根据权利要求4所述文本类教育资源知识点预测模型获得方法,其特征在于：所述步骤007、步骤008和步骤013中，所述预设加权统计算法为TF-IDF算法，所述改进型加权统计算法为改进型TF-IDF算法，所述加权统计值为TF-IDF值，所述分词结果加权统计排序为分词结果TF-IDF排序，所述加权统计值阈值为TF-IDF值阈值。

6.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于：所述步骤009中，根据两两聚类方法，获得待处理分词集中的各个聚类，根据PMI聚类分析方法获得各个聚类的PMI值，将各个聚类按其对应统计值由高到低顺序进行排序，并通过预设的PMI值阈值，获得大于该PMI值阈值的各个聚类，构成待处理聚类集；

所述步骤010中，再分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词，构成删减分词集，针对待处理分词集，删除其中属于删减分词集的分词，获得筛检分词集；

7.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于：所述步骤011中，根据预设的知识点分层结构和预设的数据四级整理规则，针对筛检分词集中各个分词所对应的知识点，进行分层级数据整理，获得四级知识点数据。

8.根据权利要求1所述文本类教育资源知识点预测模型获得方法,其特征在于：所述步骤012和步骤013中，所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。

9.基于权利要求1至8中任意一项所述文本类教育资源知识点预测模型获得方法的模型应用方法，其特征在于，包括如下步骤：

步骤a. 根据预设分词分析法，针对待预测文本类教育资源进行分词处理，获得待预测文本类教育资源分词结果；

步骤b. 根据预设嵌套特征选择方法，针对待预测文本类教育资源分词结果进行特征选取，获得待预测文本类教育资源分词结果特征；

步骤c. 根据所述筛检分词集，针对待预测文本类教育资源分词结果特征进行筛检，更新获得待预测文本类教育资源分词结果特征；

步骤d. 将待预测文本类教育资源分词结果特征依次代入各级知识点数据的知识点预测模型进行所属知识点预测，获得待预测文本类教育资源所属知识点的预测结果。

10.根据权利要求9所述文本类教育资源知识点预测模型的应用方法，其特征在于：所述步骤a中，所述预设分词分析法为NGRAM分词分析法；所述步骤b中，所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。