CN109947923A

CN109947923A - 一种基于词向量的初等数学题型自动提取方法及系统

Info

Publication number: CN109947923A
Application number: CN201910215533.4A
Authority: CN
Inventors: 梅阳阳; 郑文娟
Original assignee: Jiangxi Windward Education Technology Co Ltd
Current assignee: Jiangxi Windward Education Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-06-28

Abstract

一种基于词向量的初等数学题型自动提取方法，包括步骤：S1，以初等数学题目文本作为数据样本，进行词典分词和词向量训练；S2，提取句子模板，并根据句子模板整理初等数学题型分类；S3，综合题目文本中短句的分类，提取题目题型并标注。

Description

一种基于词向量的初等数学题型自动提取方法及系统

技术领域

本发明属于智能教育技术领域，特别涉及一种基于词向量的初等数学题型自动提取方法及系统。

背景技术

近些年，智能教育在国内蓬勃发展，以大数据、AR等为代表的人工智能正在与教育进行深度融合。做到真正的个性化教学、精准教学成为智能教育要达到的目标之一。就初等数学学科而言，题目的精准推荐则是其中重要的一步，而知识点、题型划分的准确是精准推荐的首要任务。初等数学的知识点、题型很丰富，目前市场上存在的各类数学题库也仅停留在知识点划分层面，不论知识点划分的粗细，仅靠题目知识点的标注对学生用户进行题目的推荐是无法达到精准的。而且现有的知识点标注、题型分类也基本都是人工参与完成，不仅需要大量的人工，而且因为每个人思维的差异性极易造成标准的不统一，产生较大的误差。

同时，随着自然语言处理技术的普及，利用自然语言处理技术来对大量的初等数学题目进行知识点的自动标注和题型的自动提取是最理想的一种方式，但由于数学语言的特点，利用目前通用的自然语言处理技术来处理数学文本，效果并不明显。

发明内容

本发明提供一种基于词向量的初等数学题型自动提取方法及系统，用于解决现有技术中对知识点、题型的人工标注不准确、耗时耗力的问题。

本发明实施例之一，一种基于词向量的初等数学题型自动提取方法，包括以下步骤：

S1，以初等数学题目文本作为数据样本，进行词典分词和词向量训练；

S2，提取句子模板，并根据句子模板整理初等数学题型分类；

S3，综合题目文本中短句的分类，提取题目题型并标注。

本发明实施例之一，一种基于词向量的初等数学题型自动提取系统，包括：分词及词向量生成模块、长句切分及关键词提取模块、种子模板及其题型分类标签完成模块、句子向量化模块和题型生成模块。

所述分词及词向量生成模块，用于对题目文本进行分词和词向量训练；所述长句切分及关键词提取模块，用于对题目文本进行长句切分，得到短句后再提取关键词，组成句模；所述种子模板及其题型分类标签完成模块，基于句模完成题型分类总结并确定种子模板，以及建立种子模板与题型分类标签间的联系；所述句子向量化模块，用于对种子模板生成句子向量以及对需要提取题型的题目文本完成句子向量化；所述题型生成模块，基于种子模板及其题型分类标签，通过句子向量相似度比较对题目文本确定题型。

本发明公开了一种基于词向量的初等数学题型自动化提取方法及系统。通过词典分词、词向量训练、提取句子模板、整理题型分类、句子向量化以及相似度比较等一系列操作，提取每道题目的题型并标注出来。本发明用于解决如何将自然语言处理技术应用到初等教育学科领域以实现题目的精准推荐等问题，实现了自动化批量提取并标注数学题型，不仅在很大程度上节省了人力和时间，而且避免了由于人工标注题型时的标准不一带来的题目推荐不准问题，有效地提高题目推荐的准确度，帮助学生用户更系统的学习数学知识和方法，提高用户体验，对自然语言处理技术在数学等基础学科专业领域上的应用也起到了很大的促进作用。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是本发明实施例中一种基于词向量的初等数学题型自动化提取方法的流程图。

图2是本发明实施例中所述一种基于词向量的初等数学题型自动化提取系统示意图。

具体实施方式

根据一个或者多个实施例，如图1所示，一种基于词向量的初等数学题型自动提取方法，包括如下步骤：

S1，获取数量较多的初等数学题目文本作为数据样本，进行词典分词和词向量训练；

S2，提取句子模板，并据此整理初等数学题型分类标签；

S3，综合题目文本中短句的分类，提取题目题型并标注。

所述步骤S1具体包括以下步骤：

S11.搜集并整理大量初等数学题目文本，先进行预处理，包括文本标准化、规范化、去停用词等，再对其中的所有句子进行词典分词。这里的词典是指分词用的通用词典，如jieba自带的词典等；

S12.基于分词结果，利用word2vec模型生成词向量。

Word2vec模型，是一群用来产生词向量的相关模型。这些模型属于浅而双层的神经网络，用来训练以重新建构语言学之词文本。在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可将每个词映射为一个向量，可用来表示词对词之间的关系，该向量一般为神经网络之隐藏层。

所述步骤S2具体包括以下步骤：

S21.基于人工标注的短文本数据，利用CRF算法进行长句切分训练，得到题目文本的短句表示；

S22.对切分后得到的短句采用TextRank算法进行关键词提取训练，再筛选句子模板。因为数学规范的语言表述，很多短句表达很相似，如果关键词相同，且提取出的若干关键词在文本中相邻，则可以组成一个句模；

S23.对出现较多的句子模板由专业人士整理总结其中的题型分类，并将可生成题型的句模纳入题型库作为种子模板，建立种子模板与题型分类标签间的联系。

其中，CRF算法，也叫条件随机场算法，是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型，是自然语言处理领域中一种常用的序列标注算法。对给定的输出标识序列Y和观察序列X，CRF(条件随机场)通过定义条件概率P(X|Y)，而不是联合概率分布P(X,Y)来描述模型。

TextRank算法是常用的一种关键词提取算法，也可以用于提取短语和自动摘要。TextRank算法提取关键词的原理可以用如下公式所示：

等式左边表示一个句子的权重(WS是weight_sum的缩写)，右侧的求和表示每个相邻句子对本句子的贡献程度。求和的分子wji表示两个句子的相似程度，分母又是一个weight_sum，而WS(Vj)代表上次迭代j的权重，整个公式是一个迭代的过程，经过多次迭代通过打分的思想可以找到短句中的关键词。提取关键词短语的方法基于关键词提取，如果提取出的若干关键词在文本中相邻，则构成一个被提取的关键短语。

所述步骤S3具体包括以下步骤：

S31.对种子模板进行词向量平均，生成句向量。由于每个句模包含多个词向量，采用词向量平均的方法将多个词向量压缩为一个句子向量，且每个句向量保持维度统一，便于比较句子间的相似度；

S32.对题目文本中的短句经过关键词提取后平均词向量得到句子向量，再与种子模板进行句子向量的相似度比较。对在题型库内的句子采取与种子模板直接匹配的方法获取其题型标签,对不在库内的句子则通过计算余弦相似度的方法将与其相似度最高的种子模板所对应的题型标签作为其题型标签；

S33.综合每个短句的题型标签以获取每道初等数学题目文本所属的题型。

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度会将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

根据一个或者多个实施例，如图2所示，一种基于词向量的初等数学题型自动化提取的系统，包括：分词及词向量生成模块、长句切分及关键词提取模块、种子模板及其题型分类标签完成模块、句子向量化模块和题型生成模块。

所述分词及词向量生成模块，主要对题目文本进行分词和词向量训练。

所述长句切分及关键词提取模块，主要对题目文本进行长句切分，得到短句后再提取关键词，组成句模。

所述种子模板及其题型分类标签完成模块，主要是基于句模完成题型分类总结并确定种子模板，以及建立种子模板与题型分类标签间的联系。其中题型分类需要由专业人士根据从长句切分及关键词提取模块中筛选出的句模进行归纳总结，而总结题型依据的句模则作为种子模板。

所述句子向量化模块，主要是对种子模板生成句子向量以及对需要提取题型的题目文本完成句子向量化。

所述题型生成模块，主要是基于种子模板及其题型分类标签，通过句子向量相似度比较对题目文本确定题型。

根据一个或者多个实施例，一个基于词向量的初等数学题型自动提取方法的例子，选择一道数学题目进行输入，题目信息为：

已知函数f(x)是奇函数，g(x)是偶函数，且f(x)+g(x)＝x^2-x+2，求f(x)、g(x)的解析式。

提取步骤如下：

首先基于大量的题目文本进行分词，并使用word2vec算法生成每个单词的词向量；

然后基于人工标注的短文本数据训练一个CRF长句切分模型；

对输入题目使用训练好的CRF模型进行分句，得到结果为:已知函数f(x)是奇函数，\g(x)是偶函数，\且f(x)+g(x)＝x^2-x+2，\求f(x)，g(x)的解析式；

使用TextRank模型对切分得到的短句提取关键词，得到为结果:函数f是奇函数，g是偶函数，且f+g＝x^2，求解析式。

同理，针对大量的样本都采取长句切分、提取关键词的操作，得到句模，并据此确定种子模板以及题型总结。将提取关键词后的每个短句和种子模板均采取词向量平均的方法得到句子向量化。

本题目经过句子向量化后，与种子模板的句子向量经过相似度计算和对比，发现“函数f是奇函数”“g是偶函数”“求解析式”在事先总结好的题型库内，标签为“已知奇偶性”“求解析式”；“且f+g＝x^2”不在题型库内，经过句子向量的相似度对比得到的题型标签为“已知函数关系”，最终确定本题题型为已知函数奇偶性与函数关系，求解析式。

值得说明的是，虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种基于词向量的初等数学题型自动提取方法，其特征在于，包括以下步骤：

S3，综合题目文本中短句的分类，提取题目题型并标注。

2.根据权利要求1所述的基于词向量的初等数学题型自动提取方法，其特征在于，

所述步骤S1具体包括步骤：

S11.获取多个初等数学题目文本，先进行预处理，包括文本标准化、规范化、去停用词，再对其中的所有句子进行词典分词；

S12.基于分词结果，利用word2vec模型生成词向量。

3.根据权利要求2所述的基于词向量的初等数学题型自动提取方法，其特征在于，

所述步骤S2具体包括步骤：

S22.再对切分后得到的短句采用TextRank算法进行关键词提取训练，再筛选句子模板，如果关键词相同，且提取出的若干关键词在文本中相邻，则组成一个句模；

S23.对出现频率高的句子模板总结其中的题型分类，并将可生成题型的句模纳入题型库作为种子模板，建立种子模板与题型分类标签间的联系。

4.根据权利要求3所述的基于词向量的初等数学题型自动提取方法，其特征在于，

所述步骤S3具体包括步骤：

S31.对种子模板进行词向量平均，生成句向量；

S32.对题目文本中的短句经过关键词提取后平均词向量得到句向量，再与种子模板进行句子向量的相似度比较，对在题型库内的句子采取与种子模板直接匹配的方法获取其题型标签,对不在库内的句子则通过计算余弦相似度的方法将与其相似度最高的种子模板所对应的题型标签作为其题型标签；

5.一种基于词向量的初等数学题型自动提取系统，其特征在于，包括：分词及词向量生成模块、长句切分及关键词提取模块、种子模板及其题型分类标签完成模块、句子向量化模块和题型生成模块，

所述分词及词向量生成模块，用于对题目文本进行分词和词向量训练；

所述长句切分及关键词提取模块，用于对题目文本进行长句切分，得到短句后再提取关键词，组成句模；

所述种子模板及其题型分类标签完成模块，基于句模完成题型分类总结并确定种子模板，以及建立种子模板与题型分类标签间的联系；

所述句子向量化模块，用于对种子模板生成句子向量以及对需要提取题型的题目文本完成句子向量化；

所述题型生成模块，基于种子模板及其题型分类标签，通过句子向量相似度比较对题目文本确定题型。