CN113033180A

CN113033180A - 一种面向小学藏语文阅读问题自动生成的服务系统

Info

Publication number: CN113033180A
Application number: CN202110228195.5A
Authority: CN
Inventors: 孙媛; 陈安东
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-06-25
Anticipated expiration: 2041-03-02
Also published as: CN113033180B

Abstract

本发明涉及一种面向小学藏语文阅读问题自动生成的服务系统，该系统包括藏语阅读语料库构建模型和藏文阅读文本问题生成模型；其中，藏语阅读语料库构建模型，通过提取小学藏语文章特征数据，并设计混合的多策略文本筛选模型，得到藏语阅读语料库；藏文阅读文本问题生成模型包括编码端和解码端，其中，编码端使用双向RNN网络和注意力机制；解码端使用单向RNN网络、注意力机制和复制机制。本发明通过设计的混合的多策略文本筛选模型，可以在大规模百科藏文文本中筛选出适合小学阅读的藏语文文章。并且设计了端到端的自动问题生成模型，它解决了小学藏语文阅读教学材料体裁少、更新速度慢，人工出题量少等问题，从而推动民族地区藏语教学的发展。

Description

一种面向小学藏语文阅读问题自动生成的服务系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种面向小学藏语文阅读问题自动生成的服务系统。

背景技术

目前自然语言处理(NLP)领域备受关注，自然语言处理的研究目标是让计算机学会理解和运用人类的自然语言，是人工智能领域中的重要研究方向。近年来，自然语言处理方面的运用层出不穷，如Facebook的SimpleQuestions、百度的文本生成工具逐渐应用于教育领域，以改善教学为目的的阅读理解问题生成、文章摘要生成等技术系统也开始涌现，助力教学效率提升和学生的阅读理解能力训练。

相比与汉语文教学，藏语文的阅读材料相对较少，更新速度较慢、选择面也较窄，在出阅读理解题目时，采用的方式依然是通过老师人工出题，这导致藏语文阅读教学材料的更新速度难以满足学生的需求，限制了民族地区的藏语教学的发展。

发明内容

本发明的目的在于，解决小学藏语文阅读教学材料体裁少、更新速度慢、人工出题量小等问题，推动民族地区藏语教学的发展。

为实现上述目的，本发明提供了一种面向小学藏语文阅读问题自动生成的服务系统，该系统包括藏语阅读语料库构建模型和藏文阅读文本问题生成模型；其中，

藏语阅读语料库构建模型，通过提取小学藏语文章特征数据，并设计混合的多策略文本筛选模型，构建藏语阅读语料库；

藏文阅读文本问题生成模型，包括编码端和解码端，其中，编码端使用双向 RNN网络和注意力机制；解码端使用单向RNN网络、注意力机制和复制机制。

本发明通过设计的混合的多策略文本筛选模型，可以在大规模百科藏文文本中筛选出适合小学阅读的藏语文文章。并且设计了端到端的自动问题生成模型，它解决了小学藏语文阅读教学材料体裁少、更新速度慢，人工出题量少等问题，从而推动民族地区藏语教学的发展。

附图说明

图1为本发明实施例提供的一种面向小学藏语文阅读问题自动生成的服务系统结构示意图；

图2为本发明实施例提供的另一种面向小学藏语文阅读问题自动生成的服务系统结构示意图。

具体实施例

本发明实施例设计了一种小学藏语阅读理解问题自动生成的智能服务系统。主要包括：

首先，以小学藏语文教材(1-6年级)为训练语料，以文章长度、文章体裁、句子数量、平均句长、文章词汇量、词汇覆盖度、冗余度为特征，设计了一种混合的多策略文本筛选模型，从大规模百科藏文文本中得到适合小学藏语文阅读的材料。

然后，由中央民族大学国家语言资源监测与研究中心带领藏族学生完成藏语文本答案的标注和对应问题的生成，得到大规模阅读文本的问题和答案，并设计了一种基于注意力机制和复制机制的端到端的藏文阅读文本问题生成模型。编码端使用双向循环RNN网络，加入注意力机制来解决RNN网络容易遗忘的问题。解码端使用单向RNN网络，加入复制机制提高问题答案的可读性。同时，使用答案位置信息输入到神经网络当中，从而减少长文本输入时的噪声，提高问题的生成效果。

最后，使用Django框架搭建小学藏语阅读理解问题自动生成的智能服务系统，实现藏语文阅读文章的自动筛选和出题。

图1和图2分别为本发明实施例提供的一种面向小学藏语文阅读问题自动生成的服务系统结构示意图。如图1和图2所示，该系统包括：藏语阅读语料库构建模型和藏文阅读文本问题生成模型。

藏语阅读语料库构建模型，通过提取小学藏语文章特征数据，并设计混合的多策略文本筛选模型。为筛选出合适的小学藏语阅读材料，对每篇文章提取文章长度、文章体裁、句子数量、平均句长、文章词汇量、词汇覆盖度、冗余度作为特征。

筛选模型中集成了逻辑回归、KNN算法模型以及随机森林模型，设定7个类别，分别代表适合1-6年级阅读和不适合小学阅读，采用绝对多数投票法作为输出策略。

逻辑回归的公式如下：

f_w，b(x)＝σ(∑_iw_ix_i+b)，

其中，x_i表示小学藏语文章的特征，w_i表示特征所具有的权重，b表示偏置，并加入对率函数σ(Sigmoid)，将回归任务输出的连续因变量，变为输出不同类别的概率值，取概率值最高的为文本的最终类别。

对于训练的损失函数，选择了交叉熵损失函数，公式如下：

其中，M为类别的数量；y_ic是指示变量(0或1)，如果该类别和样本i的类别相同，y_ic就是1，否则是0；f_w，b(x)是逻辑的回归的输出，表示某特定类别的概率。

KNN算法中，定义了7个类别，并对所有的类别特征做归一化处理，来映射到同一个空间中。使用欧式距离公式作为不同类别距离的度量公式，公式如下：

其中，

和

为特征的空间坐标，L(x_i，x_j)得到的是两个特征的距离大小。在KNN算法中，先将文章特征归一化到共同的特征空间中，然后设置参数k，根据距离计算结果L(x_i，x_j)，取距离最近的k个特征点，其中哪个类别出现的最多，这个文章就属于这个类别。

对于随机森林模型，模型通过对训练集的抽样获得分布不同的训练子集。通过不同的训练子集来训练不同的决策树，随机森林包含训练得到的所有决策树。在做分类任务时遵循“少数服从多数原则”，将决策树分类结果最多的类别作为文章的最终分类结果。

其中，决策树使用的是ID3算法，每个决策树用信息增益来获得最优划分属性a，其公式为：

a为类别的属性，v表示类别的划分，在文章分类任务中v＝7，表示文章分为7个类别。D表示所有的训练集，D^v表示第v个类别的数据集。Ent(D^v)表示第v个类别的数据集的信息熵。Gain(D,a)为信息增益，如果值越大，说明使用属性a来划分的效果越好。

最终各个模型的输出量都用类别数据表示为f(x)＝[1,2,3,4,5,6,7]，其中不同数字代表着不同的年级，7代表超出小学阅读能力的文章。

对于混合模型，其最终的输出采用绝对多数投票法。绝对多数投票法的原则是得票过半数才可以得到输出，否则拒绝分类，其公式如下：

在绝对多数投票法中，f_i(x)依旧为模型的分类结果，T为分类模型的数量，如果有一半以上的模型给出了相同结果(if Count(f_i(x))>0.5T)，将这个分类作为最终结果。反之，如果没有半数的模型给出相同分类结果，取最小数值作为最终结果。

藏文阅读文本问题生成模型，包括编码端和解码端，其中，为了可以更好的学习到长文本的信息，编码端使用双向RNN网络，为了提高文本编码效果，引入注意力机制与答案的位置信息。解码端使用单向RNN网络，为了让输出的问题可以更符合文章自身的表述，引入了复制机制来解决这个问题。

u_t＝RNN(u_t-1，X_t)

其中，x_t表示在时间t的输入词汇，u_t表示RNN在t时间段的隐藏层。

为了更好的生成问题，需要控制或者学习真正需要被提问的那一部分。在输入是长文本时，文本的长度会引入大量的噪声，通过引入答案的位置信息解决了这个问题。

u_t＝RNN^E(u_t-1,[e_t,m_tl)

其中，e_t是单词的词向量表示，m_t表示e_t这个单词是否属于这个问题的答案的一部分。[e_t,m_t]表示的将e_t和m_t这两个向量做concatenation操作。在引入了u_t和[e_t,m_t]作为RNN网络的输入时，通过m_t确定答案的准确位置以及答案和文本之间的关系，通过这个策略，可以减少输入长文本而增加的噪声。

RNN网络在输入长序列的时候，在最后的隐层容易丢失最初的信息，使用注意力机制，使RNN网络可以考虑之前的所有输入的信息。

其中，W^s表示端到端网络训练的权重，U表示从初始时刻到最后时刻所有的隐藏状态组成的矩阵，即表示文本-答案矩阵，将U,W^s和u_t做softmax运算，然后与U做点乘获得在当前t时刻，基于文本并被编码端表示单词的加权和。

解码端使用了单向RNN网络，其目的是序列化的生成问题，其中输入是之前编码端的向量表示和上一步生成的单词。

d_t＝RNN^D(d_t-1，s_t-1)

d_t表示在解码端在时间t的隐藏层参数，s_t是编码端的最终向量表示。

然后将d_t投射到小学藏语词汇大小的空间中，经过softmax层计算在小学藏语词汇的分布概率，其中W^V是可计算的权重。公式如下：

P(y_t|{y_<t})＝softmax(W^Vd_t)

使用注意力模型提升端到端模型的效果，公式如下：

r_t＝U^TW^ad_t

其中，r_t是注意力的数值，U^T是在编码端的文本-答案矩阵，包含了输入文本和答案信息，d_t和U^T之间做矩阵乘法运算时，W^a是可被训练的权重。

对于增加可读性的方法，首先直接使用在解码端所得到的注意力的数值

每一个时间步骤中的单词都被视为唯一的复制目标，一个单词的最终得分计算为指向同一单词的所有分数之和。但是在长文本中，由于文本较长，输出句子中会有词汇重复的问题。复制机制可以很好的解决这一问题。复制机制公式如下：

其中，r_t,k为注意力数值，x_k和y_t分别代表输入中第k个词和解码序列中第t 个词的词汇指数。非出现词的得分被设置为负无穷大(-inf)，将被之后的 softmax函数掩盖掉。该方法限制了重复词汇的最大数值，降低了重复词汇出现的可能性。

最终模型搭建完成后，其问题生成效果举例如下：

原文：

译文：

秃鹫通常独自翱翔于视野开阔的地方，生活在海拔2000米5000米的山上或者草原

问题：

译文：秃鹫生活在海拔多高的地方？

回答：

译文：生活在海拔2000米到5000米的山上或者草原

本发明实施例通过设计的混合的多策略文本筛选模型，可以在大规模百科藏文文本中筛选出适合阅读的小学藏语文文章。并且设计了端到端的自动问题生成模型，它解决了小学藏语文阅读教学材料体裁少、更新速度慢，人工出题量少等问题，从而推动民族地区藏语教学的发展。

Claims

1.一种面向小学藏语文阅读问题自动生成的服务系统，其特征在于，包括藏语阅读语料库构建模型和藏文阅读文本问题生成模型；其中，

藏文阅读文本问题生成模型，包括编码端和解码端，其中，编码端使用双向RNN网络和注意力机制；解码端使用单向RNN网络、注意力机制和复制机制。

2.根据权利要求1所述系统，其特征在于，所述藏语阅读语料库构建模型具体用于，以小学藏语文教材(1-6年级)为训练语料，以文章长度、文章体裁、句子数量、平均句长、文章词汇量、词汇覆盖度、冗余度为特征，设计混合的多策略文本筛选模型，并从大规模百科藏文文本中得到适合小学藏语文阅读的材料。

3.根据权利要求1所述系统，其特征在于，所述筛选模型中集成了逻辑回归、KNN算法模型以及随机森林模型，设定7个类别，分别代表适合1-6年级阅读和不适合小学阅读，采用绝对多数投票法作为输出策略。

4.根据权利要求3所述系统，其特征在于，所述逻辑回归的公式为：

f_w,b(x)＝σ(∑_iw_ix_i+b)，

其中，x_i表示小学藏语文章的特征，w_i表示特征所具有的权重，b表示偏置，最终使用对率函数σ(Sigmoid)得到输出f_w,b(x)；

对于训练的损失函数，选择了交叉熵损失函数，公式如下：

其中，M为类别的数量；y_ic是指示变量(0或1),如果该类别和样本i的类别相同，y_ic就是1，否则是0；f_w,b(x)是逻辑回归的输出,表示某特定类别的概率。

5.根据权利要求3所述系统，其特征在于，所述KNN算法模型中，使用欧式距离公式作为不同类别距离的度量公式。公式如下：

其中，

和

为特征的空间坐标，L(x_i,x_j)得到的是两个特征的距离大小。在KNN算法中，先将文章特征归一化到共同的特征空间中，然后设置参数k，根据距离计算结果L(x_i,x_j)，取距离最近的k个特征点，其中哪个类别出现的最多，这个文章就属于这个类别。

6.根据权利要求3所述系统，其特征在于，所述随机森林模型，通过对训练集的抽样获得分布不同的训练子集；通过不同的训练子集来训练不同的决策树，随机森林包含训练得到的所有决策树；在做分类任务时遵循“少数服从多数原则”，将决策树分类结果最多的类别作为文章的最终分类结果；

a为类别的属性，v表示类别的划分，在文章分类任务中v＝7，表示文章分为7个类别；D表示所有的训练集，D^v表示第v个类别的数据集；Ent(D^v)表示第v个类别的数据集的信息熵；Gain(D,a)为信息增益，如果值越大，说明使用属性a来划分的效果越好。

7.根据权利要求3所述系统，其特征在于，所述绝对多数投票法的原则是得票过半数才可以得到输出，否则取最小数值作为最终输出，其公式如下：

f_i(x)为模型的分类结果，T为分类模型的数量，如果有一半以上的模型给出了相同结果(if Count(f_i(x))>0.5T)，将这个分类作为最终结果；反之，如果没有半数的模型给出相同分类结果，取最小数值作为最终结果。

8.根据权利要求1所述系统，其特征在于，所述双向循环RNN网络作为编码器，其中，

u_t＝RNN(u_t-1,x_t)

x_t表示在时间t的输入词汇，u_t表示RNN在t时间段的隐藏层；当输入是长文本时，文本的长度会引入大量的噪声，通过引入答案的位置信息进行解决，其中，

u_t＝RNN^E(u_t-1,[e_t,m_t])

e_t是单词的词向量表示，m_t表示e_t这个单词是否属于这个问题的答案的一部分；[a,b]表示的将a和b这两个向量做concatenation操作，在引入了u_t和[e_t,m_t]作为RNN网络的输入时，通过m_t可以知道答案的准确位置以及答案和文本之间的关系；

RNN网络在输入长序列的时候，在最后的隐层容易丢失最初的信息，使用注意力机制，使RNN网络可以考虑之前的所有输入的信息；

9.根据权利要求1所述系统，其特征在于，所述解码端使用了单向RNN网络，其目的是序列化的生成问题，其中输入是之前编码端的向量表示和上一步生成的单词；

d_t＝RNN^D(d_t-1,s_t-1)

d_t表示解码端在时间t的隐藏层参数，s_t是编码端的最终向量表示；

然后将d_t投射到小学藏语词汇大小的空间中，经过softmax层计算在小学藏语词汇的分布概率，其中W^V是可计算的权重；公式如下：

p(y_t∣{y_＜t})＝softmax(W^Vd_t)

使用注意力模型提升端到端模型的效果，公式如下：

r_t＝U^TW^ad_t

其中，r_t是注意力的数值，U^T是在编码端的文本-答案矩阵，包含了输入文本和答案信息。

10.根据权利要求1所述系统，其特征在于，所述复制机制直接使用在解码端所得到的注意力的数值

每一个时间步骤中的单词都被视为唯一的复制目标，一个单词的最终得分计算为指向同一单词的所有分数之和；在长文本中，输出句子中会有词汇重复的问题，复制机制公式如下：

其中，x_k和y_t分别代表输入中第k个词和解码序列中第t个词的词汇指数。