CN111090985A

CN111090985A - 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法

Info

Publication number: CN111090985A
Application number: CN201911192918.XA
Authority: CN
Inventors: 曾致中; 方淙; 余新国; 陈志平; 王静静; 袁航; 熊佳洁
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-05-01
Anticipated expiration: 2039-11-28
Also published as: CN111090985B

Abstract

本发明公开了一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法，步骤为：确定分类依据并归纳出不同的label；利用分类的依据将不同类型的文章数据集进行正确的划分；使用LEAM结构利用所有label的空间域分布与每个词的Embedding编码的距离远近分配attention的权重；将label嵌入进中文文本的Embedding空间中得到label的多维向量表示；针对于每一个类别人工选出一篇最能代表该类别的文章，将这篇文章编码，作为Siamese网络的一个输入；得到的文本编码与基准做差值然后送入softmax分类；根据与不同类型文本的相似度最后得出分类结果。本发明将文本的label与文中的字词一起进行Embedding，并将label同时多次嵌入到空间中，使得不同label的边界不是简单地耦合在一起，大大的降低欠拟合的问题，提高分类的准确率。

Description

一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法

技术领域

本发明属于教育信息化领域，具体涉及一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法。

背景技术

随着中国的经济腾飞，越来越多的外国友人来华生活，使得更多的人有了学习汉语的需求，不仅是中国的中小学生，还有更多热爱汉语的国外友人也迫切的想要提高自己的汉语水平。学习汉语文本是最有效的方式之一，但是学习一定难度汉语文本需要汉语学习者自身具备一定的文化素养，若是汉语学习者不满足对应文本对其汉语功底要求，则会事倍功半并且会极大的打击汉语学习者的兴趣爱好。并且在培养汉语学习者的写作能力的时候，应该有针对性的提供各种文体给其参考，并且能基于汉语学习者所写的作文文体来进行评判打分。故汉语文本文本难度评估是辅助汉语学习系统的关键技术。

文本难度评估是利用计算机对文本集按照一定的分类体系或者标准来进行文本标记分类，根据其是否使用深度学习技术分为两大类，第一类是基于传统机器学习文本难度评估，第二类是基于深度学习文本难度评估。当然第二类中的文本难度评估技术中有些情况会使用深度学习的方法和传统机器学习的方法相结合。

90年代后期，传统机器学习飞速发展，对于文本难度评估问题形成了一套固有的模式，特征工程+分类器模型。这里的特征工程就是将文本中的信息提炼，使计算机可以轻松识别读取文本中的信息，通常特征工程分为三步，第一步文本预处理，第二步特征提取，第三步文本表示。分类器模型比较著名的有朴素贝叶斯分类算法、KNN、SVM、最大熵等等。

基于深度学习的文本难度评估方法有fastText模型、TextCNN模型、TextRNN模型、TextRNN+Attention模型、bert模型结构等等。TextCNN是利用CNN来提取句子中类似n-gram的关键信息。TextRNN模型及Bi-directional RNN(实际使用的是双向 LSTM)从某种意义上可以理解为可以捕获变长且双向的的“n-gram”信息。后来全部只是用attention机制的bert模型使得CNN和RNN等方法黯然失色。

目前关于中文文本难度评估多是对于微博和新闻等简单短小的文本集进行分类，而针对于可供汉语学习者的汉语文本文本难度评估若是使用现有的方法效果都不太理想。

发明内容

针对现有技术以上缺陷或改进需求中的至少一种，由于汉语学习者的文本难度评估问题的复杂性，在面对汉语学习者不同的需求的时候，分类的标准会发生相应的变化，针对于该任务本发明提出了一种基于Siamese网络和改良版LEAM架构的新型模型来处理文本难度评估任务。将文本的label与文中的字词一起进行Embedding，并将label 同时多次嵌入到空间中，使得不同label的边界不是简单地耦合在一起，大大的降低欠拟合的问题，提高分类的准确率。

为实现上述目的，按照本发明的一个方面，提供了一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法，包括如下步骤：

S1、确定分类依据并归纳出不同的label；

S2、利用分类的依据，将不同类型的文章数据集进行正确的划分；

S3、使用LEAM结构利用所有label的空间域分布与每个词的Embedding编码的距离远近分配attention的权重；

S4、将label嵌入进中文文本的Embedding空间中，得到label的多维向量表示；

S5、针对于每一个类别，人工选出一篇最能代表该类别的文章，将这篇文章编码，作为Siamese网络的一个输入；

S6、得到的文本编码与基准做差值然后送入softmax分类；

S7、根据与不同类型文本的相似度最后得出分类结果。

优选地，步骤S3-S4具体为：

文本的分类标签y通过多个不同的标签嵌入锚点的编码向量进行编码，再与文本中选取的一句话x经字词编码成向量后、进行向量的点乘，得到权重矩阵G，标签嵌入注意力的权重β，再与文本中选取的该一句话x经字词编码成向量后、进行向量的点乘，得到该一句话x的输出编码Zi。

优选地，步骤S5-S6具体为：

预处理好后的文章X和预处理好后的标准文章Y，经过步骤S3-S4将所有的句子进行编码处理，得到编码向量组成的矩阵，一起进行一个pooling操作，再进行向量减法，然后计算差值的神经网络，送入sofmax分类。

优选地，步骤S5-S6中，根据预处理好后的标准文章Y输入的参数的变化而衍生出多个不同的Classifier结构。

优选地，步骤S7具体为：

将一篇预处理好的文章X输入到不同的Classifier结构中，选取相似度最大值，最后将所有的相似度评估汇总得出最终的划分结果Z。

上述优选技术特征只要彼此之间未构成冲突就可以相互组合。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提出的基于Siamese网络和改良版LEAM架构的新型模型的汉语文本文本难度评估方法，使用了两个空间编码，第一个是使用的是Siamese网络使得同样类型的文章在多维空间里能聚合在一起，而不同的类型的文章距离尽可能的远，第二个是使用的 label嵌入编码到词向量空间，使用多核心嵌入的方式避免了欠拟合，大大增加了文本难度评估的正确率。避免了传统算法低效且欠拟合的问题，最合理的使用了所有信息，使得分类依据增多效果显著。

附图说明

图1是本发明提出的基于Siamese网络和多核心LEAM架构的新型模型的汉语文本文本难度评估方法中的New-LEAM结构图。

图2是本发明提出的基于Siamese网络和多核心LEAM架构的新型模型的汉语文本文本难度评估方法中的Classifier结构图。

图3是本发明提出的基于Siamese网络和多核心LEAM架构的新型模型的汉语文本文本难度评估方法中的整体结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。

本发明提供了一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法，包括如下步骤：

S1、确定分类依据并归纳出不同的label；

S6、得到的文本编码与基准做差值然后送入softmax分类；

S7、根据与不同类型文本的相似度最后得出分类结果。

如图1所示，步骤S3-S4具体为：

文本的分类标签y通过多个不同的标签嵌入锚点的编码向量(如C1、C2、C3)进行编码，再与文本中选取的一句话x经字词编码成向量后、进行向量的点乘，得到权重矩阵G，标签嵌入注意力的权重β，再与文本中选取的该一句话x经字词编码成向量后、进行向量的点乘，得到该一句话x的输出编码Zi。

如图2所示，步骤S5-S6具体为：

预处理好后的文章X和预处理好后的标准文章Y，经过步骤S3-S4将所有的句子进行编码处理，分别得到编码向量组成的矩阵M1和M2，一起进行一个pooling操作，再进行向量减法，然后计算差值的神经网络，送入sofmax分类。

优选地，步骤S5-S6中，根据预处理好后的标准文章Y输入的参数的变化而衍生出多个不同的Classifier结构，如图3中的CF1、CF2、CF3、CF4。

如图3所示，步骤S7具体为：

将一篇预处理好的文章X输入到不同的Classifier结构(简称CF结构)中，选取相似度最大值，最后将所有的相似度评估汇总得出最终的划分结果Z。

下面，以更具体实例的方式展开说明。

本发明实施例提供了一种基于Siamese网络和改良版LEAM架构的新型模型的汉语文本文本难度评估方法，包括以下步骤：

(1)利用爬虫技术将作文网上的作文按照年级爬取(小学一年级到高中三年级)，并以年级为标准对数据集进行正确的划分，并将年级信息写入文件名的前面，存储为 txt格式。

(2)对于每一个年级的文章需要选取一篇最具有代表性的作为标杆文章单独拿出来，作为每一类型的标准代表。

(3)利用python将每篇文章以句子为单位进行切割，存储在list结构中，并且需要去除标点符号。

(4)将训练的时候每一篇文章是切割为多个句子的组合，所以句子才是输入的基础单元，而在对于一篇文章的每一个句子进行分类后，要使用求加权平均值来作为这篇文章的综合输出。

(5)参考图1，对于每一句话的输入，New-LEAM结构(简称NL结构)都会进行编码，因为使用多核心的label嵌入，所以会改变label注意力加权机制及β值，多核心会使label嵌入的边界更加细致，能更好的拟合数据。

(6)参考图2，将所有句子编码后，一起进行一个pooling操作，来得到本文的编码。然后与标准文本的编码进行比较，得出与标准文本的相似度。其中Y为预处理好后的标准文章，作为参数输入。

(7)参考图3，将一篇文章输入到不同的CF结构中，其中若干个CF结构不同点在于其结构中的Y标准输出的不同。最后将所有的相似度评估汇总得出最终的结果。

实验说明及结果：

本施例从13个作文网上爬取了共51356篇作文作文，依照从小学到高中12个年级进行作文分类，分别筛选出了各类作文4000篇、共48000篇作文，将作文存入txt格式，训练集和测试集和验证集比例为7:2:1分割，然后使用训练集按照具体实施方法去实施训练，同时观察验证集的准确率来选择终止训练的时间点。

每一次训练固定核心的模型时，会打乱所有样本顺序重取训练集、测试集和验证集，再次训练并验证，总共进行了10轮操作，下表结果为10次实验结果的平均值。

具体的实验效果如表1。

表1.实验结果

模型	核心数	F1-score均值
			New-LEAM+Siamese	1	87.32％
New-LEAM+Siamese	2	88.47％
			New-LEAM+Siamese	3	89.15％

因为计算力有限，不能进一步提高label嵌入的核心数，所以只进行了核心数分别为1、2、3这三组实验(并非对本发明的限制，本发明可以采用更多核心数)，但是可以看到当label的核心数提高时，会对最终的准确率产生较大的影响，核心数为3的实验组比核心数为1的要提高了1.83％的准确率。

综上所述，本发明提出的基于Siamese网络和改良版LEAM架构的新型模型的汉语文本文本难度评估方法，使用了两个空间编码，第一个是使用的是Siamese网络使得同样类型的文章在多维空间里能聚合在一起，而不同的类型的文章距离尽可能的远，第二个是使用的label嵌入编码到词向量空间，使用多核心嵌入的方式避免了欠拟合，大大增加了文本难度评估的正确率。避免了传统算法低效且欠拟合的问题，最合理的使用了所有信息，使得分类依据增多效果显著。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法，其特征在于，包括如下步骤：

S1、确定分类依据并归纳出不同的label；

S6、得到的文本编码与基准做差值然后送入softmax分类；

S7、根据与不同类型文本的相似度最后得出分类结果。

2.如权利要求1所述的基于siamese网络和多核心LEAM架构的中文文本难度评估方法，其特征在于：

步骤S3-S4具体为：

3.如权利要求2所述的基于siamese网络和多核心LEAM架构的中文文本难度评估方法，其特征在于：

步骤S5-S6具体为：

4.如权利要求3所述的基于siamese网络和多核心LEAM架构的中文文本难度评估方法，其特征在于：

步骤S5-S6中，根据预处理好后的标准文章Y输入的参数的变化而衍生出多个不同的Classifier结构。

5.如权利要求4所述的基于siamese网络和多核心LEAM架构的中文文本难度评估方法，其特征在于：

步骤S7具体为：