CN107977362B

CN107977362B - 一种用于中文文本定级以及计算中文文本难度评分的方法

Info

Publication number: CN107977362B
Application number: CN201711309105.5A
Authority: CN
Inventors: 郑子彬; 林星彤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2021-05-04
Anticipated expiration: 2037-12-11
Also published as: CN107977362A

Abstract

本发明涉及一种用于中文文本定级以及计算中文文本难度评分的方法，进行首先文本获取及等级标注，获取具有分类标签的作为训练集的文章，然后进行特征提取，获取每篇文章所对应的全部语言学特征的特征值；再之，进行模型的建立与检验，得出预测准确率达到预期的模型，最后采用得到的模型预测文本难度。本发明适用于各种需要评价文本易读性的场景之中，采用的支持向量回归算法模型通过提高特征的维度空间来达到更好的评分效果，优于传统的线性模型。

Description

一种用于中文文本定级以及计算中文文本难度评分的方法

技术领域

本发明涉及模型预测的技术领域，尤其涉及到一种用于中文文本定级以及计算中文文本难度评分的方法。

背景技术

随着网络技术的发展，互联网上每天都会产生如文本、图像、视频等海量的非结构化数据。对其中的文本数据，可以采用现代自然语言处理的技术加以处理，挖掘出隐含在文本中更有价值的信息。在很长一段时间里，自然语言处理的主流技术都是基于规则的，从各种句法分析到语义分析，而后有了互联网的发展，伴随着大量语料的产生，才让统计自然语言处理逐渐兴起。文本易读性研究就是其中的一个研究点。在语言学习过程中，教师们需要在大量教材中，选择出难度适中的文本供学生阅读。因此，如果有一款能快速将大篇幅的文本内容转化为一个度量文本易读性数值的工具，便可以为这些教育工作者提供很大的帮助。同时，这种文本难度评分方法也可以推广到大众传播的分析、政府及公共机构的公文、各类文献的易读性分析上。由于各种自然语言都具有相对特殊的语法规则，对于某些语言的文本难度研究方法并不能直接泛化到其他语言上，需要研究者在相应的语言学知识的指导下完成该语言的文本难度的研究。

现行的一种较为客观的文本难度测量方法是利用易读性公式预测。其中，对于英语的易读性公式研究是为最全面的。这些公式本质上都是对词汇难度和句法难度的测定，利用线性回归等方法得到各个变量的系数，经过线性组合得到公式。经历时间的推移，一门语言所用到的词汇也会有所发展，到后期易读性公式研究工作也会包含，词表更新、系数调整，从而得到新的易读性公式。近年来，也有研究者尝试利用构建语言模型的方法，用已经标注好易读性等级的文本作为训练材料，通过统计方法为各个等级的文本建立一元概率语言模型。通过将测试文本与各难度等级的语言模型进行比对，从而确定测试文本的等级。在这些方法中，Lexile框架应该算是在应用上最为广泛的。它在用户友好度、实用性方面做了比较多工作。它的设计者希望它可以给出一个精确的阅读理解能力的度量，让不同难度的文章能较准确地匹配到不同理解能力的读者。它们在特征处理方面，对先前Dale-Chall公式所用的方法上做出了改进，虽然选取的特征相类似但处理方法却有所不同。比如其他方法中常用的词语频率这个特征，Lexile则对平均的词频取了对数来作比较；再如平均句长这个特征也被取了对数来处理。而Lexile统计的词语频率也是在一个更大的五百万词规模的语料库中所得到的结果。这项研究成果至今都相当具有参考价值。

这些传统的易读性公式可以在某些特定的使用场景中发挥较好的效果。但如果将其推广到更通用的场景下时，会有所选特征不够全面、使用的线性模型效果不理想等问题。更为重要的是，针对拼音文字所选择的特征并不能很好的反应中文文本的难度特性。由于目前国内还没有出现能针对中文文本难度情况来进行评分的工具，国内的许多文本难度评分工作如教材评级等任务，依然采用了最原始的手工分级来完成。而对现有的，主题繁多、文体各异的中文文本，进行人工的难度评级是一件工作量巨大的事情，非常耗时。而且人工进行分级的结果往往非常主观，在复验时很难达成统一意见。

发明内容

本发明的目的在于克服现有技术的不足，提供一种适用于各种需要评价文本易读性的场景之中、评分效率高、评分准确度高的用于文本定级以及计算文本难度评分的方法。

为实现上述目的，本发明所提供的技术方案为：包括以下步骤：

S1、文本获取及等级标注，获取具有分类标签的作为训练集的文章；

S2、特征提取，获取每篇文章所对应的全部语言学特征的特征值；

S3、模型的建立与检验，得出预测准确率达到预期的模型；

S4、采用步骤S3得到的模型预测文本难度。

进一步地，步骤S1文本获取及等级标注具体包括以下步骤：

S11、选择合适的教材构建专用的中文教材文本语料库；

对于特定场景的文本难度评价，选择相同类型的语料库作为训练文本，而不简单地使用常见的通用语料库；如评价教材难度时使用已有的教材作为训练文本，评价政府公文的文本可读性时应用公文文本作训练文本；根据使用场景来构建的小规模专用语料库在训练时会使模型更适应于特定场景。

S12、对语料库文本进行初步筛选，剔除数据质量不高的文章；

S13、基于语料信息整合专家意见给出等级标注；

通过参照欧洲共同语言参考标准和国家汉办颁布的关于汉语教学的课程大纲两套语言框架体系，将中文文本难度等级划分为三等六级；经过初步筛选后，由语言学专家对所有文章参照以上的划分标准进行人工标注。

进一步地，步骤S2特征提取具体包括以下步骤：

S21、中文分词及词性标注：

首先根据内存词典，构建句子的有向无环图；对未被收录的词，采用HMM模型的Viterbi算法作分词处理；寻找有向无环图的最大概率路径，输出分词结果；并利用规则库进行词性标注；

S22、异常值处理：

通过数据分布等统计学方法发现离群点，对离群点进行剔除，对缺失值进行删除；消除这些异常值对模型效果的影响；

S23、数值化特征：

将词语与字词划分等级标准进行比对，对文章每一个字词进行等级标注；

S24、统计性特征：

统计文章的字词难度等级及词性标注情况，得到各字词等级的分布情况和词性分布情况，同时统计文章中句子数量、文本总字数、文本总词数。

进一步地，步骤S3模型的建立与检验具体步骤如下：

S31、通过支持向量回归算法构建SVR模型；

S32、将模型运算结果的值线性映射到等距离的区间上，根据运算结果划定评分区间所对应的等级，得到参考等级；

S33、采用十折交叉检验方法计算模型准确率，具体过程为：

把数据集平均分为十个部分，第一折利用数据集1作为测试集、其余的数据集2～10作为训练集，计算准确率；第二折利用数据集2作为测试集、其余的数据集1、3～10作为训练集，计算准确率；以此类推，分别算出十折的准确率，求其平均准确率；

若模型准确率达到预期，则训练出的模型用于预测一篇新输入的中文文本的文本难度。

进一步地，步骤S31通过支持向量回归算法构建SVR模型具体步骤如下：

基于特征训练集所在的样本空间，找到一个距离最大的划分超平面对应的回归模型，如式：

f(x)＝w^Tx+b,；

对于样本(x,y)，传统回归模型通常直接基于模型输出f(x)与真实输出y之间的差别来计算损失，当且仅当f(x)与y完全相同时，损失才为零；与此不同，本方案支持向量回归首先假设能容忍f(x)与y之间最多有∈的偏差，即仅当f(x)与y之间的差别绝对值大于∈时才计算损失；

求最优划分超平面即求出约束参数w和b，使得距离f(x)最大，即

s.t.y_i(w^Tx_i+b)≥1,i＝1,2,...,m.

通过求解凸二次规划问题，求出SVR问题的解，SVR的解形如式：

其中m表示支持向量数，α_i和

为拉格朗日乘子法的系数。

与现有技术相比，本方案原理和优点如下：

本方案进行首先文本获取及等级标注，获取具有分类标签的作为训练集的文章，然后进行特征提取，获取每篇文章所对应的全部语言学特征的特征值；再之，进行模型的建立与检验，得出预测准确率达到预期的模型，最后采用得到的模型预测文本难度。

本方案适用于各种需要评价文本易读性的场景之中，采用的支持向量回归算法模型通过提高特征的维度空间来达到更好的评分效果，优于传统的线性模型。

附图说明

图1为本发明一种用于中文文本定级以及计算中文文本难度评分的方法的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

参见附图1所示，本实施例所述的一种用于中文文本定级以及计算中文文本难度评分的方法，包括以下步骤：

S1、文本获取及等级标注，获取具有分类标签的作为训练集的文章，具体步骤如下：

S11、选择合适的教材构建专用的中文教材文本语料库；

S13、基于语料信息整合专家意见给出等级标注；

S2、特征提取，获取每篇文章所对应的全部语言学特征的特征值，具体步骤如下：

S21、中文分词及词性标注：

S22、异常值处理：

S23、数值化特征：

S24、统计性特征：

S3、模型的建立与检验，得出预测准确率达到预期的模型，具体步骤如下：

S31、通过支持向量回归算法构建SVR模型，过程为：

f(x)＝w^Tx+b,

s.t.y_i(w^Tx_i+b)≥1,i＝1,2,...,m.

其中m表示支持向量数，α_i和

为拉格朗日乘子法的系数；

S33、采用十折交叉检验方法计算模型准确率，若模型准确率达到预期，则训练出的模型用于预测一篇新输入的中文文本的文本难度。

S4、采用步骤S3得到的模型预测文本难度。

本实施例首先进行文本获取及等级标注，获取具有分类标签的作为训练集的文章，然后进行特征提取，获取每篇文章所对应的全部语言学特征的特征值；再之，进行模型的建立与检验，得出预测准确率达到预期的模型，最后采用得到的模型预测文本难度。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种用于中文文本定级以及计算中文文本难度评分的方法，其特征在于：包括以下步骤：

S3、模型的建立与检验，得出预测准确率达到预期的模型；

S4、采用步骤S3得到的模型预测文本难度；

步骤S2特征提取具体包括以下步骤：

S21、中文分词及词性标注：

S22、异常值处理：

通过数据分布这一统计学方法发现离群点，对离群点进行剔除；对缺失值进行删除；

S23、数值化特征：

将词语与字词划分等级标准进行比对，对文章中的每一个字词进行等级标注；

S24、统计性特征：

统计文章的字词难度等级及词性标注情况，得到各字词等级的分布情况和词性分布情况，同时统计文章中句子数量、文本总字数、文本总词数；

步骤S3模型的建立与检验具体步骤如下：

S31、通过支持向量回归算法构建SVR模型；

2.根据权利要求1所述的一种用于中文文本定级以及计算中文文本难度评分的方法，其特征在于：步骤S1文本获取及等级标注具体包括以下步骤：

S11、选择合适的教材构建专用的中文教材文本语料库；

S13、基于语料信息整合专家意见给出等级标注。