CN115859962B

CN115859962B - 一种文本可读性评估方法和系统

Info

Publication number: CN115859962B
Application number: CN202211686494.4A
Authority: CN
Inventors: 杨丽姣; 徐会丹; 苏洪广; 邱丹阳; 缪蔚; 葛子岚; 宾帅
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-06-16
Anticipated expiration: 2042-12-26
Also published as: CN115859962A

Abstract

本发明涉及一种基于《国际中文教育中文水平等级标准》的文本可读性评估方法，包括：S1、计算待评估文本的字特征、词特征、句特征和/或语篇特征；S2、根据文本可读性公式计算待评估文本的文本可读性；S3、根据文本可读性确定待评估文本的等级。根据本发明，构建了一套涵盖汉字、词汇语义、语法结构、篇章语义等多维语言层级的可读性特征，能够解析《国际中文教育中文水平等级标准》(以下简称《等级标准》)的三等九级文本难度水平，经验证准确率达82.7％以上，对于国际中文教育领域互联网阅读资源的评估利用、智能辅助阅读应用研发以及新国标的应用推广具有重要意义。

Description

一种文本可读性评估方法和系统

技术领域

本发明属于计算机技术领域，尤其涉及一种基于《国际中文教育中文水平等级标准》的文本可读性评估方法和系统。

背景技术

2021年11月，国务院办公厅正式印发《关于全面加强新时代语言文字工作的意见》，其中，对于推进语言文字规范化、标准化、信息化建设，推动语言文字与人工智能等信息技术的深度融合，加强国际中文教育和服务，大力提升中文国际地位和影响力，完善国际中文教育标准，加强中文在海外华文学校的推广应用，传承弘扬中华优秀语言文化，提升国家文化软实力等进行了战略部署。

在国际中文教育标准建设方面，早在2007年，中国国家汉语国际推广领导小组办公室(国家汉办)便推出了《国际汉语能力标准》，《国际汉语能力标准》面向汉语作为外语的学习者，对学习者运用汉语知识和技能进行交际的能力面提供了三层五个级别的描述，以此作为制订国际汉语教学大纲、编写教材和测评汉语学习者语言能力的参照性纲领文件。2010年，国家汉办/孔子学院总部研制，教育部、国家语言文字工作委员会发布了《音节和汉字词汇等级划分》发布汉语国家教育用分级的音节表、汉字表、词汇表。统筹考虑等级划分、等级水平与评价体系的完整性和系统性，描述并划分了一级(普及化水平)、二级(中级水平)、三级(高级水平)标准，以指导汉语国际教育总体设计、教材编写、课堂教学、课程测试等。

2021年7月由教育部中外语言合作交流中心(原国家汉办)研制、国家语委发布最新的《国际中文教育中文水平等级标准》(简称为《等级标准》)，是国际中文教育领域最新的国家语言文字规范标准，《等级标准》对之前的各类纲领性文件做了继承、汇总和提升，反映了国际中文教育科学化的发展理念。《等级标准》创新提出了包容性混合型全方位“三等九级”新范式，反映了新时代全世界多层次考试、教学、学习和评估的需求，反映了国际中文教学理念的系统性变革。《等级标准》发展了“言语交际能力”“话题任务内容”“语言量化指标”三个维度，优化了听、说、读、写、译五项语言技能，延续了聚焦语言交际能力、以“能做”描述界定语言水平的思路，通过掌握对应语言要素的量化指标，与“外语使用者运用目标语言能够做什么”两个角度相结合描述语言能力，确保每一级标准的科学性、精准性和可操作性。《等级标准》更加注重突出中文特色，继承了以汉字、词汇和语法为核心划分中文水平的传统，拓展为“音节、汉字、词汇、语法”四维基准，等级清晰，内容明确，也更加符合中文教学的规律。

其中，初等、中等水平阶段，《等级标准》按1-6级提供分级的汉字、词汇量化数据支撑，高等水平阶段，不细分7、8、9级，统合提供高等汉字、词汇的量化数据支撑。语法点则按初、中、高三等提供量化数据支撑。本发明利用上述最新数据，建设了核心基础资源，用于文本可读性算法构建。

文本可读性(Text Readability)指文本对于阅读者而言易于理解的程度和性质，是与文本难度(Text Complexity)相近的概念，可以通过对文本语言特征的量化分析加以预测。若阅读文本的可读性与汉语作为第二语言学习者的水平不相匹配，太简单、太困难或不易理解，对学习者的学习动机和效率必然产生负面影响。另一方面，从资源建设的角度来看，互联网、数字化环境深刻影响了教与学的理念创新和生态发展，文本可读性研究对于文本难度评估、选择以及线上阅读资源的有效利用具有重要意义。在国际中文教育领域，近年来，尽管研究者提出了多个文本可读性计算方法，但教学实践中缺乏对相关方法及工具的应用报告。教材研发上，一方面，国际中文教材的种类与总量急据扩张，另一方面，编者往往参照国内外相关标准大纲自定义难度等级。

文本可读性研究已有近百年的历史。早在1923年，Lively&Pressey便通过衡量文本简单词语数目等变量提出了第一个可读性公式。针对英语文本可读性预测，前期影响广泛的可读性公式还有The FORCAST Formula，Flesch-Kincaid Formula等。早期的研究者并未引入大规模的语料数据，而是利用有限的语言浅层变量，开展多元回归分析，测定变量和文本可读性的函数关系，通过数学建模，拟合文本可读性公式。其中，句长、音节数、难词比例等成为常见的指标。

随着研究不断推进，人们发现仅使用语言浅层指标难以准确预测文本可读性。为引入更多因素，基于语料样本及数据分析的统计语言建模方法在文本可读性研究中得以应用。如Stenner(1996)使用来自大型英语语料库的单词频率统计预测文本可读性；Collins-Thompson&Callan(2005)提出统计语言建模方法，将文档视为单个等级语言模型的混合等。

进入二十一世纪以来，随着自然语言处理技术的发展，许多机器学习算法也被应用在文本可读性研究中，如支持向量机(SVM)，K最近邻算法(KNN)、贝叶斯分类等(Schwarm&Ostendorf,2005；Heilman et al.,2007；Leroy et al.,2008)。这类方法的主要特点是利用精标注语料数据，训练得到文本可读性分类器，将文本可读性预测视为自然语言处理分类任务。自然语言处理技术对于文本可读性研究的推动还体现在使不同语言层级的越来越多的语言特征的机器识别与量化计算成为可能，出现了Coh-Metrics英文文本特征及难度分析系统。Coh-Metrics在浅层语言特征基础上，将基于词向量算法的潜语义分析引入文本语义凝聚度计算，以辅助用户的文本难度评估。

然而，由于汉英语言系统特征差异较大，英文文本可读性研究成果并不完全适用于中文文本可读性研究。

最近十年来，面向国际中文教育的文本可读性研究逐渐受到研究者重视，相关进展归纳如下：

(1)探究不同语言特征对文本难度的影响权重。研究主要涉及字层面、词汇层面以及句子层面的浅层特征变量。字层面的特征较常提到的有：汉字部件数、汉字笔画数、字种数、简单字数、高水平超纲字数及文本总字数等；词汇层面的特征较常提到的有：词频、平均词长、高水平超纲词数、简单词数、固定词组数、虚词数、实词与虚词比、文本总词数等；句子层面的特征较常提到的有：平均句长、分句数、分句平均词数、语法点难度、文本句子总数等(张宁志，2000；李燕&张英伟，2010；朱勇&宋海燕，2010；李娟，2013；朱勇&邹沛辰，2012；黄林芳，2013)。值得注意的是，近几年，基于语文教材语料面向汉语母语分级阅读的文本可读性研究在关键指标方面同样取得不错的进展，王慧萍&杨丽姣(2019)、程勇等(2020)、赵凤娇(2020)等人的研究均发现词汇密度、词汇多样性指数、平均句长等指标在中文文本可读性预测方面具有重要价值。

(2)提出多个文本可读性公式。主要采用传统的多元回归分析计算方法，拟合文本可读性公式，验证并评估这类可读性公式的优劣(张宁志，2000；王蕾，2005，2017；杨金余，2008；郭望皓，2010；左虹&朱勇，2014等)。

(3)研制文本可读性智能分析系统。主要有两个应用，1)基于欧盟语言框架学习者语言能力三等六级等级标准(CEFR)，利用词汇语义、句子结构等维度的30个特征构建了中文文本自动化分析系统CRIE(Chinese Readability Index Explore)(见参考文献1)，准确率据自测达到74.97％，但缺乏更多实际应用的报告。2)基于汉语HSK考试三等六级框架，采用词汇难度、平均句长、最长句长、文本长度四个特征的汉语文本难度自动定级应用“汉语阅读分级指南针”(见参考文献2)，该应用不能衔接《等级标准》难度框架，也缺乏文本难度定级方法以及准确率测试方面的报告。

总的来看，近年来，面向国际中文教育的文本可读性研究取得了较大进展，但局限性仍比较突出，主要表现在以下三个方面：

(1)特征构建策略单一。大多数研究都使用浅层可量化语言特征进行文本可读性计算，从汉语作为第二语言学习者词汇语义认知特点出发的特征构建及融合认知测量、计算机深度学习方法的跨学科研究与基础资源建设十分缺乏。

(2)大多针对各类教材文本的可读性定级进行算法构建与评估，忽视对自然文本可读性计算的应用研究。

(3)符合国际中文教育应用需求并适应《等级标准》三等九级文本水平难度框架的文本可读性智能评估技术尚有较大的发展空间。相较于原来分6级，现在分9级所涉及到的音节、汉字、词汇和语法四种基本要素范围变多，另外还涉及听、说、读、写、译五个功能，言语交际、话题人物、语言量化三个评价方向。所以相比原来分6级，目前分9级，难度已然提高，原有的各种6分级方法已然无法适用于三等九级的难度框架。同时，《等级标准》新增了7-9级，这三级统一规定了字、词、语法等信息，但没有像1-6级那样每级有具体的规定，因此，无论从级别划分还是级别所对应的新的内容上看，现有的分级方法都无法对新增的7-9级进行划分。

参考文献：

1.[EB/OL]“CRIE”http://www.chinesereadability.net/CRIE/？LANG＝CHT。

2.[EB/OL]“汉语阅读分级指南针”https://www.languagedata.net/editor/。

发明内容

针对以上问题，本发明通过文本可读性对文本进行评估，以得到符合《等级标准》三等九级的文本水平难度框架的结果。本发明综合运用语料库语言学方法、中文信息处理技术与计算机深度学习算法，结合面向外国中文学习者的词汇认知测量数据，建设大规模词语抽象度数据、文化词分层数据等基础性资源，开展多轮次、多维度文本可读性关键指标实验研究，最终构建了一套涵盖汉字、词汇语义、语法结构、篇章语义等多维语言层级的国际中文教育文本可读性特征体系，提出并验证了与《等级标准》等级框架相适应的细粒度文本可读性评估方法和系统。

本发明提出的一种基于国际中文教育中文水平等级标准的文本可读性评估方法，包括：

S1、计算待评估文本的字特征、词特征、句特征和/或语篇特征；

S2、根据文本可读性公式计算待评估文本的文本可读性；

S3、根据文本可读性确定待评估文本的等级。

进一步地，在步骤S1中，所述字特征包括复杂字比重、非重复字比重，其中，复杂字比重＝复杂字字数/总字数，非重复字比重＝常用字字种数/总字种数。

进一步地，所述复杂字为复杂罕用汉字数据集中的字，所述复杂罕用汉字数据集为《国际中文教育中文水平等级标准》和自建分级字表中7-10级字。

进一步地，所述词特征包括词汇多样性指数、平方根词汇多样性指数、命名实体数、成语数、抽象度词语均值、复杂词比重、常用词比重、多义词比重、低透明词复合集比重、词汇密度。

进一步地，抽象度词语均值为文本中所有名词、动词、形容词的抽象度的平均值，通过大规模汉语抽象度词表获取，所述大规模汉语抽象度词表的构建方法包括：

S11、收集语料，获取所述语料中的名词、动词、形容词；

S12、将待评估词语w转换为词向量，计算词语w与词集seedA和seedC的平均相似度，公式如下：

其中，a为典型抽象词集seedA中的词语，c为典型具体词集seedC中的词语；

S13、计算待评估词语w的词语抽象度Abstractness(w)，公式如下：

S14、循环执行步骤S12、S13，从而生成大规模汉语抽象度词表。

进一步地，将Xu&Li(2020)基于人工评分方法构建的数据分为典型抽象词集seedA和典型具体词集seedC。

进一步地，所述低透明词复合集比重通过低透明词词表及文化词数据集获得，其中，所述低透明词词表的构建方法为：

利用OpenHownet语义知识库中复合词及其构词语素的释义数据，采用Qi(2019)提出的语义透明度分级计算公式，获取低透明词数据2652条；对照《等级标准》1-9级词表数据以及国家语委平衡语料库词频数据，筛除属于《等级标准》1-9词表中的词汇，筛除属于国家语委平衡语料库中词频排序前10000的词汇；

所述文化词数据集的构建方法为：

采集《中华传统文化简明词典》(许嘉璐主编)、国际中文教育研究文献中的文化词表以及国际汉语教材语料库中双音节为主的文化词数据；

利用国际汉语教材语料库词频数据、国家语委通用平衡语料库词频数据以及《等级标准》词表，根据频率以及《等级标准》是否收词对所述文化词数据进行筛选过滤，获取分层文化词数据2832条，构成文化词数据集；

将获取的分层文化词数据与构建的低透明词词表合并，构成低透明词复合集，用于文本可读性计算实验。

进一步地，所述句特征包括：平均句法树深度、平均介词结构数、小句数、最大句长、初级语法点密度、高级语法点密度；所述语篇特征包括：连词数、人称代词数、人称代词多样性指数。

进一步地，在S2中，文本可读性计算公式如下：

文本可读性＝b+a1×复杂字比重+a2×非重复字比重+a3×命名实体数+a4×成语数+a5×抽象度词语均值+a6×复杂词比重+a7×常用词比重+a8×多义词比重+a9×低透明词复合集比重+a10×词汇密度+a11×词汇多样性指数(TTR)+a12×根号词汇多样性指数(RTTR)+a13×平均介词结构数+a14×小句数+a15×最大句长+a16×平均句法树深度+a17×初级语法点密度+a18×高级语法点密度+a19×人称代词数+a20×人称代词多样性指数+a21×连词数；

其中，a1为各特征关联关系系数，b为常量，a1和b利用训练集采用回归分析方法获取。

根据本发明的另一方面，提出一种基于国际中文教育中文水平等级标准的文本可读性评估系统，包括：特征获取模块、复杂罕用汉字数据集、简单常用汉字数据集、复杂罕用词数据集、简单常用汉字数据集、成语数据集、大规模汉语抽象度词表、低透明词词表、文化词数据集、多义词数据集、高难度语法点数据集、低难度语法点数据集、文本可读性计算模块、模型参数计算模块和分级模块；其中，

特征获取模块，用于获取待评估文本的字特征、词特征、句特征和语篇特征；

文本可读性计算模块，用于根据文本可读性公式计算待评估文本的可读性；

模型参数计算模块，用于构建训练集，然后通过特征获取模块获取训练集中各样本的特征，通过回归分析方式获取文本可读性计算公式中的各项参数；

分级模块，用于根据待评估文本的可读性，以及分级标准，对待评估文本进行分级。

本发明与现有技术相比的有益效果为：

(1)《国际中文教育中文水平等级标准》是全新推出的、以三等九级为基本范式的国际中文教育领域国家语文文字规范标准。本发明首次解析《等级标准》的三等九级文本难度水平，并基于《等级标准》文本难度等级框架，提出一种国际中文教育领域定级化文本难度的评估方法，经验证准确率达82.7％以上，比以往研究中可供验证的可读性算法效果好。

(2)本发明构建了一套涵盖汉字、词汇语义、语法结构、篇章语义等多维语言层级的可读性特征，突破以往汉语可读性研究主要基于浅层可量化特征如汉字笔画数、词频、句长等机械指标预测文本难度的局限，在文本可读性指标(尤其是在语义句法方面)以及所涵盖语言维度的丰富性方面具有创新性。

(3)本发明首次提出并验证了以大规模词语抽象度数据集为支撑的词语抽象度均值在文本可读性预测中的突出价值。在所有特征中，权重最高的六个特征依次为(权重值＞0.1)：抽象度词语均值、根号词汇多样性指数(RTTR值)、非重复字比重、常用词比重、词汇多样性指数(TTR值)、平均句法树深度。词汇抽象度均值不仅具有良好的语义以及认知可解释性，对于文本可读性计算的贡献度也是最高的。

(4)首次面向国际中文教育领域，研制了适应新《等级标准》的文本难度智能分析系统，实现多层级关键文本特征的自动识别与量化计算，分析效果显示系统达到了实际应用水平，对于国际中文教育领域互联网阅读资源的评估利用、智能辅助阅读应用研发以及新国标的应用推广具有重要意义。

附图说明

图1为根据本发明一个实施例的文本可读性评估方法的流程示意图；

图2为根据本发明一个实施例的大规模汉语抽象度词表的构建流程示意图；

图3为根据本发明一个实施例的文本可读性计算公式中各参数的获取流程示意图；

图4为根据本发明一个实施例的文本可读性评估系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清查、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的一种基于国际中文教育中文水平等级标准的文本可读性评估方法，如图1所示，包括以下步骤：

S2、根据文本可读性公式计算待评估文本的文本可读性；

S3、根据文本可读性确定待评估文本的等级。

在步骤S1中，结合语言特征以及认知因素，对字词层级的可读性特征进行分析与评估，融合语料库方法、词汇认知测量及深度学习算法建设字词数据库资源，同时也分析和评估句子以及语篇层级的特征及其计算方法。

1.计算获取字特征

汉字是汉语的书写符号系统，识字是汉语阅读的基础。在已知字层面特征中，字的笔画数、频率信息是影响汉字认知、与文本可读性相关性最高的关键因素。大量心理学研究发现，笔画多少对于汉字识别有显著影响，这种效应在低频字中尤为明显(沈烈敏、朱晓平，1994)。频率信息不仅涉及字层面，也涉及词层面。频率是以计算字词在语料样本中的使用次数与语料样本总字词数的比率得出的，大规模语料的字词频率客观上反映其在语言生活中的常用度，是研制各类基础性字表、词表的重要参照。结合个体认知特点，频率已被广泛证实是汉语字词辨识加工中最稳定、最重要的影响因素(沈烈敏、朱晓平，1994；陈宝国等，2006；张金桥，2008)。具体表现为高频字加工速度快、错误率低；低频字加工速度慢，错误率高。不仅如此，汉字形、音与义联结的强度与汉字频率密切相关，直接影响了汉字加工的效果。

本发明综合评估汉字的频率、笔画数、复杂度、构词能力等属性，基于《等级标准》中高、低两个汉字等级的汉字数据，利用国际汉语教材语料库(整理国际汉语教材语料形成语料数据库)字词频率统计信息、国家语委通用平衡语料库字词频率统计信息等，从语言与认知多因素考量，提出汉字认知对立性差异这一概念，并建立面向可读性计算的复杂罕用汉字数据集和简单常用汉字数据集。其中复杂罕用汉字集为《国际中文教育中文水平等级标准》和基于部编版小学生语文教材数据建设的分级字表中的7-10级字，简单常用汉字集为常用字表。

字特征为2个，如表1所示。

表1字特征定义

2.计算获取词特征

在多层级语言特征中，词汇语义特征的量化计算是影响文本可读性评估的核心因素。本发明针对汉语作为第二语言学习者文本阅读及词汇认知的难点与特点，从词频概貌、词汇密度及多样性指数、词语抽象度、词义透明度、文化词分布等入手，进行了融合多策略方法的词语数据集建设及词特征的计算。

词特征有10个，如表2所示。

表2词特征定义

(1)词汇多样性指数即文本中用词的多样化程度，本发明采用TTR指数(自然文本中类符数与形符数之比)以及RTTR指数(类符数与根号(形符数)之比)探测文本词汇丰富性程度。其中，类符表示一个词在文本中的唯一性，通过分词软件对待评估文本进行分词，所有词的数量之和为形符数，去除重复词后词的数量之和即为类符数(同一个词在文本中无论出现多少次都计为一个类符)。

(2)命名实体通过词性标注进行获取，文本中出现人名、机构名、地名以及其他所有以名称为标识的实体都计算为命名实体。

(3)名词、动词、形容词抽象度通过抽象度词表获取，每个词对应一个抽象度值。词语抽象度指词语的所指对象能够被实体感知到的程度，例如“桌子”与“想法”，前者可感可触，十分具体；后者无法通过人的感官被直接体验，抽象度高。主体对词语的抽象度感知与词语的所指对象、概念类属、词类属性及语义认知激活等因素有关，从对立性范畴出发，可以将词语分为具体词和抽象词。大量心理语言学研究表明，具体词比抽象词处理得更快、更准确，更容易被习得和理解。英语抽象词研究、数据建设及其文本可读性应用都较为丰富，而汉语研究中，语言学及认知心理学不乏对于汉语词语抽象性的相关论述，但抽象性数据建设十分薄弱，在文本可读性领域的应用尚属空白。目前规模最大的汉语抽象度资源为Xu&Li(2020)基于人工评分方法构建的数据，提供了近1万汉语词的抽象度评分，但与汉语总词量相比远远不够。

本发明以Xu&Li(2020)基于人工评分方法构建的数据为基础，构建了大规模汉语抽象度词表，如图2所示，具体的构建方法如下：

S11、收集语料，比如在互联网上、词典、语料中获取名词、动词、形容词；

S13、计算待评估词语w的词语抽象度Abstractness(w)，公式如下：

循环步骤S12、S13，从而获得大规模汉语抽象度词表，在本发明中，将Xu&Li(2020)基于人工评分方法构建的数据分为典型抽象词集seedA和典型具体词集seedC；最终构建的词表规模达7.4万词汇。

(4)复杂词和常用词，通过罕用词数据集和常用词数据集进行判定。在阅读文本中，如果常用度低、较为罕用的词语占比太大，将增加阅读理解的难度。反过来，如果常用度高的词语占比较高，往往降低文本的难度。因此，根据词频将词语进行粗颗粒划分，计算文本所用词语在不同等级词频集合中所占的比重，便可以刻画文本中词语使用的常用性或罕用性，进而预测文本可读性。本发明根据综合利用《等级标准》中高等级词、低等级词数据，以及国际汉语教材语料库高频词、低频词数据，构建了罕用词数据集和常用词数据集(罕用词8521个，常用词3501个。罕用词即为复杂词)。

(5)多义词数为文档中多义词的数量，分词后在多义词表中进行查询，如存在则计为1。

(6)词汇密度为实词数与文本形符数的比率。在阅读文本中，所用实词占比越高，文本中的概念密度往往越高，文本信息量也越大，文本认知难度相应增加。文本中形容词、副词、名词、动词数量，可通过分词、词性标注获取。

(7)低透明词，与高透明词相对，均为复合词，多为两个语素结成，认知上存在通过语素义推测整体词义的加工效应，可以根据构词语素义与整词意义的重合交叉程度，或以语素义推知整词义的可猜测程度，从对立性范畴出发对复合词的词义透明度进行评估。例如“写作”为高透明词，而“写意”为低透明词。汉语作为第二语言教学研究及心理学研究表明，汉语复合词的不透明性增加了学习者词汇认知的难度。由于汉语词义透明度数据资源较为薄弱，在文本可读性领域的应用尚属空白。低透明度词词表的构建方法，包括：利用OpenHownet语义知识库中复合词及其构词语素的释义数据，采用Qi(2019)提出的语义透明度分级计算公式，获取低透明词数据2652条；对照《等级标准》1-9级词表数据以及国家语委平衡语料库词频数据，筛除属于《等级标准》1-9词表中的词汇，筛除属于国家语委平衡语料库中词频排序前10000的词汇，从而构成低透明词词表，包括低透明度词数据1895条。

(8)文化词指蕴含社会文化意义的词语，文化意义就是指社会赋予词语的引申义、联想义、比喻义、象征义等。从广义上说，一种语言中的所有词汇都蕴含着文化信息，或多或少地反映了语言主体民族的物质精神财富的创造或认知思维的集体无意识。“文化词”是从词汇内涵中的文化信息可能被感知、被辨识的程度来考察的，区别于语言中的基本词汇。在汉语语言学研究及汉语教学领域，文化词研究非常丰富，大多数研究者认同文化词的内涵涉及中华民族文化中的特定产物、观念、行为方式、历史记忆等。例如“科举”“孔子”“如来”“节气”等都是典型的汉语文化词。由于二语学习者文化背景、知识结构的差异，文本中文化词数量及词种类过多必然增加文本阅读的难度。

本发明构建了文化词数据集和成语数据集。文化词数据集有多个来源，采集了《中华传统文化简明词典》(许嘉璐主编)收词、国际中文教育研究文献中的文化词表以及国际汉语教材语料库中双音节为主的文化词数据4000余条。利用国际汉语教材语料库词频数据、国家语委通用平衡语料库词频数据以及《等级标准》词表，根据频率以及《等级标准》是否收词对原始数据进行筛选过滤，将文化词分为高、中、低三个层级，包括产物、观念、行为习俗、文化名人、语言文字、称谓与交际等十一个类别(可对文化词从文化意义类别、文化结构、文化范畴等维度进行分类，例如：1、产物：青铜器；2、观念：风水；3、行为习俗：刮痧；4、文化名人：孔子；5、语言文字：甲骨文；6、称谓与交际：状元等)，建立了初加工文化词分层数据集。

为与个体认知结合得更为紧密，本发明在此基础上又进一步开展了实证研究，从学习者角度调整文化词层级。本发明以汉语作为第二语言学习者为研究对象，采用五点量表测量学习者文化词认知广度以及文化词认知差异的显著性，实验结果证明不同水平汉语学习者与不同层级文化词认知度存在较强相关。根据学习者的表现与反馈调整文化词分层结果，最终获取分层文化词数据2832条。

由于文化词的低透明性及数据集规模因素，将获取的分层文化词数据与构建的低透明词词表合并，构成低透明词复合集，用于文本可读性计算实验。

此外，在成语方面，其格式固定、意义整体生成，蕴含了丰富的历史文化知识。大量汉语教学研究表明，成语是汉语词汇教学的难点之一，也是造成文本阅读理解障碍的因素之一。本发明基于互联网的海量数据、国际语委语料库数据、国际汉语教材语料库数据等，构建了规模达3万条的成语数据集。

3.计算获取句特征

句特征为6个，如表3所示。

表3句特征定义

(1)从汉语作为第二语言教学实践可知，语篇层面的语法点数量及分布与文本综合难度密切相关。《国际中文教育中文水平等级标准》(2021版)中“附录A：(规范性)语法等级大纲”将语法点分为1-9级，其中1-3级为初级语法点、4-6级为中级语法点、7-9级为高级语法点，本发明采用的是初、高级语法点密度。采用两端(初、高级语法点密度)用于特征计算，主要基于特征显著性层面考虑，特征显著性越强，区分事物的能力越强。故而剔除显著性较弱的中级语法点密度。

(2)句法树深度描述的是句子结构的复杂程度(可拆解的层次数为深度)，语法点密度(语法点数量/文章字数)，代表了文章中语法点含量高低，从直观经验感知，其对文本的难度影响为正相关联。句法树可以通过现有的软件对输入的文本进行转换，从而获得每一句话的句法树和句法树深度。然后所有句法树深度相加，再除以复句的数量，即可获得平均句法树深度。

(3)平均介词结构数、小句数、最大句长，通过现有的分词或分句等软件即可获取。汉语中介词与名词或名词性成分共同构成意义完整的介词结构整体，用来标志时间(在、从、打等)；标志处所、方向(向、从、打、自等)；标志原由、目的(为、为了、由于、因为)；标志方式(用、拿、靠等)；标志关涉(关于、对于等)；标志条件、依据(依、依照等)；标志对象(给、对、冲等)；标志比较(比、跟等)；标志排除(除、除了)；标志协同(和、跟、与)；标志距离(经、经过)；标志主题(作为、至于)等语义角色。句子语义角色越复杂、书面语色彩阅丰富，越倾向于使用一个或多个介词结构。因此，抽取语篇中的介词结构，统计其数量，获取的介词结构数对于文本难度预测具有较好的应用价值。

人类短时记忆加工具有广度效应，其容量是有限的，体现为5-9个项目单位(Miller，1956)。受制于短时记忆效应，一个句子构成成分序列越长、组块单位越多、嵌套关系越复杂，认知加工难度便越大，这是人类语言的共同特点。因此，反映了句子组块单位数量、嵌套关系复杂度的句长、句法树深度特征，在文本可读性特征体系中具有较高应用价值。

4.计算获取语篇特征

在语篇层面，文本难度感知不仅与文本语言特征相关，也与非语言因素，如读者认知能力、文化背景、知识结构，以及教学上的阅读活动处理等有关。本发明仅就语言因素进行实验及验证。

在语篇层面，从语言学可解释性上说，主题、语体、指代关系、语义凝聚度、隐喻表达等，对于文本难度均有影响。本发明采用连词数、人称代词数、人称代词多样性指数作为语篇特征，连词是用来连接词与词、词组与词组或句子与句子、表示某种逻辑关系的虚词。人称代词指代人物。连词的数量表示了文本中句子组合的复杂程度。人称代词数及人称代词多样性反映了到文本涉及到的人或事物的多样性，对于文本难度预测有较好的应用价值。如表4所示。

表4语篇特征定义

在S2中，计算文本可读性的公式如下：

文本可读性＝b+a1×复杂字比重+a2×非重复字比重+a3×命名实体数+a4×成语数+a5×抽象度词语均值+a6×复杂词比重+a7×常用词比重+a8×多义词比重+a9×低透明词复合集比重+a10×词汇密度+a11×词汇多样性指数(TTR)+a12×根号词汇多样性指数(RTTR)+a13×平均介词结构数+a14×小句数+a15×最大句长+a16×平均句法树深度+a17×初级语法点密度+a18×高级语法点密度+a19×人称代词数+a20×人称代词多样性指数+a21×连词数。

其中，ai为特征关联关系系数，b为常量。ai、b的获取方法，如图3所示，包括：

构建训练集；根据步骤S1获取训练集中各样本的特征；通过回归分析等方式训练得到a和b。

得到的文本可读性为0-9之间的数值，通过四舍五入的原则进行分级，小于等于1.5的为一级，大于等于1.5小于2.5的为二级，依此类推，大于等于8.5的为九级。

实施例1

(1)构建训练集。本实施例中，使用的原始数据来源有三类：1)教材，包括《新实用汉语课本》(刘珣等，2006)、《中文听说读写》(Integrated Chinese,3rd Edition)(刘月华、姚道中等，2008)、《跟我学汉语》(第二版)(陈绂等，2014)等经典国际汉语教材，共计197册。采集符合阅读需求的课文语料，共计5200语篇，并带有人工标注难度，可作为训练集和验证集的挑选；2)HSK测试样卷中的阅读题文本，共300语篇；3)互联网及期刊文本，共3000语篇。这些语篇涵盖5类语体，包括：口语对话、新闻媒体报道、应用文、文学作品、科普文；以及涵盖7类主题，包括：生活与饮食；生命、学习与成长；节日、娱乐与旅行；语言与艺术；文学与文化；动植物与地理；经济、科技与职业。语篇在语体分布和主题分布上的全面性、均衡性，使该原始数据具有广泛代表性，能够较好地服务于面向国际中文教育的文本可读性实验验证。

为确保语体、主题的均衡分布，从原始语料中进一步筛选了3000语篇，结合对《等级标准》的框架解析，作进一步处理。其中，初级、中级语料的口语对话体占有相当比重，文本内容多与生活与饮食、学习与成长、娱乐与旅行、语言与文化主题相关，高级语料均为叙述体，语料收录考虑文本内容的学术性、职业关联性等原则。接下来，由6名国际汉语资深教师参考原始数据中的教材分册信息、HSK阅读题水平等级信息，按1-9级进行文本难度等级信息标注。每篇文本至少由两位教师进行标注，根据标注一致性检验结果，保留相关性系数较高的2272篇文章。进一步，抽取相邻等级标注不一致语料490篇，由48名语言学专业研究生分两组进行难度感知实验，根据实验结果修正偏差，完成语料分级信息的优化更新。分级语料文本长度参考《等级标准》HSK阅读题文本样例长度进行调控，超出同级别HSK阅读题文本长度以字数统计均控制在35％以内。最终，所形成的实验用分级语料数据集规模为：一级253篇，二级366篇，三级366篇，4级281篇，5级323篇，6级252篇，7级148篇，8级120篇，9级163篇。

实验按照7：3的比例将分级语料数据集随机划分为训练集和测试集，其中训练集共计1593篇，用于训练模型；测试集共计679篇，用于评测模型的效果。基于训练集，通过多元线性回归分析得到文本可读性的各项参数如下(其代表了由多个特征形成的最优组合)：

文本难度等级＝-4.4400-0.6828×复杂字比重+4.0851×非重复字比重-0.0145×命名实体数-0.0067×成语数+10.5250×抽象度词语均值+3.3552×复杂词比重-1.2499×常用词比重+0.0609×多义词比重-0.8565×低透明词复合集比重-0.4483×词汇密度-2.2940×词汇多样性指数(TTR)+0.4389×根号词汇多样性指数(RTTR)-0.1782×平均介词结构数-0.0085×小句数+0.0034×最大句长+0.2907×平均句法树深度-1.3692×初级语法点密度-1.5774×高级语法点密度-0.0065×人称代词数+0.1009×人称代词多样性指数+0.0137×连词数。

(3)采用本发明的方法在五轮实验中的结果如表5所示。

表5在验证集上的实验结果

序号	合计(篇数)	偏差为0(篇数)	偏差为1(篇数)	偏差为2(篇数)	准确率
						01	679	251	307	121	82.18％
02	679	249	308	122	82.03％
						03	679	253	308	118	82.62％
04	679	241	330	108	84.09％
						05	679	258	301	120	82.33％
平均准确率	-	-	-	-	82.65％

注：偏差小于等于1时视为分类正确

(4)对比实验效果说明。

在国际中文教育领域，已有不少研究者对文本可读性智能评估做出积极探索。调研文献发现，在近三年工作中，无论是采用多元线性回归分析公式还是机器分类算法，进行二分类的准确率在80％左右(江新等，2020)，进行六分类的准确率在85％左右(蔡建永，2020；杜月明等，2022)，进行十分类的准确率则不到50％(Dawei Lu等，2020)。本发明服务于三等九级文本水平难度框架，在九分类任务中准确率达到了82.7％，具有显著优越性。

此外，为更好地与以往研究进行比较，又考虑到不同研究使用不同的数据集进行拟合，因此将相关公式在本发明构建的实验数据集中进行重新拟合，拟合结果如表6所示，由此可知本发明提出的可读性公式拟合效果最好。

表6与前人工作比较结果

根据本发明另一方面，提出一种基于国际汉语能力标准的文本可读性评估系统，如图4所示，包括：特征获取模块、复杂罕用汉字数据集、简单常用汉字数据集、成语数据集、大规模汉语抽象度词表、低透明词词表、文化词数据集、多义词数据集、文本可读性计算模块、模型参数计算模块和分级模块。

初等、中等水平阶段，《等级标准》按1-6级提供分级的汉字、词汇量化数据支撑，高等水平阶段，不细分7、8、9级，统合提供高等汉字、词汇的量化数据支撑。语法点则按初、中、高三等提供量化数据支撑。研究利用上述数据，基于认知效应上的对立关系，建设了三类数据集：

(1)汉字数据集。综合汉字频率、笔画数、复杂度、构词能力等属性，基于《等级标准》高等、初等汉字数据，利用研究的教材语料、国家语委通用平衡语料库字词频率统计信息等基础数据，建立面向可读性计算的复杂罕用汉字数据集，共计2549字；简单常用汉字数据集，共计1130字。

(2)词汇数据集。基于《等级标准》高等、初等词语数据，利用分级教材语料、国家语委通用平衡语料库词频信息，建立面向可读性计算的复杂罕用词数据集，共计8521个词；简单常用词数据集，共计3501个词。

(3)语法点数据集。主要参考《等级标准》中“(规范性)语法等级大纲”，按照大纲语法点的等级划分，建立面向可读性计算的数据集。其中高难度语法点为148个构式；低难度语法点为210个构式。

数据集的具体创建如上文所述。

特征获取模块，用于获取待评估文本的字特征、词特征、句特征和语篇特征，具体获得方法同上文所述。

文本可读性计算模块，用于根据文本可读性公式计算待评估文本的可读性，具体公式同上文所述。

模型参数计算模块，用于构建训练集，然后通过特征获取模块获取训练集中各样本的特征，通过回归分析等方式获取文本可读性计算公式中的各项参数。训练集的构建可以参见实施例1。

本发明未详细阐述的技术内容属于本领域技术人员的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种文本可读性评估方法，其特征在于，所述方法包括：

S2、基于S1的待评估文本的字特征、词特征、句特征和/或语篇特征，根据文本可读性公式计算待评估文本的文本可读性；

S3、根据文本可读性确定待评估文本的等级；

其中，所述词特征包括抽象度词语均值，抽象度词语均值为文本中所有名词、动词、形容词的抽象度的平均值，通过大规模汉语抽象度词表获取，所述大规模汉语抽象度词表的构建方法包括：

S11、收集语料，获取所述语料中的名词、动词、形容词；

S12、将待评估词语w转换为词向量，计算待评估词语w与词集seedA和seedC的平均相似度，公式如下：

S13、计算待评估词语w的词语抽象度Abstractness(w)，公式如下：

2.根据权利要求1所述的文本可读性评估方法，其特征在于，在步骤S1中，所述字特征包括复杂字比重、非重复字比重，其中，复杂字比重＝复杂字字数/总字数，非重复字比重＝常用字字种数/总字种数。

3.根据权利要求1所述的文本可读性评估方法，其特征在于，所述复杂字为复杂罕用汉字数据集中的字，所述复杂罕用汉字数据集为《等级标准》和自建分级字表中7-10级字。

4.根据权利要求1所述的文本可读性评估方法，其特征在于，所述词特征包括词汇多样性指数、平方根词汇多样性指数、命名实体数、成语数、抽象度词语均值、复杂词比重、常用词比重、多义词比重、低透明词复合集比重、词汇密度。

5.根据权利要求4所述的文本可读性评估方法，其特征在于，所述低透明词复合集比重通过低透明词词表及文化词数据集获得，其中，所述低透明词词表的构建方法为：

利用OpenHownet语义知识库中复合词及其构词语素的释义数据，采用语义透明度分级计算公式，获取低透明词数据2652条；对照《等级标准》1-9级词表数据以及国家语委平衡语料库词频数据，筛除属于《等级标准》1-9词表中的词汇，筛除属于国家语委平衡语料库中词频排序前10000的词汇；

所述文化词数据集的构建方法为：

利用国际汉语教材语料库词频数据、国家语委通用平衡语料库词频数据以及《等级标准》词表，根据词频排序以及《等级标准》是否收词对所述文化词数据进行人工筛选过滤，获取分层文化词数据2832条，构成文化词数据集；

6.根据权利要求1所述的文本可读性评估方法，其特征在于，所述句特征包括：平均句法树深度、平均介词结构数、小句数、最大句长、初级语法点密度、高级语法点密度；

所述语篇特征包括：连词数、人称代词数、人称代词多样性指数。

7.根据权利要求1所述的文本可读性评估方法，其特征在于，在S2中，文本可读性计算公式如下：

文本可读性＝b+a1×复杂字比重+a2×非重复字比重+a3×命名实体数+a4×成语数+a5×抽象度词语均值+a6×复杂词比重+a7×常用词比重+a8×多义词比重+a9×低透明词复合集比重+a10×词汇密度+a11×词汇多样性指数TTR+a12×根号词汇多样性指数RTTR+a13×平均介词结构数+a14×小句数+a15×最大句长+a16×平均句法树深度+a17×初级语法点密度+a18×高级语法点密度+a19×人称代词数+a20×人称代词多样性指数+a21×连词数；

其中，ai为各特征关联关系系数，b为常量，ai和b利用训练集采用回归分析方法获取。

8.一种文本可读性评估系统，其特征在于，包括：特征获取模块、复杂罕用汉字数据集、简单常用汉字数据集、复杂罕用词数据集、简单常用汉字数据集成语数据集、大规模汉语抽象度词表、低透明词词表、文化词数据集、多义词数据集、高难度语法点数据集、低难度语法点数据集；

文本可读性计算模块、模型参数计算模块和分级模块；其中，

文本可读性计算模块，用于基于特征获取模块获取的待评估文本的字特征、词特征、句特征和语篇特征，根据文本可读性公式计算待评估文本的可读性；

模型参数计算模块，用于构建训练集，然后通过特征获取模块获取训练集中各样本的特征，通过回归分析方式获取文本可读性计算公式中的各项参数；分级模块，用于根据待评估文本的可读性，以及分级标准，对待评估文本进行分级；

在特征获取模块中，所述词特征包括抽象度词语均值，抽象度词语均值为文本中所有名词、动词、形容词的抽象度的平均值，通过大规模汉语抽象度词表获取，所述大规模汉语抽象度词表的构建方法包括：

S11、收集语料，获取所述语料中的名词、动词、形容词；

S13、计算待评估词语w的词语抽象度Abstractness(w)，公式如下：