CN103530280A

CN103530280A - 以数据降维法及非线性算则建构中文文本可读性模型的系统及其方法

Info

Publication number: CN103530280A
Application number: CN201210226577.5A
Authority: CN
Inventors: 宋曜廷; 张道行; 陈茹玲; 李宜宪
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-07-03
Filing date: 2012-07-03
Publication date: 2014-01-22

Abstract

一种以数据降维法及非线性算则建构中文文本可读性模型的系统及其方法。其中，此中文文本可读性模型包含：对中文文本作断词及词性标记处理的断词单元、根据断词及词性标记作文本可读性指标分析的可读性指标分析单元、及利用数据降维法及非线性算则所建构中文文本可读性模型的智能型算则单元。本发明可利用较少文本预测出较准确的中文文本的可读程度，以提供更合适的中文文本给不同阅读能力的读者阅读。

Description

以数据降维法及非线性算则建构中文文本可读性模型的系统及其方法

技术领域

本发明是关于中文文本可读性分析的技术领域，采用数据降维法以及非线性算则来建构中文文本可读性模型的系统及其方法。

背景技术

近年随着国际情势的发展，学习中文的人数不断增加，加上网络信息的快速成长，学习范围并不局限于学校老师，学习者也可以通过网络数据、书本、文章等自我学习。因此，如何为学习者选择适合的华语教材是教育与研究者关心的重要议题。

由于成功的理解是读者与文本良好互动的结果，读者阅读高可读性的文章时，会产生较好的理解，以及较佳的学习与学后保留效果。适合读者阅读的材料，也有助于提升阅读动机与阅读成就。而若以教育角度来看，影响篇章理解的因素里，文本因素相对于读者因素容易着力，也更具备教育意义。若能提供适合读者的高可读性文本，便可大大提高读者对文本的理解。

然而，网络和电子书的出现，文本的取得众多，如何选择适合的文本更形重要。进行中文文本可读性的检索时，若无科学化的方法，不易找到适合阅读的材料。此外，针对中文文本建构较佳的中文文本可读性模型，也更有效的评估文本的可读性。在此，可读性定义为容易阅读，能增进读者理解的文本。

于1920初，西方已由分析文章在词汇与句法方面的特性建立多种可读性公式进行文本可读性评估，不过西文的可读性研究虽然蓬勃发展，却仍有指标过于表浅，数量少、以及公式的模型过于简单的问题。相较于西方可读性研究的蓬勃发展，中文的研究较少，且年代久远。杨孝濚(1971)曾探讨影响中文可读性的重要因子(如单字以及句子等)，也曾建立可读性公式，但缺乏效度的研究；而荆溪昱(1992)则直接参照拼音文字(如英文字)常用的可读性指标来建立可读性公式，且建立常用词表时，仅以教科书数据库作依据并未参考其他外部语料库，其作法并不客观。

有鉴于拼音文字与中文文字系统的根本差异，有系统地发展适用中文的可读指标方能真正建立具有效度的中文可读性公式。然而，中文文本可读性的研究者多采用：句长、笔划数、常用字(难字比率)等指标建立公式。其中，笔划数看似为中文系统特有，但其实即是字符复杂度的表现，相当于文字的词长特征。因此，传统中文文本可读性研究，在指标的选取上与拼音文字系统常见的指标并无差异，此外，研究者选用的也多为少数、表浅的语言特征，因而无法有效的评估中文文本的可读性。

传统的可读性模型公式(如，Flesch-Kincaid)已经广泛地应用在教育领域与各种领域，例如，图书馆学术文章分类、电子书以及商业网站的网页内容。然而，却存在不少问题。

整体而言，现有的可读性公式存在三个问题：

第一，公式建立者纳入的指标较为少数，未考虑文本多层次特征的特性；

其次，虽然有些研究者试图将多种指标纳入，但仍然无法克服多种指标常彼此相关的问题；

第三，现行中文文本可读性分类模型在技术上多数仅采用简单且易了解的统计方法，但预测正确率低，因此如何改善目前中文可读性分类模型的精确性是一个重要的议题。

一般而言，建立文本可读性模型时往往需要大量的数据才能配适出稳定且有效的预测模型，然而即便是西方的可读性研究亦有模型不稳定，指标不周延等相关问题，尚待研究者进一步的研究并解决。

发明内容

本发明的目的在于提供一种以数据降维法及非线性算则建构中文文本可读性模型的系统。

本发明的又一目的在于提供一种以数据降维法及非线性算则建构中文文本可读性模型的方法。

为实现上述目的，本发明提供的以数据降维法及非线性算则建构一中文文本可读性模型的方法，该方法包含下列步骤：

A)收集适合某一阅读能力的至少一中文文本，并与一语料库的中文字词句特性进行比对，以产生每一中文文本的复数个断词，且对应产生该复数个断词的词性标记，其中，每一中文文本皆具有至少一可读性指标；

B)对每一中文文本的该复数个断词、及该复数个断词的词性标记进行分析，以通过计算产生该至少一可读性指标的指标数值；

C)将该至少一可读性指标，通过该数据降维法找出至少一阅读理解构面，而该至少一阅读理解构面系代表该至少一可读性指标的线性组合；以及

D)将该至少一阅读理解构面通过该非线性算则建构该中文文本可读性模型，以作为判断一待测中文文本是否适合该某一阅读能力阅读的依据。

所述的方法，其中，于该步骤C)中，该资料降维法是用来代表降低该至少一可读性指标彼此之间的共线性的方法。

所述的方法，其中，于该步骤D)中，该非线性算则是用来代表以非线性方式来组合该至少一阅读理解构面的方法。

所述的方法，其中，于该步骤A)中，该语料库包含中文词库、汉语平衡语料库及中文句结构树数据库，以作为中文字词句特性的比对依据。

所述的方法，其中，于该步骤A)中，该至少一可读性指标包含词汇指标、语意指标、句法指标以及文章凝聚指标的指标类别，以据此找出该阅读理解构面。

所述的方法，其中，于该步骤C)中，该至少一阅读理解构面表示通过该数据降维法，而归纳同一指标类别的该至少一可读性指标，且每个阅读理解构面被表示成同一指标类别的该至少一可读性指标的线性组合。

本发明提供的以数据降维法以及非线性算则建构一中文文本可读性模型的系统，包含：

一断词单元，接收适合某一阅读能力的至少一中文文本，并与一语料库的中文字词句特性进行比对，以产生每一中文文本的复数个断词，且对应产生该复数个断词的词性标记，其中，每一中文文本皆具有至少一可读性指标；

一可读性指标分析单元，接收该复数个断词及该复数个断词对应的词性标记，以通过计算产生该至少一可读性指标的指标数值；

一智能型算则单元，接收该至少一可读性指标，以通过该数据降维法找出至少一阅读理解构面，并根据该至少一阅读理解构面，使用该非线性算则建构该中文文本可读性模型，以作为判断一待测中文文本是否适合该某一阅读能力阅读的依据，其中，该至少一阅读理解构面代表该至少一可读性指标的线性组合。

所述的系统，其中，该数据降维法是用来代表降低该至少一可读性指标彼此之间的共线性的方法。

所述的系统，其中，该非线性算则是用来代表以非线性方式来组合该至少一阅读理解构面的方法。

所述的系统，其中，该语料库包含中文词库、汉语平衡语料库及中文句结构树数据库，以作为中文字词句特性的比对依据。

所述的系统，其中，该至少一可读性指标包含词汇指标、语意指标、句法指标以及文章凝聚指标的指标类别，以据此找出该阅读理解构面。

所述的系统，其中，该至少一阅读理解构面是表示通过该数据降维法，而归纳同一指标类别的该至少一可读性指标，且每个阅读理解构面被表示成同一指标类别的该至少一可读性指标的线性组合。

本发明提出了一可整合多个可读性指标的数据降维法以及非线性算则建构中文文本可读性模型，以通过中文文本的可读性指标，来建立一个高精确性且可更有效分析的中文文本可读性模型。

附图说明

图1是本发明一较佳实施例的以数据降维法及非线性算则来建构中文文本可读性模型的系统架构图。

图2是本发明一较佳实施例的断词单元示意图。

图3是本发明一较佳实施例的以数据降维法及非线性算则来建构中文文本可读性模型的方法流程图。

附图中主要组件符号说明：

10中文文本；100中文文本可读性模型；110断词单元；120语料库；130可读性指标分析单元；140智能型算则单元；112断词功能函数；114词性标记功能函数；116断词信息功能函数；118词性标记信息功能函数；S300、S310、S320、S330、S340步骤。

具体实施方式

鉴于公知技术中，传统可读性预测模型不适合分析中文文本是否具有可读性、中文文本的分析数量较少的情形下预测效果不佳、以及影响可读性模型因素因彼此相关互相影响而有共线性的问题。本发明通过撷取多个中文文本的可读性指标(如，字汇、语意、句法、文章结构等)，并利用数据降维法、以及非线性算则来建构一个可利用少量文本来产生高预测精确性、高效率的中文文本可读性模型及其方法。

为此，本发明提供了一种以数据降维法及非线性算则建构中文文本可读性模型的方法，包含下列步骤：

(A)收集适合某个阅读能力的中文文本，并与语料库的中文字词句特性进行比对，以产生中文文本的复数个断词，且对应产生复数个断词的词性标记。其中，每篇中文文本皆具有至少一个可读性指标；

(B)对每篇中文文本的复数个断词、及复数个断词的词性标记进行分析，以通过计算产生上述可读性指标的指标数值；

(C)将上述可读性指标，通过数据降维法找出重要的阅读理解构面，而上述阅读理解构面可以被表示成可读性指标之间的关系，进而降低可读性指标之间的共线性问题；以及

(D)将上述重要的阅读理解构面通过非线性算则来建构中文文本可读性模型，以作为判断中文文本是否适合某个阅读能力阅读的依据。

此外，本发明于步骤(C)中，数据降维法可用来降低上述可读性指标彼此之间高度共线性问题，仍可保留为重要阅读理解构面。

再者，本发明于步骤(D)中，非线性算则可通过广泛的非线性函数来对重要的阅读理解构面作转换，以预测中文文本可读性模型。

再者，本发明于步骤(A)中，语料库可包含中央研究院的中文词库、汉语平衡语料库、及中文句结构树数据库，以作为中文字词句特性的比对依据。而上述可读性指标可包含词汇指标、语意指标、句法指标、以及文章凝聚指标的指标类别，以据此找出阅读理解构面。

另外，本发明于步骤(C)中，上述阅读理解构面可表示通过数据降维法，而归纳同一指标类别的上述可读性指标，且每个阅读理解构面均可以被表示成同一指标类别的上述可读性指标的线性组合。

本发明还提供了一种使用数据降维法以及非线性算则来建构中文文本可读性模型的系统，包含断词单元、可读性指标分析单元、及智能型算则单元。其中，断词单元接收适合某个阅读能力的中文文本，并与语料库的中文字词句特性进行比对，以产生中文文本的复数个断词，且对应产生复数个断词的词性标记，其中，每篇中文文本皆有其可读性指标。可读性指标分析单元则接收复数个断词及复数个断词对应的词性标记，以通过计算产生可读性指标的数值。而本发明所提的智能型算则单元则接收上述可读性指标，以通过数据降维法找出阅读理解构面，并根据上述阅读理解构面，通过非线性算则建构中文文本可读性模型，以作为判断一待测中文文本是否适合某个阅读能力阅读的依据。

以上的概述与接下来的详细说明皆为示范性质，是为了进一步说明本发明的专利范围。而有关本发明的其他目的与优点，将在后续的说明与图示加以阐述。

首先，请参考图1，是本发明一较佳实施例的以数据降维法及非线性算则建构中文文本可读性模型100的系统架构图。如图1所示，中文文本可读性模型100包含一断词单元110、一可读性指标分析单元130、及一智能型算则单元140。其中，断词单元110接收适合某一年龄层阅读能力阅读的多个中文文本10，并与一语料库120的中文字词句特性进行比对，以产生中文文本10的复数个断词，且对应产生复数个断词的词性标记，其中，每一中文文本10皆具有可读性指标(图未示)。

在本实施例中，中文文本10可以来自书本、网络等电子档案文件，且建构中文文本可读性模型100亦不设限制形式，如计算机、服务器、云端服务器皆可。具体来说，断词单元110提供中文文本10的断词(wordsegmentation)处理，以将每一中文文本10的中文内容进行断词并给予标记，以供后续对中文文本10的分析。换言之，断词对于文本分析是十分重要的，若断词不正确时，将导致后续词性标记错误，使得最后语意解读偏离原意。

此外，语料库120可由中央研究院的中文词库、汉语平衡语料库、及中文句结构树数据库来来作为中文字词句特性的比对依据。

请同时参考图2，是本发明一较佳实施例的断词单元示意图。断词单元110包含一断词功能函数112、一词性标记功能函数114、一断词信息功能函数116、一词性标记信息功能函数118，以对中文文本10进行断词、词性标记、产生断词信息及词性标记信息等功能。其中，断词功能函数112接收多个中文文本10，以根据语料库120比对而对每一中文文本10对应产生复数个断词，而复数个断词再通过词性标记功能函数114、断词信息功能函数116、或词性标记信息功能函数118等处理，以完成断词及词性标记等程序。

可读性指标分析单元130接收每一中文文本10的复数个断词及复数个断词对应的词性标记，以通过计算产生至少一可读性指标的指标数值。其中，可读性指标包含词汇类特征、语意类特征、句法类特征、文章凝聚类特征等四大类别特征。

在本实施例中，可读性指标可分为词汇类、语意类、语法类、文章凝聚类：

(1)词汇类：如词汇丰富性、词汇频率、词汇长度等词汇指标类别；

(2)语意类：如语意与潜在语意等语意指标类别；

(3)句法类：如句平均词数、单句数比率等句法指标类别；(4)篇章凝聚类：如指称词、连接词等文章凝聚指标类别。

上述的类别均为篇章理解的重要成分，以提供更精确与周延的可读性指标。本实施例仅为一较佳实施例，但非限制其他可读性指标的加入或调整。

而智能型算则单元140则具有数据降维法，以据此找出代表上述可读性指标之间的关系的阅读理解构面。更进一步来说，上述阅读理解构面是表示通过数据降维法，而归纳同一指标类别(如，词汇类、语意类、句法类、及文章凝聚类)的上述可读性指标。而此数据降维法可解决传统的可读性模型公式在建立模型时，上述可读性指标之间共线性的问题，意即解决多个可读性指标彼此之间共线性太高的问题。因此，通过此数据降维法可降低多个可读性指标之间的共线性，遂可得到如下好处：

(1)代表性，保留可读性指标大部分的解释量；

(2)独立性，可读性指标之间共线性减小；

(3)精简性，可利用少量且具有代表性的阅读理解构面取代繁琐的可读性指标以作进一步的判断分析。

智能型算则单元140在取得上述至少一阅读理解构面后，遂通过一个非线性算则来建构中文文本可读性模型100。而在建构完成后，当中文文本可读性模型100接收到一待测中文文本时，将以此中文文本可读性模型100来作为是否适合某一年龄层阅读的判断依据，并输出此待测中文文本适合哪一年龄层的阅读能力，意即此待测中文文本的可读性属于哪一年龄层来阅读，进而完成本发明得以准确预测中文文本可读性的目的。

此外，在本实施例中，非线性算则是用以表示利用非线性方式来组合阅读理解构面的方法。此外，非线性算则是以一试误法，来作为参数筛选的依据。而此非线性算则法并无数据量大小的限制且亦无传统线性公式的限制(如要符合常态分配(Normal Distribution))，故在少量资料上也会有良好的预测精确性。

接下来，请同时参考图3，是本发明一较佳实施例的以数据降维法及非线性算则建构中文文本可读性模型100的方法流程图。以下中文文本10将以阅读能力为三、四年级为例来作说明。首先，中文文本可读性模型100接收适合三、四年级阅读的多个中文文本10，并与一语料库120的中文字词句特性进行比对，而可在断词单元110中产生每一中文文本10的复数个断词，并将复数个断词作词性标记，以作为接下来可读性指标的判断依据(步骤S300)。

在此，以下有关可读性指标的相关描述，将以词汇指标类别：字数(总字数)、词数(总词数)、低笔划字符数(笔画介于1～10笔的总字数)，以及句法指标类别：句平均词数(句子长度)、单句数比率(单句结构比率)两大类指标类别来作说明。

接下来，中文文本可读性模型100将于可读性指标分析单元130中，对每一中文文本10的复数个断词、及复数个断词的词性进行分析，并通过计算而产生可读性指标(字数、词数、低笔划字符数、句平均词数、单句数比率)的指标数值。例如某一个三年级中文文本10分析后有100个字数、47个词数、53个低笔划字符数、句平均词数为3个、及单句数比率为35％。在本实施例中，每个可读性指标的量化单位皆不同，而为了让每个可读性指标之间可进一步用来计算估测，遂先行将每个可读性指标的指标数值正规化，使得每个可读性指标的指标数值的量化单位一致(步骤S310)。

再来，中文文本可读性模型100将上述可读性指标，通过数据降维法找出重要的阅读理解构面，以从众多遂先行将每个可读性指标的指标数值正规化，使得每个可读性指标的指标数值的量化单位一致(步骤S320)。

根据本实施例的可读性指标，将可得到2个重要的阅读理解构面，分别为代表词汇指标类别的词汇理解构面，以及代表句法指标类别的句法理解构面(图未示)。其中，词汇理解构面是由字数、词数、低笔划字符数线性组合而成。句法理解构面是由句平均词数、单句数比率线性组合而成。如下所示：

词汇理解构面＝a1×(字数)+a2×(词数)+a3×(低笔划字符数)；

句法理解构面＝b1×(句平均词数)+b2×(单句数比率)；

其中，a1、a2、a3分别为代表词汇指标类别中，字数、词数、低笔划字符数的系数，而b1、b2则为代表句法指标类别中，句平均词数、单句数比率的系数。

由上述可知，智能型算则单元140将字数、词数、低笔划字符数、句平均词数、及单句数比率的多个可读性指标归纳分类成词汇指标类别(包含字数、词数、低笔划字符数)、以及句法指标类别(包含句平均词数、单句数比率)两个指标类别，并将同一指标类别的可读性指标作线性组合而分别成为词汇理解构面、以及句法理解构面的两个重要的阅读理解构面。进而从原本众多且繁复的可读性指标中，通过数据降维法而得到共线性较小且重要的阅读理解构面。

最后，同样于智能型算则单元140中，再将上述两个重要的阅读理解构面通过非线性算则来建构中文文本可读性模型100，以作为未来在判断中文文本是否适合三、四年级同学的阅读能力的依据，进而可达到本发明建构高精确性的中文文本可读性模型100的目的(步骤S330)。

在本实施例中，上述的中文文本可读性模型100，可以如下例子来建立中文文本可读性模型100的演算公式：

年级＝sin(词汇理解构面)+log(句法理解构面)。

由上述可知，上述演算式是通过非线性函数(如：sin、log logistic等)来对重要的阅读理解构面作变量转换，并采用线性组合的方式来链接每个运算值(如，sin(词汇理解构面)、log(句法理解构面)等)。而本实施例仅为一较佳实施例，但非限制其他可读性指标、阅读理解构面、非线性函数的加入或调整。

因此，当中文文本可读性模型100在接收到一待测中文文本时，将判断此待测中文文本是否符合三、或四年级的阅读能力阅读者来阅读，而完成本发明准确预测中文文本可读性的目的。

故由上述可知，本发明利用数据降维法、以及非线性算则来建立一个有效预测中文文本的可读程度的中文文本可读性模型100。不但可以解决传统可读性预测模型不适合分析中文文本的可读性、中文文本较少的情形下预测效果不佳的问题外，更可降低可读性指标之间的共线性而取得独立性更高的阅读理解特征来建构中文文本可读性模型100。使得本发明的中文文本可读性模型100可以预测出更准确的中文文本的可读程度，而提供适合的中文文本给不同的年龄层的阅读能力来阅读。

上述实施例仅是为了方便说明而举例而已，本发明所主张的权利范围自应以申请的权利要求范围所述为准，而非仅限于上述实施例。

Claims

1.一种以数据降维法及非线性算则建构一中文文本可读性模型的方法，该方法包含下列步骤：

2.如权利要求1所述的方法，其中，于该步骤C)中，该资料降维法是用来代表降低该至少一可读性指标彼此之间的共线性的方法。

3.如权利要求2所述的方法，其中，于该步骤D)中，该非线性算则是用来代表以非线性方式来组合该至少一阅读理解构面的方法。

4.如权利要求1所述的方法，其中，于该步骤A)中，该语料库包含中文词库、汉语平衡语料库及中文句结构树数据库，以作为中文字词句特性的比对依据。

5.如权利要求1所述的方法，其中，于该步骤A)中，该至少一可读性指标包含词汇指标、语意指标、句法指标以及文章凝聚指标的指标类别，以据此找出该阅读理解构面。

6.如权利要求5所述的方法，其中，于该步骤C)中，该至少一阅读理解构面表示通过该数据降维法，而归纳同一指标类别的该至少一可读性指标，且每个阅读理解构面被表示成同一指标类别的该至少一可读性指标的线性组合。

7.一种以数据降维法以及非线性算则建构一中文文本可读性模型的系统，包含：

8.如权利要求7所述的系统，其中，该数据降维法是用来代表降低该至少一可读性指标彼此之间的共线性的方法。

9.如权利要求8所述的系统，其中，该非线性算则是用来代表以非线性方式来组合该至少一阅读理解构面的方法。

10.如权利要求7所述的系统，其中，该语料库包含中文词库、汉语平衡语料库及中文句结构树数据库，以作为中文字词句特性的比对依据。

11.如权利要求7所述的系统，其中，该至少一可读性指标包含词汇指标、语意指标、句法指标以及文章凝聚指标的指标类别，以据此找出该阅读理解构面。

12.如权利要求11所述的系统，其中，该至少一阅读理解构面是表示通过该数据降维法，而归纳同一指标类别的该至少一可读性指标，且每个阅读理解构面被表示成同一指标类别的该至少一可读性指标的线性组合。