CN101814066A

CN101814066A - 文本阅读难度判断设备及其方法

Info

Publication number: CN101814066A
Application number: CN200910118105A
Authority: CN
Inventors: 张洁; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-02-23
Filing date: 2009-02-23
Publication date: 2010-08-25

Abstract

本发明涉及文本阅读难度判断设备及其方法。文本阅读难度判断设备，包括：输入装置，被配置成接收待分析文本、以及有关阅读难度的预定评测主题；特征量难度评测装置，被配置成针对所述待分析文本的每个组成部分获取用于评测所述预定评测主题的至少一个预定的特征量，针对预定特征量计算整个所述待分析文本的相应特征量难度等级，并使用所述特征量难度等级按照该预定特征量所占的预定权重计算有关所述预定评测主题的加权平均信息量，以作为所述待分析文本的有关所述预定评测主题的阅读难度；以及输出装置，被配置成输出所述待分析文本的有关所述预定评测主题的阅读难度。

Description

文本阅读难度判断设备及其方法

技术领域

本发明涉及自然语言分析处理技术，具体地涉及从输入的文本符号序列中判断文本阅读难度的设备和方法。

背景技术

在语言教学和学习过程中，通常涉及到语音、字形、词汇、语法和/或语义等多方面语言要素的教学和学习，循序渐进是选择制定教材的原则，如何将抽象的循序渐进进行科学的量化，如何科学地选择、编纂难度适宜的文本教材一直是一个亟待解决的问题。

关于这方面的研究已发表了多篇论文和专利，例如：

中国专利CN1645356A，发明人-曲万波，多维汉语学习系统；

中国专利CN1236928A，发明人-郭巧，郭扬；计算机辅助汉语智能教学系统及其实现方法；

日本专利特願2001-17443，发明人-橋本岳，吉川信也；安陪稔；学習支援システム；

日本专利特願2004-126154，发明人-宮健三；单語の木にょゐ効果的な学習方法；

日本专利特愿平4-351424，发明人-赤尾弘；中国语学习装置；

美国专利US5802533，发明人-Randall C.Walker，Text processor。

上述现有技术所提供的这些方法都以向学习者呈现具体的语言学习项目为目的，例如字、词、句、语法等，尚未以语言教材编撰或者语言测试材料的选择为应用领域，也尚未综合运用汉语的语音、字形、词汇、语法、语义等语言学特征。

发明内容

本发明的目的在于提供一种不同于现有技术的进行文本阅读难度判断的设备及方法，用以从输入的待分析文本(例如汉语文字符号序列)中判断出其字形难度、语音难度、词汇难度、语法难度、语义难度和/或综合难度，从而解决汉语教材编撰、汉语水平考试的区分度和/或汉语水平科学量化等问题。

根据本发明的一个方面，一种文本阅读难度判断设备，包括：输入装置，被配置成接收待分析文本、以及有关阅读难度的预定评测主题；特征量难度评测装置，被配置成针对所述待分析文本的每个组成部分获取用于评测所述预定评测主题的至少一个预定的特征量，针对预定特征量计算整个所述待分析文本的相应特征量难度等级，并使用所述特征量难度等级按照该预定特征量的预定权重计算有关所述预定评测主题的加权平均信息量，以作为所述待分析文本的有关所述预定评测主题的阅读难度；以及输出装置，被配置成输出所述待分析文本的有关所述预定评测主题的阅读难度。

优选地，所述预定评测主题包括所述待分析文本的字形、语音、词汇、语法和/或语义。在所述预定评测主题包括字形、语音、词汇、语法和语义中至少两个的情况下，所述文本阅读难度判断设备还包括连接在所述特征量难度评测装置和输出装置之间的综合评测装置，被配置成使用由所述特征量难度评测装置计算获得的与所述至少两个评测主题相关的至少两个阅读难度，按照所述至少两个评测主题的预定权重综合计算所述待分析文本的综合阅读难度。

优选地，所述文本阅读难度判断设备还包括连接在所述输入装置和特征量难度评测装置之间的文本预处理装置，被配置成获取所述待分析文本的语音、词汇、句子、语法和/或语义信息。例如在所述预定评测主题包括字形、语音、词汇、语法和语义中至少两个的情况下，首先对待分析文本进行预处理，利用自然语言处理技术对文本进行断句、分词及词性标注和拼音标注，得到标注文本；将标注文本送入各个特征量难度评测装置进行分析评测，计算字形、语音、词汇、语法、语义等各项语言学参数的难度指数，最终通过综合评测装置，输出该待分析文本的阅读难度。

根据本发明的另一方面，一种判断文本阅读难度的方法，包括：接收待分析文本、以及有关阅读难度的预定评测主题；针对所述待分析文本的每个组成部分获取用于评测所述预定评测主题的至少一个预定特征量，针对预定特征量计算整个所述待分析文本的相应特征量难度等级，并使用所述特征量难度等级按照该预定特征量所占的预定权重计算有关所述预定评测主题的加权平均信息量，以作为所述待分析文本的有关所述预定评测主题的阅读难度；以及输出所述待分析文本的有关所述预定评测主题的阅读难度。

本发明的有益效果在于，基于自然语言成分的构成规律，对文本符号的字形、语音、词汇、语法、语义五方面的学习难度进行量化分析和评测。

本发明可以作为一个独立的评价系统对随机的自然语言文本阅读难度进行评测，尤其适合解决面向自然语言教学的教材编写和测试材料选择。

例如在本发明应用于汉语文本时，可将汉语自身的特点和自然语言处理技术相结合，实现评测某一随机汉语文本的阅读难度，从而达到指导和检验汉语教学环节中语言教材编撰和语言测试材料选择在一个科学的可量化的环境下进行。

附图说明

结合附图，通过参考下列详细的示例性实施例的描述，将会更好地理解本发明本身、优选的实施方式以及本发明的目标和优点。

图1为实施根据本发明优选实施例的判断文本阅读难度的方法的计算机配置的框图；

图2是根据本发明的文本阅读难度判断设备的基本结构图；

图3是根据本发明的判断文本阅读难度的方法的流程图；

图4是根据本发明第一实施例的字形难度评测部的结构框图；

图5是根据本发明第二实施例的语音难度评测部的结构框图；

图6是根据本发明第三实施例的词汇难度评测部的结构框图；

图7是根据本发明第四实施例的语法难度评测部的结构框图；

图8是句法分析器处理后的句子结构示意图；

图9是句子语法层次宽度、深度示意图；

图10是根据本发明第五实施例的语义难度评测部的操作示意图；

图11是根据本发明第六实施例的文本阅读难度判断设备的结构框图；

图12是用以获得特征量难度等级的机器学习的示意图。

具体实施方式

下面参照附图对本发明的优选实施方式予以详细说明。

<系统配置>

图1为实施本发明优选实施例的判断文本阅读难度的方法的计算机(软件评价系统)的配置的框图。为简化说明起见，本软件评价系统是构筑在一台PC的内部。然而，本发明的运行日志获取方法无论构筑于一台PC内部还是在由多个PC构筑的网络系统中都有效。

在实施该实施例的运行日志获取方法的软件评价系统包括：CPU1、芯片组2、RAM 3、硬盘控制器4、显示控制器5、硬盘驱动器6、CD-ROM驱动器7及显示器8。另外，该软件评价系统包括还包括连接CPU 1和芯片组2的信号线11、连接芯片组2和RAM 3的信号线12、连接芯片组2和各种外围设备的外围设备总线13、连接硬盘控制器4和硬盘驱动器6的信号线14、连接硬盘控制器4和CD-ROM驱动器7的信号线15以及连接显示控制器5和显示器8的信号线16。

<优选实施例>

下面结合附图2和3说明本发明的具体实施方式。首先给出本发明中阅读难度的定义：

定义1-阅读难度：对语言学习者而言，在阅读每个文字符号片段即文本时，文本所承载的字形、语音、词汇、语法、语义和/或其综合信息总量对学习者理解文本所形成的压力和阻力。在假定学习者不变的前提条件下，信息总量越大，压力和阻力越大，阅读难度也越大，反之亦然。

图2和图3分别示出根据本发明的文本阅读难度判断设备200及其所执行的判断文本阅读难度的方法。

其中文本阅读难度判断设备200包括输入装置201、特征量难度评测装置202和输出装置203。

由输入装置201执行图3所示的步骤S302：在步骤S301开始后接收待分析文本以及有关阅读难度的预定评测主题，在此可选的预定评测主题可包括待分析文本的字形、语音、词汇、语法和/或语义。

由特征量难度评测装置202执行图3所示的步骤S303：针对所述待分析文本的每个组成部分获取用于评测所述预定评测主题的预定特征量；计算整个所述待分析文本的相应特征量难度等级，并使用所述特征量难度等级按照该预定特征量所占的预定权重计算有关所述预定评测主题的加权平均信息量，以作为所述待分析文本的有关所述预定评测主题的阅读难度。

由输出装置203执行图3所示的步骤S304：输出所述待分析文本的有关所述预定评测主题的阅读难度。

根据本发明的文本阅读难度判断设备200及其所执行的判断文本阅读难度的方法300，可以依靠计算机和自然语言处理技术地评测出随机文本所承载的字形信息、语音信息、词汇信息、语法信息、语义信息和/或其综合信息总量(即阅读难度)。

<第一实施例>

图4是根据本发明第一实施例的字形难度评测部400的结构框图。在该实施例中以汉语文本为例作为待分析文本。

当用户选择字形作为评测主题并希望获得汉语文本的字形阅读难度时，字形难度评测部400作为特征量难度评测装置，被配置成使用所述汉语文本的每个文本符号的笔画、部首和结构作为预定特征量来计算所述待分析文本的字形阅读难度。

如图4所示，字形难度评测部400首先通过汉字字形数据库401获得待分析文本中每个汉字的笔画、部首和结构信息；然后通过参考存储有表征笔画、部首和结构难度等级的参数(即不同字形部分与相应难度等级的查询表)的数据库对所获得的每个汉字的笔画、部首和结构信息进行等级划分，并针对整个文本分别计算每个汉字的平均笔画、部首和结构难度等级(附图标记402-404)；再按照笔画、部首和结构各自的预定权重来计算待分析文本的加权平均字形信息量，以作为整个文本的字形阅读难度(附图标记405)。

在此的笔画难度等级计算、部首难度等级计算和结构难度等级计算参考了针对每个汉字的笔画、部首和结构的预定义难度等级，为方便起见可选取相同的难度值范围，例如[0，1]、[0，100]或者1～n级(n例如为大于3的自然数)等等。在这种情况下，笔画、部首和结构的预定权重可以分别采用三分之一。可选择地，可以采用SVM支持向量机训练出计算器，计算出各个特征(笔画、部首和结构)的难度等级范围以及所占的权重。

<第二实施例>

图5是根据本发明第二实施例的语音难度评测部500的结构框图。在该实施例中以汉语文本为例作为待分析文本。

语音原指与汉字字符所对应的发音部位、发音方法，在本发明的第二实施例中，定义2-语音被狭义地具体定义为某一汉字相对应的汉语拼音，由声母、韵母、声调构成。

这样语音难度评测部500基于汉语文本的文本拼音信息(例如从拼音数据库获得汉语文本中每个汉字的拼音，从而获得带拼音标注的文本)，使用所述汉语文本中每个汉字的声母、韵母和声调作为预定特征量来计算待分析文本的加权平均语音信息量以作为语音阅读难度。如图所示，语音难度评测部500包括声母难度评测单元501、韵母难度评测单元502和声调难度评测单元503。

具体而言，声母的难度由发音方法和发音部位决定。塞音、塞擦音、擦音、鼻音、边音、半元音、送气、不送气是声母的发音方法，双唇音、唇齿音、舌尖前、舌尖中、舌尖后、舌面、喉是发音的部位。基于此，

声母难度评测单元501将这些发音方法和发音部位按照人类语音的传统共性分为1、2、3级并将此描述声母难度的参数(即声母及相应难度的查询表)存储在数据库(例如发音部位及发音方法难度等级数据库)中，由此在计算时参考所述数据库对所述汉语文本中各汉字的声母进行难度区分，获得每个汉字的平均声母难度。

韵母的难度根据韵母属于单韵母、复韵母或鼻音韵母来计算。类似地，韵母难度评测单元502参考描述韵母难度的参数(即韵母及相应难度的查询表)的数据库(例如单、复或鼻音韵母难度等级数据库)对所述汉语文本中各汉字的韵母进行难度等级排序，获得每个汉字的平均韵母难度。

第二实施例中的声调难度评测单元503，根据所述汉语文本内的声调起伏度计算所述汉语文本的声调难度等级。汉语的声调共有阴平(第一声)、阳平(第二声)、上声(第三声)、去声(第四声)和轻声五种。在此根据赵元任《五度标记法》将阴平用两位数字“55”表示，将阳平用两位数字“24”表示，将上声用三位数字“214”表示，将去声用两位数字“51”表示，将轻声用1位数字“5”表示。由此待分析文本的声调可以被序列化为一个由“1-5”数字构成的符号序列“T₀T₁T₂...T_n”，通过逐个计算“T_i+1-T_i”，得到n-1个调差(T_x)，那么，

1.若-4＜＝T_x＜＝-2，则其难度D(T_x)＝1，

2.若-1＜＝T_x＜＝1，则其难度D(T_x)＝0；

3.若2＜＝T_x＜＝4，则其难度D(T_x)＝1；

待分析文本的每个汉字平均声调难度计算公式为：

T = \frac{Σ_{1}^{n - 1} D (Tx)}{n - 1} .

在获得声母难度等级I，韵母难度等级V和声调难度等级T之后，通过加权平均获得待分析文本的加权平均语音信息量以作为语音阅读难度(附图标记504)。声母难度等级I，韵母难度等级V和声调难度等级T可以都取相同的取值范围，例如[0，1]。在这种情况下，声母、韵母和声调难度等级的预定权重可以分别采用三分之一或其他值。可选择地，可以采用SVM支持向量机训练出计算器，计算出各个特征(声母，韵母和声调)的难度等级范围以及所占的权重。

<第三实施例>

图6描述了根据本发明第三实施例的词汇难度评测部的结构框图。该词汇难度评测部600被配置成使用所述待分析文本中的常用词和非常用词信息、词项出现次数信息、虚实词信息以及专有名词和未登陆词信息作为预定特征量来计算所述待分析文本的加权平均词汇信息量，以作为所述待分析文本的词汇阅读难度。

在此，定义3-常用词：通过对大规模语料进行统计，将出现频率高于一定数值的词设置为常用词。

定义4-非常用词：通过对大规模语料进行统计，将出现频率低于该数值的词设置为非常用词。

定义5-词项密度：所有出现的词语的种类(即词项)和所出现的词的总数的比例。假设待分析文本一共有100个词，其中有50个不同的词，那么，该文本的词项密度为50％，如果只有90个不同的词，那么，该文本的词项密度为90％。显然，词项密度越高，文本的难度越大。

定义6-虚实词比例计算：现代汉语中虚词指的是副词、介词、连词、助词及其子类；实词指的是名词、代词、动词、形容词、数词、量词及其子类，在其他语言中的虚实词的类别也基本类似。这样虚实词比例也就是待分析文本片段中虚词总数和实词总数的比例。虚词是各种语言学习的难点和重点，因此虚实词比例越高，文章的难度也越大，反之亦然。

定义7-未登录词：指数据库中没有记录、没有信息的词语。

定义8-专有名词：专有事物的名称，包含了人名、地名、机构名等，通过“命名实体识别器”可以获得待分析文本的专有名词信息。

定义9-专有名词和未登录词比例：未登录词和专有名词占文本总词数的比例。

文本中的未登录词和专有名词对一般学习者而言都是陌生的信息，这也就是说未登陆词、专有名词的比例越高，文本难度越大。

如图6所示，这样词汇难度评测部600基于待分析文本的分词和词性标注信息(例如从数据库获得待分析文本中每个文本符号的分词和词性标注信息，从而获得带分词和词性标注信息的文本)，使用常用词和非常用词比例评测单元601、词项密度评测单元602、虚词实词比例评测单元603以及专有名词和未登陆词密度评测单元604计算作为各个特征量难度等级的常用词和非常用词比例、词项密度、虚实词比例以及专有名词和未登陆词密度。

具体地，常用词和非常用词比例评测单元601，被配置成根据所述待分析文本中各词的常用词和非常用词信息，计算其常用词和非常用词的比例。词项密度评测单元602，被配置成评测从所述待分析文本中去除重复的词语后的词语总数和所有词语总数的比例。虚词实词比例评测单元603，被配置成通过词性标记信息计算所述待分析文本中虚词和实词的比例。专有名词和未登陆词密度评测单元604，被配置成参考预定名词词典计算所述待分析文本中的专有名词和未登陆词的密度。

在计算完毕常用词和非常用词比例L(F)、词项密度L(W)、虚实词比例L(E)、专有名词和未登陆词比例L(U)之后，通过对这4个特征量难度等级进行加权平均，得到待分析文本的加权平均词汇信息量，以作为所述待分析文本的词汇难度L(参见附图标记605)。在此4个预定特征量的权重可以取25％，或者词项密度L(W)、虚实词比例L(E)和/或专有名词和未登陆词比例L(U)的权重值可以相对较高。可选择地，可以采用SVM支持向量机训练出计算器，计算出各个特征量所占的权重。

<第四实施例>

图7是根据本发明第四实施例的语法难度评测部的结构框图。该语法难度评测部700被配置成使用所述待分析文本的语法层次信息、短语规则信息以及句型信息作为预定特征量来计算所述待分析文本的加权平均语法信息量，以作为所述待分析文本的语法难度。语法难度评测部700包括句法分析器701、语法层次评测单元703、短语规则歧义指数评测单元704和句型难度评测单元705，可选地还包括句法数据库702。

在此，定义10-短语规则：每个词(w)都有其对应的语法属性(a(w))，词和词构成了短语x，短语也有其对应的语法属性(A(x))，短语和短语也可以构成新的短语，短语规则指的是某类短语由几种语法属性的词或短语构成，即A(x)：a(w₁)，a(w₂)...a(w_n)或A(x)：A(x₁)A(x₂)...A(x_n)。

语法层次评测单元703被配置成使用由句法分析器701对待分析文本进行句法分析获得的各个句法分析树，以获得取决于句法分析树宽度和深度之比的语法层次难度等级。

图8示出了使用句法分析器对汉字句子“胃液能初步消化蛋白质”进行分析而获得的句法分析树。当然该实施例并不限于汉语，而可适用于其它任何自然语言。

具体地，对句子抽取短语规则，即抽取出句法分析树中所有上下级构成关系的规则，在“胃液能初步消化蛋白质”一句中，存在如下短语规则及其出现频率：

zj-＞！dj w 1

vp-＞d！vp 1

np-＞！n 1

！vp-＞！v vp 1

！vp-＞！v n 1

！dj-＞np！vp 1

图9描述了语法层次计算的过程，通过句法分析后，可以得到句子在横向上的宽度(W’)和在纵向上的深度(D’)。宽度和深度的复杂性和语法层次结构的复杂性成正比，因此宽度和深度也被用来测量语法难度的两个元素。

若1＝W’/D’，则认为语法层次难度为高，值为5；

若0.6＜＝W’/D’＜1，则认为语法层次难度中，值为3；

若0.＜W’/D’＜0.6，则认为语法层次难度低，值为1。

短语规则歧义指数评测单元704，被配置成基于所述句法分析树或者可以参考标注有句法分析树信息的句法数据库702，抽取所述待分析文本中的短语结构规则及其频率，以分析计算所述待分析文本中出现的短语规则歧义指数难度等级。

定义11-短语规则歧义指数：假若语言成分a、b既可以形成短语X₁，又可以形成短语X₂，那么a和b的组合被定义为一组歧义组合，其歧义指数为2。例如在汉语中，动词(v)和名词(n)的组合，既可以形成动词短语(vp)，也可以形成名词短语(np)，因此(v+a)的组合是一组歧义指数为2的组合。若某种组合的歧义指数越高，意味着正确理解文本带来的困难和阻力越大。

因此，本实施例提出通过句法分析树或其数据库获得短语规则的歧义指数，作为短语规则歧义指数难度等级。

如图7所示，句型难度评测单元705被配置成基于所述句法分析树或者可以参考标注有句法分析树信息的句法数据库702，评测所述待分析文本的句型难度等级。

定义12-句型：从形式上是对具有相同组合关系的句子的概括和抽象。因此可以近似地把这些短语结构规则认同为句型。即，同样借助句法分析树，可以地获得句型及其使用频率。这一信息对于判定随机文本的语法难度有着重要的作用。该实施例中将句型近似地等同于短语规则。

句型的难度，可以通过短语规则的频度和短语规则中是否包含虚词来判断。如果某短语规则使用频率很高，则认为该规则是一常见规则，难度不高，如若某短语规则使用频率不高也不低，则认为该规则是一普通规则，难度适中，如若某短语规则使用频率较低，则认为该规则是一非常见规则，难度高。短语规则中，若包含了介词、副词、连词等虚词成分，则包含了更多的语法信息而非词义信息，由此，该短语规则的难度也将被认为难度较高。

在获得作为特征量难度等级的语法层次难度等级、短语规则歧义指数以及句型难度等级之后，语法难度评测部700进一步根据以上三个特征量的权重计算所述待分析文本的加权平均语法信息量，以作为所述待分析文本的语法难度(参见附图标记706)。在此三个预定特征量难度等级可以采用相同的取值范围，或者如果由于定义的原因其取值范围不同则可进一步归一化为相同的取值范围，以方便加权平均。其各自的权重可以平均地取三分之一，或者其它可选的值。可选择地，可以采用SVM支持向量机训练出计算器，计算出各个特征量所占的权重。

另外，在该实施例中优选向语法难度评测部700输入带分词和词性标注信息的待分析文本(如图所示)，当然可以由语法难度评测部700的句法分析器在进行句法分析时获得待分析文本分词和词性标注信息。

<第五实施例>

图10是根据本发明第五实施例的语义难度评测部的操作示意图。语义难度评测部1000被配置成使用所述待分析文本的动词配价信息作为预定特征量来计算所述待分析文本的平均每句的动词配价数，获得取决于所述每句平均动词配价数的语义阅读难度。

定义13-语义：狭义的语义指的是词的意义，广义的语义包含了词的意义，也包含了词和词组合而产生的意义。本发明中的“语义”指的是广义意义上的定义。

语义问题在汉语语言学领域目前也处于探索研究阶段，没有哪一家也没有哪一个理论能很好地覆盖包括汉语在内的各种自然语言的语义问题。因此，本实施例基于“动词中心论”，认为“动词”能够控制句子语义的理解，对“动词”特点的把握直接决定了对文本语义内容的理解。

动词和语义关系最密切且最容易形式化的特征就是建立于“配价理论”的动词的“价”。

定义14-配价理论：句子以动词为核心，其他的都成分都由它支配。动词可以直接支配几个成分即可认为是几价动词。

例如，以汉语“我爱中国”为例，“爱”支配了“我”和“中国”两个成分，那么，“爱”是“二价动词。”

动词和其支配成分，共同可以构成一个语义关系，激活一个人脑中的语义框架，如果句子中的动词的总价数越多，句子所包含的潜在语义框架也就越多，同时对正确地挑选出句子所要表达的语义造成了压力和负担，也就以意味着句子的语义难度大。

优选输入带有分词和词性标注信息的待分析文本，以方便语义难度评测部从中获得谓语动词信息(参见附图标记1001)，参考动词配价信息数据库(参见附图标记1002)即可计算出该文本的动词配价总数，在此基础上计算所述待分析文本的平均每句的动词配价数，获得取决于所述每句平均动词配价数的语义阅读难度(参见附图标记1003)。当然也可以直接输入不带分词和词性标注信息的待分析文本，由语义难度评测部直接辨别并获得动词信息。

<第六实施例>

图11是根据本发明第六实施例的文本阅读难度判断设备的结构框图。该文本阅读难度判断设备1100可以对待分析文本的字形、语音、词汇、语法和语义中的至少两个评测主题进行综合阅读难度分析。在该实施例中示例性地仅对所有五个评测主题(字形、语音、词汇、语法和语义)进行综合阅读难度分析作了描述。

如图所示，文本阅读难度判断设备1100包括：输入装置1101、五个特征量难度评测装置(字形难度评测部1102、语音难度评测部1103、词汇难度评测部1104、语法难度评测部1105和语义难度评测部1106)、综合评测装置1107和输出装置1108。

所述五个特征量难度评测装置分别输出指示字形、语音、词汇、语法和语义阅读难度的数据，综合评测装置1107可以使用由所述特征量难度评测装置计算获得的至少两个阅读难度(在该实施例中是五个阅读难度)，按照所述评测主题的预定权重综合计算所述待分析文本的综合阅读难度。

以上各个特征量难度评测装置可以采用相同的取值范围来表示用于指示字形、语音、词汇、语法和语义阅读难度的数据，或者如果由于定义的原因其取值范围不同则可进一步归一化为相同的取值范围，以方便综合评测装置1107加权平均。且各自的权重可以平均地取五分之一或者其它可选值。可选择地，可以采用SVM支持向量机训练出计算器，计算出各个阅读难度所占的权重。

在附图11中，还示出了包括连接在所述特征量难度评测装置之间的文本预处理装置1109，被配置成获取所述待分析文本的语音、词汇、句子、语法和/或语义信息，以减小各个特征量难度评测装置的运算负荷。

应了解，文本预处理装置1109可单独地运用到第一到第五任何一个实施例中，尤其是当文本阅读难度判断设备用于评测至少两个评测主题进行综合阅读难度分析时，使用文本预处理装置1109尤为有益。

考虑到不同特征量难度评测装置的不同预处理需求，文本预处理装置1109可包括：

断句单元，被配置成根据句末标点符号特征对所述待分析文本进行断句，将所述待分析文本按照句级单位进行切分；

分词及词性标注单元，被配置成标示所述待分析文本的词信息和词类信息，并标注出专有名词词典中未收录的词条；

语音标注单元，被配置成标注所述待分析文本的语音；和/或

句子语法分析单元，被配置成分析所述待分析文本的语法结构关系。

<机器学习方法>

如上所述，可以事先定义表征字形、语音、词汇、语法和语义阅读难度的各个特征量难度等级参数及其各自的权重，也可利用机器学习方法通过训练计算器来获得各个特征量难度等级参数及其各自的权重。

图12是用以获得特征量难度等级的机器学习的示意图。

首先提供若干训练样本1201，其中每个样本均标注了m个预定特征量(C1-Cm)。且分别标注了针对各个预定特征量的难度等级(1-n)和/或针对某预测主题的阅读难度。

通过常用的机器学习方法例如使用SVM支持向量机，对所有样本的m个预定特征分别进行难度等级的训练，计算出各个特征量(C1-Cm)所占的特征量难度等级参数。可选择地或者同时，还使用每个样本均的m个预定特征量难度等级和针对某预测主题的阅读难度，训练m个预定特征量所占的权重。这样最终获得的学习器1202作为计算器1204可以对输入的待分析文本1203进行m个预定特征量的难度等级计算(参见附图标记1205)，也可以对获得的m个难度等级进行加权平均获得有关该评测主题的阅读难度。

以词汇阅读难度评测为例，对待分析文本计算而获得的的常用词和非常用词比例、词项密度、虚实词比例以及专有名词和未登陆词密度可以直接作为相应特征量难度等级，或者经过归一化作为相应特征量难度等级。这样学习器1202可仅用来训练3个预定特征量所占的权重。可替代地，也可以不仅训练3个预定特征量所占的权重而且训练所述3个预定特征量的难度等级。对此将不再详述。

<其它实施例>

从附图2到附图11分别介绍了本发明的各个实施例。本发明基于语言学习的特征和自然语言的特征规律，将“阅读难度”从未曾量化的概念进行了具体量化，对一个随机的文本从字形、语音、词汇、语法和/或语义等各个阅读方面实现了难度评测。

本发明尤其可应用于各种自然语言的教学。目前自然语言教学、尤其是汉语教学无论是幼儿成人还是面向第二语言学习者的教学，在教材的编撰和选择、在考试试题的编写和选择中目前普遍以人的主观判断为依据，尚未有可以量化的辅助工具为这些活动过程提供帮助和参考。本发明的各个实施例均可完整地运用到面向自然语言教学的过程中。

尽管本发明的某些实施例(如字形和语音)以汉语为实例阐述其实现步骤，但是这些实施例亦可应用于其它自然语言。因此可以理解，凡应用于其它语言或符号系统，不超出本发明的构思要领的变化都应归于本发明的保护范围之中。

以上描述了本发明的优选实施方式。本领域的普通技术人员知道，本发明的保护范围不限于这里所公开的具体细节，而可以具有在本发明的精神实质范围内的各种变化和等效方案。

Claims

1.一种文本阅读难度判断设备，包括：

输入装置，被配置成接收待分析文本、以及有关阅读难度的预定评测主题；

特征量难度评测装置，被配置成针对所述待分析文本的每个组成部分获取用于评测所述预定评测主题的至少一个预定的特征量，针对所述预定特征量计算整个所述待分析文本的相应特征量难度等级，并使用所述特征量难度等级按照该预定特征量所占的预定权重计算有关所述预定评测主题的加权平均信息量，以作为所述待分析文本的有关所述预定评测主题的阅读难度；以及

输出装置，被配置成输出所述待分析文本的有关所述预定评测主题的阅读难度。

2.根据权利要求1所述的文本阅读难度判断设备，其中所述预定评测主题包括所述待分析文本的字形、语音、词汇、语法和/或语义。

3.根据权利要求1所述的文本阅读难度判断设备，其中用于表征所述特征量难度等级的阈值或参数和/或所述预定特征量所占的预定权重是通过机器学习方法获得的。

4.根据权利要求1所述的文本阅读难度判断设备，其中所述待分析文本是汉语文本，所述预定评测主题是所述汉语文本的字形，

所述特征量难度评测装置包括字形难度评测部，被配置成使用所述汉语文本的每个汉字的笔画、部首和结构作为预定特征量来计算所述待分析文本的加权平均字形信息量作为字形阅读难度。

5.根据权利要求1所述的文本阅读难度判断设备，其中所述待分析文本是汉语文本，所述预定评测主题是所述汉语文本的语音，

所述特征量难度评测装置包括语音难度评测部，被配置成基于所述汉语文本的文本拼音信息，使用所述汉语文本中每个汉字的声母、韵母和声调作为预定特征量来计算所述待分析文本的加权平均语音信息量以作为语音阅读难度。

6.根据权利要求5所述的文本阅读难度判断设备，其中所述语音难度评测部进一步包括：

声母难度评测单元，被配置成根据有关汉语声母的现代汉语语音难度等级，对所述汉语文本中各汉字的声母进行难度区分，计算所述汉语文本的声母难度等级；

韵母难度评测单元，被配置成按照单韵母、复韵母和鼻音韵母对所述汉语文本中各汉字的韵母进行难度等级排序，计算所述汉语文本的韵母难度等级；

声调难度评测单元，被配置成根据所述汉语文本内的声调起伏度计算所述汉语文本的声调难度等级。

7.根据权利要求6所述的文本阅读难度判断设备，其中所述声调难度评测单元被配置成基于五度标记法表示所述汉语文本中每个汉字的声调，以获得由“1-5”数字构成的符号序列“T₀ T₁ T₂...T_n”；通过逐个计算“T_i+1-T_i”得到n-1个调差T_x；并且根据如下等式获得与n-1个调差T_x相对应的n-1个难度值D(T_x)：

若-4＜＝T_x＜＝-2，则其难度D(T_x)＝1，

若-1＜＝T_x＜＝1，则其难度D(T_x)＝0，

若2＜＝T_x＜＝4，则其难度D(T_x)＝1；

进一步根据声调难度等级计算公式：

计算所述汉语文本的声调难度等级T。

8.根据权利要求1所述的文本阅读难度判断设备，其中所述预定评测主题是所述待分析文本的词汇，

所述特征量难度评测装置包括词汇难度评测部，被配置成使用所述待分析文本中的常用词和非常用词信息、词项出现次数信息、虚实词信息以及专有名词和未登陆词信息作为预定特征量来计算所述待分析文本的加权平均词汇信息量，以作为所述待分析文本的词汇阅读难度。

9.根据权利要求8所述的文本阅读难度判断设备，其中所述词汇难度评测部包括：

常用词和非常用词比例评测单元，被配置成根据所述待分析文本中各词的常用词和非常用词信息，计算其常用词和非常用词的比例；

词项密度评测单元，被配置成评测从所述待分析文本中去除重复的词语后的词语总数和所有词语总数的比例；

虚词实词比例评测单元，被配置成通过词性标记信息计算所述待分析文本中虚词和实词的比例；

专有名词和未登陆词密度评测单元，被配置成参考预定名词词典计算所述待分析文本中的专有名词和未登陆词的密度。

10.根据权利要求1所述的文本阅读难度判断设备，其中所述预定评测主题是所述待分析文本的语法，

所述特征量难度评测装置包括语法难度评测部，被配置成使用所述待分析文本的语法层次信息、短语规则信息以及句型信息作为预定特征量来计算所述待分析文本的加权平均语法信息量，以作为所述待分析文本的语法阅读难度。

11.根据权利要求10所述的文本阅读难度判断设备，其中所述语法难度评测部包括：

语法层次评测单元，被配置成使用对所述待分析文本进行句法分析而获得的各个句法分析树，获得取决于句法分析树宽度和深度之比的语法层次难度等级；

短语规则歧义指数评测单元，被配置成基于所述句法分析树，抽取所述待分析文本中的短语结构规则及其频率，以分析计算所述待分析文本中出现的短语规则歧义指数难度等级；和

句型难度评测单元，被配置成基于所述句法分析树提取句型，评测所述待分析文本的句型难度等级。

12.根据权利要求1所述的文本阅读难度判断设备，其中所述预定评测主题是所述待分析文本的语义，

所述特征量难度评测装置包括语义难度评测部，被配置成使用所述待分析文本的动词配价信息作为预定特征量来计算所述待分析文本的平均每句的动词配价数，获得取决于所述每句平均动词配价数的语义阅读难度。

13.根据权利要求1所述的文本阅读难度判断设备，其中所述预定评测主题包括所述待分析文本的字形、语音、词汇、语法和语义中的至少两个；

所述文本阅读难度判断设备还包括连接在所述特征量难度评测装置和输出装置之间的综合评测装置，被配置成使用由所述特征量难度评测装置计算获得的与所述至少两个评测主题相关的至少两个阅读难度，按照所述至少两个评测主题的预定权重综合计算所述待分析文本的综合阅读难度。

14.根据权利要求1所述的文本阅读难度判断设备，其中还包括连接在所述输入装置和所述特征量难度评测装置之间的文本预处理装置，被配置成获取所述待分析文本的语音、词汇、句子、语法和/或语义信息。

15.根据权利要求14所述的文本阅读难度判断设备，其中所述文本预处理装置进一步包括：

语音标注单元，被配置成标注所述待分析文本的语音；和/或

16.一种判断文本阅读难度的方法，包括：

接收待分析文本、以及有关阅读难度的预定评测主题；

针对所述待分析文本的每个组成部分获取用于评测所述预定评测主题的至少一个预定特征量，针对所述预定特征量计算整个所述待分析文本的相应特征量难度等级，并使用所述特征量难度等级按照该预定特征量所占的预定权重计算有关所述预定评测主题的加权平均信息量，以作为所述待分析文本的有关所述预定评测主题的阅读难度；以及

输出所述待分析文本的有关所述预定评测主题的阅读难度。

17.根据权利要求16所述的判断文本阅读难度的方法，其中通过机器学习方法获得用于表征所述特征量难度等级的阈值或参数和/或所述预定特征量所占的预定权重。

18.根据权利要求16所述的判断文本阅读难度的方法，其中所述待分析文本是汉语文本，所述预定评测主题是所述汉语文本的字形，

所述计算所述待分析文本的有关所述预定评测主题的阅读难度的步骤包括：

针对所述待分析文本的每个汉字获取每个汉字的笔画、部首和结构，分别计算整个所述待分析文本的笔画、部首和结构的难度等级，并使用所述笔画、部首和结构的难度等级按照笔画、部首和结构的预定权重计算所述待分析文本的加权平均字形信息量，以作为所述待分析文本的字形阅读难度。

19.根据权利要求16所述的判断文本阅读难度的方法，其中所述待分析文本是汉语文本，所述预定评测主题是所述汉语文本的语音，

针对所述待分析文本的每个汉字获取每个汉字的声母、韵母和声调，分别计算整个所述待分析文本的声母、韵母和声调的难度等级，并使用所述声母、韵母和声调的难度等级按照声母、韵母和声调的预定权重计算所述待分析文本的加权平均语音信息量，以作为所述待分析文本的语音阅读难度。

20.根据权利要求19所述的判断文本阅读难度的方法，其中，

所述计算声母难度等级的步骤包括：根据有关汉语声母的现代汉语语音难度等级，对所述汉语文本中各汉字的声母进行难度区分，计算所述汉语文本的声母难度等级；

所述计算韵母难度等级的步骤包括：按照单韵母、复韵母和鼻音韵母对所述汉语文本中各汉字的韵母进行难度等级排序，计算所述汉语文本的韵母难度等级；

所述计算声调难度等级的步骤包括：根据所述汉语文本内的声调起伏度计算所述汉语文本的声调难度等级。

21.根据权利要求20所述的判断文本阅读难度的方法，其中所述计算整个所述待分析文本的声调难度等级的步骤包括：

基于五度标记法表示所述汉语文本中每个汉字的声调以获得由“1-5”数字构成的符号序列“T₀ T₁ T₂...T_n”；

通过逐个计算“T_i+1-T_i”得到n-1个调差T_x；并且根据如下等式获得与n-1个调差T_x相对应的n-1个难度值D(T_x)：

若-4＜＝T_x＜＝-2，则其难度D(T_x)＝1，

若-1＜＝T_x＜＝1，则其难度D(T_x)＝0，

若2＜＝T_x＜＝4，则其难度D(T_x)＝1；

根据声调难度等级计算公式：

计算所述汉语文本的声调难度等级T。

22.根据权利要求16所述的判断文本阅读难度的方法，其中所述预定评测主题是所述待分析文本的词汇，

针对所述待分析文本获取每个文本符号的常用词和非常用词信息、词项出现次数信息、虚实词信息以及专有名词和未登陆词信息，分别计算整个所述待分析文本的常用词和非常用词比例、词项密度、虚实词比例以及专有名词和未登陆词密度，并按照常用词和非常用词比例、词项密度、虚实词比例以及专有名词和未登陆词密度各自的预定权重计算所述待分析文本的加权平均词汇信息量，以作为所述待分析文本的词汇阅读难度。

23.根据权利要求16所述的判断文本阅读难度的方法，其中所述预定评测主题是所述待分析文本的语法，

所述计算所述待分析文本的有关所述预定评测主题的阅读难度的步骤包括：使用所述待分析文本的语法层次信息、短语规则信息以及句型信息作为预定特征量来计算作为特征量难度等级的语法层次难度等级、短语规则歧义指数以及句型难度等级，并进一步计算所述待分析文本的加权平均语法信息量，以作为所述待分析文本的语法阅读难度。

24.根据权利要求16所述的判断文本阅读难度的方法，其中所述预定评测主题是所述待分析文本的语义，

所述计算所述待分析文本的有关所述预定评测主题的阅读难度的步骤包括：使用所述待分析文本的动词配价信息作为预定特征量来计算所述待分析文本的平均每句的动词配价数，获得取决于所述每句平均动词配价数的语义阅读难度。

25.根据权利要求16所述的判断文本阅读难度的方法，其中所述预定评测主题包括所述待分析文本的字形、语音、词汇、语法和语义中的至少两个；

所述方法还包括：在分别获得与所述至少两个评测主题相关的至少两个阅读难度之后，按照所述至少两个评测主题的预定权重综合计算所述待分析文本的综合阅读难度。

26.根据权利要求16所述的判断文本阅读难度的方法，其中还包括：在所述输入步骤之后，获取所述待分析文本的语音、词汇、句子、语法和/或语义信息。

27.根据权利要求26所述的判断文本阅读难度的方法，其中所述获取所述待分析文本的语音、词汇、句子、语法和/或语义信息的步骤包括如下步骤中的至少一个：

根据句末标点符号特征对所述待分析文本进行断句，将所述待分析文本按照句级单位进行切分；

标示所述待分析文本的词信息和词类信息，并标注出专有名词词典中未收录的词条；

标注所述待分析文本的语音；和

分析所述待分析文本的语法结构关系。