CN103544393A

CN103544393A - 追踪儿童语言能力发展的方法

Info

Publication number: CN103544393A
Application number: CN201310503455.0A
Authority: CN
Inventors: 舒华; 刘红云; 李虹; 张玉平; 王晓怡
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2014-01-29
Anticipated expiration: 2033-10-23
Also published as: CN103544393B

Abstract

本发明涉及语言处理领域，具体地涉及追踪儿童语言能力发展的方法。本发明首先建立了追踪儿童语言能力发展的数据库，然后针对数据库的数据分别进行因果关系、发展描述、早期预测的分析，对于儿童早期语言和相关认知能力评估、语言阅读发展高危儿童的早期鉴别和干预，促进汉语儿童语言能力的发展有重要意义。

Description

追踪儿童语言能力发展的方法

技术领域

本发明涉及语言处理领域，具体地涉及追踪儿童语言能力发展的方法。

背景技术

语言是沟通与学习的主要工具，个体的语言能力尤其是阅读能力是其今后发展和职业成功的重要基础。在每种语言环境中总有5～10%的儿童不能顺利学会阅读，成为阅读障碍儿童(Snowling et al.,1996)。这种发展性阅读障碍发生于儿童生长早期，受到遗传、家庭、学校等多种环境因素的影响(Frith et al.,2001)。目前国际的研究热点是在儿童正式接触阅读教育前，通过对儿童语言和相关认知能力发展的测评，对儿童上学后的阅读能力进行早期预测，鉴别存在阅读障碍倾向的高危儿童，并通过适当的训练帮助，降低他们今后发展成为阅读障碍的可能性，从而实现从矫治到预防的模式改变。目前大量横断研究已经确定了一系列影响汉语儿童语言发展的认知因素，如语音技能、正字法技能、命名速度、语素意识等，并针对性地开发出了一系列相关的测验，可对儿童语言发展水平进行比较准确地评估，但在汉语儿童语言能力的动态发展以及个体差异的早期预测方面还缺乏有效追踪测查系统。

追踪研究主要用来分析一段时间或某几个时间点个体的增长趋势和个体之间的差异，并通过数据分析探讨各个变量之间的因果关系和个体发展轨迹以及影响因素等。西方拼音语言国家已经有许多语言阅读追踪研究，探讨了儿童语言发展规律、阅读障碍的早期预测因素、早期鉴别阅读障碍风险儿童的有效指标、及影响儿童语言发展的家庭教育因素等，这对改进儿童早期教育时间、提高人口素质起了重要的作用。但是，由于汉语与拼音语言存在巨大差异，以西方拼音文字为基础的追踪系统不能直接应用于或简单推论至使用汉语文字的汉语儿童上。因此，我们有必要设计一套合理有效的汉语儿童语言发展追踪系统，将之用于社区医疗保健系统、幼儿园教育和小学教育系统中，从而实现对儿童语言发展的动态追踪和早期预测。对于儿童早期语言和相关认知能力评估、语言阅读发展高危儿童的早期鉴别和干预，促进汉语儿童语言能力的发展有重要意义。

发明内容

本发明的再一目的是提供追踪儿童语言能力发展的方法。

本发明首先提供了建立可用于追踪儿童语言能力发展的数据库的方法，所述方法包括以下步骤：

（1）建立儿童汉语语言和相关认知能力发展的基础数据库；

（2）根据得到的基础数据库，对历次测验中测量工具的信度和效度进行系统分析，并对不同方面的能力进行计分和分数转化处理，如果不同时间点的测验任务不相同，要进行测验分数的垂直等值和链接分析，形成可以用于能力特征分析的数据库，具体步骤如下：

（2-1）对历年测试的原始数据进行编码、转换，获得儿童发展不同时期的语音、词汇、句法、表述能力的基本特征的得分，标准化方法为：

Z_{ig} = \frac{X_{ig} - {\overline{X}}_{g}}{S_{g}}

其中X_ig表示第g个年龄组第i个个体在某个任务上的测验分数，

和S_g分别表示第g个年龄组所有个体在某个任务上测验分数的平均值和标准差，

（2-2）将同一个孩子不同年、不同方面的测验成绩进行系统整合，采用动态因素分析的方法对不同年度采用的测量工具的有效性和稳定性进行分析，核心的动态因素分析表示为：

y (t) = Σ_{i = 0}^{s} Λ (i) B^{i} f (t) + u (t)

其中y₁(t),Λ,y_n(t)为第t次（t=1,2，...，T）测量的n个项目的分数，

y (t) = (\begin{matrix} y_{1} (t) \\ y_{2} (t) \\ M \\ y_{n} (t) \end{matrix}),

n个题目测量了m个维度（n<m），f₁(t),Λ,f_m(t)为第t次（t=1,2，...，T）测量的m个潜变量，

f (t) = (\begin{matrix} f_{1} (t) \\ f_{2} (t) \\ M \\ f_{m} (t) \end{matrix}),

Λ(i)=(λ_jk(i))为m×n的滞后因素载荷矩阵，B为滞后效应算子，满足Bⁱy(t)=y(t-i)，i表示与当前时间早i次的测试，

（2-3）对测验分数进行垂直等值和链接分析；

（3）对数据的缺失模式进行分析，区分完全随机缺失、随机缺失和非随机缺失模式，并处理缺失数据。

根据本发明的建立可用于追踪儿童语言能力发展的数据库的方法，在步骤（1）中，根据儿童年龄特点和汉语特点，设计适合不同年龄的语言及相关认知能力的测验任务，如果不同年龄采用测验工具有差异，在测验设计上应对不同年龄设置共同题以便进行后期的等值链接；采用时间序列研究设计，收集至少三个时间点的数据；把大量在儿童多个发展时间点上收集的不同性质的数据进行清理和系统整理，形成儿童汉语语言和相关认知能力发展的基础数据库。

根据本发明的建立可用于追踪儿童语言能力发展的数据库的方法，在步骤（2-3）中，，对于相邻的两个年龄组，测验分数的垂直等值和链接分析包括以下步骤：

步骤1：建立两个年龄测验分数的关系

μ₁(SC)，σ₁(SC)分别为第一个年龄组测验量表分数的均值和标准差；μ₂(SC)，σ₂(SC)分别为第二个年龄组测验量表分数的均值和标准差。将每个年龄组的测验量尺分数转化为标准分z₁和z₂，瑟斯顿模型假设：

z_{i} = \frac{σ_{2} (SC)}{σ_{1} (SC)} z_{2} + \frac{μ_{2} (SC) - μ_{2} (SC)}{σ_{2} (SC)},

步骤2：原始分数的转换

建立每个年龄组原始分数y的频次分布表，采用公式其中z为要求得的标准化分数，Φ(z)为与该标准化的分数z相对应的累积频率，令其等于原始分数y的累积频率，

通过以上公式，对每个年龄组的原始分数标准化，分别记为z₁ ^*(y)和z₂ ^*(y)，

步骤3：原始分数与量尺分数的转换

对于第一个年龄组，原始分数到量尺分数的转换为：

sc = z_{1}^{*} (y) σ_{1} (SC) + μ_{1} (SC)

对于第二个年龄组，原始分数到量尺分数的转换为：

sc = z_{2}^{*} (y) \frac{σ (z_{1}^{*} (y))}{σ (z_{2}^{*} (y))} σ_{1} (SC) + σ_{1} (SC) (μ (z_{1}^{*} (y) - \frac{σ (z_{1}^{*} (y))}{σ (z_{2}^{*} (y))} μ (z_{2}^{*} (y)) + μ_{1} (SC)

其中

和分别为z₁ ^*(y)的均值和标准差，

和分别为z₂ ^*(y)的均值和标准差。

根据本发明的追踪儿童语言能力发展的方法，包括以下步骤：

（一）通过上述方法建立可用于追踪儿童语言能力发展的数据库，包括以下步骤：

（1）建立儿童汉语语言和相关认知能力发展的基础数据库；

Z_{ig} = \frac{X_{ig} - {\overline{X}}_{g}}{S_{g}}

y (t) = Σ_{i = 0}^{s} Λ (i) B^{i} f (t) + u (t)

y (t) = (\begin{matrix} y_{1} (t) \\ y_{2} (t) \\ M \\ y_{n} (t) \end{matrix}),

f (t) = (\begin{matrix} f_{1} (t) \\ f_{2} (t) \\ M \\ f_{m} (t) \end{matrix}),

（2-3）对测验分数进行垂直等值和链接分析；

（3）对数据的缺失模式进行分析，区分完全随机缺失、随机缺失和非随机缺失模式，并处理缺失数据，

（二）针对数据库的数据分别进行因果关系、发展描述、早期预测的分析，

1、因果关系分析

1-1同时期因果分析，在儿童不同发展时期内部，利用结构方程模型研究语音发展对阅读的语言、认知因素和阅读能力进行预测的复杂关系，结合层次线性模型，进一步研究这些复杂关系随时间的变化和交互作用，

1-2前后期因果分析，采用纵向交叉分析技术，考察儿童早期语言认知方面的能力对后期读写能力的影响，并对变量之间影响关系的动态稳定性进行分析，同时，使用纵向回归分析和结构方程模型技术建立早期语言、阅读预测因素和学龄期阅读之间关系的模型，

2、发展描述分析

2-1个体发展趋势分析，利用潜变量增长曲线模型或多层线性模型，分析儿童个体不同能力的发展趋势和发展规律，并对不同儿童发展趋势的差异以及存在差异的原因进行分析；

2-2潜在发展类别分析，由于儿童的语言能力发展趋势存在潜在类别，利用潜变量混合模型，研究儿童在不同任务或多个关联任务上存在的不同潜在类别；

3、早期预测分析

利用逻辑回归，以儿童是否是阅读障碍为因变量，早期认知能力为自变量，考查哪些认知能力能准确预测阅读障碍。

根据本发明的追踪儿童语言能力发展的系统，所述系统包括：（1）数据收集模块，（2）数据处理模块以及（3）数据输出模块，

所述数据处理模块包括

2-1数据处理及转化单元，根据得到的基础数据库，对历次测验中测量工具的信度和效度进行系统分析，并对不同方面的能力进行计分和分数转化处理，如果不同时间点的测验任务不相同，要进行测验分数的垂直等值和链接分析，形成可以用于能力特征分析的数据库，其具体包括：

2-2缺失数据处理单元，对数据的缺失模式进行分析，区分完全随机缺失、随机缺失和非随机缺失模式，并处理缺失数据，

所述数据输出模块包括，

3-1因果关系分析单元

在儿童不同发展时期内部，利用结构方程模型研究语音发展对阅读的语言、认知因素和阅读能力进行预测的复杂关系，结合层次线性模型，进一步研究这些复杂关系随时间的变化和交互作用，采用纵向交叉分析技术，考察儿童早期语言认知方面的能力对后期读写能力的影响，并对变量之间影响关系的动态稳定性进行分析，同时，使用纵向回归分析和结构方程模型技术建立早期语言、阅读预测因素和学龄期阅读之间关系的模型，

3-2发展描述分析单元

利用潜变量增长曲线模型或多层线性模型，分析儿童个体不同能力的发展趋势和发展规律，并对不同儿童发展趋势的差异以及存在差异的原因进行分析，利用潜变量混合模型，研究儿童在不同任务或多个关联任务上存在的不同潜在类别；

3-3早期预测分析单元

附图说明

图1根据本发明的追踪儿童语言能力发展的方法的流程图。

图2-1，2-2，2-3，2-4，2-5，2-6，2-7为实施例1中使用的方程模型示意图。

具体实施方式

实施例1

根据本发明的技术方案，首先提供了一种建立可用于能力特征分析的数据库的方法，所述方法包括以下步骤：

（1）建立儿童汉语语言和相关认知能力发展的基础数据库，根据儿童年龄特点和汉语特点，设计适合不同年龄的语言及相关认知能力的测验任务，如果不同年龄采用测验工具有差异，在测验设计上应对不同年龄设置共同题以便进行后期的等值链接；采用时间序列研究设计，收集至少三个时间点的数据；把大量在儿童多个发展时间点上收集的不同性质的数据进行清理和系统整理，形成儿童汉语语言和相关认知能力发展的基础数据库。

（2）根据得到的基础数据库和测验结构的理论假设，对历次测验中测量工具的信度和效度进行系统分析，并对不同方面的能力进行计分和分数转化等处理。如果不同时间点的测验任务不相同，要进行测验分数的垂直等值和链接分析，形成可以用于能力特征分析的数据库。具体有以下步骤：

（2-1）对历年测试的原始数据进行编码、转换，获得儿童发展不同时期的语音、词汇、句法、表述等能力的基本特征的得分。对于学前儿童年龄较小的测验点，以三个月为单位进行年龄分组并计算标准分，以便了解每个儿童在同龄人中的相对位置及其变化，避免年龄因素导致的成绩差异混杂在能力差异中，标准化常用的方法为：

Z_{ig} = \frac{X_{ig} - {\overline{X}}_{g}}{S_{g}}

和S_g分别表示第g个年龄组所有个体在某个任务上测验分数的平均值和标准差。

y (t) = Σ_{i = 0}^{s} Λ (i) B^{i} f (t) + u (t)

f (t) = (\begin{matrix} f_{1} (t) \\ f_{2} (t) \\ M \\ f_{m} (t) \end{matrix}),

f (t) = (\begin{matrix} f_{1} (t) \\ f_{2} (t) \\ M \\ f_{m} (t) \end{matrix}),

Λ(i)=(λ_jk(i))为m×n的滞后因素载荷矩阵，B为滞后效应算子，满足Bⁱy(t)=y(t-i)，i表示与当前时间早i次的测试。

（2-3）由于随着儿童年龄的增长，认知能力和语言能力也会不断增长（一般规律），因此不同时间点最能有效测查儿童语言、认知能力的测验工具可能并不相同，因此需要使用线性铆（共同题目）等方法，对测验分数进行垂直等值和链接分析。这里我们采用瑟斯顿统计模型（Thurstone Statistical Methods），以相邻的两个年龄组为例，这种方法可以分为以下三个步骤：

步骤1：建立两个年龄测验分数的关系

z_{i} = \frac{σ_{2} (SC)}{σ_{1} (SC)} z_{2} + \frac{μ_{2} (SC) - μ_{2} (SC)}{σ_{2} (SC)},

步骤2：原始分数的转换

建立每个年龄组原始分数y的频次分布表，采用公式

其中z为要求得的标准化分数，Φ(z)为与该标准化的分数z相对应的累积频率，令其等于原始分数y的累积频率（对频次分布表做累加并除以总人数）。

通过以上公式，对每个年龄组的原始分数标准化，分别记为z₁ ^*(y)和z₂ ^*(y)。

步骤3：原始分数与量尺分数的转换

对于第一个年龄组，原始分数到量尺分数的转换为：

sc = z_{1}^{*} (y) σ_{1} (SC) + μ_{1} (SC)

对于第二个年龄组，原始分数到量尺分数的转换为：

sc = z_{2}^{*} (y) \frac{σ (z_{1}^{*} (y))}{σ (z_{2}^{*} (y))} σ_{1} (SC) + σ_{1} (SC) (μ (z_{1}^{*} (y) - \frac{σ (z_{1}^{*} (y))}{σ (z_{2}^{*} (y))} μ (z_{2}^{*} (y)) + μ_{1} (SC)

其中

和分别为z₁ ^*(y)的均值和标准差，

和

分别为z₂ ^*(y)的均值和标准差；

（3）对数据的缺失模式进行分析，区分完全随机缺失、随机缺失和非随机缺失几种模式，并对不同模式的缺失采用合适恰当的处理方法（如完全随机缺失和随机缺失采用多重插补法，非随机缺失采用可以考虑缺失特点的基于模型定义的处理方法）。

根据本发明的建立可用于能力特征分析的数据库的方法，追踪研究中的缺失数据是非常值得关注的问题，针对缺失数据的模式采用恰当的分析方法是得到可靠分析结果的前提。可以采用分组t检验等方法将数据的缺失类型可以划分为：完全随机缺失、随机缺失和非随机缺失几种类型。

若存在缺失的变量，其缺失与其观测值、未观测值均相互独立，且缺失与否也独立于协变量，则该种缺失模式属于完全随机缺失。若存在缺失的变量，其缺失只与该变量观测值有关，与未观测值无关，且该缺失可依赖于另一个无缺失值的协变量，该种缺失模式属于随机缺失。若存在缺失的变量，其缺失不仅可能与该变量的观测值有关，还与未观测值有关，该种缺失模式属于非随机缺失。

对于完全随机缺失和随机缺失可以采用多重插补法（Multiple Imputation，MI）处理缺失值，多重插补法基于贝叶斯估计，根据已知的信息估计出插补值，并考虑误差，形成多次（m次）插补值，通过对m个插补后的完整数据集的分析，对来自各个插补数据集的结果进行合并，得到最终的分析结果。这样可以反应缺失值的不确定性，而模拟缺失数据的分布也可以较好地保持变量间关系。

对于非随机缺失的情景可以通过使用“完整数据（Full-data）”的似然分析方法进行处理，这一方法不仅考虑观测的数据，而且采用0-1指标变量描述每个时间点的数据是否缺失。通过用y向量表示结果向量，m表示二分的缺失指标变量就可以考虑完整数据的似然分析。可使用模式混合（Pattern-mixture）模型和选择模型（selectionmodeling）。

模式混合模型将数据和缺失概率的联合分布分解为边缘分布和条件分布的乘积，记为p(Y,d)=p(Y|d)p(d)。在该模型中，Y表示结果变量，d表示数据缺失与否；边缘分布p(d)指不同数据缺失模式（被观测或缺失）的发生概率；条件分布p(Y|d)是给定数据缺失模式下，基于研究者感兴趣的模型，结果变量为Y的概率。数据缺失与否，由缺失的时间点或缺失数量确定，每种模式下的数据被分别拟合得到相应的参数估计，再通过加权平均的方法整合为一个总体的模型。模型中，潜变量d对结果变量有预测效应。

选择模型同样将数据和缺失概率的联合分布分解为边缘分布和条件分布的乘积，但与模式混合模型不同，选择模型认为p(Y,d)=p(d|Y)p(Y)。其中，Y表示结果变量，d表示数据缺失与否；p(Y)是研究者感兴趣的模型中，结果变量为Y的概率，该模型与理论假设相符；条件分布p(d|Y)是描述缺失概率的回归模型，即出现结果变量Y条件下，缺失指标为d（d=1表示结果变量被观测，d=0表示结果变量缺失）的概率。在选择模型中，结果变量会直接或间接地影响缺失概率，对是否某变量是否发生缺失有预测作用。

实施例2

针对数据库分别进行因果关系、发展描述、早期预测的分析

1.因果关系分析方法

在儿童不同发展时期内部，利用结构方程模型研究语音发展（语音、词汇、句法）对阅读的语言、认知因素（语音意识、语素意识、加工速度、语言智力）和阅读能力（字词识别、阅读理解）进行预测的复杂关系。在此基础上，结合层次线性模型，可进一步研究这些复杂关系随时间的变化和交互作用。

为考查儿童早期能力对后期能力的影响，可采用纵向交叉分析技术，对儿童早期语音意识、加工速度、语素意识等语言认知方面的能力对后期汉字识别、阅读理解等读写能力的影响进行因果关系的分析，并对变量之间影响关系的动态稳定性进行分析。同时，可使用纵向回归分析和结构方程模型技术建立早期语言、阅读预测因素和学龄期阅读之间关系的模型。

因果关系分析方法可以通过AMOS、Mplus等商业软件，或R、OpenMX等开源软件实现，主要基于结构方程模型（或只涉及路径分析）进行。以下将以Mplus分析过程为例，描述进行分析的步骤。

例1、3、4的分析针对名为“longitudinal data for reading.dat”的数据进行，各变量名含义如下：P1为第一时期语音测试得分，P2为第二时期语音测试得分，M1为第一时期语素测试得分，M2为第二时期语素测试得分，C1为第一时期汉字识别得分，C2为第二时期汉字识别得分。

例2所用数据为名为“longitudinal data for reading.dat”的数据重新调整后所得“revised data.dat”，对同类不同时期的测试得分进行合并，其中P为语音测试得分，M为语素测试得分，C为汉字识别得分；T为时间点，1表示该行测试得分属于第一时期，2表示属于第二时期。

例1.同时期语音意识、语素意识与汉字识别的因果关系。（结构方程模型参见

图2-1）

该例考查了第一时期儿童语音、语素意识对更为高级的汉字识别能力的影响。MODEL命令考查了第一时期汉字识别得分与第一时期语音和语素意识的因果关系。

例2.复杂因果关系随时间的变化与交互作用。（层次线性模型，参见图2-2）

该例同时考察了不同时期语音、语素能力对汉字识别的预测作用，MODEL命令说明了不同时期内部存在语音、语素能力对汉字识别的预测作用，而不同时期之间，汉字识别成绩及语音、语素对汉字识别的预测力也存在差异。

例3.早期和后期语音语素意识的交叉因果关系。（纵向交叉分析图2-3）

该例考查了第一时期语音、语素意识对第二时期语音、语素意识的影响。MODEL命令在考查同一语言能力早期对后期影响的同时，也考查了不同语言能力早期对后

期的交叉影响。

例4.早期各项能力与后期高级语言技能的纵向因果关系。（纵向回归分析图

2-4）

该例考查了早期语音、语素意识及汉字识别水平对后期汉字识别能力的影响。MODEL命令对三个自变量同时进行回归，考查了它们对后期语言技能的共同影响。

2.发展描述分析方法

为研究不同个体的发展趋势，利用潜变量增长曲线模型（或多层线性模型），分析儿童不同能力的发展趋势和发展规律，并对不同儿童发展趋势的差异以及存在差异的原因进行分析。

由于儿童的语言能力发展趋势存在潜在类别，利用潜变量混合模型，可研究儿童在不同任务或多个关联任务上可能存在的不同潜在类别，即发展类型的亚群体（如是否存在某个群体在所有任务上都发展很快，而有些群体则只在某些任务上发展较好），并进一步分析造成这些不同发展类别的可能原因，以及这些潜在类别能否预测后期的阅读能力（或是否存在障碍），以帮助我们了解造成阅读障碍的关键因素。

发展描述分析方法可以通过AMOS、Mplus、SAS等商业软件，或R、OpenMX等开源软件实现。以下将以Mplus分析过程为例，描述进行分析的步骤。

以下分析针对名为“longitudinal data for reading development.dat”的数据进行，各变量名含义如下：P1-P4为第1至第4个施测点的语音测试得分，IQ为智力分数。

例1.语音意识发展趋势描述及存在差异原因探索。（潜变量增长曲线模型，图2-5）

该例考查了语音意识随着年龄的发展趋势。MODEL命令定义了i s分别为语音意识发展的起始分数和发展速度，同时考查了智力水平对语音意识发展起始分数和发展速度的影响。

例2.语音能力发展趋势的亚群体及其预测因素。（潜变量混合模型图2-6）

该例考查了语音发展趋势的亚群体，同时考查了智力水平对语音发展起始状态和发展速度的影响，以及对不同亚群体的预测作用。

3.早期预测分析方法

利用逻辑回归，分析早期认知能力对后期阅读障碍预测的准确性。以儿童是否是阅读障碍为因变量，早期认知能力为自变量，考查哪些认知能力能准确预测阅读障碍。

早期预测分析方法可以通过SPSS、Mplus、SAS等商业软件，或R、OpenMX等开源软件实现。以下将以Mplus分析过程为例，描述进行分析的步骤。

以下分析针对名为“longitudinal data for dyslexia prediction.dat”的数据进行，各变量名含义如下：P为早期语音测试得分，M为早期语素测试得分，IQ为早期智力分数，D为后期阅读障碍指标（D=0表示正常，D=1表示为阅读障碍）。

例1.早期认知技能对阅读障碍的预测。（逻辑回归分析与2-7）

该例考查了早期认知技能语音、语素、智力水平对后期阅读障碍的预测效应，可确定可靠的预测指标。

Claims

1.一种建立可用于追踪儿童语言能力发展的数据库的方法，其特征在于，所述方法包括以下步骤：

（1）建立儿童汉语语言和相关认知能力发展的基础数据库；

Z_{ig} = \frac{X_{ig} - {\overline{X}}_{g}}{S_{g}}

y (t) = Σ_{i = 0}^{s} Λ (i) B^{i} f (t) + u (t)

y (t) = (\begin{matrix} y_{1} (t) \\ y_{2} (t) \\ M \\ y_{n} (t) \end{matrix}),

f (t) = (\begin{matrix} f_{1} (t) \\ f_{2} (t) \\ M \\ f_{m} (t) \end{matrix}),

（2-3）对测验分数进行垂直等值和链接分析；

2.根据权利要求1所述的建立可用于追踪儿童语言能力发展的数据库的方法，其特征在于，在步骤（1）中，根据儿童年龄特点和汉语特点，设计适合不同年龄的语言及相关认知能力的测验任务，如果不同年龄采用测验工具有差异，在测验设计上应对不同年龄设置共同题以便进行后期的等值链接；采用时间序列研究设计，收集至少三个时间点的数据；把大量在儿童多个发展时间点上收集的不同性质的数据进行清理和系统整理，形成儿童汉语语言和相关认知能力发展的基础数据库。

3.根据权利要求1所述的建立可用于追踪儿童语言能力发展的数据库的方法，其特征在于，在步骤（2-3）中，，对于相邻的两个年龄组，测验分数的垂直等值和链接分析包括以下步骤：

步骤1：建立两个年龄测验分数的关系

z_{i} = \frac{σ_{2} (SC)}{σ_{1} (SC)} z_{2} + \frac{μ_{2} (SC) - μ_{2} (SC)}{σ_{2} (SC)},

步骤2：原始分数的转换

建立每个年龄组原始分数y的频次分布表，采用公式

其中z为要求得的标准化分数，Φ(z)为与该标准化的分数z相对应的累积频率，令其等于原始分数y的累积频率，

步骤3：原始分数与量尺分数的转换

对于第一个年龄组，原始分数到量尺分数的转换为：

sc = z_{1}^{*} (y) σ_{1} (SC) + μ_{1} (SC)

对于第二个年龄组，原始分数到量尺分数的转换为：

sc = z_{2}^{*} (y) \frac{σ (z_{1}^{*} (y))}{σ (z_{2}^{*} (y))} σ_{1} (SC) + σ_{1} (SC) (μ (z_{1}^{*} (y) - \frac{σ (z_{1}^{*} (y))}{σ (z_{2}^{*} (y))} μ (z_{2}^{*} (y)) + μ_{1} (SC)

其中和

分别为z₁ ^*(y)的均值和标准差，和分别为z₂ ^*(y)的均值和标准差。

4.追踪儿童语言能力发展的方法，其特征在于，所述方法，包括以下步骤：

（一）建立可用于追踪儿童语言能力发展的数据库，包括以下步骤：

（1）建立儿童汉语语言和相关认知能力发展的基础数据库；

Z_{ig} = \frac{X_{ig} - {\overline{X}}_{g}}{S_{g}}

y (t) = Σ_{i = 0}^{s} Λ (i) B^{i} f (t) + u (t)

y (t) = (\begin{matrix} y_{1} (t) \\ y_{2} (t) \\ M \\ y_{n} (t) \end{matrix}),

f (t) = (\begin{matrix} f_{1} (t) \\ f_{2} (t) \\ M \\ f_{m} (t) \end{matrix}),

（2-3）对测验分数进行垂直等值和链接分析；

1、因果关系分析

2、发展描述分析

3、早期预测分析