CN102498485A

CN102498485A - 用于有表现力的语言、发育失调和情绪评估的系统和方法

Info

Publication number: CN102498485A
Application number: CN2010800133183A
Authority: CN
Inventors: D·D·许; T·D·保罗
Original assignee: Infoture Inc
Current assignee: Infoture Inc
Priority date: 2009-01-23
Filing date: 2010-01-22
Publication date: 2012-06-13
Anticipated expiration: 2030-01-22
Also published as: WO2010085681A1; CN102498485B; US8938390B2; US20090208913A1

Abstract

在一个实施例中，一种利用麦克风、录音机和计算机检测自然语言环境中关键儿童的孤独症的方法包括如下步骤，利用软件编程控制用于专门目的的计算机，所述专门目的是处理由所述麦克风和录音机组合捕获的记录：利用为了专门目的而编程控制的计算机将麦克风和录音机组合捕获的音频信号分割成多个记录片段。该方法还包括判断多个记录片段的哪个对应于关键儿童。该方法还包括将多个记录片段中确定为对应于关键儿童的那个分类为关键儿童记录。此外，该方法包括提取所述关键儿童记录的基于音素的特征；将所述关键儿童记录的基于音素的特征与已知的针对儿童的基于音素的特征比较；以及基于所述比较确定孤独症的可能性。

Description

用于有表现力的语言、发育失调和情绪评估的系统和方法

技术领域

本发明总体上涉及自动化语言评估，具体而言，涉及通过分析儿童使用的音素(phone)、音素状(phone-like)声音和原音素评估关键儿童的有表现力的语言发展，涉及分析记录以辅助检测诸如孤独症的疾病和失调，并涉及检测情绪。

背景技术

如’520申请中更详细论述的，幼儿周围的语言环境是儿童发展的关键。在三岁时，儿童的语言和词汇能力例如能够表明年龄稍长后在诸如阅读和数学的学术主题中的智力和考试成绩。提高语言能力通常获得更高的智商(IQ)以及改进的识字和学校技能。

暴露于听觉丰富或倾听语言的环境中，其中，在儿童和成年人之间以大量交互谈话的形式说到很多词汇，较大数量的肯定之于禁止可以促进儿童语言能力和IQ的提升。年幼儿童周围的语言环境对儿童语言能力和IQ的效果可能特别明显。

在人生的头四年中，部分由于儿童大脑的发育和成熟，儿童经历高度密集的讲话和语言发展时期。即使在儿童开始上学或读书之后，儿童的大部分语言能力和词汇也是从与他人进行谈话中发展起来的，词汇包括已知的单词(易于接受的词汇)和儿童在讲话时使用的单词(有表现力的词汇)。

除了听其他人对他们讲话并应答(即，会话)之外，儿童的语言发展还可能受到儿童自己讲话的促进。儿童自己讲话是认知作用的动态指标，尤其是在儿童一生的头几年。已经开发出了研究技术，涉及到统计幼儿的发声和讲话以及讲话的长度，以估计儿童的认知发展。当前收集信息的过程可以包括通过观察者和/或录制儿童讲话的录音获得数据。分析数据以提供可以用于分析儿童的语言环境的量度，可以修改量度以促进儿童语言开发和IQ的提升。

不过，存在观察者可能是侵入性的，对儿童行为有影响，成本高昂，且不能充分获得关于儿童自然环境和发展的信息。此外，使用录音和记录是获得与儿童语言环境相关联的数据的成本高且耗时的过程。分析这些的数据以识别规范的儿语、统计单词数目、确定讲话的平均长度和其他发声度量并确定所说内容也是非常耗时的。

即使对于电子分析系统而言，同时单词数目和确定所说内容也可能尤其消耗时间和资源，因为每个单词都是连同其含义一起被识别的。因此，需要这样的方法和系统，其独立于内容获得并分析与儿童语言环境相关联的数据并以及时的方式，基于数据报告量度。分析还应当包括自动评估儿童的有表现力的语言发展。

除了自动评估儿童的有表现力的语言发展之外，还需要开发特定的量度和方法以确定儿童的特定发育失调。如上所述，希望这样一种测试，在提供观察者方面其非侵入性非常大，且成本低，同时产生大量数据。通过分析讲话能够检测到的这种感兴趣的发育失调之一是孤独症。对语言发展有贡献的另一项因素可能是情绪。在儿童处在情绪有压力的环境中时，他们的学习和语言发展可能受到影响。因此，用于检测受检者交互的情绪内容的系统和方法可能合乎辅助语言开发的需要。

发明内容

用于有表现力的语言发展的系统和方法的某些实施例提供了以较快且有成本效率的方式提供与关键儿童的语言环境和发展相关联的度量的方法和系统。可以使用度量来促进语言环境的改善、关键儿童的语言发展和/或跟踪儿童语言技能的发展。在本发明的一个实施例中，提供了一种用于产生与关键儿童的语言环境相关联的度量的方法。可以捕获来自语言环境的录音。可以将录音分成多个片段。可以针对多个片段的每个标识片段ID。片段ID可以标识记录片段中的音频源。可以从片段中识别关键儿童片段。关键儿童片段的每个可能具有关键儿童作为片段ID。可以部分基于至少一个关键儿童片段估计关键儿童片段特性。可以独立于关键儿童片段的内容估计关键儿童片段特性。可以利用关键儿童片段特性确定与语言环境和/或语言发展相关联的至少一个度量。度量的范例包括在预设时间中关键儿童所说的单词或发声数量以及谈话轮数。可以将至少一个度量输出到输出设备。

在一些实施例中，可以从片段中识别出成年人片段。每个成年人片段可以具有成年人作为片段ID。可以部分基于至少一个成年人片段估计成年人片段特性。可以独立于成年人片段的内容估计成年人片段特性。可以利用成年人片段特性确定与语言环境相关联的至少一个度量。

在用于有表现力的语言发展的系统和方法的一个实施例中，提供了一种用于提供与关键儿童的语言环境相关联的量度的系统。该系统可以包括录音机和基于处理器的设备。录音机可以适于从语言环境捕获录音并向基于处理器的设备的提供录音。基于处理器的设备可以包括具有音频引擎的应用，其适于将录音分割成片段并针对每个片段标识片段ID。至少一个片段可以与关键儿童片段ID相关联。音频引擎可以进一步适于部分基于至少一个片段估计关键儿童的片段特性，利用关键儿童片段特性确定与语言环境或语言发展相关联的至少一个度量，并向输出设备输出至少一个度量。音频引擎可以独立于片段内容估计关键儿童的片段特性。

在用于有表现力的语言发展的系统和方法的一个实施例中，分析关键儿童的发声以识别特定音素、音素状声音和原音素的出现次数，并计算音素、音素状声音和原音素的频率分布或持续时间分布。可以独立于发声的内容进行分析。可以使用为用于从成年人语音识别内容的自动语音识别系统而设计的音素解码器识别音素、音素状声音和原音素。使用关键儿童的实足年龄选择基于年龄的模型，该模型使用音素、音素状声音和原音素的分布，以及与每个音素、音素状声音和原音素相关联的基于年龄的权重来评估关键儿童的有表现力的语言发展。评估可能获得标准分数、估计的发育年龄或估计的讲话度量的平均长度。

在一个实施例中，一种评估关键儿童有表现力的语言发展的方法包括处理在关键儿童的语言环境中获取的录音以识别记录中对应于关键儿童发声的片段。该方法还包括向片段应用成年人自动语音识别音素解码器以识别多个双音素类别的每个的每次发生。双音素类别的每个都对应于预定义的语音序列。该方法还包括确定双音素类别的分布并使用基于年龄的模型中的分布以评估关键儿童的有表现力语言发展。

在另一实施例中，一种用于评估关键儿童语言发展的系统包括基于处理器的设备，该设备包括具有音频引擎的应用，用于处理在关键儿童语言环境中获取的录音以识别记录中对应于关键儿童发声的片段。该系统还包括成年人自动语音识别音素解码器，用于处理对应于关键儿童发声的片段，以识别多个双音素类别的每个的每次发生。双音素类别的每个都对应于预定义的语音序列。该系统还包括用于确定双音素类别的分布并使用基于年龄的模型中的分布以评估关键儿童的有表现力语言发展的有表现力语言评估部件。基于关键儿童的实足年龄选择基于年龄的模型，基于年龄的模型包括与双音素类别的每个相关联的权重。

在用于有表现力的语言发展的系统和方法的一个实施例中，一种用于在自然语言环境中检测孤独症的方法包括使用麦克风、录音机和计算机，利用软件编程控制用于专门目的的计算机，该目的是处理由麦克风和录音机组合捕获的记录。编程控制计算机以执行包括如下操作的方法：利用为了专门目的而编程控制的计算机将麦克风和录音机组合捕获的音频信号分割成多个记录片段。该方法还包括判断多个记录片段中哪个对应于关键儿童。该方法还包括提取关键儿童记录的声学参数并将所述关键儿童记录的声学参数与已知的针对儿童的声学参数进行比较。该方法返回孤独症可能性的确定结果。

在另一实施例中，一种用于检测孤独症的方法包括转换录音以在从显示器、打印输出和音频输出构成的组中选择的输出机构上显示孤独症指示，通过将录音与通过分析在自然语言环境中捕获的多个录音的透明参数开发的模型进行比较来执行录音的转换。

此外，另一个实施例包括一种利用麦克风、录音机和计算机检测自然语言环境中失调的方法，利用软件编程控制用于专门目的的计算机，所述专门目的是处理由所述麦克风和录音机组合捕获的记录。编程控制计算机以执行一种方法。该方法包括利用为了专门目的而编程控制的计算机将麦克风和录音机组合捕获的音频信号分割成多个记录片段；判断多个记录片段的哪个对应于关键受检者；多个记录片段中判定为对应于关键受检者的哪个被分类为关键受检者记录；提取所述关键受检者记录的声学参数；将所述关键受检者记录的声学参数与已知的针对受检者的声学参数进行比较；并且确定失调的可能性。

在又一实施例中，一种检测失调的方法包括转换录音以在从显示器、打印输出和音频输出构成的组中选择的输出机构上显示孤独症指示，通过将录音与通过分析在自然语言环境中捕获的多个录音的透明参数开发的模型进行比较来执行录音的转换。对于多个录音的每个而言，分析包括将录音分成多个记录片段，其中录音是由麦克风和录音机组合捕获的；判断多个记录片段的哪个对应于关键受检者；多个记录片段中判定为对应于关键受检者的哪个被分类为关键受检者记录；以及提取所述关键受检者记录的声学参数。

在一个实施例中，一种生成自动语言特性识别系统的方法包括接收多个录音。对录音进行分段以针对每个录音生成多个音频片段。根据每个音频片段的音频特性对多个音频片段分群以形成多个音频片段群。

在一个实施例中，一种使用自动语言特性识别系统对语音解码的方法包括接收多个录音，以及对多个录音的每个进行分段以生成针对每个录音的第一多个音频片段。该方法还包括根据每个音频片段的音频特性对多个录音的每个音频片段分群以形成多个音频片段群。该方法还包括接收新录音，对新录音分段以为新录音生成第二多个音频片段；以及判断第二多个音频片段的每个片段对应于多个音频片段群的哪个群。

在一个实施例中，一种确定讲话情绪的方法包括在包括具有音频引擎的应用的基于处理器的设备处接收讲话。该方法还包括从讲话提取与情绪相关的声学特征。该方法还包括将与情绪相关的声学特征与表示情绪的多个模型比较。还包括基于比较和输出与所选模型对应的情绪从多个模型选择模型。

在一个实施例中，一种利用麦克风、录音机和计算机检测自然语言环境中关键儿童的孤独症的方法包括如下步骤，利用软件编程控制用于专门目的的计算机，所述专门目的是处理由所述麦克风和录音机组合捕获的记录：利用为了专门目的而编程控制的计算机将麦克风和录音机组合捕获的音频信号分割成多个记录片段。该方法还包括判断多个记录片段中哪个对应于关键儿童。该方法还包括将多个记录片段中确定为对应于关键儿童的哪个分类为关键儿童记录。此外，该方法包括提取所述关键儿童记录的基于音素的特征；将所述关键儿童记录的基于音素的特征与已知的针对儿童的基于音素的特征比较；以及基于所述比较确定孤独症的可能性。在一种替代方案中，比较包括逻辑回归分析。在另一种替代方案中，比较包括线性判别分析(Linear Discriminate Analysis)。在一种替代方案中，该方法还包括变换用户的显示以显示孤独症的可能性。在另一种替代方案中，该方法还包括变换信息存储设备以存储孤独症的可能性。此外，可以通过多个特征矢量表示基于音素的特征。此外，比较可以包括将多个特征矢量与已知的针对儿童的基于音素的特征比较，以返回多个结果，其中针对多个特征矢量的每个有多个结果中的结果，对多个结果求平均以用于确定。此外，可以对多个特征矢量求平均以获得用于比较的单个特征矢量。

提到这些实施例不是要限制或界定本发明，而是要提供本发明实施例的范例以帮助理解。在具体实施方式中论述了实施例，通过研究具体实施方式和附图可以进一步理解本发明的各实施例。

附图说明

在参考附图阅读以下详细描述时，本发明的这些和其他特征、方面和优点会得到更好理解，附图中：

图1示出了根据本发明的一个实施例的关键儿童的语言环境；

图2a是根据本发明的一个实施例的衣袋中的录音机的前视图；

图2b是图2a的录音机和口袋的侧视图；

图3是根据本发明的一个实施例的记录处理系统；

图4是根据本发明的一个实施例用于处理录音的方法的流程图；

图5是根据本发明的一个实施例用于执行另一录音处理的方法的流程图；

图6示出了根据本发明的一个实施例的片段中的声能；

图7-12是屏幕快照，示出了根据本发明的一个实施例提供到输出设备的量度；

图13示出了实足年龄和特定音素之间的相关性；

图14示出了图13的一些音素和实足年龄之间的非线性关系；

图15a和15b在这里统称为图15，是示出了根据本发明的一个实施例用于有表现力语言索引z分数的权重的表格；

图16为方框图，示出了根据本发明的一个实施例用于评估语言发展的系统；

图17为方框图，示出了用于检测个体中的失调或疾病的方法的一个实施例；

图18为方框图，示出了用于为正常个体和具有正被讨论的失调或疾病的个体群体生成趋向的方法的一个实施例；

图19示出了捕获并转换成图解表示的声信号；

图20示出了针对共振峰带宽能够如何标记清晰发音水平的经验显示的图解表示；

图21示出了发音发展的12个声学参数；

图22示出了非声学参数的范例；

图23示出了开发用于检测孤独症的模型使用的数据集；

图24示出了孤独症和正常发育儿童的声学参数的趋势图；

图25示出了孤独症、正常发育以及语言延迟儿童的声学参数的趋势图；

图26示出了正常发育以及语言延迟儿童的声学参数的趋势图；

图27示出了正常和孤独症儿童的非声学参数；

图28示出了孤独症、正常发育以及语言延迟儿童的声学参数的趋势图；

图29示出了正常发育以及语言延迟儿童的声学参数的趋势图；

图30示出了确定正常发育和孤独症个体时使用逻辑回归分析的结果；

图31示出了表格，示出了采用检测孤独症的系统和方法的一个实施例的机器的精确度；

图32示出了K-均值群的例示；

图33示出了用于确定讲话时情绪的方法；

图34示出了在分析之前检测矢量组合的检出率之于后验概率截止阈值的图表；以及

图35示出了在组合之前检测矢量分析的检出率之于后验概率截止阈值的图表。

具体实施方式

本发明的特定方面和实施例涉及用于监测和分析语言环境、发声和关键儿童发育的系统和方法。这里使用的关键儿童可以是儿童、成年人，例如具有发育问题的成年人，或对其语言发展感兴趣的任何个体。可以监测关键儿童的语言环境和语言发展而无需对关键儿童的活动施加人为限制或需要第三方观察者。可以分析语言环境以独立于内容识别指向关键儿童或由关键儿童发声的单词或其他噪音。内容可以包括诸如单词和讲话的发声含义。分析可以包括儿童和另一个人，例如成年人之间的响应次数(在这里称为“交谈的轮数”)，以及儿童和/或另一个人所说单词的数目，独立于讲话的内容。

语言环境可以包括自然语言环境或其他环境，例如临床或研究环境。自然语言环境能够包括关键儿童在其正常日常活动期间周围的区域，包含声音源，声音源可以包括关键儿童、其他儿童、成年人、电子设备和背景噪声。临床或研究环境可能包括包含预选的或自然声音源的受控环境或位置。

在本发明的一些实施例中，关键儿童可以佩戴一种布制物品，包括位于口袋中的记录设备，口袋附着于或与布制物品集成。可以配置记录设备以记录和存储预定量时间内与儿童的语言环境相关联的音频。录音可以包括噪声、沉默、关键儿童说的单词或其他声音、其他人说的单词、来自诸如电视和收音机的电子设备的声音，或来自任何源的任何声音或单词。记录设备的位置优选使其能够记录关键儿童的单词和噪声以及涉及关键儿童的谈话而不会干扰关键儿童的正常活动。在预设量时间期间或之后，可以独立于内容分析记录设备上存储的录音以提供与关键儿童的语言环境或语言发展相关的特性。例如，可以分析录音以识别片段并利用最小持续时间高斯混合模型(MD-GMM)分配片段ID或每个音频片段的源。

每个音频片段的源可以包括关键儿童、成年人、另一位儿童、电子设备或能够产生声音的任何人或对象。源还可以包括与特定人或设备无关的一般源。这种一般源的范例包括噪音、沉默和交叠的声音。在一些实施例中，利用不同类型源的模型分析每个音频片段以识别源。模型可以包括与每个源共同关联的音频特性。在一些实施例中，为了检测音频信号的源类型，检测沉默。任何非沉默片段仍然可以包含一些短的沉默期间，例如像“p”和“t”的爆破辅音中涉及的暂停。这样的短暂低能量区域可能不包含关于信号源类型的信息；于是，将从非沉默片段的似然计算去除它。可以进一步分析将关键儿童或成年人识别为源的音频片段，例如，通过确定与关键儿童和/或成年人相关联的特定特性，以提供与关键儿童的语言环境或语言发展相关联的量度。

在本发明的一些实施例中，关键儿童是年龄介于零岁和四岁之间的儿童。幼儿产生的声音在若干方面中都与成年人讲话不同。例如，儿童可以产生并不相当于单词的有意义声音；对于儿童讲话来说，从辅音到元音的共振峰过渡或反之，比成年人讲话的过渡较不显著，并且由于儿童声道的物理变化，儿童的语音在所关心的年龄范围内有所变化。可以识别儿童和成年人语音之间的差异并用于分析儿童语音并将儿童语音与成年人语音区分开，例如在识别特定音频片段的源中使用。

本发明的某些实施例使用的是独立于内容分析语音的系统而不是使用语音识别以确定内容的系统。这些实施例大大减少了音频文件的处理时间并需要比使用完整的语音识别系统显著廉价的系统。在一些实施例中，可以使用语音识别处理，通过独立于内容分析发声来产生关键儿童语言环境和语言发展的量度。在一个实施例中，推荐的记录时间为十二小时，最小时间为10小时。为了处理记录的语音并及时提供有意义的反馈，调节本发明的某些实施例以半实时或低于半实时地处理记录。例如，可以在不到六小时内处理二十四小时的记录。于是，可以整夜地处理记录，在次日早晨就获得结果。根据感兴趣的量度和/或语言环境，其他记录时间长度可能足以产生与关键儿童的语言环境和/或语言发展相关联的量度。在一些情况下，例如，在临床或研究环境中，一到两小时的记录时间可能是足够的。针对这种记录时间的处理可能小于一个小时。

音频采集

如上所述，可以使用记录设备来采集、记录和存储与关键儿童的语言环境和语言发展相关联的音频。记录设备可以是适于采集和存储音频并位于儿童语言环境中或周围的任何类型的设备。在一些实施例中，记录设备包括连接到存储设备并位于关键儿童常常所在的一个或多个房间中的一个或多个麦克风。在其他实施例中，记录设备位于儿童佩戴的布制物品中。

图1示出了语言环境102中佩戴布制物品104的关键儿童，例如儿童100，布制物品104包括口袋106。口袋106可以包括记录设备(未示出)，适于记录来自语言环境102的音频。语言环境102可以是儿童100周围的区域，包括音频源(未示出)，包括一个或多个成年人、其他儿童和/或电子设备，例如电视、收音机、玩具、背景噪声或产生声音的任何其他源。语言环境102的范例包括自然语言环境和临床或研究语言环境。布制物品104可以是儿童100正常衣服上的马甲、儿童100的正常衣服或关键儿童通常穿戴的任何布制物品。

在一些实施例中，将记录器放在关键儿童胸部中心或附近。不过，其他放置也是可能的。口袋106中的记录设备可以是能够记录与儿童语言环境相关联的音频的任何设备。

记录设备的一个范例是LENA系统的数字记录器。数字记录器可以较小且重量轻，并可以放在口袋106中。口袋106能够以不引人注目的方式将记录器保持在适当的位置，使得记录器不会分散关键儿童、与关键儿童交互的其他儿童和成年人的注意力。图2a和2b示出了包括记录器108的口袋106的一个实施例。可以将口袋106设计成将记录器108保持在适当的位置并使声音干扰最小化。口袋106可以包括由主体112和外罩114形成的内部区域110，外罩114经由缝合116或另一连接机构连接到主体112。主体112可以是衣服的一部分或使用缝合或其他方式附着于布制物品104。伸展层118可以位于内部区域110中并经由缝合116或其他连接机构附着于主体112和外罩114。记录器108可以位于主体112和伸展层118之间。伸展层118可以由适于伸展的织物制成，但提供压紧记录器108的力，以将记录器108保持在其位置。例如，伸展层可以由尼龙和弹力纤维的混合物制成，例如85％的尼龙、15％的弹力纤维，这有助于将记录器保持在适当的位置。外罩114可以覆盖伸展层118，并可以包括至少一个开口，记录器108的麦克风位于那里。可以用提供特定期望声学性质的材料覆盖开口。在一个实施例中，材料为100％的棉。

口袋106也可以包括揿钮连接器120，由此打开和闭合外罩114以安装或移除记录器108。在一些实施例中，作为用揿钮连接器120的补充或替代，可以用拉链替换缝合116中的至少一个，以提供对记录器108的访问。

如果记录器108包括多个麦克风，那么口袋106可以包括多个开口，对应于记录器108上麦克风的位置。口袋106的特定尺度可能随着记录器108的设计改变或随着麦克风数量或类型的变化而变化。在一些实施例中，口袋106相对于关键儿童的嘴定位麦克风以提供特定的声学性能并以不会导致摩擦噪音的方式固定麦克风(以及任选的记录器108)。可以打开记录器108，之后记录音频，包括关键儿童、其他儿童和成年人的语音，以及儿童遇到的其他类型的声音，包括电视、玩具、环境噪声等。可以在记录器108中存储音频。在一些实施例中，可以从口袋106周期性地拿出记录器，并可以分析存储的音频。

例示性录音分析系统实现

可以在多种不同系统上实现根据本发明各实施例分析来自记录器的录音的方法。图3中示出了一个这种系统的范例。该系统包括连接到基于处理器的设备200的记录器108，设备200包括处理器202和计算机可读介质，例如存储器204。可以经由导线或以无线方式将记录器108连接到基于处理器的设备200。在一些实施例中，经由USB电缆将记录器108连接到设备200。设备200可以是任何类型的基于处理器的设备，其范例包括计算机和服务器。存储器204可以适于存储计算机可执行代码和数据。计算机可执行代码可以包括应用206，例如数据分析应用，其可用于观察、产生和输出数据分析。应用206可以包括音频引擎208，如下文更详细所述，音频引擎可以适于执行根据本发明各实施例的方法，以分析录音并产生与之关联的量度。在一些实施例中，音频引擎208可以是独立的应用，可以与应用206分开地，任选地与应用206同时执行。存储器204还可以包括数据存储器210，其适于存储由应用206或音频引擎208产生的或用户输入的数据。在一些实施例中，数据存储器210可以与设备200分开，但经由导线或无线连接而连接到设备200。

设备200可以与输入设备212和输出设备214通信。输入设备212可以适于接收用户输入并将用户输入发送到设备200。输入设备212的范例包括键盘、鼠标、扫描仪和网络连接。用户输入可以包括让处理器202执行与应用206或音频引擎208相关联的各种功能的命令。输出设备214可以适于提供来自应用206或音频引擎208的数据或可视输出。在一些实施例中，输出设备214能够显示图形用户界面(GUI)，其包括一个或多个可选择的按钮，它们与应用206或音频引擎208提供的各种功能相关联。输出设备214的范例包括监视器、网络连接和打印机。输入设备212可以用于设置或以其他方式配置音频引擎208。例如，在设置或配置期间，可以向音频引擎208提供关键儿童的年龄以及与关键儿童的学习环境相关联的其他信息并存储在本地存储器210中。

可以将记录器108上存储的音频文件上载到设备200并存储在本地存储器210中。在一个实施例中，以所有权格式上载音频文件，防止从设备200回放语音或访问语音的内容，由此促进讲话人的身份保护。在其他实施例中，不经编码即上载音频文件，以允许在本地存储器210中存储并回放文件或文件的部分。

在一些实施例中，基于处理器的设备200为网络服务器，组合输入设备212和输出设备214以形成计算机系统，其经由网络连接向设备200发送并从设备200接收数据。输入设备212和输出设备214可用于远程访问应用206和音频引擎208，并令其执行根据本发明各实施例的各种功能。记录器108可以连接到输入设备212和输出设备214，记录器108上存储的音频文件可以通过诸如因特网或内部网的网络被上载到设备200，在设备200中处理音频文件并向输出设备214提供量度。在一些实施例中，可以在本地存储器210中存储从远程输入设备212和输出设备214接收的音频文件，并接下来访问音频文件，用于研究的目的，例如在儿童的学习环境上或以其他方式。

为了减少记录器108上需要的存储器的量，可以压缩音频文件。在一个实施例中，使用DVI-4 ADPCM压缩方案。如果使用一种压缩方案，那么在文件上载到设备200之后将其解压到正常线性PCM音频格式。

用于录音分析的例示性方法

可以使用根据本发明各种实施例的各种方法分析录音。图4示出了基于来自关键儿童语言环境的录音分析和提供量度的方法的一个实施例。仅仅出于例示的目的，参考图3所示的系统描述这种方法的要素。该方法的其他系统实现也是可能的。

在方框302中，音频引擎208将录音分成一个或多个音频片段并为来自从记录器108接收的录音的音频片段的每个标识片段ID或源。在此将这种过程称为“分段”或“片段ID”。音频片段可以是特定持续时间并包括在该持续时间期间与儿童语言环境相关联的声学特征的录音部分。录音可以包括若干音频片段，每个片段都与片段ID或源相关联。源可以是产生音频片段之内的声音的个人或设备。例如，音频片段可以包括关键儿童产生的声音，将关键儿童标识为该音频片段的源。源也可以包括其他儿童、成年人、电子设备、噪音、叠加的声音和沉默。电子设备可以包括电视、收音机、电话、玩具和提供记录的或模拟的声音(例如人的语音)的任何设备。

可以标识与每个音频片段相关联的源以辅助进一步对记录进行分类和分析。本发明的一些实施例提供的一些量度包括关于特定源的数据并忽略来自其他源的数据。例如，可以将与指向关键儿童的实时语音关联的音频片段与和电子设备关联的音频片段区分开，因为已经证明实时语音比暴露于来自电子设备的语音是儿童语言发展的更好标志和更好促进。

为了执行分段以产生音频片段并为每个片段识别源，可以使用与关键儿童、其他儿童、成年男性、成年女性、噪音、TV噪音、沉默和交叠对应的若干模型。替代实施例可以使用更多、更少或不同的模型来进行分段并标识对应的片段ID。一种这样的技术独立地执行分段和片段ID。另一种技术执行分段并同时为每个片段标识片段ID。

传统上，曾使用具有最小持续时间约束的隐藏马尔可夫模型(HMM)同时进行分段并标识片段ID。可以提供若干HMM模型，每个模型对应于一个源。该模型的结果可以是具有与每个源相关联的似然分数的源序列。可以利用维特比算法或动态程序设计搜索最佳序列，并基于分数为每个片段标识“最好的”源。不过，对于一些片段而言，这种方式可能很复杂，部分是因为它使用了从一个片段到另一个的转移概率，即，每个片段之间的转移。转移概率与每个源的持续时间建模相关。HMM持续时间模型可能具有分立的几何分布或连续的指数分布，可能不适合有关的声源。大部分录音可以包括其持续时间具有高度变化的片段。尽管在本发明的一些实施例中可以使用HMM模型，但可以使用替代技术进行分段和片段ID。

本发明一些实施例中用于进行分割和片段ID的替代技术是最小持续时间高斯混合模型(MD-GMM)。MD-GMM的每个模型可以包括与来自不同源的声音相关联的标准或特性。MD-GMM模型的范例包括：关键儿童模型，包括来自关键儿童的声音的特性；成年人模型，包括来自成年人的声音的特性；电子设备模型，包括来自电子设备的声音的特性；噪音模型，包括可归因于噪音的声音的特性；其他儿童模型，包括来自除关键儿童之外的儿童的声音的特性；父辈模型，包括成年人声音的复杂性水平语音标准；年龄依从性关键儿童模型，包括不同年龄关键儿童的声音的特性；以及高声/清晰度检测模型，包括指向关键儿童的声音的特性。一些模型包括额外的模型。例如，成年人模型可以包括：成年男性模型，包括成年男性的声音特性；以及成年女性模型，包括成年女性的声音特性。可以使用模型，通过将每个片段中的声音与每种模型的标准加以比较并判断一个或多个模型是否存在预设精确度的匹配，确定每个片段中的声音源。

在本发明的一些实施例中，在将录音转换成帧或片段序列时开始MD-GMM技术。利用最大log似然算法，为每种源识别持续时间为2*D的片段，其中D是最小持续时间约束。识别每个片段的最大分数。对于每个识别的片段，与最大分数相关联的源与片段相关。

音频引擎208可以使用最大似然MD-GMM处理录音以执行分段和片段ID。音频引擎208可以搜索在最小持续时间约束下所有可能的片段序列，以识别具有最大似然的片段序列。MD-GMM的一个可能优点是，比最小持续时间两倍(2*D)长的任何片段都可以等价地分解成若干持续时间介于最小持续时间(D)和两倍最小持续时间(2*D)之间的片段，使得最大似然搜索过程忽略所有比2*D长的片段。这能够减少搜索空间和处理时间。以下是使用最大似然MD-GMM的一种实施的解释。其他实施也是可能的：

1.声学特征提取-利用特征提取算法，例如MFCC(Mel频率对数倒频谱系数(mel-frequency cepstrum coefficient))，将音频流转换成特征矢量流{X₁，X₂，…，X_T|X_i∈Rⁿ}。

2.针对片段{X₁，X₂，…，X_S}的log似然计算：

其中f_c(X₁)是类别c中的帧X的似然

下文描述了最大似然MD-GMM搜索的一种流程：

3.搜索变量的初始化：S(c，0，0)＝0，c＝1，…，C，其中c是针对所有片段类别的索引。通常，搜索变量S(c，b，n)代表针对直到帧b-1的片段序列的最大log似然，加上类别c中从帧b到帧n的片段的log似然。

4.N＝1，…，T的分数帧，即所有特征帧：

S(c，b，n)＝S(c，b，n-1)+log(f_c(X_n)，

c，n-b＜2*D_c，即，帧n处的当前分数可以是从帧n-1处的先前分数导出的。保留针对小于两倍最小持续时间的片段的搜索变量。

5.保留在帧n处最佳结果的记录(类似地，将考虑低于两倍最小持续时间的片段)：

S*(n)＝max S(c，b，n)

c，b，2*Dc＞9n-b)＞Dc

B*(n)＝arg max S(c，b，n)

b，(c，b，2*Dc＞(n-b)＞Dc

C*(n)＝arg max S(c，b，n)

c，(c，b，2*Dc＞(n-b)＞Dc

6.针对在帧n开始的片段对新搜索变量进行初始化：

S(c，n，n)＝S*(n)，

7.重复步骤4到步骤6，直到最后的帧T。

8.回溯以得到最大似然片段序列。

最大似然片段序列的最后片段为(C*(T)，B*(T)，T)，即，从帧B*(T)开始，到帧T结束的片段，类别ID为C*(T)。可以利用以下回溯流程获得最佳序列中的剩余片段：

8.1.回溯的初始化：

t＝T，m＝1

S(m)＝C*(t)，B*(t)，t)

8.2.重复进行回溯，直到t 0

C_current＝C*(t)

t＝B*(t)

如果C*(t)＝C_current，则不进行任何操作，否则，

m＝m+1，S(m)＝(C*(t)，B*(t)，t)

可以执行额外的处理以进一步细化与作为源的关键儿童或成年人相关联的片段的标识。如上所述，语言环境可以包括各种源，在源实际是不同的人或设备时，一开始可以将各种源识别为关键儿童或成年人。例如，一开始可能将来自除关键儿童之外的儿童的声音识别为来自关键儿童的声音。可能将来自电子设备的声音与来自成年人的实时语音混淆。此外，可能检测到一些成年人声音指向除了关键儿童之外的另一个人。本发明的某些实施例可以实施用于进一步处理和细化分段和片段ID的方法，以减少或消除不精确的源识别，并识别指向关键儿童的成年人语音。

进一步的处理可以与上述初始MD-GMM模型同时或在其之后发生。图5示出了调节方法的一个实施例，用于通过修改与初始MD-GMM之后的MD-GMM相关联的模型进一步处理录音。在方框402中，音频引擎208利用第一MD-GMM处理录音。例如，根据上述MD-GMM处理录音以执行初始分段和片段ID。

在方框404中，音频引擎208修改MD-GMM的至少一个模型。音频引擎208可以自动选择MD-GMM的一个或多个模型以基于预设步骤进行修改。在一些实施例中，如果音频引擎208检测到特定类型的片段可能需要进一步考查，它选择与检测到的片段类型最相关的MD-GMM模型进行修改(或用于修改)。可以修改与MD-GMM相关联的任何模型。可以修改的模型范例包括：具有年龄依从性关键儿童模型的关键儿童模型；电子设备模型；可以进一步修改关键儿童模型和/或成年人模型的高声/清晰度模型；以及可以进一步修改关键儿童模型和/或成年人模型的父辈模型。

在方框406中，音频引擎208再次使用MD-GMM的修改模型处理录音。第二过程可能导致基于修改的模型的不同分段和/或片段ID，提供与每个片段相关联的源的更精确识别。

在方框408中，音频引擎208判断是否需要额外的模型修改。在一些实施例中，音频引擎208分析新的分段和/或片段ID以判断任何片段或片段组是否需要额外的考查。在一些实施例中，音频引擎208访问数据存储器210中与语言环境相关联的数据，使用其判断是否需要额外的模型修改，例如基于儿童当前年龄的关键儿童修改。如果需要额外的模型修改，该过程返回到方框404，进行额外的MD-GMM模型修改。如果不需要额外的模型修改，该过程前进到方框410以分析片段声音。下文描述了根据本发明各实施例修改示范性模型的某些实施例。在本发明的某些实施例中可以修改下文所述之外的其他模型。

年龄依从性关键儿童模型(age-dependent key child model)

在本发明的一些实施例中，音频引擎208可以与初始MD-GMM同时或在之后实施年龄依从性关键儿童模型，以修改MD-GMM的关键儿童模型，以更精确地区分识别其他儿童是源的片段和关键儿童是源的片段。例如，可以修改MD-GMM以在初始或后续分段和片段ID期间实施年龄依从性关键儿童模型。

关键儿童模型可能依赖于年龄，因为关键儿童发声的音频特性，包括讲话和其他声音，随着记录器108可能被使用的时间而显著变化。尽管在MD-GMM之内使用两个独立的模型(一个用于关键儿童，一个用于其他儿童)可以识别关键儿童的语音，但使用年龄依从性关键儿童模型进一步帮助减少关键儿童语音和其他儿童语音之间的混淆。在一个实施例中，年龄依从性关键儿童模型为：1)小于一岁，2)一岁大，3)两岁大，以及4)三岁大。替代实施例可以使用其他年龄分组和/或可以使用不同年龄组的分组。例如，其他实施例可以使用月龄组或月龄和年龄组的组合。每个模型包括与对该年龄组的儿童共同识别的声音相关联的特性。

在本发明的一个实施例中，在设置或配置期间经由输入设备212向设备200提供关键儿童的年龄。音频引擎208接收关键儿童的年龄并基于关键儿童的年龄选择一种或多种关键儿童模型。例如，如果关键儿童是一年零十个月大，音频引擎208可以基于关键儿童的年龄选择关键儿童模型2(一岁模型)和关键儿童模型3(两岁模型)或仅选择关键儿童模型2。音频引擎208可以通过修改MD-GMM模型实施选定的关键儿童模型，以执行初始或后续分段和片段ID。

电子设备模型

为了更精确地确定指向关键儿童的成年人单词的数目，可以这样识别电子设备以电子方式产生的包括声音的任何片段，声音例如是单词或语音，而不是不精确地识别为成年人产生的实时语音。电子设备能够包括电视、收音机、电话、音频系统、玩具或产生录音或模拟人语音的任何电子设备。在本发明的一些实施例中，音频引擎208可以修改MD-GMM中的电子设备模型，以更精确地识别来自电子设备源的片段，并将它们与来自实时成年人的片段分开，而无需确定片段的内容，且无需限制讲话者的环境(例如，需要从语言环境去除或禁止电子设备)。

音频引擎208可以适于与初始MD-GMM过程同时或在之后修改并使用修改的电子设备模型。在一些实施例中，可以在执行第一MD-GMM过程之后实施电子设备模型，并用于调节MD-GMM，以利用针对同一录音的MD-GMM进行额外的判断。音频引擎208能够检查利用第一MD-GMM分段的片段，以进一步识别可靠的电子片段。可靠的电子片段可以是更可能与电子设备源相关联且包括特定标准的片段。例如，音频引擎208能够判断一个或多个片段是否包括与来自电子设备的声音共同关联的标准。在一些实施例中，标准包括(1)比预定时间更长的片段或比预定阈值更响；或(2)具有预设源模式的一系列片段。一个预定周期的范例是五秒钟。一种预设源模式的范例可能包括如下内容：

片段1-电子设备源；

片段2-除电子设备源之外的源(例如，成年人)；

片段3-电子设备源；

片段4-除电子设备源之外的源；以及

片段5-电子设备源。

可以使用可靠的电子设备片段调节MD-GMM以包括自适应电子设备模型，用于进一步处理。例如，音频引擎208可以使用规则的K-均值算法作为初始模型并利用期望最大化(EM)算法调谐其。自适应电子设备模型中的高斯型曲线的数量可以与反馈电子设备数据的量成正比并且不超过上限。在一个实施例中，上限为128。

音频引擎208可以通过向序列的每个帧应用自适应电子设备模型再次执行MD-GMM，以针对与电子设备源相关联的帧确定新的自适应电子设备log似然分数。可以将新的分数与为那些帧先前存储的log似然分数进行比较。音频引擎208可以基于比较选择更大的log似然分数。可以使用更大的log似然分数以确定针对那些帧的片段ID。

在一些实施例中，可以利用在所有帧上移动的预设数量的相继等长度调节窗口应用使用自适应电子设备模型的MD-GMM修改。可以将记录信号分成具有预设长度的交叠帧。根据本发明的一个实施例，帧长的范例为25.6毫秒，具有10毫秒的偏移，导致15.6毫秒的帧交叠。自适应电子设备模型可以使用利用预设数量调节窗口获得的本地数据。在本发明的一些实施例中可以使用30分钟的调节窗口大小。相继等长度调节窗口的一种预设数量的范例为三个。在一些实施例中，调节窗口的移动不交叠。可以分析每个调节窗口之内的帧以提取特征的矢量，将来用于统计分析、建模和分类算法中。可以重复自适应电子设备模型以进一步修改MD-GMM过程。例如，可以将该过程重复三次。

高声/清晰度检测模型

为了选择对识别讲话者最有用的帧，本发明的一些实施例使用帧水平近/远检测或高声/清晰度检测模型。可以在执行初始MD-GMM过程之后使用似然比检验(LRT)执行高声/清晰度检测模型。在帧水平下，使用LRT识别并丢弃可能混淆识别过程的帧。对于每个帧，计算每个模型的似然性。计算最大可能模型似然性和沉默似然性之间的差异，将该差异与预定阈值进行比较。基于该比较，丢弃该帧或用于片段ID。例如，如果差异符合或超过预定阈值，那么使用该帧；但如果差异小于预定阈值，那么丢弃帧。在一些实施例中，根据LRT对帧加权。

音频引擎208能够使用LRT识别指向关键儿童的片段。例如，音频引擎208能够通过确定成年人语音或与片段相关联的声音的高声/清晰度来判断成年人语音是否指向关键儿童或其他人。一旦执行了分段和片段ID，就以类似于帧水平下使用的方式使用LRT执行片段水平的近/远检测。对于每个片段，计算每个模型的似然性。计算最大可能模型似然性和沉默似然性之间的差异，将该差异与预定阈值进行比较。基于比较，丢弃片段或进一步处理。

父辈模型

在向儿童讲话时，有时成年人使用儿童语言或“父辈”语言。可能不精确地将包括父辈特征的片段与作为源的儿童或关键儿童相关联，因为语音的特定特性可能类似于关键儿童或其他儿童的特性。音频引擎208可以修改关键儿童模型和/或成年人模型以识别包括父辈特征的片段并将片段与成年人源相关联。例如，可以修改模型以允许音频引擎208检查片段中包括的语音的复杂性，以识别父辈特征。由于成年人语音的复杂性通常比儿童语音高得多，所以可以将包括较复杂语音的片段的源识别为成年人。如果共振峰结构形成良好，清晰发音水平良好，且发声有充分长时间-与成年人一般提供的语音一致，语音可能是复杂的。来自儿童的语音可以包括清晰度和发育较差且发声通常持续时间较少的共振峰结构。此外，音频引擎208能够分析共振峰频率以识别包括父辈特征的片段。在成年人使用父辈特征时，片段的共振峰频率通常不变化。可以确定包括这种识别出的父辈特征的片段的源是成年人。

可以进一步修改MD-GMM模型并进一步处理记录预设的迭代次数，或直到音频引擎208判定片段ID已经以可接受水平的置信度被判定。在完成分段和片段ID时，可以进一步分析识别的片段以提取与关键儿童的语言环境相关联的特性。

儿童发声、哭泣、呆板声音/固定信号检测(分类)

在执行分段和片段ID期间或之后，音频引擎208可以将关键儿童音频片段分成一个或多个类别。音频引擎208分析关键儿童被识别为源的每个片段并基于每个片段中的声音确定类别。类别可以包括发声、哭泣、呆板的声音和固定信号声音。发声可以包括单词、短语、边际音节(marginalsyllable)，包括基本辅音-元音序列、讲话、音素、序列音素、音素状的声音、原音素、通常称为咂舌声的颤唇音、规范音节、重复的唠叨、间距变化(pitch variation)或对儿童语言发展有贡献的任何有意义声音，至少表示儿童口头传达或利用该能力发出声音的尝试。呆板的声音包括与呼吸和消化相关的非口唇声音，例如咳嗽、喷嚏和打嗝。固定信号声音与对环境的自发反应相关，包括笑声、呻吟、叹息和咂嘴声。

哭泣是一种固定信号声音，但是被独立检测的，因为哭泣可能是沟通的手段。

音频引擎208可以利用基于规则的分析和/或统计处理对关键儿童音频片段分类。基于规则的分析可以包括利用一个或多个规则分析每个关键儿童片段。对于一些规则而言，音频引擎208可以分析片段的能量水平或能量水平过渡。基于预设持续时间的规则范例是包括预设持续时间上或更多时间的能量串，将其识别为哭泣或尖叫声而非发声，但包括小于预设持续时间的能量串的片段被分类为发声。基于与发声和哭泣共同关联的特性，一种预设持续时间的范例是三秒。图6示出了与关键儿童相关联的片段中声音的能量水平并示出了一系列辅音(/b/)和元音(/a/)序列。使用三秒钟的预设持续时间，能量串表示发声，因为它们少于三秒。

第二条规则可以是将片段分类成包括从辅音到元音的共振峰过渡或反之的发声。图6示出了从辅音/b/到元音/a/，然后回到辅音/b/的共振峰过渡，表示规范音节，从而表示发声。可以进一步处理不包括这种过渡的片段以确定分类。

第三条规则可以是，如果共振峰带宽窄于预设带宽，将片段分类成发声。在一些实施例中，基于与发声相关联的公共带宽，预设带宽为1000Hz。

第四条规则可以是将包括具有一串具有预设阈值以上的第一频谱峰的能量的片段分类为哭泣。在一些实施例中，基于哭泣中共同的特性，预设阈值为1500Hz。

第五条规则可以是确定频谱倾斜(tilt)的斜率并将其与预设阈值比较。在诸如300到3000Hz的较低频率下，比诸如6000到8000Hz的较高频率下，发声常常包括更多能量。在与预设斜率阈值相比时，预计从频谱的一部分到频谱结束预计下降30dB，表示具有负斜率的频谱倾斜和发声。可以将斜率较为平坦的片段分类为哭泣，因为对于哭泣而言可能不存在频谱倾斜。可以具有正斜率的片段分类为呆板声音。

第六条规则可以是将片段的熵与熵阈值进行比较。可以将具有较低熵水平的片段分类为发声。由于能量的随机性，可以将具有高熵水平的片段分类为哭泣或呆板声音。

第七条规则可以是将片段间距与阈值比较。可以将间距(pitch)介于250到600Hz之间的片段分类为发声。可以将间距超过600Hz的片段分类为哭泣或尖叫，可以将小于250Hz的间距分类为咆哮。

第八条规则可以是确定间距轮廓(pitch contour)。可以将间距增大的片段分类为幸福的声音。可以将间距减小的片段分类为生气的声音。

第九条规则可以是判断辅音和元音的存在。可以将具有辅音和元音混合的片段分类为发声。可以将具有所有或大部分辅音的片段分类为呆板的声音或固定信号声音。

可以与其他规则独立地或同时地实施根据本发明各实施例的规则。例如，在一些实施例中，音频引擎208仅实施一条规则，而在其他实施例中，音频引擎208实施两条或更多规则。作为基于规则的分析的补充或替代，可以进行统计处理。

统计处理可以包括利用2000或更多高斯型曲线处理具有MD-GMM的片段，其中利用Mel频率对数倒频谱系数(MFCC)和子带频谱质心(SSC)生成模型。可以利用若干具有系数的滤波器库提取MFCC。在一个实施例中，使用具有36个系数的40个滤波器库。可以利用滤波器库生成SSC以捕获共振峰。在300到7500Hz的范围中，用于捕获共振峰的滤波器库数量可以是7个。其他统计处理可以包括使用与一种或多种以下片段特性相关联的统计数值：

共振峰(formant)；

共振峰带宽；

间距；

合声(voicing)百分比；

频谱熵；

以dB为单位的最大频谱能量；

最大频谱能量的频率；以及

频谱倾斜。

可以向MFCC-SCC组合增加关于片段特性的统计数值以提供额外的分类改善。

随着儿童年龄的变化，由于儿童声道的成长，与每个关键儿童片段类别相关联的特性可能变化。在本发明的一些实施例中，作为上述技术的补充或替代，可以使用年龄依从性模型对关键儿童片段进行分类。例如，可以针对每个年龄组生成发声、哭泣和固定信号/呆板声音模型。在一个实施例中，与如下组使用12种不同模型：组1对应于1到2个月大，组2对应于3到4个月大，组3对应于5到6个月大，组4对应于7到8个月大，组5对应于9到10个月大，组6对应于11到12个月大，组7对应于13到14个月大，组8对应于15到18个月大，组9对应于19到22个月大，组10对应于23到26个月大，组11对应于27到30个月大，组12对应于31到48个月大。在替代实施例中，可以针对从1个月到48个月年龄的每个月生成发声、哭泣和固定信号/呆板声音模型。这种模型将包括144个模型，每个类别48种模型。替代实施例可以使用不同数量的组或将不同年龄范围与组关联。

音频引擎208也可以识别成年人作为源的片段。与成年人源相关联的片段可以包括表示谈话的声音或能够提供用于表示从成年人指向关键儿童的单词量或数量的估计的量度的数据。在一些实施例中，音频引擎208还识别成年人源片段到关键儿童源片段的发生，以识别谈话。

在方框304中，音频引擎208独立于内容，从至少一些关键儿童为源的片段估计关键儿童片段特性。例如，可以无需确定或分析关键儿童片段中声音的内容就确定特性。关键儿童片段特性可以包括与一种或多种关键儿童片段类别相关联的任何类型的特性。特性的范例包括哭泣持续时间、尖叫和咆哮次数、规范音节的存在和个数、重复唠叨的存在和次数、音素的存在和个数、原音素、音素状声音、单词或发声统计或任何可识别的发声或声音要素。

可以通过分析哭泣类别中分类的片段估计哭泣长度。哭泣的长度通常随着儿童年龄或成熟而减小，可以是儿童发育相对进展的指标。

可以通过分析分类为发声的片段，基于间距、频谱强度和发声困难估计尖叫和咆哮的次数。儿童能够发出尖叫声和咆哮可以表示儿童语言能力的进展，因为其指出了关键儿童控制间距和声音强度的能力。

可以基于共振峰轮廓，针对较尖锐的共振峰过渡，通过分析发声类别中的片段来估计规范音节的存在和数量，规范音节例如是辅音和元音序列。

可以通过分析在发声类别中分类的片段并应用与共振峰过渡、持续时间和合声(voicing)相关的规则估计重复唠叨的存在和次数。儿语可以包括特定的辅音/元音组合，包括三个浊音停止和两个鼻音停止。在一些实施例中，也可以确定规范儿语的存在和次数。不论重复与否，在生成的音节的15％是规范的时候，可能发生规范的儿语。可以确定音素、原音素、或音素状声音的存在、持续时间和数量。随着关键儿童的语言发展，音素的频率和持续时间增大或减小或以其他方式呈现出与成年人语音相关联的模式。

可以通过分析在发声类别中分类的片段估计关键儿童发出的单词或其他发声数量。在一些实施例中，利用音素解码器估计元音数量和辅音数量并与诸如能量水平和MD-GMM log似然差异的其他片段参数组合。可以将最小二乘法应用于该组合以估计儿童所说的单词数量。在本发明的一个实施例中，音频引擎208估计在发生类别中分类的每个片段中元音和辅音的数量并将其与和关键儿童的母语相关联的特性进行比较，以估计关键儿童所讲的单词数量。例如，可以将针对母语每个单词的辅音和元音平均数量与辅音和元音数量比较，以估计单词数量。也可以使用其他量度/特性，包括音素、原音素和音素状声音。

在方框306中，音频引擎208独立于内容估计与成年人为源的所识别片段相关联的特性。特性的范例包括成年人所说单词的数量、成年人讲话的持续时间和若干父辈特征。可以利用与上文结合关键儿童所讲单词数量所述的类似方法估计成年人所讲的单词数量。检测成年人单词统计的方法的一个范例依据的是人注释的单词统计，使用最小二乘线性回归进行训练。也可以由人注释的单词统计指导或训练模型。可以通过分析成年人源片段中的能量的量估计成年人语音的持续时间。

语言环境度量

在方框308中，音频引擎208能够利用关键儿童片段特性和/或成年人片段特性确定与语言环境相关联的一个或多个度量。例如，音频引擎208能够通过分析与每个片段相关联的特性和时间来确定若干谈话轮次或“轮换”。在一些实施例中，可以将音频引擎208配置成自动确定一种或多种量度。在其他实施例中，音频引擎208从输入设备212接收命令以确定特定量度。

量度可以包括基于特性的关键儿童语言环境的任何可量化测量。量度也可以是将该特性与针对其他与关键儿童具有类似属性，例如年龄的其他人同种特性的统计平均值进行比较。量度的范例包括关键儿童每天表达的平均发声次数、所有实测天数的平均发声、每月的发声次数、一天每小时的发声次数、在选定时间期间从成年人指向儿童的单词数量，以及谈话的轮次。

在一些实施例中，量度可能涉及关键儿童的发育年龄。与预期水平相比，作为识别儿童发育中延迟和特质的替代或补充，可以开发出量度，其可以估计这种特质和发育延迟的原因。原因的范例包括发育的医疗条件，例如孤独症或听力问题。

在方框310中，音频引擎208向输出设备114输出至少一个度量。例如，音频引擎208可以响应于从输入设备212接收的命令，向输出设备214输出与每天儿童所讲的单词数量相关联的度量，在输出设备中向用户显示该度量。图7-12是示出了输出设备214上显示的量度范例的屏幕快照。图7示出了图解发声报告，示出了可归因于关键儿童的每天发声次数。图8示出了图解发声时间线，示出了一天中每小时的发声次数。图9示出了图解成年人单词报告，示出了选定月份期间指向关键儿童的成年人单词数量。图10示出了图解单词时间线，示出了可归因于关键儿童的一天中每小时的单词数量。图11示出了讲话权获取报告的图解表示，示出了每月选定天中关键儿童经历的谈话轮次数量。图12示出了选定量的时间内针对特定特性关键儿童的语言进展的图解表示。

快照

在一个实施例中，向用户提出一系列问题以得到关于关键儿童语言技能的信息。问题基于儿童学习讲话时实现的公知里程碑。问题的范例包括儿童当前是否表达特定的发声，例如儿语、单词、短语和句子。一旦用户以预定方式对问题做出响应，不提出任何新问题，基于对问题的响应为用户提供讲话者的发育快照。在一个实施例中，一旦输入三个“否”答案，表示儿童未表现出特定技能，系统停止并确定发育快照。可以周期性地重复提问，并基于答案，在一些实施例中基于来自记录处理的数据对快照显影。快照的范例可以包括图12中所示的语言发展图。在替代实施例中，通过分析记录的语音并使用获得的信息自动回答问题，从而自动回答一系列问题。

本发明的某些实施例不需要向很多语音识别系统需要的那样要求关键儿童或其他讲话者训练系统。通过将该系统做出的特定判断与审查抄本做出的判断进行比较，一开始可以为根据本发明一些实施例的记录系统设定基准。为了对分段器的性能设定基准，比较1)关键儿童相对于非关键儿童以及2)成年人相对于非成年人的识别，以及与片段相关联的讲话者/源的识别精确度。

尽管上文描述了处理记录的语音以获得量度，例如字数和谈话轮次，其他类型的处理也是可能的，包括在常规语音识别系统中使用本发明的特定方面。可以处理记录的语音文件以识别特定单词或单词序列，或者可以保存或共享语音。例如，可以保存儿童第一次说出“mama”或“dada”，就像保存儿童照片或经由e-mail与家庭成员分享。

有表现力的语言评估

每种语言都具有独特的一组含义上有对比性的声音，称为音素清单。英语有42个音素，24个辅音因素和18个元音音素。音素是一种语言中能够传达出含义区别的最小语音单位。如果其在最小单词对中的存在与含义的差异相关联，则认为声音是音素。例如，我们知道/t/和/p/是英语的音素，因为它们在相同环境中的存在导致含义变化(例如，“cat”和“cap”具有不同含义)。遵循语言学惯例，在斜线之间表示音素，例如/r/。

自动评估关键儿童的语言发展的一个实施例使用了来自用于从成年人语音识别内容的自动语音识别(“ASR”)系统的音素解码器。一个范例是来自Carnegie Mellon University提供的Sphinx ASR系统的音素检测器部件。音素解码器识别一组音素或语音，包括辅音状的音素，例如“t”和“r”以及元音状的音素，例如“er”和“ey”。ASR音素是音素的近似；它们在声学上类似于真实音素，但它们并非始终听上去像本地讲话者分类为音素那样。在这里将这些伪音素称为“音素”或“音素类别”，并使用引号表示。例如，“r”表示音素或音素状的声音。

由于成年人语音和儿童发声之间的显著差异，来自被设计成识别成年人语音的模型未成功用于处理儿童发声。在单词发音和语言模型两个方面，儿童发声比成年人语音更加多变。儿童从非常年幼的年龄时高度非结构化的语音模式变换为更大年龄更加结构化的模式，最终变得类似于成年人的语音，尤其是在14岁左右。于是，在应用于大约6岁年龄之下的儿童发声或语音时，被设计成识别成年人语音的ASR系统不能工作。即使是那些针对儿童语音设计的ASR系统也未很好地工作。例外限于提示儿童发出特定预定单词的系统。

儿童语音的变化还使得难以开发针对ASR系统的模型以处理儿童发声。大部分ASR系统识别音素和单词。非常年幼的儿童(小于12个月年龄)不会发出真正的音素。他们发出原音素，它们可能在声学上看起来，听起来像音素，但不够规则，不足以成为音素，且可能不传达含义。儿童的音素频率分布与成年人的音素频率分布非常不同。

例如，非常年幼的儿童不能发出音素/r/，因此不会出现很多“r”音素。不过，随着时间推移，出现越来越多的“r”音素(至少对于说英语的儿童来说)，直到儿童实际发出/x/音素为止。非常年幼的儿童可能不会将含义归于原音素或音素。大约在他们开始讲话时(通常在12个月年龄左右)，儿童开始发出真正的音素，但即使那时，也可能仅有非常了解儿童的人能够识别音素。不过，即使在儿童能够发出真实音素之前，也可以使用儿童的发声评估儿童的语言发展。

尽管成年人ASR模型对儿童语音效果不好，但本发明的一个实施例使用针对成年人语音设计的ASR系统的音素解码器，因为目的是独立于儿童语音的内容评估儿童的语言发展。尽管儿童不发出真实音素，但迫使音素解码器挑选与儿童发出的每个音素匹配最好的音素类别。通过选择适当的音素类别加以考虑，可以使用成年人ASR音素解码器评估儿童的发声或语音。

如对于“r”音素所示，在音素频率和实足年龄之间有某种相关性。相关性可以是正的或负的。对于不同年龄范围，该关系有所变化并且对于一些音素而言是非线性的。图13示出了选定音素和实足年龄之间的相关性。如图13所示，在年龄和“r”音素之间存在正相关，在年龄和“b”音素之间存在负相关。如图14所示，在所关心的年龄范围内，相关性可以是非线性的。例如，对于0到6个月，7到13个月以及14到20个月的年龄，“l”音素的相关性是正的，但之后对于21到30个月和31+个月的年龄，变为负的。

为了评估儿童的语言发展，一个实施例使用了在儿童语言环境中获取的一个或多个记录。处理每个记录以识别记录中与具有高置信度的儿童对应的片段。典型地，在儿童发出最少3000个音素的持续时间中该记录大约为12小时。如上文更详细所述，可以使用多个模型识别关键儿童片段，包括，但不限于基于年龄的关键儿童模型、其他儿童的模型、成年男性模型、成年女性模型、电子设备模型、沉默模型和高声/清晰度模型。使用这些模型允许在儿童的语言环境中获取记录，而不需要在受控或临床环境中获取记录。

音素解码器处理高置信度关键儿童片段(即，视为充分清晰的关键儿童片段)，并针对每个音素类别做出频率统计。针对特定音素的频率统计代表在高置信度关键儿童片段中检测到特定音素的次数。针对特定音素类别n的音素参数PCn代表针对该音素类别的频率统计除以所有音素类别中音素的总数。一个具体实施例使用了46个音素类别，其中39个音素类别对应于语音(参见图13)，7个音素类别对应于非语音或噪音(填补类别)，例如对应于呼吸、咳嗽、笑声、咂嘴声、“uh”、“uhum”、“um”或沉默的声音。其他实施例可以使用除了Sphinx解码器之外的音素解码器。由于不同的音素解码器可以识别不同的音素类别和/或不同的非音素类别，所以使用的特定音素和非音素类别可以与图12和13所示的不同。为了计算针对关键儿童的有表现力的语言索引z分数，ELZ(关键儿童)，在以下方程中使用音素参数PCn：

ELZ(关键儿童)＝b1(AGE)*PC1+b2(AGE)*PC2+…+b46(AGE)*PC46(1)

有表现力的语言索引包括与关键儿童年龄(AGE)下每个音素类别n相关联的权重bn(age)。例如，b1(12)对应于与12个月年龄的音素类别1相关联的权重，b2(18)对应于与18个月年龄的音素类别2相关联的权重。有表现力的语言索引方程中的权重bn(age)对于不同年龄可能不同，因此对于从2个月到48个月每个月龄有不同方程。在一个实施例中，针对12个月大儿童的方程使用图15中“12个月”列中所示的权重。下面讨论针对权重bn(age)的值的推导。

为了增强可判读性并符合语音语言病理学家(“SLP”)执行的语言评估中通用的格式，例如PLS-4(幼儿园语言尺度-4)和REEL-3(易于接受的有表现力突发语言-3)，可以对有表现力的语言索引进行标准化。这个步骤是任选的。方程(2)将分布从平均值＝0和标准偏差＝1修改为平均值＝100和标准偏差＝15，以对有表现力的语言索引进行标准化并生成有表现力的语言标准分数ELSS。

ELSS＝100+15*ELZ(Key Child)(2)

SLP执行的语言评估工具通常从所观测行为的次数估计发育年龄。利用所关心年龄范围中大的儿童样本，将发育年龄定义为获得给定原始次数的中值年龄。在该系统的一个实施例中，音素概率分布不产生所观测行为的原始次数，以替代方式产生发育年龄作为对儿童实足年龄的向上或向下调节。在这一实施例中，调节的大小既与有表现力的语言标准分数(ELSS)成比例又与针对儿童的实足年龄观测的ELSS的变化成比例。

应用边界条件以防止无意义的发育年龄估计。边界条件将与平均值之间标准偏差大于2.33的任何估计(大致等于第1和第99百分位)设置为第1或第99百分位。下文在方程(3)中示出了基于年龄的平滑化变化估计。下文论述方程(3)中所示的除年龄之外的值的确定。

SDAGE＝0.25+0.02*Age(3)

为了确定儿童有表现力的语言发展年龄ELDA，如下文在方程(4)中所示调节儿童的实足年龄。下文讨论方程(4)中所示恒定值的确定。

ELDA＝Chronological Age+Constant*SDAGE*ELSS(4)

在一个针对12个月大的实施例中，利用实足年龄12和常数7.81，如下所示计算有表现力的语言发展年龄：

ELDA＝12+7.81*SDAGE*ELSS(5)

系统能够输出儿童的EL标准分数，ELSS和儿童的EL发展年龄，ELDA。或者，系统能够将儿童的实足年龄与计算的发育年龄比较，并基于该比较，在两者之间的差异超过阈值时输出标志或其他指示符。例如，如果ELSS比正常值低超过1.5倍标准偏差，那么可以输出消息，指出可以延迟语言发展或表示需要进一步评估。

通过将EL标准分数与EL发育年龄与从SLP执行的评估导出的结果比较来测试EL模型的有效性。EL发育年龄与实足年龄(r＝0.95)和来自在r＝0.92处SLP执行的评估的年龄估计很好地相关。EL标准分数是潜在有表现力的语言延迟的精确预测值。使用77.5的阈值分数(低于平均值1.5倍标准偏差)，EL标准分数在一项研究中基于SLP评估正确识别了下降到阈值以下的68％的儿童。被识别为可能有延迟的百分之三十二的儿童具有低于平均值的EL分数，但不满足77.5阈值分数。基于其EL分数，仅有2％的非延迟儿童被识别为具有可能的延迟。

增大EL评估精确度的一种方式是对从三个或更多记录期间导出的EL分数求平均值。一个实施例对针对同一关键儿童在不同天做出的三项记录导出的三个EL分数求平均值。由于模型是基于月龄的，所以应当在时间上相当密集地获取记录。对三个或更多EL分数求平均值增加了EL分数和SLP评估分数之间的相关性，从r＝0.74增加到r＝0.82。

将EL发育年龄与来自父母问卷的结果组合还提高了EL评估的精确度。LENA发育快照问卷是问卷的一个范例，使用针对父母的一系列问题获得关于儿童语言发展重要里程碑的信息，例如识别出儿童何时开始呀呀学语，使用特定词汇或造句。LENA发育快照基于问题的答案计算发育年龄。应当在记录期间发生时或非常接近这个时间完成问卷。通过对问卷计算的发育年龄和EL评估计算的发育年龄求平均值，计算的估计值和SLP估计值之间的相关性增加到大约r＝0.82。如果对三个或更多EL分数和问卷结果求平均值，那么相关性更大，大约为r＝0.85。除了简单求平均值之外的方法将可能产生更高的相关性。如果问卷包括涉及易于接受的语言发展以及有表现力的语言发展的问题，那么相关性可以更大。

尽管以上范例检测单个音素并使用单个音素的频率分布来估计标准分数和发育年龄，但也可能以类似方式使用针对特定音素序列的频率分布。例如，可以在对于针对不同年龄的不同单音素和音素序列包括不同权重的方程中使用单音素和音素序列的频率分布。在一个实施例中，可以使用双音素序列代替单音素，在另一实施例中，可以使用三音素序列。在又一实施例中，可以使用音素和双音素或音素、双音素和三音素的组合。本发明不限于用于音素、双音素或三音素。

双音素(或使用多于一个音素)允许结合序列信息。在语言中，音素倾向于按照逻辑序列发生；因此，通过不仅分析音素而且分析音素序列获得了额外的分辨率。双音素被定义为解码序列中的每对相邻音素。例如，解码音素序列“P A T”包含音素对“P-A”和“A-T”。从以上范例可知，在这种情况下三音素序列是“P A T”。注意，包括单音素，作为与讲话开始或停止标志配对的单音素。

然后使用双音素频率作为上文针对单音素情形所述的同样类型线性回归模型的输入。引入双音素或三音素还带来了挑战性的技术问题，即，双音素的维度(双音素的总数)显著大于单音素(n的平方之于n)，三音素的维度(n次幂之于3)比双音素和单音素大更多。给定46个音素类别加上讲话开始和结束标志，可能的音素对的总数为48*48＝2304。包括线性回归的这种高维输入可能是有问题的；预测值的绝对数量可能容易导致训练的回归模型过度拟合到训练数据，使得与新样本的一般化较差。利用充分量的数据，这个问题可能停止存在。大尺度使得模型尺度更大，需要多得多的数据来训练。主成分分析(PCA)用于将大尺度减小到小尺度。对于双音素，当前数据表明维度从2000减小到大约50给出了最佳结果。

为了解决这个问题，在一个替代实施例中，使用主成分分析(PCA)将双音素空间的尺度从超过2300减小到100以下。PCA是用于数据压缩、尺度减小等的数据驱动的统计分析工具。具有大部分数据“扩展”或“分布”的数据的低得多尺度的子空间是要搜索的主分量子空间。对于一维子空间，可以将数据“扩展”量化为方差。大量的试验表明，将双音素PCA空间减小到50尺度提供了最佳结果。将超过2300个双音素组合减少到50个主分量，以用作预测基于SLP的分数的多重线性回归中的预测器，完全如上文在多音素情形中所述那样。与单音素(r＝0.72，p＜.01)相比，估计的双音素方式改善了与基于SLP的有表现力语言合成分数的相关性(r＝0.75，p＜.01)，两者都低于留下一个儿童交叉确认的方法。

以下是对PCA的简述。对于一组数据{x_i|i＝1，…，n}，可以通过以下方式构造PCA最佳线性变换：

1.计算协方差矩阵S＝∑(x_i-m)(x_i-m)^T，其中m是数据集的平均值。

2.计算经分类的本征值和关联的本征矢量：

[λ₁，λ₂，…，λ_n]，[v₁，…，v_n]，其中Sv_i＝λ_iv_i且λ_i≥λ_i+1。

3.为了减小线性变换之后的尺度，可以选择前m个分量以构造线性变换，其中m＜n。

4.新特征会是y＝[v₁，…，v_m]^Tx。

在实际试验中，在去除平均值和不去除平均值的情况下尝试第一步。对于当前的数据，它们之间没有基本差异。

另一替代实施例使用音素持续时间而不是音素频率。在这一实施例中，音素解码器确定每种音素类别的时间长度或持续时间。针对特定音素类别n的音素持续时间参数PCn表示针对该音素类别的持续时间除以所有音素类别中音素的总持续时间。为了计算针对关键儿童的有表现力的语言索引z分数，在类似于方程(1)但使用不同权重的方程中使用音素持续时间参数。可以通过类似于用于计算频率分布权重的方式计算权重。

估计的讲话平均长度

语音和语言专业人员传统上使用“讲话平均长度”(MLU)作为儿童语言复杂性的指标。这种测量一开始由Brown定型，假设由于儿童讲话长度随着年龄而增加，能够通过了解儿童讲话或语句的平均长度来导出儿童有表现力的语言发展的合理估计。参见Brown，R.，A First Language：The EarlyStages，Cambridge，Mass.，Harvard University Press(1973)。Brown等人将讲话长度与发育里程碑关联起来(例如，生产性地使用抑扬顿挫的形态)，报告了与MLU相关联的语言发展的相容阶段。讲话长度被认为是直到4到5个词素的MLU的儿童语言复杂性的可靠指标。

为了基于音素频率分布辅助开发MLU等效度量，录制设备为55个15到48个月年龄的儿童计算MLU(大致每个月龄两个儿童)。录制设备遵循Miller和Chapman中描述的录制和词素统计准则，其又基于Brown的原始规则。参见Miller，J.F.Chapman，R.S.，″The Relation between Age andMean Length of Utterance in Morphemes″，Journal of Speech and HearingResearch，Vol.24，pp.154-161(1981)。他们在每个文件中识别50个关键儿童的讲话并统计每次讲话时的词素数目。通过将每个录制文件中的词素总数除以50计算MLU。

除了有表现力的语言标准分数(ELSS)和发育年龄(ELDA)之外，系统还生成估计的讲话平均长度(EMLU)。在一个实施例中，类似于有表现力的语言估计ELZ的估计，通过从音素频率或音素持续时间分布直接预测人导出的MLU值可以产生EMLU。在另一实施例中，可以利用发育年龄，基于简单线性回归产生EMLU，以预测人导出的MLU值。例如，

EMLU＝0.297+0.067*ELDA(6)。

方程值的推导

为了辅助开发这里所述的用于分析儿童语音的各种模型，收集了在其语言环境中从2到48个月龄的336个儿童的超过18000小时的记录。录制数百小时的这些记录，SLP执行超过1900次标准儿童评估，包括PLS-4和/或REEL-3评估。大多数记录对应于表现出正常语言发展的儿童。这种数据用于确定方程(1)、(2)-(5)和(6)中的值。

例如，将针对每个儿童的观测和评估一起求平均值并转换成标准z分数，以产生针对特定年龄的每个儿童的有表现力的语言指标值。连同多重线性回归一起，使用从Sphinx音素解码器输出的音素类别信息以确定用于每个年龄的有表现力语言索引的适当权重。

使用迭代过程确定用于方程(1)的一组权重(b1(AGE)到b46(AGE))。在第一步中，将针对特定月龄儿童的数据分组到一起，以确定针对每个年龄组的一组权重。例如，来自6个月大的数据用于生成针对6个月大的有表现力语言索引的一组权重。在下一步中，将类似年龄儿童的数据分组到一起以确定针对每个年龄组的不同组权重。例如，来自5、6和7个月大的数据用于生成针对6个月大的有表现力语言索引的不同组权重。在后续步骤中，包括针对其他年龄范围的儿童的数据。例如，来自4、5、6、7和8个月大的数据用于生成针对6个月大等的有表现力语言索引的不同组权重。针对所有年龄月份并跨越越来越宽的年龄范围重复这个过程。使用动态程序设计方法选择最佳年龄范围和针对每个月龄组的权重。例如，在一个实施例中，在12个月年龄时，在图15中的表格中示出了从6个月年龄到18个月年龄的年龄带和权重。图15还示出了针对另一范例的权重，针对6个月年龄的关键儿童，年龄带从3个月到9个月，以及针对18个月的关键儿童的权重，年龄带从11个月到25个月。尽管这些范例中的年龄范围是对称的，但年龄范围不必是对称的，对于所关心年龄范围的末尾，通常不是对称的。

经由留下一个交叉确认(LOOCV)的方法测试计算的权重。对每个儿童执行一次以上迭代过程(N＝336)，在每次迭代中，从训练数据集丢弃目标儿童。然后使用所得的模型为目标儿童预测分数。于是，使用来自每位参加者的数据生成N-1轮中的模型参数。为了证实该模型，考虑所有模型间求平均的预测均方误差。最终的年龄模型包括适当年龄范围中的所有儿童。

示范性EL系统

图16示出了针对示范性系统的方框图，该系统计算EL分数和如上所述的发育年龄。图示的系统包括数字记录器1602，用于记录与儿童的语言环境相关联的音频。由特征提取部件1604以及分段和片段ID部件1606处理记录的音频以提取高置信度的关键儿童片段。用于识别来自成年人语音的内容的基于模型的音素解码器1608处理高置信度关键儿童片段1607。音素解码器向EL部件1610提供关于特定音素的频率分布的信息。如上所述，EL部件使用该信息计算EL分数，估计发育年龄和/或估计讲话的平均长度。报告和显示部件1612酌情输出EL信息。

尽管图16示出了利用处理在儿童语言环境中获取的记录的系统(例如LENA系统)处理记录，EL评估能够利用以任何方式产生的关键儿童片段工作，包括在临床或研究环境中获取的记录或使用自动和人工处理的组合产生的片段。

孤独症检测

在一个实施例中，用于检测孤独症的系统和方法使用上述自动语言处理系统和方法。处理在自然语言环境中捕获的记录并生成那些已知主题的语言发展模型。使用足够大的样本，可以确定语言发展中的趋势。这被称为规范性趋势。通常，如果有希望研究的特定发育失调，那么研究失调个体和正常个体的语言并发展出趋势。这里所述的方法是使用语言分析如何可以检测特定发育失调、孤独症的范例。不过，可以将该方法和系统应用于多种失调和疾病，例如孤独症和阿尔茨海默病。可以通过本实施例检测可通过分析语言检测的所有疾病和失调。

在孤独症的情况下，在孤独症频谱失调(ASD)中描述了个体语音中的畸变。在大量研究中已经表明，孤独症确实与声音质量、韵律和其他语音特征的异常相关。参见R.Paul，A.Augustyn，A.Klin，F.R.Volkmar，Journal of Autism and Developmental Disorders 35，205(2005)；W.Pronovost，M.P.Wakstein，D.J.Wakstein，Exceptional Children 33，19(1966)；以及S.J.Sheinkopf，P.Mundy，D.K.Oiler，M.Steffens，Journal of Autism and Developmental Disorders 30，345(2000)。不过，这些语音特征不容易检测或识别；因此，孤独症的定义(DSM-IV-TR，APA，2000)不包括这样的特征包括什么的描述。

在这一实施例中，可以基于正性标记，基于先前不能执行的语音特性，肯定地检测孤独症。通常，利用“负性标记”，例如协同注意的欠缺，检测孤独症。例如，参见：S.Baron-Cohen，J.J Allen，C.Gillberg，The BritishJournal of Psychiatry 161，839(1992)；K.A.Loveland，S.H.Landry，Journal of Autism and Developmental Disorders 16，335(1986)；以及P.Mundy，C.Kasari，M.Sigman，Infant Behavior and Development15，377(1992)。

可以将确定儿童孤独症使用的方法描述为使用透明参数的儿童语言分析(CSATP)。大致上，透明参数是可以从声音信号提取并在语言或所发出声音的含义方面独立于声音信号实际内容的那些参数。下文进一步论述透明参数。CSATP包括若干步骤：分段；VOC，CRY和VEGFIX分类和发声次数；声学分析；透明参数的提取；以及数据集分类。利用这种方法和正常语言发育、延迟语言发育以及孤独症儿童的充分大小样本，可以针对这些组发展出语言趋势。参见以上相对于音频引擎208的VOC、CRY和VEGFIX分类的论述，分类可以将关键儿童音频片段分成一个或多个类别。

图17和18分别示出了检测孤独症的方法以及生成趋势以用于检测孤独症的方法中的方法的流程图。如上所述参考图4和方框304执行方框1810和1835的分段。在方框1810中，对针对个体关键儿童的数据进行分段，在方框1835中，对正常、延迟和孤独症儿童的多条记录进行分段。在分段期间，针对特定一条记录识别讲话者。在已经识别了讲话者之后，进一步分析来自相关讲话者的语言，在这种情况下，讲话者为关键儿童。图19在顶部图中示出了分段过程，并进一步将关键儿童片段分解成VOC、CRY和VEGFIX片段。

然后分别在方框1815和1840中将在方框1810和1835中被识别为属于关键儿童的片段分解为发声(VOC)、哭泣(CRY)以及呆板声音和固定信号声音(VEGFIX)。根据儿童的年龄，发声包括各种语音。在0到4个月之间，发声仅包括元音状的声音。在5个月左右，儿童开始发出由非常基本的辅音-元音序列构成的边际音节。一些儿童做出被称为咂舌声的唇颤音，也被视为发声。在七个月左右，儿童的发声可以包括规范音节和重复的唠叨，这是构造很好的辅音和元音序列。在这个阶段，儿童可以利用间距的变化，产生高间距的尖叫声和低间距且发声困难的咆哮。在一岁左右，儿童开始说孤立的单词，但一直儿语到18个月左右。到两岁，儿童将具有相当大的口语词汇。简而言之发声包括对儿童语言发展有贡献的所有有含义声音。

呆板声音包括所有与呼吸和消化相关的非口头声音，例如，咳嗽、嚏喷和打嗝。固定信号是与对环境的自发反应相关的声音，例如笑声、呻吟、叹息和咂嘴。集中检测呆板声音和固定信号声音。消除这些类型的声音，因为它们不提供关于语言完善度的信息。

应当指出，哭泣也是一种固定信号。与其他固定信号不同的是，哭泣是非常频繁的(取决于年龄)并传达各种情绪感觉和身体需要。尽管在这种具体方法未执行，可以使用根据所述技术的哭泣分析来检测失调或疾病，因为在儿童的生命中哭泣也是另一种沟通手段。

利用Mel频率对数倒频谱系数(MFCC)和子带频谱质心(SSC)通过统计处理执行儿童语音分类。可以使用其他统计处理技术。

使用MFCC是用于自动语音识别的标准现有技术方法。虽然不如MFCC普及，另一种可用类型的特征是SSC。在常规MFCC特征中，对给定子带中的功率谱进行平滑化，仅保留功率谱的加权幅度，而在SSC中，提取每个子带的质心频率。SSC能够针对语音段跟踪每个子带中的峰值频率，而对于非语音段，其保持在子带的中心。MFCC自身是比SSC更好的特征，但MFCC和SSC的组合针对成年人语音的自动语音识别展示出更好的性能。为各种应用使用SSC，下面列出了它们中的一些：

成年人语音识别

讲话者验证或识别

冲击音的音色识别

尽管MFCC对于提取一般频谱特征是好的，SSC在检测共振峰时将是有用的。由于在儿童发声而非在呆板声音/固定信号声音中发现了共振峰轨迹(尽管浊音哭泣可能具有共振峰轨迹)，但可以在儿童语音处理中跟踪共振峰轮廓线。

对于儿童语音处理，使用具有2000个高斯型曲线的固定边界高斯混合模型(FB-GMM)分类器，即，针对在先前阶段中识别的每个能量岛执行统计分类。利用两组特征生成模型：MFCC和SSC。利用具有36个系数的40个滤波器库提取MFCC。利用7个滤波器库生成SSC以仅捕获共振峰。由于这项研究中使用的音频具有16KHz的采样频率，所以使用300到7500Hz范围中的滤波器库。因此，MFCC-SSC特征具有(36+7＝)43的尺度，利用δ信息，其变为(43*2＝)86。

在年龄依从性建模的语境中，目的是对三种语音发声、哭泣和固定信号/呆板声音进行分类。不过，儿童的这三个类别随着年龄变化而极大变化。因此，针对0到48个月的整个年龄范围的一个模型将不满足我们的目的。若干研究表明，从出生到四岁大，儿童的声道可以从大约5cm生长到12cm。其他研究表明，共振峰频率高度取决于声道的长度。通过“声道的开放管道模型”，由给出F_i，第i个共振峰频率和l，声道长度之间的关系，其中c是空气中的声速(在体温和适当压力下，口内部的湿空气)。这表明声道长度越大，共振峰频率越小。因此，由于婴儿声道的生长迅速，共振峰频率变化，因此，总体语音特性几乎在年龄的每个月都变化。因此，针对从0到48个月儿童的每个月龄生成三个模型-/voc/、/cry/和/vegfix/。

利用年龄依从性发声、哭泣和固定信号/呆板声音模型对儿童年龄的先验知识进行分类。

在方框1820和1845中，对VOC岛执行声学分析(与极低能量周期划界的极高能量周期对应的记录)。然后利用声学特性进一步分析儿童片段中的岛。从VOC岛提取以下升学特征：

1.持续时间分析：假设构成儿童语音的每个能量脉冲必须要有特定持续时间，以被视为有含义的语音(发声)。例如，如果连续能量段超过3秒钟，假设语音不是发声，但很可能是某种哭泣或尖叫声(基于其他标准)。图6示出了发声的范例，其是一系列辅音元音序列(hi-ba-ba-bab-bab)。仅有元音是高能量部分，而辅音具有低能量。测量高能量部分的持续时间以确认发声。

2.规范音节识别：在CV、VC、CVC或VCV序列中可能观察到共振峰跃迁(主要针对F1和F2)。图6是一系列的CV和CVC序列，示出了从/b/到以下元音/a/，然后到/b/的共振峰跃迁。这些类型的共振峰运动表示作为发声部分的规范音节。

3.清晰度分析：共振峰带宽标志着发音的清楚程度。带宽越窄，语音越清楚。预计哭泣或其他固定信号(例如咂嘴)或呆板声音将比真实的发声具有更宽的带宽。图20示出了对F1和F2分组如何能够标记清晰度水平的经验显示。基于每个清晰度水平的“优良度”向每个清晰度组分配分数。

4.情绪强度分析：观察到高强度语音(例如以全肺的空气哭泣)具有超过1500Hz的第一频谱峰值。正常发声在较低频率(从300到3000Hz)将比较高频率(6000到8000Hz)具有更高能量。于是，预计从频谱的第一部分到频谱末尾将有30dB的下降，这被称为具有负斜率的频谱倾斜。对于哭泣，可能不存在频谱倾斜，其中频谱相当平坦。具有正斜率的频谱倾斜(在较低频率下能量低，在较高频率下能量高)表示非口头声音(例如呼吸、咂嘴声)。

5.发声困难分析：假设几乎由元音构成的正常发声使得频谱呈周期性。另一方面，发声困难的声音具有相当随机的频谱，在频谱中有子谐波。可以通过频谱的熵测量频谱的随机性。熵越高，频谱越随机，发声困难越大。

6.间距分析：使用间距来检测尖叫声和咆哮。儿童的正常间距介于250到600Hz的范围中。如果间距超过600Hz(可以高达3000Hz)，将发声标记为尖叫声。类似地，咆哮是间距低于250Hz的发声。

7.语调分析：语调在确定儿童情绪时具有重要的作用。尖叫声和咆哮是仅在他们游戏和愉快时才有的发声。那些高或低间距且发声困难的声音的生气版本是哭泣。间距轮廓线有助于判断语音是生气还是愉快。通常，越来越大的间距是愉快声音的标志，越来越小的间距是忧愁的声音。

8.合声分析：假设发声几乎由元音构成(合声的语音)，交织有辅音(清音化的语音)。如果整个语音段是清音化的，那么假设它是某种呆板声音/固定信号声音(例如，咳嗽、清嗓子等)。

对于这种分析，利用线性预测性(LP)分析检测共振峰和共振峰带宽，基于自相关计算间距。最后，通过应用平滑滤波器-中值滤波器提取共振峰和间距轮廓线。利用1024点的FFT执行其他频谱分析。

在图17和18的方框1825和1850中，提取透明参数。使用这些参数判断受检者是正常的还是孤独症。图21示出了与确定孤独症相关的声学参数。图21和22示出了可以从记录提取的其他声学和非声学参数。在本实施例中，将图21和22所示的声学参数用于检测孤独症。或者，图22所示的非声学参数可用于检测孤独症。将这些声学和非声学参数统称为透明参数。通过使用本实施例的方法，已经表明在正常、延迟和孤独症儿童中观察到的透明参数之间有差异。通常，声学参数与关键儿童生成的那些发声有关，非声学参数是涉及交互的那些参数，尤其是关键儿童和成年人，以及儿童经历的环境之间的那些交互的参数。

图22中示出了九个非声学参数。以秒为单位的成年人发声长度是指记录上成年人发声的长度。成年人发生次数是指成年人发出的发声数目。儿童发起的会话次数是指儿童做出发声并且成年人答复的次数。谈话轮数是指儿童回答成年人发声的次数。儿童发起的谈话中的谈话轮数是指何时儿童发起谈话并然后对成年人发生做出响应。谈话轮次中以秒为单位的儿童发声是指在谈话轮次中儿童发生持续的时间长度。谈话轮次中的儿童发声次数是指儿童在谈话轮次中做出的发声次数(可能表示回答的复杂性)。与成年人的谈话中的儿童发声长度是在与成年人的谈话中儿童的平均发声长度。与成年人谈话中的儿童发声次数是在所述与成年人的谈话中儿童做出的发声次数。

图21中所示的十二个声学参数都被在理论上(基于来自声音发展中30年研究的模型)和统计上(如主分量分析所述，PCA)分入与用于语音的基础设施相关的四组。将十二个参数的每个分类为正或负。为了针对个体儿童和记录间发声(流畅性)比率的差异以及记录长度的差异进行调节，针对每个参数，获取标记为正的发声数目与讲话次数的比例。这样产生了每个记录一组12个数字(每个数字针对一个参数)。使用这个12维矢量预测声音的发展并在分析中将记录分类为属于典型地发育或孤僻儿童。

如图23所示，使用儿童年龄在2-48个月之间跨度的大数据集。在同一集合中有328个儿童的2682条记录表现出正常发育。有30位儿童的300条记录表现出语言发展中的延迟。有34为被诊断为孤独症的儿童的225条记录。从这个数据集，生成模型和趋势线。

在图18的方框1855中，基于被收集的要用作模型的记录生成趋势。如下文将要解释的，基于透明参数的分析揭示出预测的声音发展分数。图24-29示出了针对预测的声音发展分数的趋势线和数据点。图24示出了孤独症和正常发育儿童的声学参数的趋势图。灰色点表示正常发育儿童的声音发育分数。灰色线是正常发育儿童的趋势线。星号表示孤独症儿童的声音发育分数。菱形表示孤独症儿童的平均(基于单个儿童的多条记录)声音发育分数。黑色趋势线针对孤独症儿童。图25示出了孤独症、正常发育以及语言延迟儿童的声学参数的趋势图。灰色星表示语言延迟儿童的平均(基于单个儿童的多条记录)声音发育分数。黑色菱形表示孤独症儿童的平均(基于单个儿童的多条记录)声音发育分数。灰色趋势线针对语言延迟儿童。黑色趋势线针对孤独症儿童。虚线趋势线针对正常发育儿童。图26示出了正常发育以及语言延迟儿童的声学参数的趋势图。灰色点表示正常发育儿童的声音发育分数。星号表示语言延迟儿童的声音发育分数。黑色星表示语言延迟儿童的平均(基于单个儿童的多条记录)声音发育分数。黑色趋势线针对语言延迟儿童。灰色趋势线针对正常发育儿童。

图27示出了正常发育和孤独癖儿童的非声学参数。灰色点表示正常发育儿童的声音发育分数。灰色线是正常发育儿童的趋势线。星号表示孤独症儿童的声音发育分数。菱形表示孤独症儿童的平均(基于单个儿童的多条记录)声音发育分数。黑色趋势线针对孤独症儿童。图28示出了孤独症、正常发育以及语言延迟儿童的声学参数的趋势图。灰色星表示语言延迟儿童的平均(基于单个儿童的多条记录)声音发育分数。黑色菱形表示孤独症儿童的平均(基于单个儿童的多条记录)声音发育分数。灰色趋势线针对语言延迟儿童。黑色趋势线针对孤独症儿童。虚线趋势线针对正常发育儿童。图29示出了正常发育以及语言延迟儿童的声学参数的趋势图。灰色点表示正常发育儿童的声音发育分数。星号表示语言延迟儿童的声音发育分数。黑色星表示语言延迟儿童的平均(基于单个儿童的多条记录)声音发育分数。黑色趋势线针对语言延迟儿童。灰色趋势线针对正常发育儿童。如图24-29所示，可以相对于儿童的月龄投射采用针对群体研究的声学或非声学参数获得的预测声音发育分数。

预测的声音发育分数的生成根据的是透明参数(包括声学或非声学的)的分析。例如，对于声学参数而言，可以进行多重线性回归(MLR)分析以获得发育和组区别两者的了解。在使用声学参数的一项试验(图21中所示)中，针对典型发育样本相对于年龄在每条记录内对语音相关声音岛(SVI，先前称为VOC岛)与语音相关儿童讲话(SCU)的12个声学参数比进行回归，产生相对于发声的声学组织的发育的规范模型。在开发出模型之后，使用其系数计算针对孤独症和语言延迟的记录的发育分数。对于典型发育的样本和语言延迟的样本，而不是孤独症样本，发现了年龄间发育分数的生长，孤独症样本的发育分数总体上也显著低于典型发育样本的分数。图24-29示出了分析结果。

在图17的方框1830中，将与相关关键儿童相关的数据集与已知主题的趋势线比较，以便判断个体是孤独症、延迟还是正常。如图30所示，使用逻辑回归分析将儿童的最佳分类基于12个声学参数模型化为孤独症或非孤独症。对于正常发育的儿童，将很高百分比的正常儿童识别为正常。

在图31中，示出了若干表格，示出了确定孤独症似然度的各种方法的精确度。使用逻辑回归和相等的差错率(EER)，该方法获得高度成功，同时仅输出少数假阳性。例如，在使用.98的概率的情况下，该系统和方法确定那些主题的93％被视为正常的，在确定一些正常个体为孤独症时仅具有小的差错率。同时，在他们真正是孤独症时，仅有12％的个体被确定为正常的，88％的孤独症个体被正确识别为孤独症。表格的底部行示出了替代线性判别分析，并示出了类似结果。

尽管针对检测孤独症时的应用描述了以上系统和方法，但也可以将其用于与讲话相关的若干不同疾病和失调。通过捕获关于群体中趋势的信息，处理信息以确定趋势并将个体与那些趋势比较，可以诊断疾病和失调。通常，该模型/趋势生成根据图18所述的相同原理工作。通过在方框1835中对声音信号分段以揭示要研究的受检者发出的那些声音，然后进一步将受检者的声音细分成至少是发声的那些声音以及方框1840中没有的那些声音，可以精确定位要研究的声音信号。然后通过方框1845和1850中透明参数的声学分析和发展，可以揭示声音信号的特征。从这些特征，与被研究个体的疾病或失调的流行比较，可以在方框1855中生成趋势或模型，可将其用于比较新的主题，以便判断他们是否患有疾病或失调。根据图17以类似方式处理新主题并最终与在方框1830中确定的趋势比较。此外，尽管以上描述集中在发声数据上，由于自然语言环境中儿童记录的数据库对于非常年幼(小于一岁)的儿童会生长，关于儿童哭泣的数据可以揭示出能够检测孤独症的趋势。

在替代实施例中，单独使用上述关于儿童语言发展的音素分析或上述音素分析结合透明特征分析可以检测孤独症(或其他疾病)。利用音素频率或PCA(主成分分析)尺度减小的双音素分析，可以通过上述系统和方法的实施例预测人的SLP评估分数。可以将用于AVA的基于音素的特征用于孤独症检测，系统的其余部分不变，包括LDA(线性判别分析)、逻辑回归等。将基于音素的特征分析加到声学透明特征分析可以相对于孤独症检测提供额外的分辨率。此外，尽管大部分分析集中在发声上，因为自然语言环境中的儿童记录的数据库对于非常小(小于一岁)的儿童会生长，但关于儿童哭泣的数据可能揭示趋势。

基于音素的孤独症检测

在替代实施例的范例中，使用基于音素的特征检测孤独症。还包括了结合用于分析单个儿童语言的多个记录的替代方法。该方法包括结合后验概率空间中针对儿童的多个记录，与在输入特征空间中合并多个记录相反。在本范例中这些方法特定地针对孤独症；不过，可以将它们用于根据这里所述的任何方法检测其他失调并分析语音。在本范例中，基于音素的特征比上述透明特征产生了更好的结果。对于区分孤独症与语言延迟，这尤其真实。

基本有两种类型：“透明特征”(参见以上论述)和分析孤独症时使用的基于音素的特征，可以在分析可通过分析语音检测的个体的任何失调或特征时应用这些特征。另一种可能的分析可以包括透明和基于音素的特征的组合。因此“ft-12”代表“透明特征”，“ft”表示透明特征，12表示透明特征的数目(如先前实施例中所述)；“biph-50”表示基于双音素的特征，其具有通过PCA(主成分分析)的50个尺度。“组合”分析表示将“ft-12”和“biph-50”放在一起。

所有三种特征，ft-12、biph-50和组合特征都可以是“年龄归一化的”，即，基于针对集合-N中每个月龄组的特征的平均值和标准偏差，以去除平均值并利用标准偏差缩放：new_feature＝(old_feature-mean)/std。

结合来自单个儿童的多条记录的方法可以有所变化；在本范例中，考虑到使用的数据，判定使用后验概率是最有效的。先前，将来自不同记录的年龄归一化特征一起求平均值，以形成针对儿童的单个特征矢量。或者，如在本范例中那样，可以使用每个个体记录及其特征矢量来获得后验概率。可以在后验概率空间中进行针对儿童的多条记录的结合。可以对来自多条记录的后验概率一起求平均，以获得针对儿童的单个平均后验概率。平均值可以是“几何的”或“算术的”。

A.使用的数据

本范例中使用的数据与上文所述和图23所示的数据相同。这种数据包括三组儿童：1)典型发育的或正常儿童(由下面表1中的“N”或“n”表示)；2)语言延迟的儿童(由下面表1中的“D”或“d”表示)；以及3)孤独症儿童(由下面表1中的“A”或“a”表示)。在集合-N中有328个儿童和2678条记录，在集合-D中有30个儿童和290条记录，在集合-A中有34个儿童和225条记录。所有记录都是一天时间(比12小时长)。数据的汇总是：

集合-A：孤独症儿童；34个儿童；225条记录

集合-D：延迟的儿童；30个儿童；290条记录

集合-N：典型儿童；328个儿童；2678条记录

三项基本任务基于集合-N、D、A的每对以查看它们每对的分类：1)从延迟分类出孤独症；2)从正常分类出延迟；以及3)从正常分类出孤独症。对于孤独症检测，从正常集合以及延迟集合检测孤独症是实际的重点。即使对于孤独症之于非孤独症(延迟+典型)，也可以相对于从延迟分离出孤独症以及从典型集合分离出孤独症的细节实现额外的分辨率。以下是六种研究情况的摘要(在表1中反映)：

a-d：从集合-D到集合-A，利用LOOCV在集合-A、D上训练和测试；

d-n：从集合-N检测集合-D，利用LOOCV在集合-D、N上训练和测试；

a-n：从集合-N检测集合-A，利用LOOCV在集合-A、N上训练和测试；

a-dn：从集合-D和N检测集合-A，利用LOOCV在集合-A、D、N上训练和测试；

a-dn_a-d：训练与“a-dn”相同，不过仅仅检查“a-d”的性能；

a-dn_a-n：训练与“a-dn”相同，不过仅仅检查“a-n”的性能。

B.性能度量

在本范例中，利用LOOCV(留下一个交叉确认)测试系统性能。可以使用LOOCV确认除孤独症之外的其他失调或分类的检测，例如在本公开中其他地方论述的很多失调和分类。

作为LOOCV确认的一部分，将主题分成两类：类别-c(对被确认的儿童分类)和其他，可以将其称为非-c类别。具体而言，无论儿童是否与一个特征矢量相关或儿童是否与几个特征矢量相关，每次都遗漏模型的一个儿童，一个特征矢量是来自多条记录的某种组合，几个特征矢量来自针对该儿童的每条对应记录。

在遗漏儿童时，在利用其余数据训练模型期间遗漏所有其关联特征矢量。然后将该模型应用于该儿童，以获得是类别c的后验概率，给定特征矢量作为观测。该过程通过所有儿童循环。在结束时，每个儿童将具有其作为类别c的后验概率。

可以基于所有儿童的后验概率绘制ROC曲线(接收机操作特性曲线，这是针对测试的不同可能割点，真阳性率与假阳性率比的比较图)。同时可以计算等差错率。具体而言，绘制ROC以及计算等差错率的流程如下：

1.Array_p＝按递增顺序分类的唯一性后验概率

2.Threshold_array＝[array_p(1..n-1)+array_p(2..n)]/2，即，相邻唯一性后验概率之间的中点

3.Final_threshold_array＝[0，threshold_array，1]，即，增加0和1作为阈值

4.对于从0到1的每个阈值，如下操作：

●利用具体阈值，可以做出检测决定：如果任何儿童的后验概率高于阈值，将其检测为类别c；否则，将该儿童检测为类别非c

●针对这个阈值的检测差错率和误报警率为：

检测误差率＝类别c的儿童被误检测为非c的数量/类别c儿童的数量

误报警率＝类别非c的儿童被误检测为c的数量/类别非c儿童的数量

5.可以通过连接在步骤4中获得的每个(比率，阈值)点绘制检测率(detection_rate＝1-detection_error_rate)或detection_error_rate相对于后验概率阈值的曲线。

类似地，可以通过连接在步骤4中获得的每个点绘制非c检测率(＝1-false_alarm_rate)或误报警率相对于后验概率阈值的曲线。

6.等差错率点是步骤5中提到的两条曲线的交点。交点的计算是很轻松的，因为两条曲线是单调增加或减小的。

等差错率被用作比较所用不同方法和不同特征的性能度量。

图34示出了对于LDA方法基线中“a-d”情形的ROC。图35示出了biph-50特征的“a-d”情形的ROC以及几何后验概率平均值，以组合关键儿童的多条记录。

C.分析技术

在本范例中，将特征矢量变换成后验概率；不过，在孤独症检测的语境中解释，可以将这种技术用于语音的其他分析，以确定个体的特性或失调。使用两种建模方法执行转换：逻辑回归和LDA(线性判别分析)。

逻辑回归使用以下函数将特征矢量转换成后验概率：

posterior_probability＝1/(1+exp(A*feature_vector+b))

其中A是线性模型矢量，*是内积，b是偏置参数。A和b都可以使用Newton-Raphson优化算法利用极大似然法估计。

LDA自身不能直接提供后验概率。LDA的目的是找到线性变换，从而在输出空间中优化在线性变换或区分的输出空间中优化的Fisher-Ratio。

一旦确定了最佳LDA线性变换，就可以在高斯(正常)分布的假设下估计每个类别的数据分布。利用提供的每个类别的先验概率，可以计算后验概率：

P(c|x)＝P(c)*P(x|c)/P(x)，P(x)＝sum P(c)*P(x|c)，

其中P(c|x)是给定观测x下是类别c的后验概率；P(c)是类别c的先验概率；以及P(x|c)是类别c的数据分布。

可以在高斯分布的假设下获得数据分布P(x|c)。最大似然解是样本平均值和样本方差。

如上所述，提供了针对“a-d”、“d-n”和“a-n”情况下的等差错率。不过，并非人工调节截止阈值(这可能不精确和相容)，而是通过自动算法获得等差错率，其更加精确且工作更加相容。此外，增加针对“a-dn”、“a-dn_a-d”和“a-dn_a-n”情形的性能。新结果在表1中。

从基线系统的结果，能够看到LDA工作的相容性比逻辑回归更好。

目前描述的范例的试验包括：

A.上文提到的(并在表1的检测情况列中反映的)六种检测情况

B.上述三种特征(ft-12，biph-50和组合)

C.处在其原始值或年龄归一化值下的三种特征

D.儿童水平性能，利用旧方式通过对年龄归一化特征一起求平均值组合儿童的多条记录

E.儿童水平性能，利用新方法对儿童的多条记录的后验概率求平均值。平均值包括“几何的”和“算术的”。

D.记录水平性能

试验基于上述遗漏一个的方法，即，在其模型的训练阶段期间遗漏一个儿童的所有相关联记录，然后将模型用于遗漏的记录以获得针对该儿童的后验概率。

从表1显然看出，在具有可用数据的本范例语境中，可以观察到以下情况：

1.由于集合-D(30)和集合-A(34)在样本中受限，所以一个样本大约为1/30＝3％。因此，一个数据点的背部(位置)可能具有等差错率大约3％的差异影响。当查看表格1时，应当记住这种情况。

2.基本如上所述，相对于根据透明特征确定孤独症执行“ft-12”。

3.单一记录性能比儿童水平更差。换言之，可以使用针对儿童的多条记录改进儿童水平的性能。

4.针对儿童多条记录的后验概率的几何平均值通常好于算术平均值。

5.Biph-50显著好于ft-12，尤其是对于延迟相对于孤独症。Biph-50优于ft-12的地方是在所有情况下都相容。

6.Ft-12和biph-50的组合稍好于biph-50(对于d-a情形没到那种程度，主要针对n-d和n-a情况)。看起来集合-N具有大量样本和更宽的年龄范围，尤其是年轻年龄2-15，ft-12对年龄较不敏感，而biph-50对仅存在于集合-N中的2-15或2-10年龄更敏感。在年龄归一化之后，ft-12和biph-50的组合相对于biph-50的优点最小。年龄归一化显得有助于针对“d-n”和“a-n”情况而非针对“a-d”情况的biph-50特征，其没有低于10个月的小孩。直观地，集合-N的非常年轻年龄组可能在数据中具有某种不规则，导致针对情况“a-n”和“d-n”的区分困难。

7.组合儿童多条记录的后部的新方法比为儿童预测后部的求均值特征(包括ft-12、biph-50及其组合)的旧方法更好。对于“a-d”情况，儿童水平性能比记录水平性能更差。对于“a-dn_a-d”情况，儿童水平性能比记录水平性能稍好。这支持如下事实：训练数据的量对于一般化很重要。

8.LDA的相容性高于逻辑回归。

当然，相信这种分析对于更多数据仍然成立，不过有可能将不成立，且针对任何新组的数据将比较分析技术。

表1等差错率(％)比较

此外，可以将后验概率组合到上述分析技术中，用于确定关键儿童的发育年龄；或者可以将其用于从分析语音来检测其他失调、疾病或特性中。

在检测孤独症的方法的一个实施例中，对检测儿童孤独症感兴趣的一方可以请求向他们发送测试系统。作为响应，可以通过邮件或其他输送手段向他们发送测试系统，或者可以由医生或医疗专业人员给他们。该系统包括记录单元、指令以及供受检者(关键儿童)穿戴的布衣，其适于保持记录单元。然后针对指定时间记录儿童，通过邮件返回系统或将其物理地返回到中央处理接收机。中央处理接收机然后从系统接收数据并处理数据。向必要方返回报告，必要方可以包括关键儿童的父母、医生、其他专业人员等。可以通过低成本的方式实施这种方法，因为关键儿童或关键儿童的监护人/父母实际在“租用”该单元以使用一次。在使用之后，可以将同一单元再次用于另一受检者，该另一受检者将支付“租金”费用、收集所需的数据、返回该单元并接收所需的测试结果。

儿童模型和无人监督分析的开发

如上所述，一些实施例使用为成年人设计的自动语音识别(ASR)系统以便识别音素，在确定儿童的发育水平时使用。一种这样的ASR为Sphinx解码器。这种解码器和其他解码器基于从成年人语音开发的音素模型。尽管儿童语音类似于成年人，为成年人设计的ASR可能不会产生针对儿童的最佳音素检测。成年人ASR基于成年人语音。分析的数据是儿童语音。因此，在与异类数据，例如儿童语音比较时，生成模型所依据的数据可能有局限或不精确性。为了消除数据模型失配，可以使用从分析儿童语音创建的模型。

传统上，可以通过直接训练并生成语音模型来生成针对儿童的语音模型。这样会解决数据模型失配的问题。这个过程会涉及到专业人员倾听儿童的录音并对儿童所讲的音素分类。不过，对儿童语音进行标记可能是非常耗时且易出差错的任务，因为儿童的语音通常发音不好且有大的变化。因此，有人监督的儿童语音建模可能是困难且成本高昂的。

相反，在一个实施例中，可以将无人监督的分群方法用于儿童语音建模。这种方法基于数据的统计特性，将类似的儿童语音数据分到一起。这种方法可以减少对儿童语音人工分类的需要。由于以上方法基于从统计上将受检者的发育与针对已知受检者的发育模型进行比较，所以可以从分析排除所讲的实际音素。相反，开发出可能表示或不表示实际音素的语音片段群，并将受检者的语音与这些群比较。

一种分群的方法是K-平均值。下面给出了K-平均值算法的简述：

对于给定的数据集{x_i|i＝1，…，n}，K-平均值算法试图找到K个代表点{c_i|i＝1，…，k}，其中k比n小(或小得多)。C_i是群质心或群平均值。这是它被称为K-平均值的原因。

对C_i进行初始化。可以通过从数据集随机选择或通过其他方法这样做。

对于每个数据点X_i，通过测量与每个群质心的距离来找到最近的群，并将这个数据点标记为该群。

对于每个群而言，汇集被标记为该群的所有数据点并计算这个群的平均值。利用新计算的平均值更新群质心。

迭代步骤3和步骤4，直到满足一些收敛性判定准则(理论上，确保迭代收敛到最小总体数据“失真”的至少局部最小值)。

所获得的儿童语音群被认为是类似音素，根据以上单音素或双音素分析进行分析，用群集模型替代ASR成年人模型。然后可以利用群集模型(质心)对儿童语音解码，以找出儿童语音的群集标签序列。这非常像使用成年人音素模型的音素解码过程。然后可以通过与AVA分析中使用的音素序列相同的方式使用群标记序列。

图32示出了K-均值群(质心)的例示。如图所示，点代表数据点，星代表群平均值(质心)，黑色线表示由群平均值(质心)定义的不同群间特征空间中的边界。给定“点”，K-平均值算法将自动找到最佳的“星”。“最佳”是从失真最小(至少局部)的意义上讲的。

下面的表2示出了基于无人监督的儿童模型的试验结果。

表2：成年人模型和无人监督的儿童模型的比较

以上表格示出了无人监督的方法与使用成年人音素模型的方法具有基本相同的性能。这是对先前利用成年人音素模型进行分析的验证。同时，这也示出了无人监督方法的希望和潜力，因为在选择的群数等方面它可能更加灵活。尽管示出了特定数量的群，但对于给定数据集的最佳群数可能取决于数据集的大小，并且可以使用各种数量的群。

此外，可以将基于群的特征分析用于孤独症检测或其他失调/疾病的检测。同样，可以朝向孤独症检测的目的进行基于群的特征、基于成年人音素模型的特征、声学透明特征的组合。目前，对于孤独症检测而言，在分析中使用透明特征。参考图21，示出了声学参数的表格。示出的声学参数是从记录中提取的。不过，这些声学参数基于真实单词观测而不是分群。在替代性基于群的透明参数分析中，相对于语音和声音特性发展群。这些特性可以包括声音的间距、声音持续时间、声音的节奏、声音的组织等。例如，对于声音持续时间而言，图示的声学参数具有针对短、中、长和超长持续时间岛的定义。相反，可以通过对实际声音记录分群确定这些定义并将生成表示所收集数据的群集模型。

通过这种方式，可以根据关于表示模型所依据的记录数据的群体已知的具体年龄和任何其他特性精细调谐开发的模型。在最基本水平上，语音的特性主要由语音间距、语音持续时间和语音组织构成。可以单独根据任意和全部这些特性及其组合进行分群。额外的语音特性可以包括语音流动、高声度、语调和泛音的强度。语音流动包括讲话的产生速度和讲话中中断的长度。高声度是与语音相关联的能量的量。语调涉及间距相对于讲话者平均声音间距的涨落。泛音包括与基音相伴的更高声调，一般比基音微弱。所有这些特性和更多特性可用于形成群。

分群允许在没有关于语音特性的预想概念的情况下进行分析并可以揭示先前未识别的模式。只要收集的样本足够大(从统计意义上说)，通过分群揭示的模式将对群体保持成立，并可以在例如疾病和失调(例如孤独症)的发展、检测，和语音的其他特性，例如情绪，讲话者的底层动机、诚实性方面应用于任何类型的语音分析。

情绪/压力检测

理论表明父母和护理人表达的情绪可能影响儿童的语言发展。上述方法和系统使得它们能够很好地确定情绪对儿童语言发展的效果。图33示出了用于确定讲话时情绪的方法的一个实施例。出于分析的目的，假设一次讲话仅包含一种情绪，或在压力检测的情况下，是压力或中立(非压力)。在接收输入的讲话时，提取与情绪相关的声学特征。可以将Mel频率对数倒频谱系数(MFCC)和知觉最小方差无失真响应(PMVDR)用作情绪检测的特征。一旦提取了特征，就相对于表示情绪的多个模型在特征上对讲话打分。选择具有最大分数的模型，将与该模型关联的情绪识别为讲话的情绪状态。可以将高斯混合模型(GMM)用于打分，上文针对分段和片段ID任务描述了这种模型。在情绪检测的语境中，检测有压力或无压力状况可能比具体情绪检测更简单，从而，可能更加精确。可以利用这里所述的语音检测和分析系统执行这种方法。

为了利用所述方法和系统进行试验并优化模型大小和特征大小，需要情绪数据。使用可经由因特网得到的免费德语情绪数据库。根据上述分段和ID系统处理来自20个不同普通美国家庭的二十个全天自然家庭环境记录，注释针对压力和非压力检测而自动检测的成年人讲话，并为此目的获得大约900个经人确认的压力/非压力标记的讲话。该数据集被称为LENA情绪数据1。所述的情绪数据库是唯一的并且对于自然家庭环境中情绪检测研究与开发以及情绪如何影响儿童讲话和语言发展是有价值的。’520申请中描述的用于语音收集的系统允许在自然语言环境中收集语音，上述处理技术实现了所记录声音信号的过滤和分段。

利用德语情绪数据库、MFCC、PMVDR和GMM，搜索最优模型尺寸和特征尺寸。对于模型尺寸，利用固定的36-阶MFCC及其导数特征(或δ特征，共72-维度)，搜索最优GMM尺寸。如表3所示，针对每种情绪GMM模型的128条高斯型曲线针对所有情绪检测(64.57％)和压力之于非压力检测(89.83％)的任务给出了最好的检测率。利用每个GMM模型尺寸固定的128个高斯型曲线，进一步优化MFCC的特征尺寸。如表4所示，MFCC特征尺寸12(MFCC+其δ＝24维度)在德语数据库上给出了最好的检测率。还将PMVDR与MFCC进行比较，用于情绪检测任务。表5中示出了试验结果。

表3：模型尺寸优化，检测率相对于每个模型的高斯型曲线数量

#高斯型曲线/模型

8

16

32

64

128

256

所有情绪

56.44％

56.81％

60.79％

64.22％

64.57％

60.69％

压力相对于无压力

84.37％

84.57％

88.13％

88.79％

89.83％

88.67％

表4：对德语数据库的情绪检测的MFCC特征尺寸

表5：对德语数据库的情绪检测的不同特征

	MFCC(24)	PMVDR(24)
			所有情绪	73.36	73.80
压力相对于无压力	92.68	93.16

为了结合更多关于所用特征中情绪的信息，需要增大特征的维度以包括更多相关特性。可以使用更高阶的MFCC或PMVDR并包括更多语境(或相邻)特征帧以覆盖可能与情绪相关联的语音动力学来实现这一目的。不过，增加特征维度可能未必改进检测率。原因在于，增大的特征维度可能导致模型大小增大，从而加强模型大小和有限量的训练数据之间的冲突。尽管增大特征大小可以结合更多有用信息，但增大特征大小也可能引入一些不相干的特征或噪声。这可能使得建模过程更加难以收敛到输入特征的相关特性。为了解决这个问题，使用线性判别分析(LDA)减小特征维度，以保留来自高或极高维度特征的最相关信息。或者，使用能够减少维数的其他形式的分析，包括特征提取和特征选择技术。表6中的简单测试表明，LDA有助于减小特征维度和模型大小，并最终改善情绪检测率。

表6：对LDA在德语数据库上检测情绪的简单测试

	12维MFCC	6维LDA
			所有情绪	58.41	58.39
压力相对于无压力	84.72	85.30

标准LDA的输出维度可能受到所涉及类别总数的限制(对于标准LDA，实际最大输出特征数量为J-1，如果有J个类别)。对于压力相对于无压力检测，标准LDA仅能够有一个输出特征，这可能不够好。为了解决这个问题，提出了子类LDA。对于每个类别，可以利用例如更早所述的例如K-平均值算法获得不同子类(或群)。由于这基本是无人监督的方法，所以每个类别根据需要可以有很多子类。一旦针对每个类别产生了子类，每个类别对之间的子类对的总数可能非常大，导致LDA输出的数目几乎无限制。利用这种方法，在德语数据库上进行试验。表7示出了比较结果，证实LDA改进了情绪检测性能。

表7：德语数据库上子类LDA情绪检测结果

24-维MFCC：获得的最好MFCC结果。

34-维的LDA：每个类别具有5个子类，并且

在LDA中使用了7个语境帧。

	24维MFCC	34维LDA
			所有情绪	73.36	75.62
压力相对于无压力	92.68	94.82

德语数据库是执行的情绪数据。Infoture LENA-Emotion-Data-1以不突出的方式来自真实自然家庭环境。为了在Infoture上测试情绪检测的创意和方法，可能对LENA-emotion-Data-1感兴趣，因为InfotureLENA-emotion-Data-1是在自然语言环境中收集的。一开始，在LENA-Emotion-Data-1上应用利用德语数据库训练的模型，进行压力/无压力检测。检测率为51％，类似于随机猜测。这大概是由于LENA-Emotion-Data-1和从德语数据库训练的模型之间的失配造成的。为了解决这个问题，直接在LENA数据上测试在LENA-Emotion-Data-1上训练的模型。不过，为了处理有限量的LENA数据，使用遗漏一个交叉确认方法，以利用可用的已标记LENA-Emotion-Data-1，同时在其测试模型的训练中不涉及单次测试记录族系。这样给出了表8所示的结果，证实当前的方法可用于像LENA-Emotion-Data-1那样的真实自然家庭环境，以进行压力检测。

表8：LENA-Emotion-Data-1的遗漏一个交叉确认

使用的特征	MFC-12	MFC-40
			压力检测率	68.6％	70.5％

儿童响应和交互的情绪指标在获得对儿童语言发展的更大解析以及如何进一步改善儿童的自然语言环境中可能是宝贵的。由于它们具有非侵入属性，对本系统和方法进行很好的定位以执行这样的分析。

分析技术的调节

这里提到了若干分析技术以解决发育年龄、孤独症、情绪等的检测。尽管表述的分析技术被认为是确定这种特性的最好技术，但它们至少部分基于该分析所依据的所收集数据的质量和量。因此，可以互换在分析的各阶段利用的单项技术。例如，根据其性能特性，可以互换LDA和逻辑回归分析，像结合针对受检者的多条记录以及选择所用记录特征(透明特征之于基于音素的特征)的方法那样。

在上述实施例的所有情况下，可以通过将可用的任何物理或电子介质转换成另一种状态或东西，通过输出结果，来实现所述数据的任何变换的结果。这样的输出包括，但不限于产生硬拷贝(纸张)、声音、可视显示(如在监视器、投影仪等的情况下)、触感显示、电子介质中的变化等。提供本发明实施例的以上描述仅仅出于例示和描述的目的，并非意在穷举或将本发明限制到所公开的精确形式。对于本领域的技术人员而言很多修改和调整是显而易见的而且不脱离本发明的精神和范围。

Claims

1.一种用于检测自然语言环境中关键儿童的孤独症的系统，所述系统包括：

麦克风，配置成捕获关键儿童发声以产生多个音频信号；

录音机，配置成存储所述多个音频信号；

利用软件编程控制以用于以下专门目的的计算机：处理所述麦克风和录音机组合捕获的记录，所述计算机被编程控制以执行包括如下步骤的方法：

(a)使用所述利用软件编程控制以用于所述专门目的的计算机将所述麦克风和录音机组合捕获的音频信号分割成多个记录片段；

(b)将对应于所述关键儿童发声的所述多个记录片段中的每个记录片段分类成关键儿童记录；

(c)提取所述关键儿童记录的基于语音的特征；

(d)将所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征进行比较；以及

(e)基于所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征的比较确定孤独症的可能性；以及

显示器，配置成显示所确定的孤独症的可能性。

2.根据权利要求1所述的系统，其中所述基于语音的特征为基于音素的特征。

3.根据权利要求2所述的系统，其中所述基于音素的特征包括双音素类别。

4.根据权利要求2所述的系统，其中所述基于音素的特征包括由多于两个音素构成的音素类别。

5.根据权利要求1所述的系统，其中所述基于语音的特征为声学参数。

6.根据权利要求5所述的系统，其中所述声学参数包括规范音节，所述声学参数被分成四个类别，包括：节奏/音节类别、低频谱倾斜和高间距控制类别、宽共振峰带宽和低间距控制类别、以及讲话中岛的持续时间类别。

7.由权利要求1的系统中的计算机执行的方法，其中将所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征的比较包括逻辑回归分析。

8.由权利要求1的系统中的计算机执行的方法，其中将所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征的比较包括线性判别分析。

9.由权利要求1的系统中的计算机执行的方法，还包括：

(f)提取所述关键儿童记录的声学参数；

(g)将所述关键儿童记录的声学参数与已知的针对儿童的声学参数进行比较；并且

其中确定孤独症的可能性也基于所述关键儿童记录的声学参数与已知的针对儿童的声学参数的比较。

10.一种利用麦克风、录音机和计算机检测自然语言环境中关键儿童的孤独症的方法，所述计算机利用软件编程控制以用于以下专门目的：处理由所述麦克风和录音机组合捕获的记录，所述计算机被编程控制以执行包括如下步骤的方法：

(b)将对应于关键儿童发声的所述多个记录片段中的每个记录片段分类成关键儿童记录；

(c)提取所述关键儿童记录的基于语音的特征；

(d)将所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征比较；以及

(f)在人可感知的输出设备上显示孤独症的可能性。

11.根据权利要求10所述的方法，其中所述基于语音的特征为基于音素的特征。

12.根据权利要求10所述的方法，其中所述基于语音的特征为声学参数。

13.根据权利要求11所述的方法，还包括：

(g)提取所述关键儿童记录的声学参数；

(h)将所述关键儿童记录的声学参数与已知的针对儿童的声学参数进行比较；并且

其中基于所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征的比较而确定孤独症的可能性也是基于所述关键儿童记录的声学参数与已知的针对儿童的声学参数的比较。

14.根据权利要求10所述的方法，其中将所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征比较包括逻辑回归分析。

15.根据权利要求10所述的方法，其中将所述关键儿童记录的基于语音的特征与已知的针对儿童的基于语音的特征比较包括线性判别分析。