CN112750465B

CN112750465B - 一种云端语言能力评测系统及可穿戴录音终端

Info

Publication number: CN112750465B
Application number: CN202011601296.4A
Authority: CN
Inventors: 李明; 张琳; 林庆健
Original assignee: Duke Kunshan University
Current assignee: Duke Kunshan University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2024-04-30
Anticipated expiration: 2040-12-29
Also published as: CN112750465A

Abstract

本发明公开了一种云端语言能力评测系统，属于语言评测领域，云端语言能力评测系统包括设置有麦克风阵列的可穿戴录音终端、智能语音处理模块以及语言能力评估模块，所述麦克风阵列生成音频向量文件，所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理，再利用其各个子模块相应的语音分析算法从经过前端信号优化处理的音频向量文件中提取多维度识别数据，语言能力评估模块对所述多维度识别数据进行分析及统计，并输出目标说话人的综合评测结果进行可视化展示。本发明提供的云端语言能力评测系统，其基于麦克风阵列进行定位及精准拾音，极大增强评测系统智能化、客观化以及自动化能力，有效突破了现有国内外语言评测系统的技术屏障。

Description

一种云端语言能力评测系统及可穿戴录音终端

技术领域

本发明涉及语言评测领域，尤其涉及一种云端语言能力评测系统以及用于上述评测系统的可穿戴录音终端。

背景技术

依据儿童发展相关研究表明，儿童早期的语言能力与其成年后的学习和学业水平正相关，因为对儿童早期的语言能力进行评测对于儿童后期发展至关重要。为了对儿童语言发展进行有效的研究，目前我国常常采用在特定场景下进行陪同交流，并在儿童的成长阶段记录多个样本的方式实施。陪同交流的随机性较大，而且部分儿童对成年人具备畏惧心理，评测数据客观性有待考证，而且采用人工的方式在儿童的成长阶段记录多个样本的难度极大，费时费力。

为了有效解决上述问题，国外同行通过对于可穿戴设备的研究，提供了一种包含录音器的可穿戴设备，例如：美国产品LENA，其被广泛的应用于美国的儿童语言发育迟缓及孤独症等儿童发育障碍的诊断和治疗。美国产品LENA的主要作用是录制儿童的音频，类似很多国内的具有录音功能的智能手表等产品。这类型包含录音器的可穿戴设备通常仅设置有单个麦克风，其录制的音频很难对儿童语音能力进行综合全面有效的评估。例如：设置单个麦克风无法定位被测儿童及与其伙伴的位置关系，难以确定说话人身份。又如单个麦克风采集的音频受到环境的影响较大，很难准确分析被测儿童及与其伙伴的对话场景、对话回合、真实语义、也无法满足对多个语言能力指标的全面覆盖。

从能力评测系统来看，国内缺乏能够针对汉语采集多个语言指标的综合性评测系统。现有阶段语言学家对语言能力指标的分析研究的过程中，常常采用语料库研究方法进行研究，这种研究方法往往需要大量的人工标注，这种导致系统而全面的分析工作难以推动，由于解决这个问题，研究者们往往采用聚焦于一个或者几个语言现象的方式进行研究，但仅仅对语音能力某几个指标进行分析是难以综合反映儿童的语音能力，其评测结果的参考性往往较低。国际上，为了解决上述问题，研究开了“国际儿童口语语料库CHILDES系统”这一类的系统对儿童的语言综合能力进行评估，“国际儿童口语语料库CHILDES系统”带有的人工转录分析编码系统(CHAT)和语料分析程序(CKAN)可以对语言样本进行分析。然而，这类型系统在对语言样本分析的过程中需要经历录音、转写、分析等流程，耗时巨大而且对研究者专业技能要求苛刻，除此之外，由于是国外开发，类似“国际儿童口语语料库CHILDES系统”这样的系统往往更加适用于英文语境，国内研究者很难利用其进行汉语语言能力分析工作。

中国专利文献公开号CN110503941A公开了一种语言能力评测方法、装置、系统、计算机设备及存储介质，其中方法包括：采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，第一音频文件和第二音频文件为完全相同的音频文件；按照声音数据的语音顺序将第一音频文件转换成对应单词顺序的语音文本；结合语音文本对第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；基于每个单词的发音准确率计算声音数据的发音准确率。其仅仅是对于发音准确率等个别指标进行计算，并不适用于专业的语言能力评测与研究。

发明内容

为了克服现有技术的缺陷，本发明所要解决的技术问题在于提出一种云端语言能力评测系统，其基于麦克风阵列进行定位及精准拾音，为儿童语言能力的综合评测数据来源全面性及准确性提供有效保证，通过麦克风阵列及一系列信号优化及具备学习能力的语音分析算法，极大增强评测系统智能化、客观化以及自动化，有效突破了现有国内外语言评测系统的技术屏障。

为达此目的，本发明采用以下技术方案：

本发明提供的一种云端语言能力评测系统，包括设置有麦克风阵列的可穿戴录音终端、智能语音处理模块以及语言能力评估模块，可穿戴录音终端用于通过所述麦克风阵列采集多通道音频语音信号，并上传至所述智能语音处理模块，生成音频向量文件，智能语音处理模块用于对音频向量文件进行前端信号优化处理，并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据，语言能力评估模块用于从所述智能语音处理模块抽取所述多维度识别数据，并对所述多维度识别数据进行分析及统计，所述麦克风阵列采集所述多通道音频语音信号后，传输至所述智能语音处理模块生成音频向量文件，所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理，再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据，语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据，并对一个或者多个所述多维度识别数据进行分析及统计，并输出目标说话人语言能力的综合评测结果及等级分类。

本发明优选地技术方案在于，所述智能语音处理模块包括前端数据处理模块以及智能识别算法模块，所述前端数据处理模块用于对所述音频向量文件进行前端信号优化处理，所述智能识别算法模块用于依据通过多种语音分析算法对所述音频向量文件进行计算及分析，并生成若干多维度识别数据。

本发明优选地技术方案在于，所述前端数据处理模块包括端点检测单元，所述端点检测单元用于从音频向量文件中的各段语音片段中检测出包含人声的语音片段且去除静音片段；所述端点检测单元采基于卷积网络-长短时记忆网络的端到端框架模型对于音频向量文件进行语音端点检测，在端到端框架模型中位于前端的卷积网络ResNet用于从音频向量文件的各段语音片段中抽取与语音活动检测任务相关的特征序列，并确定各段语音片段的端点，长短时记忆网络LSTM用于进一步捕获各段语音片段的特征序列中的时间依赖性；所述端点检测单元将二分类交叉熵作为损失函数对端到端框架模型进行训练，通过训练检测出包含人声的语音段的起始时间和结束时间。

本发明优选地技术方案在于，所述智能识别算法模块包括声纹识别单元，所述声纹识别单元用于识别不同身份说话人的语音片段声纹特性并标记，所述声纹识别单元通过利用ResNet算法模型提取音频向量文件中的各语音片段的说话人嵌入信息且对所述说话人嵌入信息进行声纹特征识别，再依据不同被测试者的声纹特征匹配相应的身份标记。

本发明优选地技术方案在于，所述智能识别算法模块包括说话人日志单元，所述说话人日志单元用于对所有目标说话人及相关说话人形成的各段音频向量文件及各段音频向量文件对应的起止发言时间按说话人身份属性归档。

本发明优选地技术方案在于，所述说话人日志单元通过模块化说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档。

在所述模块化说话人日志模型中，所述说话人日志单元中的音频切割器将音频向量文件中的各段语音片段中的长语音片段切割成多段短语音片段，所述说话人日志单元中的语音识别器将多段短语音片段中记载的语音信息转化为文本信息，所述说话人日志单元利用第一类提取工具将多段文本信息转化文本矩阵，所述说话人日志单元的声纹识别器提取多段短语音片段的声纹特征，所述声纹识别器将利用第二类提取工具将多段声纹特征转化为声纹矩阵，将所述文本矩阵及所述声纹矩阵作为相似度评估算法的输入，所述说话人日志单元利用所述相似度评估算法对所述文本矩阵及所述声纹矩阵涉及的多段短语音片段的声纹相似度进行计算得到若干相识度矩阵，再若干相识度矩阵输入至改进型谱聚类算法进行计算并将声纹特征相似度的短语音片段归为同一类，得到聚类数及各段短语音片段实现按说话人身份属性归档结果。

本发明优选地技术方案在于，所述相似度评估算法配置为基于Attention的向量-序列打分模型算法、基于Attention的序列-序列打分模型算法中的一种或者多种；所述改进型谱聚类算法通过统计归一化拉普拉斯矩阵小于预设阈值的特征值数量来确定所述音频向量文件的聚类数。

本发明优选地技术方案在于，所述说话人日志单元通过端到端说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档，在所述端到端说话人日志模型中，所述说话人日志单元的声纹识别器采用声纹预训练方法得到ResNet算法模型的特征提取器，所述端到端说话人日志模型的输入是所述音频向量文件的Fbank特征谱，并通过所述ResNet算法模型提取所述音频向量文件的声纹特征，并形成所述ResNet算法模型的ResNet输出特征图，再将所述ResNet输出特征图传送至所述端到端说话人日志模型的池化层，并通过所述池化层降低所述ResNet输出特征图的维度，再将降低维度的所述ResNet输出特征图传送至包含Attention机制的编码层，所述编码层对于所述ResNet输出特征图的声纹矩阵序列进行时序分析后，再经过全连接层得到说话人日志的聚类数及各段短语音片段实现按说话人身份属性归档结果。其中，所述端到端说话人日志模型的损失函数采用最优映射损失函数，所述最优映射损失函数可用于计算预测值和目标值之间的差距。

本发明优选地技术方案在于，所述智能识别算法模块还包括语法分析单元，所述语法分析单元用于对音频向量文件中的各段语音片段对应的文本信息进行词性分类、语法结构分类、以及句型分类；所述语法分析单元包括词性分类器、语法结构分类器以及句型分类器；所述词性分类器、所述语法结构分类器以及所述句型分类器分别用于对语音识别单元产生的文本信息进行词性分类、语法结构分类、以及句型分类。

本发明优选地技术方案在于，所述智能识别算法模块还包括声学场景和事件识别单元，所述声学场景和事件识别单元用于对音频向量文件中各个语音片段的背景特征进行分析及识别，以获取各个语音片段的声学场景及声学事件。

本发明优选地技术方案在于，所述智能识别算法模块还包括语义理解单元，所述语义理解单元用于分析及确定音频向量文件中的各段语音片段涉及的对话过程中目标说话人与相关说话人语音信息的真实语义。

本发明优选地技术方案在于，所述智能识别算法模块还包括发音属性识别单元；所述发音属性识别单元用于对音频向量文件中的各段语音片段的发音位置及发音方式进行识别，所述语音识别单元及所述发音属性识别单元采用端到端ResNet算法模型对语音识别模型和发音属性模型进行训练，同时利用儿童数据库进行迁移学习。

本发明优选地技术方案在于，所述智能识别算法模块还包括行为识别单元，所述行为识别单元用于对目标说话人进行运动行为识别。

本发明优选地技术方案在于，所述云端语言能力评估模块包括语言表达评估单元，所述语言表达评估单元用于从词汇能力、语法能力以及语用能力对目标说话人的语言表达能力进行评测，所述词汇能力评测指标为：由词性丰富度、词汇多样性、词汇总数构成的三级指标，由形次比TTR构成的二级指标，以及由词汇广度D值构成的一级指标；所述语法能力评测指标为：由语法结构丰富度、句型丰富度、总句数构成的三级指标，由平均语句长度MLUw、词素的MLUm构成的二级指标，以及由汉语IPSyn指标构成的一级指标；所述语用能力评测指标为：主要由对话轮数、句(词)数/秒、高频词汇、自定义检索构成的三级指标。

本发明优选地技术方案在于，所述云端语言能力评估模块还包括语音/构词评估单元、语义理解评估单元、情绪表达评估单元、以及反应能力评估单元，所述语音/构词评估单元用于对目标说话人的语音/构音能力进行评测，所述语义理解评估单元用于对目标说话人的语义理解能力进行评测，所述情绪表达评估单元用于对目标说话人的情绪表达能力进行评测，所述反应能力评估单元用于对目标说话人的对话反应能力进行评测。

本发明优选地技术方案在于，还包括智能终端以及服务器端，所述智能语音处理模块及所述语言能力评估模块设置于所述服务器端上，所述可穿戴录音终端将采集的多通道音频语音信号上传至与之网络连接的所述智能终端，所述智能终端以转发送方式将多通道音频语音信号发送至所述服务器端，通过所述服务器端上的所述智能语音处理模块及所述语言能力评估模块对所述多通道音频语音信号进行前端信号优化处理、提取多维度识别数据及语言能力评测后生成目标说话人语言能力的综合评测结果及等级分类，将综合评测结果及等级分类相应的数据输送至所述智能终端可视化展示。

本发明优选地技术方案在于，将所述综合评测结果及所述等级分类输入到智能语音处理模块的深度学习神经网络模型中进行二次训练，再输出优化的综合评测结果及等级分类。

本发明还提供的一种用于上述的云端语言能力评测系统的可穿戴录音终端，包括：控制主板、麦克风阵列以及存储器，麦克风阵列及存储器均与控制主板电连接，麦克风阵列采集多通道音频语音信号，并传送至控制主板，控制主板将多通道音频语音信号存储至存储器内。

本发明的有益效果为：

本发明提供的云端语言能力评测系统，设置了麦克风阵列的可穿戴录音终端，麦克风阵列能够进行声源定位及更全面准确的拾音，为了云端语言能力评测系统的提取全面地多维度识别数据奠定基础。设置了智能语音处理模块及语言能力评估模块，尤其是智能语音处理模块不仅能够对音频向量文件进行前端信号优化处理，而且其各个子模块包含若干具备学习功能的语音分析算法，进一步地保证了多维度识别数据采集的准确性及全面性，通过语言能力评估模块能够完成多维度识别数据的分析及统计，从而从语言表达、语音/构词、语义理解、情绪表达、以及反应能力等多个方面全面综合的评定目标说话人语言能力及评定等级。此外，整个评测过程具备自动化、客观化、精准化及可视化等特点，从根本上解决了现有系统耗时长及研究者专业性要求高等问题。

附图说明

图1是本发明具体实施方式中提供的云端语言能力评测系统的功能框图；

图2是本发明具体实施方式中提供的可穿戴录音终端的功能框图；

图3是本发明具体实施方式中提供的智能语音处理模块的功能框图。

图中：

1、可穿戴录音终端；11、控制主板；12、麦克风阵列；13、存储器；14、载体；15、加速度传感器；16、重力传感器；17、音频接收器；18、联网模块；4、智能终端；5、服务器端；2、智能语音处理模块；3、语言能力评估模块；21、前端数据处理模块；22、智能识别算法模块；211、预处理单元；212、去混响单元；213、声源定位单元；214、波束形成单元；215、特征提取单元；216、语音增强单元；217、端点检测单元；220、声学场景和事件识别单元；221、说话人日志单元；222、语音识别单元；223、语法分析单元；224、发音属性识别单元；225、语义理解单元；226、年龄识别单元；227、行为识别单元；228、语言场景识别单元；229、韵律分析单元；2210、声学分析单元；2211、语音情感识别单元；2212、声纹识别单元；2213、检索单元；2231、词性分类器；2232、语法结构分类器；2233、句型分类器；31、语言表达评估单元；32、语音/构词评估单元；33、语义理解评估单元；34、情绪表达评估单元；35、反应能力评估单元；36、综合语言能力评估单元。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

如图1及图2所述，实施例一中提供的基于麦克风阵列12的可穿戴录音终端1，包括控制主板11、麦克风阵列12以及存储器13，麦克风阵列12及存储器13均与控制主板11电连接。麦克风阵列12采集多通道音频语音信号，并传送至控制主板11，控制主板11将多通道音频语音信号存储至存储器13，实现本地存储。麦克风阵列12中包含多个麦克风，通过对麦克风阵列12的麦克风类型及阵列尺寸进行合理选型，使得麦克风阵列12具有体积小、功耗低、无辐射、且携带过程中无异物感等特点。进一步地，可穿戴录音终端1还包括载体14，控制主板11、麦克风阵列12以及存储器13均固定在载体14的内部和/或载体14的外表面。载体14优选配置为可穿戴设备中的一种，例如：设备配置为腕表或手环等，或者载体14优选配置为能够嵌入至衣物、鞋帽的嵌入件，或者贴设于衣物上的臂章或图标等位置的贴设件。载体14的选择通常要保证更自然和准确的采集被测试者的多通道音频语音信号且不影响被测试者的正常活动，被测试者通常指可穿戴录音终端1的佩戴者及具有语音障碍的照看对象。进一步地，可穿戴录音终端1还包括加速度传感器15，加速度传感器15可检测被测试者的加速度信号，从而通过加速度信号获取被测试者的运动状态，进一步识别被测试者的所处的环境的场景。通过被测试者的运动状态了解被测试者所处的环境，实际测试中，优选被测试者处于相对自由活动且活动量适中的环境中时进行被测试者的语言能力评估，例如：临床、学校、居家等日常生活场景，从而提高多通道音频语音信号在不通话场景下语音采集数据的自然性、准确性。优选地，可穿戴录音终端1还包括重力传感器16或者陀螺仪，通过重力传感器16或者陀螺仪可以进一步检测被测试者的体态，如：站立或者平躺，进一步增强可穿戴录音终端1对环境的识别能力，从而提升麦克风阵列12语音采集数据的自然性和准确性。

实施例二

实施例二中提供的云端语言能力评测系统，包括上述的基于麦克风阵列12的可穿戴录音终端1、智能终端4以及服务器端5，可穿戴录音终端1通过与控制主板11相连的联网模块18将采集多通道音频语音信号上传至其临近的智能终端4，智能终端4已转发送的方式将多通道音频语音信号发送至服务器端5，通过服务器端5的智能语音处理模块2以及语言能力评估模块3进行前端信号优化处理及语言能力评测后，将综合评测结果对应的数据输送至智能终端4，最终通过智能终端4的显示设备对综合评测结果进行可视化展示。优选地，智能终端4配置为手机、平板电脑、笔记本以及台式电脑等终端设备中的一种或者多种。联网模块18优选配置为USB、WIFI、蓝牙以及其他短距离信号传输方式。服务器端5包括云服务器或者物理服务器，用于装载云端语言能力评测系统的主程序，尤其是智能语音处理模块2以及语言能力评估模块3的相关算法。

服务器端5包括智能语音处理模块2以及语言能力评估模块3，将可穿戴录音终端1采集的多通道音频语音信号组成的音频向量文件通过智能终端4上传至智能语音处理模块2，智能语音处理模块2先对音频向量文件进行前端信号优化处理，其通过智能语音处理模块2的各个子单元多种语音分析算法处理后形成被测试者的多维度识别数据，语言能力评估模块3的各个子单元抽取多维度识别数据中的一个或者多个数据进行统计及计算，并形成被测试者的多维度语言能力评测结果及分类等级，并将综合评测结果及分类等级通过云端语言能力评测系统的显示终端可视化输出，以便直观的观察被测试者的语言能力。

智能语音处理模块2用于分析可穿戴录音终端1采集的多通道音频语音信号组成的音频向量文件，从音频向量文件中提取出被测试者的应答时间、语音内容、语法结构、儿童年龄、语音事件场景、语言场景、语音时长、句子长度、句型、词语性质、多轮对话条数、词汇量、发音属性、语音特性、情感等一个或者多个多维度识别数据，并将多维度识别数据作为语言能力评估模块3的输入数据对被测试者的综合语言能力进行评测。智能语音处理模块2生成多维度识别数据的过程中会充分利用麦克风阵列12的多通道采集、能够进行声源定位以及固有噪声抑制能力强等特点及优势，能够对多个通道采集多通道音频语音信号构成的音频向量文件进行有效利用及融合。

智能语音处理模块2包括前端数据处理模块21以及智能识别算法模块22，可穿戴录音终端1的音频接收器17接收到多个麦克风采集的多通道音频语音信号，并将多通道音频语音信号上传至前端数据处理模块21生成音频向量文件，前端数据处理模块21对音频向量文件进行前端信号优化处理，前端信号优化处理主要目的是提升音频向量文件质量，保证智能识别算法模块22接收到的音频向量文件数据更加的准确且清晰并消除音频向量文件中的噪音、异常信号及干扰信号等。经过前端信号优化处理后的音频向量文件再传送至智能识别算法模块22通过多种语音分析算法生成上述多维度识别数据，以便后续语言能力评估模块3进行调取，从而获取被测试者的多维度语言能力评测结果及分类等级。

前端数据处理模块21包括预处理单元211、去混响单元212、声源定位单元213、波束形成单元214、特征提取单元215、语音增强单元216、以及端点检测单元217，通过上述各种信号优化子单元依次对音频向量文件进行处理，使得音频向量文件中包含信号数据得到优化，并剔除噪音、异常及干扰信号。

被测试者包括目标说话人及相关说话人，可穿戴录音终端1通常由目标说话人进行佩戴，目标说话人通常也是云端语言能力评测系统的评测对象，相关说话人通常指处于可穿戴录音终端1的检测环境且与目标说话人进行交流对话的相关人，通过麦克风阵列12可以准确识别目标说话人及相关说话人。

预处理单元211，用于对异常的音频向量文件进行识别及删减，异常的音频向量文件是指录制过程中发生错误的音频、由于没有正确使用可穿戴录音终端1而导致音频向量文件中包含有空白音频或者时长极短的音频。麦克风阵列12采集多通道音频语音信号后传输至预处理单元211进行预处理，预处理单元211将发生错误的音频、空白音频或者时长极短的音频等从异常音频从音频向量文件中剥离及删减，通过剥离及删减异常的音频向量文件会使得前端数据处理模块21整体的额外计算量会被有效的剔除，从而降低了前端数据处理模块21的整体音频向量文件的处理量，提升后续各个信号优化子单元的处理效率。

去混响单元212，用于去除音频向量文件的背景混响。去混响单元212获取到预处理单元211提供的音频向量文件后，对音频向量文件进行背景混响消除处理，并将消除后的音频向量文件传送至声源定位单元213。优选地，去混响单元212采用与麦克风阵列12相适配的多通道线性预测自适应去混响算法去除音频向量文件的背景混响，进一步提升音频向量文件的质量。

声源定位单元213，用于依据音频向量文件获取被测试者的相对位置信息。声源定位单元213获取去混响单元212处理后的音频向量文件后，进一步获取多个被测试者的相对位置信息。具体过程如下：多个被测试者通常包含一个目标说话人及一个或多个相关说话人，声源定位单元213能够兼顾可穿戴录音终端1小型化的特点，声源定位单元213利用去混响单元212提供的音频向量文件中记载多通道音频语音信号的声场信息通过声源定位深度学习模型进行无监督学习，并结合一阶谐波声场对被测试者的说话位置进行分析，并在音频向量文件中的每段语音片段中标记相关说话人与目标说话人的相对位置信息。声源定位单元213可配合波束形成单元214获取与目标说话人具有相关性的音频向量文件，通过说话位置分析结果进一步地排除无相关性语音的干扰。

波束形成单元214(beamforming unit)，用于从音频向量文件中的各段语音片段提取对于目标说话人具有相关性或者针对性的语音片段，再组成与目标说话人相关的音频向量文件，波束形成单元214获取声源定位单元213处理后的音频向量文件，通过计算及分类得到与目标说话人相关的音频向量文件。优选地，本实施例提供的波束形成单元214采用广义旁瓣相消算法从声源定位单元213处理后的音频向量文件的各段语音片段筛选出与目标说话人高相关性或者高针对性的语音片段，并构成与目标说话人高度相关的音频向量文件。通过波束形成单元214能有效排除目标说话人及相关说话人以外的杂音干扰，结合声源定位单元213会使得云端语言能力评测系统能够更加准确分辨目标说话人及相关说话人。例如，音频向量文件中可能包含目标说话人及相关说话人以外的声音，如过路人的声音，又或者动物的鸣叫声的，通过声源定位单元213可以确定相关说话人的位置，而辅助波束形成单元214剔除无关的语音片段，从而达到准确分辨目标说话人及相关说话人对话内容的目的。

特征提取单元215，用于提取与目标说话人对应的音频向量文件的音频基本特征指标，特征提取单元215获取由波束形成单元214生成的音频向量文件，进一步分析音频向量文件音频基本特征指标后，将音频向量文件传送至语音增强单元216。音频基本特征指标包括基音频率(Fundamental Frequency)、共振峰频率(Formant Frequency)、共振峰带宽(Formant Bandwidth)、频谱斜率(spectral tilt)、梅尔倒谱系数(Mel-frequencyCepstral coefficient)、常数Q变换(Constant Q Transform,CQT)频谱、短时傅里叶变换频谱(Short Time Fourier Transform,STFT)、修正群延迟(Modified Group Delay,MGD)频谱等，音频基本特征指标可以通过音频向量文件各段语音片段的波形等信息分析得到。

语音增强单元216，用于抑制音频向量文件的噪声部分，得到包含干净原音的音频向量文件，语音增强单元216获取由特征提取单元215生成的音频向量文件，并进一步对音频向量文件的噪声部分进行消除处理，然后将音频向量文件传送至端点检测单元217。优选地，语音增强单元216采用生成对抗网络算法对音频向量文件中的各段语音片段的噪声部分进行消除，消除各段语音片段的噪声部分后获得相对干净的包含原始语音的音频向量文件。

端点检测单元217，用于从音频向量文件中的各段语音片段中检测出包含人声的语音片段且去除静音片段，端点检测单元217获取语音增强单元216生成的音频向量文件后，会进一步对音频向量文件进行背景混响消除处理，并检测出包含人声的语音片段且去除静音片段，以完成对音频向量文件的前端优化处理，并将音频向量文件传送至智能识别算法模块22进一步获取多维度识别数据以供语言能力评估模块3调取评测。优选地，端点检测单元217采用改进的基于卷积网络-长短时记忆网络(ResNet-LSTM)的端到端框架模型对于音频向量文件进行语音端点检测，将音频向量文件的Fbank特征构成的数据集作为整个端到端框架模型的输入特征，并对卷积网络-长短时记忆网络(ResNet-LSTM)进行训练，从而达到自动识别音频向量文件中包含人声的语音片段的目的，相应的自动去除静音片段。其中，端到端框架模型中位于前端的卷积网络ResNet用于从音频向量文件的各段语音片段中抽取与某次语音活动检测任务相关的特征序列，从而确定各段语音片段的端点，长短时记忆网络LSTM则进一步捕获各段语音片段的特征序列中的时间依赖性，以使得各段语音片段与其发生的时间相对应。将端点检测单元217的二分类交叉熵(Binary Cross Entropy,BCE)作为损失函数对基于卷积网络-长短时记忆网络(ResNet-LSTM)的端到端框架模型进行学习训练，能够不断提升端点检测单元217的检测准确性，进而更加准确的检测出音频向量文件中包含说话人声音的各段语音片段的起始时间和结束时间。

智能识别算法模块22包括声学场景和事件识别单元220、语言场景识别单元228、说话人日志单元221、声纹识别单元2212、语音识别单元222、语法分析单元223、发音属性识别单元224、年龄识别单元226、语音情感识别单元2211、语义理解单元225、韵律分析单元229、声学分析单元2210、行为识别单元227、检索单元2213等，以便获得一个或多个多维度识别数据。智能识别算法模块22通过上述识别算法子单元的多种语音分析算法处理后形成被测试者的多维度识别数据，并传送至语言能力评估模块3对说话者语言能力进行综合评测。

声学场景和事件识别单元220，用于对音频向量文件中各个语音片段的背景特征进行分析及识别，以获取音频向量文件中各个语音片段的声学场景及声学事件，声学场景和事件识别单元220获取端点检测单元217或者前端数据处理模块21的其他子模块传送的音频向量文件，对音频向量文件中各个语音片段的背景特征进行分析及识别后，再传送至语音识别单元222及说话人日志单元221。声学场景(audio scenes)指对话发生的地点，包括家庭室内背景、医院背景以及教室背景等，声学事件(audio event)包括对话事件、歌唱音乐事件、弹奏乐器事件、游戏事件、玩具敲打事件以及突发事件等。语言场景识别单元228用于对音频向量文件中各个语音片段的场景特征进行分类，识别音频向量文件中各个语音片段的语言场景。语言场景识别单元228其主要识别目标说话人的语言场景，语言场景包括日常对话、其他对话、故事讲述、故事重述、游戏互动、医院PEP-3测试、医院场景测试等，语言场景识别单元228获取端点检测单元217或者前端数据处理模块21的其他子模块传送的音频向量文件，对音频向量文件中各个语音片段的场景特征进行分类后，再传送至语音识别单元222及说话人日志单元221。声学场景和事件识别单元220及语言场景识别单元228均是采用基于深度神经网络的学习模型提取包含背景特征、场景特征作为学习模型的嵌入层信息对音频向量文件进行声学场景识别以及语言场景识别，从而获取各个语音片段所处的声学场景及语言场景。

说话人日志单元221，用于对音频向量文件中的不同被测试者对应的各段语音片段及各段语音片段对应的起止发言时间按说话人身份属性归档，不同被测试者至少包含一个目标说话人及一个或多个相关说话人，说话人日志单元221获取经过声学场景和事件识别单元220及语言场景识别单元228处理后的音频向量文件，并进一步对各段语音片段按说话人身份属性归档，完成归档后，将已归档音频向量文件传送至语音识别单元222、声纹识别单元2212以及反应能力评估单元35。为了提升说话人日志单元221归档的准确性，优选地，在说话人日志单元221中运行两种算法模型，分别为传统型模块化说话人日志模型及改进型端到端说话人日志模型，相较而言，改进型端到端说话人日志模型的身份属性归档能力更优，但二者又互有优势：传统型模块化说话人日志性能更为稳定，但因其包含多个相互关联的子模块，训练流程复杂且无法解决混叠语音的检测问题；端到端说话人日志将所有模块合为一体，可以直接对系统整体进行统一优化，但其作为聚类问题，需要提前设置说话人数量，限制了端到端系统的应用场景。因此，说话人日志单元221也可融合模块化说话人日志模型和端到端说话人日志模型的结果进行归档计算，使得二者优势互补。

进一步地，在模块化说话人日志模型中，说话人日志单元221中的音频切割器将音频向量文件中的各段语音片段中的长语音片段切割成多段短语音片段，音频向量文件中的本身的长度很短的语音片段则直接作为短语音片段，则不再进行切割，各段短语音片段形成短语音片段集合。说话人日志单元221中的语音识别器将短语音片段集合中的每段短语音片段中记载的语音信息转化为文本信息，并且说话人日志单元211利用第一类提取工具使得各段短语音片段对应的多段文本信息构成文本矩阵，相对应的说话人日志单元221通过其声纹识别器提取短语音片段集合中的基于ResNet算法模型提取短语音片段集合中的每段短语音片段对应的声纹特征，并且说话人日志单元211利用第二类提取工具使得多个声纹特征构成为声纹矩阵。将文本矩阵及声纹矩阵作为相似度评估算法的输入，说话人日志单元211利用相似度评估算法对文本矩阵及声纹矩阵涉及的多段短语音片段的声纹相似度进行计算得到若干相识度矩阵，再若干相识度矩阵输入至改进型谱聚类算法进行计算并将声纹特征相似度的短语音片段归为同一类，并通过统计归一化拉普拉斯矩阵小于预设阈值的特征值数量来确定音频向量文件聚类数，也即使得说话人日志单元221具备实时动态测算被测试者数目的功能，进而提升说话人日志单元221的自动化程度及智能化水平。

优选地，相似度评估算法配置为基于Attention的向量-序列打分模型算法和基于Attention的序列-序列打分模型算法。说话人日志单元221在运行相似度评估算法进行评估过程中，向基于Attention的向量-序列打分模型中输入某段长音频向量文件切割形成的拼接的声纹矩阵序列，该声纹矩阵序列经由第一层全连接层处理后发送至两层堆叠的编码层进一步处理，两层堆叠的编码层的输出结果再通过第二层全连接层和Sigmoid激活函数进行转换处理，生成声纹矩阵序列中两两声纹的近似度得分，根据近似度得分确定声纹矩阵的两两相似度。优选地，基于Attention的序列-序列打分模型中的编码层由多头自注意力模块(Multi-head Self-Attention Module)和位置相关的前向神经网络层(Position-wise Feed-forward Layer)构成。基于Attention的序列-序列打分模型与基于Attention的向量-序列打分模型类似，二者的不同之处在于：采用矩阵乘积ZZ^T替代第二层全连接层的全连接，且输入的声纹矩阵序列采用音频向量文件切割形成的原始的声纹矩阵序列，而非拼接的声纹矩阵序列，编码层的输出为完整的相似度矩阵。采用本身申请提供的两种相似度评估算法模型相较于声纹识别PLDA算法能够明显地改善了说话人日志单元221的说话人日志错误率DER指标。

说话人日志单元221中的改进型谱聚类算法不同于传统型谱聚类算法，传统型谱聚类算法在运行之前需要先指定聚类数，即某段长音频向量文件的被测试者数目是未知的，然而采用传统算法在对某个音频向量文件进行识别及分析之前说话人日志单元221是难以预先知晓聚类数的。本实施例中采用的改进型谱聚类算法通过统计归一化拉普拉斯矩阵小于预设阈值的特征值数量来确定音频向量文件聚类数，从而使得说话人日志单元221具备实时动态测算被测试者数目的功能，进而提升说话人日志单元221的自动化程度及智能化水平。

如图3所示，进一步地，在端到端说话人日志模型中，利用说话人日志单元221的声纹识别器采用声纹预训练方法对ResNet算法模型(Residual Neural Network)进行训练，且将ResNet算法模型作为端到端说话人日志模型的特征提取器。在训练数据不足的情况下采用预训练方法对ResNet算法模型(Residual Neural Network)进行训练能够有效改善说话人日志单元221语音片段的归类能力，从而进一步提升端到端说话人日志模型的综合性能。对于端到端说话人日志模型，模型的输入是音频向量文件的Fbank特征谱，具体指Fbank特征谱构成的数据集，并通过ResNet算法模型提取音频向量文件中每段语音片段对应的声纹特征，并形成ResNet输出特征图，再将ResNet输出特征图传送至池化层，并通过池化层降低ResNet输出特征图的维度。再将降低维度的ResNet输出特征图传送至包含Attention机制的编码层，编码层对于输出特征图的声纹矩阵序列进行时序分析后，再经过全连接层得到说话人日志单元221的时序分析输出结果后最后通过端到端说话人日志模型的输出层进行输出，即得到说话人日志的聚类数及各段短语音片段实现按说话人身份属性归档结果。端到端说话人日志模型中的损失函数采用创新的最优映射损失函数(Optimal Mapping，OPTM)，最优映射损失函数可用于计算预测值和目标值之间的差距，来对ResNet神经网络模型的参数进行更新，通过直接寻找最优映射的方法得到最小的损失值，从而克服了传统端到端方法面临的说话人歧义问题和说话人数难以确定问题，同时上述的端到端说话人日志模型利于保持多项式级别的时间复杂度。

为了进一步证明上述两种模型的综合效果，对模块化说话人日志模型及端到端说话人日志模型进行试验测试。试验测试过程如下：在30s、1min、3min和5min的短音频测试条件下对于模块化说话人日志模型及端到端说话人日志模型的归档能力及准确性等相关性能进行测试，例如：通过DER指标及JER指标对上述模型的优劣进行评价，DER指标表示说话人日志错误率(Diarization Error Rate，DER)，DER由三部分构成，即虚警率FAR、漏检率MDR和说话人误判率(Speaker Error Rate，SER)，JER指标表示雅卡尔错误率(JaccardError Rate，JER)：JER是由DIHARD赛方新推出的评测指标。实验结果表明：端到端说话人日志模型的性能表现优于模块化说话人日志模型的性能表现。

声纹识别单元2212，用于识别不同身份说话人的语音片段声纹特性并标记。声纹识别单元2212获取说话人日志单元221传送的音频向量文件，声纹识别单元2212会依据不同人群的声纹特征匹配相应的身份标记，优选地，对于已注册人群，声纹识别单元2212将直接按已有标记进行某段语音片段的身份标记；对于未注册人群，则按不同人群的分类属性进行标记，例如：标记登记为1号儿童、2成年男性以及3成年女性等类似标记，以便于对不同身份的人进行区别标记。声纹识别单元2212通过ResNet卷积网络提取各语音片段的说话人嵌入信息且进行声纹特征识别，再依据不同被测试者的声纹特征匹配相应的身份标记。说话人日志单元221的声纹识别器与声纹识别单元2212的主要不同之处在于，说话人日志单元221的声纹识别器仅获取音频向量文件中的各段语音片段与说话人身份属性归档相关的声纹特性，以提高归档准确率，然而对于声纹识别单元2212是基于已经归档的音频向量文件进行进一步识别，以便进行更加准确的身份标记。声纹识别单元2212是语义理解单元225、韵律分析单元229、声学分析单元2210、发音属性识别单元224以及语音情感识别单元2211的基础及重要参考，故声纹识别单元2212输出的音频向量文件也会传送至上述各单元。

语音识别单元222，用于将音频向量文件中的各段语音片段的语音信息转化为文本信息，语音识别单元222获取经过声学场景和事件识别单元220及语言场景识别单元228以及说话人日志单元221处理后的音频向量文件，完成文本信息后，将音频向量文件中的各段语音片段对应的文本信息传送至语法分析单元223进行语法分析，传送至语言表达评估单元31进行对被测试者的语言表达能力进行评测。语音识别单元222是云端语言能力评测系统的基础，语音识别单元222识别语音的准确性，会对后续针对文本信息的处理产生重要影响。同理，说话人日志单元221的语音识别器仅获取音频向量文件中的各段语音片段与说话人身份属性归档相关的文本信息，以提高归档准确率，然而对于语音识别单元222是基于已经归档的音频向量文件进行进一步识别。

语法分析单元223，用于对音频向量文件中的各段语音片段对应的文本信息进行词性分类、语法结构分类、以及句型分类，语法分析单元223是对语音识别单元222生成文本信息的进一步分析评测，语法分析单元223接收语音识别单元222传送的文本信息后，对其进行词性分类、语法结构分类、以及句型分类，然后传送至语言表达评估单元31进行进一步评测。语法分析单元223包括词性分类器2231、语法结构分类器2232、以及句型分类器2233，词性分类器2231用于对音频向量文件中的各段语音片段的文本信息的分词结果进行词性分析，语法结构分类器2232对音频向量文件中的各段语音片段的文本信息的分词结果进行语法分析。优选地，词性分类器2231及语法结构分类器2232按照《标准汉语语法规则》设置词性的映射关系表，并基于网络爬取算法对音频向量文件中的各段语音片段中的大量文本信息进行提取，并基于GRU结构神经网络来训练词性分类器2231和语法结构分类器2232，不属于映射关系表中的内容，则通过神经网络进行词性及语法结构的识别。词性分类包括实词(名词、动词(动词时态)、代词、形容词、副词、量词)和虚词(连词、介词、助词、象声词、叹词)等；语法结构分类包括主语、谓语、宾语、定语、状语、补语等。句型分类器2233用于音频向量文件中的各段语音片段对应的文本信息进行句型分析。优选地，基于GRU神经网络对句型分类器2233进行训练，从而逐步提升句型分类器2233的句型识别能力。句型分类器2233包括简单句(陈述句、疑问句、感叹句、否定句、请求句、不完整句、英语或其他语句)和复合关系句(并列、补充、递进、选择、因果，转折，条件等)。

发音属性识别单元224，用于对音频向量文件中的各段语音片段的发音位置及发音方式进行识别，发音属性识别单元224获取声纹识别单元2212传送的音频向量文件，对音频向量文件中的各段语音片段的发音位置及发音方式进行识别后，再传送至语音/构词评估单元32进行评测。其中，发音位置识别是按照语音识别和发音位置结果进行划分，发音方式包括齿槽音、硬颚齿龈音、齿音、喉音、翘舌音、唇音、唇齿音、低舌音、平舌音、腭音、软颚音。发音方式识别是按照音素识别和发音方式分类结果进行划分，发音方式包括爆破音、塞擦音、鼻音、摩擦音、边音、停顿音、滑音、流音、双元音以及咝音等。发音属性识别单元224将发音器官位置及发音方式的识别结果传送至语音/构词评估单元32，以便语音/构词评估单元32对发音位置及发音方式正确性进行评测。

为了增强语音识别单元222及发音属性识别单元224的识别能力，优选地，语音识别单元222及发音属性识别单元224利用语音行业已经大范围公开的成人数据库，采用ResNet端到端算法模型对语音识别模型和发音属性模型进行训练，同时利用小规模的儿童数据库进行迁移学习，通过多次训练后提升语音识别单元222及发音属性识别单元224针对儿童的语音及发音属性识别能力。

年龄识别单元226，用于对音频向量文件中包含的各个被测试者年龄特征的语音片段进行识别，从而获取各个被测试者对应的年龄，年龄识别单元226声纹识别单元2212传送的音频向量文件，依据音频向量文件的声纹特性识别被测试者对应的年龄，然后将识别结果传送至综合语言能力评估单元36。

语音情感识别单元2211，用于对音频向量文件中包含的各个被测试者情感特征的语音片段进行识别，从而获取各个被测试者的情绪类型，情绪类型包含短时情绪和情感波动等，语音情感识别单元2211获取声纹识别单元2212传送的音频向量文件，对音频向量文件中的各个被测试者情感特征的语音片段进行识别后，再传送至情绪表达评估单元34进行评测。优选地，年龄识别单元226和语音情感识别单元2211均是采用基于深度神经网络的学习模型提取包含年龄特征、情绪特征作为学习模型的嵌入层信息，并对音频向量文件包含的各个被测试者进行年龄识别和情绪分类识别，从而获取音频向量文件中目标说话人及相关说话人的年龄和情绪类型，以便情绪表达评估单元34进行评测。

语义理解单元225，用于分析及确定音频向量文件中的各段语音片段涉及的对话过程中目标说话人与相关说话人语音信息的真实语义，且提供语义更为丰富的言语信息，语义理解单元225获取声纹识别单元2212及语音识别单元222传送的音频向量文件，对音频向量文件中的各段语音片段涉及的对话过程中目标说话人与相关说话人语音信息的真实语义进行分析后，再传送至语义理解评估单元33进行评测。优选地，语义理解单元225将针对从各段语音片段中识别出对话文本和原始音频进行评测，将原始音频和识别出的对话文本相关特征作为神经网络的双模态输入，针对对话的上下文信息，通过自然语言处理判断儿童的语言输出是否符合逻辑，上下文是否流畅；同时针对对话方给出反馈的正向程度进行判断，与逻辑和流畅等级进行融合，综合得到儿童的语义理解能力。

韵律分析单元229用于获取目标说话人的语音韵律发音能力的识别结果，其采用韵律品质训练模型实获取识别结果。韵律分析单元229获取声纹识别单元2212传送的音频向量文件，获取音频向量文件中的获取目标说话人的语音韵律发音能力的识别结果后，再传送至语音/构词评估单元32进行评测。优选地，韵律品质训练模型采用CNN-RNN(Convolutional Neural Network-Recurrent Neural Network)深度学习架构，其参照现有韵律数据库对韵律品质训练模型进行等级评测能力训练，完成训练后，韵律分析单元229从声纹识别单元2212获取目标说话人的语音片段，再输入至韵律分析单元229的韵律品质训练模型运算后得到目标说话人的语音韵律发音能力的识别结果。语音/构词评估单元32从韵律分析单元229获取目标说话人的识别结果后对语音韵律发音能力等级进行评测。

声学分析单元2210用于依据目标说话人的语音片段绘制声学元音图，声学分析单元2210依据目标说话人的语音片段计算第一共振峰和第二共振峰数值，再依据第一共振峰和第二共振峰数值计算元音/a/，/i/，/u/的图示面积，再依据图示面积绘制声学元音图，声学分析单元2210获取声纹识别单元2212传送的音频向量文件，并依据音频向量文件中目标说话人的语音片段绘制声学元音图，再传送至语音/构词评估单元32进行评测，并展示声学元音图。

行为识别单元227，将加速度传感器15和音频向量文件中的语音信号作为输入，利用多模态的加速器信号和语音信号双通道输入到CNN-GRU的网络结构中，对目标说话人进行运动行为识别。例如：儿童是在奔跑，还是静止。

检索单元2213用于检索用户自定义词汇。检索单元2213基于声纹识别单元2212以及语音识别单元222的识别结果进行检索的，用户可以自定义关键词，并将关键词输入至检索单元2213内，检索单元2213对用户输入的关键词进行检索，并将检索结果传输至语言表达评估单元31进行评测或分析统计。

语言能力评估模块3包括语言表达评估单元31、语音/构词评估单元32、语义理解评估单元33、情绪表达评估单元34、以及反应能力评估单元35。语言能力评估模块3的各个子单元抽取智能语音处理模块2生成多维度识别数据中的一个或者多个数据进行统计及计算，形成被测试者的多维度语言能力评测结果及等级分类，并将评测结果及等级分类通过云端语言能力评测系统的综合语言能力评估单元36进行可视化输出，以便观察直观的被测试者的语言能力。

如图2所示，语言能力评估模块3用于对被测试者的综合语言能力进行评测，语言能力评估模块3从语言表达、语音/构词、语义理解、情绪表达以及反应能力五个方面对被测试者的综合语言能力进行评测，尤其针对目标说话人。语言能力评估模块3采用四级指标用于综合语言能力的评测，其中，综合语言能力评估单元36用于目标说话人综合语言能力的评测，综合语言能力评估单元36用于对语言表达评估单元31、语音/构词评估单元32、语义理解评估单元33、情绪表达评估单元34、以及反应能力评估单元35生成的各级指标进行综合计算并生成零级指标，也即零级指标由一级指标、二级指标以及三级指标通过加权或者类似评估方式计算得到衡量被测试者综合语言能力的指标，综合语言能力评估单元36也可以调用部分智能识别算法模块22的识别结果，例如：调取年龄识别单元226的年龄识别结果。三级指标是指通过对智能语音处理模块2生成多维度识别数据进行分析及统计而直接得到的指标，二级指标是指通过三级指标进一步计算得到指标，一级指标是指通过二级指标进一步计算得到的指标。

语言表达评估单元31采用三类指标对目标说话人的语言表达能力进行评测，语言表达评估单元31获取语法分析单元223、语音识别单元222以及检索单元2213提供的多维度识别数据，并利用三类指标对上述多维度识别数据进行分析统计。语言表达评估单元31从词汇能力、语法能力以及语用能力三个方面进行评估。从词汇能力评测来看，主要由三级指标：词性丰富度、词汇多样性NDW、以及词汇总数TNW；二级指标：形次比TTR(type-tokenratio)以及一级指标：词汇广度D值对目标说话人的词汇能力进行综合评测；从语法能力评测来看，主要由三级指标：总句数及总词数、语法结构丰富度、以及句型丰富度；二级指标：平均语句长度指标MLUw、基于词素的MLUm、基于最长的5句话的平均语句长度的MLU5w、基于最长的5句话词素的MLU5m以及一级指标：汉语IPSyn指标对目标说话人的语法能力进行综合评测；语用能力主要由三级指标：对话轮数、句(词)数/秒、高频词汇、自定义检索对目标说话人的语用能力进行综合评测。通过上述多方面的评测，能够公正客观的评定目标说话人的语言表达能力，进一步提升语言表达评估单元31的准确性及可信度。

下面对词汇能力评测指标进行说明，具体如下：

词性丰富度用于对某次对话活动中的词性类别出现的次数和频率进行统计，语言表达评估单元31从语法分析单元223中获取词性类别出现的次数和频率。例如：完成某次对话活动后，采集这段对话中实词和虚词等不同词性的出现次数以及各类别次出现的频率。词性类别包括名词、动词(及动词时态)、代词、形容词、副词、量词，虚词包括连词、介词、助词、象声词、叹词等。具体的，通过说话人日志单元221将不同说话人的语音片段进行身份标记，并依据声纹识别单元2212对语音片段进行说话人分组操作，从而获取目标说话人的语音片段，之后通过语音识别单元222将目标说话人的语音片段识别为文本信息。通过语法分析单元223的词性分类器2231对目标说话人的文本片段进行分词操作，得到目标说话人的分词矩阵，语言表达评估单元31依据词型语料库对分词矩阵中各个词的词性进行比对，确定分词矩阵中各个词的词性。进一步优选地，语言表达评估单元31除了对分词矩阵进行词性分析，还能够进一步对部分词性的词进行时态分析。例如：当语言表达评估单元31检测到某词的词性为动词时，则进一步进行时态分析，参照《标准汉语语法规则》方案标准通过分析动词中是否包含“着、了、过”的时态关键字，并依据时态关键字确定上述词的时态分类，时态分类包括现在、过去、进行、完成等时态。

词汇多样性NDW用于对目标说话人说出不同词语总数进行统计。具体地，通过说话人日志单元221将不同说话人的语音片段进行身份标记，并依据身份标记对语音片段进行说话人分组操作，从而获取目标说话人的语音片段，之后通过语音识别单元222将目标说话人的语音片段识别为文本信息。通过语法分析单元223的句型分类器2233对目标说话人的语音片段和文本片段进行分句操作，得到目标说话人的分句矩阵，分句操作通常将VAD静音间隔时长大于200ms视为一句话。然后对分句矩阵所有的句子进行去重操作，再通过语法分析单元223的词性分类器2231对分句矩阵中的各个句子进行分词操作，形成分词矩阵，按照语法分析单元223中的词性分类器2231以及语音识别单元222中提取的不同词语，并依据去重操作删除同核多形词，例如：伞，伞伞，伞为同一个词。语言表达评估单元31依据分词矩阵统计目标说话人说出不同词语总数，当词汇多样性NDW作为单独指标使用时，为了避免语音样本的数量对评价公允性的影响，通常设置100个句子为基准，提取计算NDW(number ofdifferent word)，即指统计100个句子中含有不同词的数量，也就是100句话的总词素作为词汇多样性NDW。将语言表达评估单元31采集的词汇多样性NDW与标准的常模词汇多样性对照表进行比对，可判断NDW(number of different word)词汇多样性指标的合理性。词汇多样性NDW常用于区分正常的儿童和有语言障碍的儿童，本实施例中提供的标准的常模词汇多样性对照表如下：

年龄	数量
		3	100-164
5	156-206
		7	173-212
9	183-235
		11	191-267

词汇总数TNW(Tokens)用于对目标说话人某段对话中的文本矩阵的词汇总数进行统计。词汇总数TNW表示对话样本中词语的总数。当样本按照时长控制，TNW的大小可以更好的反应儿童的健谈水平。具体地，通过说话人日志单元221将不同说话人的语音片段进行身份标记，并依据身份标记对语音片段进行说话人分组操作，从而获取音频向量文件中目标说话人全部的语音片段，通过语音识别单元222将语音片段转化成为文本信息，再通过语法分析单元223的词性分类器2231对目标说话人的文本信息进行分词操作，得到目标说话人的分词矩阵。语言表达评估单元31统计分词矩阵中的词语总数TNW。

形次比TTR(type-token-ratio)，其中type为词的类型(词性)，token为词频数值的比值，ratio表示二者比值，形次比TTR被用于表示词汇多样性，可以用来弥补词汇多样性NDW的片面性缺陷。语言表达评估单元31将词汇总数TNW除以词汇多样性NDW即得到形次比TTR。形次比TTR用于表示不同词语的数目在样本词汇总量的占比，其能够很好反应儿童被测试者不同词语的能力。形次比TTR常以0.5为基线，低于0.5被认为是缺乏变化性。

形次比TTR计算公式如下：

词汇广度D值，用于表示形次比TTR跟随音频向量文件的样本大小的变化关系，语言表达评估单元31通过重复计算某个样本的次数范围内的形次比TTR得到词汇广度D值。传统的形次比TTR虽然很好排除了样本个数的影响，但容易受到一些频繁重复使用的功能词的影响，通常样本越大，同种功能词出现越多，TTR越小，然而在计算形次比TTR的过程中样本大小难以控制，所以常常使用词汇广度D值来排除语句数量增多时频繁重复使用的功能词的影响。具体地，语言表达评估单元31通过在某个token范围内重复计算形次比TTR来表明形次比TTR跟随样本大小的变化关系，词汇广度D值越大，词汇多样性越显著。

下面对语法能力评测指标进行说明，语言表达评估单元31通过三个级别指标对被测试者的语法能力进行评测。其中，三级指标包括：总句数、语法结构丰富度、以及句型丰富度；二级指标包括：基于词的平均语句长度MLUw，基于词素的MLUm，基于最长的5句话的平均语句长度的MLU5w，基于最长的5句话词素的MLU5m；一级指标包括：IPSyn指标。在进行语法能力评测前，为了避免受到录制环境和设备性能的影响，需要采用前端数据处理模块21对音频向量文件进行预处理后，再通过语言表达评估单元31进行评测。例如：首先需要采用前端数据处理模块21中的预处理单元211对音频向量文件进行预处理。然后，通过语音增强单元216采用语音增强算法对上述音频向量文件进行“去噪”处理，得到“干净”的音频。最后，利用端点检测单元217对音频向量文件的语音向量进行分段处理且将静音片段删除且记录静音时长，即应先通过前端数据处理模块21进行音频前端信号优化处理，再进行语言表达能力的评测。

下面对语法能力评测指标中的三级指标进行说明，具体如下：

总句数，用于对目标说话人某段对话中的文本矩阵中包含的句子总数进行统计，由端点检测单元217识别某段对话各段语音片段的起始点。通过说话人日志单元221将不同说话人的语音片段进行身份标记，并依据身份标记对预处理音频向量文件中的语音片段进行说话人分组操作，从而获取目标说话人的语音片段，通过语音识别单元222将语音片段转化成为文本信息，再通过语法分析单元223的句型分类器2233对目标说话人的语音片段对应的文本信息进行分句操作，得到目标说话人的分句矩阵。语言表达评估单元31对于目标说话人的分句矩阵中的句子总数进行统计，得到总句数。

总词数，用于对目标说话人某段对话中的文本矩阵中包含的词语总数进行统计。通过说话人日志单元221将某段对话中的不同说话人的语音片段进行身份标记，并依据身份标记对语音片段进行说话人分组操作，从而获取音频向量文件中目标说话人某段对话中的全部的语音片段，通过语音识别单元222将语音片段转化成为文本信息，再通过语法分析单元223的词性分类器2231对目标说话人某段对话中的语音片段进行分词操作，得到目标说话人某段对话中的分词矩阵。语言表达评估单元31统计分词矩阵中的总词数。

语法结构丰富度；用于对目标说话人某段对话中的文本矩阵中的句子语法结构的正确率以及各类型语法的出现频次进行统计。通过说话人日志单元221的说话人分组操作获取目标说话人的语音片段，通过语法分析单元223的句型分类器2233对目标说话人的语音片段进行分句操作，得到目标说话人的分句矩阵。通过语法分析单元223中的句型分类器2233对目标说话人的分句矩阵进行分词操作。再通过语法分析单元223中的语法结构分类器2232对分句矩阵中的各个句子在句法层面进行语法分析且识别分词操作后各个句子的词语类型在词汇层面进行语法分析，将句法层面的语法分析与词汇层面的语法分析相结合，就能够得到每个句子的句子语法结构。句法层面主要针对主语、谓语、宾语、定语、状语、补语、兼语等进行句法标记，词汇层面主要针对量词短语、的字结构、介词短语、把字句、被字句、连词结构句等进行分析。语言表达评估单元31通过对上述句子语法结构的正确率以及各类型语法的出现频次进行统计，得到语法结构丰富度。优选地，句子语法结构的正确率计算过程包括：将通过语法结构分类器2232识别的各个句子语法结构与标准句子语法结构模板库进行打分匹配，同时利用3-Gram语言模型和Dependency Treebank语音模型对各个句子语法结构的合理性进行计算，从而确定目标说话人的分句矩阵中各个句子所用语法的正确与否，并统计正确句子的数量，语言表达评估单元31将正确句子的数量除以分句矩阵中的句子总数，得到句子语法结构的正确率。各类型语法的出现频次则仅只需要语言表达评估单元31对各类型句子语法结构对应的句子数量进行统计即可得到。

句型丰富度；用于对目标说话人某段对话中的文本矩阵中的句法逻辑性评分、各类型句法的出现频次、删除后的关联词上下句关系的出现频次进行统计。通过说话人日志单元221的说话人分组操作获取目标说话人的语音片段，通过语法分析单元223的句型分类器2233对目标说话人的语音片段进行分句操作，得到目标说话人的分句矩阵。再通过语法分析单元223中的句法分类器基于连词关键字和句式类别对分句矩阵中的各个句子进行句法分析。句式类别包括陈述句、疑问句、感叹句、否定句、请求句、不完整句、英语或其他语句，复合关系句包括联合关系句(并列，补充，成绩，递进、选择等)和偏正关系句(因果，转折，条件)等。语言表达评估单元31通过对分句矩阵中的各个句子进行句法分析的结果对各类型句法的出现频次进行统计，利用句式逻辑评分模型对分句矩阵中的各个句子进行评分，也可以参考“语法结构丰富度中涉及的句子语法结构的正确率”的计算方法计算正确率指标。此外，语言表达评估单元31还会对删除后的关联词上下句关系的出现频次进行统计。

下面对语法能力评测指标中的二级指标进行说明，具体如下：

平均语句长度指标MLU(Mean Length of Utterance)；用于表示目标说话人某段对话中的文本矩阵中的语法内涵的复杂性。参照《Brown语言发展规则》，并针对母语为汉语的学龄前儿童，按照单词，双词，短语，语序，句型发展的五个阶段对儿童语言能力的语法掌握程度进行划分，其中，MLU是儿童语言能力的语法掌握程度的重要评定指标。MLU5是指采用最长的5句话的平均语句长度对儿童语言能力进行评测。除了平均语句长度指标MLU外，也通常会采用MLU5，这是由于MLU容易受到情境的影响，4岁后对儿童语法发展的反应敏感度会降低，反而MLU5能更好地反映4岁后儿童语言的发展梯度。为了进一步提升MLU的适应性，通常优选提取MLU相关系列指标，MLU相关系列指标包括以词语为单位的MLUw(Meanlength of utterance in words)，以词素为单位的MLUm(Mean length of utterance in，morpheme)。

语言表达评估单元31从三级指标中获取总词语数及总句数，再通过上述公式计算平均语句长度指标MLU。在计算MLU5，语言表达评估单元31先将分句矩阵中各个句子按其句长排序，再选取句长最长的前5个句子进行MLU5的相应计算。平均语句长度指标MLU的计算公式如下：

下面对语法能力评测指标中的一级指标进行说明，具体如下：

汉语IPSyn指标(The Index of Productive Syntax,IPSyn)；用于表示目标说话人某段对话中的文本矩阵中的语法内涵的复杂度变化趋势。汉语IPSyn指标常常用来研究儿童语言获得的个体差异。汉语IPSyn指标是对基于英语IPSyn指标的汉语化，由于MLU并不能反映出儿童语言复杂度增加的变化趋势，故在实际语法能力评测指标中汉语化的IPSyn常和MLU共同使用。通过说话人日志单元221的说话人分组操作获取目标说话人的语音片段，通过语法分析单元223的句型分类器2233对目标说话人的语音片段进行分句操作，得到目标说话人的分句矩阵。语言表达评估单元31从分句矩阵随机抽取预设数量的句子，例如：预设数量为100个，语言表达评估单元31或者语法分析单元223对预设数量的句子的不同语音结构进行识别，识别后按照四个类目进行计分统计，计分统计总分即为汉语IPSyn指标，四个类目是指24个名词短语、34个动词短语、22个疑问和否定、40种句子结构。计分统计的规则是依据预设数量的句子的语音结构归属于四个类目中的任何一类时该类计分，出现于该类目1次记1分，出现于该类目2次以上记2分，未出现于该类则记0分，总分为汉语IPSyn指标。优选地，四个类目包括24个名词短语、34个动词短语、22个疑问和否定、40种句子结构。不同语音结构通常由56种，包括主语，从句中的限制性主语和非限制性主语、从句中的限制性补语和非限制性补语、修饰语、助动词、否定词、前置宾语、动词后缀、动词不定式等。

下面对语用能力评测指标进行说明，语言表达评估单元31用于采用一级别指标对被测试者的自定义语法能力进行评测。语用能力评测指标主要由对话轮数、句(词)数/秒、高频词汇、自定义检索四个指标进行评测。通过说话人日志单元221的说话人分组操作获取目标说话人的语音片段，通过语法分析单元223的句型分类器2233对目标说话人的语音片段进行分句操作，得到目标说话人的分句矩阵。通过语法分析单元223中的句型分类器2233对目标说话人的分句矩阵进行分词操作。语言表达评估单元31对分句矩阵中的对话轮数进行统计即得到对话轮数指标。目标说话人的音频可包含时间信息，通过上文中采集的总句数、总词数除以这些总句数、总词数对应的时间就能够计算出句(词)数/秒。语言表达评估单元31支持用户自定义高频词汇、自定义检索关键词，语言表达评估单元31能够对包含高频词汇或者检索关键词的语句数量或者词数进行统计，用户可通过检索单元2213设定或者输入自定义高频词汇、自定义检索关键词，而后检索单元2213生成检索结果供表达评估单元31进行统计。

语义理解评估单元33用于对目标说话人的语义理解能力进行评测。语义理解能力主要反映了在某个对话场景中目标说话人与相关说话人之间的交互效率及交互逻辑。该能力评估时先通过声学场景和事件识别单元220仅获取对话场景，语义理解能力时应包括目标说话人及至少一名的相关说话人，再通过说话人日志单元221的说话人分组操作获取目标说话人的语音片段及语音信息，语音识别单元222获得语音片段对应的文本信息。通过上述识别就能够获取某个对话场景下，目标说话人及至少一名的相关说话人对应的语音信息及相应的文本信息，将语音信息及相应的文本信息构成的上下文信息包含的文本及语音作为语义理解单元225神经网络的双模态输入，从而判断目标说话人对上一相关说话人话语回应能力的逻辑等级，再将上下文信息进行自然语言处理，得到某个对话场景下目标说话人反馈信息的逻辑等级与正向程度，将语义理解单元225生成的逻辑等级与正向程度发送至语义理解评估单元33，语义理解评估单元33对逻辑等级与正向程度进行融合，语义理解评估单元33生成融合结果评定目标说话人的语义理解能力，并输出至综合语言能力评估单元36。

语音/构词评估单元32用于对目标说话人的语音/构音能力进行评测。语音/构词评估单元32从韵律评测、声学语音图分析、发音属性识别三个方面实施上述评测。韵律评测用于获取目标说话人的语音韵律发音能力等级，声学语音图分析用于绘制目标说话人的声学元音图，发音属性用于评测目标说话人的发音方式和发音位置的正确性。语音/构词评估单元32能够统计及分析韵律分析单元229、声学分析单元2210以及发音属性识别单元224三个单元各自生成多维度识别数据，并将上述评定结果输出至综合语言能力评估单元36。

韵律评测；用于获取目标说话人的语音韵律发音能力等级。韵律分析单元229采用韵律品质训练模型采用CNN-RNN(Convolutional Neural Network-Recurrent NeuralNetwork)深度学习架构，其参照现有韵律数据库对韵律品质训练模型进行等级评测能力训练，完成训练后，韵律分析单元229从说话人日志单元221获取目标说话人的语音片段，再输入至韵律分析单元229的韵律品质训练模型运算后得到目标说话人的语音韵律发音能力等级的识别数据。语音/构词评估单元32从韵律分析单元229获取目标说话人的语音韵律发音能力等级的识别数据并生成评测结果，并将上述评测结果输出至综合语言能力评估单元36。

声学语音图分析；用于绘制目标说话人的声学元音图。声学分析单元2210从说话人日志单元221获取目标说话人的语音片段，并依据语音片段计算第一共振峰和第二共振峰数值，再依据第一共振峰和第二共振峰数值计算元音/a/，/i/，/u/的图示面积，再依据图示面积绘制声学元音图。语音/构词评估单元32从声学分析单元2210获取目标说话人的声学元音图，并输出至综合语言能力评估单元36，并通过综合语言能力评估单元36可视化输出声学元音图。

发音属性单元224用于评测目标说话人的发音方式和发音位置的正确性。发音属性识别单元224从说话人日志单元221获取目标说话人的语音片段，并依据目标说话人的语音片段进行音素识别及发音方式分类，并将音素识别和发音方式分类结果传输至语音/构词评估单元32，语音/构词评估单元32评测目标说话人发音方式的正确性。发音属性识别单元224依据目标说话人的语音片段进行语音识别和发音位置分类，并将语音识别和发音位置分类结果传输至语音/构词评估单元32，语音/构词评估单元32评测目标说话人发音位置的正确性。

情绪表达评估单元34用于对目标说话人的情绪表达能力进行评测。语音情感识别单元2211对说话人的语音信息进行情感识别，其基于深度神经网络提取包含情感信息在内的嵌入层信息，进行音频声学场景识别，语言场景识别，说话人年龄识别和情感分类识别，从而获取语音时段所处场景及发音人的年龄和情绪(短时情绪和情感波动)，语音情感识别单元2211将目标说话人或者参与说话的情感识别结果分类并发送至情绪表达评估单元34，情绪表达评估单元34计算各种情感出现频率、方差以及时序变化进行情感波动分析，并将情感波动分析的分析结果以图表方式输出至综合语言能力评估单元36。

反应能力评估单元35用于对目标说话人的对话反应能力进行评测。通过说话人日志单元221将不同说话人的语音片段进行身份标记，并依据身份标记对语音片段进行说话人分组操作，从而获取目标说话人的语音片段，同时说话人日志单元221根据VAD结果得到目标说话人及不同相关说话人发音时间节点，说话人日志单元221依据目标说话人及不同相关说话人发音时间节点计算交互时间点，再依据交互时间点得出目标说话人对与之对应的相关说话人的对话反应时间。反应能力评估单元35对说话人日志单元221计算目标说话人的对话反应时间的进行统计及并与标准反应时间比对后评分，从而达到对反应能力进行评测的目的，并将评分结果输出至综合语言能力评估单元36展示。

综合语言能力评估单元36用于目标说话人的语言能力进行综合评测，年龄识别单元226、语言表达评估单元31、语音/构词评估单元32、语义理解评估单元33、情绪表达评估单元34以及反应能力评估单元35的评测结果输入至综合语言能力评估单元36进行包括加权计算，并通过机器学习方法分析等在内多种方式的分析计算，从而得到目标说话人的最终语言能力的得分。综合语言能力评估单元36具有综合评定界面或与显示设备，用户能够自定义综合评定界面的展示内容，其既可以直接展示的语言表达评估单元31、语音/构词评估单元32、语义理解评估单元33、情绪表达评估单元34以及反应能力评估单元35中一个或者多个单元的评测结果，也可以展示目标说话人的综合评测结果。

此外，在采用语言能力评估模块3进行目标说话人的语言能力评测时，除采用上述提及的各类基于统计的分析计算方法外，优选地采用基于深度学习方法优化目标说话人的语言能力进行评测及等级分类。从多模态角度出发，将智能语音处理模块2输出的语音特征和文本(语音识别文本结果)作为深度学习神经网络模型的输入，对目标说话人的语言能力进行评测及等级分类。基于上述各类基于统计的分析计算方法得到的综合评测结果及等级分类再输入到深度学习神经网络模型中二次训练，输出优化的综合评测结果及等级分类，从而提升采用语言能力评估模块3的主动识别及评测能力及评测的准确性。例如：在本发明提供的云端语言能力评测系统中可预设PEP-3中的EL能力分数，当云端语言能力评测系统接收到采集的某段音频，或者说音频向量文件，且完成前端数据处理模块21的前端信号优化处理后，首先会通过智能识别算法模块22中的声学场景和事件识别单元220及语言场景识别单元228判断这段音频是否符合PEP-3的场景，之后会按照前述部分涉及的内容中通过智能识别算法模块22中的其他模块及云端语言能力评估模块3从音频向量文件中提取得到一种或多种指标组合(例如：词汇语法等语言能力、语义理解能力、语音/构音能力、情绪表达能力、反应能力等)作为手工特征，随后将手工特征和上述音频共同作为输入特征进行EL能力的预测，从而提升预测的准确定。此外，本发明提供的云端语言能力评测系统还可以针对语言能力评估模块3进行时间域分析，从而获得语音内容的情感曲线、说话时长曲线，多轮对话频率曲线，交互强度时长频率态度等时变信息，最后将包含时变信息的综合评测结果可视化展示给用户。

综上所述，本发明提供的云端语言能力评测系统利用可穿戴麦克风阵列12录音设备，麦克风阵列能够进行声源定位及更全面准确的拾音，为了云端语言能力评测系统的提取全面地多维度识别数据奠定基础，在自由活动的真实场景中进行语音数据采集，使得实验数据更接近生活常态，保持了语音信息的自然度和丰富度，更能反应佩戴者的综合情况。且本发明采用半结构化的试验流程，排除了人为的主观干扰，使得评断对象和被评判数据的采集规则更客观统一。本发明提供的云端语言能力评测系统还设置了智能语音处理模块2及语言能力评估模块3，尤其是智能语音处理模块2不仅能够对音频向量文件进行前端信号优化处理，而且其各个子模块包含若干具备学习功能的语音分析算法，进一步地保证了多维度识别数据采集的准确性及全面性，通过语言能力评估模块3能够完成多维度识别数据的分析及统计，从而从语言表达、语音/构词、语义理解、情绪表达、以及反应能力等多个方面全面综合的评定目标说话人语言能力及评定等级。此外，整个评测过程具备自动化、客观化、精准化及可视化等特点，从根本上解决了现有系统耗时长及研究者专业性要求高等问题。

本发明是通过优选实施例进行描述的，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。本发明不受此处所公开的具体实施例的限制，其他落入本申请的权利要求内的实施例都属于本发明保护的范围。

Claims

1.一种云端语言能力评测系统，其特征在于，包括：

设置有麦克风阵列的可穿戴录音终端；用于通过所述麦克风阵列采集多通道音频语音信号，并上传至智能语音处理模块，生成音频向量文件；

智能语音处理模块；用于对音频向量文件进行前端信号优化处理，并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据；

语言能力评估模块；用于从所述智能语音处理模块抽取所述多维度识别数据，并对所述多维度识别数据进行分析及统计；

所述麦克风阵列采集所述多通道音频语音信号后，传输至所述智能语音处理模块生成音频向量文件，所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理，再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据，语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据，并对一个或者多个所述多维度识别数据进行分析及统计，并输出目标说话人语言能力的综合评测结果及等级分类；

其中，所述智能语音处理模块包括前端数据处理模块、智能识别算法模块以及说话人日志单元；

所述前端数据处理模块，用于对所述音频向量文件进行前端信号优化处理；

所述智能识别算法模块，用于依据通过多种语音分析算法对所述音频向量文件进行计算及分析，并生成若干多维度识别数据；

所述说话人日志单元，用于对所有目标说话人及相关说话人形成的各段音频向量文件及各段音频向量文件对应的起止发言时间按说话人身份属性归档；

其中，所述说话人日志单元通过模块化说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档；

在所述模块化说话人日志模型中，所述说话人日志单元中的音频切割器将音频向量文件中的各段语音片段中的长语音片段切割成多段短语音片段，所述说话人日志单元中的语音识别器将多段短语音片段中记载的语音信息转化为文本信息，所述说话人日志单元利用第一类提取工具将多段文本信息转化文本矩阵，所述说话人日志单元的声纹识别器提取多段短语音片段的声纹特征，所述声纹识别器将利用第二类提取工具将多段声纹特征转化为声纹矩阵；

将所述文本矩阵及所述声纹矩阵作为相似度评估算法的输入，所述说话人日志单元利用所述相似度评估算法对所述文本矩阵及所述声纹矩阵涉及的多段短语音片段的声纹相似度进行计算得到若干相识度矩阵，再将若干相识度矩阵输入至改进型谱聚类算法进行计算并将声纹特征相似度高的短语音片段归为同一类，得到聚类数及各段短语音片段实现按说话人身份属性归档结果。

2.根据权利要求1所述的云端语言能力评测系统，其特征在于：

所述前端数据处理模块包括端点检测单元；

所述端点检测单元用于从音频向量文件中的各段语音片段中检测出包含人声的语音片段且去除静音片段；所述端点检测单元采基于卷积网络-长短时记忆网络的端到端框架模型对于音频向量文件进行语音端点检测，在端到端框架模型中位于前端的卷积网络ResNet用于从音频向量文件的各段语音片段中抽取与语音活动检测任务相关的特征序列，并确定各段语音片段的端点，长短时记忆网络LSTM用于进一步捕获各段语音片段的特征序列中的时间依赖性；

所述端点检测单元将二分类交叉熵作为损失函数对端到端框架模型进行训练，通过训练检测出包含人声的语音段的起始时间和结束时间。

3.根据权利要求1至2任一所述的云端语言能力评测系统，其特征在于：

所述智能识别算法模块包括声纹识别单元；

所述声纹识别单元用于识别不同身份说话人的语音片段声纹特性并标记；

所述声纹识别单元通过利用ResNet算法模型提取音频向量文件中的各语音片段的说话人嵌入信息且对所述说话人嵌入信息进行声纹特征识别，再依据不同被测试者的声纹特征匹配相应的身份标记。

4.根据权利要求1所述的云端语言能力评测系统，其特征在于：

所述相似度评估算法配置为基于Attention的向量-序列打分模型算法、基于Attention的序列-序列打分模型算法中的一种或者多种；

所述改进型谱聚类算法通过统计归一化拉普拉斯矩阵小于预设阈值的特征值数量来确定所述音频向量文件的聚类数。

5.根据权利要求1所述的云端语言能力评测系统，其特征在于：

所述说话人日志单元通过端到端说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档；

在所述端到端说话人日志模型中，所述说话人日志单元的声纹识别器采用声纹预训练方法得到ResNet算法模型的特征提取器，所述端到端说话人日志模型的输入是所述音频向量文件的Fbank特征谱，并通过所述ResNet算法模型提取所述音频向量文件的声纹特征，并形成所述ResNet算法模型的ResNet输出特征图，再将所述ResNet输出特征图传送至所述端到端说话人日志模型的池化层，并通过所述池化层降低所述ResNet输出特征图的维度，再将降低维度的所述ResNet输出特征图传送至包含Attention机制的编码层，所述编码层对于所述ResNet输出特征图的声纹矩阵序列进行时序分析后，再经过全连接层得到说话人日志的聚类数及各段短语音片段实现按说话人身份属性归档结果；

其中，所述端到端说话人日志模型的损失函数采用最优映射损失函数，所述最优映射损失函数可用于计算预测值和目标值之间的差距。

6.根据权利要求1至2任一所述的云端语言能力评测系统，其特征在于：

所述智能识别算法模块还包括语法分析单元；

所述语法分析单元用于对音频向量文件中的各段语音片段对应的文本信息进行词性分类、语法结构分类以及句型分类；

所述语法分析单元包括词性分类器、语法结构分类器以及句型分类器；

所述词性分类器、所述语法结构分类器以及所述句型分类器分别用于对语音识别单元产生的文本信息进行词性分类、语法结构分类以及句型分类。

7.根据权利要求1至2任一所述的云端语言能力评测系统，其特征在于：

所述智能识别算法模块还包括声学场景和事件识别单元；

所述声学场景和事件识别单元用于对音频向量文件中各个语音片段的背景特征进行分析及识别，以获取各个语音片段的声学场景及声学事件。

8.根据权利要求1至2任一所述的云端语言能力评测系统，其特征在于：

所述智能识别算法模块还包括语义理解单元；

所述语义理解单元用于分析及确定音频向量文件中的各段语音片段涉及的对话过程中目标说话人与相关说话人语音信息的真实语义。

9.根据权利要求1至2任一所述的云端语言能力评测系统，其特征在于：

所述智能识别算法模块还包括发音属性识别单元，所述发音属性识别单元用于对音频向量文件中的各段语音片段的发音位置及发音方式进行识别；

所述发音属性识别单元采用端到端ResNet算法模型对语音识别模型和发音属性模型进行训练，同时利用儿童数据库进行迁移学习。

10.根据权利要求1至2任一所述的云端语言能力评测系统，其特征在于：

所述智能识别算法模块还包括行为识别单元；

所述行为识别单元用于对目标说话人进行运动行为识别。

11.根据权利要求1所述的云端语言能力评测系统，其特征在于：

所述语言能力评估模块包括语言表达评估单元；

所述语言表达评估单元用于从词汇能力、语法能力以及语用能力对目标说话人的语言表达能力进行评测；

所述词汇能力评测指标为：由词性丰富度、词汇多样性和词汇总数构成的三级指标，由形次比TTR构成的二级指标，以及由词汇广度D值构成的一级指标；所述语法能力评测指标为：由语法结构丰富度、句型丰富度和总句数构成的三级指标，由平均语句长度MLUw和词素的MLUm构成的二级指标，以及由汉语IPSyn指标构成的一级指标；所述语用能力评测指标为：对话轮数、句或词数/秒、高频词汇和自定义检索构成的三级指标。

12.根据权利要求1所述的云端语言能力评测系统，其特征在于：

所述语言能力评估模块还包括语音/构词评估单元、语义理解评估单元、情绪表达评估单元以及反应能力评估单元；

所述语音/构词评估单元用于对目标说话人的语音/构音能力进行评测；

所述语义理解评估单元用于对目标说话人的语义理解能力进行评测；

所述情绪表达评估单元用于对目标说话人的情绪表达能力进行评测；

所述反应能力评估单元用于对目标说话人的对话反应能力进行评测。

13.根据权利要求1所述的云端语言能力评测系统，其特征在于：

还包括智能终端以及服务器端；

所述智能语音处理模块及所述语言能力评估模块设置于所述服务器端上；

所述可穿戴录音终端将采集的多通道音频语音信号上传至与之网络连接的所述智能终端，所述智能终端以转发送方式将多通道音频语音信号发送至所述服务器端，通过所述服务器端上的所述智能语音处理模块及所述语言能力评估模块对所述多通道音频语音信号进行前端信号优化处理、提取多维度识别数据及语言能力评测后生成目标说话人语言能力的综合评测结果及等级分类，将综合评测结果及等级分类相应的数据输送至所述智能终端可视化展示。

14.根据权利要求13所述的云端语言能力评测系统，其特征在于：

将所述综合评测结果及所述等级分类输入到智能语音处理模块的深度学习神经网络模型中进行二次训练，再输出优化的综合评测结果及等级分类。

15.一种用于权利要求1至14任一项所述的云端语言能力评测系统的可穿戴录音终端，包括：控制主板、麦克风阵列以及存储器，麦克风阵列及存储器均与控制主板电连接，麦克风阵列采集多通道音频语音信号，并传送至控制主板，控制主板将多通道音频语音信号存储至存储器内。