CN117727292A

CN117727292A - 基于lap的语言能力评估系统

Info

Publication number: CN117727292A
Application number: CN202311691609.3A
Authority: CN
Inventors: 夏睿嫣; 周泓; 应仰威
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-19

Abstract

本发明公开了一种基于LAP的语言能力评估系统，包含：采集模块；处理模块；获取模块；标记模块；分类模块，包含分类模型，通过若干标记好的被试者的多个不同种类的声学特征对分类模型进行训练；采集待检测者的待识别语音信号，对待识别语音信号进行信号预处理和降噪处理，获取待识别语音信号的多个不同种类的待识别声学特征，将获取到的多个不同种类的待识别声学特征输入分类模块，分类模块通过训练好的分类模型输出语音能力分类结果。本发明的基于LAP的语言能力评估系统，通过设定多种检测文本任务采集对应的语音信息，并通过对应的语音信息获取不同种类的声学特征，再通过训练好的分类模型对用户的语音能力进行自动识别。

Description

基于LAP的语言能力评估系统

技术领域

本发明具体涉及一种基于LAP的语言能力评估系统。

背景技术

老年人失能已经成为我国老龄化社会面临的重大挑战，不仅影响老年人生活质量和社会参与，照护负担和社会经济负担沉重。老年人失能的发生和发展是一个动态过程，涉及运动、语言、认知为代表的八大主要风险维度。因此，失能风险因素的早期评估，是老年人失能防控的关键。

对老年人的语言能力进行及时的评估是老年人失能防控的重要一环。现有的老年人能力评估，多通过被试的自发性言语直接评估老年人的认知状态、心理健康等失能状态，直接针对老年人语言能力进行评价和打分的项目较少，忽略了语言能力本身的价值和意义。同时，现有的评估系统也更倾向于关注语言的内容和文本，从自然语言处理的角度去对被试的音频进行分析和建模，需要的技术成本更高，不利于作为疾病的早筛手段进行推广。

发明内容

本发明提供了一种基于LAP的语言能力评估系统解决上述提到的技术问题，具体采用如下的技术方案：

一种基于LAP的语言能力评估系统，其特征在于，包含：

采集模块，用于采集若干被试者执行多种检测文本任务时的语音信号；

处理模块，用于对采集的所述语音信号进行信号预处理和降噪处理；

获取模块，用于从所述语音信号中获取多个不同种类的声学特征；

标记模块，用于对若干被试者进行语音能力标记；

分类模块，包含分类模型，通过若干标记好的被试者的多个不同种类的声学特征对所述分类模型进行训练；

采集待检测者的待识别语音信号，对所述待识别语音信号进行信号预处理和降噪处理，获取所述待识别语音信号的多个不同种类的待识别声学特征，将获取到的多个不同种类的待识别声学特征输入分类模块，所述分类模块通过训练好的分类模型输出语音能力分类结果。

进一步地，通过所述采集模块采集所述语音信号的具体方法为：

设计构音检测文本任务；

采集被试者执行所述构音检测文本任务时的第一语音信号；

设计语音检测文本任务；

采集被试者执行所述语音检测文本任务时的第二语音信号；

设计流畅度检测文本任务；

采集被试者执行所述流畅度检测文本任务时的第三语音信号。

进一步地，所述获取模块获取所述语音信号的多个不同种类的声学特征的具体方法为：

所述获取模块从所述第一语音信号中获取构音声学特征；

所述获取模块从所述第二语音信号中获取语音声学特征；

所述获取模块从所述第三语音信号中获取流畅度声学特征。

进一步地，通过若干标记好的被试者的多个不同种类的声学特征和对应的基本信息对所述分类模型进行训练；

将待检测这的基本信息和识别出的多种待识别声学特征输入分类模块，所述分类模块通过训练好的分类模型输出语音能力分类结果。

进一步地，所述基本信息包含：性别、年龄段和文化程度。

进一步地，所述处理模块对采集的所述语音信号进行信号预处理和降噪处理的具体方法为：

所述处理模块采用基于LSTM模型的语音信号增强算法处理采集的语音信号。

进一步地，移动智能终端，用于供待检测者使用以完成多种所述检测文本任务；

所述移动智能终端包含：

用户注册模块，用于供待检测者进行注册登录；

信息设置模块，用于供待检测者设置个人的基本信息；

任务选择模块，用于供待检测者选择所述检测文本任务的类别；

语音播放模块，用于发出语音提示指示待检测者完成对应的所述检测文本任务；

第二采集模块，用于采集待检测者在执行对应的所述检测文本任务时的所述待识别语音信号。

进一步地，所述移动智能终端还包含所述所述处理模块、所述获取模块和所述分类模块，所述分类模块包含已训练好的所述分类模型；

所述处理模块对所述待识别语音信号进行信号预处理和降噪处理，所述获取模块获取所述待识别语音信号的多个不同种类的待识别声学特征，将获取到的多个不同种类的待识别声学特征输入分类模块，所述分类模块通过训练好的分类模型输出语音能力分类结果。

进一步地，所述基于LAP的语言能力评估系统还包含：

后台服务器，所述处理模块、所述获取模块和所述分类模块设置于所述后台服务器内，所述分类模块包含已训练好的所述分类模型；

所述移动智能终端将采集到的所述待识别语音信号发送至所述后台服务器；

所述后台服务器通过所述处理模块对所述待识别语音信号进行信号预处理和降噪处理，通过获取模块获取所述待识别语音信号的多个不同种类的待识别声学特征，将获取到的多个不同种类的待识别声学特征输入分类模块，所述分类模块通过训练好的分类模型输出语音能力分类结果，再将所述分类结果发回至所述移动智能终端。

进一步地，所述移动智能终端还包含：

结果保存模块，用于保存该用户的每次的检测结果；

智能分析模块，用于根据用户的多次检测结果以及每次检测的时间间隔生成综合分析报告，所述综合分析报告中包含针对该用户生成的语音能力的下降趋势指标；

周期设定模块，用于根据所述智能分析模块的分析结果自动设定一个匹配该用户的建议检测周期；

预警模块，用于当所述下降趋势指标达到阈值时，向该用户的监护人发送预警信息。

本发明的有益之处在于所提供的基于LAP的语言能力评估系统，通过设定多种检测文本任务采集对应的语音信息，并通过对应的语音信息获取不同种类的声学特征，再通过训练好的分类模型对用户的语音能力进行自动识别，以信号处理代替自然语言处理，降低技术成本，且提升评估的精确程度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种基于LAP的语言能力评估系统的示意图；

图2是本发明的语音信号预处理模型的一部分的示意图；

图3是本发明的语音信号预处理模型的另一部分的示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

如图1所示为本申请的一种基于LAP(linguistics、acoustics、physiology：语音学、声学、生理学)的语言能力评估系统，其特征在于，包含：采集模块、处理模块、获取模块、标记模块和分类模块。其中，采集模块用于采集若干被试者执行多种检测文本任务时的语音信号。处理模块用于对采集的语音信号进行信号预处理和降噪处理。

获取模块，用于从语音信号中获取多个不同种类的声学特征。标记模块用于对若干被试者进行语音能力标记。分类模块包含分类模型。通过若干标记好的被试者的多个不同种类的声学特征对分类模型进行训练。采集待检测者的待识别语音信号，对待识别语音信号进行信号预处理和降噪处理，获取待识别语音信号的多个不同种类的待识别声学特征，将获取到的多个不同种类的待识别声学特征输入分类模块，分类模块通过训练好的分类模型输出语音能力分类结果。结果可以输出1-10，对应相应语言能力的强弱。可以理解的是，在本申请中，分类模型为卷积神经网络模型，例如可以是VGGNet模型、ResNet模型和GoogLeNet模型等。

具体而言，本申请从语言学(linguistics)、声学(acoustics)和生理学(physiology)原理出发，设计LAP测试任务，对被试进行多维度的语言能力评估。评估的标准包括被试的构音能力(控制音节发音准确度的能力)、语音能力(控制声带和音量的能力)，以及语言流畅度(控制说话速率和节奏的能力)。结合大数据驱动的机器学习和线性回归方法，可以建立老年人语言能力分析评估模型，实现更可靠的病情诊断和更精准的评估结果。

目前临床上评估老年人语言能力的方法较为笼统，大多从语言的内容和意义出发直接对老人的理解能力和认知能力进行分析，将停顿、反复、语义不明、答非所问等情况当作主要语言特征和评判标准，忽略了自然语言本身的特性和其中所包含的信息，没有充分分析病人的整体情况。本申请针对这一问题，创新性地提出了聚焦老年人语言功能本身的分析评判标准，设计了三段式的语音数据采集任务，最大程度地挖掘被试的语言能力特征，进行清晰、明确、标准化的衡量和打分。

本申请中对老年人语言能力的测试任务，结合了语言学中语音学的重点研究部分、声学的声波性质和生理学中语言发起的生理机理进行设计的。语音学研究语音，包括言语的产生(语音如何被发出、传递和感知)，对语音和连续言语等的描写和分类。对言语的分析，可以在不同的层面上展开，本申请主要参考借鉴其中对疾病分析有帮助的部分。譬如，发音语音学注重对单个语音进行识别和归类，声学语音学则注重分析声波的性质。而分析生理学上言语障碍的主要表现，主要包括音调异常(过高过低、变化过大)、响度异常(过轻过响、变化过大)或音质异常(嘶哑、粗糙等)。最终呈现的数据采集任务分为三部分，分别对被试语言能力的不同方面进行针对性测试。

作为一种优选的实施方式，通过采集模块采集语音信号的具体方法为：

任务一：设计构音检测文本任务。采集被试者执行构音检测文本任务时的第一语音信号。

对于构音问题，病人无法运用嘴唇、舌头及口腔构成正确的辅音或原因。主要识别被试是否出现构音和发音方面的错误(如苹果发成bing果)。针对该部分，计容易产生类似错误的词组(如苹果、踢足球、背心等)，用户按照指示读出词组，记录被试的语音。

任务二：设计语音检测文本任务。采集被试者执行语音检测文本任务时的第二语音信号。

对于语音问题，指病人难以控制声带，以致难以控制声音的高低或音量。主要识别被试是否能够自主控制进行更大声/更小声的说话，一段话中音量是否均衡，有无忽高忽低。针对该部分，主要指示被试用大声或小声读相同内容。然后采集被试的语音。

任务三：设计流畅度检测文本任务。采集被试者执行流畅度检测文本任务时的第三语音信号。

对于流畅度问题，指无法以正常的速度顺畅地说话，或者无法适当地强调音节。针对该部分，有针对性地涉及一段语音，指示被试进行有感情的朗读。然后采集被试的语音。

可以理解的是，对于采集的语音，使用CLAN语料库工具对音频进行打点和切片划分处理，分离出仅含有被试部分的切片作为训练数据集，排除实验员言语上的干扰，减小误差、增强数据的可信程度。然后，通过处理模块对采集的语音信号进行信号预处理和降噪处理。

作为一种优选的实施方式，处理模块对采集的语音信号进行信号预处理和降噪处理的具体方法为：处理模块采用基于LSTM模型的语音信号增强算法处理采集的语音信号。

可以理解的是，环境噪声和设备底噪是语音分析的一个非常主要的干扰。在本申请中，采用基于LSTM模型的语音信号增强算法处理采集的音频数据。编码器的输出连接到时序模型LSTM进行时序特征抽取，解码器将通过LSTM提取的特征以及浅层编码器特征进行增强语音信号的估计。如图2和3所示，其中编码器E由L个编码器{E₁,E₂,…,E_L}组成，任意编码器E_i(i>1)由一个卷积层(卷积核为K，步长为S，输出通道为2^i-1H)，ReLU激活层，1×1卷积层(步长为S，输入通道为2^i-2H，输出通道为2^i-1H)以及GLU激活层组成。时序模型采用LSTM，其一共两层，每层的隐藏层大小为2^L-1H。

解码器D与编码器采用对称结构，为了对称以及分析方便对其进行反向编号，即D＝{D_L,…,D₂,D₁}。解码器D_i的输入由上一层解码器(也可能是LSTM模型)和E_i的输出相加产生。解码器D_i的结构与E_i是大致对称的，在E_i中的下采样卷积层对应转置卷积，转置卷积实现上采样的效果，用于恢复时序信息，从而获取降噪处理后的音频数据。

通过对语音的预处理后，通过获取模块获取语音信号的多个不同种类的声学特征。具体如下：

获取模块从第一语音信号中获取构音声学特征。

任务一的测试关注和检测被试的构音、发音能力，检测单个短发音的准确程度，故采用构音能力相关的特征集，从持续元音和连续语音话语中计算基于发音的特征，即构音声学特征。在本申请中，构音声学特征包括但不限于：Mel频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、基本频率的一阶导数、基本频率的二阶导数、抖动、闪光、振幅摄动商、间距摄动商和逻辑能量等等。这些信息能够直接从第一语音信号中获取到。通过提取的一个或多个特征组成构音声学特征集合。

获取模块从第二语音信号中获取语音声学特征。

任务二测试被试对声带发声和音量的控制，检测被试发声是否均衡、是否存在忽大忽小的问题，可以根据持续时间、基本频率和能量从连续语音中计算音量和韵律特征(计算标准差，最大值，最小值，斜度，峰度等特征)，将其作为语音声学特征。包含但不限于F0-轮廓平均，标准，最大，最小，斜度，峰度，每个浊段的F0线性估计的倾斜度平均，标准，最大，最小，斜度，峰度等等。通过提取的一个或多个特征组成语音声学特征集合。

获取模块从第三语音信号中获取流畅度声学特征。

任务三测试被试的语言流畅度，检测被试是非能流畅顺利地说话，能否恰当地强调音节，故做发音音节的节奏、速率的分析，检测是否有不合适的停顿和卡壳现象发生。计算来自持续元音的声门源重建的发音特征。主要计算计算连续声门闭合瞬间之间的时间、连续声门周期的平均值等特征。包含但不限于：连续声门闭合瞬间之间的时间变异性、连续声门周期的平均开孔商、连续声门周期的开孔商的可变性、连续声门周期的平均归一化振幅商、连续声门周期的归一化振幅商的可变性、平均H1H2、变异性H1H2、谐波丰富度因子的平均值：谐波振幅与基本频率振幅之和之比以及HRF的变异性等等。同样的，通过提取的一个或多个特征组成流畅度声学特征集合。

有了以上的特征提取数据之后，以语音录制对象为标准，随机划分为训练数据和测试数据，在模型训练中，为了验证方法的有效性，训练数据中20％的样本被随机选取作为验证集，其余80％样本被真正用于模型训练。在验证集上表现最好的模型参数，将用于测试集进行推理预测。

作为一种优选的实施方式，通过若干标记好的被试者的多个不同种类的声学特征和对应的基本信息对分类模型进行训练。将待检测这的基本信息和识别出的多种待识别声学特征输入分类模块，分类模块通过训练好的分类模型输出语音能力分类结果。其中，基本信息包含：性别(男/女)、年龄段(青年、中年、老年)和文化程度(小学、初中、高中、大学、硕士、博士、其他)等。

作为一种优选的实施方式，基于LAP的语言能力评估系统还包含：用于供待检测者使用以完成多种检测文本任务的移动智能终端，如手机。这样，用户可以通过移动智能终端自己完成具体而言，移动智能终端包含：用户注册模块、信息设置模块、任务选择模块、语音播放模块和第二采集模块。

其中，用户注册模块用于供待检测者进行注册登录。信息设置模块用于供待检测者设置个人的基本信息。任务选择模块用于供待检测者选择检测文本任务的类别。语音播放模块用于发出语音提示指示待检测者完成对应的检测文本任务。第二采集模块用于采集待检测者在执行对应的检测文本任务时的待识别语音信号。

作为一种优选的实施方式，移动智能终端还包含处理模块、获取模块和分类模块，分类模块包含已训练好的分类模型。处理模块对待识别语音信号进行信号预处理和降噪处理，获取模块获取待识别语音信号的多个不同种类的待识别声学特征，将获取到的多个不同种类的待识别声学特征输入分类模块，分类模块通过训练好的分类模型输出语音能力分类结果。

这样，用户的智能移动终端能够完成所有的数据采集、处理和识别工作。

作为一种优选的实施方式，移动智能终端还包含：结果保存模块、智能分析模块、周期设定模块和预警模块。结果保存模块用于保存该用户的每次的检测结果。智能分析模块用于根据用户的多次检测结果以及每次检测的时间间隔生成综合分析报告，综合分析报告中包含针对该用户生成的语音能力的下降趋势指标。周期设定模块用于根据智能分析模块的分析结果自动设定一个匹配该用户的建议检测周期。预警模块用于当下降趋势指标达到阈值时，向该用户的监护人发送预警信息。监护人可以在接收到预警信息后可以为用户进行线上预约医生等后续操作。

作为一种可选的实施方式，基于LAP的语言能力评估系统还包含：后台服务器。

处理模块、获取模块和分类模块设置于后台服务器内，分类模块包含已训练好的分类模型。移动智能终端将采集到的待识别语音信号发送至后台服务器。后台服务器通过处理模块对待识别语音信号进行信号预处理和降噪处理，通过获取模块获取待识别语音信号的多个不同种类的待识别声学特征，将获取到的多个不同种类的待识别声学特征输入分类模块，分类模块通过训练好的分类模型输出语音能力分类结果，再将分类结果发回至移动智能终端。

与前一实施方式不同的是，在本实施方式中，数据的处理和分析均通过远程的后台服务器完成。可以理解的是，对语音数据的处理和分析需要的算力非常大，而一般的移动智能终端可能无法满足算力需求。因此，在本实施方式中，将数据处理和分析部分交由后台服务器完成，后台服务器完成分析并得到分类结果后将结果发送到移动智能终端。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于LAP的语言能力评估系统，其特征在于，包含：

标记模块，用于对若干被试者进行语音能力标记；

2.根据权利要求1所述的基于LAP的语言能力评估系统，其特征在于，

通过所述采集模块采集所述语音信号的具体方法为：

设计构音检测文本任务；

采集被试者执行所述构音检测文本任务时的第一语音信号；

设计语音检测文本任务；

采集被试者执行所述语音检测文本任务时的第二语音信号；

设计流畅度检测文本任务；

3.根据权利要求2所述的基于LAP的语言能力评估系统，其特征在于，

所述获取模块获取所述语音信号的多个不同种类的声学特征的具体方法为：

所述获取模块从所述第一语音信号中获取构音声学特征；

所述获取模块从所述第二语音信号中获取语音声学特征；

所述获取模块从所述第三语音信号中获取流畅度声学特征。

4.根据权利要求1所述的基于LAP的语言能力评估系统，其特征在于，

通过若干标记好的被试者的多个不同种类的声学特征和对应的基本信息对所述分类模型进行训练；

5.根据权利要求4所述的基于LAP的语言能力评估系统，其特征在于，

所述基本信息包含：性别、年龄段和文化程度。

6.根据权利要求1所述的基于LAP的语言能力评估系统，其特征在于，

所述处理模块对采集的所述语音信号进行信号预处理和降噪处理的具体方法为：

7.根据权利要求1所述的基于LAP的语言能力评估系统，其特征在于，

移动智能终端，用于供待检测者使用以完成多种所述检测文本任务；

所述移动智能终端包含：

用户注册模块，用于供待检测者进行注册登录；

信息设置模块，用于供待检测者设置个人的基本信息；

8.根据权利要求7所述的基于LAP的语言能力评估系统，其特征在于，

所述移动智能终端还包含所述所述处理模块、所述获取模块和所述分类模块，所述分类模块包含已训练好的所述分类模型；

9.根据权利要求7所述的基于LAP的语言能力评估系统，其特征在于，

所述基于LAP的语言能力评估系统还包含：

10.根据权利要求8或9任一所述的基于LAP的语言能力评估系统，其特征在于，

所述移动智能终端还包含：

结果保存模块，用于保存该用户的每次的检测结果；