CN109448758B

CN109448758B - 语音韵律异常评估方法、装置、计算机设备和存储介质

Info

Publication number: CN109448758B
Application number: CN201811220665.8A
Authority: CN
Inventors: 李明; 邹小兵
Original assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Current assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2022-07-12
Anticipated expiration: 2038-10-19
Also published as: CN109448758A

Abstract

本申请涉及一种孤独症语音韵律异常评估方法、装置、计算机设备和存储介质。所述方法包括：录音采集语音测试数据；提取所述语音测试数据中被测试者的语音数据，并进行语音片段划分；选出测试数据中对评估有效的语音片段；提取所述有效语音片段中的频谱特征；采用得出的评估模型对所述频谱特征进行评估。采用本方法能够能够提供客观的语音韵律异常自动量化评分，能够有效地增加诊断的客观性以及便捷性。

Description

语音韵律异常评估方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音信号处理技术领域，特别是涉及一种孤独症语音韵律异常评估方法、装置、计算机设备和存储介质。

背景技术

孤独症谱系障碍(Autism Spectrum Disorder，ASD)是一种儿童神经发育性疾病，根据美国疾病控制预防中心基于全美多地区的记录显示，大约每59个儿童中就有1位被诊断为孤独症谱系障碍。实际上，孤独症谱系障碍已经是在世界范围内十分严重并且普遍的问题,早期诊断及早期干预是其中关键。

在副语言信息中，韵律(prosody)特征，包括语调、音调、音量、节奏等，可以反映众多重要的说话人语言状态信息；而患有孤独症谱系障碍的儿童日常交流时经常表现出不同于正常语音的韵律特征。例如，孤独症儿童有时会出现用缺乏语调变化的平坦，机器般的音调说话；又或者是过多的变化，唱歌般的说话。

大多数现有的ASD临床诊断方法主要是对语言交流障碍、社会交往障碍、重复刻板行为这几方面的测评，其中语音中的韵律信息对语言交流障碍的诊断具有重要的作用。现在最广泛应用的测量方法包括孤独症诊断观察量表(Autism Diagnostic ObservationSchedule,ADOS)。ADOS量表对每一个观测项目，根据异常的严重程度，从0到2进行量化。以韵律异常为例，0表示与观测对象交流时，其语音没有韵律异常；1表示在音调上有些异常、语调过于平或过高、音量有点异常、语速过快、过慢或者不稳定；2表示在上述方面有显著且一致的异常。

在实际诊断中，临床医生需要识别与语音与语义相关的多种行为特征，需要专业的训练已经丰富的临床经验；并且，由于临床医生之间的主观诊断不一致，有时会使结果在某些程度上具有不确定性。如果能够利用语音的副语言属性，利用人工智能与机器学习的方法自动地量化语音韵律异常，能够有效地增加评估的客观性以及便捷性，适合用于早期筛查。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提供客观的语音韵律异常量化评分的孤独症语音韵律异常评估方法、装置、计算机设备和存储介质。

一种孤独症语音韵律异常评估方法，包括：

录音采集语音测试数据；

提取所述语音测试数据中被测试者的语音数据，并进行语音片段划分；

选出测试数据中对评估有效的语音片段；

提取所述有效语音片段中的频谱特征；

采用得出的评估模型对所述频谱特征进行评估。

可选地，得出所述评估模型包括：

录音采集语音训练数据，所述训练数据包括预定个数的被评估者语音数据和测试者对被评估者的语音韵律异常的主观量化得分，所述被评估者包括患有孤独症个体与正常个体；

提取所述语音训练数据中被评估者的语音数据，并进行语音片段划分；

利用交叉验证和特征分类器从所述语音片段中选出被评估者语音训练数据中对评估有效的语音片段；

提取所述有效语音片段中频谱特征；

使用深度神经网络对提取的所述频谱特征进行训练得到语音韵律异常的所述评估模型。

可选地，利用交叉验证和特征分类器从所述语音片段中选出被评估者语音训练数据中对评估有效的语音片段，包括采用弃一交叉验证：

从训练数据中选出一个被评估者的语音片段，剩下的训练数据训练一个分类模型用以预测所述的语音片段的韵律异常的量化得分；训练完成之后，被选中的被评估者的语音片段在所述分类模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签，其中“有效”表示韵律异常的量化得分预测正确，“无效”表示韵律异常的量化得分预测错误；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，训练一个特征分类器，对所有训练数据语音片段的句子层面的特征进行“有效”或者“无效”的分类。

可选地，选出测试数据中对评估有效的语音片段，包括：将测试数据语音片段句子层面的特征通过所述特征分类器进行分类，判断各所述语音片段对于语音韵律异常检测“有效”或“无效”。

可选地，进行语音片段划分包括：

测试数据的语音数据切分为预定时长的语音片段；

切分训练数据的语音数据时设置小于所述预定时长的窗移，得到具有重叠但不完全相同的预定时长的语音片段。

可选地，还包括将提取的测试数据中的语音数据或训练数据中的语音数据进行说话人日志和能量平衡，所述能量平衡将语音片段中每一帧的能量减去整个语音片段中的能量最低值，再除以语音片段的能量极差。

可选地，所述频谱特征包括短时傅里叶变换频谱、常数Q变换频谱、修正群延迟频谱中的任一种或任几种的组合。

可选地，所述深度神经网络为卷积神经网络、双向长短时记忆网络、卷积神经网络+循环神经网络中的任一种或任几种的组合。

另外，本发明还提供了一种孤独症语音韵律异常评估装置，包括：

采集模块，用于录音采集语音测试数据；

数据预处理模块，用于从所述语音测试数据中提取被测试者的语音数据，并进行语音片段划分；

数据选择模块，用于利用特征分类器从所述语音片段中选出被测试者的语音数据中对评估有效的语音片段；

特征提取模块，用于从所述有效语音片段中提取频谱特征；

模型训练模块，用于得到预测语音韵律异常的评估模型；

预测模块，用于采用所述评估模型对提取的频谱特征进行评估。

可选地，所述采集模块，还用于录音采集语音训练数据，所述训练数据包括预定个数的被评估者语音数据和测试者对被评估者的语音韵律异常的主观量化得分，所述被评估者包括患有孤独症个体与正常个体；

数据预处理模块，还用于从所述语音训练数据中提取被评估者语音数据，并进行语音片段划分；

数据选择模块，还用于利用交叉验证和特征分类器从所述语音片段中选出被评估者的语音数据中对评估有效的语音片段；

特征提取模块，还用于从所述有效语音片段中提取频谱特征；

模型训练模块，还用于将提取的频谱特征进行深度神经网络训练得到预测语音韵律异常的评估模型。

可选地，交叉验证包括：从训练数据中选出一个被评估者的语音片段，剩下的训练数据训练一个分类模型用以预测所述的语音片段的韵律异常的量化得分；训练完成之后，被选中的被评估者的语音片段在所述分类模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签，其中“有效”表示韵律异常的量化得分预测正确，“无效”表示韵律异常的量化得分预测错误；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，训练一个特征分类器，对所有训练数据语音片段的句子层面的特征进行“有效”或者“无效”的分类。

可选地，所述数据预处理模块进行语音片段划分包括：

测试数据的语音数据切分为预定时长的语音片段；

切分训练数据的语音数据时设置小于所述预定时长的窗移，得到具有重叠但不完全相同的预定时长的语音片段

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

录音采集语音测试数据；

选出测试数据中对评估有效的语音片段；

提取所述有效语音片段中的频谱特征；

采用得出的评估模型对所述频谱特征进行评估。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

录音采集语音测试数据；

选出测试数据中对评估有效的语音片段；

提取所述有效语音片段中的频谱特征；

采用得出的评估模型对所述频谱特征进行评估。

上述孤独症语音韵律异常评估方法、装置、计算机设备和存储介质，通过基于语音副语言属性与深度学习相结合，对被测试者的语音数据进行分析，实现ASD语音韵律异常客观量化自动评分，能够有效地增加诊断的客观性以及便捷性。

附图说明

图1为一个实施例中孤独症语音韵律异常评估方法流程示意图；

图2为一个实施例中得出评估模型方法流程示意图；

图3为另一个实施例中孤独症语音韵律异常评估方法步骤流程示意图；

图4为一个实施例中有效语音片段选取方法流程示意图；

图5为一个实施例中孤独症语音韵律异常评估装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本实施例中一种孤独症语音韵律异常评估方法，如图1所示，包括：

S101、录音采集语音测试数据；

S102、提取所述语音测试数据中被测试者的语音数据，并进行语音片段划分；

S103、选出测试数据中对评估有效的语音片段；

S104、提取所述有效语音片段中的频谱特征；

S105、采用得出的评估模型对所述频谱特征进行评估。

可以但不限于，如图2所示，得出所述评估模型包括：

S201、录音采集语音训练数据，所述训练数据包括预定个数的被评估者语音数据和测试者对被评估者的语音韵律异常的主观量化得分，所述被评估者包括患有孤独症个体与正常个体；

S202、提取所述语音训练数据中被评估者的语音数据，并进行语音片段划分；

S203、利用交叉验证和特征分类器从所述语音片段中选出被评估者语音训练数据中对评估有效的语音片段；

S204、提取所述有效语音片段中频谱特征；

S205、使用深度神经网络对提取的所述频谱特征进行训练得到语音韵律异常的所述评估模型。

在一个实施例中，利用交叉验证和特征分类器从所述语音片段中选出被评估者语音训练数据中对评估有效的语音片段，包括采用弃一交叉验证：

选出测试数据中对评估有效的语音片段，包括：将测试数据语音片段句子层面的特征通过所述特征分类器进行分类，判断各所述语音片段对于语音韵律异常检测“有效”或“无效”。

在一个实施例中，进行语音片段划分包括：

测试数据的语音数据切分为预定时长的语音片段；

在一个实施例中，还包括将提取的测试数据中的语音数据或训练数据中的语音数据进行说话人日志和能量平衡，所述能量平衡将语音片段中每一帧的能量减去整个语音片段中的能量最低值，再除以语音片段的能量极差。

在一个实施例中，所述频谱特征包括短时傅里叶变换频谱、常数Q变换频谱、修正群延迟频谱中的任一种或任几种的组合。

在一个实施例中，所述深度神经网络为卷积神经网络、双向长短时记忆网络、卷积神经网络+循环神经网络中的任一种或任几种的组合。

在一个实施例中，如图3所示，采集参与实验人员在进行孤独症早期筛查时的语音数据，所述参与的实验人员包括临床医生、患有ASD个体与正常个体；通过说话人日志(speaker diarization)从语音数据中提取出被评估者的语音数据，并且进行语音片段划分；利用的交叉验证(cross validation)以及特征分类器从所有的语音片段中选出对于检测韵律异常有用的语音片段；从收集到的语音片段提取频谱特征；采用提取出来的频谱特征训练深度神经网络，得到预测ASD韵律异常的评估模型；采用由模型训练模块获取的预测ASD韵律异常的评估模型对测试者进行测试，对测试者的韵律异常严重程度进行评估预测。

使用录音设备采集临床医生对被评估儿童进行早期筛查时的语音数据，被评估儿童包括患ASD的个体与正常个体；采集的数据分为训练数据与测试数据，对于训练数据，同时采集临床医生对被评估者的语音韵律异常的量化得分。将采集到地数据进行说话人日志、分段、能量平衡，以提纯数据，最大化后端分类器的模型性能，具体地：说话人日志从采集到的所有数据中，提取出被评估儿童的语音片段；将儿童语音片段切分为s秒等长的语音；对于训练数据，为了增加语音数据条数，切分语音时设置小于s秒的窗移，得到带有一定重叠的但不完全相同的s秒等长的语音片段；能量平衡将语音片段中的每一帧的能量在减去整个声音片段中的能量最低值，然后除以片段的极差，将整个片段的能量规整到0-1之间，同时对能量的变化完整的保留下来。

从所有的s秒语音片段中挑选出对于检测韵律异常有用的语音片段，是本发明的一个子系统，分为训练阶段以及测试阶段，具体地：在训练阶段：采用弃一交叉验证(leave-one-out cross validation)，将同一个人A的语音片段从训练数据中挑出，剩下的训练数据训练一个分类模型用以预测A的语音片段的韵律异常的量化得分；训练完成之后，之前被挑出的A人语音片段在此模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签，其中“有效”表示韵律异常的量化得分预测正确，“无效”表示韵律异常的量化得分预测错误；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，训练一个特征分类器，如图4所示，对所有训练数据语音片段的句子层面的特征进行“有效”或者“无效”的分类；在测试阶段：将测试数据语音片段的句子层面的特征通过上述分类器进行分类，判断这个语音片段对于语音韵律异常检测“有效”或“无效”。

对有效语音片段提取其频谱特征，其中频谱特征有多种选择，包括但不受限于短时傅里叶变换(short time Fourier transform,STFT)频谱、常数Q变换(constant Qtransform,CQT)频谱、修正群延迟(modified group delay,MGD)频谱，具体地：STFT频谱对语音信号进行短时傅里叶变化，得到语音信号在不同时间点的频率响应，是频谱的一般做法；CQT与STFT类似，但在频率域，每个滤波器的中心频率与其频带宽度的比值保持为常数Q，CQT在低频分量有更高的频率分辨率，在高频分量有更低的频率分辨率，因此CQT频谱相比STFT频谱更符合人耳的听觉特性，是一种听觉感知的频谱；MGD频谱是一种包含相位信息的频谱。

使用深度神经网络对提取的频谱特征进行训练，得到预测ASD韵律异常的评估模型；深度神经网络的选择包括但不受限与卷积神经网络(Convolutional Neural Network,CNN)、双向长短时记忆网络(Bidirectional Long Short-Term Memory Neural Network,BLSTM)以及卷积神经网络+循环神经网络(Recurrent Neural Networks,RNN)的网络组合，具体地：

卷积神经网络的输入为“有效”的训练数据的频谱特征，通过卷积层、池化层(pooling layer)以及全连接层(fully connected layer)来对医生给出的韵律异常量化得分做拟合；

双向长短时记忆网络的输入为“有效”的训练数据的频谱特征，通过多层的双向长短时记忆单元(Long Short-Term Memory Cell)以及全连接层，对医生给出的韵律异常量化得分做拟合；

CNN+RNN的输入为“有效”的训练数据的频谱特征，经过CNN的卷积层以及池化层之后，二维的频谱特征拓展为三维的张量(tensor)，三维张量有一维为时间，两外的两维规整成一维特征；对这个三维的时序序列输入到RNN中，得到的输出经过全连接层，对医生给出的韵律异常量化得分做拟合。

将测试者的“有效”的语音片段的频谱特征经过深度神经网络，得到测试数据“有效”的语音片段的在深度神经网络上的韵律异常得分，将同一个人所有语音片段的得分进行多数投票(majority voting)，得到最终此测试者的韵律异常量化得分。

在一个实施例中，采集孤独症个体与正常个体分别在孤独症筛查时的语音数据，具体地：在被测个体与临床医生身上分别放置麦克风录制音频，从而获得双通道的音频数据，得到儿童与医生的较高质量与纯度的音频；同时采集临床医生对被评估者的语音韵律异常的量化得分。

在该实施例中，采集到118个儿童进行ADOS模块二评估的语音数据，详细的数据统计如下表1：

将采集到的语音数据进行说话人日志、分段、能量平衡，以提纯数据，最大化后端分类器的模型性能，具体地：

在该实施例中，说话人日志从采集到118个语音中，提取出被评估儿童在讲话的语音片段；

分段将经过说话人日志后的儿童语音片段切分为3秒等长的语音；对于训练数据中韵律异常得分为“0”的语音，切分语音时设置150毫秒的窗移，对于训练数据中韵律异常得分为“1”或者“2”的语音，切分语音时设置600毫秒的窗移，以增加训练数据的语音条数，平衡“0”和“1&2”的数据分布；在该实施例中，语音分段后的训练数据语音片段的数目如表2；

能量平衡将切分好的语音片段中的每一帧的能量在减去整个声音片段中的能量最低值，然后除以片段的极差，将整个片段的能量规整到0-1之间。

从所有的3秒语音片段中挑选出对于检测韵律异常有用的语音片段，是本发明的一个子系统，如图4所示，分为训练阶段以及测试阶段，具体地：

在该实施例中，训练时采用弃一交叉验证(leave-one-out cross validation)，将同一个人的语音片段从93个人的训练语音中挑出，剩下的92个人的语音片段训练一个CNN神经网络用以预测语音片段的韵律异常的量化得分；训练完成之后，之前被挑出的语音片段在此模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，使用OpenSMILE特征提取器提取所有语音片段句子层面(utterance level)的特征，在这些特征上训练支持向量机(Support Vector Machine,SVM)，对所有训练数据的语音片段进行“有效”或者“无效”的分类；OpenSMILE(open Speech and Music Interpretation by LargeSpace Extraction)是一个用于信号处理和机器学习的语音特征提取器，它具有高度模块化和灵活性等特点，可以提取处句子层面的声学和韵律统计特征。

在测试阶段：使用OpenSMILE特征提取器提取所有测试数据的语音片段的句子层面的特征，对这些特征使用上述SVM分类器进行分类，得到语音片段对于语音韵律异常检测“有效”或“无效”的标签；

在该实施例中，经过数据选择之后的语音片段的数目如表2。

表2：本实施例中语音分段之后的语音数目

对有效的语音片段提取其频谱特征；在本实施例中，使用CQT频谱与MGD频谱作为频谱特征。

使用深度神经网络对提取的频谱特征进行训练，得到预测ASD韵律异常的评估模型；在本实施例中，使用三种不同的模型：卷积神经网络(Convolutional Neural Network,CNN)、双向长短时记忆网络(Bidirectional Long Short-Term Memory Neural Network,BLSTM)以及卷积神经网络+循环神经网络(Recurrent Neural Networks,RNN)的网络组合；具体地：

双向长短时记忆网络的输入为“有效”的训练数据的频谱特征，通过多层的双向长短时记忆单元(Bidirectional Long Short-Term Memory Cell)以及全连接层，对医生给出的韵律异常量化得分做拟合；

CNN+RNN的输入为“有效”的训练数据的频谱特征，经过CNN的卷积层以及池化层之后，二维的频谱特征拓展为三维的张量(tensor)，三维张量有一维为时间，两外的两维规整成一维特征；对这个三维的时序序列输入到RNN中，得到的输出经过全连接层，对医生给出的韵律异常量化得分做拟合；在该实施例中，RNN使用长短时记忆网络(Long Short-TermMemory,LSTM)或者门控循环单元(Gated Recurrent Unit,GRU)；在本实施例中，上述三种深度神经网络的模型结构如下表3：

将被测试者的“有效”的语音片段的频谱特征经过深度神经网络，得到被测试数据“有效”的语音片段的在深度神经网络上的韵律异常得分，将该被测试者所有语音片段的得分进行多数投票(majority voting)，得到最终此被测试者的韵律异常量化得分。

实验评估准则：

实验中，使用无加权平均召回率(unweighted average recall,UAR)评估预测结果的性能，UAR计算公式如下所示，

其中n为分类数，N_i为类别i的样本数，N′_i为正确识别为类别i的样本数。

实验结果：

1、韵律异常得分三分类实验结果

本实施例中，首先在经过数据预处理但没有做数据选择的CQT频谱特征上训练CNN以及RNN预测模型，预测韵律异常得分，这里我们给出0vs1vs2的三分类结果，如下表4：

从表中可以观察到CNN在段级别上的性能优于RNN，这可能是因为CNN结构中的参数较少，因此不太可能过度拟合小规模的训练数据。

韵律异常得分的三分类结果最高为62.1％(随机打分结果为33％)，其中一个原因是得分为“1”与“2”在严重性级别方面存在模糊的主观边界；另一个可能的原因可能是不同类别之间的数据分布不均衡。

2、韵律异常得分二分类实验结果

由于临床医生在评估受试者的语音韵律异常得分时具有一定的主观性，这使得数据的得分与实际情况并不总是一致：一般来说，临床医生在判断韵律异常的严重程度时，会比判断是否存在韵律异常表现出更低的确信度。因此，本实施例通过将得分“1”与得分“2”合并来对是否存在韵律异常进行两分类。

本实施例中，在经过数据预处理但没有做数据选择的CQT频谱特征上训练CNN、RNN以及CNN+RNN预测模型，在MGD频谱上训练RNN模型，预测受试者是否存在韵律异常，实验结果如下表5：

数据选择实验结果：

本实施例中，将所有训练数据与测试数据进行数据选择，得到“有效”的语音片段，在训练数据的“有限”语音片段提取CQT与MGD频谱，用以训练RNN网络；测试数据的“有效”语音片段在模型上预测，实验结果如下表6所示：

通过基于语音副语言属性与深度学习相结合，对被测试者的语音数据进行分析，实现ASD语音韵律异常客观量化自动评分，能够有效地增加诊断的客观性以及便捷性。

应该理解的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本发明还提供了一种基于语音副语言属性与机器学习相结合的孤独症语音韵律异常自动评估装置，如图5所示，包括：

采集模块10，用于录音采集语音测试数据；

数据预处理模块20，用于从所述语音测试数据中提取被测试者的语音数据，并进行语音片段划分；

数据选择模块30，用于利用特征分类器从所述语音片段中选出被测试者的语音数据中对评估有效的语音片段；

特征提取模块40，用于从所述有效语音片段中提取频谱特征；

模型训练模块50，用于得到预测语音韵律异常的评估模型；

预测模块60，用于采用所述评估模型对提取的频谱特征进行评估。

可以但不限于，所述采集模块10，还用于录音采集语音训练数据，所述训练数据包括预定个数的被评估者语音数据和测试者对被评估者的语音韵律异常的主观量化得分，所述被评估者包括患有孤独症个体与正常个体；

数据预处理模块20，还用于从所述语音训练数据中提取被评估者语音数据，并进行语音片段划分；

数据选择模块30，还用于利用交叉验证和特征分类器从所述语音片段中选出被评估者的语音数据中对评估有效的语音片段；

特征提取模块40，还用于从所述有效语音片段中提取频谱特征；

模型训练模块50，还用于将提取的频谱特征进行深度神经网络训练得到预测语音韵律异常的评估模型。

在一个实施例中，交叉验证包括：从训练数据中选出一个被评估者的语音片段，剩下的训练数据训练一个分类模型用以预测所述的语音片段的韵律异常的量化得分；训练完成之后，被选中的被评估者的语音片段在所述分类模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签，其中“有效”表示韵律异常的量化得分预测正确，“无效”表示韵律异常的量化得分预测错误；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，训练一个特征分类器，对所有训练数据语音片段的句子层面的特征进行“有效”或者“无效”的分类。

在一个实施例中，所述数据预处理模块进行语音片段划分包括：

测试数据的语音数据切分为预定时长的语音片段；

在一个实施例中，采集模块10，用于控制及接收录音，采集参与实验人员在进行孤独症早期筛查时的语音数据，所述参与的实验人员包括临床医生、患有ASD个体与正常个体；

数据预处理模块20，用于通过说话人日志(speaker diarization)从语音数据中提取出被评估者的语音数据，并且进行语音片段划分；

数据选择模块30，用于利用的交叉验证(cross validation)以及特征分类器从所有的语音片段中选出对于检测韵律异常有用的语音片段；

特征提取模块40，用于从收集到的语音片段提取频谱特征；

模型训练模块50，用于采用提取出来的频谱特征训练深度神经网络，得到预测ASD韵律异常的评估模型；

预测模块60，用于采用由模型训练模块获取的预测ASD韵律异常的评估模型对测试者进行测试，对测试者的韵律异常严重程度进行评估预测。

所述采集模块10使用录音设备采集临床医生对被评估儿童进行早期筛查时的语音数据，被评估儿童包括患ASD的个体与正常个体；采集的数据分为训练数据与测试数据，对于训练数据，同时采集临床医生对被评估者的语音韵律异常的量化得分。

所述数据预处理模块20将采集到地数据进行说话人日志、分段、能量平衡，以提纯数据，最大化后端分类器的模型性能，具体地：

说话人日志从采集到的所有数据中，提取出被评估儿童的语音片段；

将儿童语音片段切分为s秒等长的语音；对于训练数据，为了增加语音数据条数，切分语音时设置小于s秒的窗移，得到带有一定重叠的但不完全相同的s秒等长的语音片段；

能量平衡将语音片段中的每一帧的能量在减去整个声音片段中的能量最低值，然后除以片段的极差，将整个片段的能量规整到0-1之间，同时对能量的变化完整的保留下来。

所述数据选择模块30从所有的s秒语音片段中挑选出对于检测韵律异常有用的语音片段，是本发明的一个子系统，分为训练阶段以及测试阶段，具体地：

在训练阶段：采用弃一交叉验证(leave-one-out cross validation)，将同一个人A的语音片段从训练数据中挑出，剩下的训练数据训练一个分类模型用以预测A的语音片段的韵律异常的量化得分；训练完成之后，之前被挑出的A人语音片段在此模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签，其中“有效”表示韵律异常的量化得分预测正确，“无效”表示韵律异常的量化得分预测错误；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，训练一个分类器，对所有训练数据语音片段的句子层面的特征进行“有效”或者“无效”的分类；

在测试阶段：将测试数据语音片段的句子层面的特征通过上述分类器进行分类，判断这个语音片段对于语音韵律异常检测“有效”或“无效”。

所述特征提取模块对于经过数据预处理模块以及数据选择模块的语音片段，提取其频谱特征，其中频谱特征有多种选择，包括但不受限于短时傅里叶变换(short timeFourier transform,STFT)频谱、常数Q变换(constant Q transform,CQT)频谱、修正群延迟(modified group delay,MGD)频谱，具体地：STFT频谱对语音信号进行短时傅里叶变化，得到语音信号在不同时间点的频率响应，是频谱的一般做法；CQT与STFT类似，但在频率域，每个滤波器的中心频率与其频带宽度的比值保持为常数Q，CQT在低频分量有更高的频率分辨率，在高频分量有更低的频率分辨率，因此CQT频谱相比STFT频谱更符合人耳的听觉特性，是一种听觉感知的频谱；MGD频谱是一种包含相位信息的频谱。

所述模型训练模块，使用深度神经网络对提取的频谱特征进行训练，得到预测ASD韵律异常的评估模型；深度神经网络的选择包括但不受限与卷积神经网络(ConvolutionalNeural Network,CNN)、双向长短时记忆网络(Bidirectional Long Short-Term MemoryNeural Network,BLSTM)以及卷积神经网络+循环神经网络(Recurrent Neural Networks,RNN)的网络组合，具体地：

所述预测模块将测试者的“有效”的语音片段的频谱特征经过深度神经网络，得到测试数据“有效”的语音片段的在深度神经网络上的韵律异常得分，将同一个人所有语音片段的得分进行多数投票(majority voting)，得到最终此测试者的韵律异常量化得分。

在一个实施例中，如图3所示，采集模块10，用于采集孤独症个体与正常个体分别在孤独症筛查时的语音数据，具体地：在被测个体与临床医生身上分别放置麦克风录制音频，从而获得双通道的音频数据，得到儿童与医生的较高质量与纯度的音频；同时采集临床医生对被评估者的语音韵律异常的量化得分。

数据预处理模块20将采集到的语音数据进行说话人日志、分段、能量平衡，以提纯数据，最大化后端分类器的模型性能，具体地：

数据选择模块30从所有的3秒语音片段中挑选出对于检测韵律异常有用的语音片段，是本发明的一个子系统，如图4所示，分为训练阶段以及测试阶段，具体地：

在该实施例中，经过数据选择之后的语音片段的数目如表2。

表2：本实施例中语音分段之后的语音数目

特征提取模块40对于经过数据预处理模块20以及数据选择模块30的语音片段，提取其频谱特征；在本实施例中，使用CQT频谱与MGD频谱作为频谱特征。

模型训练模块50，使用深度神经网络对提取的频谱特征进行训练，得到预测ASD韵律异常的评估模型；在本实施例中，使用三种不同的模型：卷积神经网络(ConvolutionalNeural Network,CNN)、双向长短时记忆网络(Bidirectional Long Short-Term MemoryNeural Network,BLSTM)以及卷积神经网络+循环神经网络(Recurrent Neural Networks,RNN)的网络组合；具体地：

预测模块60，将被测试者的“有效”的语音片段的频谱特征经过深度神经网络，得到被测试数据“有效”的语音片段的在深度神经网络上的韵律异常得分，将该被测试者所有语音片段的得分进行多数投票(majority voting)，得到最终此被测试者的韵律异常量化得分。

实验评估准则：

实验结果：

1、韵律异常得分三分类实验结果

2、韵律异常得分二分类实验结果

模型	输入特征	语音片段UAR	被测人UAR
				RNN	CQT频谱	78.4％	83.3％
RNN	MGD频谱	67.3％	72.0％
				CNN	CQT频谱	78.2％	85.7％
CNN+RNN(LSTM)	CQT频谱	77.4％	83.3％
				CNN+RNN(GRU)	CQT频谱	69.8％	72.0％

数据选择实验结果：

上述孤独症语音韵律异常自动评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种孤独症语音韵律异常自动评估方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，如图1所示，所述处理器执行所述计算机程序时实现如下步骤：

S101、录音采集语音测试数据；

S103、选出测试数据中对评估有效的语音片段；

S104、提取所述有效语音片段中的频谱特征；

S105、采用得出的评估模型对所述频谱特征进行评估。

一种计算机可读存储介质，其上存储有计算机程序，如图1所示，所述计算机程序被处理器执行时实现如下步骤：

S101、录音采集语音测试数据；

S103、选出测试数据中对评估有效的语音片段；

S104、提取所述有效语音片段中的频谱特征；

S105、采用得出的评估模型对所述频谱特征进行评估。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种孤独症语音韵律异常评估方法，其特征在于，包括：

录音采集语音测试数据；

选出测试数据中对评估有效的语音片段；

提取所述有效语音片段中的频谱特征；

采用得出的评估模型对所述频谱特征进行评估；

利用交叉验证和特征分类器从所述语音片段中选出被评估者语音训练数据中对评估有效的语音片段，包括采用弃一交叉验证：

从训练数据中选出一个被评估者的语音片段，剩下的训练数据训练一个分类模型用以预测所述的语音片段的韵律异常的量化得分；训练完成之后，被选中的被评估者的语音片段在所述分类模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签，其中“有效”表示韵律异常的量化得分预测正确，“无效”表示韵律异常的量化得分预测错误；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，训练一个特征分类器，对所有训练数据语音片段的句子层面的特征进行“有效”或者“无效”的分类；

2.如权利要求1所述的一种孤独症韵律异常评估方法，其特征在于，得出所述评估模型包括：

提取所述有效语音片段中频谱特征；

3.如权利要求1所述的一种孤独症韵律异常评估方法，其特征在于，进行语音片段划分包括：

测试数据的语音数据切分为预定时长的语音片段；

4.如权利要求3所述的一种孤独症韵律异常评估方法，其特征在于，还包括将提取的测试数据中的语音数据或训练数据中的语音数据进行说话人日志和能量平衡，所述能量平衡将语音片段中每一帧的能量减去整个语音片段中的能量最低值，再除以语音片段的能量极差。

5.如权利要求4所述的一种孤独症韵律异常评估方法，其特征在于，所述频谱特征包括短时傅里叶变换频谱、常数Q变换频谱、修正群延迟频谱中的任一种或任几种的组合。

6.如权利要求2所述的一种孤独症韵律异常评估方法，其特征在于，所述深度神经网络为卷积神经网络、双向长短时记忆网络、卷积神经网络+循环神经网络中的任一种或任几种的组合。

7.一种孤独症语音韵律异常评估装置，其特征在于，包括：

采集模块，用于录音采集语音测试数据；

特征提取模块，用于从所述有效语音片段中提取频谱特征；

模型训练模块，用于得到预测语音韵律异常的评估模型；

预测模块，用于采用所述评估模型对提取的频谱特征进行评估；

利用交叉验证和特征分类器从所述语音片段中选出被评估者语音训练数据中对评估有效的语音片段，包括采用弃一交叉验证，所述弃一交叉验证包括：从训练数据中选出一个被评估者的语音片段，剩下的训练数据训练一个分类模型用以预测所述的语音片段的韵律异常的量化得分；训练完成之后，被选中的被评估者的语音片段在所述分类模型上进行预测，得到语音片段对于语音韵律异常检测“有效”或者“无效”的预测标签，其中“有效”表示韵律异常的量化得分预测正确，“无效”表示韵律异常的量化得分预测错误；通过交叉验证得到训练数据上所有语音片段的“有效”或者“无效”的标签后，训练一个特征分类器，对所有训练数据语音片段的句子层面的特征进行“有效”或者“无效”的分类。

8.如权利要求7所述的一种孤独症韵律异常评估装置，其特征在于，

所述采集模块，还用于录音采集语音训练数据，所述训练数据包括预定个数的被评估者语音数据和测试者对被评估者的语音韵律异常的主观量化得分，所述被评估者包括患有孤独症个体与正常个体；

9.如权利要求7所述的一种孤独症韵律异常评估装置，其特征在于，所述数据预处理模块进行语音片段划分包括：

测试数据的语音数据切分为预定时长的语音片段；

10.如权利要求9所述的一种孤独症韵律异常评估装置，其特征在于，所述频谱特征包括短时傅里叶变换频谱、常数Q变换频谱、修正群延迟频谱中的任一种或任几种的组合。

11.如权利要求8所述的一种孤独症韵律异常评估装置，其特征在于，所述深度神经网络为卷积神经网络、双向长短时记忆网络、卷积神经网络+循环神经网络中的任一种或任几种的组合。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。