CN111179919B

CN111179919B - 一种确定失语类型的方法及装置

Info

Publication number: CN111179919B
Application number: CN201911325531.7A
Authority: CN
Inventors: 薛志东; 彭朋; 唐静; 区士颀; 薛森原
Original assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-11-04
Anticipated expiration: 2039-12-20
Also published as: CN111179919A

Abstract

本发明提供确定失语类型的方法及装置，方法包括：根据标准语音时序图像、所述失语者语音时序图像、失语者的专业评分以及失语者的语音评分确定数据训练集；基于卷积神经网络及长短期记忆网络对数据训练集进行训练，确定出失语评分模型；接收所述当前失语者的语音视频，利用语音评测算法对当前失语者语音视频的语音进行评测，获取第一评分；利用失语评分模型对语音视频进行评测，获取第二评分；根据第一评分及第二评分确定当前失语者的失语类型；因失语评分模型是根据发音口型及发音音频进行确定的，利用失语评分模型确定出的第二评分的精度可以得到保证，因此可以准确地确定出失语者的失语类型，进而可以提供最适合的训练方案，提高训练效果。

Description

一种确定失语类型的方法及装置

技术领域

本发明属于失语者语言训练技术领域，尤其涉及一种确定失语类型的方法及装置。

背景技术

言语不是人类先天固有的机能，每个人言语的形成和发展主要是后天获得的。大部分失语人群，一旦丧失了言语功能，恢复起来相当困难，往往需要像婴幼儿学语一样从头开始。

现有技术中，治疗失语症一般是需要利用人工经验对发音进行评分，以能对失语程度进行评价，判断失语类型，再根据失语类型确定相应的训练方式。

现有技术虽然可以确定失语者的失语类型，但是人工判断的方式有很多误差，导致失语类型的精度确定不高，进而导致不能提供最合适的训练方案，影响训练效果。

发明内容

针对现有技术存在的问题，本发明实施例提供了一种确定失语类型的方法及装置，用于解决现有技术中利用人工在确定失语者的失语类型时，确定精度不高，导致不能提供给最合适的训练方案，降低训练效果的技术问题。

本发明提供一种确定失语类型的方法，所述方法包括：

针对目标词语，预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分，所述语音评分是利用语音评测算法确定的，所述专业评分是根据专业人员确定的，所述失语者包括多个；

根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集；

基于卷积神经网络及长短期记忆网络长短期网络(LSTM，Long ShortTermMemory)对所述数据训练集进行训练，确定出失语评分模型；

当需要对当前失语者确定失语类型时，接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者语音视频的语音进行评测，获取第一评分；

利用所述失语评分模型对所述语音视频进行评测，获取第二评分；

根据所述第一评分及所述第二评分确定所述当前失语者的失语类型；其中，

所述基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练，确定出失语评分模型，包括：

利用所述卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理，提取所述标准语音时序图像的第一口型特征；

利用所述卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理，提取所述多个失者语音时序图像的第二口型特征；

利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练，确定出口型相似度特征；

基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型。

可选地，所述根据所述第一评分及所述第二评分确定所述当前失语者的失语类型，包括：

若所述第一评分低于所述第二评分A分时，确定所述当前失语者的失语类型为失语者喉咙有损伤；

若所述第一评分高于所述第二评分A分时，确定所述当前失语者的失语类型为嘴部肌肉损伤或舌头肌肉损伤；

若所述第一评分与所述第二评分相差B分时，确定所述当前失语者的失语类型为大脑语言功能损伤；其中，所述A>20，所述B小于或等于20。

可选地，所述根据所述第一评分及所述第二评分确定所述当前失语者的失语类型后，方法还包括：

根据所述失语类型推送适配的语音训练模式。

可选地，方法还包括：

采集所述失语者的音频，根据所述音频中的词语建立语音识别库；

当需要辨别所述当前失语者音频的词语时，提取所述当前失语者音频数据，并对所述音频数据进行滤波除杂；

提取滤波除杂后的音频数据中的音频时域特征，根据所述音频时域特征确定浊音、清音、声母及韵母；

基于确定出的浊音、清音、声母及韵母截取所述滤波除杂后的音频数据的有效音频数据；

确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度，输出相似度最高的词语。

可选地，确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度，包括：

计算所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的余弦距离；

根据所述余弦距离确定对应的相似度，所述余弦距离与所述相似度成反比。

本发明实施例还提供一种确定失语类型的装置，所述装置包括：

获取单元，用于针对目标词语，预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分，所述语音评分是利用语音评测算法确定的，所述专业评分是根据专业人员确定的，所述失语者包括多个；

训练单元，根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集；

基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练，确定出失语评分模型；

评测单元，用于当需要对当前失语者确定失语类型时，接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者语音视频的语音进行评测，获取第一评分；

确定单元，用于根据所述第一评分及所述第二评分确定所述当前失语者的失语类型；其中，所述训练单元具体用于：

可选地，所述第二确定单元具体用于：

可选地，所述装置还包括：推送单元，用于根据所述第一评分及所述第二评分确定所述当前失语者的失语类型后，根据所述失语类型推送适配的语音训练模式。

可选地，所述获取单元还用于：

所述确定单元还用于：确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度，输出相似度最高的词语。

可选地，所述第二确定单元还用于：

根据所述余弦距离确定对应的相似度，所述余弦距离越小，所述相似度越高。

本发明提供了一种确定失语类型的方法及装置，方法包括：针对目标词语，预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分，所述语音评分是利用语音评测算法确定的，所述专业评分是根据专业人员确定的，所述失语者包括多个；根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集；基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练，确定出失语评分模型；当需要对当前失语者确定失语类型时，接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者语音视频的语音进行评测，获取第一评分；利用所述失语评分模型对所述语音视频进行评测，获取第二评分；根据所述第一评分及所述第二评分确定所述当前失语者的失语类型；其中，所述基于卷积神经网络及所述长短期记忆网络对所述数据训练集进行训练，确定出失语评分模型，包括：利用所述卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理，提取所述标准语音时序图像的第一口型特征；利用所述卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理，提取所述多个失者语音时序图像的第二口型特征；利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练，确定出口型相似度特征；基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型；如此，因失语评分模型是根据发音口型及发音音频进行确定的，充分考虑到了失语者的失语因素，因此失语评分模型的精度是可以得到保证的，那么利用失语评分模型确定出的第二评分的精度也是可以得到保证的，因此可以准确地确定出失语者的失语类型，进而可以提供最适合的训练方案，提高训练效果。

附图说明

图1为本发明实施例提供的确定失语类型的方法流程示意图；

图2为本发明实施例提供的确定失语类型的装置结构示意图。

具体实施方式

为了解决现有技术中利用人工在确定失语者的失语类型时，确定精度不高，导致不能提供给最合适的训练方案，降低训练效果的技术问题，本发明实施例提供了一种确定失语类型的方法及装置。

下面通过附图及具体实施例对本发明的技术方案做进一步的详细说明。

实施例一

本实施例提供一种确定失语类型的方法，应用在终端，如图1所示，方法包括：

S110，针对目标词语，预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分，所述语音评分是利用语音评测算法确定的，所述专业评分是根据专业人员确定的，所述失语者包括多个；

本实施例中的目标词语可以包括多个，针对每个目标词语，标准发音的人和失语者可以预先读取一次，那么可以采集标准发音口型视频数据及失语者发音口型视频数据。为了提高后续失语评分模型的精度，失语者包括多个。

标准发音口型视频数据及失语者发音口型视频数据获取到之后，根据标准发音口型视频数据获取标准语音时序图像，根据失语者发音口型视频数据获取失语者语音时序图像。这样，可以根据标准语音时序图像中确定出标准发音的口型，根据失语者语音时序图像确定出失语者发音的口型。

然后利用语音评测算法提取失语者发音口型视频数据中的音频数据，对该音频数据进行评测，确定出失语者的语音评分S；相应地，失语者的语音评分也包括多个。

当失语者读取目标词语时，专业人员会给出相应的专业评分S1，那么可以获取到失语者读取目标词语时的专业评分S1。

S111，根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集；

这里，可能有的失语者语音时序图像是不能直接使用的，因此还需对失语者语音时序图像进行筛选，比如视频数据不完整导致失语者语音时序图像不完整，那么就需要把这样的失语者语音时序图像删除掉。

然后所述标准语音时序图像、筛选后的所述失语者语音时序图像、失语者的语音评分以及失语者的专业评分确定数据训练集。

S112，基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练，确定出失语评分模型；

这里，可以利用卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理，提取所述标准语音时序图像的第一口型特征。

具体地，因单帧图像中包含脸部各个部位的，那么可以利用面部特征点卷积神经网络确定所述当前各帧图像中生物特征的特征点；所述生物特征包括：嘴巴、眼睛、眉毛、下巴及鼻子。

一般来说，下巴轮廓对应17个特征点，左眉对应5个特征点，右眉对应5个特征点，鼻梁对应4个特征点，鼻尖对应4个特征点，左眼对应6个特征点，右眼对应6个特征点，上嘴唇对应8个特征点，下嘴唇对应12个特征点。确定出生物特征的特征点后，就可以确定出眼睛、嘴巴、鼻子、眉毛的具体位置了。那么相应地各帧图像中的口型特征也可以确定出来了。

各帧图像中的口型特征确定出之后，那么基于长短期网络LSTM，利用公式(1)将各帧图像中的口型特征进行合并，可以得出完整的第一口型特征Z₁：

在公式(1)中，LSTM(e₁₁)为标准语音时序图像中第一帧图像中的口型特征，LSTM(e_1n)为标准语音时序图像中第n帧图像中的口型特征，这样通过循环合并各单帧图像中的口型特征，最终可以得出第一口型特征Z₁。

与上述同样的原理，利用卷积神经网络对失语者语音时序图像的各单帧图像进行卷积和池化处理后，失语者语音时序图像中各帧图像中的口型特征也可以确定出来了。

失语者语音时序图像中各帧图像中的口型特征确定出之后，那么基于长短期记忆网络LSTM，利用公式(2)提取所述多个失者语音时序图像的第二口型特征Z₂：

在公式(2)中，LSTM(e₂₁)为失语者语音时序图像中第一帧图像中的口型特征，LSTM(e_2n)为失语者语音时序图像中第n帧图像中的口型特征。

利用公式(3)对所述第一口型特征及所述第二口型特征进行训练，确定出口型相似度特征Z，Z理解为对第一口型特征及第二口型特征进行相似度比对后得出的口型相似度分数：

Z＝cos(Z₁+Z₂) (3)

在公式(3)中，Z₁为第一口型特征，Z₂为第二口型特征。

口型相似度特征Z确定出之后，利用公式(4)基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型：

Score＝Sigmoid(w₁Z⊕w₂S) (4)

在公式(4)中，w₁为口型相似度特征的权重，w₂为失语者的语音评分的权重，S为失语者的语音评分，Score为预测评分。

在确定口型相似度特征的权重w₁和确定失语者的语音评分的权重w₂时，是根据Score和专业评分S1确定的。

失语评分模型确定出之后，针对任意一个失语者，均有一个专业评分S1和一个预测评分Score，当Score和专业评分S1相差太远时，说明失语评分模型的精度还是不够的，那么会基于专业评分S1来调整口型相似度特征的权重w₁和失语者的语音评分的权重w₂，直至预测评分Score和专业评分S1逼近两者误差小于1％，此时可以确定出针对任意一个失语者的口型相似度特征的权重w₁和失语者的语音评分的权重w₂。

然后对多个w₁进行归一化处理，得到最终的口型相似度特征的权重w₁；对多个w₂进行归一化处理，得到最终的失语者的语音评分的权重w₂。

S113，当需要对当前失语者确定失语类型时，接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者语音视频的语音进行评测，获取第一评分；利用所述失语评分模型对所述语音视频进行评测，获取第二评分；

失语评分模型确定出之后，当需要对当前失语者确定失语类型时，调用终端摄像头接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者语音视频的语音进行评测，获取第一评分；

根据所述第一评分及所述第二评分确定所述当前失语者的失语类型。

S114，根据所述第一评分及所述第二评分确定所述当前失语者的失语类型；

所述根据所述第一评分及所述第二评分确定所述当前失语者的失语类型，包括：

若所述第一评分低于所述第二评分A分时，说明失语者口型比发音更准确，那么则可以确定所述当前失语者的失语类型为失语者喉咙有损伤导致声音嘶哑；

若所述第一评分高于所述第二评分A分时，说明失语者发音比口型更准确，那么则可以确定所述当前失语者懂得正常发音，但嘴部肌肉或舌头肌肉损伤，失语类型为嘴部肌肉损伤或舌头肌肉损伤；

确定出失语类型后，可以根据失语类型推送适配的训练模式，训练模式包括：基础发音训练、复述性训练、命名训练、衔接训练、简单对话训练。

比如，失语类型为失语者喉咙有损伤时，提供的训练模式可以为基础发音训练。

进一步地，为了可以让外界能更清楚地了解失语者的需求，方法还包括：

预先采集所述失语者的音频数据(也可以称为历史音频数据)，根据所述音频中的词语建立语音识别库。这里，可以直接通过录音模式采集失语者的音频，也可以通过提取失语者时序图像数据中的音频数据来获取失语者的音频，失语者包括多个，历史音频数据一般为失语者经常使用的词语，比如：吃饭，休息，上厕所，散步，不舒服等。

在建立语音识别库时，为了提高语音识别库的识别精度，需要将多个历史音频数据进行滤波除杂，然后提取滤波除杂后的历史音频数据中的音频时域特征，根据所述音频时域特征确定浊音、清音、声母及韵母；基于确定出的浊音、清音、声母及韵母截取滤波除杂后的历史音频数据中的有效音频数据，并获取有效音频数据的起始位置及结束位置，以能获取历史音频数据中有效音频数据的长度。

当需要辨别所述当前失语者音频的词语时，同样需要先提取所述当前失语者音频数据，并对所述音频数据进行滤波除杂；

提取所述当前失语者滤波除杂后的音频数据中的音频时域特征，根据所述音频时域特征确定浊音、清音、声母及韵母；

基于确定出的浊音、清音、声母及韵母截取所述当前失语者滤波除杂后的音频数据中的有效音频数据；

需要说明的是，在截取当前失语者音频数据中的有效音频数据时，截取的数据长度需要与历史音频数据中有效音频数据的长度一致。

作为一种可选的实施例，确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度，包括：

根据所述余弦距离确定对应的相似度，所述余弦距离与所述相似度成反比，余弦距离越小，相似度越高。

这样即使在失语者表达不清楚的情况下，通过本实施例的方法，外界也可以正常了解失语者的需求。

并且因该方法是在终端中实现的，操作方便，因此失语者不需要他人时刻陪伴，只需指导失语者的使用方法，失语者就能自行操作，大大节约了成本。对于心里负担较重的失语者，无需跑到专业训练场所去训练，可以在家中训练。

基于同样的发明构思，本发明还提供一种确定失语者类型的装置，详见实施例二。

实施例二

本实施例提供一种确定失语类型的装置，如图2所示，装置包括：获取单元21、训练单元22、评测单元23、确定单元24及推送单元25；其中，

本实施例中的目标词语可以包括多个，针对每个目标词语，标准发音的人和失语者可以预先读取一次，那么获取单元21可以采集标准发音口型视频数据及失语者发音口型视频数据。为了提高后续失语评分模型的精度，失语者包括多个。

然后获取单元21利用语音评测算法提取失语者发音口型视频数据中的音频数据，对该音频数据进行评测，确定出失语者的语音评分S；相应地，失语者的语音评分也包括多个。

训练单元22用于根据标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集。

这里，可能有的失语者语音时序图像是不能直接使用的，因此训练单元22还需对失语者语音时序图像进行筛选，比如视频数据不完整导致失语者语音时序图像不完整，那么就需要把这样的失语者语音时序图像删除掉。

这里，当失语者读取目标词语时，专业人员会给出相应的专业评分S1，因此数据训练集还包括：失语者读取目标词语时对应的专业评分S1。

数据训练集确定之后，训练单元22基于卷积神经网络对所述数据训练集进行训练，确定出失语评分模型.

这里，训练单元22可以利用卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理，提取所述标准语音时序图像的第一口型特征。

与上述同样的原理，利用卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理后，失语者语音时序图像中各帧图像中的口型特征也可以确定出来了。

Z＝cos(Z₁+Z₂) (3)

在公式(3)中，Z₁为第一口型特征，Z₂为第二口型特征。

口型相似度特征Z确定出之后，利用公式(4)基于所述口型相似度特征及所述语音评分确定失语者的失语评分模型：

失语评分模型确定出之后，当需要对当前失语者确定失语类型时，评测单元23用于调用终端摄像头接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者语音视频的语音进行评测，获取第一评分；

作为一种可选的实施例，所述评测单元23根据所述第一评分及所述第二评分确定所述当前失语者的失语类型，包括：

确定出失语类型后，推送单元25用于根据失语类型推送适配的训练模式，训练模式包括：基础发音训练、复述性训练、命名训练、衔接训练、简单对话训练。

进一步地，为了可以让外界能更清楚地了解失语者的需求，获取单元21还用于：

确定单元24还用于确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度，输出相似度最高的词语。

作为一种可选的实施例，确定单元24确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度，包括：

本发明实施例提供的确定失语类型的方法及装置能带来的有益效果至少是：

本发明提供了一种确定失语类型的方法及装置，方法包括：针对目标词语，预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分，所述语音评分是利用语音评测算法确定的，所述专业评分是根据专业人员确定的，所述失语者包括多个；根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集；基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练，确定出失语评分模型；当需要对当前失语者确定失语类型时，接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者语音视频的语音进行评测，获取第一评分；利用所述失语评分模型对所述语音视频进行评测，获取第二评分；根据所述第一评分及所述第二评分确定所述当前失语者的失语类型；其中，所述基于卷积神经网络对所述数据训练集进行训练，确定出失语评分模型，包括：利用卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理，提取所述标准语音时序图像的第一口型特征；利用卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理，提取所述多个失者语音时序图像的第二口型特征；利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练，确定出口型相似度特征；基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型；如此，因失语评分模型是根据发音口型及发音音频进行确定的，充分考虑到了失语者的失语因素，因此失语评分模型的精度是可以得到保证的，那么利用失语评分模型确定出的第二评分的精度也是可以得到保证的，因此可以准确地确定出失语者的失语类型，进而可以提供最适合的训练方案，提高训练效果；并且因该方法是在终端中实现的，操作方便，因此失语者不需要他人时刻陪伴，只需指导失语者的使用方法，失语者就能自行操作，大大节约了成本；对于心里负担较重的失语者，无需跑到专业训练场所去训练，可以在家中训练。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定失语类型的装置，其特征在于，所述装置包括：

获取单元，用于针对目标词语，预先获取标准语音时序图像、失语者语音时序图像、失语者的专业评分以及失语者的语音评分，所述语音评分是利用语音评测算法确定的，所述专业评分是根据专业人员确定的，所述失语者包括多个；

评测单元，用于当需要对当前失语者确定失语类型时，接收所述当前失语者的语音视频，利用所述语音评测算法对所述当前失语者的语音视频的语音进行评测，获取第一评分；

利用所述卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理，提取多个失者语音时序图像的第二口型特征；

2.如权利要求1所述的装置，其特征在于，所述确定单元具体用于：

若所述第一评分与所述第二评分相差B分时，确定所述当前失语者的失语类型为大脑语言功能损伤；其中，所述A大于20，所述B小于或等于20。

3.如权利要求1所述的装置，其特征在于，所述装置还包括：推送单元，用于根据所述第一评分及所述第二评分确定所述当前失语者的失语类型后，根据所述失语类型推送适配的语音训练模式。

4.如权利要求1所述的装置，其特征在于，所述获取单元还用于：

当需要辨别当前失语者音频的词语时，提取当前失语者音频数据，并对所述音频数据进行滤波除杂；

5.如权利要求2所述的装置，其特征在于，所述确定单元还用于：

计算有效音频数据与所述语音识别库中各词语对应的音频数据之间的余弦距离；

根据所述余弦距离确定对应的相似度，所述余弦距离与相似度成反比。