CN111179919B - 一种确定失语类型的方法及装置 - Google Patents
一种确定失语类型的方法及装置 Download PDFInfo
- Publication number
- CN111179919B CN111179919B CN201911325531.7A CN201911325531A CN111179919B CN 111179919 B CN111179919 B CN 111179919B CN 201911325531 A CN201911325531 A CN 201911325531A CN 111179919 B CN111179919 B CN 111179919B
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- score
- aphasia
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000007201 aphasia Diseases 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000011156 evaluation Methods 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 230000006403 short-term memory Effects 0.000 claims abstract description 8
- 230000007787 long-term memory Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 239000012535 impurity Substances 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 208000029549 Muscle injury Diseases 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 210000004556 brain Anatomy 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 210000004709 eyebrow Anatomy 0.000 description 8
- 238000010606 normalization Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 206010013952 Dysphonia Diseases 0.000 description 2
- 208000010473 Hoarseness Diseases 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000000284 resting effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4005—Detecting, measuring or recording for evaluating the nervous system for evaluating the sensory system
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/30—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供确定失语类型的方法及装置,方法包括:根据标准语音时序图像、所述失语者语音时序图像、失语者的专业评分以及失语者的语音评分确定数据训练集;基于卷积神经网络及长短期记忆网络对数据训练集进行训练,确定出失语评分模型;接收所述当前失语者的语音视频,利用语音评测算法对当前失语者语音视频的语音进行评测,获取第一评分;利用失语评分模型对语音视频进行评测,获取第二评分;根据第一评分及第二评分确定当前失语者的失语类型;因失语评分模型是根据发音口型及发音音频进行确定的,利用失语评分模型确定出的第二评分的精度可以得到保证,因此可以准确地确定出失语者的失语类型,进而可以提供最适合的训练方案,提高训练效果。
Description
技术领域
本发明属于失语者语言训练技术领域,尤其涉及一种确定失语类型的方法及装置。
背景技术
言语不是人类先天固有的机能,每个人言语的形成和发展主要是后天获得的。大部分失语人群,一旦丧失了言语功能,恢复起来相当困难,往往需要像婴幼儿学语一样从头开始。
现有技术中,治疗失语症一般是需要利用人工经验对发音进行评分,以能对失语程度进行评价,判断失语类型,再根据失语类型确定相应的训练方式。
现有技术虽然可以确定失语者的失语类型,但是人工判断的方式有很多误差,导致失语类型的精度确定不高,进而导致不能提供最合适的训练方案,影响训练效果。
发明内容
针对现有技术存在的问题,本发明实施例提供了一种确定失语类型的方法及装置,用于解决现有技术中利用人工在确定失语者的失语类型时,确定精度不高,导致不能提供给最合适的训练方案,降低训练效果的技术问题。
本发明提供一种确定失语类型的方法,所述方法包括:
针对目标词语,预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分,所述语音评分是利用语音评测算法确定的,所述专业评分是根据专业人员确定的,所述失语者包括多个;
根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集;
基于卷积神经网络及长短期记忆网络长短期网络(LSTM,Long ShortTermMemory)对所述数据训练集进行训练,确定出失语评分模型;
当需要对当前失语者确定失语类型时,接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者语音视频的语音进行评测,获取第一评分;
利用所述失语评分模型对所述语音视频进行评测,获取第二评分;
根据所述第一评分及所述第二评分确定所述当前失语者的失语类型;其中,
所述基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练,确定出失语评分模型,包括:
利用所述卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理,提取所述标准语音时序图像的第一口型特征;
利用所述卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理,提取所述多个失者语音时序图像的第二口型特征;
利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练,确定出口型相似度特征;
基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型。
可选地,所述根据所述第一评分及所述第二评分确定所述当前失语者的失语类型,包括:
若所述第一评分低于所述第二评分A分时,确定所述当前失语者的失语类型为失语者喉咙有损伤;
若所述第一评分高于所述第二评分A分时,确定所述当前失语者的失语类型为嘴部肌肉损伤或舌头肌肉损伤;
若所述第一评分与所述第二评分相差B分时,确定所述当前失语者的失语类型为大脑语言功能损伤;其中,所述A>20,所述B小于或等于20。
可选地,所述根据所述第一评分及所述第二评分确定所述当前失语者的失语类型后,方法还包括:
根据所述失语类型推送适配的语音训练模式。
可选地,方法还包括:
采集所述失语者的音频,根据所述音频中的词语建立语音识别库;
当需要辨别所述当前失语者音频的词语时,提取所述当前失语者音频数据,并对所述音频数据进行滤波除杂;
提取滤波除杂后的音频数据中的音频时域特征,根据所述音频时域特征确定浊音、清音、声母及韵母;
基于确定出的浊音、清音、声母及韵母截取所述滤波除杂后的音频数据的有效音频数据;
确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,输出相似度最高的词语。
可选地,确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,包括:
计算所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的余弦距离;
根据所述余弦距离确定对应的相似度,所述余弦距离与所述相似度成反比。
本发明实施例还提供一种确定失语类型的装置,所述装置包括:
获取单元,用于针对目标词语,预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分,所述语音评分是利用语音评测算法确定的,所述专业评分是根据专业人员确定的,所述失语者包括多个;
训练单元,根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集;
基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练,确定出失语评分模型;
评测单元,用于当需要对当前失语者确定失语类型时,接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者语音视频的语音进行评测,获取第一评分;
利用所述失语评分模型对所述语音视频进行评测,获取第二评分;
确定单元,用于根据所述第一评分及所述第二评分确定所述当前失语者的失语类型;其中,所述训练单元具体用于:
利用所述卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理,提取所述标准语音时序图像的第一口型特征;
利用所述卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理,提取所述多个失者语音时序图像的第二口型特征;
利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练,确定出口型相似度特征;
基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型。
可选地,所述第二确定单元具体用于:
若所述第一评分低于所述第二评分A分时,确定所述当前失语者的失语类型为失语者喉咙有损伤;
若所述第一评分高于所述第二评分A分时,确定所述当前失语者的失语类型为嘴部肌肉损伤或舌头肌肉损伤;
若所述第一评分与所述第二评分相差B分时,确定所述当前失语者的失语类型为大脑语言功能损伤;其中,所述A>20,所述B小于或等于20。
可选地,所述装置还包括:推送单元,用于根据所述第一评分及所述第二评分确定所述当前失语者的失语类型后,根据所述失语类型推送适配的语音训练模式。
可选地,所述获取单元还用于:
采集所述失语者的音频,根据所述音频中的词语建立语音识别库;
当需要辨别所述当前失语者音频的词语时,提取所述当前失语者音频数据,并对所述音频数据进行滤波除杂;
提取滤波除杂后的音频数据中的音频时域特征,根据所述音频时域特征确定浊音、清音、声母及韵母;
基于确定出的浊音、清音、声母及韵母截取所述滤波除杂后的音频数据的有效音频数据;
所述确定单元还用于:确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,输出相似度最高的词语。
可选地,所述第二确定单元还用于:
计算所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的余弦距离;
根据所述余弦距离确定对应的相似度,所述余弦距离越小,所述相似度越高。
本发明提供了一种确定失语类型的方法及装置,方法包括:针对目标词语,预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分,所述语音评分是利用语音评测算法确定的,所述专业评分是根据专业人员确定的,所述失语者包括多个;根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集;基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练,确定出失语评分模型;当需要对当前失语者确定失语类型时,接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者语音视频的语音进行评测,获取第一评分;利用所述失语评分模型对所述语音视频进行评测,获取第二评分;根据所述第一评分及所述第二评分确定所述当前失语者的失语类型;其中,所述基于卷积神经网络及所述长短期记忆网络对所述数据训练集进行训练,确定出失语评分模型,包括:利用所述卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理,提取所述标准语音时序图像的第一口型特征;利用所述卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理,提取所述多个失者语音时序图像的第二口型特征;利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练,确定出口型相似度特征;基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型;如此,因失语评分模型是根据发音口型及发音音频进行确定的,充分考虑到了失语者的失语因素,因此失语评分模型的精度是可以得到保证的,那么利用失语评分模型确定出的第二评分的精度也是可以得到保证的,因此可以准确地确定出失语者的失语类型,进而可以提供最适合的训练方案,提高训练效果。
附图说明
图1为本发明实施例提供的确定失语类型的方法流程示意图;
图2为本发明实施例提供的确定失语类型的装置结构示意图。
具体实施方式
为了解决现有技术中利用人工在确定失语者的失语类型时,确定精度不高,导致不能提供给最合适的训练方案,降低训练效果的技术问题,本发明实施例提供了一种确定失语类型的方法及装置。
下面通过附图及具体实施例对本发明的技术方案做进一步的详细说明。
实施例一
本实施例提供一种确定失语类型的方法,应用在终端,如图1所示,方法包括:
S110,针对目标词语,预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分,所述语音评分是利用语音评测算法确定的,所述专业评分是根据专业人员确定的,所述失语者包括多个;
本实施例中的目标词语可以包括多个,针对每个目标词语,标准发音的人和失语者可以预先读取一次,那么可以采集标准发音口型视频数据及失语者发音口型视频数据。为了提高后续失语评分模型的精度,失语者包括多个。
标准发音口型视频数据及失语者发音口型视频数据获取到之后,根据标准发音口型视频数据获取标准语音时序图像,根据失语者发音口型视频数据获取失语者语音时序图像。这样,可以根据标准语音时序图像中确定出标准发音的口型,根据失语者语音时序图像确定出失语者发音的口型。
然后利用语音评测算法提取失语者发音口型视频数据中的音频数据,对该音频数据进行评测,确定出失语者的语音评分S;相应地,失语者的语音评分也包括多个。
当失语者读取目标词语时,专业人员会给出相应的专业评分S1,那么可以获取到失语者读取目标词语时的专业评分S1。
S111,根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集;
这里,可能有的失语者语音时序图像是不能直接使用的,因此还需对失语者语音时序图像进行筛选,比如视频数据不完整导致失语者语音时序图像不完整,那么就需要把这样的失语者语音时序图像删除掉。
然后所述标准语音时序图像、筛选后的所述失语者语音时序图像、失语者的语音评分以及失语者的专业评分确定数据训练集。
S112,基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练,确定出失语评分模型;
这里,可以利用卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理,提取所述标准语音时序图像的第一口型特征。
具体地,因单帧图像中包含脸部各个部位的,那么可以利用面部特征点卷积神经网络确定所述当前各帧图像中生物特征的特征点;所述生物特征包括:嘴巴、眼睛、眉毛、下巴及鼻子。
一般来说,下巴轮廓对应17个特征点,左眉对应5个特征点,右眉对应5个特征点,鼻梁对应4个特征点,鼻尖对应4个特征点,左眼对应6个特征点,右眼对应6个特征点,上嘴唇对应8个特征点,下嘴唇对应12个特征点。确定出生物特征的特征点后,就可以确定出眼睛、嘴巴、鼻子、眉毛的具体位置了。那么相应地各帧图像中的口型特征也可以确定出来了。
各帧图像中的口型特征确定出之后,那么基于长短期网络LSTM,利用公式(1)将各帧图像中的口型特征进行合并,可以得出完整的第一口型特征Z1:
在公式(1)中,LSTM(e11)为标准语音时序图像中第一帧图像中的口型特征,LSTM(e1n)为标准语音时序图像中第n帧图像中的口型特征,这样通过循环合并各单帧图像中的口型特征,最终可以得出第一口型特征Z1。
与上述同样的原理,利用卷积神经网络对失语者语音时序图像的各单帧图像进行卷积和池化处理后,失语者语音时序图像中各帧图像中的口型特征也可以确定出来了。
失语者语音时序图像中各帧图像中的口型特征确定出之后,那么基于长短期记忆网络LSTM,利用公式(2)提取所述多个失者语音时序图像的第二口型特征Z2:
在公式(2)中,LSTM(e21)为失语者语音时序图像中第一帧图像中的口型特征,LSTM(e2n)为失语者语音时序图像中第n帧图像中的口型特征。
利用公式(3)对所述第一口型特征及所述第二口型特征进行训练,确定出口型相似度特征Z,Z理解为对第一口型特征及第二口型特征进行相似度比对后得出的口型相似度分数:
Z=cos(Z1+Z2) (3)
在公式(3)中,Z1为第一口型特征,Z2为第二口型特征。
口型相似度特征Z确定出之后,利用公式(4)基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型:
Score=Sigmoid(w1Z⊕w2S) (4)
在公式(4)中,w1为口型相似度特征的权重,w2为失语者的语音评分的权重,S为失语者的语音评分,Score为预测评分。
在确定口型相似度特征的权重w1和确定失语者的语音评分的权重w2时,是根据Score和专业评分S1确定的。
失语评分模型确定出之后,针对任意一个失语者,均有一个专业评分S1和一个预测评分Score,当Score和专业评分S1相差太远时,说明失语评分模型的精度还是不够的,那么会基于专业评分S1来调整口型相似度特征的权重w1和失语者的语音评分的权重w2,直至预测评分Score和专业评分S1逼近两者误差小于1%,此时可以确定出针对任意一个失语者的口型相似度特征的权重w1和失语者的语音评分的权重w2。
然后对多个w1进行归一化处理,得到最终的口型相似度特征的权重w1;对多个w2进行归一化处理,得到最终的失语者的语音评分的权重w2。
S113,当需要对当前失语者确定失语类型时,接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者语音视频的语音进行评测,获取第一评分;利用所述失语评分模型对所述语音视频进行评测,获取第二评分;
失语评分模型确定出之后,当需要对当前失语者确定失语类型时,调用终端摄像头接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者语音视频的语音进行评测,获取第一评分;
利用所述失语评分模型对所述语音视频进行评测,获取第二评分;
根据所述第一评分及所述第二评分确定所述当前失语者的失语类型。
S114,根据所述第一评分及所述第二评分确定所述当前失语者的失语类型;
所述根据所述第一评分及所述第二评分确定所述当前失语者的失语类型,包括:
若所述第一评分低于所述第二评分A分时,说明失语者口型比发音更准确,那么则可以确定所述当前失语者的失语类型为失语者喉咙有损伤导致声音嘶哑;
若所述第一评分高于所述第二评分A分时,说明失语者发音比口型更准确,那么则可以确定所述当前失语者懂得正常发音,但嘴部肌肉或舌头肌肉损伤,失语类型为嘴部肌肉损伤或舌头肌肉损伤;
若所述第一评分与所述第二评分相差B分时,确定所述当前失语者的失语类型为大脑语言功能损伤;其中,所述A>20,所述B小于或等于20。
确定出失语类型后,可以根据失语类型推送适配的训练模式,训练模式包括:基础发音训练、复述性训练、命名训练、衔接训练、简单对话训练。
比如,失语类型为失语者喉咙有损伤时,提供的训练模式可以为基础发音训练。
进一步地,为了可以让外界能更清楚地了解失语者的需求,方法还包括:
预先采集所述失语者的音频数据(也可以称为历史音频数据),根据所述音频中的词语建立语音识别库。这里,可以直接通过录音模式采集失语者的音频,也可以通过提取失语者时序图像数据中的音频数据来获取失语者的音频,失语者包括多个,历史音频数据一般为失语者经常使用的词语,比如:吃饭,休息,上厕所,散步,不舒服等。
在建立语音识别库时,为了提高语音识别库的识别精度,需要将多个历史音频数据进行滤波除杂,然后提取滤波除杂后的历史音频数据中的音频时域特征,根据所述音频时域特征确定浊音、清音、声母及韵母;基于确定出的浊音、清音、声母及韵母截取滤波除杂后的历史音频数据中的有效音频数据,并获取有效音频数据的起始位置及结束位置,以能获取历史音频数据中有效音频数据的长度。
当需要辨别所述当前失语者音频的词语时,同样需要先提取所述当前失语者音频数据,并对所述音频数据进行滤波除杂;
提取所述当前失语者滤波除杂后的音频数据中的音频时域特征,根据所述音频时域特征确定浊音、清音、声母及韵母;
基于确定出的浊音、清音、声母及韵母截取所述当前失语者滤波除杂后的音频数据中的有效音频数据;
确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,输出相似度最高的词语。
需要说明的是,在截取当前失语者音频数据中的有效音频数据时,截取的数据长度需要与历史音频数据中有效音频数据的长度一致。
作为一种可选的实施例,确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,包括:
计算所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的余弦距离;
根据所述余弦距离确定对应的相似度,所述余弦距离与所述相似度成反比,余弦距离越小,相似度越高。
这样即使在失语者表达不清楚的情况下,通过本实施例的方法,外界也可以正常了解失语者的需求。
并且因该方法是在终端中实现的,操作方便,因此失语者不需要他人时刻陪伴,只需指导失语者的使用方法,失语者就能自行操作,大大节约了成本。对于心里负担较重的失语者,无需跑到专业训练场所去训练,可以在家中训练。
基于同样的发明构思,本发明还提供一种确定失语者类型的装置,详见实施例二。
实施例二
本实施例提供一种确定失语类型的装置,如图2所示,装置包括:获取单元21、训练单元22、评测单元23、确定单元24及推送单元25;其中,
本实施例中的目标词语可以包括多个,针对每个目标词语,标准发音的人和失语者可以预先读取一次,那么获取单元21可以采集标准发音口型视频数据及失语者发音口型视频数据。为了提高后续失语评分模型的精度,失语者包括多个。
然后获取单元21利用语音评测算法提取失语者发音口型视频数据中的音频数据,对该音频数据进行评测,确定出失语者的语音评分S;相应地,失语者的语音评分也包括多个。
标准发音口型视频数据及失语者发音口型视频数据获取到之后,根据标准发音口型视频数据获取标准语音时序图像,根据失语者发音口型视频数据获取失语者语音时序图像。这样,可以根据标准语音时序图像中确定出标准发音的口型,根据失语者语音时序图像确定出失语者发音的口型。
然后利用语音评测算法提取失语者发音口型视频数据中的音频数据,对该音频数据进行评测,确定出失语者的语音评分S;相应地,失语者的语音评分也包括多个。
当失语者读取目标词语时,专业人员会给出相应的专业评分S1,那么可以获取到失语者读取目标词语时的专业评分S1。
训练单元22用于根据标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集。
这里,可能有的失语者语音时序图像是不能直接使用的,因此训练单元22还需对失语者语音时序图像进行筛选,比如视频数据不完整导致失语者语音时序图像不完整,那么就需要把这样的失语者语音时序图像删除掉。
然后所述标准语音时序图像、筛选后的所述失语者语音时序图像、失语者的语音评分以及失语者的专业评分确定数据训练集。
这里,当失语者读取目标词语时,专业人员会给出相应的专业评分S1,因此数据训练集还包括:失语者读取目标词语时对应的专业评分S1。
数据训练集确定之后,训练单元22基于卷积神经网络对所述数据训练集进行训练,确定出失语评分模型.
这里,训练单元22可以利用卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理,提取所述标准语音时序图像的第一口型特征。
具体地,因单帧图像中包含脸部各个部位的,那么可以利用面部特征点卷积神经网络确定所述当前各帧图像中生物特征的特征点;所述生物特征包括:嘴巴、眼睛、眉毛、下巴及鼻子。
一般来说,下巴轮廓对应17个特征点,左眉对应5个特征点,右眉对应5个特征点,鼻梁对应4个特征点,鼻尖对应4个特征点,左眼对应6个特征点,右眼对应6个特征点,上嘴唇对应8个特征点,下嘴唇对应12个特征点。确定出生物特征的特征点后,就可以确定出眼睛、嘴巴、鼻子、眉毛的具体位置了。那么相应地各帧图像中的口型特征也可以确定出来了。
各帧图像中的口型特征确定出之后,那么基于长短期网络LSTM,利用公式(1)将各帧图像中的口型特征进行合并,可以得出完整的第一口型特征Z1:
在公式(1)中,LSTM(e11)为标准语音时序图像中第一帧图像中的口型特征,LSTM(e1n)为标准语音时序图像中第n帧图像中的口型特征,这样通过循环合并各单帧图像中的口型特征,最终可以得出第一口型特征Z1。
与上述同样的原理,利用卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理后,失语者语音时序图像中各帧图像中的口型特征也可以确定出来了。
失语者语音时序图像中各帧图像中的口型特征确定出之后,那么基于长短期记忆网络LSTM,利用公式(2)提取所述多个失者语音时序图像的第二口型特征Z2:
在公式(2)中,LSTM(e21)为失语者语音时序图像中第一帧图像中的口型特征,LSTM(e2n)为失语者语音时序图像中第n帧图像中的口型特征。
利用公式(3)对所述第一口型特征及所述第二口型特征进行训练,确定出口型相似度特征Z,Z理解为对第一口型特征及第二口型特征进行相似度比对后得出的口型相似度分数:
Z=cos(Z1+Z2) (3)
在公式(3)中,Z1为第一口型特征,Z2为第二口型特征。
口型相似度特征Z确定出之后,利用公式(4)基于所述口型相似度特征及所述语音评分确定失语者的失语评分模型:
在公式(4)中,w1为口型相似度特征的权重,w2为失语者的语音评分的权重,S为失语者的语音评分,Score为预测评分。
在确定口型相似度特征的权重w1和确定失语者的语音评分的权重w2时,是根据Score和专业评分S1确定的。
失语评分模型确定出之后,针对任意一个失语者,均有一个专业评分S1和一个预测评分Score,当Score和专业评分S1相差太远时,说明失语评分模型的精度还是不够的,那么会基于专业评分S1来调整口型相似度特征的权重w1和失语者的语音评分的权重w2,直至预测评分Score和专业评分S1逼近两者误差小于1%,此时可以确定出针对任意一个失语者的口型相似度特征的权重w1和失语者的语音评分的权重w2。
然后对多个w1进行归一化处理,得到最终的口型相似度特征的权重w1;对多个w2进行归一化处理,得到最终的失语者的语音评分的权重w2。
失语评分模型确定出之后,当需要对当前失语者确定失语类型时,评测单元23用于调用终端摄像头接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者语音视频的语音进行评测,获取第一评分;
利用所述失语评分模型对所述语音视频进行评测,获取第二评分;
根据所述第一评分及所述第二评分确定所述当前失语者的失语类型。
作为一种可选的实施例,所述评测单元23根据所述第一评分及所述第二评分确定所述当前失语者的失语类型,包括:
若所述第一评分低于所述第二评分A分时,说明失语者口型比发音更准确,那么则可以确定所述当前失语者的失语类型为失语者喉咙有损伤导致声音嘶哑;
若所述第一评分高于所述第二评分A分时,说明失语者发音比口型更准确,那么则可以确定所述当前失语者懂得正常发音,但嘴部肌肉或舌头肌肉损伤,失语类型为嘴部肌肉损伤或舌头肌肉损伤;
若所述第一评分与所述第二评分相差B分时,确定所述当前失语者的失语类型为大脑语言功能损伤;其中,所述A>20,所述B小于或等于20。
确定出失语类型后,推送单元25用于根据失语类型推送适配的训练模式,训练模式包括:基础发音训练、复述性训练、命名训练、衔接训练、简单对话训练。
比如,失语类型为失语者喉咙有损伤时,提供的训练模式可以为基础发音训练。
进一步地,为了可以让外界能更清楚地了解失语者的需求,获取单元21还用于:
预先采集所述失语者的音频数据(也可以称为历史音频数据),根据所述音频中的词语建立语音识别库。这里,可以直接通过录音模式采集失语者的音频,也可以通过提取失语者时序图像数据中的音频数据来获取失语者的音频,失语者包括多个,历史音频数据一般为失语者经常使用的词语,比如:吃饭,休息,上厕所,散步,不舒服等。
在建立语音识别库时,为了提高语音识别库的识别精度,需要将多个历史音频数据进行滤波除杂,然后提取滤波除杂后的历史音频数据中的音频时域特征,根据所述音频时域特征确定浊音、清音、声母及韵母;基于确定出的浊音、清音、声母及韵母截取滤波除杂后的历史音频数据中的有效音频数据,并获取有效音频数据的起始位置及结束位置,以能获取历史音频数据中有效音频数据的长度。
当需要辨别所述当前失语者音频的词语时,同样需要先提取所述当前失语者音频数据,并对所述音频数据进行滤波除杂;
提取所述当前失语者滤波除杂后的音频数据中的音频时域特征,根据所述音频时域特征确定浊音、清音、声母及韵母;
基于确定出的浊音、清音、声母及韵母截取所述当前失语者滤波除杂后的音频数据中的有效音频数据;
确定单元24还用于确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,输出相似度最高的词语。
需要说明的是,在截取当前失语者音频数据中的有效音频数据时,截取的数据长度需要与历史音频数据中有效音频数据的长度一致。
作为一种可选的实施例,确定单元24确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,包括:
计算所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的余弦距离;
根据所述余弦距离确定对应的相似度,所述余弦距离与所述相似度成反比,余弦距离越小,相似度越高。
这样即使在失语者表达不清楚的情况下,通过本实施例的方法,外界也可以正常了解失语者的需求。
本发明实施例提供的确定失语类型的方法及装置能带来的有益效果至少是:
本发明提供了一种确定失语类型的方法及装置,方法包括:针对目标词语,预先获取标准语音时序图像、失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分,所述语音评分是利用语音评测算法确定的,所述专业评分是根据专业人员确定的,所述失语者包括多个;根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集;基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练,确定出失语评分模型;当需要对当前失语者确定失语类型时,接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者语音视频的语音进行评测,获取第一评分;利用所述失语评分模型对所述语音视频进行评测,获取第二评分;根据所述第一评分及所述第二评分确定所述当前失语者的失语类型;其中,所述基于卷积神经网络对所述数据训练集进行训练,确定出失语评分模型,包括:利用卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理,提取所述标准语音时序图像的第一口型特征;利用卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理,提取所述多个失者语音时序图像的第二口型特征;利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练,确定出口型相似度特征;基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型;如此,因失语评分模型是根据发音口型及发音音频进行确定的,充分考虑到了失语者的失语因素,因此失语评分模型的精度是可以得到保证的,那么利用失语评分模型确定出的第二评分的精度也是可以得到保证的,因此可以准确地确定出失语者的失语类型,进而可以提供最适合的训练方案,提高训练效果;并且因该方法是在终端中实现的,操作方便,因此失语者不需要他人时刻陪伴,只需指导失语者的使用方法,失语者就能自行操作,大大节约了成本;对于心里负担较重的失语者,无需跑到专业训练场所去训练,可以在家中训练。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种确定失语类型的装置,其特征在于,所述装置包括:
获取单元,用于针对目标词语,预先获取标准语音时序图像、失语者语音时序图像、失语者的专业评分以及失语者的语音评分,所述语音评分是利用语音评测算法确定的,所述专业评分是根据专业人员确定的,所述失语者包括多个;
训练单元,根据所述标准语音时序图像、所述失语者语音时序图像、所述失语者的专业评分以及所述失语者的语音评分确定数据训练集;
基于卷积神经网络及长短期记忆网络对所述数据训练集进行训练,确定出失语评分模型;
评测单元,用于当需要对当前失语者确定失语类型时,接收所述当前失语者的语音视频,利用所述语音评测算法对所述当前失语者的语音视频的语音进行评测,获取第一评分;
利用所述失语评分模型对所述语音视频进行评测,获取第二评分;
确定单元,用于根据所述第一评分及所述第二评分确定所述当前失语者的失语类型;其中,所述训练单元具体用于:
利用所述卷积神经网络对所述标准语音时序图像的各单帧图像进行卷积和池化处理,提取所述标准语音时序图像的第一口型特征;
利用所述卷积神经网络对所述失语者语音时序图像的各单帧图像进行卷积和池化处理,提取多个失者语音时序图像的第二口型特征;
利用所述长短期记忆网络对所述第一口型特征及所述第二口型特征进行训练,确定出口型相似度特征;
基于所述口型相似度特征及所述失语者的语音评分确定所述失语评分模型。
2.如权利要求1所述的装置,其特征在于,所述确定单元具体用于:
若所述第一评分低于所述第二评分A分时,确定所述当前失语者的失语类型为失语者喉咙有损伤;
若所述第一评分高于所述第二评分A分时,确定所述当前失语者的失语类型为嘴部肌肉损伤或舌头肌肉损伤;
若所述第一评分与所述第二评分相差B分时,确定所述当前失语者的失语类型为大脑语言功能损伤;其中,所述A大于20,所述B小于或等于20。
3.如权利要求1所述的装置,其特征在于,所述装置还包括:推送单元,用于根据所述第一评分及所述第二评分确定所述当前失语者的失语类型后,根据所述失语类型推送适配的语音训练模式。
4.如权利要求1所述的装置,其特征在于,所述获取单元还用于:
采集所述失语者的音频,根据所述音频中的词语建立语音识别库;
当需要辨别当前失语者音频的词语时,提取当前失语者音频数据,并对所述音频数据进行滤波除杂;
提取滤波除杂后的音频数据中的音频时域特征,根据所述音频时域特征确定浊音、清音、声母及韵母;
基于确定出的浊音、清音、声母及韵母截取所述滤波除杂后的音频数据的有效音频数据;
所述确定单元还用于:确定所述有效音频数据与所述语音识别库中各词语对应的音频数据之间的相似度,输出相似度最高的词语。
5.如权利要求2所述的装置,其特征在于,所述确定单元还用于:
计算有效音频数据与所述语音识别库中各词语对应的音频数据之间的余弦距离;
根据所述余弦距离确定对应的相似度,所述余弦距离与相似度成反比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911325531.7A CN111179919B (zh) | 2019-12-20 | 2019-12-20 | 一种确定失语类型的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911325531.7A CN111179919B (zh) | 2019-12-20 | 2019-12-20 | 一种确定失语类型的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179919A CN111179919A (zh) | 2020-05-19 |
CN111179919B true CN111179919B (zh) | 2022-11-04 |
Family
ID=70657421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911325531.7A Active CN111179919B (zh) | 2019-12-20 | 2019-12-20 | 一种确定失语类型的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179919B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084416A (zh) * | 2020-09-21 | 2020-12-15 | 哈尔滨理工大学 | 基于CNN和LSTM的Web服务推荐方法 |
CN114306871A (zh) * | 2021-12-30 | 2022-04-12 | 首都医科大学附属北京天坛医院 | 基于人工智能的失语症患者康复训练方法和系统 |
CN114617769B (zh) * | 2022-03-15 | 2024-03-12 | 北京中医药大学东直门医院 | 基于融合语音识别的失语症患者辅助康复训练装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6912499B1 (en) * | 1999-08-31 | 2005-06-28 | Nortel Networks Limited | Method and apparatus for training a multilingual speech model set |
JP4048226B1 (ja) * | 2007-05-30 | 2008-02-20 | 株式会社シマダ製作所 | 失語症練習支援装置 |
CN109166629A (zh) * | 2018-09-10 | 2019-01-08 | 深圳市科迈爱康科技有限公司 | 失语症评价与康复辅助的方法及系统 |
CN110276259B (zh) * | 2019-05-21 | 2024-04-02 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-20 CN CN201911325531.7A patent/CN111179919B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111179919A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179919B (zh) | 一种确定失语类型的方法及装置 | |
US11322155B2 (en) | Method and apparatus for establishing voiceprint model, computer device, and storage medium | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
Sanderson | The vidtimit database | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
An et al. | Automatic recognition of unified parkinson's disease rating from speech with acoustic, i-vector and phonotactic features. | |
Ravikumar et al. | An approach for objective assessment of stuttered speech using MFCC | |
KR101785500B1 (ko) | 근육 조합 최적화를 통한 안면근육 표면근전도 신호기반 단모음인식 방법 | |
Quintas et al. | Automatic Prediction of Speech Intelligibility Based on X-Vectors in the Context of Head and Neck Cancer. | |
US8160866B2 (en) | Speech recognition method for both english and chinese | |
CN109192224B (zh) | 一种语音评测方法、装置、设备及可读存储介质 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN110246485B (zh) | 基于语音识别模型的样本数据获取方法、终端设备及介质 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
JP2018159788A5 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
Murugappan et al. | DWT and MFCC based human emotional speech classification using LDA | |
Bone et al. | Classifying language-related developmental disorders from speech cues: the promise and the potential confounds. | |
Tripathi et al. | Improved speaker independent dysarthria intelligibility classification using deepspeech posteriors | |
CN104347071B (zh) | 生成口语考试参考答案的方法及系统 | |
JP4775961B2 (ja) | 映像を用いた発音の推定方法 | |
CN114155882B (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
Terbeh et al. | Vocal pathologies detection and mispronounced phonemes identification: case of Arabic continuous speech | |
Pompili et al. | Assessment of Parkinson's disease medication state through automatic speech analysis | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN113077794A (zh) | 一种人声识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |