CN116705070B - 一种唇腭裂术后说话发音及鼻音矫正方法及系统 - Google Patents

一种唇腭裂术后说话发音及鼻音矫正方法及系统 Download PDF

Info

Publication number
CN116705070B
CN116705070B CN202310965276.2A CN202310965276A CN116705070B CN 116705070 B CN116705070 B CN 116705070B CN 202310965276 A CN202310965276 A CN 202310965276A CN 116705070 B CN116705070 B CN 116705070B
Authority
CN
China
Prior art keywords
pronunciation
defect
phoneme
standard
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310965276.2A
Other languages
English (en)
Other versions
CN116705070A (zh
Inventor
何燕姬
陈国新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Youdao Speech Rehabilitation Research Institute
Original Assignee
Nanjing Youdao Speech Rehabilitation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Youdao Speech Rehabilitation Research Institute filed Critical Nanjing Youdao Speech Rehabilitation Research Institute
Priority to CN202310965276.2A priority Critical patent/CN116705070B/zh
Publication of CN116705070A publication Critical patent/CN116705070A/zh
Application granted granted Critical
Publication of CN116705070B publication Critical patent/CN116705070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及发音矫正技术领域,本发明公开了一种唇腭裂术后说话发音及鼻音矫正方法及系统,包括获取发音练习音视频,对发音练习音视频进行评测,筛选出患者的缺陷发音数据;基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,并进行提醒。

Description

一种唇腭裂术后说话发音及鼻音矫正方法及系统
技术领域
本发明涉及发音矫正技术领域,更具体地说,本发明涉及一种唇腭裂术后说话发音及鼻音矫正方法及系统。
背景技术
唇腭裂,是口腔颌面部最常见的先天性畸形之一,是一种出生时口腔和面部发育异常的情况,也被称为唇腭裂缺陷;它是由于婴儿在母体发育期间口腔和面部结构未能完全闭合所引起的;唇腭裂可以是唇部裂缺(唇裂)、腭部裂缺(腭裂)或同时存在两者;目前,随着医疗技术水平的不断提高,虽然通过外科手术已经能够成功修复各种类型的唇腭裂,但由于各种原因不能早期实施手术,使得患者术前形成了不良的发音习惯,进而导致术后仍有相当数量患者存在不同程度的语音障碍,而这些患者在术后需要配合多角度和个性化的言语治疗,才能恢复到正常发音水平;因此如何对唇腭裂术后的患者进行有效的说话发音及鼻音矫正就成为当下研究热点。
目前,现有的唇腭裂术后说话发音及鼻音矫正方法大多是通过言语治疗康复师进行“一对一”式的矫正指导实现,然而由于受制于言语治疗的发展速度和普及广度,导致现有言语治疗康复师的数量无法满足现有的言语治疗需求,并且唇腭裂术后说话发音及鼻音矫正属于长期的工作,仅依赖于言语治疗康复师也是远远不够的;当然也存在部分智能化的发音矫正方式或系统,例如授权公告号CN109410664B的中国专利公开了一种发音纠正方法及电子设备,再例如授权公告号CN110085261B的中国专利公开了一种发音纠正方法、装置、设备以及计算机可读存储介质,上述方法虽能实现发音矫正,但经发明人对上述方法以及现有技术进行研究和实际应用发现,上述方法以及现有技术至少存在以下部分缺陷:
(1)应用场景限制性较大,仅依赖言语治疗康复师,导致唇腭裂术后患者说话发音及鼻音矫正成效缓慢;
(2)无法精确识别并评测患者的发音内容,难以针对性、个性化的实施发音矫正,且无法解析患者发音缺陷的具体原因;
(3)仅起到标准发音的示范作用,无法指导陪护人员(如唇腭裂患者家长等)实施正确的矫正方式,难以长期辅助及指导陪护人员完成对行为力低下唇腭裂患者(行为力低下唇腭裂患者是指因为患者年幼而缺乏自控力或自我纠正能力的人)的发音矫正。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种唇腭裂术后说话发音及鼻音矫正方法及系统。
为实现上述目的,本发明提供如下技术方案:
一种唇腭裂术后说话发音及鼻音矫正方法,所述方法基于客户端和云服务器实现,所述客户端与云服务器远程通信连接,所述方法包括:
获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;
基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;
基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;
基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;
匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒。
进一步地,对所述发音练习音视频进行评测,包括:
分别提取发音练习音频文件和发音练习视频文件的时间戳,基于时间戳对发音练习音频文件和发音练习视频文件进行同步;
基于预设起始标记和预设跟读时间跨度,分别对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,得到i个音频细分段和j个视频细分段,i、j为大于零的正整数集;
分别对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据。
进一步地,对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,包括:
基于预设起始标记分别确定发音练习音频文件和发音练习视频文件的起始时间;
获取每个单音素的预设播放时长;
基于发音练习音频文件和发音练习视频文件的起始时间、每个单音素的预设播放时长以及预设跟读时间跨度,分别对发音练习音频文件和发音练习视频文件进行划分,得到X个音频段和Y个视频段,X、Y为大于零的正整数集;
基于每个单音素的预设播放时长,分别对X个音频段和Y个视频段中的播放部分进行剔除,得到i个音频细分段和j个视频细分段。
进一步地,对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据,包括:
a.确定第W个音频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准时频波形;
b.将对应音频细分段转化为实际时频图,提取实际时频图中的实际时频波形,将实际时频波形与标准时频波形比较,提取实际时频波形中与标准时频波形满足最大相似度的波形部分作为每个音频细分段的相似波形;
c.分别提取相似波形的波形频率值与标准时频波形的波形频率值,计算相似波形的波形频率值与标准时频波形的波形频率值之间的频率平均差值,
d.确定第S个视频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准发音口型图,S为大于零的正整数集;
e.将对应视频细分段进行视频帧逐帧分解,基于分解后的每个视频帧进行口型区域提取,以得到C幅患者发音口型图像,将每幅患者发音口型图像与标准发音口型图进行比较,提取C幅患者发音口型图像中与标准发音口型图满足最大相似度的患者发音口型图像作为相似图像;
f.将相似图像与标准发音口型图均划分为Z个区域,对相似图像与标准发音口型图中相同位置区域的像素点进行比较,以获取差异区域个数;Z为大于零的正整数;
g.根据频率平均差值和差异区域个数计算缺陷评测系数,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,若存在,将对应单音素标记为错误发音音素,并进行记录,若不存在,则判定对应单音素不存在发音缺陷;令W+Q、S+D,并返回至步骤a;
H.重复上述步骤a~步骤g,直至W+Q=i和S+D=j,得到缺陷发音数据。
进一步地,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,包括:
设置缺陷评测阈值,将缺陷评测系数与缺陷评测阈值进行比较,若缺陷评测系数大于等于缺陷评测阈值,则判定对应单音素是存在发音缺陷,反之,若缺陷评测系数小于缺陷评测阈值,则判定对应单音素不存在发音缺陷。
进一步地,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因,包括:
提取每个音频细分段的相似波形,对每个音频细分段的相似波形进行傅里叶变换,得到若干错误发音音素的发音频谱图;
将错误发音音素的发音频谱图与标准频谱特征图进行比较,若错误发音音素的发音频谱图与标准频谱特征图相一致,则将标准频谱特征图关联的发音缺陷原因作为错误发音音素的对应发音缺陷原因。
进一步地,将错误发音音素的发音频谱图与标准频谱特征图进行比较,包括:
利用余弦相似度算法,计算错误发音音素的发音频谱图与标准频谱特征图的余弦相似度;
将余弦相似度与预设余弦相似度阈值进行比较,若余弦相似度大于等于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图相一致;若余弦相似度小于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图不一致。
进一步地,匹配对应的预构建机器学习模型,包括:
获取缺陷发音数据中的错误发音音素;
基于预设发音音素与预构建机器学习模型的匹配关系,确定错误发音音素的对应的预构建机器学习模型。
进一步地,预构建机器学习模型的构建过程具体如下:
获取大量样本数据,所述样本数据包括每个发音音素对应的发音口型图、每个发音音素对应的辅助工具图像、每个若干发音音素对应的使用辅助工具的动作图像;
对大量样本数据进行标注,将标注后的大量样本数据划分为80%的训练集和20%的测试集;
其中,对大量样本数据进行标注的逻辑为:若发音音素对应的发音口型图在经人为判断后,为正确,则标记为1;若发音音素对应的辅助工具图像在经人为判断,为正确,则标记为1;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为正确,则标记为1;相反,若发音音素对应的发音口型图在经人为判断后,为错误,则标记为0;若发音音素对应的辅助工具图像在经人为判断,为错误,则标记为0;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为错误,则标记为0;
构建分类器,将训练集作为输入数据输入至分类器中进行训练,以得到训练后的分类器;
利用测试集对训练后的分类器进行准确度验证,输出满足预设准确度的训练后的分类器作为预构建机器学习模型。
一种唇腭裂术后说话发音及鼻音矫正系统,其基于上述中任一项所述的一种唇腭裂术后说话发音及鼻音矫正方法实现,包括:
评测筛选模块,用于获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;
关系分析模块,用于基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;
原因确定模块,用于基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;
演示采集模块,用于基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;
识别提醒模块,用于匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒。
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述一种唇腭裂术后说话发音及鼻音矫正方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述一种唇腭裂术后说话发音及鼻音矫正方法。
相比于现有技术,本发明的有益效果在于:
(1)本申请公开了一种唇腭裂术后说话发音及鼻音矫正方法及系统,首先获取发音练习音视频,对发音练习音视频进行评测,筛选出患者的缺陷发音数据;基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,并进行提醒;通过上述步骤本发明能够精确识别并评测患者的发音内容,且可以解析患者发音缺陷的具体原因,从而能够对患者实施针对性、个性化的发音矫正,进而有利于提高对唇腭裂术后患者说话发音及鼻音的矫正成效;
(2)本申请公开了一种唇腭裂术后说话发音及鼻音矫正方法及系统,其通过获悉具体的发音缺陷原因,调取对应的标准矫正动作视频,并对陪护人员的错误的发音矫正动作进行提醒指导,本发明能够指导陪护人员(如唇腭裂患者家长等)实施正确的矫正方式,从而有利于长期辅助及指导陪护人员完成对行为力低下唇腭裂患者(行为力低下唇腭裂患者是指因为患者年幼而缺乏自控力或自我纠正能力的人)的发音矫正。
附图说明
图1为本发明实施例2提供的一种唇腭裂术后说话发音及鼻音矫正方法的示意图;
图2为本发明实施例1提供的一种唇腭裂术后说话发音及鼻音矫正系统的结构示意图;
图3为本发明实施例1或实施例2提供的缺陷发音数据的获取逻辑示意图;
图4为本发明实施例1或实施例2提供的机器学习模型的构建示意图;
图5为本发明实施例4提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图2、3和4所示,本实施例公开提供了一种唇腭裂术后说话发音及鼻音矫正系统,所述系统包括:
评测筛选模块210,用于获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;
需事先知晓的是:在具体应用时,由用户(患者或陪护人员)通过客户端调取预存于云服务器中发音练习素材并进行显示,然后再由患者根据发音练习素材的播放进行跟读,通过客户端的摄像装置采集患者对发音练习素材的跟读场景得到发音练习音视频;所述客户端可以为台式电脑、笔记本电脑、学习机或平板等中的一种,所述摄像装置可以为集成于客户端上的摄像头和/或与客户端电性连接的摄像设备(包括但不限于手机、照相机等等);
应当了解的是:所述发音练习素材中包括若干个单音素,所述单音素包括元音音素和辅音音素;音素是语言中最小的语音单位,可以区分词义的音素称为"辅音音素",如英语中的/b/和/p/;可以独立成音节的音素称为"元音音素",如英语中的/i/和/a/;音素划分帮助我们理解和描述不同语音之间的差异和发音规则元音音素;
还应当了解的是:元音音素在发音过程中,气流通过口腔,舌位相对较低且不接触到其他发音器官,其发音是连续的,可以持续产生声音,因为口腔没有明显的阻塞或摩擦;而辅音音素在发音时,气流受到阻碍或干扰,发音器官之间有接触或摩擦,产生不同的噪声或阻塞,其发音较短,通常有明显的起止点,声音持续时间较短,且其包括各种不同的音素特点,如爆破音、摩擦音、鼻音等;相对元音音素,辅音音素的“音弱”特点更为明显,需要更多的肌肉控制以及发音器官之间的协调,对于唇腭裂患者也更加吃力,因此,对于辅音音素的矫正侧重点更大;
可以知晓的是:相较于视频文件,在实际应用中,音频文件会存在额外的噪音或杂音(如陪护人员的声音),因此在具体应用中,可选的,所述客户端还电性连接有多个麦克风设备,例如患者和陪护人员分别佩戴一个麦克风设备;
在具体实施中,对所述发音练习音视频进行评测,包括:
分别提取发音练习音频文件和发音练习视频文件的时间戳,基于时间戳对发音练习音频文件和发音练习视频文件进行同步;
基于预设起始标记和预设跟读时间跨度,分别对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,得到i个音频细分段和j个视频细分段,i、j为大于零的正整数集;
具体的,对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,包括:
基于预设起始标记分别确定发音练习音频文件和发音练习视频文件的起始时间;
获取每个单音素的预设播放时长;
应当了解的是:每个单音素的预设播放时长通常一样,因而,在本实施例中,每个单音素的预设播放时长设定为相等;
基于发音练习音频文件和发音练习视频文件的起始时间、每个单音素的预设播放时长以及预设跟读时间跨度,分别对发音练习音频文件和发音练习视频文件进行划分,得到X个音频段和Y个视频段,X、Y为大于零的正整数集;
还应当了解的是:每个单音素的预设播放时长以及预设跟读时间跨度预存于云服务器中;
基于每个单音素的预设播放时长,分别对X个音频段和Y个视频段中的播放部分进行剔除,得到i个音频细分段和j个视频细分段;
需要说明的是:预设起始标记是指通过客户端播放发音练习素材的起始标记,其作用是用于确定发音练习音频文件和发音练习视频文件中患者对第一单音素进行跟读的起始时间,其如同影视拍摄中的场景板,通过场景板提示方便影视后期的剪辑,在本实施例中,所述预设起始标记包括但不限于为倒计时语音和指定用户动作等等;而跟读时间跨度是指当通过客户端播放发音练习素材中的某一单音素后,预留给患者的跟读时长;
针对上述内容进行示例性解释就是:假设根据预设起始标记获悉发音练习音频文件和发音练习视频文件的起始时间为,若每个单音素的预设播放时长V,且预设跟读时间跨度为/>,因此,/>为第一个单因素的播放和跟读时间区间,即为第一个音频段或第一个视频段,/>为第二个单因素的播放和跟读时间区间,即为第二个音频段或第二个视频段,同理,以此类推,则得到X个音频段和Y个视频段;进一步示例性解释就是:由于是对患者发音的缺陷发音数据进行获取,因此,当得到X个音频段和Y个视频段后,通过截取每个音频段和每个视频段中素材播放部分,即每个单音素的播放部分,并对其进行剔除,则得到i个音频细分段和j个视频细分段;
分别对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据;
具体的,对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据,包括:
a.确定第W个音频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准时频波形;
需要说明的是:发音练习素材中的每个单音素的播放顺序人为事先设定;因此基于时间顺序匹配播放顺序,即可获悉每个音频细分段的对应单音素;进一步举例解释就是:按照播放顺序第一个播放单音素为/ch/,若第一个播放单音素的播放时间区间为10,第二个播放单音素的播放时间区间为20、……、第N个播放单音素的播放时间区间为N×10,因此获取时间顺序匹配播放顺序,即可确定每个音频细分段的对应单音素;
b.将对应音频细分段转化为实际时频图,提取实际时频图中的实际时频波形,将实际时频波形与标准时频波形比较,提取实际时频波形中与标准时频波形满足最大相似度的波形部分作为每个音频细分段的相似波形;
应当了解的是:将实际时频波形与标准时频波形比较的逻辑可为:将标准时频波形放入实际时频波形进行波形重合度比对,当实际时频波形中的某一部分与标准时频波形的重合度最高,则将该部分作为最大相似度的波形部分,即得到音频细分段的相似波形;
c.分别提取相似波形的波形频率值与标准时频波形的波形频率值,计算相似波形的波形频率值与标准时频波形的波形频率值之间的频率平均差值,
需要说明的是:频率平均差值的计算公式为,式中:为频率平均差值,/>为第r时刻相似波形的波形频率值,/>第r时刻标准时频波形的波形频率值,/>为总时长;应当注意的是:相似波形与标准时频波形的时间区间相等;
d.确定第S个视频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准发音口型图,S为大于零的正整数集;
e.将对应视频细分段进行视频帧逐帧分解,基于分解后的每个视频帧进行口型区域提取,以得到C幅患者发音口型图像,将每幅患者发音口型图像与标准发音口型图进行比较,提取C幅患者发音口型图像中与标准发音口型图满足最大相似度的患者发音口型图像作为相似图像;
需要说明的是:将每幅患者发音口型图像与标准发音口型图进行比较的逻辑为:利用相似度算法计算每幅患者发音口型图像与标准发音口型图的相似度,将最大相似度的一幅患者发音口型图像作为相似图像,所述相似度算法具体可为欧式距离、汉明距离和余弦相似度中一种;
f.将相似图像与标准发音口型图均划分为Z个区域,对相似图像与标准发音口型图中相同位置区域的像素点进行比较,以获取差异区域个数;Z为大于零的正整数;
在具体实施中,将相似图像与标准发音口型图均划分为Z个区域,相似图像与标准发音口型图中划分区域的方式和区域的大小完全相同;接着将相似图像与标准发音口型图中相同位置区域的像素点进行一一比较,两个相同位置的区域采用的比较方式为每个像素点进行逐一比较,若两个相同位置的区域存在差异的像素点超过一定的预设百分比,则判断两个相同部位的区域存在差异,统计存在差异区域的总数,即得到差异区域个数;
g.根据频率平均差值和差异区域个数计算缺陷评测系数,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,若存在,将对应单音素标记为错误发音音素,并进行记录,若不存在,则判定对应单音素不存在发音缺陷;令W+Q、S+D,并返回至步骤a;
需要说明的是:缺陷评测系数的计算公式为;式中:为缺陷评测系数,/>为差异区域个数,/>和/>为修正因子,/>
应当明白的是:差异区域个数越多或频率平均差值越大,则说明患者对对应单音素的发明越不标准;
具体的,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,包括:
设置缺陷评测阈值,将缺陷评测系数与缺陷评测阈值进行比较,若缺陷评测系数大于等于缺陷评测阈值,则判定对应单音素是存在发音缺陷,反之,若缺陷评测系数小于缺陷评测阈值,则判定对应单音素不存在发音缺陷;
H.重复上述步骤a~步骤g,直至W+Q=i和S+D=j,得到缺陷发音数据(即得到M个错误发音音素);
其中Q和D均为变化数值,其初始值均为1,其每执行一次循环均进行一次累加,举例说明就是,当变化区间为1时,第二次循环时Q和D均为初始值均1,第三次循环时Q和D均为2,第四次循环时Q和D均为3,以此类推,直至W+Q=i和S+D=j时停止;
关系分析模块220,用于基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;
需要说明的是:预设缺陷发音数据与发音分析数据之间的关系是指:缺陷发音数据中的每个错误发音音素都有对应发音分析数据,在发音分析数据中关联了每个错误发音音素的N个发音缺陷原因;多个所述发音缺陷原因包括但不限于发音口型错误、发音部位错误、发音力量不对等等,且每个发音缺陷原因都对应有标准矫正动作视频包括语音指示提醒和标准矫正动作示范,所述语音指示提醒和标准矫正动作示范基于对言语治疗康复师的录制拍摄得到;进一步需要说明的是:每个所述发音缺陷原因还关联了与每个发音缺陷原因对应的标准频谱特征图;
应当了解的是:标准矫正动作视频是用于指导陪护人员如何对患者进行人为干预,以使患者掌握标准的发音标准,进一步解释就是,在康复医院中多为言语治疗康复师通过利用辅助工具矫正患者发音,例如,在实际场景中,言语治疗康复师需利用如棉签等辅助工具去矫正患者发音;因此,标准矫正动作视频的作用就是让陪护人员学习言语治疗康复师的矫正动作和矫正工具的使用方法等,在家中等场景去矫正患者发音;
原因确定模块230,用于基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;
具体的,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因,包括:
提取每个音频细分段的相似波形,对每个音频细分段的相似波形进行傅里叶变换,得到若干错误发音音素的发音频谱图;
应当了解的是:所述傅里叶变换具体为快速傅里叶变换或短时傅里叶变换中的一种,每个音频细分段的相似波形的获取参见上文描述,对此不再重复赘述;
将错误发音音素的发音频谱图与标准频谱特征图进行比较,若错误发音音素的发音频谱图与标准频谱特征图相一致,则将标准频谱特征图关联的发音缺陷原因作为错误发音音素的对应发音缺陷原因;
具体的,将错误发音音素的发音频谱图与标准频谱特征图进行比较,包括:
利用余弦相似度算法,计算错误发音音素的发音频谱图与标准频谱特征图的余弦相似度;
将余弦相似度与预设余弦相似度阈值进行比较,若余弦相似度大于等于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图相一致;若余弦相似度小于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图不一致;
需要说明的是:所述余弦相似度算法的计算公式为;式中:/>表示错误发音音素的发音频谱图与标准频谱特征图的余弦相似度,区间[0,1];/>为向量化后错误发音音素的发音频谱图;B为向量化标准频谱特征图;
演示采集模块240,用于基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;
需要说明的是:当获悉每个错误发音音素的对应发音缺陷原因,系统会将对应发音缺陷原因相关联对应的标准矫正动作视频发送至客户端进行演示播放,以指导陪护人员对患者进行发音矫正,此时,利用客户端的摄像装置或利用与客户端电性连接的摄像设备采集陪护人员对患者进行发音矫正的场景,即得到矫正动作画面;进一步需要说明的是:在矫正动作画面中至少包含患者的口部画面;
识别提醒模块250,用于匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒;
具体的,匹配对应的预构建机器学习模型,包括:
获取缺陷发音数据中的错误发音音素;
基于预设发音音素与预构建机器学习模型的匹配关系,确定错误发音音素的对应的预构建机器学习模型;
需要说明的是:预构建机器学习模型包括若干个,其均预存于云服务器中;其中,发音音素与预构建机器学习模型的匹配关系是指,每个发音音素都人为事先设定关联有一个预构建机器学习模型,因此,当获悉缺陷发音数据中的错误发音音素,即可确定错误发音音素的对应的预构建机器学习模型;
具体的,预构建机器学习模型的构建过程具体如下:
获取大量样本数据,所述样本数据包括每个发音音素对应的发音口型图、每个发音音素对应的辅助工具图像、每个若干发音音素对应的使用辅助工具的动作图像;
对大量样本数据进行标注,将标注后的大量样本数据划分为80%的训练集和20%的测试集;
具体的,对大量样本数据进行标注的逻辑为:若发音音素对应的发音口型图在经人为判断后,为正确,则标记为1;若发音音素对应的辅助工具图像在经人为判断,为正确,则标记为1;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为正确,则标记为1;相反,若发音音素对应的发音口型图在经人为判断后,为错误,则标记为0;若发音音素对应的辅助工具图像在经人为判断,为错误,则标记为0;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为错误,则标记为0;
应当明白的是:发音音素对应的使用辅助工具的动作图像是指,陪护人员利用辅助工具进行矫正时的动作;
构建分类器,将训练集作为输入数据输入至分类器中进行训练,以得到训练后的分类器;
利用测试集对训练后的分类器进行准确度验证,输出满足预设准确度的训练后的分类器作为预构建机器学习模型;
需要说明的是:所述分类器具体为逻辑回归、决策树、随机森林、朴素贝叶斯或神经网络中的一种;基于错误的发音矫正动作对陪护人员进行提醒逻辑为:当识别陪护人员的错误的发音矫正动作时,进行语音播报提醒。
实施例2
请参阅图1、3和4所示,本实施例公开提供了一种唇腭裂术后说话发音及鼻音矫正方法,所述方法基于客户端和云服务器实现,所述客户端与云服务器远程通信连接,所述方法包括:
步骤1:获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;
需事先知晓的是:在具体应用时,由用户(患者或陪护人员)通过客户端调取预存于云服务器中发音练习素材并进行显示,然后再由患者根据发音练习素材的播放进行跟读,通过客户端的摄像装置采集患者对发音练习素材的跟读场景得到发音练习音视频;所述客户端可以为台式电脑、笔记本电脑、学习机或平板等中的一种,所述摄像装置可以为集成于客户端上的摄像头和/或与客户端电性连接的摄像设备(包括但不限于手机、照相机等等);
应当了解的是:所述发音练习素材中包括若干个单音素,所述单音素包括元音音素和辅音音素;音素是语言中最小的语音单位,可以区分词义的音素称为"辅音音素",如英语中的/b/和/p/;可以独立成音节的音素称为"元音音素",如英语中的/i/和/a/;音素划分帮助我们理解和描述不同语音之间的差异和发音规则元音音素;
还应当了解的是:元音音素在发音过程中,气流通过口腔,舌位相对较低且不接触到其他发音器官,其发音是连续的,可以持续产生声音,因为口腔没有明显的阻塞或摩擦;而辅音音素在发音时,气流受到阻碍或干扰,发音器官之间有接触或摩擦,产生不同的噪声或阻塞,其发音较短,通常有明显的起止点,声音持续时间较短,且其包括各种不同的音素特点,如爆破音、摩擦音、鼻音等;相对元音音素,辅音音素的“音弱”特点更为明显,需要更多的肌肉控制以及发音器官之间的协调,对于唇腭裂患者也更加吃力,因此,对于辅音音素的矫正侧重点更大;
可以知晓的是:相较于视频文件,在实际应用中,音频文件会存在额外的噪音或杂音(如陪护人员的声音),因此在具体应用中,可选的,所述客户端还电性连接有多个麦克风设备,例如患者和陪护人员分别佩戴一个麦克风设备;
在具体实施中,对所述发音练习音视频进行评测,包括:
分别提取发音练习音频文件和发音练习视频文件的时间戳,基于时间戳对发音练习音频文件和发音练习视频文件进行同步;
基于预设起始标记和预设跟读时间跨度,分别对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,得到i个音频细分段和j个视频细分段,i、j为大于零的正整数集;
具体的,对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,包括:
基于预设起始标记分别确定发音练习音频文件和发音练习视频文件的起始时间;
获取每个单音素的预设播放时长;
应当了解的是:每个单音素的预设播放时长通常一样,因而,在本实施例中,每个单音素的预设播放时长设定为相等;
基于发音练习音频文件和发音练习视频文件的起始时间、每个单音素的预设播放时长以及预设跟读时间跨度,分别对发音练习音频文件和发音练习视频文件进行划分,得到X个音频段和Y个视频段,X、Y为大于零的正整数集;
还应当了解的是:每个单音素的预设播放时长以及预设跟读时间跨度预存于云服务器中;
基于每个单音素的预设播放时长,分别对X个音频段和Y个视频段中的播放部分进行剔除,得到i个音频细分段和j个视频细分段;
需要说明的是:预设起始标记是指通过客户端播放发音练习素材的起始标记,其作用是用于确定发音练习音频文件和发音练习视频文件中患者对第一单音素进行跟读的起始时间,其如同影视拍摄中的场景板,通过场景板提示方便影视后期的剪辑,在本实施例中,所述预设起始标记包括但不限于为倒计时语音和指定用户动作等等;而跟读时间跨度是指当通过客户端播放发音练习素材中的某一单音素后,预留给患者的跟读时长;
针对上述内容进行示例性解释就是:假设根据预设起始标记获悉发音练习音频文件和发音练习视频文件的起始时间为,若每个单音素的预设播放时长V,且预设跟读时间跨度为/>,因此,/>为第一个单因素的播放和跟读时间区间,即为第一个音频段或第一个视频段,/>为第二个单因素的播放和跟读时间区间,即为第二个音频段或第二个视频段,同理,以此类推,则得到X个音频段和Y个视频段;进一步示例性解释就是:由于是对患者发音的缺陷发音数据进行获取,因此,当得到X个音频段和Y个视频段后,通过截取每个音频段和每个视频段中素材播放部分,即每个单音素的播放部分,并对其进行剔除,则得到i个音频细分段和j个视频细分段;
分别对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据;
具体的,对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据,包括:
a.确定第W个音频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准时频波形;
需要说明的是:发音练习素材中的每个单音素的播放顺序人为事先设定;因此基于时间顺序匹配播放顺序,即可获悉每个音频细分段的对应单音素;进一步举例解释就是:按照播放顺序第一个播放单音素为/ch/,若第一个播放单音素的播放时间区间为10,第二个播放单音素的播放时间区间为20、……、第N个播放单音素的播放时间区间为N×10,因此获取时间顺序匹配播放顺序,即可确定每个音频细分段的对应单音素;
b.将对应音频细分段转化为实际时频图,提取实际时频图中的实际时频波形,将实际时频波形与标准时频波形比较,提取实际时频波形中与标准时频波形满足最大相似度的波形部分作为每个音频细分段的相似波形;
应当了解的是:将实际时频波形与标准时频波形比较的逻辑可为:将标准时频波形放入实际时频波形进行波形重合度比对,当实际时频波形中的某一部分与标准时频波形的重合度最高,则将该部分作为最大相似度的波形部分,即得到音频细分段的相似波形;
c.分别提取相似波形的波形频率值与标准时频波形的波形频率值,计算相似波形的波形频率值与标准时频波形的波形频率值之间的频率平均差值,
需要说明的是:频率平均差值的计算公式为,式中:为频率平均差值,/>为第r时刻相似波形的波形频率值,/>第r时刻标准时频波形的波形频率值,/>为总时长;应当注意的是:相似波形与标准时频波形的时间区间相等;
d.确定第S个视频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准发音口型图,S为大于零的正整数集;
e.将对应视频细分段进行视频帧逐帧分解,基于分解后的每个视频帧进行口型区域提取,以得到C幅患者发音口型图像,将每幅患者发音口型图像与标准发音口型图进行比较,提取C幅患者发音口型图像中与标准发音口型图满足最大相似度的患者发音口型图像作为相似图像;
需要说明的是:将每幅患者发音口型图像与标准发音口型图进行比较的逻辑为:利用相似度算法计算每幅患者发音口型图像与标准发音口型图的相似度,将最大相似度的一幅患者发音口型图像作为相似图像,所述相似度算法具体可为欧式距离、汉明距离和余弦相似度中一种;
f.将相似图像与标准发音口型图均划分为Z个区域,对相似图像与标准发音口型图中相同位置区域的像素点进行比较,以获取差异区域个数;Z为大于零的正整数;
在具体实施中,将相似图像与标准发音口型图均划分为Z个区域,相似图像与标准发音口型图中划分区域的方式和区域的大小完全相同;接着将相似图像与标准发音口型图中相同位置区域的像素点进行一一比较,两个相同位置的区域采用的比较方式为每个像素点进行逐一比较,若两个相同位置的区域存在差异的像素点超过一定的预设百分比,则判断两个相同部位的区域存在差异,统计存在差异区域的总数,即得到差异区域个数;
g.根据频率平均差值和差异区域个数计算缺陷评测系数,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,若存在,将对应单音素标记为错误发音音素,并进行记录,若不存在,则判定对应单音素不存在发音缺陷;令W+Q、S+D,并返回至步骤a;
需要说明的是:缺陷评测系数的计算公式为;式中:为缺陷评测系数,/>为差异区域个数,/>和/>为修正因子,/>
应当明白的是:差异区域个数越多或频率平均差值越大,则说明患者对对应单音素的发明越不标准;
具体的,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,包括:
设置缺陷评测阈值,将缺陷评测系数与缺陷评测阈值进行比较,若缺陷评测系数大于等于缺陷评测阈值,则判定对应单音素是存在发音缺陷,反之,若缺陷评测系数小于缺陷评测阈值,则判定对应单音素不存在发音缺陷;
H.重复上述步骤a~步骤g,直至W+Q=i和S+D=j,得到缺陷发音数据(即得到M个错误发音音素);
其中Q和D均为变化数值,其初始值均为1,其每执行一次循环均进行一次累加,举例说明就是,当变化区间为1时,第二次循环时Q和D均为初始值均1,第三次循环时Q和D均为2,第四次循环时Q和D均为3,以此类推,直至W+Q=i和S+D=j时停止;
步骤2:基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;
需要说明的是:预设缺陷发音数据与发音分析数据之间的关系是指:缺陷发音数据中的每个错误发音音素都有对应发音分析数据,在发音分析数据中关联了每个错误发音音素的N个发音缺陷原因;多个所述发音缺陷原因包括但不限于发音口型错误、发音部位错误、发音力量不对等等,且每个发音缺陷原因都对应有标准矫正动作视频包括语音指示提醒和标准矫正动作示范,所述语音指示提醒和标准矫正动作示范基于对言语治疗康复师的录制拍摄得到;进一步需要说明的是:每个所述发音缺陷原因还关联了与每个发音缺陷原因对应的标准频谱特征图;
应当了解的是:标准矫正动作视频是用于指导陪护人员如何对患者进行人为干预,以使患者掌握标准的发音标准,进一步解释就是,在康复医院中多为言语治疗康复师通过利用辅助工具矫正患者发音,例如,在实际场景中,言语治疗康复师需利用如棉签等辅助工具去矫正患者发音;因此,标准矫正动作视频的作用就是让陪护人员学习言语治疗康复师的矫正动作和矫正工具的使用方法等,在家中等场景去矫正患者发音;
步骤3:基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;
具体的,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因,包括:
提取每个音频细分段的相似波形,对每个音频细分段的相似波形进行傅里叶变换,得到若干错误发音音素的发音频谱图;
应当了解的是:所述傅里叶变换具体为快速傅里叶变换或短时傅里叶变换中的一种,每个音频细分段的相似波形的获取参见上文描述,对此不再重复赘述;
将错误发音音素的发音频谱图与标准频谱特征图进行比较,若错误发音音素的发音频谱图与标准频谱特征图相一致,则将标准频谱特征图关联的发音缺陷原因作为错误发音音素的对应发音缺陷原因;
具体的,将错误发音音素的发音频谱图与标准频谱特征图进行比较,包括:
利用余弦相似度算法,计算错误发音音素的发音频谱图与标准频谱特征图的余弦相似度;
将余弦相似度与预设余弦相似度阈值进行比较,若余弦相似度大于等于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图相一致;若余弦相似度小于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图不一致;
需要说明的是:所述余弦相似度算法的计算公式为;式中:/>表示错误发音音素的发音频谱图与标准频谱特征图的余弦相似度,区间[0,1];/>为向量化后错误发音音素的发音频谱图;B为向量化标准频谱特征图;
步骤4:基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;
需要说明的是:当获悉每个错误发音音素的对应发音缺陷原因,系统会将对应发音缺陷原因相关联对应的标准矫正动作视频发送至客户端进行演示播放,以指导陪护人员对患者进行发音矫正,此时,利用客户端的摄像装置或利用与客户端电性连接的摄像设备采集陪护人员对患者进行发音矫正的场景,即得到矫正动作画面;进一步需要说明的是:在矫正动作画面中至少包含患者的口部画面;
步骤5:匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒;
具体的,匹配对应的预构建机器学习模型,包括:
获取缺陷发音数据中的错误发音音素;
基于预设发音音素与预构建机器学习模型的匹配关系,确定错误发音音素的对应的预构建机器学习模型;
需要说明的是:预构建机器学习模型包括若干个,其均预存于云服务器中;其中,发音音素与预构建机器学习模型的匹配关系是指,每个发音音素都人为事先设定关联有一个预构建机器学习模型,因此,当获悉缺陷发音数据中的错误发音音素,即可确定错误发音音素的对应的预构建机器学习模型;
具体的,预构建机器学习模型的构建过程具体如下:
获取大量样本数据,所述样本数据包括每个发音音素对应的发音口型图、每个发音音素对应的辅助工具图像、每个若干发音音素对应的使用辅助工具的动作图像;
对大量样本数据进行标注,将标注后的大量样本数据划分为80%的训练集和20%的测试集;
具体的,对大量样本数据进行标注的逻辑为:若发音音素对应的发音口型图在经人为判断后,为正确,则标记为1;若发音音素对应的辅助工具图像在经人为判断,为正确,则标记为1;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为正确,则标记为1;相反,若发音音素对应的发音口型图在经人为判断后,为错误,则标记为0;若发音音素对应的辅助工具图像在经人为判断,为错误,则标记为0;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为错误,则标记为0;
应当明白的是:发音音素对应的使用辅助工具的动作图像是指,陪护人员利用辅助工具进行矫正时的动作;
构建分类器,将训练集作为输入数据输入至分类器中进行训练,以得到训练后的分类器;
利用测试集对训练后的分类器进行准确度验证,输出满足预设准确度的训练后的分类器作为预构建机器学习模型;
需要说明的是:所述分类器具体为逻辑回归、决策树、随机森林、朴素贝叶斯或神经网络中的一种;基于错误的发音矫正动作对陪护人员进行提醒逻辑为:当识别陪护人员的错误的发音矫正动作时,进行语音播报提醒。
实施例3
在本实施例中,为了更好地对本发明方法中采用的技术效果加以验证说明,本实施例选取了15例唇腭裂术后患者采用本发明方法进行唇腭裂术后的发音矫正,其中,男8例,女7例,年龄最小5岁,最大17岁,采用本发明方法进行唇腭裂术后的发音矫正的时间为2个月,上述研究对象均为无明显结构异常及智力听力障碍者;根据各自产生的效果进行显示,以验证本方法所具有的真实效果,其具体实验数据如下(见表1):
表1:患者矫正前后发音清晰度的变化数据表
由上述表1能够看出:采集用本发明方法进行矫正治疗后,能够显著提高唇腭裂术后患者的发音清晰度,发音矫正效果达到优良水平,从而有利于长期辅助及指导陪护人员完成对行为力低下唇腭裂患者(行为力低下唇腭裂患者是指因为患者年幼而缺乏自控力或自我纠正能力的人)的发音矫正,具体实际的应用价值。
实施例4
本实施例公开提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各方法所提供的任一项所述一种唇腭裂术后说话发音及鼻音矫正方法。
由于本实施例所介绍的电子设备为实施本申请实施例中一种唇腭裂术后说话发音及鼻音矫正方法所采用的电子设备,故而基于本申请实施例中所介绍的一种唇腭裂术后说话发音及鼻音矫正方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中一种唇腭裂术后说话发音及鼻音矫正方法所采用的电子设备,都属于本申请所欲保护的范围。
实施例5
本实施例公开提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各方法所提供的任一项所述一种唇腭裂术后说话发音及鼻音矫正方法。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数、权重以及阈值选取由本领域的技术人员根据实际情况进行设置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线网络或无线网络方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一 种,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,所述方法基于客户端和云服务器实现,所述客户端与云服务器远程通信连接,所述方法包括:
获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;
基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;
基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;
基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;
匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒。
2.根据权利要求1所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对所述发音练习音视频进行评测,包括:
分别提取发音练习音频文件和发音练习视频文件的时间戳,基于时间戳对发音练习音频文件和发音练习视频文件进行同步;
基于预设起始标记和预设跟读时间跨度,分别对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,得到i个音频细分段和j个视频细分段,i、j为大于零的正整数集;
分别对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据。
3.根据权利要求2所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,包括:
基于预设起始标记分别确定发音练习音频文件和发音练习视频文件的起始时间;
获取每个单音素的预设播放时长;
基于发音练习音频文件和发音练习视频文件的起始时间、每个单音素的预设播放时长以及预设跟读时间跨度,分别对发音练习音频文件和发音练习视频文件进行划分,得到X个音频段和Y个视频段,X、Y为大于零的正整数集;
基于每个单音素的预设播放时长,分别对X个音频段和Y个视频段中的播放部分进行剔除,得到i个音频细分段和j个视频细分段。
4.根据权利要求3所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据,包括:
a.确定第W个音频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准时频波形;
b.将对应音频细分段转化为实际时频图,提取实际时频图中的实际时频波形,将实际时频波形与标准时频波形比较,提取实际时频波形中与标准时频波形满足最大相似度的波形部分作为每个音频细分段的相似波形;
c.分别提取相似波形的波形频率值与标准时频波形的波形频率值,计算相似波形的波形频率值与标准时频波形的波形频率值之间的频率平均差值,
d.确定第S个视频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准发音口型图,S为大于零的正整数集;
e.将对应视频细分段进行视频帧逐帧分解,基于分解后的每个视频帧进行口型区域提取,以得到C幅患者发音口型图像,将每幅患者发音口型图像与标准发音口型图进行比较,提取C幅患者发音口型图像中与标准发音口型图满足最大相似度的患者发音口型图像作为相似图像;
f.将相似图像与标准发音口型图均划分为Z个区域,对相似图像与标准发音口型图中相同位置区域的像素点进行比较,以获取差异区域个数;Z为大于零的正整数;
g.根据频率平均差值和差异区域个数计算缺陷评测系数,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,若存在,将对应单音素标记为错误发音音素,并进行记录,若不存在,则判定对应单音素不存在发音缺陷;令W+Q、S+D,并返回至步骤a;
H.重复上述步骤a~步骤g,直至W+Q=i和S+D=j,得到缺陷发音数据,其中,Q和D均为变化数值,其初始值均为1,其每执行一次循环均进行一次累加。
5.根据权利要求4所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,包括:
设置缺陷评测阈值,将缺陷评测系数与缺陷评测阈值进行比较,若缺陷评测系数大于等于缺陷评测阈值,则判定对应单音素是存在发音缺陷,反之,若缺陷评测系数小于缺陷评测阈值,则判定对应单音素不存在发音缺陷。
6.根据权利要求5所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因,包括:
提取每个音频细分段的相似波形,对每个音频细分段的相似波形进行傅里叶变换,得到若干错误发音音素的发音频谱图;
将错误发音音素的发音频谱图与标准频谱特征图进行比较,若错误发音音素的发音频谱图与标准频谱特征图相一致,则将标准频谱特征图关联的发音缺陷原因作为错误发音音素的对应发音缺陷原因。
7.根据权利要求6所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,将错误发音音素的发音频谱图与标准频谱特征图进行比较,包括:
利用余弦相似度算法,计算错误发音音素的发音频谱图与标准频谱特征图的余弦相似度;
将余弦相似度与预设余弦相似度阈值进行比较,若余弦相似度大于等于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图相一致;若余弦相似度小于预设余弦相似度阈值,则判定错误发音音素的发音频谱图与标准频谱特征图不一致。
8.根据权利要求7所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,匹配对应的预构建机器学习模型,包括:
获取缺陷发音数据中的错误发音音素;
基于预设发音音素与预构建机器学习模型的匹配关系,确定错误发音音素的对应的预构建机器学习模型。
9.根据权利要求8所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,预构建机器学习模型的构建过程具体如下:
获取大量样本数据,所述样本数据包括每个发音音素对应的发音口型图、每个发音音素对应的辅助工具图像、每个若干发音音素对应的使用辅助工具的动作图像;
对大量样本数据进行标注,将标注后的大量样本数据划分为80%的训练集和20%的测试集;
其中,对大量样本数据进行标注的逻辑为:若发音音素对应的发音口型图在经人为判断后,为正确,则标记为1;若发音音素对应的辅助工具图像在经人为判断,为正确,则标记为1;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为正确,则标记为1;相反,若发音音素对应的发音口型图在经人为判断后,为错误,则标记为0;若发音音素对应的辅助工具图像在经人为判断,为错误,则标记为0;若发音音素对应的使用辅助工具的动作图像在经人为判断后,为错误,则标记为0;
构建分类器,将训练集作为输入数据输入至分类器中进行训练,以得到训练后的分类器;
利用测试集对训练后的分类器进行准确度验证,输出满足预设准确度的训练后的分类器作为预构建机器学习模型。
10.一种唇腭裂术后说话发音及鼻音矫正系统,其基于权利要求1-9中任一项所述的一种唇腭裂术后说话发音及鼻音矫正方法实现,其特征在于,包括:
评测筛选模块,用于获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;
关系分析模块,用于基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;
原因确定模块,用于基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;
演示采集模块,用于基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;
识别提醒模块,用于匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒。
11.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-9中任一项所述的一种唇腭裂术后说话发音及鼻音矫正方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9中任一项所的一种唇腭裂术后说话发音及鼻音矫正方法。
CN202310965276.2A 2023-08-02 2023-08-02 一种唇腭裂术后说话发音及鼻音矫正方法及系统 Active CN116705070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310965276.2A CN116705070B (zh) 2023-08-02 2023-08-02 一种唇腭裂术后说话发音及鼻音矫正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310965276.2A CN116705070B (zh) 2023-08-02 2023-08-02 一种唇腭裂术后说话发音及鼻音矫正方法及系统

Publications (2)

Publication Number Publication Date
CN116705070A CN116705070A (zh) 2023-09-05
CN116705070B true CN116705070B (zh) 2023-10-17

Family

ID=87829572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310965276.2A Active CN116705070B (zh) 2023-08-02 2023-08-02 一种唇腭裂术后说话发音及鼻音矫正方法及系统

Country Status (1)

Country Link
CN (1) CN116705070B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2924676A1 (en) * 2014-03-25 2015-09-30 Oticon A/s Hearing-based adaptive training systems
CN109598991A (zh) * 2019-01-11 2019-04-09 张翩 一种英语发音教学系统、装置及方法
CN112992124A (zh) * 2020-11-09 2021-06-18 深圳市神经科学研究院 反馈式语言干预方法、系统、电子设备及存储介质
CN113066487A (zh) * 2019-12-16 2021-07-02 广东小天才科技有限公司 一种矫正口音的学习方法、系统、设备及存储介质
CN113240955A (zh) * 2021-06-01 2021-08-10 南京优道言语康复研究院 一种口吃对照训练装置
CN113257231A (zh) * 2021-07-07 2021-08-13 广州思正电子股份有限公司 一种语言正音系统方法及设备
CN113658584A (zh) * 2021-08-19 2021-11-16 北京智精灵科技有限公司 智能化发音矫正方法及系统
CN113903360A (zh) * 2021-10-22 2022-01-07 重庆医药高等专科学校 一种基于机器视觉的纠正发音的方法
CN114664132A (zh) * 2022-04-05 2022-06-24 苏州市立医院 语言康复训练装置及方法
WO2022159983A1 (en) * 2021-01-25 2022-07-28 The Regents Of The University Of California Systems and methods for mobile speech therapy
WO2022194044A1 (zh) * 2021-03-19 2022-09-22 北京有竹居网络技术有限公司 发音评价方法和装置、存储介质和电子设备
CN116206496A (zh) * 2023-01-30 2023-06-02 齐齐哈尔大学 一种基于人工智能的英语口语练习分析比对系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878813B2 (en) * 2018-10-09 2020-12-29 International Business Machines Corporation Analytics-based speech therapy

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2924676A1 (en) * 2014-03-25 2015-09-30 Oticon A/s Hearing-based adaptive training systems
CN109598991A (zh) * 2019-01-11 2019-04-09 张翩 一种英语发音教学系统、装置及方法
CN113066487A (zh) * 2019-12-16 2021-07-02 广东小天才科技有限公司 一种矫正口音的学习方法、系统、设备及存储介质
CN112992124A (zh) * 2020-11-09 2021-06-18 深圳市神经科学研究院 反馈式语言干预方法、系统、电子设备及存储介质
WO2022159983A1 (en) * 2021-01-25 2022-07-28 The Regents Of The University Of California Systems and methods for mobile speech therapy
WO2022194044A1 (zh) * 2021-03-19 2022-09-22 北京有竹居网络技术有限公司 发音评价方法和装置、存储介质和电子设备
CN113240955A (zh) * 2021-06-01 2021-08-10 南京优道言语康复研究院 一种口吃对照训练装置
CN113257231A (zh) * 2021-07-07 2021-08-13 广州思正电子股份有限公司 一种语言正音系统方法及设备
CN113658584A (zh) * 2021-08-19 2021-11-16 北京智精灵科技有限公司 智能化发音矫正方法及系统
CN113903360A (zh) * 2021-10-22 2022-01-07 重庆医药高等专科学校 一种基于机器视觉的纠正发音的方法
CN114664132A (zh) * 2022-04-05 2022-06-24 苏州市立医院 语言康复训练装置及方法
CN116206496A (zh) * 2023-01-30 2023-06-02 齐齐哈尔大学 一种基于人工智能的英语口语练习分析比对系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
腭裂术后语音训练的疗效评估;路晓淼 等;中华全科医学(第04期);全文 *

Also Published As

Publication number Publication date
CN116705070A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Mehta et al. Using ambulatory voice monitoring to investigate common voice disorders: Research update
Rudzicz et al. The TORGO database of acoustic and articulatory speech from speakers with dysarthria
US10478111B2 (en) Systems for speech-based assessment of a patient's state-of-mind
Gonzalez et al. A silent speech system based on permanent magnet articulography and direct synthesis
Tran et al. Improvement to a NAM-captured whisper-to-speech system
McKechnie et al. Automated speech analysis tools for children’s speech production: A systematic literature review
Golabbakhsh et al. Automatic identification of hypernasality in normal and cleft lip and palate patients with acoustic analysis of speech
An et al. Automatic recognition of unified parkinson's disease rating from speech with acoustic, i-vector and phonotactic features.
US20200178883A1 (en) Method and system for articulation evaluation by fusing acoustic features and articulatory movement features
US10789966B2 (en) Method for evaluating a quality of voice onset of a speaker
Stemberger et al. Phonetic transcription for speech-language pathology in the 21st century
WO2019207573A1 (en) Diagnosis and treatment of speech and language pathologies by speech to text and natural language processing
Bone et al. Classifying language-related developmental disorders from speech cues: the promise and the potential confounds.
US20210027777A1 (en) Method for monitoring phonation and system thereof
CN109545196B (zh) 语音识别方法、装置及计算机可读存储介质
CN110349565B (zh) 一种面向听障人士的辅助发音学习方法及其系统
US20180197535A1 (en) Systems and Methods for Human Speech Training
Pellegrini et al. Automatic assessment of speech capability loss in disordered speech
Krecichwost et al. Automated detection of sigmatism using deep learning applied to multichannel speech signal
Huici et al. Speech rate estimation in disordered speech based on spectral landmark detection
CN116705070B (zh) 一种唇腭裂术后说话发音及鼻音矫正方法及系统
Gonzalez et al. A real-time silent speech system for voice restoration after total laryngectomy
KR20210146825A (ko) 카메라로 입력되는 영상정보, 마이크로 입력되는 음성정보를 실시간으로 처리하여 언어발달장애 및 행동발달장애를 분석하는 방법 및 시스템
Grzybowska et al. Computer-assisted HFCC-based learning system for people with speech sound disorders
Gonzalez et al. Direct Speech Generation for a Silent Speech Interface based on Permanent Magnet Articulography.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant