CN103705218B - 构音障碍识别的方法、系统和装置 - Google Patents
构音障碍识别的方法、系统和装置 Download PDFInfo
- Publication number
- CN103705218B CN103705218B CN201310713782.9A CN201310713782A CN103705218B CN 103705218 B CN103705218 B CN 103705218B CN 201310713782 A CN201310713782 A CN 201310713782A CN 103705218 B CN103705218 B CN 103705218B
- Authority
- CN
- China
- Prior art keywords
- data
- tongue
- sample
- parameters
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提供了一种构音障碍识别的方法,所述方法包括:获取样本数据,对所述样本数据进行校准去噪,所述样本数据包括语音数据和器官运动数据;提取所述语音数据的共振峰值,计算样本声学参数;计算所述器官运动数据的舌唇偏移位移;计算所述器官运动数据的样本运动学参数;对所述共振峰值和所述舌唇偏移位移进行相关性计算,对所述样本声学参数和所述样本运动学参数进行多元回归计算,得到回归方程;获取采集数据,根据所述回归方程计算目标运动学参数;根据所述样本运动学参数和所述目标运动学参数,对所述采集数据进行识别并分类。采用该方法能有效地提高构音障碍识别的准确度。此外,还提供了一种构音障碍识别的装置和系统。
Description
技术领域
本发明涉及语音辅助工具领域,特别是涉及一种构音障碍识别的方法、装置和系统。
背景技术
随着社会发展,人与人之间的语言交流在社会生活各个方面的作用越来越重要,因此语言交流过程中的诸多问题也日益受到重视。其中,构音障碍是最常见的语言障碍,严重影响患者日常的交流和正常的心理发育。实践证明对构音障碍的患者进行语言训练效果较好,而语音训练的关键是对患者进行准确地评价,因此找出患者和正常人的发音区别和特点并进行准确有效的评价有着非常重要的意义。
目前,对构音障碍进行检测与评估的方法主要是从语音中提取共振峰数值,利用共振峰数值代替舌部运动数据来计算声学参数,并根据得到的声学参数评估构音障碍。其中第一共振峰F1用于表示舌部的上下运动,第二共振峰F2用于表示舌部的前后运动。
然而,声学参数评估的缺点主要是共振峰能否完全替代患者说话时的舌部真实运动数据尚未可知,因此,根据共振峰计算出来的声学参数去检测评估构音障碍的准确性不高。
发明内容
基于此,有必要提供一种准确度高的构音障碍识别的方法。
一种构音障碍识别的方法,包括:
获取样本数据,对所述样本数据进行校准去噪,所述样本数据包括语音数据和器官运动数据,所述器官运动数据包括舌部运动数据和唇部运动数据;
提取所述语音数据的共振峰值,根据所述共振峰值计算所述语音数据的样本声学参数;
根据所述器官运动数据计算舌唇偏移位移;
根据所述舌唇偏移位移计算与所述器官运动数据对应的样本运动学参数;
对所述共振峰值和所述舌唇偏移位移进行相关性计算,判断所述共振峰值和所述舌唇偏移位移是否相关,若是,则对所述样本声学参数和所述样本运动学参数进行多元回归计算,得到回归方程;
获取采集数据,根据所述回归方程计算与所述采集数据的语音数据对应的目标运动学参数;
根据所述样本运动学参数和所述目标运动学参数,对所述采集数据进行识别并分类。
在其中一个实施例中,所述获取样本数据的步骤为:通过电磁发音记录仪采集获取样本数据。
在其中一个实施例中,所述根据所述器官运动数据计算舌唇偏移位移的步骤包括:
获取所述语音数据的发音数据段和静音数据段;
在所述器官运动数据中分别获取与所述语音数据的发音数据段和静音数据段对应的子发音数据段和子静音数据段;
选取所述器官运动数据的子静音数据段中运动轨迹最平稳的数据段,在所述数据段中设定窗口,计算所述窗口中坐标值的方差,选取所述方差最小的窗口作为目标窗口,提取所述目标窗口中坐标值的平均值作为静态帧;
在所述器官运动数据的子发音数据段中提取关键帧,所述关键帧为与所述静态帧的坐标值的舌唇偏移位移最大时的动态帧;
获取基准发音坐标系,根据所述基准发音坐标系对所述静态帧和所述动态帧分别进行归一化,得到标准静态帧和标准动态帧;
计算所述标准动态帧的坐标值与所述标准静态帧的坐标值的差值,根据所述差值得到与所述器官运动数据对应的舌唇偏移位移。
在其中一个实施例中,所述对所述样本声学参数和所述样本运动学参数进行多元回归分析的步骤包括采用最小二乘法对所述样本声学参数和所述样本运动学参数进行多元回归计算。
在其中一个实施例中,所述获取样本数据的步骤之后还包括:
获取所述样本数据的舌部运动数据的坐标差值和所述坐标差值对应的时间间隔,计算舌部速度阈值和舌部加速度阈值。
在其中一个实施例中,所述获取采集数据的步骤之后还包括:
获取所述采集数据的舌部运动数据的坐标差值和所述坐标差值对应的时间间隔,计算目标舌部速度数据和目标舌部加速度数据;
根据所述舌部速度阈值、舌部加速度阈值和所述目标舌部速度数据、目标舌部加速度数据,对所述采集数据进行识别并分类。
一种构音障碍识别的装置,包括:
样本数据获取模块,用于获取样本数据,对所述样本数据进行校准去噪,所述样本数据包括语音数据和器官运动数据,所述器官运动数据包括舌部运动数据和唇部运动数据;
样本声学参数计算模块,用于提取所述语音数据的共振峰值,根据所述共振峰值计算所述语音数据的样本声学参数;
偏移位移计算模块,用于根据所述器官运动数据计算舌唇偏移位移;
样本运动学参数计算模块,用于根据所述舌唇偏移位移计算与所述器官运动数据对应的样本运动学参数;
回归计算模块,用于对所述共振峰值和所述舌唇偏移位移进行相关性计算,判断所述共振峰值和所述舌唇偏移位移是否相关,若是,则对所述样本声学参数和所述样本运动学参数进行多元回归计算,得到回归方程;
目标运动学参数计算模块,用于获取采集数据,根据所述回归方程计算与所述采集数据的语音数据对应的目标运动学参数;
识别模块,用于根据所述样本运动学参数和所述目标运动学参数,对所述采集数据进行识别并分类。
在其中一个实施例中,所述样本数据采集模块通过电磁发音记录仪采集获取样本数据。
在其中一个实施例中,所述偏移位移计算模块包括:
第一数据获取模块,用于获取所述语音数据的发音数据段和静音数据段;
第二数据获取模块,用于在所述器官运动数据中分别获取与所述语音数据的发音数据段和静音数据段对应的子发音数据段和子静音数据段;
静态帧提取模块,用于选取所述器官运动数据的子静音数据段中运动轨迹最平稳的数据段,在所述数据段中设定窗口,计算所述窗口中坐标值的方差,选取所述方差最小的窗口作为目标窗口,提取所述目标窗口中坐标值的平均值作为静态帧;
关键帧提取模块,用于在所述器官运动数据的子发音数据段中提取关键帧,所述关键帧为与所述静态帧的坐标值的舌唇偏移位移最大时的动态帧;
归一化模块,用于获取基准发音坐标系,根据所述基准发音坐标系对所述静态帧和所述动态帧分别进行归一化,得到标准静态帧和标准动态帧;
计算模块,用于计算所述标准动态帧的坐标值与所述标准静态帧的坐标值的差值,根据所述差值得到与所述器官运动数据对应的舌唇偏移位移。
在其中一个实施例中,所述回归计算模块采用最小二乘法对所述样本声学参数和所述样本运动学参数进行多元回归计算。
在其中一个实施例中,所述装置还包括速度阈值计算模块,所述速度阈值计算模块用于获取所述样本数据的舌部运动数据的坐标差值和所述坐标差值对应的时间间隔,计算舌部速度阈值和舌部加速度阈值。
在其中一个实施例中,所述装置还包括目标速度计算模块,所述目标计算模块用于获取所述采集数据的舌部运动数据的坐标差值和所述坐标差值对应的时间间隔,计算目标舌部速度数据和目标舌部加速度数据;
所述识别模块还用于根据所述舌部速度阈值、舌部加速度阈值和所述目标舌部速度数据、目标舌部加速度数据,对所述采集数据进行识别并分类。
一种构音障碍识别的系统,包括电磁发音记录仪、声学参数计算组件、运动学参数计算组件和中央处理组件,所述电磁发音记录仪分别连接所述声学参数计算组件和所述运动学参数计算组件,所述中央处理组件分别连接所述声学参数计算组件和所述运动学参数计算组件;
所述电磁发音记录仪用于采集样本数据,对所述样本数据进行校准去噪,所述样本数据包括语音数据和器官运动数据,所述器官运动数据包括舌部运动数据和唇部运动数据;
所述声学参数计算组件用于提取所述语音数据的共振峰值,根据所述共振峰值计算所述语音数据的样本声学参数;
所述运动学参数计算组件用于根据所述器官运动数据计算舌唇偏移位移,根据所述舌唇偏移位移计算与所述器官运动数据对应的样本运动学参数;
所述中央处理组件用于对所述样本声学参数和所述样本运动学参数进行多元回归计算,得到回归方程。
在其中一个实施例中,所述系统还包括识别组件,所述识别组件连接所述中央处理组件;
所述电磁发音记录仪还用于获取采集数据;
所述中央处理组件还用于根据所述采集数据的目标声学参数和所述回归方程,计算所述采集数据的目标运动学参数;
所述识别组件用于根据所述样本运动学参数和所述目标运动学参数,对所述采集数据进行识别并分类。
在其中一个实施例中,所述电磁发音记录仪包括语音传感器和运动传感器和校准单元;
所述语音传感器用于采集所述语音数据;
所述运动传感器用于采集所述器官运动数据;
所述校准单元用于对所述语音数据和所述器官运动数据进行校准去噪。
上述构音障碍识别的方法,利用待测者语音数据的声学参数和回归方程,可直接得到待测者对应的运动学参数,进而根据声学参数和运动学参数识别该待测者是否有构音障碍,避免了传统的方法仅靠声学参数识别所带来的误差,从而提高了识别构音障碍的准确度。
附图说明
图1为一个实施例中构音障碍识别的方法的流程示意图;
图2为一个实施例中计算偏移位移的流程示意图;
图3为一个实施例中构音障碍识别的装置的结构框图;
图4为一个实施例中偏移位移计算模块的结构框图;
图5为一个实施例中构音障碍识别的系统的结构框图;
图6为一个实施例中构音障碍识别的系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提出了一种构音障碍识别方法,该方法的数据通过电磁发音记录仪(EMA,ElectroMagneticArticulographyAG501)采集,该方法包括:
步骤S102,获取样本数据,对样本数据进行校准去噪,样本数据包括语音数据和器官运动数据,器官运动数据包括舌部运动数据和唇部运动数据。
样本数据即通过电磁发音记录仪采集多个发音正常的录音者所得到的数据。校准去噪是指对该样本数据进行校准,以避免在录音过程中,由于录音者头部的移动而导致样本数据的坐标值产生偏差。语音数据是采集录音者的录音所得到的声频数据,器官运动数据是录音者录音时其舌部和唇部的三维坐标值。
具体的,电磁发音记录仪有16个通道,每个通道可以插1个传感器。在本实施例中,在录音者头部贴13个传感器,包括:鼻梁1个、左耳垂1个、右耳垂1个,舌头3个(舌根、舌中、舌尖)、下牙床1个、嘴唇4个(上下唇、左右嘴角)、脸颊2个(左脸颊、右脸颊)。其中,鼻梁、左耳垂、右耳垂及上唇这4个传感器所采集的坐标值用于校准。舌根、舌中、舌尖以及上下嘴唇、左右嘴唇7个传感器所采集的三维坐标值即为器官运动数据。
进一步的,录音者读4个元音/a/,/i/,/u/,每个元音读3遍,每遍读的间隔为5到10秒。电磁发音记录仪以48KHz的频率采集录音者的录音,以250KHz的频率采集录音者舌部和唇部的坐标值。
步骤S104,提取语音数据的共振峰值,根据共振峰值计算语音数据的样本声学参数。
共振峰值包括第一共振峰值和第二共振峰值,第一共振峰值用于表示舌部的上下运动,第二共振峰值用于表示舌部的前后运动。
在本实施例中,根据语音数据的共振峰值计算该语音数据的样本声学参数,不同的样本声学参数可反应构音障碍患者不同的特征。
具体的,样本声学参数包括TVSA,FCR3,VAI3,FCR4,VAI4,F1RR,F2RR和AVS。TVSA为元音/a/,/i/,/u/在声学元音图中的面积,用于反映个体语音变化,正常人的TVSA值比构音障碍患者的要大。TVSA可根据公式:
计算得到。其中,F1为第一共振峰值,F2为第二共振峰值,为元音/i/的第一共振峰值,同理可知,其它变量均为各元音的第一、二共振峰值。
FCR3和FCR4分别为三个元音/a/,/i/,/u/和四个元音的/a/,/i/,/u/,的共振峰的中心率,可根据公式:
计算得到。VAI是FCR的倒数,FCR和VAI能更有效地区分正常人和构音障碍患者,尤其是识别运动型的构音障碍患者。
AVS为每两个元音之间欧式位移的平均值,可根据公式:
计算得到。
F1RR表示第一共振峰的变化率,用来反映舌部的上下运动,F2RR表示第二共振峰的变化率,用来反映舌部的前后运动。F1RR和F2RR可根据公式:
计算得到。F1RR可更有效地区分女性构音障碍患者。
步骤S106,根据器官运动数据计算舌唇偏移位移。
在本实施例中,器官运动数据即为录音者发元音时舌唇的坐标值,舌唇偏移位移即为录音者发元音时舌唇的坐标值与不发音时的舌唇坐标值的偏差数据。
具体的,将录音者发音时的舌唇坐标值减去其不发音时的舌唇坐标值,得到的坐标差值即为该舌唇偏移位移。
步骤S108,根据舌唇偏移位移计算与器官运动数据对应的样本运动学参数。
在本实施例中,将录音者发元音时的偏移位移代替其发同一元音时的语音数据的共振峰,可计算得到与器官运动数据对应的样本运动学参数。
具体的,将舌部的X轴偏移位移代替语音数据的第二共振峰值,将舌部的Y轴偏移位移代替语音数据的第一共振峰值,可求出样本运动学参数。
步骤S110,对共振峰值和舌唇偏移位移进行相关性计算,判断共振峰值和舌唇偏移位移是否相关,若是,则对样本声学参数和样本运动学参数进行多元回归计算,得到回归方程。
相关性计算即为对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才能进行相关性计算。回归计算则需要在变量具有相关性的前提下,基于观测数据并建立变量之间适当的依赖关系,以分析数据内在规律。
在本实施例中,将样本声学参数和对应的样本运动学参数进行多元回归计算,即将样本运动学参数作为因变量y,样本声学参数作为自变量x1,x2,…,xn,当残差平方和为最小值时,求出此时的系数a1,a2,…,an,进而得到回归方程y=a1x1+a2x2+…+anxn。
进一步的,采用最小二乘法对样本声学参数和样本运动学参数进行多元回归计算,求解系数。
步骤S112,获取采集数据,根据回归方程计算与采集数据的语音数据对应的目标运动学参数。
具体的,提取采集数据的语音数据的共振峰值,根据共振峰值计算该语音数据的声学参数。进一步的,根据该声学参数和回归方程,计算得到该采集数据的目标运动学参数。
步骤S114,根据样本运动学参数和目标运动学参数,对采集数据进行识别并分类。
在本实施例中,将该目标运动学参数和样本运动学参数进行比较,即对采集数据进行识别,判断该采集数据的录音者是否有构音障碍,进而将其分类。
如图2所示,在一个实施例中,步骤S106包括:
步骤S602,获取语音数据的发音数据段和静音数据段。
发音数据段即为录音者发元音时的音频数据,静音数据段即为录音者未发音时的音频数据。
在本实施例中,使用Waveserfer分别标记语音数据的发音数据段和静音数据段的起始处,每个语音数据段有三个发音数据段和四个静音段。三个发音数据段对应的是录音者每个元音读了三遍,四个静音数据段对应录音者每次发音的前后间隔。
进一步的,由于人发音时,舌唇的移动一般都比实际发音要快200到300ms,因此需要提前200到300ms标记每个发音数据段。
步骤S604,在器官运动数据中分别获取与语音数据的发音数据段和静音数据段对应的子发音数据段和子静音数据段。
具体的,根据语音数据的发音数据段和静音数据段对应的标记,获取该语音数据所对应的器官运动数据的子发音数据段和子静音数据段。
步骤S606,选取器官运动数据的子静音数据段中运动轨迹最平稳的数据段,在数据段中设定窗口,计算窗口中坐标值的方差,选取方差最小的窗口作为目标窗口,提取目标窗口中坐标值的平均值作为静态帧。
在本实施例中,运动轨迹也就是录音者不发音时舌唇的运动轨迹,窗口即为若干个帧组成的子集合。
具体的,根据子静音数据段的运动轨迹,选取运动轨迹最平稳的子静音数据段。在该数据段中设定多个20ms(4ms/帧)的窗口,每个窗口对应5帧的器官运动数据。
进一步的,获取每一帧数据在舌部(舌根、舌中、舌尖)和唇部(上唇、下唇、左嘴角、右嘴角)7个点的三维坐标值,其中,X轴代表前后运动方向,Y轴代表左右运动方向,Z轴则代表上下运动方向。每一帧的三维坐标值组成每一帧的特征向量,每一帧的特征向量表示每一帧的位置。
具体的,计算各窗口内5个特征向量的均值和方差,选择方差最小的窗口作为目标窗口,提取该目标窗口内的X、Y和Z轴坐标的平均值作为静态帧的坐标值。
步骤S608,在器官运动数据的子发音数据段中提取关键帧,关键帧为与静态帧的坐标值的舌唇偏移位移最大时的动态帧。
在本实施例中,器官运动数据有3个子发音数据段,在每个子发音数据段中提取与静态帧的舌唇偏移位移最大的动态帧,获取该动态帧的三维坐标值,该动态帧的三维坐标值即为关键帧的坐标值。
步骤S610,获取基准发音坐标系,根据基准发音坐标系对静态帧和动态帧分别进行归一化,得到标准静态帧和标准动态帧。
基准发音坐标系即为样本数据所对应的任意录音者的鼻梁、左耳、右耳、上嘴唇四点所构成的坐标系。由于录音者头部的差异性,因此需要根据基准发音坐标系对静态帧和动态帧分别进行归一化。
具体的,先选取某一录音者在静态情况下的鼻梁、左耳、右耳、上嘴唇四点作为参考点,该四个参考点构成一个4*3的矩阵,该矩阵即为基准发音坐标系。获取基准发音坐标系,通过Procrustes变换将其他各录音者的坐标系变化到基准发音坐标系中,进而将其他各录音者的静态帧转换到基准发音坐标系中,并得到标准静态帧和转移矩阵。同理,利用静态帧标准化所产生的转移矩阵,可将对应的动态帧转换到标准发音坐标系中,从而得到标准动态帧。
步骤S612,计算标准动态帧的坐标值与标准静态帧的坐标值的差值,根据差值得到与器官运动数据对应的舌唇偏移位移。
具体的,将标准静态帧的坐标值减去标准动态帧的坐标值,所得到的差值即为录音者的器官运动数据对应的舌唇偏移位移。
在一个实施例中,一种构音障碍识别方法,还包括:获取样本数据的舌部运动数据的坐标差值述坐标差值对应的时间间隔,计算舌部速度阈值和舌部加速度阈值。
例如,在T1时刻,舌部某点的坐标为(x1,y1,z1),在T2时刻,舌部的坐标为(x2,y2,z2),坐标差值即为(x1-x2,y1-y2,z1-z2),对应的时间间隔即为T1-T2。根据该坐标差值和对应的时间间隔,即可计算舌部运动速度阈值和舌部加速度阈值。
在一个实施例中,一种构音障碍识别方法,还包括:获取采集数据的舌部运动数据的坐标差值和坐标差值对应的时间间隔,计算目标舌部速度数据和目标舌部加速度数据;根据舌部速度阈值、舌部加速度阈值和目标舌部速度数据、目标舌部加速度数据,对采集数据进行识别并分类。
具体的,根据采集数据的舌部运动数据的坐标差值和坐标差值对应的时间间隔,计算出目标舌部速度数据和目标舌部加速度数据之后,可根据舌部速度阈值、舌部加速度阈值和目标舌部速度数据、目标舌部加速度数据,识别采集数据对应的录音者是否有构音障碍。
如图3所示,一种构音障碍识别装置,包括:
样本数据获取模块102,用于获取样本数据,对样本数据进行校准去噪,样本数据包括语音数据和器官运动数据,器官运动数据包括舌部运动数据和唇部运动数据。
样本声学参数计算模块104,用于提取语音数据的共振峰值,根据共振峰值计算语音数据的样本声学参数。
偏移位移计算模块106,用于根据器官运动数据计算舌唇偏移位移。
样本运动学参数计算模块108,用于根据舌唇偏移位移计算与器官运动数据对应的样本运动学参数。
回归计算模块110,用于对共振峰值和舌唇偏移位移进行相关性计算,判断共振峰值和舌唇偏移位移是否相关,若是,则对样本声学参数和样本运动学参数进行多元回归计算,得到回归方程。
目标运动学参数计算模块112,用于获取采集数据,根据回归方程计算与采集数据的语音数据对应的目标运动学参数。
识别模块114,用于根据样本运动学参数和目标运动学参数,对采集数据进行识别并分类。
在一个实施例中,样本数据获取模块102通过电磁发音记录仪采集获取。
如图4所示,在一个实施例中,偏移位移计算模块106包括:
第一数据获取模块602,用于获取语音数据的发音数据段和静音数据段。
第二数据获取模块604,用于在器官运动数据中分别获取与语音数据的发音数据段和静音数据段对应的子发音数据段和子静音数据段。
静态帧提取模块606,用于选取器官运动数据的子静音数据段中运动轨迹最平稳的数据段,在数据段中设定窗口,计算窗口中坐标值的方差,选取方差最小的窗口作为目标窗口,提取目标窗口中坐标值的平均值作为静态帧。
关键帧提取模块608,用于在器官运动数据的子发音数据段中提取关键帧,关键帧为与静态帧的坐标值的舌唇偏移位移最大时的动态帧。
归一化模块610,用于获取基准发音坐标系,根据基准发音坐标系对静态帧和动态帧分别进行归一化,得到标准静态帧和标准动态帧。
计算模块612,用于计算标准动态帧的坐标值与标准静态帧的坐标值的差值,根据差值得到与器官运动数据对应的舌唇偏移位移。
在一个实施例中,回归计算模块110采用最小二乘法对样本声学参数和样本运动学参数进行多元回归计算。
在一个实施例中,装置还包括速度阈值计算模块116,速度阈值计算模块116用于获取样本数据的舌部运动数据的坐标差值和坐标差值对应的时间间隔,计算舌部速度阈值和舌部加速度阈值。
在一个实施例中,装置还包括目标速度计算模块118,目标计算模块118用于获取采集数据的舌部运动数据的坐标差值和坐标差值对应的时间间隔,计算目标舌部速度数据和目标舌部加速度数据。
识别模块114还用于根据舌部速度阈值、舌部加速度阈值和目标舌部速度数据、目标舌部加速度数据,对采集数据进行识别并分类。
如图5所示,一种构音障碍识别系统,包括电磁发音记录仪510、声学参数计算组件520、运动学参数计算组件530和中央处理组件540,电磁发音记录仪510分别连接声学参数计算组件520和运动学参数计算组件530,中央处理组件540分别连接声学参数计算组件520和运动学参数计算组件530,其中:
电磁发音记录仪510用于采集样本数据,对样本数据进行校准去噪,样本数据包括语音数据和器官运动数据,器官运动数据包括舌部运动数据和唇部运动数据。
样本数据即通过电磁发音记录仪采集多个发音正常的录音者所得到的数据。校准去噪是指对该样本数据进行校准,以避免在录音过程中,由于录音者头部的移动而导致样本数据的坐标值产生偏差。语音数据是采集录音者的录音所得到的声频数据,器官运动数据是录音者录音时其舌部和唇部的三维坐标值。
具体的,电磁发音记录仪有16个通道,每个通道可以插1个传感器。在本实施例中,在录音者头部贴13个传感器,包括:鼻梁1个、左耳垂1个、右耳垂1个,舌头3个(舌根、舌中、舌尖)、下牙床1个、嘴唇4个(上下唇、左右嘴角)、脸颊2个(左脸颊、右脸颊)。其中,鼻梁、左耳垂、右耳垂及上唇这4个传感器所采集的坐标值用于校准。舌根、舌中、舌尖以及上下嘴唇、左右嘴唇7个传感器所采集的三维坐标值即为器官运动数据。
进一步的,录音者读4个元音/a/,/i/,/u/,每个元音读3遍,每遍读的间隔为5到10秒。电磁发音记录仪以48KHz的频率采集录音者的录音,以250KHz的频率采集录音者舌部和唇部的坐标值。
声学参数计算组件520用于提取语音数据的共振峰值,根据共振峰值计算语音数据的样本声学参数。
共振峰值包括第一共振峰值和第二共振峰值,第一共振峰值用于表示舌部的上下运动,第二共振峰值用于表示舌部的前后运动。
在本实施例中,根据语音数据的共振峰值计算该语音数据的样本声学参数,不同的样本声学参数可反应构音障碍患者不同的特征。
具体的,样本声学参数包括TVSA,FCR3,VAI3,FCR4,VAI4,F1RR,F2RR和AVS。TVSA为元音/a/,/i/,/u/在声学元音图中的面积,用于反映个体语音变化,正常人的TVSA值比构音障碍患者要大。TVSA可根据公式:
计算得到。其中,F1为第一共振峰值,F2为第二共振峰值,为元音/i/的第一共振峰值,同理可知,其它变量均为各元音的第一、二共振峰值。
FCR3和FCR4分别为三个元音/a/,/i/,/u/和四个元音的/a/,/i/,/u/,的共振峰的中心率,可根据公式:
计算得到。VAI是FCR的倒数,FCR和VAI能更有效地区分正常人和构音障碍的患者,尤其是识别运动型的构音障碍患者。
AVS为每两个元音之间欧式位移的平均值,可根据公式:
计算得到。
F1RR表示第一共振峰的变化率,用来反映舌部的上下运动,F2RR表示第二共振峰的变化率,用来反映舌部的前后运动。F1RR和F2RR可根据公式:
计算得到。F1RR可更有效地区分女性构音障碍患者。
运动学参数计算组件530用于根据器官运动数据计算舌唇偏移位移,根据舌唇偏移位移计算与器官运动数据对应的样本运动学参数。
在本实施例中,舌唇偏移位移即为录音者发音和不发音时,其舌唇的坐标差值。将录音者发元音时的偏移位移代替其发同一元音时的语音数据的共振峰,可计算得到与器官运动数据对应的样本运动学参数。
具体的,将舌部的X轴偏移位移代替语音数据的第二共振峰值,将舌部的Y轴偏移位移代替语音数据的第一共振峰值,可求出样本运动学参数。
中央处理组件540用于对样本声学参数和样本运动学参数进行多元回归计算,得到回归方程。
相关性计算即为对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才能进行相关性计算。回归计算则需要在变量具有相关性的前提下,基于观测数据并建立变量之间适当的依赖关系,以分析数据内在规律。
在本实施例中,将样本声学参数和对应的样本运动学参数进行多元回归计算,即将样本运动学参数作为因变量y,样本声学参数作为自变量x1,x2,…,xn,当残差平方和为最小值时,求出此时的系数a1,a2,…,an,进而得到回归方程y=a1x1+a2x2+…+anxn。
进一步的,采用最小二乘法对样本声学参数和样本运动学参数进行多元回归计算,求解系数。
如图6所示,在一个实施例中,系统还包括识别组件550,识别组件550连接中央处理组件540,其中
电磁发音记录仪510还用于获取采集数据。
中央处理组件540还用于根据采集数据的目标声学参数和回归方程,计算采集数据的目标运动学参数。
具体的,提取采集数据的语音数据的共振峰值,根据共振峰值计算该语音数据的声学参数。进一步的,根据该声学参数和回归方程,计算得到该采集数据的目标运动学参数。
识别组件用550于根据样本运动学参数和目标运动学参数,对采集数据进行识别并分类。
在本实施例中,将该目标运动学参数和样本运动学参数进行比较,即对采集数据进行识别,判断该采集数据的录音者是否有构音障碍,进而将其分类。
在一个实施例中,电磁发音记录仪510包括语音传感器512和运动传感器514和校准单元516,其中:
语音传感器512用于采集语音数据。
在本实施例中,录音者读4个元音/a/,/i/,/u/,每个元音读3遍,每遍读的间隔为5到10秒,以48KHz的频率采集录音者的录音。
运动传感器514用于采集器官运动数据。
具体的,电磁发音记录仪有16个通道,每个通道可以插1个传感器。在本实施例中,在录音者头部贴13个传感器,包括:鼻梁1个、左耳垂1个、右耳垂1个,舌头3个(舌根、舌中、舌尖)、下牙床1个、嘴唇4个(上下唇、左右嘴角)、脸颊2个(左脸颊、右脸颊)。其中,鼻梁、左耳垂、右耳垂及上唇这4个传感器所采集的坐标值用于校准。舌根、舌中、舌尖以及上下嘴唇、左右嘴唇7个传感器所采集的三维坐标值即为器官运动数据。进一步的,以250KHz的频率采集录音者舌部和唇部的坐标值。
校准单元516用于对语音数据和器官运动数据进行校准去噪。
校准去噪是指对该样本数据进行校准,以避免在录音过程中,由于录音者头部的移动而导致样本数据的坐标值产生偏差。
上述构音障碍识别的方法,利用待测者语音数据的声学参数和回归方程,可直接得到待测者对应的运动学参数,进而根据声学参数和运动学参数识别该待测者是否有构音障碍,避免了传统的方法仅靠声学参数识别所带来的误差,从而提高了识别构音障碍的准确度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种构音障碍识别的装置,包括:
样本数据获取模块,用于获取样本数据,对所述样本数据进行校准去噪,所述样本数据包括语音数据和器官运动数据,所述器官运动数据包括舌部运动数据和唇部运动数据;
样本声学参数计算模块,用于提取所述语音数据的共振峰值,根据所述共振峰值计算所述语音数据的样本声学参数;
偏移位移计算模块,用于根据所述器官运动数据计算舌唇偏移位移;
样本运动学参数计算模块,用于根据所述舌唇偏移位移计算与所述器官运动数据对应的样本运动学参数;
回归计算模块,用于对所述共振峰值和所述舌唇偏移位移进行相关性计算,判断所述共振峰值和所述舌唇偏移位移是否相关,若是,则对所述样本声学参数和所述样本运动学参数进行多元回归计算,得到回归方程;
目标运动学参数计算模块,用于获取采集数据,根据所述回归方程计算与所述采集数据的语音数据对应的目标运动学参数;
识别模块,用于根据所述样本运动学参数和所述目标运动学参数,对所述采集数据进行识别并分类。
2.根据权利要求1所述的装置,其特征在于,所述样本数据采集模块通过电磁发音记录仪采集获取样本数据。
3.根据权利要求1所述的装置,其特征在于,所述偏移位移计算模块包括:
第一数据获取模块,用于获取所述语音数据的发音数据段和静音数据段;
第二数据获取模块,用于在所述器官运动数据中分别获取与所述语音数据的发音数据段和静音数据段对应的子发音数据段和子静音数据段;
静态帧提取模块,用于选取所述器官运动数据的子静音数据段中运动轨迹最平稳的数据段,在所述运动轨迹最平稳的数据段中设定窗口,计算所述窗口中坐标值的方差,选取所述方差最小的窗口作为目标窗口,提取所述目标窗口中坐标值的平均值作为静态帧;
关键帧提取模块,用于在所述器官运动数据的子发音数据段中提取关键帧,所述关键帧为与所述静态帧的坐标值的舌唇偏移位移最大时的动态帧;
归一化模块,用于获取基准发音坐标系,根据所述基准发音坐标系对所述静态帧和所述动态帧分别进行归一化,得到标准静态帧和标准动态帧;
计算模块,用于计算所述标准动态帧的坐标值与所述标准静态帧的坐标值的差值,根据所述差值得到与所述器官运动数据对应的舌唇偏移位移。
4.根据权利要求1所述的装置,其特征在于,所述回归计算模块采用最小二乘法对所述样本声学参数和所述样本运动学参数进行多元回归计算。
5.根据权利要求1所述的装置,其特征在于,所述装置还包括速度阈值计算模块,所述速度阈值计算模块用于获取所述样本数据的舌部运动数据的坐标差值和所述坐标差值对应的时间间隔,计算舌部速度阈值和舌部加速度阈值。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括目标速度计算模块,所述目标计算模块用于获取所述采集数据的舌部运动数据的坐标差值和所述采集数据的舌部运动数据的坐标差值对应的时间间隔,计算目标舌部速度数据和目标舌部加速度数据;
所述识别模块还用于根据所述舌部速度阈值、舌部加速度阈值和所述目标舌部速度数据、目标舌部加速度数据,对所述采集数据进行识别并分类。
7.一种构音障碍识别的系统,包括电磁发音记录仪、声学参数计算组件、运动学参数计算组件和中央处理组件,所述电磁发音记录仪分别连接所述声学参数计算组件和所述运动学参数计算组件,所述中央处理组件分别连接所述声学参数计算组件和所述运动学参数计算组件;
所述电磁发音记录仪用于采集样本数据,对所述样本数据进行校准去噪,所述样本数据包括语音数据和器官运动数据,所述器官运动数据包括舌部运动数据和唇部运动数据;
所述声学参数计算组件用于提取所述语音数据的共振峰值,根据所述共振峰值计算所述语音数据的样本声学参数;
所述运动学参数计算组件用于根据所述器官运动数据计算舌唇偏移位移,根据所述舌唇偏移位移计算与所述器官运动数据对应的样本运动学参数;
所述中央处理组件用于对所述样本声学参数和所述样本运动学参数进行多元回归计算,得到回归方程。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括识别组件,所述识别组件连接所述中央处理组件;
所述电磁发音记录仪还用于获取采集数据;
所述中央处理组件还用于根据所述采集数据的目标声学参数和所述回归方程,计算所述采集数据的目标运动学参数;
所述识别组件用于根据所述样本运动学参数和所述目标运动学参数,对所述采集数据进行识别并分类。
9.根据权利要求7所述的系统,其特征在于,所述电磁发音记录仪包括语音传感器和运动传感器和校准单元;
所述语音传感器用于采集所述语音数据;
所述运动传感器用于采集所述器官运动数据;
所述校准单元用于对所述语音数据和所述器官运动数据进行校准去噪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310713782.9A CN103705218B (zh) | 2013-12-20 | 2013-12-20 | 构音障碍识别的方法、系统和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310713782.9A CN103705218B (zh) | 2013-12-20 | 2013-12-20 | 构音障碍识别的方法、系统和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103705218A CN103705218A (zh) | 2014-04-09 |
CN103705218B true CN103705218B (zh) | 2015-11-18 |
Family
ID=50398870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310713782.9A Active CN103705218B (zh) | 2013-12-20 | 2013-12-20 | 构音障碍识别的方法、系统和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103705218B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123934A (zh) * | 2014-07-23 | 2014-10-29 | 泰亿格电子(上海)有限公司 | 一种构音识别方法及其系统 |
TWI576826B (zh) * | 2014-07-28 | 2017-04-01 | jing-feng Liu | Discourse Recognition System and Unit |
CN105719662B (zh) * | 2016-04-25 | 2019-10-25 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 构音障碍检测方法和系统 |
CN107456208A (zh) * | 2016-06-02 | 2017-12-12 | 深圳先进技术研究院 | 多模式交互的言语语言功能障碍评估系统与方法 |
CN109360645B (zh) * | 2018-08-01 | 2021-06-11 | 太原理工大学 | 一种构音障碍发音运动异常分布的统计分类方法 |
CN112927696A (zh) * | 2019-12-05 | 2021-06-08 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的构音障碍自动评估系统和方法 |
CN113241065B (zh) * | 2021-05-11 | 2022-05-24 | 北京工商大学 | 基于视觉面部轮廓运动的构音障碍语音识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5473726A (en) * | 1993-07-06 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Air Force | Audio and amplitude modulated photo data collection for speech recognition |
CN101488346A (zh) * | 2009-02-24 | 2009-07-22 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
CN103337247A (zh) * | 2013-06-17 | 2013-10-02 | 天津大学 | 电磁发音记录仪数据标注分析系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000048166A (ja) * | 1998-05-27 | 2000-02-18 | Nippon Telegr & Teleph Corp <Ntt> | 顔画像の唇運動検出方法及び装置 |
JP2000338987A (ja) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
DE602007002906D1 (de) * | 2006-05-22 | 2009-12-03 | Philips Intellectual Property | System und verfahren zum trainieren eines dysarthrischen sprechers |
JP4543263B2 (ja) * | 2006-08-28 | 2010-09-15 | 株式会社国際電気通信基礎技術研究所 | アニメーションデータ作成装置及びアニメーションデータ作成プログラム |
CN101482976B (zh) * | 2009-01-19 | 2010-10-27 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
-
2013
- 2013-12-20 CN CN201310713782.9A patent/CN103705218B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5473726A (en) * | 1993-07-06 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Air Force | Audio and amplitude modulated photo data collection for speech recognition |
CN101488346A (zh) * | 2009-02-24 | 2009-07-22 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
CN103337247A (zh) * | 2013-06-17 | 2013-10-02 | 天津大学 | 电磁发音记录仪数据标注分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103705218A (zh) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103705218B (zh) | 构音障碍识别的方法、系统和装置 | |
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
Lu et al. | Speakersense: Energy efficient unobtrusive speaker identification on mobile phones | |
US11786171B2 (en) | Method and system for articulation evaluation by fusing acoustic features and articulatory movement features | |
US8442832B2 (en) | Apparatus for context awareness and method using the same | |
CN109785857B (zh) | 基于mfcc+mp融合特征的异常声事件识别方法 | |
CN103294199B (zh) | 一种基于脸部肌音信号的无声信息识别系统 | |
CN103413113A (zh) | 一种服务机器人智能情感交互的方法 | |
TW201201115A (en) | Facial expression recognition systems and methods and computer program products thereof | |
Esmaili et al. | Automatic classification of speech dysfluencies in continuous speech based on similarity measures and morphological image processing tools | |
CN107526437A (zh) | 一种基于音频多普勒特征量化的手势识别方法 | |
WO2009090584A2 (en) | Method and system for activity recognition and its application in fall detection | |
CN110286774B (zh) | 一种基于手腕运动传感器的手语识别方法 | |
CN106123911A (zh) | 一种基于加速传感器和角速度传感器的记步方法 | |
Kalgaonkar et al. | Ultrasonic doppler sensor for voice activity detection | |
CN110946554A (zh) | 咳嗽类型识别方法、装置及系统 | |
CN113780150A (zh) | 一种基于多维身体状态感知的疲劳检测方法及系统 | |
CN104064196B (zh) | 一种基于语音前端噪声消除的提高语音识别准确率的方法 | |
CN115641839A (zh) | 一种智能语音识别方法和系统 | |
CN111262637A (zh) | 一种基于Wi-Fi信道状态信息CSI的人体行为识别方法 | |
JP5030150B2 (ja) | 筋電位信号による音声認識装置 | |
CN109271889A (zh) | 一种基于双层lstm神经网络的动作识别方法 | |
CN104850225A (zh) | 一种基于多层次融合的活动识别方法 | |
CN114757237B (zh) | 一种基于WiFi信号的速度无关步态识别方法 | |
Kumari et al. | An efficient algorithm for Gender Detection using voice samples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |