CN109616141B

CN109616141B - 发音异常检测方法

Info

Publication number: CN109616141B
Application number: CN201910005097.8A
Authority: CN
Inventors: 张涛; 蒋培培; 张文清; 张亚娟
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2022-01-11
Anticipated expiration: 2039-01-03
Also published as: CN109616141A

Abstract

本发明涉及一种发音异常检测方法，包括语音信号预处理模块、语音时频同窗可视化模块、局部信息统计模块和分类模块。语音信号预处理模块将待测的语音信号进行处理，处理后传输至语音时频同窗可视化模块；由语音时频同窗可视化模块将处理后的语音信号的时域信息和频域信息进行同窗可视化显示，并将显示信息传输至局部信息统计模块；局部信息统计模块进行计算并且统计单位区间内各数据的特征信息，并将其统计的特征信息传递给分类模块；分类模块是将统计的高维数据经过多次映射关系进行类别划分，通过数据和标签训练分类器。从而实现对新的病态语音信号进行检测。本发明测量方便，费用低廉，且准确率较高。

Description

发音异常检测方法

技术领域

本发明涉及一种发音异常检测方法，尤其是一种病态发音异常的检测方法。

背景技术

以行为、情绪及社交异常为特点的精神疾病和神经性退行性疾病NDD的人数正在逐年增加，其中包括阿茨海默症AD、帕金森症PD、轻度认知障碍MDI、抑郁症等。这类疾病导致患者的脑部神经发生病变，使患者的生活品质下降。遗憾的是，目前此类疾病尚无法从根本上治愈，所有的治疗方案仅仅是延缓病情发展。因此，早期诊断不论对于家庭还是社会均具有重大意义。

尽管这些疾病有各自的特点，但很多情况下，它们会有一些相同的症状和神经病理条件，很多神经退行性疾病会引起发音异常，如帕金森、阿茨海默、轻度认知障碍、抑郁症等。而对语音的采集可以利用麦克风进行，同时也可以利用电话线路对语音信号进行远距离传输，因此，通过语音检测有发音异常的疾病极其具有价值。

发明内容

针对上述问题，本发明的目的是提供一种发音异常检测方法，该方法不但测量方便，费用低廉，而且易于实现远程检测，有利于发音异常疾病检测效果的提高。

为实现上述目的，采用了以下技术方案：本发明提出了一种发音异常检测方法，该方法包括语音信号预处理模块、语音时频同窗可视化模块、局部信息统计模块和分类模块，所述语音信号预处理模块将待测的语音信号进行处理，处理后传输至所述语音时频同窗可视化模块，所述语音时频同窗可视化模块将处理后语音信号的时域信息和频域信息进行同窗可视化显示，并将显示信息传输至所述局部信息统计模块，所述局部信息统计模块进行计算并且统计单位区间内各数据的特征信息，并将其统计的特征信息传递给所述分类模块，所述的分类模块是将统计的高维数据经过多次映射关系进行类别划分，通过训练分类器，从而实现对病态语音信号的检测。

优选地，所述语音时频同窗可视化模块构建方法具体包括以下步骤：

(1)、对语音信号x(t)进行采样，采样频率为f，得到离散语音信号x_f(n)，n为整数；

(2)、对所述离散语音信号x_f(n)进行截断处理，表达式如下：x_w(n)＝x_f(n)×w(n)，其中x_w(n)表示截断后的离散语音信号，w(n)表示截断函数；

(3)、将所述截断后的离散语音信号x_w(n)进一步变换，采用傅里叶变换，获得表达式

其中N表示截断函数w(n)的长度，X_z(k)表示其幅度谱估计，k为整数；

(4)、计算其功率谱函数P(k)＝10lg|X_z(k)|²；

(5)、对P(k)进行归一化处理得到P'(k)，然后通过非线性映射Φ得到最终的数据，表达式如下：I＝Φ(p'(k))，其中I表示经过映射后的可视的二维数据，I_(x，y)表示二维数据中坐标为x，y的数据。

优选地，所述语音信号预处理模块利用端点检测找到语音信号的起始点，然后将语音信号中持续时间不少于T秒的连续发音作为有效部分进行选取，选取的语音信号用x(t)表示。

优选地，所述局部信息统计模块构建方法如下：

(1)、将可视化数据规范为I'_(x,y)＝I_(x,y) ^Υ，I_(x,y) ^Υ表示将I_(x,y)指数化，其中Υ表示其指数的值，I'_(x,y)表示规范化后的二维数据；

(2)、将数据通过滑动窗口进行截取，窗口的大小为η×η，η为整数；

(3)、计算所述滑动窗口内每个数据的幅值大小

其中x、y分别表示二维数据的横坐标、纵坐标位置，p表示不同的距离，p≥1，当p＝1时，为曼哈顿距离，当p＝2时，为欧式距离，S(I'_(x，y))表示坐标位置为x、y的数据的幅值；

(4)、计算每个数据的角度表达式如下：θ(I'_(x,y))＝arctant(Δy/Δx)，其中Δy＝I'_(x，y+1)-I'_(x，y-1)，Δx＝I'_(x+1，y)-I'_(x-1，y)；θ(I'_(x,y))表示该数据点的角度，Δy表示数据的竖直分量，Δx表示数据的水平分量；

(5)、统计单位方向内的幅值，将360°划分为w个方向区间，将滑动窗口内所有数据的幅值根据其角度所在的方向区间进行统计，然后将每个方向区间内的所有幅值相加，统计后得到w维向量；

(6)、将w维向量进行归一化，表达式如下所示：

其中v表示w维向量，v*表示w维向量归一化的结果，ε为一个很小的不为零常数，||v||₁表示为v的1范数；

(7)、通过滑动窗口滑动后，重复步骤(3)-(6)，直至窗口遍历完所有的数据，最终得到m维特征向量。

优选地，所述分类模块使用SVM分类器进行二分类，在训练阶段，首先将所有数据集中的每个语音的m维特征向量和其对应的标签传输至SVM分类器中，然后训练SVM分类器；在检测阶段，将被检测语音的m维特征向量传输至训练好的SVM分类器，从而得到该被检测语音的分类结果即是否患病。

优选地，所述截断函数形式包括但不限于

以及

优选地，所述截断后的离散语音信号x_w(n)的变换形式还包括傅里叶变换和小波变换。

优选地，所述距离p包括但不限于曼哈顿距离、欧式距离。

本发明采用以上技术方案，其具有以下有益效果：

第I条本发明利用UCI数据库中的帕金森语音数据集和自己采集的数据集对以上方案进行了实验测试，并且在帕金森语音诊断中获得了优越的性能，具备实用的价值；

第II条本发明测试简单，成本低，使用者仅仅需要提供一段连续时间的单元音a、o、e、i、u、ü的发音语音数据即可，不需要高成本、高复杂度的过程。

附图说明

图1为本发明流程图；

图2为语音时频同窗可视化模块流程图；

图3为局部信息统计模块流程图；

图4为连续发音语音信号x(t)；

图5为二维数据可视图；

图6为特征向量散点图；

图7为234条语音集的特征可视图；以及

图8为234条语音数据集的语音标签。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是一种发音异常检测方法，本发明的流程图如图1所示，主要包括语音信号预处理模块，语音时频同窗可视化模块，局部信息统计模块和分类模块。

语音信号预处理模块将待测的语音信号进行处理，处理后的数据传输至语音时频同窗可视化模块；由语音时频同窗可视化模块将处理后的语音信号的时域信息和频域信息进行同窗可视化显示，并将显示信息传输至局部信息统计模块；局部信息统计模块进行计算并且统计单位区间内各数据的特征信息，并将其统计的特征信息传递给分类模块；分类模块是将统计的高维数据经过多次映射关系进行类别划分，通过数据和标签即：0表示患病，1表示未患病训练分类器，从而实现对新的病态语音信号的检测。

在语音信号预处理模块中，利用端点检测找到语音信号的起始点，然后对语音信号中有效部分进行选取。选取规则为持续时间不少于T秒的连续发音。选取的语音信号用x(t)表示。

如图2所示，在语音时频同窗可视化模块中，首先对传入的连续语音信号x(t)进行采样，得到离散语音信号x_f(n)，其次对离散的语音信号进行截断处理，再者对截断后的离散语音信号x_w(n)进行某种变换，然后对变换后的信号计算其功率谱，接着对其功率谱进行归一化，然后对归一化的数据进行非线性映射，最终得到信号时域、频域信息同窗的可视化二维数据。

如图3所示，在局部信息统计模块中，对于传入的可视化二维数据，首先进行规范化，用滑动窗口截取经过规范化的二维数据，分别计算滑动窗口内每个数据的幅值和角度，然后统计滑动窗口内的幅值，形成w维特征向量，接着对w维特征向量进行归一化，然后判断滑动窗口是否遍历完所有的数据，如果没有遍历完所有的数据，则滑动一定的步长，滑动窗口重新截取数据进行计算，如果已经遍历完所有的数据，则输出所有窗口归一化的w维特征向量，即形成的m维特征向量。

在分类模块中，该模块使用的是SVM分类器进行二分类。当训练分类器的时候，首先将所有数据集中每个语音的m维特征向量和其0、1标签，即：0表示患病，1表示未患病，传输至SVM分类器中，训练SVM分类器；当检测的时候，将待检测语音的m维特征向量传输至训练好的SVM分类器，从而得到该待检测语音的分类结果。

本发明的具体实施例如下：

首先对语音信号进行预处理，在信号预处理模块中利用端点检测找到语音信号的起始点，然后对语音信号中有效部分进行选取，选取持续时间为1秒的连续发音语音信号x(t)，其连续发音语音信号如图4所示，其中横坐标表示的是时间，纵坐标表示的是语音信号的幅值。然后将选取的语音信号x(t)传输至语音时频同窗可视化模块。

在语音时频同窗可视化模块中：

(1)将传入的语音信号x(t)进行采样，本实施例中的采样频率为44100Hz，得到离散语音信号x_f(n)，n为整数。

(2)对离散语音信号x_f(n)进行截断x_w(n)＝x_f(n)×w(n)，其中x_w(n)表示截断后的离散语音信号，w(n)表示截断函数，本实施例的截断函数以下面为例，其表达式如下：w(n)＝0.54-0.46cos(2×π×n/511)。

(3)将截断后的离散语音信号x_w(n)进一步变换，变换可采用傅里叶变换、小波变换等，本实施例将以傅里叶变换为例，具体表达式如下：

其中N＝512，X_z(k)表示其幅度谱估计，k为整数。

(4)计算其功率谱函数表达式如下：P(k)＝10lg|X_z(k)|²。

(5)对P(k)进行归一化处理得到P'(k)，然后通过非线性映射Φ得到最终的数据，表达式如下：I＝Φ(p'(k))，其中I表示经过映射后的可视的二维数据，其二维数据的维度为64×64，将其转化为可视化的图谱如图5所示，其中x坐标表示频率，y轴表示的是时间，z轴表示的是强度，I_(x，y)表示二维数据中坐标位置为x，y的数据，将可视化的二维数据传输至局部信息统计模块。

在局部信息统计模块中：

(1)对可视化数据进行规范化，规范化表达式如下：I'_(x,y)＝I_(x,y) ^Υ，I_(x,y) ^Υ表示将I_(x,y)指数化，其中Υ表示其指数的值，在本实施例中Υ＝0.5，I'_(x,y)表示规范化后的二维数据。

(2)将数据用滑动窗口进行截取，窗口的大小为8×8。

(3)计算滑动窗口内每个数据的幅值大小

其中x、y分别表示二维数据的横坐标、纵坐标位置，p表示不同的距离，本实施例以p＝2为例，

表示坐标为x、y的数据的幅值。

(4)计算每个数据的角度表达式如下：θ(I'_(x,y))＝arctant(Δy/Δx)，其中Δy＝I'_(x，y+1)-I'_(x，y-1)，Δx＝I'_(x+1，y)-I'_(x-1，y)，θ(I'_(x,y))表示该数据点的角度，Δy表示数据的竖直分量，Δx表示数据的水平分量。

(5)统计单位方向内幅值。将360°划分为9个方向区间，将滑动窗口内所有数据的幅值根据其角度所在的方向区间进行统计，然后将每个方向区间内的所有幅值相加，统计后得到9维向量。

(6)将9维向量进行归一化，表达式如下所示：

其中v表示9维向量，v^*表示9维向量归一化的结果，ε为一个很小的不为零常数，||v||₁表示为v的1范数，ε＝0.005。

(7)通过滑动窗口滑动后，滑动窗口移动量为s＝8重复步骤(3)-(6)，直到窗口遍历完所有的数据，其每个窗口得到9维向量，遍历完所有数据共有14×14＝196个滑动窗口，最终得到9×196＝1764维特征向量。将得到的1764维特征向量传入到分类器模块。特征向量用散点图图表示如6所示，其中横纵表示的是特征的维数，纵坐标表示的是对应的特征值。

在分类模块中，在训练模型时，将收集的234条语音中每条语音的1764维特征向量，即234×1764维的特征向量和其标签0表示患病，1表示未患病传输至SVM中，即传输SVM分类器中的数据为234×1764的特征向量和234×1的0、1标签，从而训练SVM分类器，将234×1764的特征向量进行可视化如图7所示，其中x轴表示的是语音数据，y轴表示的是特征向量维数，z轴表示的是对应的特征值，将234个标签进行可视化如图8所示，其中横轴表示对应的语音数据，纵轴表示语音数据的标签；在检测的时，将待检测语音的1764维特征向量传输至训练好的分类器，从而得到传入的语音信号是否患病。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种发音异常检测方法，其特征在于：包括语音信号预处理模块、语音时频同窗可视化模块、局部信息统计模块和分类模块，所述语音信号预处理模块将待测的语音信号进行处理，处理后传输至所述语音时频同窗可视化模块，所述语音时频同窗可视化模块将处理后语音信号的时域信息和频域信息进行同窗可视化显示，并将显示信息传输至所述局部信息统计模块，所述局部信息统计模块进行计算并且统计单位区间内各数据的特征信息，并将其统计的特征信息传递给所述分类模块，所述的分类模块是将统计的高维数据经过多次映射关系进行类别划分，通过训练分类器，从而实现对病态语音信号的检测；

所述语音信号预处理模块利用端点检测找到语音信号的起始点，然后将语音信号中持续时间不少于T秒的连续发音作为有效部分进行选取，选取的连续语音信号用x(t)表示；

所述局部信息统计模块构建方法如下：

(3)、计算所述滑动窗口内每个数据的幅值大小

其中x、y分别表示二维数据的横坐标、纵坐标位置，p表示不同的距离，p≥1，当p＝1时，为曼哈顿距离，当p＝2时，为欧式距离，S(I′_(x，y))表示坐标位置为x、y的数据的幅值；

(4)、计算每个数据的角度表达式如下：θ(I'_(x,y))＝arctant(Δy/Δx)，其中Δy＝I'_(x，y+1)-I'_(x，y-1)，Δx＝I'_(x+1，y)-I'_(x-1，y)；θ(I'_(x,y))表示该数据的角度，Δy表示数据的竖直分量，Δx表示数据的水平分量；

(6)、将w维向量进行归一化，表达式如下所示：

2.根据权利要求1所述的发音异常检测方法，其特征在于：所述语音时频同窗可视化模块构建方法具体包括以下步骤：

(4)、计算其功率谱函数P(k)＝10lg|X_z(k)|²；

(5)、对P(k)进行归一化处理得到P'(k)，然后通过非线性映射Φ得到最终的数据，表达式如下：I＝φ(P′(k))，其中I表示经过映射后的可视的二维数据，I_(x，y)表示二维数据中坐标为x，y的数据。

3.根据权利要求1所述的发音异常检测方法，其特征在于：所述分类模块使用SVM分类器进行二分类，在训练阶段，首先将所有数据集中的每个语音的m维特征向量和其对应的标签传输至SVM分类器中，然后训练SVM分类器；在检测阶段，将被检测语音的m维特征向量传输至训练好的SVM分类器，从而得到该被检测语音的分类结果即是否患病。