CN115295014A

CN115295014A - 一种提高拼音模糊匹配正确率的拼音相似度计算方法

Info

Publication number: CN115295014A
Application number: CN202111593572.1A
Authority: CN
Inventors: 高国忠; 徐扬; 唐友军
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-11-04

Abstract

本发明公开了一种提高拼音模糊匹配正确率的拼音相似度计算方法，包括获取若干个拼音组合对应的音频信号，其中，所述拼音组合通过声母和韵母组合形成，所述音频信号通过语音合成技术合成；提取各个音频信号的梅尔频率倒谱系数；根据提取到的各个音频信号的梅尔频率倒谱系数，得到任意两个音频信号之间的相似度，以得到不同声母和韵母之间的听觉相似度。本发明提出的技术方案的有益效果是：通过将各个声母和各个韵母组合后，通过语音合成技术将各个组合合成音频信号，再提取各个音频信号的梅尔频率倒谱系数，并根据梅尔频率倒谱系数，得到任意两个音频信号之间的相似度，进而得到不同声母和韵母之间的听觉相似度，从而可更准确地进行模糊音匹配。

Description

一种提高拼音模糊匹配正确率的拼音相似度计算方法

技术领域

本发明涉及语音识别技术领域，尤其是涉及一种提高拼音模糊匹配正确率的拼音相似度计算方法。

背景技术

传统的汉字拼音模糊匹配中，对于声母和韵母的处理，通常使用基于SOUNDEX的方法(具体请参照公开号为US16237847的美国发明专利)，进行模糊音分类(以声母为例，如表1)或发音方式分类(以声母为例，如表2)。

表1现有的一种模糊音分类

Soundex Code	声母
		1	b
2	p
		3	m
4	f
		5	d
6	t
		7	n,l
8	g
		9	k
A	h
		B	j
C	q
		D	x
E	zh,z
		F	ch,c
G	sh,s
		H	r
I	y
		J	w

表2现有的一种发音方式分类

发音方式	Soundex Code	声母
			塞音	1	b、p、d、t、g、k
擦音	2	f、s、sh、x、h、r
			塞擦音	3	j、q、zh、ch、z、c
边音、鼻音	4	m、n、l

但这些方法都无法计算不同声母、韵母之间的听觉相似度，只能简单地将其作为相同和不同的两种情形处理，这在实际使用中，容易受方言、发音习惯等因素影响匹配正确率。

发明内容

有鉴于此，有必要提供一种提高拼音模糊匹配正确率的拼音相似度计算方法，用以解决现有的模糊音分类和发音方式分类方法不能准确得到不同声母、韵母之间的听觉相似度。

为了实现上述目的，本发明提供了一种提高拼音模糊匹配正确率的拼音相似度计算方法，包括：

获取若干个拼音组合对应的音频信号，其中，所述拼音组合通过声母和韵母组合形成，所述音频信号通过语音合成技术合成；

提取各个音频信号的梅尔频率倒谱系数；

根据提取到的各个音频信号的梅尔频率倒谱系数，得到任意两个音频信号之间的相似度，以得到不同声母和韵母之间的听觉相似度。

在一些实施例中，提取各个音频信号的梅尔频率倒谱系数，具体包括：

对各个所述音频信号进行预加重处理；

对预加重处理后的音频信号进行分帧处理；

对分帧处理得到的各帧信号均进行加窗处理；

对加窗处理后的各帧信号进行离散傅里叶变换，以使所述音频信号转换为频域信号后，通过所述频域信号得到所述音频信号的能量谱；

将所述音频信号的能量谱转换为Mel频谱；

对所述Mel频谱取对数和倒谱运算，将所述频域信号转换为时域信号；

通过所述时域信号得到各个音频信号的梅尔频率倒谱系数。

在一些实施例中，对各个所述音频信号进行预加重处理，具体为：对各个所述音频信号通过高通滤波器处理，以得到预加重处理后的音频信号。

在一些实施例中，对分帧处理得到的各帧信号均进行加窗处理，具体公式为：

S′_i(n)＝S_i(n)*W(n)

其中，

N为帧长，n为自然数，S_i(n)为第i帧信号，S′_i(n)为加窗处理后的第i帧信号，i为大于0的自然数。

在一些实施例中，对加窗处理后的各帧信号进行离散傅里叶变换，以使所述音频信号转换为频域信号后，通过所述频域信号得到所述音频信号的能量谱，具体公式为：

其中，S′_i(n)为加窗处理后的第i帧信号，i为大于0的自然数，N为帧长，n为自然数，j，k为参数，S_i(k)为频域信号，P_i(k)为能量谱。

在一些实施例中，将所述音频信号的能量谱转换为Mel频谱，具体公式为：

c(l)＝h(l-1)＝o(l+1)

其中，o(l)为第l个三角形滤波器的下限频率，c(l)为第l个三角形滤波器的中心频率，h(l)为第l个三角形滤波器的上限频率，l为大于0的自然数，L为三角形滤波器的个数，i为大于0的自然数，k为参数，P_i(k)为能量谱，m(l)为Mel频谱。

在一些实施例中，对所述Mel频谱取对数和倒谱运算，将所述频域信号转换为时域信号，具体公式为：

其中，c(i)为时域信号，i为大于0的自然数，N为帧长，L为三角形滤波器的个数，m(l)为Mel频谱，l为大于0的自然数。

在一些实施例中，通过所述时域信号得到各个音频信号的梅尔频率倒谱系数，具体为，将所述时域信号进行两次差分计算，分别得到一阶差分系数和二阶差分系数，根据一阶差分系数和二阶差分系数，得到梅尔频率倒谱系数。

在一些实施例中，根据提取到的各个音频信号的梅尔频率倒谱系数，得到任意两个音频信号之间的相似度，以得到不同声母和韵母之间的听觉相似度，具体为：

对任意两个音频信号，根据两个音频信号的梅尔频率倒谱系数，计算两个音频信号加入惩罚系数λ的DTW距离，根据DTW距离，求取任意两个音频信号之间的相似度，以得到不同声母和韵母之间的听觉相似度。

在一些实施例中，任意两个音频信号之间的相似度为DTW距离的倒数。

与现有技术相比，本发明提出的技术方案的有益效果是：通过将各个声母和各个韵母组合后，通过语音合成技术将各个组合合成音频信号，再提取各个音频信号的梅尔频率倒谱系数，并根据梅尔频率倒谱系数得到任意两个音频信号之间的相似度，进而得到不同声母和韵母之间的听觉相似度，从而可更准确地进行模糊音匹配。

附图说明

图1是本发明提供的提高拼音模糊匹配正确率的拼音相似度计算方法的一实施例的流程示意图；

图2是图1中步骤S2的流程示意图；

图3是Mel滤波器组的示意图；

图4是DTW方法示意图；

图5是预加重前后语音文件“nu.wav”的波形图；

图6是分帧后得到的第4帧在加汉明窗前后的波形图；

图7是对第4帧进行离散傅里叶变换后得到的能量谱；

图8是Mel滤波器组的示意图；

图9是第4个Mel滤波器的对数输出；

图10是声母n，l，m两两之间的相似度与MFCC阶数的关系；

图11是前9阶的MFCC系数示意图；

图12是声母n、声母l、声母m及声母t与韵母u组合时的MFCCs的第22维特征示意图；

图13是声母n和声母l的第22维MFCCs网格矩阵示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

请参照图1，本发明提供了一种提高拼音模糊匹配正确率的拼音相似度计算方法，包括：

S1、获取若干个拼音组合对应的音频信号，其中，所述拼音组合通过声母和韵母组合形成，所述音频信号通过语音合成技术合成；

S2、提取各个音频信号的改进梅尔频率倒谱系数；

S3、根据提取到的各个音频信号的梅尔频率倒谱系数，得到任意两个音频信号之间的相似度，以得到不同声母和韵母之间的听觉相似度。

具体为：

对任意两个音频信号，根据两个音频信号的梅尔频率倒谱系数，计算两个音频信号加入惩罚系数λ的DTW距离，根据DTW距离，求取任意两个音频信号之间的相似度，其中，任意两个音频信号之间的相似度为DTW距离的倒数。

与现有技术相比，本发明提供的技术方案通过将各个声母和各个韵母组合后，通过语音合成技术将各个组合合成音频信号，再提取各个音频信号的梅尔频率倒谱系数，并根据梅尔频率倒谱系数得到任意两个音频信号之间的相似度，进而得到不同声母和韵母之间的听觉相似度，从而可更准确地进行模糊音匹配。

具体地，请参照图2，步骤S2具体包括如下步骤：

S21、对各个所述音频信号进行预加重处理；

具体为：对各个所述音频信号通过高通滤波器处理，以得到预加重处理后的音频信号。

将各个所述音频信号通过如下的一个高通滤波器进行处理，以补偿高频分量的损失，并凸显高频的共振峰。

高通滤波器为：

H(z)＝1-μz^-1 (1)

其对应的时域差分方程为：

S(n)＝x(n)-μ*x(n-1) (2)

式中，μ取值为0.9～1，S(n)为音频信号。

S22、对预加重处理后的音频信号进行分帧处理；

把音频信号S(n)切分为许多小段S_i(n)，每一小段称为帧，其中包含N个采样点，N叫帧长。如果最后一帧不够N个样本点，则在后面补0。每一帧的时间长度取值应在20ms～50ms之间。在对帧做偏移时，还需要将帧与帧之间重叠一部分，以避免帧与帧之间的特性变化太大。对于16000Hz的音频信号，通常取帧长N＝512，帧移16ms。

S23、对分帧处理得到的各帧信号均进行加窗处理；

对每一帧音频信号S_i(n)乘上汉明窗W(n)，以减小吉布斯效应的影响，减弱FFT以后旁瓣大小以及频谱泄露。加汉明窗后的信号：

S′_i(n)＝S_i(n)*W(n) (3)

其中，

N为帧长，n为自然数，S_i(n)为第i帧信号，S′_i(n)为加汉明窗后的第i帧信号，i为大于0的自然数。

S24、对加窗处理后的各帧信号进行离散傅里叶变换，以使所述音频信号转换为频域信号后，通过所述频域信号得到所述音频信号的能量谱；

对每一帧加汉明窗后的音频信号S′_i(n)做N＝512的离散傅里叶变换。将时域的音频信号转换至频域信号S_i(k)，变换后，由S_i(k)估计能量谱P_i(k)：

其中，S′_i(n)为加汉明窗后的第i帧信号，i为大于0的自然数，N为帧长，n为自然数，j，k为参数，S_i(k)为频域信号，P_i(k)为能量谱，每一帧有N/2+1＝257个点。

S25、将所述音频信号的能量谱转换为Mel频谱；

将离散傅里叶变换后的能量谱，根据以下公式把实际频率转换为Mel频率(m)，

Mel(f)＝1125ln(1+f/700) (6)

再通过L＝26个Mel滤波器，其中1KHz以下的10个滤波器线性相隔，1KHz以上的16个滤波器对数相隔，每个滤波器为长度等于257的向量(如图3)。

第l个三角形滤波器的下限频率o(l)、中心频率c(l)、上限频率h(l)与相邻滤波器的关系如下：

c(l)＝h(l-1)＝o(l+1) (7)

其中每个三角滤波器的输出

上述式中，o(l)为第l个三角形滤波器的下限频率，c(l)为第l个三角形滤波器的中心频率，h(l)为第l个三角形滤波器的上限频率，l为大于0的自然数，L为三角形滤波器的个数，i为大于0的自然数，k为参数，P_i(k)为能量谱，m(l)为Mel频谱。

根据奈奎斯特(Nyquist)采样定理，16KHz的语音信号频率范围为0～8KHz，而人类只能听到20Hz以上的声音，所以对20Hz～8KHz转换到Mel尺度，20Hz对应31.69Mel，8KHz对应2834.99Mel。

S26、对所述Mel频谱取对数和倒谱运算，将所述频域信号转换为时域信号；

由于人耳对声压的反应一般呈对数关系，所以在获得Mel频谱后，还需要进行一次取对数和倒谱运算，将频域信号变回时域信号。在MFCC中，通常使用离散余弦变换(DCT)来代替反傅里叶变换进行倒谱运算：

其中，c(i)为时域信号，i为大于0的自然数，N为帧长，L为三角形滤波器的个数，m(l)为Mel频谱，l为大于0的自然数。低倒谱系数常用于检测音元，高倒谱系数常用于检测音，不同系数之间的变化不相关。在本实施例中，只提取前9阶倒谱系数。这是因为，低阶系数主要受音元影响，高阶系数主要受音高影响，而衡量拼音相似度时并不需要比较音高特征。经过对比实验，只取前9阶能得到更好的效果。以声母n，l，m为例，当其与韵母n组合时，在只取前9阶时，n，l能得到较高的相似度，而n，m和n，t的相似度都较低。

S27、通过所述时域信号得到各个音频信号的梅尔频率倒谱系数。

以上计算的倒谱参数只包含了语音参数的静态特征，还需要通过两次差分计算，获得语音参数的动态(delta)特征，以提高系统的识别性能：

式中，d_t表示从第t帧的前后c_t+n、c_t-n得到的一阶差分(delta)系数，取N＝2。二阶差分(delta-delta)系数使用同样的方法，对d_t再进行一次差分运算。因此，本发明中完整的一个MFCCs包含27个维度，其中9维MFCC，9维一阶差分系数，9维二阶差分系数。

步骤S3中，根据提取到的各个音频信号的梅尔频率倒谱系数，得到任意两个音频信号之间的相似度，具体方法是使用动态时间归整(DTW)求相似度(如图4)，其计算原理如下：

其中，W＝ω₀，ω₁，...，ω_k，...，ω_K表示规整路径矩阵(warping path matrix)，W的第k个元素定义为W_k＝(i.j)_k，δ是距离度量函数，取

W_k＝λ*δ(i，j)＝λ*(x_i-y_j)² (13)

在计算汉语拼音的DTW相似度时，为了适应声母、韵母的发音特性，并在一定程度上解决DTW算法中可能出现的病态对齐现象，本专利对W_k的计算加入了惩罚系数λ。当对声母部分计算DTW相似度时，对时间序列Q，C的前3/5帧部分，取λ＝1，后2/5帧部分取λ＝0.7；当对韵母部分计算DTW相似度时，对时间序列Q，C的前2/5帧部分，取λ＝0.7，后3/5帧部分取λ＝1。

W满足以下3个约束条件：

(1)边界条件：

ω₀＝(x₀，y₀)，ω_K＝(x_m，y_n)

即路径规划必须从网格矩阵W的左下角出发，右上角结束。

(2)连续性条件：

若ω_k-1＝(a′，b′)，则路径规划的下一个点ω_k＝(a，b)须满足：

(a-a′)≤1，(b-b′)≤1

即W上的每个点只能和相邻点对齐匹配。

(3)单调性条件：

0≤(a-a′)，0≤(b-b′)

即W上的点必须随时间单调进行规划。

针对汉语拼音的特点，DTW在本发明中的具体实现步骤如下：

(1)假设两个时间序列Q＝{x₀，x₁，x_i，......，x_m}，C＝{y₀，y₁，y_j，......，y_n}，其中m，n分别是音频文件A，B的分帧数。

(2)使用距离度量函数δ计算Q，C中每个离散时间点(x_i，y_j)的距离(Dist)，构造一个大小为m×n的网格距离矩阵W：

λδ(x_m，y₀) λδ(x_m，y₁) ... λδ(x_m，y_n)

… … … …

λδ(x₁，y₀) λδ(x₁，y₁) ... λδ(x₁，y_n)

λδ(x₀，y₀) λδ(x₀，y₁) ... λδ(x₀，y_n)

(3)根据网格矩阵W，找出从δ(x₀，y₀)到δ(x_m，y_n)之间满足约束条件的最短路径，其和值即为DTW距离。

分别求得语音A、B的MFCCs后，对每一个维度计算DTW距离，相似度取距离的倒数。

实例应用：

(一)、建立拼音语音数据

使用科大讯飞的TTS(语音合成)系统，设定相同发音人和发音速度合成语音信号，对声母和韵母部分分开研究。

以声母为例，每个声母均与韵母u组合发音，如：怒(nu)，鹿(lu)，木(mu)，兔(tu)，经TTS合成获得对应发音的16Khz波形文件(wav)。

(二)、MFCCs特征提取

以语音文件“nu.wav”为例，其发音时间共计892ms。

(1)预加重处理

利用公式(2)，取μ＝0.97，对输入的语音文件进行预加重处理，预加重前后的波形图如图5所示。

(2)分帧、加窗

对预加重处理后的语音信号进行N＝512的分帧，并对每一帧加公式(3)中的汉明窗，其时长为32ms，共计55帧，其中第4帧在加汉明窗前后的波形图如图6所示。

(3)对每一帧进行离散傅里叶变换

用公式(4)和公式(5)，对上一步的每一帧的信号进行离散傅里叶变换(FFT)，并计算能量谱，第4帧进行离散傅里叶变换后的能量谱如图7所示。

(4)通过26个梅尔(Mel)滤波器组

对20Hz～8KHz根据公式(6)转换到Mel尺度，20Hz对应31.69Mel，8KHz对应2834.99Mel。对于26个Mel滤波器，使用28个点对其平均分配：

[31.7，135.5，239.3，343.2，447.0，550.8，654.6，758.5，862.3，966.1，1069.9，1173.8，1277.6，1381.4，1485.3，1589.1，1692.9，1796.7，1900.6，2004.4，2108.2，2212.0，2315.9，2419.7，2523.5，2627.3，2731.2，2835.0]

对应的频率(Hz)：

[20.0，89.6，165.9，249.7，341.5，442.2，552.6，673.8，806.5，952.2，1111.8，1287.2，1479.2，1689.9，1921.1，2174.4，2452.3，2757.0，3091.4，3457.9，3859.8，4300.5，4784.4，5314.5，5895.8，6533.4，7233.2，8000.0]

代入公式(9)生成26个Mel滤波器(如图8所示)。

使用公式(8)，将每一帧FFT后的信号通过Mel滤波器组，其中第4个Mel滤波器的对数输出如图9所示。

再经过DCT倒谱运算得到12阶MFCC系数，并对能量谱取对数，作为MFCC系数的第1阶，得到13阶MFCC系数。在本专利的方法中，低阶系数主要受音元影响，高阶系数主要受音高影响，而衡量拼音相似度时并不需要比较音高特征。经过对比实验，只取前9阶能得到更好的效果。以声母n，l，m为例，当其与韵母n组合时，在只取前9阶时，n，l能得到较高的相似度，而n，m和n，t的相似度都较低，对比效果如图10所示。在本实施例中，前9阶的MFCC系数如图11所示。

(5)二阶差分参数提取

用公式(11)提取出一阶差分(delta)系数和二阶差分(delta-delta)系数，与上述9阶MFCC系数组成27维的MFCCs系数。为了更直观地观察其特点，本实施例展示了其中第22维特征(如图12)。由图12可明显看出，对于声母n，l，m，t而言，n和l具有较高的相似度，而m与n、l也具有一定的相似度，t则和n、m、l差异较大。

(三)、DTW求相似度并归一化

对声母n和其余声母的MFCCs求DTW相似度x，并归一化：

声母n和声母l的第22维MFCCs网格矩阵W如图13，其中白色实线为最短路径。

为了使数据更加直观，在归一化后对每个数据乘以了100，得到n和其余声母的相似度(如表3)：

表3 n和其余声母的相似度

由同样方法可得l和其余声母相似度(如表4)：

表4 l和其余声母的相似度

由表1可知，在各声母与韵母“u”协同发音时，与声母n相比，l具有最高的相似度(89.5)，m具有较高相似度(68.9)，r具有些微相似度(52.3)。其余声母和n的相似度较低(小于50)。在不需要较高模糊度的拼音匹配场景中，可认为小于50的声母和n不具有相似性。

本发明能大大提高汉语拼音模糊匹配的区分度。若现有汉字人名“芈华(mi3hua2)”，由于环境噪音、发音不标准或常用词统计等因素影响，被计算机错误录入为“李华(li3 hua2)”，而待匹配汉字中仅有“芈华”和“毕华”。

若使用传统基于SOUNDEX的音码模糊匹配方法，分别计算声母、韵母部分相似度：

由于声母l和m、b并不属于一组模糊音，“李”和“芈”、“毕”的相似度都将计算为50％：

声母不同

韵母相同

而使用本发明中的方法，由于l和m具有61.0的相似度，l和b具有20.2的相似度，结合音码方法可得：

“李”“芈”：

“李”、“毕”：

“李”和“芈”的相似度为80.5％，“李”和“毕”的相似度为60.1％，明显提高了模糊匹配的区分度，将在某些场合下能取得更好的模糊匹配效果。

以上所述仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。