CN109346105B

CN109346105B - 直接显示基音周期轨迹的基音周期谱图方法

Info

Publication number: CN109346105B
Application number: CN201810846509.6A
Authority: CN
Inventors: 张二华; 唐伟; 唐振民; 王凯龙; 张丽娜
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2022-04-15
Anticipated expiration: 2038-07-27
Also published as: CN109346105A

Abstract

本发明公开了一种直接显示基音周期轨迹的基音周期谱图方法。该方法首先分帧计算频谱和倒谱，用倒谱提取基音周期，倒谱峰值对应的时间就是基音周期，然后将倒谱的振幅转换为灰度，将倒谱的数据点转换为像素点。再根据相邻帧的基音周期具有相似性、渐变性和连续性的特点，将各帧倒谱的像素点沿垂直方向并排绘制，横轴为时间，纵轴为倒谱频率，构成基音周期谱图，使相邻帧的倒谱峰值互相靠近，形成一条明显的、有规律变化的基音周期轨迹。本发明能直接显示基音周期轨迹，不仅为语音分离提供关键线索，还能有效排除偏离基音周期轨迹的虚假倒谱峰值，提高了基音周期提取的精度。

Description

直接显示基音周期轨迹的基音周期谱图方法

技术领域

本发明属于语音信号处理领域，主要用于语音分离，具体地说，是一种直接显示基音周期轨迹的基音周期谱图方法。

背景技术

语音是人类进行信息交流最自然、最方便、最常用的方式，语音识别在人机交互中得到了广泛应用，尽管在静音环境下语音识别可达到很高的识别率，但在噪声环境下，语音识别的性能明显下降。在实际环境中，不可避免地夹杂着环境噪声及他人的语音，使语音信号的质量、清晰度和可懂度降低。采用语音分离技术可消除其它声音的干扰，提高语音的清晰度和可懂度。语音分离不同于语音去噪，语音去噪以消除噪声为目标，先消除噪声，余下的是有效信号；语音分离是以提取语音信号为目标，先从混合信号中提取语音信号，余下的是噪声。语音分离不仅适用于信噪分离，还适用于多人同时说话的混合语音分离，即“鸡尾酒会”问题。人类的听觉系统具有很强的语音分离能力，在嘈杂的鸡尾酒会上,人们能有效地倾听感兴趣的声音，甚至只用一只耳朵也能很好地辨别并专注于某个人的声音，排除其他语音的干扰，1953年英国科学家E.Cherry将该现象称为“鸡尾酒会”问题。

尽管目前人们对听觉感知的机理还未完全了解清楚，但通过一些听觉实验，已揭示了听觉感知的一些线索。1990年，加拿大麦吉尔大学的Bregman提出了听觉场景分析理论，认为听觉系统可以把声音分离为许多“流”，每个流来自同一个声源。听觉感知声音的过程可分为两个阶段，第一阶段是分段，将混合语音分解为一系列的听觉片段，每个听觉片段来自同一个声源，每一个听觉片段都代表一个重要的听觉事件。第二阶段是组合，把来自同一声源的各个听觉片段组合在一起，形成听觉感知流。组合分为同时组合和时序组合，同时组合是将同一个声源在同一时间产生的不同频率的声音分量组合在一起，时序组合是将来自同一个声源在不同时间产生的听觉片段按时间的先后顺序组合到一个声音流中。

组合的线索主要有以下几种：

(1)周期性或谐波性：一组具有谐波关系的声音成分倾向于组合在一起。

(2)连续性或平滑性：那些随时间能形成连续或平滑轨迹的频率成分，倾向于组合为同一个声源流。这种连续性或平滑性也适用于基音周期轨迹、信号强度、空间位置的连续变化等。

(3)开始/结束的同步性：若某些频率分量具有“同步开始”或“同步结束”的特征，则它们倾向于组合在一起。

(4)节奏：一组节奏相似的音调倾向于组合为同一个声源流。

(5)相同的空间位置：来自同一空间位置的声音分量倾向于组合为同一个声源流。

人们根据听觉场景分析理论对语音分离做了大量研究，取得了一系列成果，其中普遍采用的、最重要的线索是基音周期轨迹，基音周期轨迹在语音分离中起关键作用。

传统的基于听觉场景分析的语音分离中，提取基音周期时，根据听觉掩蔽效应，先将语音信号通过一组Gammatone滤波器转换为时-频图。Gammatone滤波器是一个带通滤波器，其带宽由听觉掩蔽效应决定的等效矩形带宽(EquivalentRectangular Bandwidth，ERB)设定，在0-8000Hz范围内，可按ERB划分为24个频带通道。每个Gammatone滤波器的输出被输入到Meddis的毛细胞触发模型，该模型的输出表示听觉神经的触发率。利用耳蜗模型(Gammatone滤波器+Meddis模型)，得到模仿人类听觉系统中基底膜和听神经工作机理的耳蜗图。通过对听神经的触发率沿时间轴作自相关，得到“相关图”，通过沿频率子带累加相关函数，基频信息会增强，该累加函数称为累加相关图。对于存在多个基音周期的混合语音，累加相关图上对应于各个基音周期的位置会出现峰值，这些峰值可用来进行多基音检测及语音分离。该方法非常复杂，经历多个步骤，在信噪比较低的情况下提取的基音周期精度不高，鲁棒性较差，严重影响语音分离的效果。提取具有较高精度和良好鲁棒性的基音周期轨迹是语音分离中迫切需要解决的难点问题。

事实上，在语音信号处理中，倒谱是提取基音周期最有效的方法。语音是由声带的振动经声道的共振后发出的，语音学中将发音时声带振动的音称为浊音，发音时声带不振动的音称为清音。发元音时声带振动，绝大多数语言中的元音均为浊音，鼻音、边音、半元音也是浊音。

在发音的过程中，声道处于变化状态，其变化速度与声带的振动速度相比要缓慢得多，语音信号是一种短时平稳信号，具有准周期性特征，在较短的时间内是相对平稳的，在较长的时间内是逐渐变化的。根据语音信号的短时平稳性，可将语音信号划分为一系列的时窗进行分析，在一个短时窗内语音信号是平稳的，可以用短时傅里叶变换对语音信号进行频谱分析，相应的频谱称为“短时谱”。一个时窗称为一帧，为了使帧与帧之间平滑过渡，保持其连续性，相邻帧之间有重合。

浊音是语音的主体，占语音信号的绝大部分能量和信息，浊音具有明显的准周期性特征。根据傅里叶分析理论，一个周期信号可以分解为一系列简谐波之和，其中最低的谐波频率称为基音频率，其它谐波的频率是基音频率的整数倍。一帧浊音的频谱呈现多个波峰，每个波峰都对应一个谐波，这就是浊音的谐波结构特征。这种具有谐波结构的频谱又可以看成是一个周期信号，其周期以基音频率为周期，再经过一次傅里叶变换即可求出频谱的“频率”，称为“倒频谱”，简称为“倒谱”。

对第n帧语音信号x_n(k)进行进行短时傅里叶变换，得到短时谱：

对短时频谱X_n(e^jw)的振幅取对数后再做傅里叶反变换，就得到倒谱：

c(n)＝F^-1[ln|X_n(e^jw)|]

对同一频率，对信号进行傅里叶变换后的频谱，与施行傅里叶逆变换后的结果呈共轭复数关系，两者的振幅是相同的，倒谱可看成是频谱的频谱，倒谱的量纲是时间，倒谱曲线的峰值对应的时间就是基音周期。

短时频谱的振幅包络线受声道滤波器的控制有起伏变化，能反映声道的滤波器特征。频谱的包络线一般较平缓，主要表现为低频，但谐波本身的变化频率就是基音周期，表现为高频。若频谱的振幅包络变化剧烈，将含有较强的高频成分，与基音周期峰值混叠，使基音周期峰值变宽，不尖锐，影响基音周期提取的精度。计算倒谱时需要将频谱的振幅取对数，取对数具有振幅均衡的效果，将频谱包络的起伏变平缓，使包络的频谱向低频方向迁移，而谐波的频率保持不变，从而使声道滤波器的响应特征与基音周期相分离，使倒谱的峰值更尖锐，提高了基音周期提取的精度。

浊音段有明显的倒谱峰值，在无声段和清音段，语音信号的频谱无谐波结构特征，倒谱曲线上也就无基音周期峰值。

倒谱分析抗随机干扰的能力较强，但抗周期性噪声干扰的能力较弱，若语音信号中混有周期性的噪声干扰，即使干扰波的能量很微弱，但将频谱的振幅取对数后，周期性干扰波的振幅相对增强，在倒谱曲线上会出现虚假的峰值。仅仅根据单帧语音的倒谱曲线很难排除虚假峰值，可行的方法是利用相邻多帧的倒谱曲线，根据基音周期的连续性和平滑性有效排除虚假倒谱峰值。

发明内容

本发明的目的在于提供一种直接显示基音周期轨迹的基音周期谱图方法，用于解决语音分离中基音周期轨迹提取精度不高、鲁棒性较差的问题。

实现本发明目的的技术解决方案为：一种直接显示基音周期轨迹的基音周期谱图方法，用倒谱提取基音周期，用基音周期谱图直接显示基音周期轨迹，包括如下步骤：

(1)设置基音周期谱图的参数，包括水平方向与垂直方向的比例尺、帧长、帧移及基音周期谱图的显示范围；

(2)语音信号的预处理，包括预加重、分帧和加窗处理；

(3)计算每一帧的频谱；

(4)计算每一帧的倒谱及倒谱的振幅；

(5)将倒谱的振幅转换为灰度，将各帧倒谱的数据点转换为像素点，像素点的颜色就是倒谱的灰度；

(6)绘制基音周期谱图，将各帧倒谱的像素点沿垂直方向并排绘制，横轴为时间，纵轴为倒谱频率，从下往上，倒谱频率逐渐递增；每帧倒谱像素点的水平位置为该帧的中点，沿垂直方向依次绘制该帧倒谱的像素点，使相邻帧的倒谱峰值互相靠近，形成一条明显的、有规律变化的基音周期轨迹。

本发明与现有技术相比，其显著优点：(1)充分利用了相邻帧之间基音周期的相似性、渐变性和连续性，在基音周期谱图上直接显示基音周期轨迹，提高了基音周期轨迹的客观性、可靠性和鲁棒性，能为语音分离提供关键线索，一条连续的基音周期轨迹对应同一个说话人的语音，同一时刻的多条基音周期轨迹对应多个说话人的语音。(2)充分利用了浊音频谱的谐波结构特征，用倒谱法提取基音周期，倒谱峰值对应的时间就是基音周期，能有效排除偏离基音周期轨迹的虚假倒谱峰值，提高基音周期提取的精度。

附图说明

图1为一段语音的倒谱曲线。

图2为单人语音的基音周期谱图。

图3为两人同时说话时混合语音的基音周期谱图。

具体实施方式

本发明直接显示基音周期轨迹的基音周期谱图方法，首先分帧计算频谱和倒谱，用倒谱提取基音周期，倒谱峰值对应的时间就是基音周期。然后将倒谱的振幅转换为灰度，振幅越大，颜色越深，将倒谱的数据点转换为像素点。再根据相邻帧的基音周期具有相似性、渐变性和连续性的特点，将各帧倒谱的像素点沿垂直方向并排绘制，横轴为时间，纵轴为倒谱频率，各帧倒谱像素的点阵图就构成基音周期谱图，相邻帧的倒谱峰值互相靠近，形成一条明显的、有规律变化的基音周期轨迹。基音周期谱图能直接显示基音周期轨迹，提高了基音周期轨迹的客观性、可靠性和鲁棒性，能为语音分离提供关键线索，一条连续的基音周期轨迹对应同一个说话人的语音，同一时刻的多条基音周期轨迹对应多个说话人的语音。基音周期轨迹显示了基音周期的变化趋势，根据这种趋势还能有效排除偏离基音周期轨迹的虚假倒谱峰值，提高基音周期提取的精度。

下面结合附图对本发明作进一步描述。

步骤1：设置基音周期谱图的参数，包括水平方向与垂直方向的比例尺、帧长、帧移及基音周期谱图的显示范围。

(1)设置基音周期谱图水平方向的比例尺。水平方向的比例尺为1个语音数据点对应水平方向的多少个像素点，一般水平方向的比例尺设置为0.04，即1个语音数据点对应0.04个像素点，亦即25个语音数据点对应一个像素点。

(2)设置垂直方向的比例尺。垂直方向的比例尺为1个倒谱数据点对应多少个垂直方向的像素点，使相邻的数据点尽可能靠近，间距为1个像素点。一般垂直方向的比例尺设置为1，即1个倒谱数据点对应1个像素点。

(3)设置帧长。语音信号具有短时平稳性，在较短的时间内是相对平稳的，可将语音信号划分为一系列的时窗进行分析，在一个短时窗内语音信号是平稳的，可以用短时傅里叶变换进行频谱分析，一个时窗称为一帧，将语音数据划分为一系列长度为32ms的帧。对于采样频率为16000Hz的语音数据，帧长为512个数据点。

(4)设置帧移。为了使帧与帧之间平滑过渡，保持其连续性，相邻帧之间有重合。根据水平方向的比例尺和帧长设置帧移，使相邻帧的中点间距为1个像素点。当水平方向的比例尺为0.04，帧长为512时，相邻两帧之间滑动25个数据点，重合487个数据点，即帧移为487个数据点。

(5)设置显示基音周期谱图的显示范围。设置计算和显示基音周期谱的语音数据起始点和结束点，对起始点和结束点之间的语音数据分帧计算倒谱，显示基音周期谱图。

步骤2：语音信号的预处理，包括预加重、分帧和加窗处理。

(1)语音信号的预加重

受声门激励及口鼻辐射等影响，在语音信号的传播过程中，高频成分会发生衰减，在频域曲线上，高频能量减弱，对倒谱分析产生不利影响。为了弥补高频成分的衰减，需对语音信号进行预加重处理。预加重的目的是提升高频成分的能量，使语音信号的频谱包络线变平坦，使倒谱的峰值更突出。

预加重使用一阶数字滤波器来实现，公式为：

H(z)＝1-uz^-1

式中，u为预加重系数，设置为0.95。语音信号经预加重后可表示为：

s(k)＝x(k)-ux(k-1)

式中k为语音数据点序号。

(2)语音数据的分帧。

按设置的帧长和帧移，将基音周期谱图显示范围内的语音数据划分为一系列的语音帧。

(3)对语音帧进行加窗处理

对连续的语音信号进行分帧处理，由于信号被截短，进行傅里叶分析时会产生频谱泄漏，对语音帧加窗函数进行加权处理可以减弱频谱泄漏。用窗函数w(k)乘以语音信号s(k)，得到加窗处理后的语音信号s_w(k)＝s(k)×w(k)。

采用汉明窗函数，其特点是主瓣宽度较大，旁瓣衰减明显，即相同的时窗长度可以获得更高的带宽。汉明窗函数公式为：

其中，N表示帧长。

步骤3：分帧计算频谱

对设置的基音周期谱图显示范围内的每帧语音数据进行傅里叶变换，得到语音帧的短时频谱，公式为：

其中，S_n(m)表示第n帧的频谱，m为频率采样点序号，N为帧长，s_n(k)表示加窗后第n帧的第k个语音数据。

步骤4：分帧计算倒谱及倒谱的振幅

对每一帧的频谱求模，得到振幅谱，对振幅谱取对数后，再做傅里叶逆变换，得到倒谱。

设第n帧的第k个频率采样点为S_n(k)，它是一个复数：

S_n(k)＝SR_n(k)+iSI_n(k)

其中SR_n(k)为实部，SI_n(k)为虚部，则频谱的振幅谱A_n(k)为

倒谱的计算公式为：

其中，C_n(m)表示第n帧的倒谱，m为倒谱采样点序号，N为帧长。

倒谱也是一个复数，设第n帧的第k个倒谱采样点的值C_n(k)为

C_n(k)＝CR_n(k)+iCI_n(k)

其中CR_n(k)为倒谱的实部，CI_n(k)为倒谱的虚部，则倒谱的模，即倒谱的振幅B_n(k)为:

由于实函数傅里叶变换(或逆变换)的实部为偶函数，虚部为奇函数，因此倒谱的振幅谱关于中心点是对称的，只需显示倒谱的前一半数据即可。帧长为512时，只需显示第0-256共257个倒谱振幅数据。

图1的下部为一段语音波形曲线，上部为语音帧对应的倒谱振幅曲线，相邻帧的倒谱曲线在纵向上错开绘制，以示区别。图中倒谱曲线有明显的峰值，峰值对应的时间就是基音周期。

步骤5：对设置的基音周期谱图显示范围内各帧倒谱的振幅进行排序，将倒谱的振幅转换为灰度。

倒谱的低频部分反映声道的滤波器特征，这部分数据本身不含有基音周期的信息，且振幅值较大，参与显示会对基音周期轨迹的显著性带来不利影响，须舍去。据统计人类基音频率的范围为50-500Hz，根据语音数据的采样间隔可推算基音周期峰值在倒谱中的最小采样点序号。

当语音信号采样频率为16000Hz时，若基音频率为f Hz，则基音周期为1/f秒，可推得基音周期峰值在倒谱中的采样点序号为：

k＝(1/f)÷(1/16000)＝16000/f

当基音频率取最高值500Hz时，基音周期最短，基音周期峰值对应的样点序号为16000/500＝32，再适当扩充1个数据点，这样基音周期峰值在倒谱中的最小采样点序号为33，基音周期谱图只需显示第34-256共223个倒谱振幅数据。

本发明舍去各帧倒谱振幅的第0-33个数据，对全部语音帧的第34-256个倒谱振幅值按从小到大的顺序进行排序，取第99百分位数对应的振幅值为高截止阈值B_H，第40百分位数对应的振幅值为低截止阈值B_L。

将各帧倒谱的振幅值B按以下公式转换为灰度：

将各帧倒谱的数据点转换为像素点，像素点的颜色就是倒谱的灰度。倒谱的振幅越小，灰度越大，颜色越淡；振幅越大，灰度越小，颜色越深，使倒谱的峰值显眼、突出。

步骤6：绘制基音周期谱图

按设置的水平方向和垂直方向的比例尺，本发明将倒谱的数据点绘制为像素点，将各帧倒谱的像素点沿垂直方向并排绘制，横轴为时间(或语音数据点序号)，纵轴为倒谱频率，从下往上，倒谱频率逐渐递增。每帧倒谱像素点的水平位置为该帧的中点，沿垂直方向依次绘制该帧倒谱的像素点，只需绘制倒谱的第34-256共223个倒谱数据点，最终得到各帧倒谱像素的点阵图就是基音周期谱图。

图2的下部为单人语音的波形曲线，上部为基音周期谱图，直接显示了一条明显的基音周期轨迹。

图3的下部为两人混合语音的波形曲线，上部为基音周期谱图，直接显示了多条明显的基音周期轨迹。

基音周期谱图能为语音分离提供可靠的关键线索，一条连续的基音周期轨迹对应同一个说话人的语音，多人同时说话，则存在多条基音周期轨迹，同一时刻的多条基音周期轨迹对应多个说话人的语音。

Claims

1.一种直接显示基音周期轨迹的基音周期谱图方法，其特征在于包括如下步骤：

(2)语音信号的预处理，包括预加重、按设置的帧长和帧移进行的语音数据的分帧和利用帧长进行的加窗处理；

(3)利用设置的基音周期谱图显示范围内的每帧语音数据计算每一帧的频谱；

(4)利用每一帧的频谱计算每一帧的倒谱及倒谱的振幅；

(5)将倒谱的振幅值转换为灰度，将各帧倒谱的数据点绘制为像素点，像素点的颜色就是倒谱的灰度；

(6)按设置的水平方向和垂直方向的比例尺绘制基音周期谱图，将各帧倒谱的像素点沿垂直方向并排绘制，横轴为时间，纵轴为倒谱频率，从下往上，倒谱频率逐渐递增；每帧倒谱像素点的水平位置为该帧的中点，沿垂直方向依次绘制该帧倒谱的像素点，使相邻帧的倒谱峰值互相靠近，形成一条基音周期轨迹。

2.如权利要求1所述的基音周期谱图方法，其特征在于：步骤(1)中所述设置帧长的方法为：将基音周期谱图显示范围内的语音数据划分为一系列长度为32ms的帧。

3.如权利要求1所述的基音周期谱图方法，其特征在于：步骤(1)中所述设置帧移的方法为：根据水平方向的比例尺和帧长，使相邻帧的中点间距为1个像素点。

4.如权利要求1所述的基音周期谱图方法，其特征在于：步骤(2)中所述预加重的方法为：

预加重使用一阶数字滤波器来实现，公式为：

H(z)＝1-uz^-1

式中，u为预加重系数，设置为0.95，语音信号经预加重后表示为：

s(k)＝x(k)-ux(k-1)

式中k为语音数据点序号。

5.如权利要求1或4所述的基音周期谱图方法，其特征在于：步骤(2)中所述加窗处理的方法为：

用汉明窗函数w(k)乘以每帧的语音数据s(k)，得到加窗处理后的语音数据s_w(k)＝s(k)×w(k)；

汉明窗函数公式为：

其中，N表示帧长。

6.如权利要求1所述的基音周期谱图方法，其特征在于：步骤(3)所述计算每一帧的频谱的方法为：

其中，P_n(m)表示第n帧的频谱，m为频率采样点序号，N为帧长，s_n(k)表示加窗后第n帧的第k个语音数据。

7.如权利要求1所述的基音周期谱图方法，其特征在于：步骤(4)所述计算每一帧的倒谱及倒谱的振幅的方法为：

对每一帧的频谱求模，得到振幅谱，对振幅谱取对数后，再做傅里叶逆变换，得到倒谱；

设第n帧的第m个频率采样点为P_n(m)，它是一个复数：

P_n(m)＝PR_n(m)+iPI_n(m)

其中PR_n(m)为实部，PI_n(m)为虚部，则计算频谱的振幅谱A_n(m)公式为：

倒谱的计算公式为：

其中，C_n(l)表示第n帧的倒谱，l为倒谱采样点序号，N为帧长；

倒谱也是一个复数，设第n帧的第l个倒谱采样点C_n(l)为：

C_n(l)＝CR_n(l)+iCI_n(l)

其中CR_n(l)为倒谱的实部，CI_n(l)为倒谱的虚部，则计算倒谱的模，即倒谱的振幅B_n(l)公式为:

8.如权利要求1所述的基音周期谱图方法，其特征在于：步骤(5)所述将倒谱的振幅转换为灰度的方法为：

舍去各帧倒谱振幅的第0-33个数据，对基音周期谱图显示范围内全部语音帧的第34-256个倒谱振幅值按从小到大的顺序进行排序，取第99百分位数对应的振幅值为高截止阈值B_H，第40百分位数对应的振幅值为低截止阈值B_L；

将各帧倒谱的振幅值B按以下公式转换为灰度：

将各帧倒谱的数据点转换为像素点，像素点的颜色就是倒谱的灰度。

9.如权利要求1所述的基音周期谱图方法，其特征在于：步骤(6)所述绘制基音周期谱图的方法为：

按设置的水平方向和垂直方向的比例尺，将倒谱的数据点绘制为像素点，将各帧倒谱的像素点沿垂直方向并排绘制，横轴为时间，纵轴为倒谱频率，从下往上，倒谱频率逐渐递增；每帧倒谱像素点的水平位置为该帧的中点，沿垂直方向依次绘制该帧倒谱的像素点，只需绘制倒谱的第34-256共223个倒谱数据点，最终得到各帧倒谱像素的点阵图就是基音周期谱图。