CN104851421B

CN104851421B - 语音处理方法及装置

Info

Publication number: CN104851421B
Application number: CN201510169121.3A
Authority: CN
Inventors: 陈立江; 毛峡; 景少玲
Original assignee: Beihang University
Current assignee: Shenzhen Qingke Shikang Technology Co.,Ltd.
Priority date: 2015-04-10
Filing date: 2015-04-10
Publication date: 2018-08-17
Anticipated expiration: 2035-04-10
Also published as: CN104851421A

Abstract

本申请实施例提供了一种语音处理方法及装置。方法包括：获取语音信号和与所述语音信号同步的电声门图EGG信号；至少根据所述EGG信号，将所述语音信号划分为多个音段。本实施例提供了一种分割音段的方案。

Description

语音处理方法及装置

技术领域

本申请实施例涉及语音技术领域，尤其涉及一种语音处理方法及装置。

背景技术

音素(Phoneme)是构成语音的基本单元，通过单个音素或多个音素的组合，如字、词、短语、句子等，可以表达特定的含义。音素分割是语音信号处理的基础，包括语音识别，声纹识别，语音情感识别，语音合成，语音转换等。

无论汉语、英语还是其它语言，一个字的拼音通常包括：清音段、浊音段、静音段，其中，清音段、浊音段分别由至少一个音素组成，因此，音素分割通常分为两个步骤：(1)音段的分割，(2)音段内部音素的分割。需要说明的是，有些情况下，清音段和静音段可能不存在。

发明内容

有鉴于此，本申请实施例的一个目的在于提供一种分割音段的方案。

为实现上述目的，根据本申请实施例的第一方面，提供一种语音处理方法，包括：

获取语音信号和与所述语音信号同步的电声门图EGG信号；

至少根据所述EGG信号，将所述语音信号划分为多个音段。

为实现上述目的，根据本申请实施例的第二方面，提供一种语音处理装置，包括：

获取模块，用于获取语音信号和与所述语音信号同步的电声门图EGG信号；

第一分割模块，用于至少根据所述EGG信号，将所述语音信号划分为多个音段。

以上多个技术方案中的至少一个技术方案具有如下有益效果：

本申请实施例通过获取语音信号和与所述语音信号同步的EGG信号，并至少根据所述EGG信号将所述语音信号划分为多个音段，提供了一种分割音段的方案。另外，由于各种干扰的存在，单纯地对语音信号进行音段分割的准确率不高，特别是文本无关的音段分割，即缺乏语音波形中包含的文本信息等先验知识的情况下，分割准确率更低；然而，由于清音段和静音段中声带不振动，仅浊音段中声带振动，因此，EGG信号中各音段的区别较为明显，因此，本实施例中利用同步的EGG信号辅助语音信号中音段的分割，能够提高音段分割的准确率。

附图说明

图1为本申请提供的一种语音处理方法实施例的流程示意图；

图2为一发音过程中语音信号和EGG信号的一种示意图；

图3A为又一发音过程中语音信号和EGG信号的一种示意图；

图3B为图3A所示的语音信号和EGG信号的对数能量的一种示意图；

图3C为图3B所示的语音信号和EGG信号的对数能量组成的二维对数能量向量序列的二维正态分布聚类的结果示意图；

图3D为基于图3C所示的聚类结果对语音信号进行分段的示意图；

图4为又一发音过程中EGG信号和语音信号的对数能量的分布直方图；

图5为本申请提供的一种语音处理装置实施例一的结构示意图；

图6A～6D分别为图5所示实施例的一种可选的实现方式的结构示意图；

图7为本申请提供的一种语音处理装置实施例二的结构示意图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本申请提供的一种语音处理方法实施例的流程示意图。如图1所示，本实施例包括：

110、获取语音信号和与所述语音信号同步的电声门图信号。

举例来说，本申请提供的一种语音处理装置实施例一或实施例二所述的语音处理装置作为本实施例的执行主体，执行110～120。

本实施例中，所述语音信号可选地通过语音收集设备，如麦克风等，收集得到。

本实施例中，所述电声门图(Electroglottography，简称EGG)信号是一种生物电信号，反映声门的开闭和声带的振动。所述EGG信号可选地通过电声门图仪在一用户的声带附近采集到。

本实施例中，所述EGG信号与所述语音信号同步是指，所述语音信号与所述EGG信号对应同一用户的同一发音过程。

120、至少根据所述EGG信号，将所述语音信号划分为多个音段。

本实施例中，所述多个音段包括但不限于：至少一个浊音段和至少一个清音段。可选地，所述多个音段还包括：至少一个静音段。

图2为一发音过程中语音信号和EGG信号的一种示意图。图2所示的发音过程为一男性用户发出四声hei的发音过程，竖轴的幅度为对应信号归一化后的电压值，横轴为以11025HZ为采样率得到的采样点。为清楚地示意，用竖线将图中语音信号和EGG信号的清音段(Unvoice)、浊音段(Voice)、静音段(Silence)隔开。可以看出，左边清音段表示清辅音h，此时声带尚未产生振动，因此EGG信号无周期波形，语音信号为典型的杂乱无章的清音波形；中间的浊音段对应元音ei，此时声带振动，从EGG信号中可以看出声带振动的周期越来越长，对应声调第四声的基频下降趋势，语音信号波形经历了从元音e到元音i的连续变化过程；静音段和浊音段的分界并不十分明显，其划分原则为静音段声带不振动；另外，在静音段和清音段，EGG信号中包含了反映喉部肌肉运动的低频噪声。

本实施例通过获取语音信号和与所述语音信号同步的EGG信号，并至少根据所述EGG信号将所述语音信号划分为多个音段，提供了一种分割音段的方案。另外，由于各种干扰的存在，单纯地对语音信号进行音段分割的准确率不高，特别是文本无关的音段分割，即缺乏语音波形中包含的文本信息等先验知识的情况下，分割准确率更低；然而，由于清音段和静音段中声带不振动，仅浊音段中声带振动，因此，EGG信号中各音段的区别较为明显，因此，本实施例中利用同步的EGG信号辅助语音信号中音段的分割，能够提高音段分割的准确率。

以下通过一些可选的实现方式进一步地描述本实施例的方法。

本实施例中，120有多种实现方式。

在一种可选的实现方式中，所述至少根据所述EGG信号，将所述语音信号划分为多个音段，包括：

确定所述语音信号的第一特征参数序列和与所述第一特征参数序列对应的所述EGG信号的第二特征参数序列；

至少根据所述第一特征参数序列和所述第二特征参数序列，将所述语音信号划分为多个音段。

其中，所述第一特征参数序列包括：所述语音信号中多个语音帧的特征参数，所述第二特征参数序列包括：所述EGG信号中多个EGG帧的所述特征参数，所述多个语音帧与所述多个EGG帧一一对应相同的时间窗。举例来说，所述语音信号中第一个语音帧和所述EGG信号中第一个EGG帧对应时间窗1，所述语音信号中第二个语音帧和所述EGG信号中第二个EGG帧对应时间窗2，以此类推。

可选地，将所述语音信号分为所述多个语音帧的方式，与将所述EGG信号分为所述多个EGG帧的方式相同。举例来说，采用相同的采样率分别对所述语音信号和所述EGG进行采样，每个语音帧和与该语音帧对应的EGG帧包含各自信号中相同数量和顺序的采样点。

可选地，所述语音信号中前后语音帧在时间上可以有重叠，所述EGG信号也是类似的。举例来说，以11025HZ的采样率对所述语音信号进行采样，每个语音帧包括256个采样点，前后语音帧之间的帧移为128个采样点，即，前后语音帧对应的时间窗有一半是重叠的；类似地，以11025HZ的采样率对所述EGG信号进行采样，每个EGG帧包括256个采样点，前后EGG帧之间的帧移为128个采样点，即，前后EGG帧对应的时间窗有一半是重叠的。

可选地，所述特征参数包括但不限于以下任一种：对数能量、过零率、基频。举例来说，所述第一特征参数序列包括：所述语音信号中多个语音帧的对数能量，所述第二特征参数序列包括：所述EGG信号中多个EGG帧的对数能量。

在此实现方式中，所述至少根据所述第一特征参数序列和所述第二特征参数序列，将所述语音信号划分为多个音段有多种实现方式。

可选地，所述至少根据所述第一特征参数序列和所述第二特征参数序列，将所述语音信号划分为多个音段，包括：

将所述第一特征参数序列和所述第二特征参数序列对齐，得到二维特征参数向量序列；

对所述二维特征参数向量序列进行聚类；

根据所述聚类的结果，将所述语音信号划分为多个音段。

具体地，所述对齐是在时间上对齐，所述二维特征参数向量序列中的每个二维特征参数向量由所述第一特征参数序列和所述第二特征参数序列中分别对应同一时间窗的特征参数组成，即，由一语音帧的特征参数和一EGG帧的所述特征参数组成，所述语音帧和所述EGG帧对应同一时间窗。

举例来说，所述第一特征参数序列为{a1,a2,……,an}，所述第二特征参数序列为{b1,b2,……,bn}，ai与bi对应同一时间窗，i＝1,2,……,n；相应地，所述二维特征参数向量序列为{(a1,b1),(a2,b2),……,(an,bn)}。

具体地，对所述二维特征参数向量序列进行聚类是对所述二维特征参数向量序列中的多个二维特征参数向量进行聚类。由于语音信号通常包括清音段、浊音段、静音段三种音段，因此，所述聚类的类别数可选地设定为3。

进一步地，所述聚类的方式可以有多种。为了聚类分析的简便，可选地，所述对所述二维特征参数向量序列进行聚类，包括：

对所述二维特征参数向量序列进行二维正态分布聚类。

具体地，所述聚类的结果是将所述二维特征参数向量序列中的多个二维特征参数向量划分到多个类别，可选地划分到3个类别，相应地，根据划分到同一类别的连续的二维特征参数向量对应的时间段，将所述语音信号划分为多个音段。举例来说，所述第一特征参数序列为{a1,a2,……,a9}，所述第二特征参数序列为{b1,b2,……,b9}，所述二维特征参数向量序列为{(a1,b1),(a2,b2),……,(a9,b9)}，所述聚类的结果是：(a1,b1)、(a5,b5)属于第一类别，(a2,b2)、(a3,b3)、(a6,b6)、(a7,b7)、(a8,b8)属于第二类别，(a4,b4)、(a9,b9)属于第三类别，相应地，将所述语音信号划分为6个音段，第一个音段为所述语音信号在a1对应的时间窗中的部分，第二个音段为所述语音信号在由a2对应的时间窗和a3对应的时间窗组成的时间段中的部分，第三个音段为所述语音信号在a4对应的时间窗中的部分，第四个音段为所述语音信号在a5对应的时间窗中的部分，第五个音段为所述语音信号在由a6对应的时间窗、a7对应的时间窗和a8对应的时间窗组成的时间段中的部分，第六个音段为所述语音信号在a9对应的时间窗中的部分。

进一步地，基于清音段、浊音段、静音段的特征参数的特性，可以确定所述聚类得到的每个类别分别对应哪个音段。以所述特征参数为对数能量为例，清音段的语音信号的对数能量较高，清音段的EGG信号的对数能量较低，浊音段的语音信号和EGG信号的对数能量均较高，静音段的语音信号和EGG信号的对数能量均较低，相应地，基于所述聚类的结果可以确定：语音信号的对数能量较高、EGG信号的对数能量较低的类别为清音段，语音信号和EGG信号的对数能量均较高的类别为浊音段，语音信号和EGG信号的对数能量均较低的类别为静音段。

进一步地，基于所述聚类的结果，可以直接对所述语音信号的后续语音信号进行音段分割。其中，所述后续语音信号与所述语音信号来自于同一语音信号源，如同一用户。

具体地，对所述二维特征参数向量序列进行聚类之后可以确定，每一类别对应的语音信号的特征参数的模型，即每一种音段对应的语音信号的特征参数的模型，相应地，可以根据所述模型以及所述后续语音信号中每一帧的特征参数确定该一帧属于哪种音段，相当于可以实时地对所述后续语音信号进行音段分割。

图3A为又一发音过程中语音信号和EGG信号的一种示意图，在语音信号和EGG信号各自的示意图中，竖轴的幅度均为对应信号归一化后的电压值，横轴均为以11025HZ为采样率得到的采样点。

图3B为图3A所示的语音信号和EGG信号的对数能量的一种示意图。图3B中的语音信号和EGG信号的每一帧的帧长均为256个采样点，且前后帧的帧移均为128个采样点。具体地，语音信号中每一帧的对数能量的计算公式如下：

其中，x_acoustic(i)是该帧语音信号中第i个采样点的幅度，L为帧长，即该帧包括的采样点的个数。

EGG信号中每一帧的对数能量的计算公式如下：

其中，x_EGG(i)是该帧EGG信号中第i个采样点的幅度，L为帧长。

图3C为图3B所示的语音信号和EGG信号的对数能量组成的二维对数能量向量序列的二维正态分布聚类的结果示意图；图3C中竖轴为EGG信号对数能量，横轴为语音信号对数能量。由图3C可以看出，清音段(Unvoice)的帧，即图中的圆点，大体上分布在右下角的区域，即语音信号的对数能量较高、EGG信号的对数能量较低的区域，浊音段(Voice)的帧，即图中菱形的点，大体上分布在右上角的区域，即语音信号和EGG信号的对数能量均较高的区域，静音段(Silence)的帧，即图中正方形的点，大体上分布在左下角的区域，即语音信号和EGG信号的对数能量均较低的区域。

图3D为基于图3C所示的聚类结果对语音信号进行分段的示意图。图3D中竖轴的类别“1”表示静音段，类别“2”表示清音段，类别“3”表示浊音段，从图3D可以看出，该语音信号分为13个音段，其中，2个静音段，6个清音段，5个浊音段。

除了上述通过对由第一特征参数序列和第二特征参数序列组成的二维特征参数向量序列进行聚类的方式来对所述语音信号进行音段的分割之外，还有其它的可选方式来依据第一特征参数序列和第二特征参数序列对所述语音信号进行音段的分割。举例来说，可以根据同一用户的历史语音信号、历史EGG信号中属于各种音段(如清音段、浊音段和静音段)的帧的特征参数的统计特性，给出用于划分当前语音信号中各种音段的特征参数的至少一个参考值，从而根据所述至少一个参考值和当前语音信号的第一特征参数序列、当前EGG信号的第二特征参数序列来对当前语音信号进行音段的划分，下面仍以特征参数为对数能量为例描述此种方式。

图4为一用户的数据库中历史EGG信号和历史语音信号的对数能量的分布直方图。图4中的每个子图的横轴表示帧的对数能量，纵轴表示对应横轴的对数能量的频数。可以看出，每个子图中均存在两个明显的分布高峰，右边分布高峰代表拥有较高能量的浊音段的帧，左边分布高峰代表能量较低的清音段或静音段的帧，每个子图中的平滑曲线是对每个分布高峰进行高斯分布拟合的结果。以各子图中左右拟合曲线的交叉点为界进行浊音段的提取，可通过计算拟合曲线的积分获得EGG信号的可分性判据r1为99.96％，语音信号的可分性判据r2为95.98％。其中，可分性判据r1、r2分别标识了对应信号的浊音段提取的准确率。

上述可分性判据r1的计算公式如下：

其中，f_EGG1(i)和f_EGG2(i)分别代表图4中历史EGG信号的左右两条拟合曲线，thr0为f_EGG1(i)和f_EGG2(i)的交叉点的横坐标。可分性判据r2的计算公式类似。

上述结果也表明：由于没有清音段的干扰，EGG信号比语音信号更适合进行浊音段的提取，因此，本实施例中借助EGG信号来对语音信号进行音段的分割，能够提高分割的准确率。

进一步地，thr0可以作为用于分割当前EGG信号中浊音段和静音段的对数能量的一参考值，另外确定thr1和thr2，thr1为用于区分当前语音信号中清音段和静音段的对数能量的一参考值，thr2为用于去除肌肉运动对当前EGG信号的干扰的对数能量的一参考值。基于thr0、thr1和thr2，可以确定当前EGG信号中对数能量大于thr0的至少一个EGG帧，确定当前语音信号中与所述至少一个EGG帧对应的至少一个语音帧，确定所述至少一个语音帧中对数能量大于thr2的至少一个语音帧属于浊音段；在当前语音信号中除了属于浊音段的至少一个语音帧之外的所有语音帧中，确定对数能量大于thr1的至少一个语音帧属于清音段；确定当前语音信号中不属于浊音段和清音段的至少一个语音帧属于静音段；基于上述各种音段的划分，将当前语音信号中属于同一种音段的连续的至少一个语音帧划分到一个音段，进而完成对当前语音信号的音段分割。

需要说明的是，thr1和thr2可以根据经验确定，也可以根据下述公式确定：

其中，f_SPEECH1(i)和f_SPEECH2(i)分别代表图4中历史语音信号的左右两条拟合曲线。实验证明：当采用上述公式确定thr1和thr2时，采用上述基于thr0、thr1和thr2的三种音段划分的方式的准确率能够达到98.5％，而基于同一数据库，不参考历史EGG信号仅基于历史语音信号，采用短时过零率和短时能量双门限法的三种音段划分的方式的平均准确率仅为93.4％。

本实施例中，在120之后可选地还进行音段内的音素分割。

在一种可选的实现方式中，所述方法还包括：

针对所述至少一个浊音段中每个浊音段，将所述浊音段分割为至少一个音素。

其中，将所述浊音段分割为至少一个音素的方式有多种。可选地，所述针对所述至少一个浊音段中每个浊音段，将所述浊音段分割为至少一个音素，包括：

针对所述至少一个浊音段中每个浊音段，计算所述浊音段的最佳状态序列；

根据所述最佳状态序列，将所述浊音段分割为至少一个音素。

其中，计算所述浊音段的最佳状态序列有多种算法。

可选地，采用维特比(Viterbi)算法计算所述浊音段的最佳状态序列。具体地，所述针对所述至少一个浊音段中每个浊音段，计算所述浊音段的最佳状态序列，包括：

将所述浊音段划分为n个第一子段；

根据所述n个第一子段，采用Viterbi算法计算所述浊音段的最佳状态序列，得到n个第二子段；

若所述n个第二子段的长度均大于阈值，则确定所述n个第二子段为n个音素。

其中，n为一个预设值；由于汉语中的每个浊音段通常包括1～3个音素，因此若所述语音信号为汉语语音信号，可选地，n不小于3。

其中，所述阈值是预先设定的，若所述n个第二子段中中任一第二字段的长度不大于所述阈值，则说明预设的n值大了，相应地，可以减小n值，并循环执行上述步骤，直至n＝1。

具体地，所述得到n个第二子段之后还包括：

若所述n个第二子段中任一第二子段的长度不大于所述阈值，将所述浊音段划分为n-1个第一子段；

根据所述n-1个第一子段，采用Viterbi算法计算所述浊音段的最佳状态序列，得到n-1个第二子段；

若所述n-1个第二子段的长度均大于所述阈值，则确定所述n-1个第二子段为n-1个音素。

需要说明的是，对于所述语音信号中的至少一个清音段，也可以采用与上述浊音段类似的方式进行音素的分割。

图5为本申请提供的一种语音处理装置实施例一的结构示意图。5所示，语音处理装置500包括：

获取模块51，用于获取语音信号和与所述语音信号同步的EGG信号；

第一分割模块52，用于至少根据所述EGG信号，将所述语音信号划分为多个音段。

本实施例中，所述EGG信号是一种生物电信号，反映声门的开闭和声带的振动。所述EGG信号可选地通过电声门图仪在一用户的声带附近采集到。

图2为一发音过程中语音信号和EGG信号的一种示意图。图2的具体说明可参照本申请提供的一种语音处理方法实施例中的相应描述。

本实施例的语音处理装置通过获取模块获取语音信号和与所述语音信号同步的EGG信号，第一分割模块至少根据所述EGG信号将所述语音信号划分为多个音段，提供了一种分割音段的方案。另外，由于各种干扰的存在，单纯地对语音信号进行音段分割的准确率不高，特别是文本无关的音段分割，即缺乏语音波形中包含的文本信息等先验知识的情况下，分割准确率更低；然而，由于清音段和静音段中声带不振动，仅浊音段中声带振动，因此，EGG信号中各音段的区别较为明显，因此，本实施例的语音处理装置中利用同步的EGG信号辅助语音信号中音段的分割，能够提高音段分割的准确率。

以下通过一些可选的实现方式进一步地描述本实施例的语音处理装置500。

本实施例中，第一分割模块52多种实现方式。

在一种可选的实现方式中，如图6A所示，第一分割模块52包括：

确定单元521，用于确定所述语音信号的第一特征参数序列和与所述第一特征参数序列对应的所述EGG信号的第二特征参数序列；

第一分割单元522，用于至少根据所述第一特征参数序列和所述第二特征参数序列，将所述语音信号划分为多个音段。

在此实现方式中，第一分割单元522有多种实现方式。

可选地，如图6B所示，第一分割单元522包括：

对齐子单元5221，用于将所述第一特征参数序列和所述第二特征参数序列对齐，得到二维特征参数向量序列；

聚类子单元5222，用于对所述二维特征参数向量序列进行聚类；

分割子单元5223，用于根据所述聚类的结果，将所述语音信号划分为多个音段。

举例来说，所述第一特征参数序列为{a1,a2,……,an}，所述第二特征参数序列为{b1,b2,……,bn}，ai与bi对应同一时间窗，i＝1,2,……,n；相应地，对齐子单元5221得到的所述二维特征参数向量序列为{(a1,b1),(a2,b2),……,(an,bn)}。

具体地，聚类子单元5222对所述二维特征参数向量序列进行聚类是指，对所述二维特征参数向量序列中的多个二维特征参数向量进行聚类。由于语音信号通常包括清音段、浊音段、静音段三种音段，因此，所述聚类的分类数可选地设定为3。

进一步地，聚类子单元5222的聚类方式可以有多种。为了聚类分析的简便，可选地，聚类子单元5222具体用于：

对所述二维特征参数向量序列进行二维正态分布聚类。

具体地，聚类子单元5222的聚类结果是将所述二维特征参数向量序列中的多个二维特征参数向量划分到多个类别，可选地划分到3个类别，相应地，分割子单元5223根据划分到同一类别的连续的二维特征参数向量对应的时间段，将所述语音信号划分为多个音段。举例来说，所述第一特征参数序列为{a1,a2,……,a9}，所述第二特征参数序列为{b1,b2,……,b9}，对齐子单元5221得到的所述二维特征参数向量序列为{(a1,b1),(a2,b2),……,(a9,b9)}，聚类子单元5222的聚类结果是：(a1,b1)、(a5,b5)属于第一类别，(a2,b2)、(a3,b3)、(a6,b6)、(a7,b7)、(a8,b8)属于第二类别，(a4,b4)、(a9,b9)属于第三类别，相应地，分割子单元5223将所述语音信号划分为6个音段，第一个音段为所述语音信号在a1对应的时间窗中的部分，第二个音段为所述语音信号在由a2对应的时间窗和a3对应的时间窗组成的时间段中的部分，第三个音段为所述语音信号在a4对应的时间窗中的部分，第四个音段为所述语音信号在a5对应的时间窗中的部分，第五个音段为所述语音信号在由a6对应的时间窗、a7对应的时间窗和a8对应的时间窗组成的时间段中的部分，第六个音段为所述语音信号在a9对应的时间窗中的部分。

进一步地，基于清音段、浊音段、静音段的特征参数的特性，分割子单元5223可以确定聚类子单元5222聚类得到的每个类别分别对应哪个音段。以所述特征参数为对数能量为例，清音段的语音信号的对数能量较高，清音段的EGG信号的对数能量较低，浊音段的语音信号和EGG信号的对数能量均较高，静音段的语音信号和EGG信号的对数能量均较低，相应地，分割子单元5223基于聚类子单元5222的聚类结果可以确定：语音信号的对数能量较高、EGG信号的对数能量较低的类别为清音段，语音信号和EGG信号的对数能量均较高的类别为浊音段，语音信号和EGG信号的对数能量均较低的类别为静音段。

进一步地，基于聚类子单元5222的聚类结果，分割子单元5223可以直接对所述语音信号的后续语音信号进行音段分割。其中，所述后续语音信号与所述语音信号来自于同一语音信号源，如同一用户。

具体地，分割子单元5223可以基于聚类子单元5222的聚类结果确定，每一类别对应的语音信号的特征参数的模型，即每一种音段对应的语音信号的特征参数的模型，相应地，分割子单元5223可以根据所述模型以及所述后续语音信号中每一帧的特征参数确定该一帧属于哪种音段，相当于可以实时地对所述后续语音信号进行音段分割。

图3A为又一发音过程中语音信号和EGG信号的一种示意图；图3B为图3A所示的语音信号和EGG信号的对数能量的一种示意图；图3C为图3B所示的语音信号和EGG信号的对数能量组成的二维对数能量向量序列的二维正态分布聚类的结果示意图；图3D为基于图3C所示的聚类结果对语音信号进行分段的示意图。图3A～3D的具体说明可参照本申请提供的一种语音处理方法实施例中的相应描述。

图4为又一发音过程中EGG信号和语音信号的对数能量的分布直方图。图4的具体说明可参照本申请提供的一种语音处理方法实施例中的相应描述。

本实施例中，语音处理装置500在第一分割单元将所述语音信号划分为多个音段之后可选地还进行音段内的音素分割。

在一种可选的实现方式中，如图6C所示，语音处理装置500还包括：

第二分割模块53，用于针对所述至少一个浊音段中每个浊音段，将所述浊音段分割为至少一个音素。

其中，第二分割模块53将所述浊音段分割为至少一个音素的方式有多种。可选地，如图6D所示，第二分割模块53包括：

计算单元531，用于针对所述至少一个浊音段中每个浊音段，计算所述浊音段的最佳状态序列；

第二分割单元532，用于根据所述最佳状态序列，将所述浊音段分割为至少一个音素。

本实现方式的具体实现可参照本申请提供的一种语音处理方法实施例中的相应描述。

图7为本申请提供的一种语音处理装置实施例二的结构示意图。如图7所示，语音处理装置700包括：

处理器(processor)71、通信接口(Communications Interface)72、存储器(memory)73、以及通信总线74。其中：

处理器71、通信接口72、以及存储器73通过通信总线74完成相互间的通信。

通信接口72，用于与外部设备的通信。

处理器71，用于执行程序732，具体可以执行上述语音处理方法实施例中的相关步骤。

具体地，程序732可以包括程序代码，所述程序代码包括计算机操作指令。

处理器71可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施语音处理方法实施例的一个或多个集成电路。

存储器73，用于存放程序732。存储器73可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序732具体可以用于使得语音处理装置700执行以下步骤：

获取语音信号和与所述语音信号同步的EGG信号；

至少根据所述EGG信号，将所述语音信号划分为多个音段。

程序732中各步骤的具体实现可以参见上述语音处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。

本实施例中，语音处理装置700可选地还包括：语音收集装置(如麦克风等)和/或EGG收集装置(如EGG仪)。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

获取语音信号和与所述语音信号同步的电声门图EGG信号；

至少根据所述EGG信号，将所述语音信号划分为多个音段；

所述至少根据所述EGG信号，将所述语音信号划分为多个音段，包括：确定所述语音信号的第一特征参数序列和与所述第一特征参数序列对应的所述EGG信号的第二特征参数序列；

至少根据所述第一特征参数序列和所述第二特征参数序列，将所述语音信号划分为多个音段；

所述第一特征参数序列包括：所述语音信号中多个语音帧的特征参数，所述第二特征参数序列包括：所述EGG信号中多个EGG帧的所述特征参数，所述多个语音帧与所述多个EGG帧一一对应相同的时间窗；

所述至少根据所述第一特征参数序列和所述第二特征参数序列，将所述语音信号划分为多个音段，包括：

对所述二维特征参数向量序列进行聚类；

根据所述聚类的结果，将所述语音信号划分为多个音段。

2.根据权利要求1所述的方法，其特征在于，所述特征参数包括以下任一种：对数能量、过零率、基频。

3.根据权利要求1所述的方法，其特征在于，所述对所述二维特征参数向量序列进行聚类，包括：

对所述二维特征参数向量序列进行二维正态分布聚类。

4.根据权利要求1中任一所述的方法，其特征在于，所述多个音段包括：至少一个浊音段和至少一个清音段。

5.根据权利要求4所述的方法，其特征在于，所述多个音段还包括：至少一个静音段。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：针对所述至少一个浊音段中每个浊音段，将所述浊音段分割为至少一个音素。

7.根据权利要求6所述的方法，其特征在于，所述针对所述至少一个浊音段中每个浊音段，将所述浊音段分割为至少一个音素，包括：

8.一种语音处理装置，其特征在于，所述装置包括：

第一分割模块，用于至少根据所述EGG信号，将所述语音信号划分为多个音段；

所述第一分割模块包括：确定单元，用于确定所述语音信号的第一特征参数序列和与所述第一特征参数序列对应的所述EGG信号的第二特征参数序列；

第一分割单元，用于至少根据所述第一特征参数序列和所述第二特征参数序列，将所述语音信号划分为多个音段。

所述第一特征参数序列包括：所述语音信号中多个语音帧的特征参数，所述第二特征参数序列包括：所述EGG信号中多个EGG帧的所述特征参数，所述多个语音帧与所述多个EGG帧一一对应相同的时间窗。

所述第一分割单元包括：

对齐子单元，用于将所述第一特征参数序列和所述第二特征参数序列对齐，得到二维特征参数向量序列；

聚类子单元，用于对所述二维特征参数向量序列进行聚类；

分割子单元，用于根据所述聚类的结果，将所述语音信号划分为多个音段。

9.根据权利要求8所述的装置，其特征在于，所述特征参数包括以下任一种：对数能量、过零率、基频。

10.根据权利要求8所述的装置，其特征在于，所述聚类子单元具体用于：对所述二维特征参数向量序列进行二维正态分布聚类。

11.根据权利要求8中任一所述的装置，其特征在于，所述多个音段包括：至少一个浊音段和至少一个清音段。

12.根据权利要求11所述的装置，其特征在于，所述多个音段还包括：至少一个静音段。

13.根据权利要求11或12所述的装置，其特征在于，所述装置还包括：

第二分割模块，用于针对所述至少一个浊音段中每个浊音段，将所述浊音段分割为至少一个音素。

14.根据权利要求13所述的装置，其特征在于，所述第二分割模块包括：

计算单元，用于针对所述至少一个浊音段中每个浊音段，计算所述浊音段的最佳状态序列；

第二分割单元，用于根据所述最佳状态序列，将所述浊音段分割为至少一个音素。