CN103035252A

CN103035252A - 中文语音信号处理方法、装置及助听设备

Info

Publication number: CN103035252A
Application number: CN201110301861XA
Authority: CN
Inventors: 杨晨; 周卫; 蔡莲红
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2013-04-10
Anticipated expiration: 2031-09-30
Also published as: CN103035252B

Abstract

本发明公开了一种中文语音信号处理方法、一种中文语音信号处理装置、以及一种助听设备，针对中文语音声调具有辨别词意的重要特性，根据声调在声学层面上的表现为基频曲线的原理，将连续的中文语音信号流划分为以音节为单位的中文语音信号，根据音节所属的声调种类，对音节的基频曲线进行调整。通过调整后的基频曲线修改语音波形，增强中文语音的声调特征，并提高中文语音声调的识别率。

Description

中文语音信号处理方法、装置及助听设备

技术领域

本发明涉及数字信号处理技术领域，特别是一种中文语音信号处理方法、一种中文语音信号处理装置以及一种助听设备。

背景技术

根据2006年的统计数据，我国大约有2780万人存在听力障碍。助听技术作为听力障碍的有效解决手段，越来越受到人们的关注。而伴随着科技的进步，数字信号处理技术逐步应用到助听领域。

耳聋分为传导性耳聋、感音神经性耳聋及混合型耳聋，其中，罹患感音神经性耳聋的耳聋患者占了相当大的比例。感音神经性耳聋又可以分为蜗性(也叫感音性)耳聋、蜗后耳聋、以及中枢性耳聋。针对感音性耳聋，由于耳蜗的一项重要的功能就是分析处理听觉信息，因此导致感音性耳聋患者缺失语音分析能力，声调识别能力较差。目前的助听器侧重于声音振幅的放大，对于传导性耳聋效果很好，而对于感音性耳聋，不能达到理想的助听效果，尤其噪声环境下这种不理想更为明显。

目前，大部分可用于语音分析能力弥补的助听器是根据西方语音来研究和开发的。而中文语音与西方语音存在多方面不同，如：

(1)中文语音为单音节带调语言；

(2)中文语音为辅音与元音结合的结构，不同于西方语音存在复数个辅音串的结构。

由于中文语音和西方语音存在的差异，迫切需要一种针对中文语音的信号处理技术，增强中文语音的声调，提高中文语音的声调识别率。

发明内容

有鉴于此，本发明提出了一种中文语音信号处理方法，用以增强中文语音的声调，提高中文语音的声调识别率。本发明还提供一种中文语音信号处理装置以及一种助听设备。

因此，根据本发明一实施例，提供一种中文语音信号处理方法，包括：

以音节为单位切分待处理中文语音信号；

提取每个音节的基频曲线；

确定每个音节的声调种类，以及

根据预先建立的声调增强模型，确定与每个声调种类对应的基频曲线增强特征参数及所述增强特征参数的调整系数；

根据每个音节的声调种类、以及与所述声调种类对应的增强特征参数和所述增强特征参数的调整系数，对该音节的基频曲线进行调整；

根据调整后的基频曲线合成音节。

根据本发明实施方式，针对中文语音声调具有辨别词意的重要特性，根据声调在声学层面上的表现为基频曲线的原理，将连续的中文语音信号流划分为以音节为单位的中文语音信号，根据音节所属的声调种类，对音节的基频曲线进行调整。通过调整后的基频曲线修改语音波形，增强中文语音的声调特征，并提高中文语音声调的识别率。

根据本发明实施方式，还包括按照每个音节在待处理中文语音信号中的先后顺序，依次输出合成后的每个音节的步骤，保证了输出的中文语音的连续性，从而保证中文语音含义的完整性。

根据本发明实施方式，可以对音节的基频曲线进行三次多项式拟合，并将三次多项式的四个系数作为基频曲线分类的特征，通过模式分类方法确定该音节的声调类型，从而能够准确地确定每个音节的声调种类。

根据本发明实施方式，建立声调增强模型时，针对每个声调种类，均可以通过数据驱动的方式，针对统计样本中属于该声调种类的音节对，分析比较每个音节对中声调增强前音节的基频曲线的调型特征参数与声调增强后音节的基频曲线的调型特征参数之间的差别，从而确定与该声调种类对应的基频曲线的增强特征参数及所述增强特征参数的调整系数。使得建立的声调增强模型可以有效地对声调特征进行增强，提高对中文语音的声调特征进行增强的有效性。

根据本发明实施方式，在确定声调增强模型时，调型特征参数可以从基频曲线的均值、基频曲线的范围、基频曲线的最小值、基频曲线的最大值、基频曲线的最大值位置、基频曲线的最小值位置、基频曲线的初始值和基频曲线的结束值这八个基频曲线特征参数中选择，由于调型特征参数是从可以较好地描述基频曲线的特征参数中选择的，因此，后续通过该调型特征参数对基频曲线进行调整时，可以有效地对基频曲线进行调整，进一步提高声调增强的精度，强化声调增强的效果。

根据本发明实施方式，在确定声调增强模型时，还提供了至少三种从存在差异的调型特征参数中确定基频曲线的增强特征参数的方式。包括：将确定出的全部所述存在差异的调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数；或者，将所述差异幅度超过一设定值的所述调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数；或者，将所述调型特征参数按差异幅度从大到小排序后的一个或复数个调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数。通过本发明实施例提供的从存在差异的调型特征参数中确定基频曲线的增强特征参数的多种方式，可以灵活地建立声调增强模型。

根据本发明另一实施例，提供一种中文语音信号处理装置，该装置包括：

一个切分模块，用于以音节为单位切分待处理中文语音信号；

一个基频提取模块，用于提取每个音节的基频曲线；

一个基频曲线分类模块，用于确定每个音节的声调种类；

一个确定模块，用于根据预先建立的声调增强模型，确定与每个声调种类对应的基频曲线增强特征参数及所述增强特征参数的调整系数；

一个增强模块，用于根据每个音节的声调种类、以及与所述声调种类对应的所述增强特征参数和所述增强特征参数的调整系数，对每个音节的基频曲线进行调整；

一个合成模块，用于根据调整后的基频曲线合成音节。

根据本发明实施方式的中文语音信号处理装置，针对中文语音声调具有辨别词意的重要特性，根据声调在声学层面上的表现为基频曲线的原理，将连续的中文语音信号流划分为以音节为单位的中文语音信号，根据音节所属的声调种类，对音节的基频曲线进行调整。通过调整后的基频曲线修改语音波形，增强中文语音的声调特征，并提高中文语音声调的识别率。

根据本发明实施方式，中文语音信号处理装置还可以进一步包括一个输出模块，该输出模块可以按照每个音节在待处理中文语音信号中的先后顺序，依次输出合成后的每个音节，保证了输出的中文语音的连续性，从而保证中文语音含义的完整性。

根据本发明实施方式，中文语音信号处理装置中的基频曲线分类模块，可以用于对每个音节的基频曲线进行三次多项式拟合，将三次多项式的四个系数作为分类特征，通过模式分类方法确定该音节的声调种类，从而提高确定出的音节的声调种类的准确性。

根据本发明的又一实施例，还提供了一种助听设备，该助听设备包括上述任意一种中文语音信号处理装置。利用该助听设备，能够通过调整后的基频曲线修改语音波形，增强中文语音的声调特征，并提高中文语音声调的识别率。

附图说明

下面将通过参照附图详细描述本发明的优选实施例，使本领域的普通技术人员更清楚本发明的上述及其它特征和优点，附图中：

图1为根据本发明一实施例的中文语音信号处理方法的步骤流程图；

图2为本发明一实施例的基频曲线特征参数示意图，其中，横坐标为时间(单位为秒)，纵坐标为频率(单位为赫兹)；

图3为本发明另一实施例的建立声调增强模型的步骤流程图；

图4为本发明另一实施例的中文语音信号处理装置的结构示意图。

具体实施方式

大部分助听器是根据西方语音来研究和开发的。而中文语音与西方语音存在多方面不同，针对中文语音声调具有辨别词意的重要特性，对中文语音中的声调进行增强，从而提高中文语音的声调识别率。

为使本发明的目的、技术方案和优点更加清楚，以下举实施例对本发明进一步详细说明。

本发明一实施例提供一种中文语音信号处理方法，图1为该方法的步骤流程图，该方法包括：

步骤101、对待处理的中文语音信号进行音节切分。

本发明实施例提供的中文语音信号处理方法，可以是针对每个音节为单位的中文语音信号的处理方法，因此，需要将连续的待处理的中文语音信号划分为以音节为单位的中文语音信号，以便于后续处理。

在本实施例中，可以利用以下方式中的任意一种来确定一个待处理的中文语音信号：

方式一、将设定时长内接收到的中文语音信号作为待处理中文语音信号。在这种确定待处理的中文语音信号的方式下，可以在选择适当的设定时长时，保证中文语音信号的实时处理，使得感音性耳聋患者可以及时接收到中文语音信息。

方式二、对已接收到的中文语音信号进行端点检测，将检测出的每一段中文语音信号依次作为待处理中文语音信号。

中文语音信号可以是通过麦克风等声音输入设备接收，并经过模拟/数字(A/D)转换设备转换后得到的数字信号。

步骤102、提取每个音节的基频曲线。

中文语音中声调在声学层面上表现为基频曲线，因此，为了对中文语音的声调进行增强，以提高感音性耳聋患者对中文语音声调的识别率，可以对中文语音信号的基频曲线进行处理。

具体的，可以针对切分后的每个以音节为单位的中文语音信号，利用基频提取的方法来确定基频曲线。

步骤103、确定每个音节的声调种类。

所述声调种类可以是按照声调识别方法，确定出的阴平、阳平、上声和去声四种声调种类。在本步骤中，也可以是根据其他声调分类方法(例如，粤语的九种声调)，确定出的声调种类。

在确定一个音节的声调种类时，可以对该音节的基频曲线做三次多项式拟合，利用拟合后三次多项式的四个系数作为分类特征，通过模式分类方法确定该音节的声调种类。具体的，可以利用三次多项式拟合的方法获得拟合后的基频曲线的四个系数，将所述四个系数作为分类特征参数。根据这些分类特征参数，与基频曲线类型进行匹配，确定该基频曲线对应的基频曲线类型，从而确定该音节的声调种类。

步骤104、确定与每个声调种类对应的基频曲线的调整方法。

针对音节的不同的声调种类，对每个音节的基频曲线的调整方法可能是不同的。在本实施例中，示例的调整方法是指对基频曲线的特征参数的调整。在本步骤中，可以根据预先建立的声调增强模型，从该声调增强模型中确定与每个声调种类对应的基频曲线的增强特征参数及该增强特征参数的调整系数，从而确定与每个声调种类对应的基频曲线的调整方法。例如，在音节的声调种类包括阴平、阳平、上声和去声四种时，可以根据预先建立的声调增强模型，分别确定与阴平声调对应的基频曲线的增强特征参数及该增强特征参数的调整系数、与阳平声调对应的基频曲线的增强特征参数及该增强特征参数的调整系数、与上声声调对应的基频曲线的增强特征参数及该增强特征参数的调整系数，以及与去声声调对应的基频曲线的增强特征参数及该增强特征参数的调整系数，从而可以确定对声调种类为阴平、阳平、上声和去声中任意一种的音节的基频曲线的调整方法。

需要说明的是，步骤104和步骤103的执行可以不分先后。

在预先建立的声调增强模型中，可以包括针对与每个声调种类对应的基频曲线的调整方法。下面对建立声调增强模型的过程进行示例性说明。具体的，在建立声调增强模型的过程中，针对每个声调种类，可以通过以下方法来确定与该声调种类对应的基频曲线的增强特征参数及该增强特征参数的调整系数：

确定统计样本中与该声调种类对应的音节对，每个音节对包括一个声调增强前音节和一个声调增强后音节，每个音节对中的声调增强后音节是对声调增强前音节进行声调增强后获得的；

确定音节对中声调增强前音节的基频曲线的调型特征参数与声调增强后音节的基频曲线的调型特征参数之中存在差异的调型特征参数；

将所述存在差异的调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数。并根据所述差异的幅度，确定该增强特征参数的调整系数，具体的，可以将该增强特征参数在每个音节对中声调增强前后差异的幅度的平均值确定为该增强特征参数的调整系数，当然，也可以将每个音节对中声调增强前后差异的幅度进行加权后获得的数值确定为该增强特征参数的调整系数。

所述调型特征参数可以从基频曲线的均值、基频曲线的范围、基频曲线的最小值、基频曲线的最大值、基频曲线的最大值位置、基频曲线的最小值位置、基频曲线的初始值以及基频曲线的结束值这八个特征参数中选择。图2示出了基频曲线的均值、基频曲线的范围、基频曲线的最小值、基频曲线的最大值、基频曲线的最大值位置、基频曲线的最小值位置、基频曲线的初始值、基频曲线的结束值。

将所述存在差异的调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数，可以为以下三种方式中的任意一种：

方式一、将确定出的全部所述存在差异的调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数；

方式二、将确定出的差异幅度超过一设定值的所述调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数；

方式三、将确定出的所述调型特征参数按差异幅度从大到小排序后的一个或复数个调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数。

步骤105、利用确定出的基频曲线调整方法和确定出的每个音节的声调种类，对每个音节的基频曲线进行调整。

以调整一个音节的基频曲线为例，本步骤包括：根据该音节的声调种类确定对应的调整方法，即确定对应的调整系数和对应的增强特征参数，并利用确定出的对应的调整系数去调整该基频曲线对应的增强特征参数，从而得到对该音节进行声调增强后的基频曲线。

所述调整系数还可以因人而异，从而可以针对每个人的需要对中文语音的声调特征进行增强，提高其听到的中文语音的清晰度。

步骤106、根据调整后的基频曲线合成每个音节。

具体的，可以使用基于时域波形修改的语音合成算法——基频同步叠加(PSOLA，Pitch Synchronous OverLap and Add)——来实现音节的合成。

步骤107、输出合成的每个音节。

在本步骤中，为了保证感音性耳聋患者可以完整地理解连续的中文语音信号的含义，可以按照每个音节在待处理中文语音信号中的先后顺序，依次输出合成后的每个音节。

较优的，为了保证步骤107的顺利执行，在步骤102至步骤106中，可以按照每个音节在待处理中文语音信号中的先后顺序，在对一个音节提取基频曲线、确定声调种类、确定调整方法，调整基频曲线以及合成音节的操作完成后，继续对另一个音节进行相同的处理，即对待处理中文语音信号中的每个音节进行串行处理。当然，也可以将待处理中文语音信号中包含的至少两个音节进行并行处理。

本发明一实施例提供一种建立声调增强模型的方法，具体的，如图3所示，本实施例可以包括以下步骤：

步骤201、从语音数据库中提取中文语音信号统计样本。

所述中文语音信号统计样本可以是以音节对的形式保存的，一个音节对中包括针对同一个中文语音的声调增强前的中文语音信号(以音节为单位)和声调增强后的该中文语音信号。

步骤202、确定提取出的每个音节对的基频曲线。

本步骤包括，确定每个音节对中声调增强前的中文语音信号的基频曲线，以及确定声调增强后的该中文语音信号的基频曲线。

步骤203、对声调进行分类，针对分类后的每个声调种类，对属于该声调种类的每个音节对的基频曲线进行特征参数提取。

针对所有音节对中声调增强前的中文语音信号的基频曲线，可以利用三次多项式拟合的方法获得四个系数，将此系数作为分类的特征参数对基频曲线类型做聚类，得到至少一个基频曲线类型，得到的每个基频曲线类型可以视为对应一个声调种类。

在对声调进行分类的同时，也确定出了每个音节对的声调种类，即确定出了每个声调种类包括的音节对。

针对每个声调种类，为了后续确定与该声调种类对应的基频曲线的增强特征参数，在本步骤中，可以提取该声调种类包括的每个音节对所对应的基频曲线的调型特征参数，后续可以从提取出的调型特征参数中确定增强特征参数。所述调型特征参数可以选择用于确定基频曲线、能够较好体现基频曲线特征的特征参数。较优的，所述调型特征参数可以从基频曲线的均值、基频曲线的范围、基频曲线的最小值、基频曲线的最大值、基频曲线的最大值位置、基频曲线的最小值位置、基频曲线的初始值、基频曲线的结束值这八个特征参数中选择。

步骤204、统计确定出的每个音节对中存在差异的调型特征参数。

具体的，可以通过数据驱动的方式，利用统计方法分析比较属于同一个声调种类的每个音节对对应的声调增强前的基频曲线与声调增强后的基频曲线，确定声调增强前的基频曲线与声调增强后的基频曲线中存在差异的调型特征参数，从而确定该声调种类对应的各音节对中声调增强前的基频曲线与声调增强后的基频曲线的主要差别。

步骤205、确定声调增强模型中，与每个声调种类对应的基频曲线的增强特征参数及该增强特征参数的调整系数。

在本步骤中，针对每个声调种类，可以根据属于该声调种类的每个音节对所对应的存在差异的调型特征参数确定与该声调种类对应的声调增强模型中的增强特征参数，具体的，可以将属于该声调种类的每个音节对确定出的所有存在差异的调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数，也可以将差异幅度超过设定值的调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数，还可以将在所有存在差异的调型特征参数中差异幅度排名满足要求的调型特征参数确定为与该声调种类对应的基频曲线的增强特征参数。

在本步骤中，还可以根据属于该声调种类的每个音节对所对应的存在差异的调型特征参数之间的差异幅度，来确定与该声调种类对应的基频曲线的增强特征参数的调整系数，具体的，针对确定出的每个增强特征参数，可以通过对每个音节对确定出的该调型特征参数之间的差异幅度取平均的方法，来确定与该声调种类对应的基频曲线中该增强特征参数的调整系数。

在本实施例提供的方法中，针对确定出的每个声调种类，确定与该声调种类对应的基频曲线的调整方法，从而确定声调增强模型。若利用该预先建立的声调增强模型进行声调增强，则确定出的每个待处理音节的声调种类也必然是该声调增强模型当中的一个声调种类。

本发明另一实施例提供一种中文语音信号处理装置，图4为该装置的结构示意图，该装置包括：一个切分模块11、一个基频提取模块12、一个基频曲线分类模块13、一个确定模块14、一个增强模块15以及一个合成模块16。

其中，切分模块11用于将接收到的待处理中文语音信号切分为以音节为单位的中文语音信号；基频提取模块12用于提取每个音节的基频曲线；基频曲线分类模块13用于确定每个音节的声调种类；确定模块14用于根据预先建立的声调增强模型，确定与每个声调种类对应的基频曲线增强特征参数及所述增强特征参数的调整系数；增强模块15用于根据每个音节的声调种类、以及与所述声调种类对应的所述增强特征参数和所述增强特征参数的调整系数，对每个音节的基频曲线进行调整；合成模块16用于根据调整后的基频曲线合成音节。

所述预先建立的声调增强模型可以存放在中文语音信号处理装置包括的声调增强模型库10中。

所述中文语音信号处理装置还可以包括一个输出模块17，该输出模块17用于按照每个音节在待处理中文语音信号中的先后顺序，依次输出合成后的每个音节。

具体的，基频曲线分类模块13用于对每条基频曲线进行三次多项式拟合，将三次多项式的四个系数作为分类特征，通过模式分类方法确定每个音节的声调种类。

如图4所示，所述装置还可以进一步包括一个语音输入模块18(如麦克风)和一个A/D转换模块19。

输出模块17可以包括一个D/A转换子模块和一个语音输出子模块(如扬声器)。

所述合成模块16中可以使用基于时域波形修改的语音合成算法——基频同步叠加——来实现语音的合成。

本发明的又一实施例还提供了一种助听设备，该助听设备包括上述任意一种中文语音信号处理装置。由于该助听设备包括了上面实施例提供的中文语音信号处理装置，因此该助听设备能够通过调整后的基频曲线修改语音波形，增强中文语音的声调特征，并提高中文语音声调的识别率。

本发明实施例公开了一种中文语音信号处理方法、一种中文语音信号处理装置、以及一种助听设备，针对中文语音声调具有辨别词意的重要特性，根据声调在声学层面上的表现为基频曲线的原理，将连续的中文语音信号流划分为以音节为单位的中文语音信号，根据音节所属的声调种类，对音节的基频曲线进行调整。通过调整后的基频曲线修改语音波形，增强中文语音的声调特征，并提高中文语音声调的识别率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文语音信号处理方法，该方法包括：

以音节为单位切分待处理中文语音信号；

提取每个音节的基频曲线；

确定每个音节的声调种类，以及根据预先建立的声调增强模型，确定与每个声调种类对应的基频曲线增强特征参数及所述增强特征参数的调整系数；

根据调整后的基频曲线合成音节。

2.如权利要求1所述的方法，其特征在于，在合成音节之后，所述方法还包括：

按照每个音节在待处理中文语音信号中的先后顺序，依次输出合成后的每个音节。

3.如权利要求1所述的方法，其特征在于，确定每个音节的声调种类包括：

对每个音节的基频曲线进行三次多项式拟合；

将三次多项式的四个系数作为分类特征，通过模式分类方法确定该音节的声调种类。

4.如权利要求1所述的方法，其特征在于，通过以下方式建立声调增强模型：

针对每个声调种类，确定统计样本中与该声调种类对应的音节对，其中每个音节对包括一个声调增强前音节和一个声调增强后音节；

将所述存在差异的调型特征参数确定为与该声调种类对应的基频曲线增强特征参数，并根据所述差异的幅度，确定所述增强特征参数的调整系数。

5.如权利要求4所述的方法，其特征在于，所述调型特征参数为基频曲线的均值、基频曲线的范围、基频曲线的最小值、基频曲线的最大值、基频曲线的最大值位置、基频曲线的最小值位置、基频曲线的初始值以及基频曲线的结束值这八个基频曲线特征参数中的至少一个。

6.如权利要求4所述的方法，其特征在于，确定增强特征参数包括：

将全部所述存在差异的调型特征参数确定为与该声调种类对应的基频曲线增强特征参数；

或者，将所述差异幅度超过一设定值的所述调型特征参数确定为与该声调种类对应的基频曲线增强特征参数；

或者，将所述调型特征参数按差异幅度从大到小排序后的一个或复数个调型特征参数确定为与该声调种类对应的基频曲线增强特征参数。

7.一种中文语音信号处理装置，该装置包括：

一个基频提取模块，用于提取每个音节的基频曲线；

一个基频曲线分类模块，用于确定每个音节的声调种类；

合成模块，用于根据调整后的基频曲线合成音节。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

一个输出模块，用于按照每个音节在待处理中文语音信号中的先后顺序，依次输出合成后的每个音节。

9.如权利要求7所述的装置，其特征在于，所述基频曲线分类模块能够对每个音节的基频曲线进行三次多项式拟合，将三次多项式的四个系数作为分类特征，通过模式分类方法确定该音节的声调种类。

10.一种助听设备，包括如权利要求7至9中任一项所述的中文语音信号处理装置。