CN105310806B

CN105310806B - 具有语音转换功能的电子人工喉系统及其语音转换方法

Info

Publication number: CN105310806B
Application number: CN201410377514.9A
Authority: CN
Inventors: 牛海军; 王立; 李立峰; 樊瑜波; 李阳
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-08-01
Filing date: 2014-08-01
Publication date: 2017-08-25
Anticipated expiration: 2034-08-01
Also published as: CN105310806A

Abstract

本发明提出一种具有语音转换功能的电子人工喉系统及语音转换方法。通过对电子人工喉使用者发出的人工喉语音通过麦克风采集，转化为数字信号；语音转换模块可将数字信号按照本发明的电子人工喉系统的语音转换方法进行语音转换，并通过放大电路模块放大，最后由扬声器播出，得到清晰易懂的语音。该方法可以有效降低电子人工喉语音的辐射噪声，特别是该方法可以改变电子喉语音的单一频率，使其具有声调变化，提高电子人工喉语音的可懂度。

Description

具有语音转换功能的电子人工喉系统及其语音转换方法

技术领域

本发明属于语音缺失患者的语音康复领域，并涉及一种具有语音转换功能的电子人工喉人工喉及其语音转换方法。

背景技术

语音是人类最重要、最有效、最常用和最方便的交换信息的形式，承担着社会成员间沟通思想，传达感情的任务，在推进人类文明的进程中发挥重要作用。但在现实生活中，由于疾病或意外事故等原因，许多患者不得不接受喉头切除手术，丧失了语音功能，无法与外界进行沟通交流，这不仅大大降低患者的工作能力和生活质量，还会造成患者较大的心理压力，甚至导致自闭、抑郁等心理疾病，给患病者带来更大的痛苦。

电子人工喉是目前使用最为普遍的一种语音发声康复辅具，是喉头切除患者的普遍选择，但由于其存在明显的语音缺陷，振频单一、语音机械、噪音较大，不适用于办公室、图书馆、咖啡厅等较为安静的场所，对使用者造成了极大的不便。如何改善电子人工喉系统的发声效果，提高电子人工喉语音的语音质量，确保喉头切除患者沟通顺畅，是目前国际上一项亟待解决的难题，具有重要的研究价值和应用前景。目前，基于语音转换技术的电子人工喉语音改进方法还处于探索起步阶段，现有算法复杂，难以移植，尚停留在实验阶段。

发明内容

本发明要解决的技术问题是提供一种具有语音转换功能的电子人工喉系统，解决电子人工喉语音频率单一、语音机械、辐射噪声大等问题。

为解决现有技术的上述技术问题，本发明提供了一种具有语音转换功能的电子人工喉，包括电子人工喉，麦克风，语音转换及放大系统。

电子人工喉可以是市场上传统的电子人工喉，也可以是本申请人提交的“指压式基频调节电子人工喉”中国专利申请第200910090549.3号、“具有个人特征的声门波模拟式电子人工喉”中国专利申请第200910089700.1号、“遥控开关型电子人工喉”中国专利申请第200910090588.3号、“气压式基频调节电子人工喉”中国专利申请第200910090589.8号中公开的电子人工喉。

语音转换及放大系统包括数模转换模块，语音转换模块，放大电路模块及扬声器模块。其中，数模转换模块可将麦克风采集到的电子人工喉语音模拟信号转化为数字信号；语音转换模块可将数字信号按照本发明的电子人工喉语音转换方法进行语音转换，并输出转换后的模拟语音信号；放大电路模块可将转换后的语音信号进行放大，并通过扬声器播出，形成最终清晰可懂的语音。

另外，本发明提供一种具有语音转换功能的电子人工喉语音转换方法，包括如下步骤：

步骤一：使用麦克风采集电子人工喉使用者发出的电子喉语音，提取其中的基频与发声声道参数；

步骤二：利用转换规则对采集到语音的个性特征参数进行转换；

步骤三：通过语音合成算法合成转换后的基频和发声声道参数，得到最终的转换语音；

步骤四：将转换后的语音通过扬声器放出。

本发明的优点在于：

(1)本发明使用的语音转换技术可以有效降低电子人工喉语音的辐射噪声，特别是该方法可以改变电子喉语音的单一频率，使其具有声调变化，提高电子人工喉语音的可懂度。

(2)本发明的转换算法是通过标准语料库与电子喉使用人电子喉语音训练得到，可以保留电子喉语音使用人的语音特征。

附图说明

图1为根据本发明的系统原理图。

图2为根据本发明的语音转换及放大系统的配置图。

图3为根据本发明的一个实施例的一种具有语音转换功能的电子人工喉佩戴部分示意图。

图4为根据本发明的一个实施例的一种具有语音转换功能的电子人工喉整体使用效果示意图。

图5为本发明的一种具有语音转换功能的电子人工喉语音转换方法流程图。

图6为本发明的一种具有语音转换功能的电子人工喉语音转换方法训练阶段流程图。

附图标记：

1—电子人工喉 2—麦克风 7—放大电路

8—扬声器 9—外壳 10—数据线

11—束带 12—数字信号处理电路 13—电池盒

具体实施方式

下面结合附图详细描述本发明的实施例。

图1为根据本发明的一个实施例的具有语音转换功能的电子人工喉系统的原理图，该电子人工喉系统包括电子人工喉1，麦克风2，语音转换及放大系统3。使用者使用电子人工喉1在口内产生人工喉语音，该语音被麦克风2采集并转化为模拟电信号，该模拟电信号通过数据线传送给语音转换及放大系统3，在其中进行模数(A/D)转换、语音转换、数模(D/A)转换、信号放大，并被输出，在扬声器形成最终的语音。

图2为根据本发明的一个实施例的语音转换及放大系统的配置图，其包括模数转换模块4,语音转换模块5，数模转换模块6，放大电路7和扬声器8。模数转换模块4将麦克风2采集到的人工喉语音模拟信号转换为数字信号，供语音转换模块5进行信号处理；语音转换模块5将人工喉语音的数字信号进行语音转换，修改基频和发声声道参数，合成转换语音；数模转换模块6将合成后的转换语音转换成模拟输出信号，放大电路7将转换后的语音进行信号放大，供扬声器8输出；扬声器8将放大后的转换语音信号输出，形成清晰、可懂的语音。

根据本发明的一个实施例，采用基于自适应内插平滑(Speech TransformationAnd Representation and Interpolation Using Weighted Spectrogram,STRAIGHT)语音合成算法(例如参见：Hideki Kawahara,Ikuyo Masuda-Katsuse,Alain deCheveigne.Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:Possible role of a repetitive structure in sounds[J].SpeechConmunication.1999,27:187–207)的混合高斯模型(Gaussian Mixed Model，GMM)语音转换方法(例如参见：Keigo Nakamura,Tomoki Toda,Hiroshi Saruwatari,KiyohiroShikano.Speaking-aid systems using GMM-based voice conversion forelectrolaryngeal speech[J].Speech Conmunication.2012,54:134–146)。首先运用训练获得的发声声道参数转换函数和基频转换函数，对待转换语料的个性特征参数进行转换；然后通过STRAIGHT合成模型合成转换后的发声声道参数和基频，获得最终的转换语音。

在训练阶段，首先基于STRAIGHT分析模型分别提取源和目标语音个性特征参数，包括谱参数(0到24阶梅尔倒谱系数)和基频轨迹；其次通过动态时间对齐(Dynamic TimeWarping，DTW)技术对特征参数序列进行时间对齐，求出联合特征矢量；最后基于GMM对联合特征矢量进行建模，得到相应的发声声道参数和基频的转换函数。

图3为根据本发明的一个实施例的一种具有语音转换功能的电子人工喉系统佩戴部分示意图。包括外壳9，数据线10，束带11，数字信号处理电路12，放大电路8，电池盒13，扬声器8。

根据本发明的一种具体实施方式，佩戴者将外壳9通过束带11佩戴于接近口唇的脖颈处。数字信号处理电路12包括DSP数字信号处理芯片及外围电路，在功能上包括了图2所示的数模转换模块4和语音转换模块5，用于接收数据线9传来的模拟信号并将其转换为数字信号；同时，DSP芯片可实现语音转换的主要功能，输出转换后的语音信号。放大电路7将数字信号处理电路12输出的转换语音进行放大输出，通过扬声器8形成最终的语音。在一个优选实施例中，使用锂电池供电，电池放置在电池盒13中。

图4为根据本发明的一个实施例的一种具有语音转换功能的电子人工喉整体使用效果示意图。包括外壳9，束带11，麦克风2，电子喉1。

使用者使用束带111将语音转换及放大系统3佩戴于脖颈处，通过麦克风2采集使用电子人工喉1发出的语音。语音转换及放大系统3将采集到的语音进行语音转换，并通过扬声器8放出，形成清晰易懂的语音。

图5为本发明的一种具有语音转换功能的电子人工喉系统语音转换方法流程图，具体包括以下几个步骤：

步骤三：通过STRAIGHT语音合成算法合成转换后的基频和发声声道参数，得到最终的转换语音；

步骤四：将转换后的语音通过扬声器放出。

其中，步骤二所述的转换规则由前期训练得到。

图6为本发明的一种具有语音转换功能的电子人工喉语音转换方法训练阶段流程图，具体包括如下训练步骤：

步骤一：使用麦克风采集电子人工喉系统的使用者发出的电子喉语音与相同语句正常人发出的正常语音；

步骤二：基于STRAIGHT分析模型分别提取源和目标语音个性特征参数，包括谱参数(0到24阶梅尔倒谱系数)和基频轨迹；

步骤三：去除语音信号中的清音段；

步骤四：对两段语音中的频谱非周期参数进行降维处理；

步骤五：通过DTW技术对特征参数序列进行时间对齐，求出联合特征矢量；

步骤六：基于GMM对联合特征矢量进行建模，得到相应的发声声道参数和基频的转换函数。

需要指出的是，训练阶段在装载了相关应用的计算机上完成。

应当理解的是，以上结合附图和实施例对本发明所进行的描述只是说明而非限定性的，且在不脱离如所附权利要求书所限定的本发明的前提下，可以对上述实施例进行各种改变、变形、和/或修正。

Claims

1.一种具有语音转换功能的电子人工喉系统，其特征在于包括：

电子人工喉(1)，用于在使用者的口内产生人工喉语音，

麦克风(2)，用于采集所述人工喉并将采集到的人工喉语音转化为模拟电信号，

语音转换及放大系统(3)，用于对所述模拟电信号进行语音转换和放大，形成放大后的转换语音信号，

扬声器(8)，用于在放大后的转换语音信号的驱动下，形成清晰的语音,

其中：

语音转换及放大系统(3)包括：

模数转换模块(4)，用于将麦克风(2)采集到的模拟电信号转换为数字信号，

语音转换模块(5)，用于将所述数字信号进行语音转换，修改基频和发声声道参数，合成转换语音，

数模转换模块(6)，用于将合成后的转换语音转换成模拟输出信号，

放大电路(7)，用于放大所述模拟输出信号，并提供给扬声器(8)，

其中所述语音转换模块(5)所进行的所述语音转换包括采用基于自适应内插平滑语音合成算法的混合高斯模型的语音转换，

所述语音转换包括：

运用训练获得的发声声道参数转换函数和基频转换函数，对采集到的人工喉语音的发声声道参数和基频进行转换；

通过STRAIGHT合成模型，合成转换后的发声声道参数和基频，获得最终的转换语音，

所述训练包括：

基于STRAIGHT分析模型分别提取源和目标语音的个性特征参数，该个性特征参数包括谱参数和基频轨迹；

通过动态时间对齐技术对所述个性特征参数的序列进行时间对齐，得到联合特征矢量；

基于混合高斯模型对联合特征矢量进行建模，得到相应的发声声道参数和基频的转换函数。

2.根据权利要求1的电子人工喉系统，其特征在于所述训练包括：

用麦克风采集电子人工喉系统的使用者发出的电子喉语音和正常人发出的相同语句的语音；

基于STRAIGHT分析模型分别提取使用者发出的电子喉语音和正常人发出的相同语句语音的个性特征参数，包括谱参数和基频轨迹；

去除所有需要训练的语音信号中的清音段；

对使用者发出的电子喉语音和正常人发出的相同语句的语音中的频谱非周期参数进行降维处理；

通过动态时间对齐技术对特征参数序列进行时间对齐，求出联合特征矢量；

3.根据权利要求1－2之一的电子人工喉系统，其特征在于进一步包括：

外壳(9)，

数据线(10)，

束带(11)，用于将外壳(9)佩戴于使用者的接近口唇的脖颈处，

电池盒(13)，用于放置作为电子人工喉系统的电源的电池，

数字信号处理电路(12)，其包括DSP数字信号处理芯片及外围电路，用于实现所述模数转换模块(4)和语音转换模块(5)。

4.基于权利要求1－2之一所述的电子人工喉系统的电子人工喉语音转换方法，其特征在于包括如下步骤：

A)用麦克风(2)采集电子人工喉使用者发出的电子喉语音，提取其中的基频与发声声道参数；

B)对采集到电子喉语音的基频与发声声道参数进行转换；

C)通过语音合成算法合成转换后的基频和发声声道参数，得到最终的转换语音。

5.根据权利要求4的方法，其特征在于：

所述步骤B)包括运用训练获得的发声声道参数转换函数和基频转换函数，对采集到的人工喉语音的基频与发声声道参数进行转换，

所述步骤C)包括通过STRAIGHT合成模型，合成转换后的发声声道参数和基频，得到最终的转换语音。