CN102857650B

CN102857650B - 动态调整语音的方法

Info

Publication number: CN102857650B
Application number: CN201210311517.3A
Authority: CN
Inventors: 黄耀樟; 詹宏智; 林彦村; 王佳琪
Original assignee: Qisda Suzhou Co Ltd; Qisda Corp
Current assignee: Qisda Suzhou Co Ltd; Qisda Corp
Priority date: 2012-08-29
Filing date: 2012-08-29
Publication date: 2014-07-02
Anticipated expiration: 2032-08-29
Also published as: CN102857650A

Abstract

本发明一种动态调整语音的方法，适用于通讯系统，该通讯系统包括第一电话、第二电话以及伺服器，该方法包括：储存第一使用者资讯相关的第一参数组于该伺服器；该第一电话登录该伺服器获得该咨询；建立该第一电话与该第二电话的连接，该第一电话传送即时语音特征至该伺服器；该伺服器依据该第一参数组以及该即时语音特征产生第一处理参数组，并传送该第一处理参数组至该第二电话；以及该第二电话依据该第一处理参数组处理该连接的语音。本发明对于接收到的动态语音与环境变化可以依据使用者静态的语音参数做调整，另外，透过网路连接资料库，即使使用者不用同样的电话只要登录到伺服器即可享受到本发明的好处，更贴近云端服务的目的。

Description

动态调整语音的方法

技术领域

本发明涉及一种动态调整语音的方法，特别是涉及一种依据网络伺服器储存使用者的语音特征参数并在使用者登录伺服器后使用语音特征参数动态调整接收端语音的方法。

背景技术

利用电话网路通话时，常常因为远端(Far-end)的发话端在背景为恶劣的通话环境，造成近端的接收端无法清楚的辨识发话端的语音。另外对不同的人所发出的声音，因其音域特征不同，即使对应恶劣的通话环境相同，干扰语音的程度也会不同。

一般解决的方式是调整近端收话端与远端发话端之间的回音消除(echo-cancellaton)，但使用回音消除的方式并无法做即时与动态的通话品质改善；另外如美国专利公开案US20080071861采用动态侦测环境噪音的恶劣度，进而调整扬声器的增益值(gain)，但是对于每个人自己的音调，会有不同的频率响应分布。例如有人的低频声音比较响亮，若利用上述的专利技术，动态增益调整的结果会将低频的声音压抑或是甚至删除，则对接收端会难以听清楚发话端的语音。

因此本发明欲提出一种动态调整语音的方法，可以依据个人语音特征系统做即时且动态调整语音品质，可以让接收端能清楚的听到发话端的语音。

发明内容

本发明的目的在于提供一种动态调整语音的方法，其可以动态的调整通话中的语音品质，让接收端能清楚的听到发话端的语音。

为达到上述目的，本发明一种动态调整语音的方法，适用于通讯系统，该通讯系统包括第一电话、第二电话以及伺服器，该方法包括：储存第一使用者资讯相关的第一参数组于该伺服器；该第一电话登录该伺服器获得第一使用者资讯；建立该第一电话与该第二电话的连接，该第一电话传送即时语音特征至该伺服器；该伺服器依据该第一参数组以及该即时语音特征产生第一处理参数组，并传送该第一处理参数组至该第二电话；以及该第二电话依据该第一处理参数组处理该连接的语音。

较佳的，建立该连接后，该第一电话接收第一即时语音并撷取该即时语音特征。

其中，该方法还包括：该第二电话接收该第一即时语音，该第二电话以该第一处理参数组调整该第一即时语音后播放。

此外，该即时语音特征更包括即时语音品质，当该即时语音品质高于第一预定值，该第二电话接收该第一即时语音后直接播放，当该即时语音品质低于该第一预定值，该第二电话接收该第一即时语音并经该第一处理参数组处理后播放。

较佳的，该方法包括：该即时语音特征更包括改善语音特征；该第一电话传送该改善语音特征至该伺服器；以及该伺服器以该改善语音特征调整该第一参数组。其中，当该即时语音品质低于第二预定值，该方法更包括：传送文字给该第二电话；以及该第二电话以该第一处理参数组对该文字合成第一合成语音后播放。另外，该文字由第一电话转换该即时语音方式形成，或者是由该伺服器转换该即时语音方式形成，或者是由第一电话直接输入形成。

较佳的，当透过该第一电话注册该第一使用者资讯于该伺服器时，该伺服器要求该第一电话设定该第一参数组；该第一电话对训练语音撷取该第一语音特征并传送至该伺服器；以及该伺服器处理该第一语音特征产生第一参数组。其中，该第一语音特征包括：语言种类、音调、声音频谱资料以及说话声音快慢以及情绪的高低起伏等。

为达到上述目的，本发明还提供了一种动态调整语音的方法的另一实施例。一种动态调整语音的方法，适用于通讯系统，该通讯系统包括第一电话、第二电话以及伺服器，该方法包括：储存第一使用者资讯相关的第一参数组于该伺服器；该第一电话登录该伺服器获得第一使用者资讯；建立该第一电话与该第二电话的连接，该第一电话传送即时语音特征至该伺服器；该伺服器依据该第一参数组以及该即时语音特征产生第一处理参数组传送至该第一电话；以及该第一电话依据该第一处理参数组调整后续的即时语音传送给该第二电话。

与现有技术相对比，本发明一种动态调整语音的方法，采用将包含第一使用者资讯的第一参数组储存于伺服器中，并由第一电话(发声端电话)传送即时语音特征至伺服器；伺服器依据第一参数组以及即时语音特征产生第一处理参数组传送至第二电话；以及第二电话依据第一处理参数组处理连接的语音；或者产生的第一处理参数组传递给第一电话，第一电话将语音信息处理后再传递给第二电话。本发明的好处在于，对于接收到的动态语音与环境变化可以依据使用者静态的语音参数做调整，让接收端可以接受到更贴近原生的语音，另外，透过网路连接资料库，即使使用者不用同样的电话只要登录到伺服器即可享受到本发明的好处，更贴近云端服务的目的。

附图说明

图1为本发明动态调整语音的方法所涉及的系统示意图。

图2a为图1所述的电话的内部结构示意图。

图2b为图1所述的伺服器的内部结构示意图。

图3为本发明动态调整语音的方法的流程图。

具体实施方式

为使对本发明的目的、构造、特征、及其功能有进一步的了解，兹配合实施例详细说明如下。

请参考图1所示，为本发明动态调整语音的方法所涉及的通讯系统示意图。通讯系统包括第一电话10、第二电话20以及伺服器30、网路40。

第一电话10透过网路40对第二电话20建立连接进行通话，此连接主要作为通话用，第一电话10与第二电话20可以是行动电话、网路电话或是市内电话等类型，其建立的语音连接在网路40的部份可为蜂巢式行动电话、市内电话网路或是网际网路；第一电话10与第二电话20可分别透过网路40与伺服器30交换数据资料，因此，第一电话10、第二电话20与伺服器30之间在数据交换时使用到的网路40的部份需为数据网路，即在本发明实施时语音与数据连接时其分别可以经由不同类型的网路来实施。

图2a为图1所述的第一电话10的结构图。第一电话10包括：语音截取模组102、语音处理模组104以及通讯模组106；语音截取模组102用以对接收的语音讯号撷取对应的语音特征后经由网路40传送给伺服器30，其中语音特征可包括：即时语音品质、语言种类、音调、声音频谱资料以及说话声音快慢以及情绪的高低起伏等或是任何隐藏式马可夫模型所需要的参数等。

图2b为图1所述的伺服器的内部结构示意图。伺服器30包括：登录模组302、静态参数资料库304、动态最佳化模组306与通讯模组308，通讯模组308对应通讯模组106进行数据通信。

参考图3，为本发明方法实施的步骤：步骤S10，当第一使用者输入指令至第一电话10开始本发明的方法流程；步骤S11，第一电话10以第一使用者资讯登录于伺服器30，登录模组302处理对应的登录或注册事宜，例如登录模组302会依据第一使用者资讯搜寻静态参数资料库304是否有对应的第一参数，若没有，执行步骤S12发送一个讯息于第一电话10，提醒讯息于第一电话10上，提醒第一使用者输入一个训练语音作为注册使用，若在静态参数资料库304有对应的第一参数，则可取出第一参数等待执行步骤S18；第一电话10会在步骤S13显示一个提醒第一使用者发出训练语音，若使用者依照指令发出训练语音，第一电话10对应接收(步骤S14)，此时语音截取模组102会对训练语音进行特征值的撷取(步骤S15)，并将特征值传送至伺服器30的静态参数资料库304(步骤S16)，静态参数资料库304会对收到的特征值进行训练、学习与统计，产生出对应第一使用者的第一参数(步骤S17)，此第一参数为可合成第一使用者的语音或是可对应加强第一使用者语音之用。步骤S12-S16可重复数次直到第一参数的数值收敛至系统的标准范围内。

第二电话20具有与第一电话10相同的架构，同样具有语音截取模组、语音处理模组以及通讯模组，步骤S18与步骤S19系为通讯模组106与第二电话20的通讯模组之间进行连接的通讯规约成立连接；步骤S20则为使用者开始通话，第一电话10接收到第一即时语音；步骤S21，语音截取模组102会对第一即时语音撷取即时语音特征，即时语音特征包括即时语音品质、语言种类、音调、声音频谱资料以及说话声音快慢以及情绪的高低起伏等或是任何隐藏式马可夫模型所需要的参数等；此些即时语音特征会传送到伺服器30的动态最佳化模组306(步骤S22)；动态最佳化模组306会将此些即时语音特征与第一参数处理后产生第一处理参数组(步骤S23)，将此第一处理参数组传送到第二电话20的语音处理模组(步骤S24)，步骤S25则在第二电话20收到第一即时语音后，第二电话20利用第一处理参数组对第一即时语音作均衡、增益调整、杂讯抑制或是语音合成等方式。

步骤S21中即时语音特征更包括即时语音品质，当即时语音品质高于第一预定值，在步骤S25第二电话20接收该第一即时语音后直接播放，此时因为第一即时语音品质良好，无须调整，使用调整机制反而是浪费第二电话20的电力，因此可以跳过此步骤；而当即时语音品质低于第一预定值，步骤S25中，第二电话20接收第一即时语音以第一处理参数组处理后播放。

另外本发明另揭露，伺服器30依据第一参数组以及即时语音特征产生第一处理参数组并传送至该第一电话10(步骤S24’)，第一电话10则依据第一处理参数组调整后续的即时语音传送给第二电话20(步骤S18’)，因此，当即时语音有低频的严重衰减，则第一电话10可以依据伺服器30反馈的第一处理参数，提前的提升传输即时语音的低频衰减可以使的在近端接收时有正常的低频讯号，减低即时语音的辨别度。

另外，当即时语音品质低于第二预定值，可能已经无法判别语音的内容，此时行动电话10在步骤S18传送一组文字给第二电话，在步骤S25中，第二电话则以第一处理参数组对收到的文字合成第一合成语音后播放。

本发明主要利用伺服器储存使用者相关的参数，当第一使用者利用第一电话登录伺服器中，伺服器会将对应第一使用者资讯的第一参数组先行取出，在本发明中第一参数为静态的参数，相关于第一使用者个人的语音特质，若提供文字，此静态的参数可将文字合成第一使用者的语音，文字转语音技术在人机界面里扮演着重要的角色，近期语音合成系统广为使用的合成方式主要有两种，分别是单元选取(Unit selection approach)及隐藏式马可夫模型(HMM-basedapproach)的语音合成方法。基于隐藏式马可夫模型语音合成器是一种统计式参数语音合方法，是目前最为广泛采用的合成方法，它以文脉相关隐藏式马可夫模型(Context-dependent HMMs，CDHMMs)来模拟不同语言参数或韵律架构下的声学信号，从语料库中的自然语音训练得到频谱模型(spectral parametermodel)、基频模型(F0 parameter model)及音长模型(duration model)。欲合成语音时，利用上述训练好的三种模型，依据输入文本的语言参数或预估之韵律标记找到适当CDHMM模型并串接之，再以特殊的演算法输出合成出语音讯号。使用隐藏式马可夫模型合成器，不需要大量目标的语料，只需要足够的语料就能利用现有隐藏式马可夫模型去合成出不同特性的语音信号。

第一参数组的建立可以是第一使用者事先于第一电话或是透过个人电脑经由语音训练的方式建立，建立后对应第一使用者的资讯储存于伺服器中，本发明另外揭露当透过第一电话注册第一使用者资讯于伺服器时，伺服器会要求第一电话先行设定第一参数组，亦即伺服器发送讯息给第一电话要求使用者输入一个训练语音，第一电话收到使用者的训练语音后，撷取第一语音特征并传送至伺服器，第一语音特征为初步撷取语音的资讯可用于训练与学习成参数组，上述训练与学习的方法可以用现有隐藏式马可夫模型，即伺服器处理第一语音特征产生第一参数组。

另外要解决发话端动态语音干扰的问题，第一电话与第二电话建立连接后，第一电话接收使用者的第一即时语音，第一电话撷取即时语音特征传送给伺服器，此即时语音特征代表在发话端实际的状态，代表着动态的语音状况，有可能发话者在高噪音的区域或是使用者当天的声音因感冒而沙哑造成部分音域改变或干扰，对于高噪音的音域可以做增益抑制或补偿，而对使用者的声音变化可以做语音均衡的补偿，当第二电话接收第一即时语音，第二电话以第一处理参数组调整第一即时语音后播放，另外在调整上亦可以包括均衡、增益调整、杂讯抑制或是语音合成等方式。

本发明另揭露，即时语音特征更包括即时语音品质，当即时语音品质高于第一预定值，第二电话接收该第一即时语音后直接播放，此时因为第一即时语音品质良好，无须调整，使用调整机制反而是浪费第二电话的电力，因此可以跳过此步骤；而当即时语音品质低于第一预定值，第二电话接收第一即时语音以第一处理参数组处理后播放。

本发明另揭露，即时语音特征内更包括改善语音特征，第一电话传送该善语音特征至伺服器，伺服器以改善语音特征调整第一参数组，亦即本发明可以透过动态的语音搜集后进行训练与学习第一参数组，可更强化静态的第一参数组的准确性，由于校正的准确性要求较高，因此较佳的是执行在语音品质高于第一预定值才进行以改善语音特征调整第一参数组。

另外，当即时语音品质低于第二预定值，可能已经无法判别语音的内容，此时传送一组文字给第二电话，第二电话则以第一处理参数组对收到的文字合成第一合成语音后播放，即使无法达到声调完全相同的语调，但至少有对应第一使用者的语音静态参数，播放出来的语音会贴近第一使用者的说话声音。上述的文字组可以是第一电话即时的辨认第一即时语音为文字也可以是使用者以人机介面输入文字，再传送给第二电话，更可以是伺服器接收到第一即时语音作语音的辨识后传送给第二电话。

本发明已由上述相关实施例加以描述，然而上述实施例仅为实施本发明的范例。必需指出的是，已揭露的实施例并未限制本发明的范围。相反地，在不脱离本发明的精神和范围内所作的更动与润饰，均属本发明的专利保护范围。

Claims

1.一种动态调整语音的方法，适用于通讯系统，该通讯系统包括第一电话、第二电话以及伺服器，其特征在于，该方法包括：

储存第一使用者资讯相关的第一参数组于该伺服器，其中该第一参数组是由该第一使用者发出的训练语音经处理后产生的静态参数，该处理的过程包括对该训练语音的特征值进行撷取、训练和学习；

该第一电话通过该第一使用者资讯登录该伺服器；

建立该第一电话与该第二电话的连接，该第一电话传送即时语音特征至该伺服器；

该伺服器依据该第一参数组以及该即时语音特征产生第一处理参数组，并传送该第一处理参数组至该第二电话；以及

该第二电话依据该第一处理参数组处理该连接的语音。

2.如权利要求1所述的方法，其特征在于，建立该连接后，该第一电话接收第一即时语音并撷取该即时语音特征。

3.如权利要求2所述的方法，其特征在于，该方法更包括：

该第二电话接收该第一即时语音，该第二电话以该第一处理参数组调整该第一即时语音后播放。

4.如权利要求2所述的方法，其特征在于，该即时语音特征更包括即时语音品质，当该即时语音品质高于第一预定值，该第二电话接收该第一即时语音后直接播放，当该即时语音品质低于该第一预定值，该第二电话接收该第一即时语音并经该第一处理参数组处理后播放。

5.如权利要求2所述的方法，其特征在于，该方法包括：

该即时语音特征更包括改善语音特征；

该第一电话传送该改善语音特征至该伺服器；以及

该伺服器以该改善语音特征调整该第一参数组。

6.如权利要求4所述的方法，其特征在于，当该即时语音品质低于第二预定值，该方法更包括：

传送文字给该第二电话；以及

该第二电话以该第一处理参数组对该文字合成第一合成语音后播放。

7.如权利要求6所述的方法，其特征在于，该文字由第一电话转换该即时语音方式形成，或者是由该伺服器转换该即时语音方式形成，或者是由第一电话直接输入形成。

8.如权利要求1所述的方法，其特征在于，该方法更包括：

当透过该第一电话注册该第一使用者资讯于该伺服器时，该伺服器要求该第一电话设定该第一参数组；

该第一电话对训练语音撷取第一语音特征并传送至该伺服器；以及

该伺服器处理该第一语音特征产生第一参数组。

9.如权利要求8所述的方法，其特征在于，该第一语音特征包括：语言种类、音调、声音频谱资料以及说话声音快慢以及情绪的高低起伏。

10.一种动态调整语音的方法，适用于通讯系统，该通讯系统包括第一电话、第二电话以及伺服器，其特征在于，该方法包括：

该第一电话通过该第一使用者资讯登录该伺服器；

该伺服器依据该第一参数组以及该即时语音特征产生第一处理参数组传送至该第一电话；以及

该第一电话依据该第一处理参数组调整后续的即时语音传送给该第二电话。