CN104575507A

CN104575507A - 语音通信方法及装置

Info

Publication number: CN104575507A
Application number: CN201310503667.9A
Authority: CN
Inventors: 詹建飞; 刘霖
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2015-04-29
Anticipated expiration: 2033-10-23
Also published as: CN104575507B

Abstract

本发明提出语音通信方法及装置。方法包括：对于任一用户，用户终端采集该用户发出的语音信号，对采集的语音信号进行采样，每个采样样本作为一个训练样本；用户终端对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列；用户终端将该用户的音色合成数据同步到其他终端上；当所述用户与其他用户通信时，所述用户终端从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端，对端用户终端根据该用户的音色合成数据，由该基频信号计算得到该用户的原始语音信号。本发明提高了终端的语音通信质量。

Description

语音通信方法及装置

技术领域

本发明涉及语音技术领域，尤其涉及语音通信方法及装置。

背景技术

目前，经过多年发展，语音通信已经成为人们生活中必不可少的部分。基于语音通信，有蜂窝网电话、有线电话、IP电话等多种形式。这些传统的通信方法中，其技术特点大致相同。

图1为传统的语音通信示意图，如图1所示，在传统语音通信方法中，通话者将语音信号经过编码器转化为编码信号，这些编码信号通过各类网络传输至通话的目的地，并通过解码器解码送给另外的通话者。

在传统的语音通信方法中采用了不同的编码方法，例如基于人类听觉掩蔽效应的变换域编码方法（如MP3，AAC等），基于人类发生模型的码激励线性预测编码方法（如AMR系列、G.729）等，以及较为原始的利用声音统计概率编码方法（如有线电话中使用的G.711等）。

这些方法的核心思想就是将声音信号进行处理，提取一定的有规律的参数之后，将残余的信号以及提取的参数打包传送给接收端。然后接收端再根据传输过来的参数和残余信号，进行逆过程解码，还原信号数据。

在当前技术方案中，语音信号是以数据信号的形式传输，数据信号本身为二进制信号，不代表任何意义，并且数据量很大，导致出现几个问题：

一、在较低码率情况或者通信环境较差的情况下，信号容易被干扰，一旦被干扰，信号无法正常的还原，造成通信失败。

二、语音信号编码为二进制的数据信号，数据信号本身不代表任何意义，而其中混杂的噪声、干扰以及失真，为语音识别造成了较大的难度，使信号不能被有效使用。尤其在需要自动生成字幕或是同声传译的通信需求下。

发明内容

本发明提供语音通信方法及装置，以提高终端的语音通信质量。

本发明的技术方案是这样实现的：

一种语音通信方法，该方法包括：

对于任一用户，用户终端采集该用户发出的语音信号，对采集的语音信号进行采样，每个采样样本作为一个训练样本；用户终端对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列；

用户终端将该用户的音色合成数据同步到其他终端上；

当所述用户与其他用户通信时，所述用户终端从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端，以便：对端用户终端根据该用户的音色合成数据，由该基频信号计算得到该用户的原始语音信号。

所述对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数包括：

从每个训练样本中提取出基频信号；根据该样本的基频信号和训练样本，计算出该样本的线型滤波器系数h；

当针对所有训练样本都已计算出h时，分别计算每个样本的h与目标h的差值，得到每个训练样本的h的误差，统计误差在预先设定的h样本聚合置信区间内的样本数目，计算该数目与样本总数的比值，若该比值不小于预先设定的h数据精度，则确定本次训练成功，对目标h进行量化处理，得到最终的目标h。

所述对该用户的训练样本进行训练，得到该用户的音色合成数据：目标噪声序列包括：

对每个训练样本，采用训练得到的目标h对提取出基频信号的每个训练样本进行滤波，滤波结果即为该训练样本的噪声序列；

当得到所有训练样本的噪声序列后，计算每个样本的噪声序列与目标噪声序列的差值，得到每个训练样本的噪声序列的误差，统计误差在预先设定的噪声序列样本聚合置信区间内的样本数目，计算该数目与样本总数的比值，若该比值不小于预先设定的噪声序列数据精度，则确定本次训练成功，对目标噪声序列进行量化处理，得到最终的目标噪声序列。

所述用户终端从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端进一步包括：

所述用户终端计算语音信号的基音周期和每帧语音信号的能量，将该基音周期和每帧语音信号的能量发送给对端用户终端，

且，对端用户终端根据该用户的音色合成数据，由该基频信号计算得到该用户的原始语音信号包括：

对端用户终端根据音色合成数据中的目标h，对该基频信号进行逆向滤波，将得到的逆向滤波信号与音色合成数据中的目标噪声序列进行叠加，然后根据接收到的基音周期和每帧语音信号的能量，对叠加得到的信号进行调整后得到所述用户的原始语音信号。

所述用户终端将该用户的音色合成数据同步到其他终端上为：

当所述用户终端空闲时，用户终端将该用户的音色合成数据同步到其他终端上。

所述当所述用户与其他用户通信时，用户终端从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端包括：

用户终端判断所述用户的音色合成数据的精度是否不小于预设精度，若是，执行所述从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端的动作；否则，对该用户发出的语音信号进行编码后发送给对端用户终端。

一种语音通信装置，该装置包括：

训练模块：采集用户发出的语音信号，对采集的语音信号进行采样，每个采样样本作为一个训练样本，对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列；

训练结果同步模块：将该用户的音色合成数据同步到其他终端上；

语音通信模块：当所述用户与其他用户通信时，从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端，以便：对端用户终端根据该用户的音色合成数据，由该基频信号计算得到该用户的原始语音信号。

所述训练模块对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数包括：

所述训练模块对该用户的训练样本进行训练，得到该用户的音色合成数据：目标噪声序列包括：

所述语音通信模块进一步用于，当从该用户发出的语音信号中提取出基频信号时，计算语音信号的基音周期和每帧语音信号的能量，将该基音周期和每帧语音信号的能量发送给对端用户终端。

所述训练结果同步模块进一步用于，接收其他终端发来的其他终端用户的音色合成数据，

且，所述语音通信模块进一步用于，当接收到其他终端发来的基频信号时，在训练结果同步模块查找到对应的音色合成数据，根据该音色合成数据，由该基频信号计算得到该其他终端用户的原始语音信号。

所述训练模块进一步用于，当得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列时，计算用户的音色合成数据的精度；

所述语音通信模块进一步用于，当所述用户与其他用户通信时，判断训练模块计算得到的所述用户的音色合成数据的精度是否不小于预设精度，若是，执行所述从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端的动作；否则，对该用户发出的语音信号进行编码后发送给对端用户终端。

可见，本发明中，终端预先训练出音色合成数据，当与其他终端通信时，只需将用户语音的基频信号发送给对端，对端根据该基频信号和该用户的音色合成数据，计算得到该用户的原始语音信号，从而提高了语音通信质量。

附图说明

图1为传统的语音通信示意图；

图2为本发明实施例提供的语音通信的方法流程图；

图3为本发明实施例提供的线型滤波器系数的训练方法流程图；

图4为本发明实施例提供的噪声序列的训练方法流程图；

图5为本发明实施例提供的语音通信方法流程图；

图6为本发明实施例提供的语音通信装置的组成示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图2为本发明实施例提供的语音通信的方法流程图，如图2所示，其具体步骤如下：

步骤201：对于任一用户，用户终端采集该用户发出的语音信号，对采集的语音信号进行采样，每个采样样本作为一个训练样本。

本发明提到的用户终端可以为移动终端。

步骤202：用户终端对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列。

步骤203：用户终端将该用户的音色合成数据同步到其他终端上。

步骤204：当该用户与其他用户通信时，该用户终端从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端。

步骤205：对端用户终端根据该用户的音色合成数据，由该基频信号计算得到该用户的原始语音信号。

图3为本发明实施例提供的线型滤波器系数的训练方法流程图，如图3所示，其具体步骤如下：

步骤300：预先设定本次训练的h(m)样本聚合置信区间及本次训练的h(m)数据精度。

样本聚合置信区间和数据精度可根据实际需要、经验等确定。

步骤301：对于任一用户，用户终端采集该用户在预设时长内发出的语音信号，对采集的语音信号进行采样，每个采样样本作为一个训练样本。

这里，用户发出的语音内容为预先指定的，其中应包括大多数的浊音和清音，以使得训练结果尽量具有通用性。

采样样本的长度可预先设定。

步骤302：从每个训练样本中提取出基频信号。

本步骤可采用现有技术实现。

步骤303：对于每个训练样本，根据该样本的基频信号和训练样本，计算出该样本的线型滤波器系数h(m)。

本步骤可采用现有技术实现。其中，m表示线型滤波器系数的阶数

步骤304：当针对所有训练样本都已计算出h(m)时，分别计算每个样本的h(m)与目标h(m)的差值，得到每个训练样本的h(m)的误差，统计误差在步骤300设定的h(m)样本聚合置信区间内的样本数目。

目标h(m)可根据所有训练样本的h(m)得到，例如：目标h(m)为所有训练样本的h(m)的均值等。

步骤305：计算误差在步骤300设定的h(m)样本聚合置信区间内的样本数目与样本总数的比值，若该比值不小于步骤300设定的h(m)数据精度，则确定本次训练成功，对目标h(m)进行量化处理，将量化后的目标h(m)作为本次训练结果；否则，确定本次训练失败。

本步骤中，对目标h(m)进行量化处理时，量化误差范围为预先设定好的，且量化误差范围小于步骤300设定的h(m)样本聚合置信区间。

在实际应用中，当训练失败时，在下次训练时，可以调整训练样本，或者调整训练的数据精度。

在实际应用中，对于目标h(m)，也可以训练多次，得到多个训练结果，根据该多个训练结果得到最终的训练结果，例如：将数据精度最高的训练结果作为最终的训练结果，或者，对多个训练结果取均值，将该均值作为最终的训练结果。其中，在训练时，可以采用数据精度递增的训练方式，即当本次训练成功时，在下次训练时，增大训练样本的数目，同时增大数据精度，另外，可为不同的数据精度范围设定不同阶数的滤波器系数，其中，数据精度越高，滤波器系数的阶数越大，例如：数据精度在[e1，e2)时，滤波器系数为7阶，数据精度在[e2，e3]时，滤波器系数为11阶，其中，e1<e2<e3。

图4为本发明实施例提供的噪声序列的训练方法流程图，如图4所示，其具体步骤如下：

步骤400：预先设定本次训练的噪声序列样本聚合置信区间及本次训练的噪声序列数据精度。

步骤401：当通过步骤301～305训练成功，得到了训练结果：目标h(m)时，对每个训练样本，采用该目标h(m)对提取出基频信号的每个训练样本进行滤波，滤波结果即为该训练样本的噪声序列。

步骤402：当得到所有训练样本的噪声序列后，计算每个样本的噪声序列与目标噪声序列的差值，得到每个训练样本的噪声序列的误差，统计误差在步骤400设定的噪声序列样本聚合置信区间内的样本数目。

目标噪声序列可根据所有训练样本的噪声序列得到，例如：目标噪声序列为所有训练样本的噪声序列的均值等。

步骤403：计算误差在步骤400设定的噪声序列样本聚合置信区间内的样本数目与样本总数的比值，若该比值不小于步骤400设定的噪声序列数据精度，则确定本次训练成功，对目标噪声序列进行量化处理，将量化后的目标噪声序列作为本次训练结果；否则，确定本次训练失败。

本步骤中，对目标噪声序列进行量化处理时，量化误差范围为预先设定好的，且量化误差范围小于步骤400设定的噪声序列样本聚合置信区间。

在实际应用中，对于噪声序列，也可以训练多次，得到多个训练结果，根据该多个训练结果得到最终的训练结果。例如：将数据精度最高的训练结果作为最终的训练结果，或者，对多个训练结果取均值，将该均值作为最终的训练结果。其中，在训练时，可以采用数据精度递增的训练方式，即当本次训练成功时，在下次训练时，增大训练样本的数目，同时增大数据精度。

步骤404：当整个训练过程完成时，用户终端在空闲时将训练得到的目标h(m)和目标噪声序列作为本用户的音色合成数据同步到该本用户的好友终端上。

另外，对于图3、4所示训练过程，在实际应用中，若已经训练了某些字句，当用户正常通话时，若用户终端识别出了这些字句，可以询问用户是否正确，若正确，则可将这些字句加入到训练样本库中，以便后续训练时使用。

图5为本发明实施例提供的语音通信方法流程图，如图5所示，其具体步骤如下：

步骤501：当用户a与用户b通话时，用户a的用户终端A采集用户a发出的语音信号。

步骤502：用户终端A判断自身是否已经训练得到用户a的音色合成数据，若是，执行步骤504；否则，执行步骤503。

本步骤中，用户终端A判定自身已经训练得到用户a的音色合成数据后，还可以先判断用户a的音色合成数据是否已经同步到用户b的用户终端B，若是，直接执行步骤504；否则，先将用户a的音色合成数据同步到用户终端B，再执行步骤504。

步骤503：用户终端A采用现有方法对语音信号进行编码后发送给用户b的用户终端B，本流程结束。

步骤504：用户终端A从用户a的语音信号中提取基频信号，并计算语音信号的基音周期和每帧语音信号的能量，将基频信号及计算得到的基音周期和每帧语音信号的能量发送给用户终端B。

基音周期可采用现有技术计算得到。

步骤505：用户终端B接收该基频信号及基音周期和和每帧语音信号的能量，在自身查找到用户a对应的音色合成数据，根据该音色合成数据中的目标h(m)对该基频信号进行逆向滤波，对逆向滤波信号和该音色合成数据中的目标噪声序列进行叠加，根据接收到基音周期和每帧语音信号的能量，对叠加信号进行调整后播放给用户b。

基音周期可对语音信号的音节之间的间隔进行调整，每帧语音信号的能量可对语音信号的音量进行调整。

需要说明的是，在通过图3、4训练得到用户的音色合成数据，即目标h(m)和目标噪声序列后，可计算该音色合成数据的精度，具体计算方式可如下：

设针对该用户，进行了多次训练，共得到了S（S>=1）组训练结果，分别为：A₁(a₁₁,a₁₂,...,a_1p)，A₂(a₂₁,a₂₂,...,a_2p)，…，A_S(a_S1,a_S2,...,a_Sp)，本发明中，p=2，即每组训练结果中只包含两个数据，一个是目标h(m)，一个是目标噪声序列。

首先，计算A₁(a₁₁,a₁₂,...,a_1p)、A₂(a₂₁,a₂₂,...,a_2p)、…、A_S(a_S1,a_S2,...,a_Sp)的平均值，得到：

A_{aver} = Σ_{j = 1}^{S} A_{j} / S = A_{aver} (a_{1}, a_{2}, . . ., a_{P})

然后，计算每一组数据A_x(x＝1,2,...,S)与平均值A_aver的广义距离D_x(x＝1,2,...,S)：

D_{x} = Σ_{k = 1}^{p} {(a_{xk} - a_{k})}^{2} / P

当每组数据的D_x(x＝1,2,...,S)都计算完毕时，计算满足预设条件的D_x的数目与D_x总数的比值，该比值即为该用户的音色合成数据的精度。其中，预设条件可以为：D_x小于预设门限。

同时，在步骤502中，当用户终端A判定自身已经训练得到用户a的音色合成数据时，可先不执行步骤504，先判断该音色合成数据的精度是否不小于预设精度，若是，则执行步骤504，否则，执行步骤503。

从图2～5所示实施例可以看出，本发明具备以下优点：

一、当训练得到用户的音色合成数据后，可以进行基频通信，而基频信号不易受干扰，从而使得原始语音信号更易还原，提高了通信质量和成功率。

二、采用基频通信，由于基频数据所占带宽非常小，因此可以减少占用的通信带宽。

图6为本发明实施例提供的语音通信装置的组成示意图，如图6所示，其主要包括：训练模块61、训练结果同步模块62和语音通信模块63，其中：

训练模块61：采集用户发出的语音信号，对采集的语音信号进行采样，每个采样样本作为一个训练样本，对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列，将该用户的音色合成数据发送给训练结果同步模块62。

训练结果同步模块62：将训练模块61发来的该用户的音色合成数据同步到好友终端上。

语音通信模块63：当用户与其他用户通信时，判断训练模块61是否已经训练出该用户的音色合成数据，若是，从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端，以便：对端用户终端根据该用户的音色合成数据，由该基频信号计算得到该用户的原始语音信号。

这里，语音通信模块63判定训练模块61已经训练出该用户的音色合成数据后，还可以先判断训练结果同步模块62是否已将该用户的音色合成数据同步到对端用户终端，若是，直接执行所述从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端的动作；否则，先将用户的音色合成数据同步到对端用户终端，再执行所述从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端的动作。

其中，训练模块61对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数可以包括：

从每个训练样本中提取出基频信号；根据该样本的基频信号和训练样本，计算出该样本的线型滤波器系数h(m)；当针对所有训练样本都已计算出h(m)时，分别计算每个样本的h(m)与目标h(m)的差值，得到每个训练样本的h(m)的误差，统计误差在预先设定的h(m)样本聚合置信区间内的样本数目，计算该数目与样本总数的比值，若该比值不小于预先设定的h(m)数据精度，则确定本次训练成功，对目标h(m)进行量化处理，得到最终的目标h(m)。

训练模块61对该用户的训练样本进行训练，得到该用户的音色合成数据：目标噪声序列可以包括：

对每个训练样本，采用训练得到的目标h(m)对提取出基频信号的每个训练样本进行滤波，滤波结果即为该训练样本的噪声序列；当得到所有训练样本的噪声序列后，计算每个样本的噪声序列与目标噪声序列的差值，得到每个训练样本的噪声序列的误差，统计误差在预先设定的噪声序列样本聚合置信区间内的样本数目，计算该数目与样本总数的比值，若该比值不小于预先设定的噪声序列数据精度，则确定本次训练成功，对目标噪声序列进行量化处理，得到最终的目标噪声序列。

语音通信模块63进一步用于，当从该用户发出的语音信号中提取出基频信号时，计算语音信号的基音周期和每帧语音信号的能量，将该基音周期和每帧语音信号的能量发送给对端用户终端。

训练结果同步模块62进一步用于，接收其他终端发来的其他终端用户的音色合成数据，且，语音通信模块63进一步用于，当接收到其他终端发来的基频信号时，在训练结果同步模块62查找到其他终端用户对应的音色合成数据，根据该音色合成数据，由该基频信号计算得到该其他终端用户的原始语音信号。

训练模块61进一步用于，当得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列时，计算用户的音色合成数据的精度；且，语音通信模块63进一步用于，当所述用户与其他用户通信时，判断训练模块计算得到的所述用户的音色合成数据的精度是否不小于预设精度，若是，执行所述从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端的动作；否则，对该用户发出的语音信号进行编码后发送给对端用户终端。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音通信方法，其特征在于，该方法包括：

用户终端将该用户的音色合成数据同步到其他终端上；

2.根据权利要求1所述的方法，其特征在于，所述对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数包括：

3.根据权利要求2所述的方法，其特征在于，所述对该用户的训练样本进行训练，得到该用户的音色合成数据：目标噪声序列包括：

4.根据权利要求1所述的方法，其特征在于，所述用户终端从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端进一步包括：

5.根据权利要求1所述的方法，其特征在于，所述用户终端将该用户的音色合成数据同步到其他终端上为：

6.根据权利要求1所述的方法，其特征在于，所述当所述用户与其他用户通信时，用户终端从该用户发出的语音信号中提取出基频信号，将该基频信号发送给对端用户终端包括：

7.一种语音通信装置，其特征在于，该装置包括：

8.根据权利要求7所述的装置，其特征在于，所述训练模块对该用户的训练样本进行训练，得到该用户的音色合成数据：目标线型滤波器系数包括：

9.根据权利要求8所述的装置，其特征在于，所述训练模块对该用户的训练样本进行训练，得到该用户的音色合成数据：目标噪声序列包括：

10.根据权利要求8所述的装置，其特征在于，所述语音通信模块进一步用于，当从该用户发出的语音信号中提取出基频信号时，计算语音信号的基音周期和每帧语音信号的能量，将该基音周期和每帧语音信号的能量发送给对端用户终端。

11.根据权利要求8所述的装置，其特征在于，所述训练结果同步模块进一步用于，接收其他终端发来的其他终端用户的音色合成数据，

12.根据权利要求8所述的装置，其特征在于，所述训练模块进一步用于，当得到该用户的音色合成数据：目标线型滤波器系数和目标噪声序列时，计算用户的音色合成数据的精度；