CN107564538A

CN107564538A - 一种实时语音通信的清晰度增强方法及系统

Info

Publication number: CN107564538A
Application number: CN201710841920.XA
Authority: CN
Inventors: 胡瑞敏; 李罡; 程枫; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-01-09

Abstract

本发明属于语音信号处理与通信技术领域，公开了一种实时语音通信的清晰度增强方法及系统，系统包括：语音信号修正模块、噪声波形抵消模块、综合调整模块。方法包括：获取感知参数、语音信号和噪声信号，对语音信号进行修正处理，得到已修正语音信号；获取噪声信号，对噪声信号进行噪音波形抵消处理，得到预测噪声信号；对已修正语音信号和预测噪声信号进行综合调整，得到清晰度增强信号。本发明解决了现有技术中语音清晰度提升不足的问题，达到了在实现语音清晰度增强的同时，最大程度地降低系统硬件成本的技术效果。

Description

一种实时语音通信的清晰度增强方法及系统

技术领域

本发明涉及语音信号处理与通信技术领域，尤其涉及一种实时语音通信的清晰度增强方法及系统。

背景技术

20世纪末，绝大多数语音通信终端位于室内座机电话或电话亭中，通过空间隔绝的方式减少噪声对语音信号的干扰；随着21世纪移动通信技术的快速发展，人们可以随时随地通过移动终端进行语音通信，而不同场景下的多样化环境噪声对通话者接收到语音的清晰度带来了严重的干扰。

有噪环境下的语音通信划分为两个过程：(1)处于有噪环境中说话者，对通信终端输入了一段语音，终端麦克风采集到了语音信号，同时还采集到了环境噪声信号；(2)处于有噪环境中听音者，从移动终端扬声器或耳机接收到输出的语音信号，同时人耳还接收到环境中的噪声信号。

针对过程(1)中麦克风采集到含有噪声的语音信号这种情况，将有噪语音信号中的噪声滤除，称为远端语音增强技术；针对过程(2)中人耳接收到语音信号的同时接收到噪声的情况，调整移动终端扬声器的输出信号，称为语音清晰度增强技术或近场听音增强技术。

为了提高语音清晰度，传统方法采用统一标准修改语音信号的方式，通过改变语音信号的感知声学特性和能量掩蔽噪声。年龄、性别等因素都会改变一个人对语音清晰度判断的标准，采用统一标准修正信号可能导致对部分人群的清晰度提升不足或因过度修正使音调改变降低听觉感受。

除了采用语音修正的方法，还有通过主动降噪的方式提高语音清晰度，主动降噪技术是利用附加声源生成噪声抵消信号，根据噪声波形产生与原始噪声信号振幅相等、相位相反的信号，使两者波形相互抵消。主动降噪的方法优势明显，但主要的主动降噪系统却仍然主要针对的是头戴式耳机且价格昂贵。传统的主动噪声抵消算法主要使用自适应滤波的预测噪声的方法，而噪声具有一定的随机性，传统的数字信号处理的方法在噪声变化周期性较弱时滤波效果明显下降；同时，移动终端大多采用单麦克风设计，在没有双麦克风组成反馈系统的情况下，采用数字信号处理的方式预测噪声误差较大。

综上，使用传统方法修正信号可能导致清晰度提升不足或因过度修正使音调改变降低听觉感受；使用传统方法预测噪声在抵消一部分噪声的同时也会引入很多新的噪声，对清晰度的提升十分有限。同时，语音修正和主动降噪作为提升语音清晰度的两大关键技术，但往往被分离开来单独研究和设计，这不利于两项技术在语音通信中的联合使用。

发明内容

本申请实施例通过提供一种实时语音通信的清晰度增强方法及系统，解决了现有技术中语音清晰度提升不足的问题。

本申请实施例提供一种实时语音通信的清晰度增强系统，包括：语音信号修正模块、噪声波形抵消模块、综合调整模块；

所述语音信号修正模块用于根据输入的感知参数、语音信号和噪声信号，输出已修正语音信号；

所述噪声波形抵消模块用于根据输入的噪声信号，输出预测噪声信号；

所述综合调整模块用于根据输入的所述已修正语音信号和所述预测噪声信号，输出清晰度增强信号。

优选的，所述语音信号修正模块包括：清晰度估计模型选择模块、语音清晰度估计模块、语音特性调整模块；

所述清晰度估计模型选择模块用于根据所述感知参数生成清晰度估计模型标号，并根据所述清晰度估计模型标号在清晰度估计模型数据库中提取对应的清晰度估计模型，所述清晰度估计模型包括清晰度估计函数和清晰度修正函数；

所述语音清晰度估计模块用于将输入的语音信号和噪声信号进行子带划分，根据子带划分后的语音信号和噪声信号、所述清晰度估计函数得到清晰度估计值；

所述语音特性调整模块用于根据所述清晰度估计值和所述清晰度修正函数得到所述已修正语音信号。

优选的，所述噪声波形抵消模块包括：噪声场景判别模块、噪声波形预测模块；

所述噪声场景判别模块用于提取所述噪声信号的噪声场景特征，并根据所述噪声场景特征选择所述噪声信号对应的场景类型；

所述噪声波形预测模块用于根据所述场景类型选择对应的神经网络预测模型，所述神经网络预测模型根据所述噪声信号生成所述预测噪声信号。

优选的，所述综合调整模块对所述预测噪声信号进行反相处理生产噪声波形抵消信号，并根据所述已修正语音信号和所述噪声波形抵消信号对应的增益因子生成所述清晰度增强信号。

优选的，所述感知参数包括用户的年龄、性别、听力障碍等级、耳廓尺寸。

本申请实施例提供一种实时语音通信的清晰度增强方法，包括：

获取感知参数、语音信号和噪声信号，对所述语音信号进行修正处理，得到已修正语音信号；

获取噪声信号，对所述噪声信号进行噪音波形抵消处理，得到预测噪声信号；

对所述已修正语音信号和所述预测噪声信号进行综合调整，得到清晰度增强信号。

优选的，根据所述感知参数生成清晰度估计模型标号，并根据所述清晰度估计模型标号在清晰度估计模型数据库中提取对应的清晰度估计模型，所述清晰度估计模型包括清晰度估计函数和清晰度修正函数；

对所述语音信号和所述噪声信号进行子带划分，根据子带划分后的语音信号和噪声信号、所述清晰度估计函数得到清晰度估计值；

根据所述清晰度估计值和所述清晰度修正函数得到所述已修正语音信号。

优选的，提取所述噪声信号的噪声场景特征，并根据所述噪声场景特征选择所述噪声信号对应的场景类型；

根据所述场景类型选择对应的神经网络预测模型，所述神经网络预测模型根据所述噪声信号得到所述预测噪声信号。

优选的，对所述预测噪声信号进行反相处理生产噪声波形抵消信号，并根据所述已修正语音信号和所述噪声波形抵消信号对应的增益因子生成清晰度增强信号。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在本申请实施例中，结合语音信号调制和噪声波形抵消两大技术，利用通信终端自身硬件设备，仅需要单麦克风和单扬声器，便能有效提高通信过程中听音环节的语音清晰度，达到在实现语音清晰度增强的同时，最大程度地降低系统硬件成本的技术效果。

附图说明

为了更清楚地说明本实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种实时语音通信的清晰度增强系统的总体结构示意图；

图2为本发明实施例提供的一种实时语音通信的清晰度增强系统中语音信号修正的示意图；

图3为本发明实施例提供的一种实时语音通信的清晰度增强系统中噪声波形抵消的示意图。

具体实施方式

本申请实施例通过提供一种实时语音通信的清晰度增强系统，解决了现有技术中语音清晰度提升不足的问题。

本申请实施例的技术方案为解决上述技术问题，总体思路如下：

一种实时语音通信的清晰度增强系统，包括：语音信号修正模块、噪声波形抵消模块、综合调整模块；

一种实时语音通信的清晰度增强方法，包括：

本发明结合语音信号调制和噪声波形抵消两大技术，利用通信终端自身硬件设备，仅需要单麦克风和单扬声器，便能有效提高通信过程中听音环节的语音清晰度，达到在实现语音清晰度增强的同时，最大程度地降低系统硬件成本的技术效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本实施例提供了一种实时语音通信的清晰度增强方法及系统，主要涉及语音清晰度增强(或近场听音增强)领域内的相关技术。

本发明的总体框架基于“语音信号调整+噪声波形抵消”的联合策略，并在语音信号调整过程中根据不同人群的感知特征选择不同的清晰度估计模型。

提供的一种实时语音通信的清晰度增强系统包括三大模块：

(1)语音信号修正模块

(2)噪声波形抵消模块

(3)综合调整模块

其中，(1)语音信号修正模块，以及(2)噪声波形抵消模块包含：清晰度估计模型选择、语音清晰度估计、语音特性调整、噪声场景判别、噪声波形预测五个模块。由清晰度估计模型选择、语音清晰度估计、语音特性调整三个模块共同完成语音信号修正；由噪声场景判别、噪声波形预测两个模块共同完成噪声波形抵消。最终由(3)综合调整模块将已修正语音信号和噪音波形抵消信号根据环境以最优方式组合起来。

各模块说明如下：

清晰度估计模型选择模块：根据不同个性化感知参数，选择最适宜的清晰度估计模型。具体的，根据用户输入的年龄、性别、听力障碍级别、耳廓尺寸等个性化感知参数作为神经网络的输入，神经网络根据输入参数选择最佳语音清晰度估计模型，并生成对应模型标号，根据标号从数据库中提取对应清晰度估计模型。

语音清晰度估计模块：根据清晰度估计模型，对即将播放的下一帧语音信号对人耳感受的清晰度进行估计，提供清晰度参考值。具体的，语音清晰度估计模块首先对输入的一帧语音信号和一帧噪声信号进行分子带操作，再使用清晰度估计模型选择模块输出的语音清晰度估计模型对每个子带的语音清晰度进行评价，并对语音信号总清晰度进行评价。

语音信号调整模块：根据提供的清晰度参考值，调整语音信号频谱特性，使修正后的语音信号具有更高的清晰度。具体的，语音信号调整模块根据语音清晰度估计模块提供的清晰度指标，若该帧语音信号整体清晰度符合要求，则不修正语音信号；若该帧语音信号整体清晰度不符合要求，则需要修正语音信号。对于需要修正的语音信号，根据感知声学原理对语音信号频谱和时域包络进行调整。

噪声场景快速判别模块：对当前帧噪声场景类别进行判断。具体的，噪声场景快速判别模块在整个通信过程发起阶段，采集若干帧当前环境噪声信号，利用机器学习算法快速判别当前环境噪声所属场景类别，并输出场景类别标号；在通信过程进行阶段，每隔若干秒重新检测一次场景噪声，若场景没有改变则不改变场景标号，若场景发生改变则输出新的场景标号。

噪声波形预测模块：根据噪声场景，选择最适的神经网络，输入当前帧噪声信号特征参数，预测下一帧噪声信号波形。具体的，噪声波形预测模块根据采集的环境噪声，根据噪声场景快速判别模块中得到的场景类别，选择对应的神经网络预测模型，使用当前帧噪声信号作为神经网络输入，预测下一帧噪声信号波形。

综合调整模块：将下一帧修正后的语音信号和预测噪声信号根据两者特性进行最优化波形混合，得到最后通信终端的输出信号。具体的，综合调整模块将语音信号调整模块输出的已修正语音信号和噪声波形预测模块输出的预测噪声信号作为输入，对预测噪声信号进行反相运算，根据语音信号与噪声信号的能量关系，选择合适的比例系数将两个信号混合。

其中，噪声信号可直接利用通信终端中的单个麦克风采集，扬声器采用移动终端自身扬声器，无需配置额外的采集和播放硬件设备。

本发明根据通信终端麦克风采集到的连续噪声信号和远端传输的下一帧语音信号，参考当前的语音清晰度评价模型，估计出人耳下一帧将听到的语音信号各子带(频段)清晰度。根据已获得的各子带清晰度信息和清晰度评价模型，对清晰度不足的子带信号采用能量再分配、相位调整算法和语音感知原理调整相应子带的清晰度。使用机器学习方法，对通信终端麦克风采集到的噪声信号进行快速场景判别。根据噪声场景判别模块中判定的噪声场景类型，选择对应的神经网络预测模型，根据前若干帧的噪声特征数据，对下一帧的噪声信号进行预测，得到预测噪声信号。根据修正后的语音信号和预测噪声信号的能量强度，按合适的能量比例将语音信号和预测噪声的反相信号线性叠加。

为透彻的理解本发明，在接下来的描述中，将结合附图陈述更多技术细节。应当理解，此处所描述的具体实施示例仅用于解释本发明，但并不用于限定本发明。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

参见图1，提供的方法及系统涉及以下过程：

输入101：用户输入的个性化感知参数。

一种优选的情况，感知特性参数包括用户的年龄、性别、听力障碍级别、耳廓尺寸等；但不局限于上述特征。

输入102：通信终端接收到的一帧语音信号，该帧语音信号也为听音者将听到的下一帧语音信号。

一种优选的情况，该帧时长为20毫秒，采样率8000赫兹，采样深度为16位，每一帧信号与前一帧有50％重叠，并经过加窗处理；如果是模拟信号应转换为此格式的数字信号，如为其他采样格式下的数字信号，各步骤运算细节将略有调整。

输入103：使用手机麦克风采集一帧的噪声信号，帧长、采样率和采样深度等信息应与输入102中读取的语音信号保持一致；噪声信号每一帧同样50％重叠，但不经过重叠窗处理。

应该注意的是，此处规定的采样格式只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

步骤200为语音信号修正过程，步骤300为噪声波形抵消过程，步骤400为已修正语音信号和预测噪声信号的综合调整，输出500为通信终端最终输出信号，包含语音信号和环境噪声抵消信号。

语音信号修正(步骤200)包含：清晰度估计模型选择(步骤210)、语音清晰度估计(步骤220)、语音特性调整(步骤230)。

噪声波形抵消(步骤300)包含：噪声场景判别(步骤310)、噪声波形预测(步骤320)。

图2是本发明中语音信号修正(步骤200)的示意图，包括：

输入101、输入102、输入103、步骤210、步骤220、步骤230，且上述输入和步骤与图1含义一致；输出240为已修正语音信号，对应图1中步骤400的一个输入，也是步骤200的最终输出。

步骤210包含：输入101、输出213、步骤211、步骤212。

步骤211：输入101的个性化感知参数，将年龄、性别、听力障碍级别、……、耳廓尺寸等特征可以记为向量θ₁,θ₂,θ₃,…,θ_n，向量的维度取决于特征的维度，且不同特征的向量维度也不同；生成清晰度估计模型标号过程表示为：

Tag＝net(θ₁,θ₂,θ₃,…,θ_n)，Tag∈[1,M]

其中，net表示根据输入特征向量生成模型标号的神经网络模型，该网络已通过机器学习在通信过程之外训练完毕；Tag表示用于在步骤212中提取相应模型的标签；M为清晰度估计模型的最大标号，即清晰度估计模型总数。

应理解：net所代表的神经网络模型不仅包含表神经网络本身，还包含神经网络的前处理和后处理，以便匹配步骤211的输入和输出。

步骤212：根据Tag在清晰度估计模型数据库中提取对应的清晰度估计模型，作为输出213，清晰度估计模型的函数包含的清晰度估计函数以f表示，包含的清晰度修正函数以g表示。

步骤220：输入102的一帧语音信号以sg表示，输入103的一帧噪声信号以ni表示，sg与ni经过时频变换并划分为K个子带，语音清晰度估计过程表示为：

其中，I(k)表示第k个子带的语音清晰度，i表示一帧语音信号中的第i个时频点，k_min表示当前片段最小的时频点标号，k_max表示当前片段最大的时频点标号，f_k表示清晰度估计模型中所第k个子带的函数对应关系。

优选地，sg与ni进行快速傅里叶变换(Fast Fourier Transform，FFT)。

应理解：当前麦克风采集的噪声信号(输入103)并非播放输出信号(输出500)时人耳实际接触的环境噪声，因为任何运算都具备一定的时间复杂度，当播放输出信号(输出500)时，环境噪声已经发生了变化。但由于环境噪声不具有突变性(以毫秒级分隔而言)，因此以当前采集的环境噪声作为清晰度评价指标误差在可接受范围之内。

应理解：子带划分方式不是唯一的，清晰度估计模型(输出213)包含的清晰度估计函数f也不是唯一的。

步骤230：根据步骤220中获得的清晰度估计值，使用与用户适配的最佳清晰度修正函数g对语音信号不同子带的频谱进行调整。对于任意一个子带的任意一个时频点，其修正过程可以表示为：

sg'(k,i)＝g_k[sg(k,i),ni(k,i),I(k)]

信号sg'还需要进一步进行频域包络修正和时域修正，并将频域信号还原为时域信号得到sg”，sg”为已修正的语音信号(输出240)。

经过步骤230后，所得到的语音信号可能在音量和音色上发生变化，但不影响对语音内容的理解，且根据不同的个性化感知参数、语音清晰度估计模型和环境噪声程度，其变化幅度不同。经过修正过的语音，在相同的噪声环境下，应具有更强的清晰度，语音内容具有更高的可识别率。

图3是本发明中噪声波形抵消的示意图，包括：

输入103、步骤310、步骤320，且上述输入和步骤与图1含义一致；输出330预测噪声信号为对应图1中步骤400的一个输入，也是步骤300的最终输出。

应理解：由于任何运算都存在时间复杂度，若直接将麦克风采集的噪声信号(输入103)输入综合调整模块(步骤400)产生反相抵消信号，抵消信后已滞后于实际噪声信号，所以需要由图3的结构完成噪声波形预测功能，用预测噪声波形信号反相后抵消实际噪声。

步骤310：提取噪声信号(输入103)的噪声场景特征并输入至基于机器学习的场景判别模块中，噪声信号属于哪一种场景，则将噪声信号输入至与场景对应的后续步骤中。

优选地，采用已拟合的神经网络进行快速场景分类。

优选地，场景分类包括机械震动噪声、气流摩擦声、嘈杂人群噪声、车流噪声、乐器演奏声等。

输入321：基于场景的不同，输入的场景(输入321)对应的模块不同。

步骤322：根据噪声场景判别(步骤310)中判断的类型，选择所对应的抵消噪声预测模型，使用前n帧的噪声信号对下一帧噪声信号进行预测。预测信号的目标为尽可能达到与下一帧真实噪声信号相同。神经网络预测模型可表示为：

ni'＝predict(ni₁,ni₂,ni₃,…,ni_n)

其中，predict表示预测神经网络，ni'为预测噪声信号。

应理解：predict所代表的神经网络模型不仅包含表神经网络本身，还包含神经网络的前处理和后处理，以便匹配神经网络预测模型(步骤322)的输入和输出。

优选地，神经网络预测模型(步骤322)采用循环神经网络(Recurrent NeuralNetworks,RNN)进行噪声波形预测；每个类别的神经网络在通信前已使用大量噪声数据集训练至拟合。

步骤400：将图2中最终输出的已修正语音信号sg”(输出240)和图3中最终输出的预测噪声信号ni'(输出330)作为输入，首先将预测噪声信号ni'进行反相操作生成噪声波形抵消信号ni”，然后根据已修正语音信号sg”与噪声波形抵消信号ni”的对应的语音信号增益因子α∈[0,1]和噪声波形抵消信号增益因子β∈[0,1]，最后由如下关系式生成最终输出信号

output：

ouput＝α·sg”+β·ni”

应理解：α与β参数有多种设定方式，既可以根据sg”与ni”按照特定关系实时生成数值，也可以设置固定值，本方法仅限定output的关系表达式，但不限定α与β的生成方案。

应该注意的是，经过此适用于实时语音通信的清晰度增强系统带来的语音延迟为一帧时间加上系统处理时间,语音延迟过长将严重影响用户的通话体验，因此整个系统处理的时间应该控制在极短的时间之内，此实施例中为10毫秒。

在扬声器播放当前帧的最终语音信号时，通信终端应该继续获取传输至终端而且未播放的语音信号，麦克风继续获取当前的环境噪声，用于下一帧的语音清晰度增强处理。

应该注意的是，所有步骤中所提及的通信终端并未限定具体设备，本发明适用于手机、平板电脑等任何可用于语音通话的终端设备。

应该注意的是，通话不仅仅包括电信通讯，也可以为其他基于网络的语音聊天及视频聊天中的语音部分。

应该注意的是，本实施例中单词“包含”不排除存在列在权利要求的内容或步骤，所列举的“帧长”，“单位时长”只是作为解释本发明实施步骤的举例，不构成对权利要求的限制。

应该注意的是，本实施实例中的步骤顺序仅用作解释本发明的举例，对部分步骤顺序的修改、删除和任意组合仍然属于本发明的权利保护范围之内。

应该注意的是，本发明的保护点是整套适用于实时语音通信的清晰度增强系统，本实施例中指出的具体模块的具体算法仅用于解释本发明的举例，替换部分具体模块算法，但使用该处理流程仍然属于本发明的权利保护范围之内。

应该注意的是，本发明为降低用户成本，所有模块均可使用终端自身设备完成，本领域的技术人员应当理解，可以在实践中使用外部硬件设备代替终端自身设备来实现本发明中的一些部件的一些或者全部功能，仍然属于本发明的权利保护范围之内。

本发明实施例提供的一种实时语音通信的清晰度增强方法及系统至少包括如下技术效果：

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种实时语音通信的清晰度增强系统，其特征在于，包括：语音信号修正模块、噪声波形抵消模块、综合调整模块；

2.根据权利要求1所述的实时语音通信的清晰度增强系统，其特征在于，所述语音信号修正模块包括：清晰度估计模型选择模块、语音清晰度估计模块、语音特性调整模块；

3.根据权利要求1所述的实时语音通信的清晰度增强系统，其特征在于，所述噪声波形抵消模块包括：噪声场景判别模块、噪声波形预测模块；

4.根据权利要求1所述的实时语音通信的清晰度增强系统，其特征在于，所述综合调整模块对所述预测噪声信号进行反相处理生产噪声波形抵消信号，并根据所述已修正语音信号和所述噪声波形抵消信号对应的增益因子生成所述清晰度增强信号。

5.根据权利要求1所述的实时语音通信的清晰度增强系统，其特征在于，所述感知参数包括用户的年龄、性别、听力障碍等级、耳廓尺寸。

6.一种实时语音通信的清晰度增强方法，其特征在于，包括：

7.根据权利要求6所述的实时语音通信的清晰度增强方法，其特征在于，根据所述感知参数生成清晰度估计模型标号，并根据所述清晰度估计模型标号在清晰度估计模型数据库中提取对应的清晰度估计模型，所述清晰度估计模型包括清晰度估计函数和清晰度修正函数；

8.根据权利要求6所述的实时语音通信的清晰度增强方法，其特征在于，提取所述噪声信号的噪声场景特征，并根据所述噪声场景特征选择所述噪声信号对应的场景类型；

9.根据权利要求6所述的实时语音通信的清晰度增强方法，其特征在于，对所述预测噪声信号进行反相处理生产噪声波形抵消信号，并根据所述已修正语音信号和所述噪声波形抵消信号对应的增益因子生成清晰度增强信号。

10.根据权利要求6所述的实时语音通信的清晰度增强方法，其特征在于，所述感知参数包括用户的年龄、性别、听力障碍等级、耳廓尺寸。