CN114093380A

CN114093380A - 一种语音增强方法、电子设备、芯片系统及可读存储介质

Info

Publication number: CN114093380A
Application number: CN202210080908.2A
Authority: CN
Inventors: 玄建永; 刘镇亿; 高海宽; 郭鑫涛
Original assignee: Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-02-25
Anticipated expiration: 2042-01-24
Also published as: CN114093380B

Abstract

本申请提供一种语音增强方法、电子设备、芯片系统及可读存储介质，涉及音视频处理技术领域；该方法包括：提取视频流中的图像帧的图像特征；提取音频流中的音频帧的频域特征，其中，所述音频流和所述视频流具有时间相关性；将所述图像特征和所述频域特征进行拼接，得到拼接特征；识别所述拼接特征在各频点上存在语音的概率值；基于所述概率值和所述音频帧，得到语音增强后的音频流；通过该方法可以改善语音增强效果。

Description

一种语音增强方法、电子设备、芯片系统及可读存储介质

技术领域

本申请涉及音视频处理领域，尤其涉及一种语音增强方法、电子设备、芯片系统及可读存储介质。

背景技术

随着电子设备的智能化程度越来越高，电子设备提供的功能越来越多，例如视频通话、视频录制、视频直播等，这些功能可能需要电子设备上的麦克风采集包含语音的音频信息。为了获得较清晰的语音效果，可以对麦克风采集的音频信息进行语音增强处理。

目前，可以对麦克风采集的音频信息进行语音活动检测（Voice ActivityDetection，VAD）处理，以减弱音频信号中的噪声，对音频信号中的语音进行增强。然而，在环境噪声较大的场景中，这种方式得到的语音信号仍然混杂较多的噪声，导致语音增强效果较差。

发明内容

本申请提供一种语音增强方法、电子设备、芯片系统及可读存储介质，可以改善语音增强效果。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种语音增强方法，该方法包括：

提取视频流中的图像帧的图像特征，所述图像帧包含唇部图像；

提取音频流中的音频帧的频域特征，其中，所述音频流和所述视频流具有时间相关性；

将所述图像特征和所述频域特征进行拼接，得到拼接特征；

识别所述拼接特征在各频点上存在语音的概率值；

基于所述概率值和所述音频帧，得到语音增强后的音频流。

本申请中，在对包含语音信息的音频流进行语音增强时，可以估计音频帧的各频点上存在语音的概率值（VAD估计）。在进行VAD估计时，可以增加视频流中的包含唇部图像的图像特征。以同时通过视频和音频双方面的特定进行VAD估计，从而得到较精确的VAD估计结果。另外，本申请中，可以将视频流中的图像特征和音频流中的频域特征组合到一起后，再进行VAD估计，相比于单独对视频进行VAD估计和单独对音频进行VAD估计，得到的VAD估计结果更精确。

作为第一方面的一种实现方式，所述提取音频流中的音频帧的频域特征包括：

对所述音频流进行分帧处理，得到音频帧；

对所述音频帧进行时频转换，得到所述音频帧对应的频域信号；

提取所述频域信号的频域特征，所述频域特征包括幅值和相位。

本申请中，通过分帧处理可以实现对实时音频流进行实时语音增强处理，以应用在实时性要求较高的场景中。

作为第一方面的另一种实现方式，所述识别所述拼接特征在各频点上存在语音的概率值包括：

将所述拼接特征输入神经网络模型，得到所述拼接特征在各频点上存在语音的概率值，其中，所述神经网络模型包括依次连接的第一深度神经网络、N个长短期记忆网络、第二深度神经网络，所述第一深度神经网络用于对所述拼接特征进行降维，所述长短期记忆网络用于结合历史帧的拼接特征得到本帧的特征，所述第二深度神经网络用于对所述长短期记忆网络的输出特征进行聚类后输出所述拼接特征在各频点上存在语音的概率值，N为大于或等于2的自然数。

本申请中，通过第一深度神经网络将拼接特征进行降维处理，以得到和音频帧的频域信号相同维度的特征；通过长短期记忆网络集合历史帧的拼接特征得到本帧的特征，以通过历史帧的情景更精确的预测所述拼接特征在各频点上存在语音的概率值；通过第二深度神经网络对长短期记忆网络的输出特征进行聚类，以音频帧在每个频点上存在语音的概率。

作为第一方面的另一种实现方式，所述第一深度神经网络的输出的维度和所述频域特征的维度相同。

作为第一方面的另一种实现方式，所述基于所述概率值和所述音频帧，得到语音增强后的音频流，包括：

基于所述概率值，计算所述音频帧中的噪声信息；

根据所述音频帧和所述噪声信息，计算先验信噪比；

基于所述先验信噪比，计算维纳滤波增益值；

根据所述音频帧和所述增益值，得到语音增强后的音频特征谱；

对所述语音增强后的音频特征谱进行频时转换，得到语音增强后的音频流。

作为第一方面的另一种实现方式，所述基于所述概率值，计算所述音频帧中的噪声信息，包括：

通过公式

，计算第

帧音频帧的第

谱分量的噪声功率谱，所述噪声信息包括所述噪声功率谱估计；

其中，

表示第

帧音频帧的第

谱分量的噪声功率谱估计，

表示第

帧音频帧的第

谱分量存在语音概率的平滑参数，

表示第

帧音频帧的第

谱分量的噪声功率谱估计，

表示第

帧音频帧的第

谱分量的频域幅度谱，

，

表示第

帧音频帧的第

谱分量存在语音的概率值，

为平滑系数，

。

作为第一方面的另一种实现方式，所述根据所述音频帧和所述噪声信息，计算先验信噪比，包括：

通过公式

，计算第

帧音频帧的第

谱分量的先验信噪比；

其中，

表示第

帧音频帧的第

谱分量的先验信噪比，

为平滑系数，

，

为第

帧音频帧的第

谱分量的增益值，

，

为第

帧音频帧的第

谱分量的功率谱，

，

为第

帧音频帧的第

谱分量的功率谱。

作为第一方面的另一种实现方式，所述基于所述先验信噪比，计算维纳滤波增益值，包括：

通过公式

，计算第

帧音频帧的第

谱分量的维纳滤波增益值；

其中，

表示第

帧音频帧的第

谱分量的维纳滤波增益值，

表示第

帧音频帧的第

谱分量的先验信噪比。

作为第一方面的另一种实现方式，所述视频流由电子设备上设置的摄像头实时采集，所述音频流由所述电子设备上设置的麦克风实时采集，所述视频流和所述音频流由所述电子设备同一时间段采集。

第二方面，提供一种电子设备，包括处理器，处理器用于运行存储器中存储的计算机程序，实现本申请第一方面任一项的方法。

第三方面，提供一种芯片系统，包括处理器，处理器与存储器耦合，处理器执行存储器中存储的计算机程序，以实现本申请第一方面任一项的方法。

第四方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被一个或多个处理器执行时实现本申请第一方面任一项的方法。

第五方面，本申请提供了一种计算机程序产品，当计算机程序产品在设备上运行时，使得设备执行本申请第一方面任一项的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的一种电子设备的硬件结构示意图；

图2为本申请实施例提供的一种语音增强方法的应用场景示意图；

图3为本申请实施例提供的一种语音增强方法的流程示意图；

图4为本申请实施例提供的用于进行VAD估计的神经网络模型的结构示意图；

图5为本申请实施例提供的一种语音增强装置的结构示意框图；

图6为图5所示实施例中的语音增强模块的结构示意框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”、“第四”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的一种语音增强方法，可以适用于电子设备中。该电子设备可以为平板电脑、手机、可穿戴设备、笔记本电脑、超级移动个人计算机（ultra-mobilepersonal computer，UMPC）、上网本、个人数字助理（personal digital assistant，PDA）等电子设备。本申请实施例对电子设备的具体类型不作限定。当然，该电子设备上可以设置麦克风和摄像头。

图1示出了一种电子设备的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，摄像头193，显示屏194，以及用户标识模块( subscriberidentification module，SIM)卡接口195等。其中，传感器模块180可以包括压力传感器180A，触摸传感器180K等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。例如，处理器110用于执行本申请实施例中的语音增强方法。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）。

此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信号转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了监听语音信息，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台（open mobile terminal platform，OMTP）标准接口，美国蜂窝电信工业协会（cellular telecommunications industry association of the USA，CTIA）标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

摄像头193用于捕获静态图像或视频。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。

本申请实施例并未特别限定一种语音增强方法的执行主体的具体结构，只要可以通过运行记录有本申请实施例的一种语音增强方法的代码，以根据本申请实施例提供的一种语音增强方法进行处理即可。例如，本申请实施例提供的一种语音增强方法的执行主体可以是电子设备中能够调用程序并执行程序的功能模块，或者为应用于电子设备中的处理装置，例如，芯片。

本申请实施例提供一种音视频融合的语音增强方法。该方法可以应用在视频录制、视频通话和视频直播等场景中。

作为一个场景示例，参见图2，当用户A通过电子设备A与电子设备B侧的用户B进行视频通话时，可以通过电子设备A上设置的摄像头采集至少部分时间段包含用户A的头部图像的视频流1，同时通过电子设备A上设置的麦克风采集至少部分时间段包含用户A的声音的音频流1。电子设备A可以提取视频流1中的图像帧的图像特征（例如，用户A的唇部区域的特征等），还可以提取音频流1中的音频帧的频域特征（例如，用户A说话时的频域幅值等）；将图像特征和频域特征进行拼接得到拼接特征，并对该拼接特征进行语音活动检测（VoiceActivity Detection，VAD），以得到该拼接特征中各频点上存在语音的概率值；然后基于各频点上存在语音的概率值对原始音频帧（从音频流1得到的音频帧的频域信号）进行语音增强处理，得到语音增强后的音频流1。在得到语音增强后的音频流1后，电子设备A可以将语音增强后的音频流1和摄像头采集的原始视频流1一并传输到电子设备B，电子设备B侧的用户B听到电子设备B的扬声器（或耳机）播放的音频为语音增强后的音频流1对应的声音，该声音中噪声较小、用户A的说话声音较清晰。

同时，电子设备B侧的用户B也可以向电子设备A侧的用户A说话，不同的是，电子设备B中未提供本申请实施例提供的语音增强功能。电子设备B上设置的摄像头采集视频流2，电子设备B上设置的麦克风采集至少部分时间段包含用户B的声音的音频流2；电子设备B将视频流2和音频流2一并传输到电子设备A，电子设备A侧的用户A听到电子设备A播放的音频为未经过语音增强处理的音频流对应的声音，该声音中噪声较大、用户B的说话声音不太清晰。

图2所示场景中，通过提供语音增强功能的电子设备A和未提供语音增强功能的电子设备B进行对比，实际应用中，并不表示视频通话场景中双侧的电子设备必须一个提供语音增强功能，一个不提供语音增强功能。

另外，图2所示场景中，电子设备A和电子设备B均未对发送到对方电子设备的视频流1和视频流2进行处理，实际应用中，也可以对发送到对方电子设备的视频流1和/或视频流2进行处理，本申请实施例对此不做限制。

对于其他场景（例如，视频录制和视频直播等）将不再一一举例。

下面将详细描述图2所示应用场景中，电子设备A提供的语音增强方法的流程示意图。参见图3，为本申请实施例提供的语音增强方法的流程示意图，该方法包括：

步骤301，提取视频流中的图像帧的图像特征，所述图像帧包含唇部图像。

本申请实施例中，该视频流可以由电子设备上设置的摄像头采集，当然，也可以由电子设备通过有线或无线的方式连接的外部摄像头采集。

作为示例，当应用在视频通话场景中时，可以通过电子设备上设置的摄像头采集视频流，当应用在视频直播场景中，可以通过与电子设备连接的专业摄像头采集视频流。

当然，上述示例仅用于举例说明，在相同的场景，可以采用电子设备上设置的摄像头采集视频流，也可以采用与电子设备连接的其他摄像头采集视频流。

另外，需要说明，在对实时性要求高的场景中，该视频流可以为摄像头实时采集的视频。

作为示例，摄像头实时采集的视频流由图像帧组成，摄像头每采集到一帧图像帧，电子设备提取该图像帧的图像特征。或者摄像头每采集到M帧图像帧，电子设备提取该M帧图像帧的图像特征。本申请实施例对此不做限制。

本申请实施例主要采用视频流中的各个包含唇部图像的图像帧得到图像特征。

作为一个示例，可以先检测图像帧中是否包含人脸图像，在确定包含人脸图像的情况下，再进一步检测该包含人脸图像的图像帧中是否包含唇部图像；在确定包含唇部图像的情况下，再提取唇部特征，该唇部特征作为图像特征。当然，在不包含人脸图像、或不包含唇部图像的情况下，该图像帧可以丢弃。

作为另一示例，可以直接通过特定模型提取图像帧中的唇部特征，在确定能够提取到唇部特征的情况下，输出唇部特征，该唇部特征作为图像特征。在确定提取不到唇部特征的情况下，输出null。当然，在提取不到唇部特征的情况下，该图像帧可以丢弃。

作为提取视频流中的图像帧的图像特征的另一个示例，可以通过卷积神经网络模型提取图像帧的图像特征。

作为卷积神经网络模型的一个示例，可以通过ResNet网络模型提取图像帧的图像特征。

当然，实际应用中，可以采用现有的用于图像特征检测的ResNet检测模型。也可以搭建ResNet网络模型，通过训练样本对搭建的ResNet网络模型进行训练，以得到用于图像特征检测的ResNet检测模型。该ResNet检测模型输出的图像特征为P维图像特征。其中，训练样本包括：包含唇部特征的图像以及不包含唇部特征的图像，且均进行人工标注。

当然，上述仅用于示例，并不表示只能采用举例的方式提取图像帧的图像特征。

步骤302，提取音频流中的音频帧的频域特征，其中，音频流和视频流具有时间相关性。

本申请实施例中，该音频流可以由电子设备上设置的麦克风采集，当然，也可以由电子设备通过有线或无线连接的外部麦克风采集。

作为示例，当应用在视频通话场景中，可以通过电子设备上设置的麦克风采集音频流，当应用在视频直播场景中，可以通过与电子设备连接的专业麦克风采集音频流。

当然，上述示例仅用于举例说明，在相同的场景，可以采用电子设备上设置的麦克风采集音频流，也可以采用与电子设备连接的其他麦克风采集音频流。

另外，需要说明，在对实时性要求高的场景中，该音频流可以为麦克风实时采集的音频。

作为示例，麦克风实时采集的音频流可以进行分帧处理，从而得到音频帧，可以每采集到一帧音频帧，对该音频帧进行时频转换，以将时域的音频帧信号转换为频域的音频帧信号。然后提取该频域的音频帧信号的频域特征。

该频域特征可以为各频点上的幅值，实际应用中，该频域特征还可以为各频点上的幅值和相位。

作为分帧处理的一种示例，可以设置按照预设帧长（例如，10ms、20ms、30ms、50ms等）进行分帧。即麦克风每经过一定时长可以采集到一帧音频帧。

在采集到一帧音频帧后，需要对该音频帧进行加窗操作，以将一帧音频帧信号的幅度在两端渐变为0，这样可以在后续做傅里叶变换进行时频转换后，该音频帧的各个峰更细，减轻频谱泄露。

然而，加窗操作后，该音频帧两端的信号会被削弱，因此，可以设置每相邻的两个音频帧之间存在重叠部分。每相邻的两个音频帧的起始时间的时间差记为帧移。

作为一个示例，可以设置预设帧长为20ms，可以设置帧移为10ms。在进行分帧处理时，在麦克风在第（i）ms至第（i+20）ms采集的音频流为一帧音频帧；在第（i+10）ms至第（i+10+20）ms采集的音频流为一帧音频帧；在第（i+20）ms至第（i+20+20）ms采集的音频流为一帧音频帧……。

电子设备的麦克风每采集到一帧音频帧，可以对该音频帧进行时频转换。本申请实施例可以采用傅里叶变换作为时频转换的方法，从而将时域的音频帧信号转换为频域的音频帧信号。

本申请实施例后续的步骤均为对频域的音频帧信号进行处理，以将音频帧信号中噪声减弱、语音增强。当然，在语音增强后，还需要将频域的音频转换为时域的音频。

步骤303，将所述图像特征和所述频域特征进行拼接，得到拼接特征。

本申请实施例中，进行拼接的图像特征对应的图像帧和频域特征对应的音频帧在时间上具有相关性。

作为示例，进行拼接的图像特征对应的图像帧的采集时间段和频域特征对应的音频帧的采集时间段相同。

当频域特征为麦克风在第（i）ms至第（i+20）ms采集的音频帧的频域特征的情况下，图像特征为摄像头在第（i）ms至第（i+20）ms采集的图像帧的图像特征。

在拼接时，若图像特征为P维图像特征，频域特征为K维特征，则拼接后，为P+K维拼接特征。

图像帧的引入是为了可以结合用户的唇部特征提高识别音频帧在各频点存在语音的概率值。所以，若在本申请实施例实施的过程中，若摄像头采集的视频中某段时间未识别到唇部特征，则可以在得到拼接特征时，将图像特征设置为P维的特定字符，该P维的特定字符将不影响最终结果的识别。当然，实际应用中，在摄像头采集的视频中某段时间未识别到唇部特征的情况下，也可以仅基于音频帧的频域特征进行VAD识别。

本申请实施例重点考虑摄像头采集的视频中某段时间未识别到唇部特征的情形。

步骤304，识别所述拼接特征在各频点上存在语音的概率值。

本申请实施例中，可以通过神经网络模型对该拼接特征进行处理，以得到该拼接特征在各频点上存在语音的概率值。

参见图4，为本申请实施例提供的用于对拼接特征进行VAD检测的神经网络模型。

该神经网络模型包括依次连接的第一深度神经网络（Deep Neural Networks，DNN）、N个长短期记忆网络（Long Short-Term Memory，LSTM）、第二深度神经网络（DeepNeural Networks，DNN）。N为大于或等于2的自然数。

第一深度神经网络和第二深度神经网络的结构不同。

第一深度神经网络模型用于对输入的拼接特征进行降维，以将P+K维的拼接特征处理为与音频帧的频域特征相同维度的特征（即K维特征）。因此，第一深度神经网络模型的输入可以为P+K维，输出可以为K维。输出结果的维度与音频帧的频域特征的维度相同。

本申请实施例中，可以设置N等于5。即该神经网络模型包括5个依次连接的长短期记忆网络。

该长短期记忆网络为一种时间序列算法，用于解决长输入序列的信息传递问题，适用于具有时间序列的输入特征，而本申请实施例中的拼接特征（图像帧的图像特征和音频帧的频域特征）为具有时间序列的特征，使得在对最终的语音概率预测时，能够结合上一帧（或之前多帧）之间的情境更精确的预测存在语音的概率。其中，上一帧或之前多帧均可以记为历史帧。长短期记忆网络可以结合历史帧的拼接特征得到本帧的特征。

第二深度神经网络用于对输入特征（连接第二深度神经网络的长短期记忆网络的输出特征）进行聚类，以更精确的预测包含语音的概率。第一深度神经网络已经对拼接特征进行降维，第二深度神经网络模型不再进行降维，所以，第二深度神经网络模型的输入可以为K维，输出可以为K维。第二深度神经网络模型可以得到音频帧在每个频点上存在语音的概率。

若第二深度神经网络模型的输出为

，即第

帧音频帧的第

谱分量（频点）存在语音的后验概率值。

在非常肯定存在语音的情况下，P为1，在非常肯定不存在语音的情况下，P为0，在不确定是否存在语音的情况下，0＜P＜1。

通过图4所示的神经网络模型可以得到拼接成该拼接特征的音频帧在各频点上存在语音的概率值。

步骤305，基于所述概率值和所述音频帧，得到语音增强后的音频流。

本申请实施例中，引入图像帧是为了更好的确定音频帧各个频点存在语音的概率值，在确定各个频点存在语音的概率值后，就需要基于该概率值对原始音频帧（频域）进行语音增强。

具体实现时，所述概率值为对图像特征和频域特征拼接后的拼接特征进行VAD估计（经过图4所示的神经网络模型）后得到的概率值。可以基于该VAD结果，估计音频帧中包含的噪声信息，然后基于估计的噪声信息对该音频帧进行语音增强。

通过对图3所示实施例的理解，本申请实施例可以基于图5所示流程框图实现语音增强方法。

本申请实施例提供的语音增强装置至少包括以下模块：ResNet网络、ABS（DFT）模块、concat模块、神经网络模型（例如，图4所示实施例提供的神经网络模型）和语音增强模块。

其中，ResNet网络的输入为视频流或视频流中的各个图像帧，输出为各个图像帧的图像特征。ResNet网络可以实现图3所示实施例中的步骤301对应的功能。

ABS（DFT）模块的输入为音频流或音频流分帧后的各个音频帧，输出为各个音频帧的频域特征。ABS（DFT）模块可以实现图3所示实施例中的步骤302对应的功能。

Concat模块的输入为ResNet网络的输出和ABS（DFT）模块的输出。

Concat模块用于将ResNet网络的输出和ABS（DFT）模块的输出进行拼接得到拼接特征。

神经网络模型的输入为Concat模块输出的拼接特征，输出为各频点上存在语音的概率；

该语音增强模块的输入包括该VAD的输出和音频流或音频流中的音频帧（频域音频信号），输出为语音增强后的音频帧。当然，实际应用中，VAD的输出和音频帧也为具有时间相关的两个参数，例如，VAD的输出是基于第i帧音频帧得到的，则在进行语音增强时，也需要基于第第i帧音频帧得到的VAD输出对第i帧音频帧进行语音增强处理。

当然，实际应用中，由于摄像头实时的采集视频流，麦克风实时的采集音频流，每经过帧移对应的时长，可以得到一帧增强处理后的音频帧。在摄像头源源不断的采集视频流、麦克风源源不算的采集音频流的情况下，将源源不断得到语音增强后的音频帧，最后将这些语音增强后的音频帧组合后得到语音增强后的音频流。

作为本申请另一实施例，参见图6，为本申请实施例提供的语音增强模块的结构示意图。该语音增强模块用于基于所述概率值（VAD输出）和所述音频流，得到语音增强后的音频流。

该语音增强模块包括：噪声估计子模块、增益计算子模块和维纳滤波子模块。

其中，噪声估计子模块，用于实现基于所述概率值，计算所述音频帧中的噪声信息。

增益计算子模块，用于实现根据所述音频帧和所述噪声信息，计算先验信噪比；基于所述先验信噪比，计算维纳滤波增益值。

维纳滤波子模块，用于实现根据所述音频帧和所述增益值，得到语音增强后的音频特征谱。

当然，实际应用中，在维纳滤波子模块之后，还需要对语音增强后的音频特征谱进行频时转换（频域转换为时域），得到语音增强后的音频帧，还需要将各个音频帧进行时间序列上的拼接得到语音增强后的音频流。在实际应用中，该部分步骤可以一并合并在维纳滤波子模块中。也可以在维纳滤波子模块后面增加后处理模块，以执行该部分步骤。

另外，上述各个子模块的划分仅用于一种示例，在实际应用中，上述一个或多个子模块可以合并为一个子模块；或者上述中的一个子模块还可以拆分为多个子模块。本申请实施例对语音增强模块中的子模块的划分方式不做限定。

作为基于所述概率值，计算所述音频帧中的噪声信息的一个示例。

首先基于IMCRA方法，定义语音存在条件概率的平滑参数：

；

其中，

表示第

帧音频帧的第

谱分量存在语音概率的平滑参数，

表示第

帧音频帧的第

谱分量存在语音的概率值，

为平滑系数，

。

然后，对音频信号进行一阶递归平滑得到噪声功率谱：

；

其中，

表示第

帧音频帧的第

谱分量的噪声功率谱估计，

表示第

帧音频帧的第

谱分量的噪声功率谱估计，

表示第

帧音频帧的第

谱分量的频域幅度谱。

上述示例仅为噪声估计的一个示例，在实际应用中，还可以采用其他方法对噪声进行估计。

作为根据所述音频帧和所述噪声信息，计算先验信噪比的一个示例。

；

其中，

表示第

帧音频帧的第

谱分量的先验信噪比，

为平滑系数，

，

为第

帧音频帧的第

谱分量的增益值，

，

为第

帧音频帧的第

谱分量的功率谱，

，

为第

帧音频帧的第

谱分量的功率谱。

作为基于所述先验信噪比，计算维纳滤波增益值的一个示例。

；

其中，

表示第

帧音频帧的第

谱分量的维纳滤波增益值，

表示第

帧音频帧的第

谱分量的先验信噪比。

作为根据所述音频帧和所述增益值，得到语音增强后的音频特征谱的一个示例。将维纳滤波增益值与音频帧的频域信号进行卷积操作，得到语音增强后的频域音频信号。

当然，上述过程均在音频流中的音频帧的频域进行处理，得到的语音增强后的音频帧也为频域信号，例如，得到的为语音增强处理后的音频帧的幅度谱，因此，最后还需要对语音增强处理后的音频帧的幅度谱进行频时转换（频域转换为时域），以得到语音增强后的时域的音频帧。

如前所述，在进行分帧处理时，相邻的两个音频帧之间存在重叠区域，最后为了将各个音频帧合并为音频流，还需要进行合成处理。

作为示例，可以将各个时域的音频帧按照时间序列相互叠加合成为语音增强后的音频流。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例还提供了一种计算机程序产品，当计算机程序产品在第一设备上运行时，使得第一设备可实现上述各个方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够将计算机程序代码携带到第一设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质。例如U 盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本申请实施例还提供了一种芯片系统，芯片系统包括处理器，处理器与存储器耦合，处理器执行存储器中存储的计算机程序，以实现本申请任一方法实施例的步骤。芯片系统可以为单个芯片，或者多个芯片组成的芯片模组。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。