CN110970057A

CN110970057A - 一种声音处理方法、装置与设备

Info

Publication number: CN110970057A
Application number: CN201811152007.XA
Authority: CN
Inventors: 刘镇亿; 赵文斌; 李峰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2020-04-07
Anticipated expiration: 2038-09-29
Also published as: US20210217433A1; WO2020062900A1; EP3852106A4; CN115762579A; CN110970057B; EP3852106A1

Abstract

本发明提出了一种声音处理方法，终端录制视频时，当前视频帧包含人脸且当前音频帧存在语音时，在当前视频帧中确定出目标人脸；获取目标人脸与终端之间的目标距离；根据目标距离确定出目标增益；目标距离越大，目标增益越大；从当前音频帧的声音信号中分离出语音信号；根据目标增益对语音信号进行增强处理，得到目标语音信号。实现录制视频过程中人声信号的自适应增强。

Description

一种声音处理方法、装置与设备

技术领域

本发明涉及终端技术领域，尤其涉及一种声音处理方法、装置与设备。

背景技术

随着终端技术的发展，一些智能终端中开始集成音源变焦功能，所谓音源变焦，可类比图像的变焦，是指用户利用手机进行录像时，当录制较远的画面时，录制的声音能适度放大，当录制较近的画面时，录制的声音能适度减小。即录像视频的声音大小随录制画面的远近而改变。在一些应用场景中，视频的声音可以通过变焦调节来实现音量调节，比如你录了几个人在说话的视频，可以单独指定放大视频中某个人的声音。例如，业界有HTCU12+音源变焦技术。在手机摄像过程中，当改变手机焦距信息的时候，录制的声音将随着焦距的改变而放大或缩小，从而实现音源变焦。具体图1a和图1b所示，当手机在录像过程中，由图1a所示的1.0x录像焦距变化到图b所示的3.0x录像焦距时，录像画面中所有的声音，包括人声与噪声的声音强度就会放大数倍；反之亦然。

智能终端应用越来越广泛，尤其是这种便携式的视频通话功能录制视频功能；使得人声变焦增强成为音源变焦中最为重要的场景，它是指针对录制声音中的人声部分，能够对人声有不同程度的放大或者减小。

在具体应用中，如手机录像场景下，用户期望对录制环境中的人声实现自适应的音源变焦，并且在人声变焦的同时，背景噪声能够保持平稳，不随人声的变化而变化。但是，目前业界对手机音频输入的变焦增强，仅停留着单一化的变焦层面上，即只是对前置或者后置摄像头画面内的所有声源的声音统一进行放大或者缩小，如录制的声音中包含有人声与噪声，这样带来的问题就是噪声也会被同步地放大或者缩小，导致最终输出的声音中，信噪比没有明显提升，对于人声的主观听感没有明显改善。而且人声变焦的实现需要依赖于用户对手机的特定输入，比如需要手势操作缩小或者放大录像画面，或者按键调整录像/录音的焦距信息等，借助这些输入，音源变焦实现起来更为容易，只需要根据给定的焦距信息来确定画面内人声的远近，然后放大或者减小音源强度即可。但是这样做带来的问题是，必须强依赖用户的输入，不能实现自适应处理，录像的画面内发声的人物由近处变到远处，如果用户认为没有改变焦距的必要，则不改变录像焦距，那么音源变焦就不会生效，但实际上此时的人声已经变小，需要进行变焦却没有变焦，因此无法适应人物在场景中前后发生移动的场景；此外，如果用户误操作了焦距调节信息，音源也会被误变焦；进而给用户带来很差的体验。

综上，现有技术存在如下缺陷：

1)无法识别人声和噪声，因此会连同人声和噪声一起放大或缩小，对于更感兴趣的人声的主观听感没有明显提升；

2)音源变焦依赖外部输入，不能解放用户；

3)用户的操作无法适应视频中发声人物前后移动的场景，同时容易造成误操作。

发明内容

本发明提出一种声音处理方法，具体地，提供一种智能人声变焦增强的方法，能够自适应的区分录制场景。对非人声场景(如音乐会，户外等)，在保真录制的前提下，削弱环境噪声，减弱噪声影响，然后再进行音源变焦。对于人声场景(如会议，演讲等)，进行较强的人声增强降噪。在此基础上，可以进一步地根据发声人物与拍摄终端的距离，实现自适应的人声变焦，无需用户特定的实时输入，并在增强人声的同时，抑制其他的干扰噪声，显著提升拍摄视频中不同距离的人声的主观语音听感。

本发明实施例提供的具体技术方案如下：

第一方面，本发明实施例提供一种声音处理方法，该方法具体包括：终端录制视频时，对当前视频帧进行人脸检测，并对当前音频帧进行语音检测；检测到当前视频帧包含人脸且当前音频帧存在语音时，即人声场景下，在当前视频帧中确定出目标人脸；获取目标人脸与终端之间的目标距离；根据目标距离确定出目标增益；其中，目标距离越大，目标增益越大；从当前音频帧的声音信号中分离出语音信号；根据目标增益对语音信号进行增强处理，得到目标语音信号。

第二方面，本发明实施例提供一种声音处理装置，该装置具体包括：检测模块，用于终端录制视频时，对当前视频帧进行人脸检测，并对当前音频帧进行语音检测；第一确定模块，用于在所述检测模块检测到所述当前视频帧包含人脸且当前音频帧中存在语音时，在当前视频帧中确定出目标人脸；获取模块，用于获取目标人脸与终端之间的目标距离；第二确定模块，用于根据目标距离确定出目标增益；其中，目标距离越大，目标增益越大；分离模块，用于从当前音频帧的声音信号中分离出语音信号；语音增强模块，用于根据目标增益对所述语音信号进行增强处理，得到目标语音信号。

应理解，当前视频帧可以理解为某一时刻正在录制的一帧图像，当前音频帧可以理解为某一时刻正在拾取的一个采样间隔的声音。这里的某一时刻，在某一些场景中可以理解为是一个泛指的时刻；在某一些场景中也可以理解为一些特定时刻，如最新的时刻，或者用户感兴趣的时刻。当前视频帧和当前音频帧可以有各自的采样频率，时刻的对应不做限定。在一种实现过程中，视频帧按照某一频率确认人脸，它传给音频模块做处理的时候可以依照音频帧的频率。

根据本发明实施例提供的上述方法和装置的技术方案，可以针对终端录像场景。利用人脸检测、语音检测等技术，在人声场景下，对声音信号做语音噪声分离，再根据人脸到手机距离的估计，可以不依赖用户输入，然后对语音单独增强，实现语音的自适应变焦增强，减弱环境噪声，保持变焦过程中噪声的平稳性。

根据第一方面或者第二方面，在一种可能的设计中，该方法还包括：从当前音频帧的声音信号中分离出非语音信号；根据预设降噪增益对所述非语音信号进行减弱，得到目标噪声信号；其中，预设的降噪增益小于0dB；换一种说法，将非语音信号减少预设的幅度，例如仅保留原幅值的25％、10％、或5％等等，本发明不做穷举和限定；将目标语音信号和目标噪声信号合成，得到当前帧的目标声音信号。对应的，上述装置还包括降噪模块和合成模块；分离模块具体用于从当前音频帧的声音信号中分离出非语音信号；降噪模块用于根据预设降噪增益对非语音信号进行减弱，得到目标噪声信号；合成模块用于将目标语音信号和目标噪声信号合成，得到当前帧的目标声音信号。该技术方案用于对非语音信号进行减弱，与增强后的语音信号进行叠加保证语音信号的真实性。

根据第一方面或者第二方面，在一种可能的设计中，在当前视频帧中确定出目标人脸包括：如果当前视频帧中存在多个人脸时，将面积最大的人脸确定为目标人脸。该方法可以由第一确定模块来执行。

根据第一方面或者第二方面，在一种可能的设计中，在当前视频帧中确定出目标人脸包括：如果当前视频帧中存在多个人脸时，将距离终端最近的人脸确定为目标人脸。该方法可以由第一确定模块来执行。

根据第一方面或者第二方面，在一种可能的设计中，在当前视频帧中确定出目标人脸包括：如果当前视频帧中只存在一个人脸时，将该人脸确定为目标人脸。该方法可以由第一确定模块来执行。

根据第一方面或者第二方面，在一种可能的设计中，获取所述目标人脸与所述终端之间的目标距离包括但不限于下列方式中的一种：

第一种：计算目标人脸区域面积，通过计算目标人脸区域面积占手机屏幕大小，即目标人脸屏占比，并根据目标人脸屏占比来计算目标人脸实际相对于终端的距离。具体地，可以通过历史统计或实验的方式得出人脸屏占比的经验值与人脸相对终端的距离经验值的对应关系；根据该对应关系，以及目标人脸屏占比的输入，即可得到目标人脸相对终端的距离。

第二种：计算目标人脸区域面积，并根据人脸区域面积与人脸距离终端距离的函数关系，得到目标人脸距离终端的距离。

第三种：使用双摄像头手机的两路输入做双射测距，计算目标人脸距离终端的距离。

第四种：利用终端中的结构光等深度器件来测量目标人脸距离终端的距离。

根据第一方面或者第二方面，在一种可能的设计中，所述目标增益大于0dB，且目标增益小于15dB；和/或，所述预设降噪增益小于-12dB。该技术方案保证语音信号不被过分增强，非语音信号/噪声信号被减弱；若增强的语音信号和减弱的噪声合成，可以保证增强的语音信号不失真实感。

根据第一方面或者第二方面，在一种可能的设计中，在非人声场景中，即当前视频帧/图像不包含人脸或当前音频帧不包含语音；可以通过保真录音增强以及保真音频变焦增强，实现音频保真增强处理。

根据第一方面或者第二方面，在一种可能的设计中，所述终端包含一个顶部麦克风和一个底部麦克风。

根据第一方面或者第二方面，在一种可能的设计中，根据目标距离确定目标增益可以用DRC曲线方法，或者其他的经验值设计方法。

更具体地，上述可能的技术实现可以由处理器调用存储器中的程序与指令进行相应的处理，如控制摄像头采集图像和麦克风拾音，对采集的图像和声音进行一定的分析，当在人声场景下，对声音信号进行一定的处理，增强其中的人声/语音，减弱噪声。

第三方面，本发明实施例提供一种终端设备，包含存储器、处理器、总线、摄像头、麦克风；存储器、摄像头、麦克风以及处理器通过总线相连；摄像头用于在处理器的控制下采集图像信号；麦克风用于在所述处理器的控制下采集声音信号；存储器用于存储计算机程序和指令；处理器用于调用存储器中存储的计算机程序和指令控制摄像头和麦克风；还具体用于使终端设备执行如上述任何一种可能的设计方法。

根据第三方面，在一种可能的设计中，终端设备还包括天线系统、天线系统在处理器的控制下，收发无线通信信号实现与移动通信网络的无线通信；移动通信网络包括以下的一种或多种：GSM网络、CDMA网络、3G网络、4G网络、5G网络、FDMA、TDMA、PDC、TACS、AMPS、WCDMA、TDSCDMA、WIFI以及LTE网络。

上述方法、装置与设备既可以应用于终端自带的拍照程序录制视频的场景；也可以应用于终端中运行第三方拍照软件进行录制视频的场景。

附图说明

图1a、图1b分别表示手机录像时1.0x录像焦距和3.0x录像焦距；

图2为本发明实施例中一种终端结构示意图；

图3为本发明实施例中一种终端麦克风布局示意图；

图4为本发明实施例中一种录制视频的应用场景示意图；

图5为本发明实施例中一种声音处理方法流程图；

图6为本发明实施例中一种检测人声环境的方法示意图；

图7为本发明实施例中一种保真录音增强的方法示意图；

图8为本发明实施例中一种人声分离的方法示意图；

图9为本发明实施例中一种指向性波束增强的示意图；

图10为本发明实施例中的一种神经网络的模块示意图；

图11为本发明实施例中一种声音处理方法的流程图；

图12为本发明实施例中一种声音处理装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，终端，可以是向用户提供拍摄视频和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备，比如：数码相机、单反相机、移动电话(或称为“蜂窝”电话)、智能手机，可以是便携式、袖珍式、手持式、可穿戴设备(如智能手表等)、平板电脑、个人电脑(PC，Personal Computer)、PDA(PersonalDigital Assistant，个人数字助理)、车载电脑、无人机、航拍器等。

图2示出了终端100的一种可选的硬件结构示意图。

参考图2所示，终端100可以包括射频单元110、存储器120、输入单元130、显示单元140、摄像头150、音频电路160、扬声器161、麦克风162、处理器170、外部接口180、电源190等部件。本领域技术人员可以理解，图2仅仅是智能终端或多功能设备的举例，并不构成对智能终端或多功能设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

摄像头150用于采集图像或视频，可以通过应用程序指令触发开启，实现拍照或者摄像功能。摄像头可以包括成像镜头，滤光片，图像传感器等部件。物体发出或反射的光线进入成像镜头，通过滤光片，最终汇聚在图像传感器上。成像镜头主要是用于对拍照视角中的所有物体(也可称为待拍摄场景、待拍摄对象、目标场景或目标对象，也可以理解为用户期待拍摄的场景图像)发出或反射的光汇聚成像；滤光片主要是用于将光线中的多余光波(例如除可见光外的光波，如红外)滤去；图像传感器主要是用于对接收到的光信号进行光电转换，转换成电信号，并输入到处理器170进行后续处理。其中，摄像头可以位于终端设备的前面，也可以位于终端设备的背面，摄像头具体个数以及排布方式可以根据设计者或厂商策略的需求灵活确定，本申请不做限定。

输入单元130可用于接收输入的数字或字符信息，以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触摸屏131和/或其他输入设备132。所述触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器170，并能接收所述处理器170发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏131可以提供所述终端100和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏131，输入单元130还可以包括其他输入设备。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键132、开关按键133等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元140可用于显示由用户输入的信息或提供给用户的信息、终端100的各种菜单、交互界面、文件显示和/或任意一种多媒体文件的播放。在本发明实施例中，显示单元还用于显示设备利用摄像头150获取到的图像/视频，可以包括某些拍摄模式下的预览图像/视频、拍摄的初始图像/视频以及拍摄后经过一定算法处理后的目标图像/视频。

进一步的，触摸屏131可覆盖显示面板141，当触摸屏131检测到在其上或附近的触摸操作后，传送给处理器170以确定触摸事件的类型，随后处理器170根据触摸事件的类型在显示面板141上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现终端100的输入、输出、显示功能；为便于描述，本发明实施例以触摸显示屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

所述存储器120可用于存储指令和数据，存储器120可主要包括存储指令区和存储数据区，存储数据区可存储各种数据，如多媒体文件、文本等；存储指令区可存储操作系统、应用、至少一个功能所需的指令等软件单元，或者他们的子集、扩展集。还可以包括非易失性随机存储器；向处理器170提供包括管理计算处理设备中的硬件、软件以及数据资源，支持控制软件和应用。还用于多媒体文件的存储，以及运行程序和应用的存储。

处理器170是终端100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的指令以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据，从而对手机进行整体控制。可选的，处理器170可包括一个或多个处理单元；优选的，处理器170可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器170中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。处理器170还可以用于产生相应的操作控制信号，发给计算处理设备相应的部件，读取以及处理软件中的数据，尤其是读取和处理存储器120中的数据和程序，以使其中的各个功能模块执行相应的功能，从而控制相应的部件按指令的要求进行动作。

所述射频单元110可用于收发信息或通话过程中信号的接收和发送，例如，将基站的下行信息接收后，给处理器170处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元110还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General PacketRadio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路160、扬声器161、麦克风162可提供用户与终端100之间的音频接口。音频电路160可将接收到的音频数据转换为电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，麦克风162用于收集声音信号，还可以将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器170处理后，经射频单元110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理，音频电路也可以包括耳机插孔163，用于提供音频电路和耳机之间的连接接口。

终端100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器170逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

终端100还包括外部接口180，所述外部接口可以是标准的Micro USB接口，也可以使多针连接器，可以用于连接终端100与其他装置进行通信，也可以用于连接充电器为终端100充电。

尽管未示出，终端100还可以包括闪光灯、无线保真(wireless fidelity，WiFi)模块、蓝牙模块、不同功能的传感器等，在此不再赘述。下文中描述的部分或全部方法均可以应用在如图2所示的终端中。

本发明可应用于具有录音录像功能的移动终端设备，落地产品形态可以是智能终端(手机、平板、DV、摄像机、照相机、便携电脑等)或家庭摄像头(智能摄像头/可视机顶盒/智能音箱)，具体的可以是其中的应用程序或软件，本发明部署在终端设备上，通过软件安装或升级，通过硬件的调用配合，提供声音处理功能。

具体地，一种硬件构成实施可以如下，一个智能终端，具有至少2只模拟或数字麦克风，可实现正常的麦克风拾音功能。可通过处理器或操作系统获取到麦克风采集到的数据，并保存在内存空间上，由处理器做进一步的处理和运算。有至少一个摄像头，可正常录制画面。本发明可应用于终端前置或后置录像增强，前提是终端对应有前置摄像头或后置摄像头。

麦克风具体布局要求如下图3所示，在智能终端的6个表面上均有可能设置有麦克风，如图中的①-⑨；在一种实现中，终端可以至少包含顶部麦克风①(前面顶端)、②(背面顶端)、③(顶面)中的一个，以及底部麦克风⑥(底面左部)、⑦(底面右部)、⑧(前面底端)、⑨(背面底端)中的一个。

一种典型的应用场景是智能终端至少包含如图3所示的麦克风③和麦克风⑥，此外，还可以包含前置摄像头(单摄或双摄)和/或后置摄像头(单摄、双摄或三摄)，非平面终端还可以只有一个单摄像头。以上结构可以作为本发明完成终端摄像中的智能人声变焦增强处理的基础。

本发明应用场景为用户在录制视频的过程中，如果视频录制的场景中包含人物发声，则希望能够对视频中的人声进行增强，同时对周围环境的噪声进行降噪；其中，降噪最低可以降到0，但是可能会失去人声的真实性，因此也可对噪声进行部分抑制。

本发明一种典型的应用场景如图4所示。使用终端设备如手机在录像过程中，如果检测到画面中出现目标人声或者说判定录制的场景为人声场景(即视频录制的画面中有人物的人脸，且终端所处的环境当中存在语音/人声信号)时，抑制录制环境中的噪声，突出人声(即语音信号)。如当人物的位置发生变化，如由较近的距离1变化到较远的距离2时，此时手机麦克风接收到的人声响度会变小，造成人声的可识别度下降，此时可以触发本发明的自适应变焦处理，对本已变弱的人声做增强处理。通过自适应区分录制场景，可以有效提升不同场景中录制音频的主观听感。

本发明解决的问题概括如下：

1)在录制过程中，自适应区分录制场景，在需要保真录制的非人声场景，在实现音源变焦的之前，先对目标音源进行降噪处理，而后进行音源变焦，减少噪声对目标音源的干扰；在人声录制的场景中，首先进行人声噪声分离，然后对其中的人声成分单独进行变焦增强，在保持噪声平稳的前提下，提升人声的强度，从而达到提高信噪比，提升人声主观听感的目的。

2)针对音源变焦中最常见的人声变焦，本发明提供一种自适应的变焦方法，不需要依赖于外部输入，通过估计录制人声与手机的距离，实现自适应的人声变焦。解放用户的操作输入并消除手动输入带来的误操作，同时能够使视频中人物移动带来的声音变化能够更协调。

本发明提供的一种声音处理方法可以参见图5所示，该技术方案实现如下：

S11：用户使用智能拍摄终端(如手机/相机/平板电脑等)在对拍摄场景进行录像时，终端会记录拍摄场景中视频信息(多帧图像数据)，同时记录拍摄环境中的音频信息(声音信号)。

S12：进行目标人声检测，进而判断当前拍摄环境属于人声场景还是非人声场景。

其中，当前录制画面中出现讲话人(即当前视频帧含有人脸，同时当前音频帧含有语音成分)时，即识别为人声场景；否则为非人声场景，即当前视频帧/图像不包含人脸或当前音频帧不包含人声；非人声场景可以包括音乐环境。

具体实现过程中，可以使用如图6所述的方法进行目标人声检测，根据录像摄像头采集的输入的图像进行人脸检测，根据麦克风输入的声音进行语音检测，其中，人脸检测和语音检测可以采用业界成熟的相关技术，本发明中不予以限定和赘述。当检测结果为当前采集的图像包含人脸且当前采集的声音中包含语音时，则认为是人声场景，否则判别为非人声场景。

应理解，终端对人脸检测时可以有一定的检测能力，例如人脸图像需要达到一定的清晰度和面积可以被识别，若清晰度较差或面积非常小(即离摄像头非常远)可能无法识别。

对于非人声场景可采用下面步骤S13所描述的保真录音增强，然后再进行步骤S14保真音频变焦处理，实现音频保真增强处理；对于人声场景可采用以下步骤S15目标人声距离估计、S16人声分离、S17自适应音频变焦处理所描述的方法实现音频变焦增强。

S13：保真录音增强

具体地，S13可以包含s131-s136，如图7所示。

s131，麦克风输入可以选择图3所示的麦克风③、⑥、⑦其中之一，也可选择图3所示的①-⑨中的任意一个麦克风。

s132，幅度谱计算：将麦克风拾取到的当前帧的声音输入信号变换到频域，幅度谱为功率谱开方，其计算公式如下：

上式中X为频域信号，Xreal为实部，Ximag为虚部。

由于本算法运算均基于子带(一个音频帧可以划分为多个子带)进行，因此需要计算子带平均幅度，其公式如下：

上式中BarkMag表示子带幅度谱，K表示划分子带的频点序号。

s133，VAD(Voice Activity Detection，语音活动检测)计算

第一步，更新每个子带的最值，子带最值更新包含更新最大值和最小值。此处更新原则为：

更新最大值：若当前子带能量大于最大值时，则直接将最大值置为当前的值；若当前子带能量小于等于最大值时，最大值通过α平滑变小；

更新最小值：若当前子带能量小于最小值时，则直接将最小值置为当前的值；

若当前子带能量大于最小值时，最小值缓慢变大，这可以通过α方法计算；

第二步，计算最小值均值，计算如下：

上式中MinMean表示最小值的均值，BARK表示一个音频帧对应的子带数，

MinBark是每个子带的最小值。

本算法均值计算会舍弃掉能量小于第一预设阈值的子带，这部分可以理解为噪声子带，避免语音上采样无信号部分对子带VAD判决的影响。

第三步，子带VAD判决

当某一个子带同时满足MaxBark(i)＜α*MinBark(i)和MaxBark(i)＜α*MinMean时，该子带被判为噪声子带。本算法中子带能量小于第一预设阈值时也判为噪声子带。假设判决的噪声子带个数为NoiseNum，如果NoiseNum大于第二预设阈值，则当前帧被判为噪声帧，否则被判为语音帧。

s134，噪声估计

噪声估计采用α平滑方式进行，其噪声谱计算公式如下：

NoiseMag(i)＝α*NoiseMag(i)+(1-α)*UpDataMag(i)

其中，α由VAD结果确定，NoiseMag(i)为历史帧噪声谱，UpDataMag(i)为当前帧的噪声谱。

s135，降噪处理

根据历史噪声谱与当前信号幅度谱计算每个子带的增益，增益计算方法可使用现有技术中的DD增益计算法，降噪处理指将FFT后的频谱乘以各自对应的子带增益。

X_real(i)＝X_real(i)*gain(i)

X_imag(i)＝X_imag(i)*gain(i)

s136，降噪处理之后需要进行IFFT将频域信号转换到时域信号，即输出语音。

S14，保真音频变焦处理

可以采用现有的DRC(Dynamic range control，动态范围控制)算法处理，根据不同的焦距信息设计出不同的DRC曲线，对于相同的输入信号来说，焦距越大，增益越大。根据摄像时的焦距确定对应的DRC曲线，根据s136输出的时域信号的电平在上述对应的DRC曲线中确定出对应的增益值，根据目标增益对s136输出的时域信号的电平做增益调整，得到增强后的输出电平。

S15：目标人声距离(distance)计算

具体地，S15可以包含s151-s152；

s151，确定目标人脸，即确定当前环境中最主要或者最可能的发声人物。

如果S12中检测到当前视频帧中只存在一个人脸时，将该人脸确定为目标人脸；如果S12中检测到当前视频帧中存在多个人脸时，将面积最大的人脸确定为目标人脸；如果S12中检测到当前视频帧中存在多个人脸时，将距离所述终端最近的人脸确定为目标人脸。

s152，确定目标人脸距离终端的距离(distance)

计算方法可采用包括但不限于以下方法之一。

S16：人声分离，即从声音信号中分离出人声信号(语音信号)，也可以理解为将声音信号分为人声部分和非人声部分；应理解，人声分离为本领域通用概念，并非限定人声和非人声完全割裂。具体步骤如图8。在一种实现过程中，可以采用顶部麦克风和底部麦克风采集的信号进行人声分离；其中，顶部麦克风的设置可以选择如图3中的麦克风③，底部麦克风的设置可以选择如图3中的麦风克⑥。在另一种可能的设计中，也可选择图3中的其他的两个麦克风采集的信号进行人声分离，至少包含顶部①、②、③其中一个麦克风，以及底部⑥、⑦、⑧、⑨其中一个麦克风，也可达到相似的效果。具体地，S16可以包含s161-s167。

s161，预置麦克风信号采集

接收顶部麦克风采集的信号，以及底部麦克风采集的信号。

s162，频点VAD

通过谐波搜索得到顶部麦克风频谱的谐波位置，VAD可以用于标记语音的谐波位置，如VAD置1表示该频点为语音，置0表示为非语音，本发明实施例不对标识位的标识方法进行限定，可以由用户的设计思路灵活决定。谐波搜索可使用业界已有的技术，如倒谱法，自相关法等。

在具体实现过程中，当终端同时含有如图3所示①、②麦克风时，通过比较常见的是GCC(General Cross Correlation，广义互相关)声源定位方法，形成指向性波束，可有效抑制束外干扰，如下图9所示，可以进一步地将θ角度范围外的语音信号识别为非语音。θ的范围由声速、麦克风间距、和采样率等因素决定。

s163，信号融合

将顶部麦克风的输入信号以及底部麦克风的输入信号变换到频域。求底麦与顶麦的幅度谱AmpBL和AmpTop的比值，得到信号增强系数Framecoef，将增强系数与顶麦频谱相乘，得到融合信号，Framecoef计算具体如下：

s164，使用滤波方法进行语音噪声分离

本发明可以使用基于状态空间的频域滤波器(State-Space FDAF)。每个频道独立计算，所以下面省略频点索引。滤波器的输入信号可以用长度为L的向量

表示，其包含L帧，L为任一正整数，L大于1时，可以是L帧连续的帧，t对应频数；向量

表示输入

到估计一维目标期望信号D(t)的线性变换系数。

滤波器的输出，即滤波的残差表示如下：

滤波器1仅仅在语音信号存在时使用，如VAD值为1的时候进行刷新，输入信号为融合信号，期望信号为底麦信号，输出为噪声信号Z。

滤波器2可以实时使用，输入信号为噪声信号，期望信号为融合信号，输出为语音信号S。

滤波1和滤波器2都可以采用上述基于状态空间的频域滤波器(State-SpaceFDAF)。

s165，噪声估计

通过VAD排除语音频点，在S和Z中分别估计噪声水平，然后计算噪声偏差，得到偏差因子。将偏差因子补偿到噪声Z上，得到融合信号的噪声水平Z_out。该步骤中的噪声估计可以参考与s134相同或类似的方法。

s166，降噪处理

最后求取增益，根据上述语音信号S最终得到干净语音S_out。

该步骤可采用业界已有的深度神经网络(DNN)方法，如图10所示，将顶部麦克风的输入信号作为含有噪声的语音输入，通过DNN增强降噪法(包含特征提取、深度神经网络解码、波形重构等)，输出干净语音S_out。

该步骤中的降噪处理的算法可以参考与s135相同或类似的方法。

s167，输出语音

降噪处理之后需要进行IFFT将频域信号转换到时域信号s’_out，即输出语音。

S17，自适应音频变焦处理

具体地，S17可以包含s171-s173

s171，根据不同的distance值，设计不同的DRC曲线，对于相同的输入信号来说，distance越大，增益越大。

s172，根据步骤S15中得到distance确定对应的DRC曲线，根据s’_out的电平在上述对应的DRC曲线确定出对应的增益值，即目标增益。

s173，根据目标增益对s’_out的电平值做增益调整，得到增强后的输出电平，即目标语音信号。

参见图11，图11为本发明一种可选的实施例的方法流程图，本发明实施例提供一种声音处理方法，该方法包括如下步骤(S21-S26)：

S21：终端录制视频，对当前视频帧进行人脸检测，并对当前音频帧进行语音检测；检测到当前视频帧包含人脸且当前音频帧存在语音时，执行S22。其中，S21的具体实现方式可以参照S11和S12的部分或全部描述。

S22：在当前视频帧中确定出目标人脸。其中，S22的具体实现方式可以参照s151的部分或全部描述。

S23：获取目标人脸与终端之间的目标距离。其中，S22的具体实现方式可以参照s152的部分或全部描述。

S24：根据目标距离确定出目标增益；其中，目标距离越大，目标增益越大。其中，S24的具体实现方式可以参照s171以及s172的部分或全部描述。

S25：从当前音频帧的声音信号中分离出语音信号。其中，S25的具体实现方式可以参照S16的部分描述，得到如同s166中的S_out或s167中的S’_out。

S26：根据目标增益对语音信号进行增强处理，得到目标语音信号。其中，S25的具体实现方式可以参照s173的部分或全部描述。在一种可能的实现中，目标增益小于预设阈值，例如15dB、25dB等，本发明不做限定。在一些场景中，还可以有目的地减弱语音信号，此时，目标增益也可以小于0dB，可以大于预设阈值，如-15dB、-25dB等，本发明不予以列举和限定。

可选的，该方法还可以包括(S27-S29)：

S27：从所述当前音频帧的声音信号中分离出非语音信号。其中，S25的具体实现方式可以参照S16的部分描述，得到如同s166中的Z_out，或者将Z_out变换到时域信号Z’_out。

S28：根据预设降噪增益对所述非语音信号进行减弱，得到目标噪声信号；其中，所述预设的降噪增益小于0dB。换一种说法，将非语音信号减少预设的幅度，例如仅保留原幅值的25％、10％、或5％等等，极端值为0％，本发明不做穷举和限定。在一种可能的实现中，预设降噪增益可以小于-12dB。

S29：将目标语音信号和所述目标噪声信号合成，得到当前帧的目标声音信号。

本发明提出了一种声音处理方法，终端录制视频时，利用人脸检测、语音检测等技术，在人声场景下，对声音信号做语音噪声分离，再根据人脸到手机距离的估计，可以不依赖用户输入，然后对语音单独增强，实现语音的自适应变焦增强，减弱环境噪声，保持变焦过程中噪声的平稳性。

基于上述实施例提供的声音处理方法，本发明实施例提供一种声音处理装置30，所述装置30可以应用于多种终端设备，可以如终端100的任意一种实现形式，包含摄像功能以及拾音功能，如图12所示，该装置30包括检测模块31、第一确定模块32、获取模块33、第二确定模块34、分离模块35、以及语音增强模块36。

检测模块31，用于终端录制视频时，对当前视频帧进行人脸检测，并对当前音频帧进行语音检测。该检测模块31可以由处理器调用相应的程序指令控制摄像头采集图像、控制麦克风采集声音，并对图像数据和声音数据进行分析处理来实现。

第一确定模块32，用于在所述检测模块检测到所述当前视频帧包含人脸且所述当前音频帧存在语音时，在所述当前视频帧中确定出目标人脸。该第一确定模块32可以由处理器调用存储器中的程序指令对图像分析来实现。

获取模块33，用于获取所述目标人脸与所述终端之间的目标距离。该获取模块33可以由处理器调用深度传感器、测距传感器或分析处理图像数据进行计算来确定。

第二确定模块34，用于根据所述目标距离确定出目标增益；其中，所述目标距离越大，所述目标增益越大。该第二确定模块34可以由处理器调用相应的程序指令依照一定的算法处理来实现。

分离模块35，用于从所述当前音频帧的声音信号中分离出语音信号。该分离模块35可以由处理器调用相应的程序指令依照一定的算法处理声音信号来实现。在一种具体的实现过程中，分离模块35还可以用于从所述当前音频帧的声音信号中分离出非语音信号。

语音增强模块36，用于根据所述目标增益对所述语音信号进行增强处理，得到目标语音信号。该语音增强模块36可以由处理器调用相应的程序指令依照一定的算法处理语音信号来实现。

作为可选地，

该装置还可以包括降噪模块37，用于根据预设降噪增益对所述非语音信号进行减弱，得到目标噪声信号。

该装置还可以包括合成模块38，合成模块用于将所述目标语音信号和所述目标噪声信号合成，得到当前帧的目标声音信号。

在具体实现过程中，检测模块31具体用于执行S21中所提到的方法以及可以等同替换的方法；第一确定模块32具体用于执行S22中所提到的方法以及可以等同替换的方法；获取模块33具体用于执行S23中所提到的方法以及可以等同替换的方法；第二确定模块34具体用于执行S24中所提到的方法以及可以等同替换的方法；分离模块35具体用于执行S25中所提到的方法以及可以等同替换的方法；语音增强模块36具体用于执行S26中所提到的方法以及可以等同替换的方法。

可选地，分离模块35还具体用于执行S27中所提到的方法以及可以等同替换的方法；降噪模块37具体用于执行S28中所提到的方法以及可以等同替换的方法；合成模块38具体用于执行S29中所提到的方法以及可以等同替换的方法。

其中，上述具体的方法实施例以及实施例中技术特征的解释、表述、以及多种实现形式的扩展也适用于装置中的方法执行，装置实施例中不予以赘述。

应理解以上装置30中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个模块可以为单独设立的处理元件，也可以集成在终端的某一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个模块的功能。此外各个模块可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如中央处理器(英文：central processing unit，简称：CPU)，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(英文：application-specific integrated circuit，简称：ASIC)，或，一个或多个微处理器(英文：digital signal processor，简称：DSP)，或，一个或者多个现场可编程门阵列(英文：field-programmable gate array，简称：FPGA)等。

应理解本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的部分实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括已列举实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也包含这些改动和变型在内。

Claims

1.一种声音处理方法，其特征在于，所述方法包括：

终端录制视频时，若当前视频帧包含人脸且当前音频帧存在语音，则，

在所述当前视频帧中确定出目标人脸；

获取所述目标人脸与所述终端之间的目标距离；

根据所述目标距离确定出目标增益；其中，所述目标距离越大，所述目标增益越大；

从所述当前音频帧的声音信号中分离出语音信号；

根据所述目标增益对所述语音信号进行增强处理，得到目标语音信号。

2.如权利要求1所述方法，其特征在于，所述方法还包括：

从所述当前音频帧的声音信号中分离出非语音信号；

根据预设降噪增益对所述非语音信号进行减弱，得到目标噪声信号；

将所述目标语音信号和所述目标噪声信号合成，得到当前帧的目标声音信号。

3.如权利要求1所述方法，其特征在于，所述在所述当前视频帧中确定出目标人脸包括：

如果所述当前视频帧中存在多个人脸时，将面积最大的人脸确定为目标人脸。

4.如权利要求1所述方法，其特征在于，所述在所述当前视频帧中确定出目标人脸包括：

如果所述当前视频帧中存在多个人脸时，将距离所述终端最近的人脸确定为目标人脸。

5.如权利要求1所述方法，其特征在于，所述在所述当前视频帧中确定出目标人脸包括：

如果所述当前视频帧中只存在一个人脸时，将该人脸确定为目标人脸。

6.如权利要求1-5中任一项所述方法，其特征在于，获取所述目标人脸与所述终端之间的目标距离包括：

利用终端中的结构光来测量目标人脸距离终端的距离。

7.如权利要求1-5中任一项所述方法，其特征在于，获取所述目标人脸与所述终端之间的目标距离包括：

计算目标人脸区域面积，并根据预设的人脸区域面积与人脸距离终端距离的函数关系，得到目标人脸距离终端的目标距离。

8.如权利要求1所述方法，其特征在于，所述目标增益小于15dB。

9.一种声音处理装置，其特征在于，所述装置包括：

检测模块，用于终端录制视频时，对当前视频帧进行人脸检测，并对当前音频帧进行语音检测；

第一确定模块，用于在所述检测模块检测到所述当前视频帧包含人脸且所述当前音频帧存在语音时，在所述当前视频帧中确定出目标人脸；

获取模块，用于获取所述目标人脸与所述终端之间的目标距离；

第二确定模块，用于根据所述目标距离确定出目标增益；其中，所述目标距离越大，所述目标增益越大；

分离模块，用于从所述当前音频帧的声音信号中分离出语音信号；

语音增强模块，用于根据所述目标增益对所述语音信号进行增强处理，得到目标语音信号。

10.如权利要求9所述装置，其特征在于，所述装置还包括降噪模块和合成模块；

所述分离模块还用于从所述当前音频帧的声音信号中分离出非语音信号；

所述降噪模块用于根据预设降噪增益对所述非语音信号进行减弱，得到目标噪声信号；

所述合成模块用于将所述目标语音信号和所述目标噪声信号合成，得到当前帧的目标声音信号。

11.如权利要求9所述装置，其特征在于，所述第一确定模块具体用于：

如果所述当前视频帧中只存在一个人脸时，将该人脸确定为目标人脸；或，

如果所述当前视频帧中存在多个人脸时，将面积最大的人脸确定为目标人脸；或，

12.如权利要求9-11中任一项所述装置，其特征在于，所述获取模块具体用于：

利用终端中的结构光来测量目标人脸距离终端的距离；或，

13.如权利要求9-12中任一项所述装置，其特征在于，所述目标增益小于15dB。

14.一种终端设备，其特征在于，所述终端设备包含存储器、处理器、总线、摄像头、麦克风；所述存储器、所述摄像头、所述麦克风以及所述处理器通过所述总线相连；

所述摄像头用于在所述处理器的控制下采集图像信号；

所述麦克风用于在所述处理器的控制下采集声音信号；

所述存储器用于存储计算机程序和指令；

所述处理器用于调用所述存储器中存储的所述计算机程序和指令控制所述摄像头和所述麦克风，还具体用于使所述终端设备执行如权利要求1～8中任一项所述方法。

15.如权利要求14所述的终端设备，所述终端设备还包括天线系统、所述天线系统在处理器的控制下，收发无线通信信号实现与移动通信网络的无线通信；所述移动通信网络包括以下的一种或多种：GSM网络、CDMA网络、3G网络、4G网络、5G网络、FDMA、TDMA、PDC、TACS、AMPS、WCDMA、TDSCDMA、WIFI以及LTE网络。