CN117133306A - 立体声降噪方法、设备及存储介质 - Google Patents

立体声降噪方法、设备及存储介质 Download PDF

Info

Publication number
CN117133306A
CN117133306A CN202310481754.2A CN202310481754A CN117133306A CN 117133306 A CN117133306 A CN 117133306A CN 202310481754 A CN202310481754 A CN 202310481754A CN 117133306 A CN117133306 A CN 117133306A
Authority
CN
China
Prior art keywords
audio signal
stereo
noise reduction
audio
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310481754.2A
Other languages
English (en)
Inventor
宁岳
刘镇亿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202310481754.2A priority Critical patent/CN117133306A/zh
Publication of CN117133306A publication Critical patent/CN117133306A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephone Function (AREA)

Abstract

本申请提供了一种立体声降噪方法、设备及存储介质。该方法通过采用同一个神经网络模型确定适合立体声中两路音频信号的幅度掩膜,由于每一路音频信号的幅度掩膜均可以体现对应音频信号的频域特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理时,根据对应的频域特征,可以确保每一音频信号中的目标音频信号的保证度。由于每一路音频信号的幅度掩膜还包括了相同的声像特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理,根据相同的声像特征,保持立体声的空间感。由此,既兼顾了立体声中目标语音信号的保真度,又兼顾了立体声的空间感。

Description

立体声降噪方法、设备及存储介质
技术领域
本申请涉及音频处理技术领域,尤其涉及一种立体声降噪方法、设备及存储介质。
背景技术
随着立体声技术的发展,各种具备立体声录制和播放的终端设备受到了用户的青睐。以录音录像中的立体声为例,在该场景中,立体声具体是由两个或两个以上不同位置的麦克风所接收到的双声道音频。相较于单声道录音录像场景而言,立体声录音录像场景能够呈现音频的空间特征,录音效果更加丰富。
但是,在录音录像的场景中,受环境影响,录制的立体声可能不仅会包括目标语音信号,还可能包括目标语音信号之外的噪声信号。
因此,亟需提供一种针对录制的立体声的降噪方法,以确保立体声中目标语音信号的保真度,同时保持立体声的方位感,提升噪声场景的录音体验。
发明内容
为了解决上述技术问题,本申请提供一种立体声降噪方法、设备及存储介质,旨在确保立体声中目标语音信号的保真度,同时保持立体声的方位感,提升噪声场景的录音体验。
第一方面,本申请提供一种立体声降噪方法。该方法应用于终端设备,包括:获取第一麦克风采集的含噪音的第一音频信号和第二麦克风采集的含噪音的第二音频信号;其中,第一麦克风和第二麦克风为位于不同位置的麦克风;将第一音频信号和第二音频信号输入神经网络模型,得到第一音频信号对应的第一幅度掩膜和第二音频信号对应的第二幅度掩膜;其中,第一幅度掩膜体现了第一音频信号的第一频域特征和第一声像特征,第二幅度掩膜体现了第二音频信号的第二频域特征和第二声像特征,第一声像特征和第二声像特征相同;采用第一幅度掩膜对第一音频信号进行掩蔽,采用第二幅度掩膜对第二音频信号进行掩蔽,得到降噪后的立体声。
通过采用同一个神经网络模型确定适合立体声中两路音频信号的幅度掩膜,由于每一路音频信号的幅度掩膜均可以体现对应音频信号的频域特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理时,根据对应的频域特征,可以确保每一音频信号中的目标音频信号的保证度。
由于每一路音频信号的幅度掩膜还包括了相同的声像特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理,根据相同的声像特征,保持立体声的方位感/空间感/立体感(后续统一为:空间感)。
由此,既兼顾了立体声中目标语音信号的保真度,又兼顾了立体声的方位感/空间感/立体感。
根据第一方面,第一频域特征用于描述第一音频信号中目标音频信号和噪音音频信号在频域上的关系;第一声像特征用于描述立体声的声像。
根据第一方面,或者以上第一方面的任意一种实现方式,第二频域特征用于描述第二音频信号中目标音频信号和噪音音频信号在频域上的关系;第二声像特征用于描述立体声的声像。
根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型采用不同方位和距离下,采集的含噪音的立体声音频信号训练获得。
由此,神经网络模型采用立体声音频信号训练获得,而非单通道的音频信号,从而使得基于训练获得的神经网络模型确定的第一掩膜和第二掩膜进行掩蔽处理后的立体声能够保持空间感。
根据第一方面,或者以上第一方面的任意一种实现方式,采集含噪音的立体声音频信号的麦克风与第一麦克风和第二麦克风的位置相同。
因为立体声呈现的空间感/立体感取决于不同声道对应的麦克风的排布方式,因此需要保证训练神经网络模型阶段使用的含噪音的立体声音频信号的麦克风与测试阶段/应用阶段的麦克风相同,即所处位置、型号、性能等相同,从而保证应用阶段使用神经网络模型确定的第一幅度掩膜和第二幅度掩膜适合当前麦克风采集到的第一音频信号和第二音频信号。
根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型对应的损失函数包括时频域损失函数;其中,在将第一音频信号和第二音频信号输入神经网络模型后,神经网络模型根据时频域损失函数,确定第一幅度掩膜中的第一频域特征,以及第二幅度掩膜中的第二频域特征。
根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型对应的损失函数还包括声像损失函数;其中,在将第一音频信号和第二音频信号输入神经网络模型后,神经网络模型根据声像损失函数,确定第一幅度掩膜中的第一声像特征,以及第二幅度掩膜中的第二声像特征。
根据第一方面,或者以上第一方面的任意一种实现方式,第一声像特征和第二声像特征相同,根据频域上的第一音频信号和第二音频信号确定。
根据第一方面,或者以上第一方面的任意一种实现方式,第一声像特征和第二声像特征包括:双通道能量差、双通道相位差、双通道相关性和全局相位差;其中,双通道包括第一麦克风对应的一路通道和第二麦克风对应的一路通道。
根据第一方面,或者以上第一方面的任意一种实现方式,声像损失函数包括双通道能量差损失函数、双通道相位差损失函数、双通道相关性损失函数和全局相位差损失函数;其中,声像损失函数中包括的每一个损失函数对应一个权重系数,每一个权重系数根据频带数确定。
其中,频带数具体指频点个数。
根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型包括依序设置的卷积网络层、长短时记忆网络层和全连接网络层;其中,卷积网络层用于获取第一音频信号对应的频域特征的局部特征,长短时记忆网络层用于获取第一音频信号中各帧之间的时序特征,全连接网络层用于将卷积网络层获取的频域特征的局部特征和长短时记忆网络层获取的时序特征映射到第一幅度掩膜对应的特征维度;以及,卷积网络层用于获取第二音频信号对应的频域特征的局部特征,长短时记忆网络层用于获取第二音频信号中各帧之间的时序特征,全连接网络层用于将卷积网络层获取的频域特征的局部特征和长短时记忆网络层获取的时序特征映射到第二幅度掩膜对应的特征维度。
根据第一方面,或者以上第一方面的任意一种实现方式,第一麦克风位于终端设备的顶部,第二麦克风位于终端设备的底部。
根据第一方面,或者以上第一方面的任意一种实现方式,终端设备与真无线耳机的左耳机和右耳机分别建立通信链路;第一麦克风位于左耳机,第二麦克风位于右耳机。
第二方面,本申请提供了一种终端设备。该终端设备包括:存储器和处理器,存储器和处理器耦合;存储器存储有程序指令,程序指令由处理器执行时,使得所述终端设备执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第三方面,本申请提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第三方面以及第三方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第三方面以及第三方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第四方面,本申请提供了一种计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第四方面以及第四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第四方面以及第四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第五方面,本申请提供了一种芯片,该芯片包括处理电路、收发管脚。其中,该收发管脚、和该处理电路通过内部连接通路互相通信,该处理电路执行第一方面或第一方面的任一种可能的实现方式中的方法,以控制接收管脚接收信号,以控制发送管脚发送信号。
第五方面以及第五方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第五方面以及第五方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
附图说明
图1为示例性示出的终端设备的硬件结构示意图;
图2至5为示例性示出的一种录制立体声场景中,开启或关闭音频降噪功能的用户界面示意图;
图6为示例性示出的又一种开启或关闭音频降噪功能的用户界面示意图;
图7为示例性示出的本申请实施例提供的立体声降噪方法的流程示意图;
图8为示例性示出的本申请实施例提供的一种立体声降噪处理逻辑的示意图;
图9为示例性示出的终端设备与服务器的交互示意图;
图10为示例性示出的终端设备的软件结构示意图;
图11为示例性示出的软、硬件交互示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一目标对象和第二目标对象等是用于区别不同的目标对象,而不是用于描述目标对象的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个系统是指两个或两个以上的系统。
为了更好地理解本申请实施例提供的技术方案,在对本申请实施例的技术方案说明之前,首先结合附图对本申请实施例的适用于的终端设备(例如手机、平板电脑等)的硬件结构进行说明。
需要说明的是,本申请实施例提供的技术方案尤其适用于能够进行立体声录制的终端设备,例如至少设置了2个位于不同位置的麦克风的手机、平板电脑等,或者连接了立体声耳机的手机、平板电脑、智能手表等。为了便于说明,下文以手机为例进行说明。
示例性的,对于设置了2个麦克风的手机,其中一个麦克风(话筒)例如设置于手机底部,如充电接口的两侧或一侧;另一个麦克风例如设置于手机顶部,如后置摄像头附近,或者手机正面听筒附近。
示例性的,对于手机连接的立体声耳机,例如真无线立体声耳机(True WirelessStere,TWS耳机)。具体到本申请中,下述各实施例的描述,以TWS耳机作为采集音频信号的两个麦克风为例。
此外,还需要说明的是,由于本申请实施例提供的技术方案是针对立体声的降噪处理方案。因此,为了实现立体声的录制,下述以TWS耳机作为采集音频信号的两个麦克风时,需要保证TWS耳机的左耳机和右耳机均与手机连接成功。
参见图1,手机100可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriberidentification module,SIM)卡接口195等。
其中,处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器(Modem),图形处理器(graphicsprocessing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等,此处不再一一列举,本申请对此不作限制。
关于上述所说的作为处理单元的控制器,可以是手机100的神经中枢和指挥中心。在实际应用中,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
关于上述说的调制解调处理器,可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号,以及将解调得到的低频基带信号传送至基带处理器处理。
关于上述所说的基带处理器,用于对调节器传输的低频基带信号进行处理,并将处理后的低频基带信号传递给应用处理器。
需要说明的,在一些实现方式中,基带处理器可以集成在调制解调器内,即调制解调器可以具备基带处理器的功能。
关于上述所说的应用处理器,用于通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。例如在播放基于本申请实施例提供的立体声降噪方法录制的立体声时,应用处理器将控制扬声器170A,或受话器180B,或连接的TWS耳机等输出声音信号。
关于上述所说的数字信号处理器,用于处理数字信号。具体地,数字信号处理器除了可以处理数字图像信号,还可以处理其他数字信号。例如,当手机100在频点选择时,数字信号处理器可用于对频点能量进行傅里叶变换等。
关于上述所说的神经网络处理器,具体到本申请提供的技术方案中,可用于训练本申请实施例中所说的用于对立体声进行降噪处理的神经网络模型。可理解地,为了降低对手机100的资源占用,神经网络模型也可以由云端服务器或其他服务器训练好下发给手机100。
关于上述所说的视频编解码器,用于对数字视频压缩或解压缩。示例性的,手机100可以支持一种或多种视频编解码器。这样,手机100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
关于上述所说的ISP,用于将数字图像信号输出到DSP加工处理。具体地,ISP用于处理摄像头193反馈的数据。例如,拍照、录像时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实现方式中,ISP可以设置在摄像头193中。
关于上述所说的DSP,用于将数字图像信号转换成标准的RGB,YUV等格式的图像信号。
此外,还需要说明的,关于包括上述处理单元的处理器110,在一些实现方式中,不同的处理单元可以是独立的器件。即,每一个处理单元都可以看作为一个处理器。在另一些实现方式中,不同的处理单元也可以集成在一个或多个处理器中。例如,在一些实现方式中,调制解调处理器可以是独立的器件。在另一些实现方式中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,处理器110还可以包括一个或多个接口。其中,接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等,此处不再一一列举,本申请对此不作限制。
此外,处理器110中还可以设置存储器,用于存储指令和数据。在一些实现方式中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
继续参见图1,外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。具体到本申请提供的实施例中,录制的立体声的文件也可以保存在外边存储卡中。
继续参见图1,内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能,以及本申请实施例中所说的立体声录制功能等)等。存储数据区可存储手机100使用过程中所创建的数据(比如基于本申请实施例提供的技术方案录制的立体声的音频数据)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
继续参见图1,充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实现方式中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实现方式中,充电管理模块140可以通过手机100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端设备供电。
继续参见图1,电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实现方式中,电源管理模块141也可以设置于处理器110中。在另一些实现方式中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
继续参见图1,手机100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
需要说明的是,天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实现方式中,天线可以和调谐开关结合使用。
继续参见图1,移动通信模块150可以提供应用在手机100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实现方式中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实现方式中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
继续参见图1,无线通信模块160可以提供应用在手机100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
需要说明的,在以下实现方式中,用于进行立体声降噪的神经网络模型可以由云端服务器或其他服务器训练获得。对于这种实现场景,手机100可通过移动通信模块150或无线通信模块160与提供神经网络的云端服务器或者其他服务器进行通信。例如,手机100可以通过移动通信模块150向云端服务器发送获取,或者更新神经网络模型的请求。相应地,云端服务器可以根据手机100的请求,向手机100下发训练好的神经网络模型。
此外,还需要说明的,在神经网络模型由云端服务器(或其他服务器)训练的场景中,云端服务器可以根据不同配置的手机100对应的定制需求,定制化适合不同手机100的神经网络模型,以及根据不同手机100反馈的降噪结果,对神经网络模型进行更新迭代训练。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
继续参见图1,音频模块170可以包括扬声器170A,受话器170B,麦克风170C,耳机接口170D等。示例性的,手机100可以通过应用处理器和音频模块170中的扬声器170A,受话器170B,麦克风170C,耳机接口170D等实现音频功能。例如录音录像功能。
其中,在通过应用处理器和音频模块170实现音频功能的过程中,音频模块170可用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实现方式中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
具体到本申请实施例中,能够实现立体声录制的手机100,至少需要包括2个麦克风170C。关于这2个麦克风170C的设置位置可以参见上文,此处不再赘述。
继续参见图1,传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等,此处不再一一列举,本申请对此不作限制。
继续参见图1,按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。手机100可以接收按键输入,产生与手机100的用户设置以及功能控制有关的按键信号输入。
继续参见图1,马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。
继续参见图1,指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
继续参见图1,摄像头193用于捕获静态图像或视频。手机100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。具体地,物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupleddevice,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实现方式中,手机100可以包括1个或N个摄像头193,N为大于1的正整数。
继续参见图1,显示屏194用于显示图像,视频等。显示屏194包括显示面板。在一些实现方式中,手机100可以包括1个或N个显示屏194,N为大于1的正整数。手机100可以通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
关于手机100的硬件结构就介绍到此,应当理解地是,图1所示手机100仅是一个范例,在具体实现中,手机100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
基于图1所示结构的手机,用户在使用手机进行录音录像时,便可以通过位于不同位置的两个麦克风,或者与手机100建立连接的TWS耳机,接收双声道音频,即实现立体声的录制。
但是,在录音录像的场景中,受环境影响,录制的立体声可能不仅会包括目标语音信号,还可能包括目标语音信号之外的噪声信号。为了提升用户体验,本申请提供了一种立体声降噪方法,旨在确保立体声中目标语音信号的保真度,同时保持立体声的方位感,提升噪声场景的录音体验。
示例性的,基于本申请实施例提供的立体声降噪方法,在用户期望录制的立体声为保留了目标音频信号,消除或抑制了噪音音频信号的立体声,即降噪的立体声时,可通过采用同一个神经网络模型确定适合立体声中两路音频信号的幅度掩膜,然后基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理,以获得降噪的立体声。
具体到本申请实施例提供的立体声降噪方法中,神经网络模型对应的损失函数包括了时频域损失函数和声像损失函数。因此,基于该神经网络模型确定的每一路音频信号的幅度掩膜均可以体现对应音频信号的频域特征,以及相同的声像特征。故而,基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理时,根据对应的频域特征,可以确保每一音频信号中的目标音频信号的保证度;根据相同的声像特征,可以保持立体声的空间感。由此,既兼顾了立体声中目标语音信号的保真度,又兼顾了立体声的空间感。
关于上述所说的目标音频信号、噪音音频信号与场景有关。例如,对于采访、演讲、会议等场景,目标音频信号通常为人声,其他非人声的音频信号,如风声、马路噪声、音乐等则为噪音音频信号。还例如,对于音乐会等场景,目标音频信号通常为音乐,其他非音乐的音频信号,如人声、风声、马路噪声等则为噪音音频信号。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
示例性的,在一些实现方式中,可以在存储器中置入固定的程序代码,设置终端设备在进行立体声录制时,默认采用本申请实施例提供的立体声降噪方法(后续称为:降噪模式)。即,针对任何场景,当用户使用终端设备录制立体声时,均采用降噪模式进行录制。
示例性的,在另一些实现方式,可以在终端设备中提供供用户操作的音频降噪选项,以使用户能够根据需要操作音频降噪选项,实现开启音频降噪功能,进而使得终端设备在开启音频降噪功能后,采用降噪模式进行录制。或者,通过操作音频降噪选项,实现关闭音频降噪功能,进而使得终端设备在关闭降噪功能后,直接根据两个麦克风采集到的两路音频信号进行立体声合成(后续称为:原声模式)。
以在终端设备(以手机为例)中提供供用户操作的音频降噪选项的实现方式为例。针对这种实现方式,具体到实际应用中,基于本申请实施例提供的立体声降噪方法实现的录音录像场景涉及的用户界面的变化,例如图2至图5所示。
参见图2中(1),示例性示出手机的一个界面(界面10a)。参见图2中(1),界面10上可包括一个或多个控件,例如电量图标、网络图标,以及各种应用图标等。其中,应用图标例如包括相机应用图标S1,设置应用图标S2,录音机应用图标等。
示例性的,当用户点击界面10a中相机应用的图标S1后,手机响应于该操作行为,将启动相机应用,界面将从图2中(1)示出的界面10a,切换为图2中(2)示出的界面10b。
参见图2中(2),示例性的,界面10b上可包括一个或多个控件。包括的控件包括但不限于:预览窗口S3,快门控件S4,前后摄像头切换控件S5,拍摄模式列表S6,倍数选择列表S7,功能选项列表(预览窗口S3上面区域显示的内容),图片查看控件(快门控件S4左侧的控件)等。
其中,预览窗口S3可以显示摄像头实时采集的图像。快门控件S4可以监听触发拍照的用户操作,即当手机检测到作用于快门控件S4的用户操作时,会响应于该操作进行拍照,并将拍摄所得的图像存储于图库应用中。前后摄像头切换控件S5可以在用户点击时,响应于用户的操作行为,实现前、后摄像头的切换,例如在当前处于前置摄像头时,用户点击前后摄像头切换控件S5后,手机响应于该操作行为,将切换到后置摄像头进行拍摄。拍摄模式列表S6中展示的是可供用户选择的拍摄模式,例如光圈模式、夜景模式、人像模式、拍照模式、录像模式、笑脸模式等。倍数选择列表S7中展示的是可供用户选择的放大倍数,例如0.6倍(超广角)、1倍(主镜头)、2.5倍(长焦镜头)、10倍(超长焦镜头)等。
示例性的,图2中(2)所示的界面10b中,以拍摄模式列表S6中被选中的拍摄模式为“拍照”,倍数选择列表S7中被选中的放大倍数为1倍为例。
示例性的,当用户向左滑动拍摄模式列表S6中的拍摄模式,将“录像”滑动到图2中(2)“拍照”所在的位置,或者直接点击拍摄模式列表S6中的“录像”选项后,手机响应于该操作行为,拍摄模式将从“拍照”模式切换为“录像”模式,如图3中(1)所示。
此外,可理解地,录像是一个持续动作,因此拍摄模式切换为“录像”模式时,快门控件S4将切换为图3中(1)所示的录像控件S4’。
示例性的,当用户点击录像控件S4’后,手机响应于该操作行为,将开始录像(录制当前环境的声音和画面),此时手机的界面也将从界面10b切换到录像界面,如图3中(2)示出的界面10c。
需要说明的,为了能够在录像模式下,实现本申请实施例提供的立体声降噪方法,界面10c中可以设置供用户开启或关闭音频降噪功能的选项。参见图3中(2),示例性的,录像模式对应的界面10c中,除了可以包括显示录制画面的预览窗口S3、前后摄像头切换控件S5和倍数选择列表S7,还可以包括音频降噪选项S8、录制时间显示控件S9、拍摄录像中某一帧画面的拍照控件S10,以及在录像过程中操作的控件S4”等。
可理解地,在录像过程中,用户可能会中途暂停录制,或者直接结束录制。因此,为了便于用户根据需要点击不同的控件,控件S4”中可以包括用于暂停录制的控件S4-1”和用于结束录像的控件S4-2”。
此外,还需要说明的,对于音频降噪选项S8,可以通过设置不同的状态,进而通过一个选项实现音频降噪功能的开启,或者音频降噪功能的关闭。具体到本实施例中,以音频降噪选项S8所示的样式表示其处于第一状态,以音频降噪选项S8’所示的样式表示其处于第二状态。
示例性的,在音频降噪选项处于第一状态时,可以约定手机关闭了音频降噪功能,即在录像过程中,手机采用原声模式进行录制。
示例性的,在音频降噪选项处于第二状态时,可以约定手机开启了音频降噪功能,即在录像过程中,手机采用降噪模式进行录制。
基于上述对音频降噪选项状态的描述可知,在开始录像时,当对应的界面为图3中(2)示出的界面10c时,在音频降噪选项为S8的样式时,手机识别到音频降噪选项的状态为上述所说的第一状态,因此会采用原声模式进行录制。
示例性的,在录像过程中,例如录制5s(如参见图4中(1)中S9中示出的时间“00:00:05”)时,用户点击了样式为S8的音频降噪选项。基于上述描述可知,手机响应于该操作行为,将把音频降噪选项从第一状态切换为第二状态,即从S8所示的样式切换为图4中(1)示出的S8’的样式,进而开启音频降噪功能。此时,手机便会停止采用原声模式进行录制,而是改为采用降噪模式进行录制。
示例性的,在一些实现方式中,可以在开启音频降噪功能时,在界面10c中弹窗提示用户当前已开启音频降噪功能,如图4中(1)示出的“音频降噪已开启”的提示信息。
此外,为了不影响用户使用,避免提示信息长时间遮挡录像画面,可以设置该提示信息的显示时长,例如2s。相应地,在该提示信息在界面10c中显示2s后,将自动从界面10c消失。如图4中(2),在S9中示出的时间“00:00:07”,即开启音频降噪功能2s后,该提示信息便会消失。
示例性的,在录像过程中,例如录制5分25s(如参见图5中(1)中S9中示出的时间“00:05:25”)时,用户点击了样式为S8’的音频降噪选项。基于上述描述可知,手机响应于该操作行为,将把音频降噪选项从第二状态切换为第一状态,即从S8’所示的样式切换为S8的样式,进而关闭音频降噪功能。此时,手机便会停止采用降噪模式进行录制,而是改为采用原声模式进行录制。
示例性的,在一些实现方式中,可以在关闭音频降噪功能时,在界面10c中弹窗提示用户当前已关闭音频降噪功能,如图5中(1)示出的“音频降噪已关闭”的提示信息。
此外,为了不影响用户使用,避免提示信息长时间遮挡录像画面,可以设置该提示信息的显示时长,例如2s。相应地,在该提示信息在界面10c中显示2s后,将自动从界面10c消失。如图5中(2),在S9中示出的时间“00:05:27”,即关闭音频降噪功能2s后,该提示信息便会消失。
由此,通过在界面10c中新增开启或关闭音频降噪功能的音频降噪选项,从而可以方便用户在录像过程中,根据需要随时开启或关闭音频降噪功能,进而基于本申请实施例提供的立体声降噪方法,实现原声模式录制或降噪模式录制的切换。即,基于本申请实施例提供的立体声降噪方法,不仅可以实现一个完整的录音录像对应的立体声为降噪后的立体声,也可以实现一个完整的录音录像对应的立体声为未降噪的立体声,还可以实现一个完整的录音录像对应的立体声即又降噪的立体声部分,又有未降噪的立体声部分,从而更好地适用于实际的立体声录制场景。
此外,针对降噪部分的立体声,基于本申请实施例提供的降噪方法,通过根据体现了频域特征和声像特征的幅度掩膜对音频信号进行掩蔽,从而使得降噪后的立体声既兼顾了立体声中目标语音信号的保真度,又兼顾了立体声的空间感。
此外,还需要说明的,当录像过程中接收到用户对S4-2”,即停止录制选项的点击操作时,手机响应于该操作行为,将结束录像,录制的内容也将保存到手机的图库应用中。在结束录像的时候,在一种实现方式中,手机可以直接将音频降噪选项恢复为第一状态,关闭音频降噪功能。即,手机不保存录像过程中,音频降噪功能对应的状态,不论结束录像时,音频降噪选项是处于第一状态(如样式S8),还是处于第二状态(如样式S8’),在结束录制时,手机都将音频降噪选项的状态置为第一状态。即,基于这种实现方式,用户在图4中(2)所示的界面10c(音频降噪选项处于第二状态),或者在图5中(1)所示的界面10c(音频降噪选项处于第一状态)中,点击S4-2”退回到图3中(1)所示的界面10b后,当用户再次点击该界面10b中的S4’时,手机响应于该操作行为,进入录像拍摄对应的界面10c中,音频降噪选项依旧为S8所示样式。
示例性的,在另一种实现方式中,在结束录像的时候,手机可以记录(保存)录像过程中,音频降噪功能对应的状态,后续重选触发录制(开始一个新的录像任务)时,手机将直接根据上一次结束录像时记录的状态信息,修改音频降噪选项的状态,进而根据修改后的状态对应的模式进行录制。
例如,基于这种实现方式,用户在图4中(2)所示的界面10c(音频降噪选项处于第二状态)中,点击S4-2”退回到图3中(1)所示的界面10b后,当用户再次点击该界面10b中的S4’时,手机响应于该操作行为,进入录像拍摄对应的界面10c中,音频降噪选项直接就是S8’所示样式。这样,手机便可以直接采用降噪模式进行录制。
还例如,基于这种实现方式,用户在图5中(1)所示的界面10c(音频降噪选项处于第一状态)中,点击S4-2”退回到图3中(1)所示的界面10b后,当用户再次点击该界面10b中的S4’时,手机响应于该操作行为,进入录像拍摄对应的界面10c中,音频降噪选项依旧为S8所示样式。这样,手机便可以直接采用原声模式进行录制。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
示例性的,在另一种实现方式中,开启音频降噪功能的入口可以集成在设置应用对应的界面中。对于这种实现方式,需要在开始录制前,前往设置应用对应的界面,打开音频降噪功能。例如,用户需要点击图2中(1)示出的界面10a中显示的设置应用的图标S2。
示例性的,在用户点击S2后,手机响应于该操作行为,将启动设置应用,从界面10a切换到图6中(1)示出的界面10d。
参见图6中(1),界面10d上可包括一个或多个控件。包括的控件包括但不限于:账号中心、飞行模式、立体声降噪选项10d-1、WLAN、蓝牙、通知、应用、显示和亮度、声音和振动、系统和更新、电池、存储、安全等控件选项。
示例性的,本实施例以立体声降噪选项10d-1所示样式指示音频降噪功能未开启为例,当用户点击立体声降噪选项10d-1后,手机响应于该操作行为,将开启音频降噪功能,立体声降噪选项10d-1将切换为图6中(2)示出的立体声降噪选项10d-1’的样式。
示例性的,在立体声降噪选项为10d-1’所示样式的情况下,当用户通过相机应用进行录像时,将之间以降噪模式进行录制。
示例性的,在立体声降噪选项为10d-1所示样式的情况下,当用户通过相机应用进行录像时,将以原声模式进行录制。
示例性的,在一种实现方式中,通过设置应用中提供的立体声降噪选项开启或关闭音频降噪功能的方式,在录像过程中界面10c中可不显示音频降噪选项,如上述所说的S8或S8’。因此,在录像过程中,用户无法动态进行降噪模式和原声模式的切换。如果需要进行降噪模式和原声模式的切换,则需要通过S4-1”暂停录制,然后进入界面10d,操作立体声降噪选项,实现降噪模式和原声模式的切换。
示例性的,在另一种实现方式中,可以将界面10d中提供的立体声降噪选项和上述界面10c中提供的音频降噪选项进行绑定。即,在界面10d中的立体声降噪选项为10d-1的样式时,当用户通过相机应用进行录像时,通过点击S4’进入界面10c后,界面10c中显示的音频降噪选项将处于S8的样式。当用户点击S8,使音频降噪选项切换为S8’的样式时,立体声降噪选项也将自动切换为10d-1’的样式。即,立体声降噪选项和音频降噪选项的状态保持同步。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
为了更好地理解本申请实施例提供的立体声降噪方法,以下结合图7,对本申请实施例提供的立体声降噪方法进行具体说明。
参见图7,本申请实施例提供的立体声降噪方法,具体包括:
101,获取第一麦克风采集的含噪音的第一音频信号和第二麦克风采集的含噪音的第二音频信号;其中,第一麦克风和第二麦克风为位于不同位置的麦克风。
示例性的,在一些实现方式中,第一麦克风例如可以是当前进行录像的终端设备,如手机顶部的麦克风。第二麦克风例如可以是手机底部的麦克风。关于位于顶部和底部的麦克风的具体位置,可以参见上述实施例的说明,此处不再赘述。
示例性的,在另一些实现方式中,在当前进行录像的终端设备,如手机与真无线耳机,如TWS耳机的左耳机和右耳机分别建立通信链路的情况下,第一麦克风例如可以是位于左耳机的麦克风,第二麦克风例如可以是位于右耳机的麦克风。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。只要保证合成立体声的音频信号来自不同位置的麦克风即可。
此外,为了便于说明,本实施例以用户通过上述所说的音频降噪选项开启音频降噪功能,触发终端设备采用降噪模式录制立体声为例。
通过上述实施例的描述可知,在音频降噪选项为S8的样式,即处于第一状态时,表示未开启音频降噪功能。在音频降噪选项为S8’的样式,即处于第二状态时,表示开启了音频降噪功能。基于此,在音频降噪选项为第一状态,即S8的样式时,当接收到对音频降噪选项的点击操作时,手机响应于该操作行为,音频降噪选项将切换为第二状态,即从S8的样式切换为S8’的样式。在音频降噪选项切换为第二状态后,音频降噪功能将开启,手机便可以采用降噪模型进行录制。
102,将第一音频信号和第二音频信号输入神经网络模型,得到第一音频信号对应的第一幅度掩膜和第二音频信号对应的第二幅度掩膜;其中,第一幅度掩膜体现了第一音频信号的第一频域特征和第一声像特征,第二幅度掩膜体现了第二音频信号的第二频域特征和第二声像特征。
可理解地,神经网络模型为采用不同方位和距离下,采集的含噪音的立体声音频信号,预先训练好并置入终端设备中的。由于立体声呈现的空间感取决于不同声道对应的麦克风的排布方式,因此需要保证训练神经网络模型阶段使用的含噪音的立体声音频信号的麦克风与测试阶段/应用阶段的麦克风相同,即所处位置、型号、性能等相同,从而保证应用阶段使用神经网络模型确定的第一幅度掩膜和第二幅度掩膜适合当前麦克风采集到的第一音频信号和第二音频信号。故而,采集含噪音的立体声音频信号的麦克风与第一麦克风和第二麦克风的位置相同。
具体到本实施例中,神经网络模型包括依序设置的卷积网络(ConvolutionalNeural Network,CNN)层、长短时记忆网络(Long Short-Term Memory,LSTM)层和全连接网络(Linear Network,LN)层。即,本实施例中的神经网络模型为CRNN(ConvolutionalRecurrent Neural Network)结构。
其中,卷积网络层用于获取第一音频信号对应的频域特征的局部特征,长短时记忆网络层用于获取第一音频信号中各帧之间的时序特征,全连接网络层用于将卷积网络层获取的频域特征的局部特征和长短时记忆网络层获取的时序特征映射到第一幅度掩膜对应的特征维度;以及,卷积网络层用于获取第二音频信号对应的频域特征的局部特征,长短时记忆网络层用于获取第二音频信号中各帧之间的时序特征,全连接网络层用于将卷积网络层获取的频域特征的局部特征和长短时记忆网络层获取的时序特征映射到第二幅度掩膜对应的特征维度。
为了便于说明神经网络模型的构建过程,以下对训练神经网络模型的过程进行具体说明。
通过与上述第一麦克风和第二麦克风相同的两个麦克风采集不同方位和距离的立体声音频信号(不含噪音),在该立体声音频信号(不含噪音)上以不同信噪比、不同幅度,融合不同场景的噪音音频信号(如不含人声的噪声数据,风声、马路噪声、音乐声等),形成含噪音的立体声音频信号(后续称为含噪音频训练数据)。进而,使用该类型的含噪音的立体声音频信号,对构造的满足上述神经网络结构,并能体现时频域关系(时频域损失函数确定)和立体声的声像(声像损失函数)的损失函数的模型,进行迭代训练,直到满足收敛条件(根据时频域损失函数和声像损失函数确定)。关于上述所说的融合为将不同的音频信号在时域上的融合。
示例性的,在训练过程中,可设干净语音为s(t),噪音数据为n(t),那么含噪音频训练数据y(t)可以表示为y(t)=(t)+n(t)。
通过上述描述可知,含噪音频训练数据为立体声的音频信号,即由第一麦克风对应的通道和第二麦克风对应的通道的音频信号构成的双通道立体声音频信号。故而,在本实施例中,y(t)可以表示为y(t)=[yl(t),r(t)]。
示例性的,在基于含噪音频训练数据训练神经网络模型时,可以将每一条含噪音频训练数据按照预设时间周期分为时间帧,然后从每一时间帧中提取出频域特征(幅度谱)。接着,将当前帧以及前后连续数帧含噪音频训练数据对应的幅度谱记为Y=[Y1(f),…,t(f),…,T(f)]H∈RT×F×2
其中,T表示帧数;F表示频点数;2表示两个通道,即第一麦克风对应的一个通道(后续称为左声道)和第二麦克风对应的一个通道(后续称为:右声道); 表示由左声道和右声道组成的当前帧的频域幅度。
示例性的,在将样本Y输入神经网络模型后,经神经网络模型中CNN层、LSTM层和LN层处理后,将输出当前帧Yt(f)对应的幅度掩膜mask(f)=[maskl(f),askr(f)]。
其中,maskl(f)为左声道对应的幅度掩膜,即上述所说的第一幅度掩膜;maskr(f)为右声道对应的幅度掩膜,即上述所说的第二幅度掩膜。
基于此,在一种实现方式中,立体声的损失函数可以表示为:Lstereo_se=f(S(f),其中,S(f)表示频域的干净语音,/>表示降噪后的立体声(未考虑空间感,仅考虑了频域特征)。
示例性的,由于输入神经网络模型的样本Y包括左声道的第一音频信号和右声道的第二音频信号。因此,表示的降噪后的立体声,具体可以表示为:
其中,Yl(f)例如为图8示出的左声道输入的含噪音的第一音频信号,Yr(f)例如为图8示出的右声道输入的含噪音的第二音频信号,maskl(f)为神经网络模型根据含噪音的第一音频信号和含噪音的第二音频信号确定的第一幅度掩膜(此处仅能够体现第一频域特征),maskr(f)为神经网络模型根据含噪音的第一音频信号和含噪音的第二音频信号确定的第二幅度掩膜(此处仅能够体现第二频域特征),为基于maskl(f)对Yl(f)进行掩蔽,即降噪处理和的第一音频信号,/>为基于maskr(f)对Yr(f)进行掩蔽,即降噪处理和的第二音频信号。
此外,关于上述所说的时频域损失函数,具体包括时域损失函数和频域损失函数两种。基于此,时频域损失函数可以表示为:
其中,s(t)和S(f)分别表示时域和频域的干净语音,和/>表示神经网络模型基于含噪音频训练数据y(t)和频域幅度Y(f)对s(t)和S(f)的估计结果(降噪的音频信号)。,因此,/>表示的降噪后的立体声,具体可以表示为:
基于此,时频域损失函数可以表示为:Lstereo_time+freq
此外,具体到本申请实施例中,由于降噪后的立体声还需要保持空间感,因此对于神经网络模型而言,其使用的损失函数除了上述所说的时频域损失函数Lstereo_之外,还应当包括能够体现立体声的声像的声像损失函数(Lstereo_age)。这样基于神经网络模型确定幅度掩膜才能对立体声的空间感进行约束,避免立体声声像偏移。即,基于神经网络模型确定的幅度掩膜需要能够体现频域特征和用于描述立体声的声像的声像特征。
示例性的,关于立体声的声像,一般包括双通道能量差(inter-channelintensity difference,IID),双通道相位差(inter-channel phase difference,IPD),双通道相关性(inter-channel coherence,IC),全局相位差(overall phase difference,OPD)等,即幅度掩膜中的声像特征需要包括上述几个物理量。
关于立体声的声像包括的上述4个物理量的定义,具体可以表示为:
其中,Sl(f)和r(f)分别表示频域的左声道和右声道输入的音频信号,如图8中含噪音的第一音频信号和含噪音的第二音频信号。X(f)表示Sl(f)和r(f)的线性组合,即X(f)=lSl(f)+rr(f),其可以表示由立体声所描述的某个方位的单个音频信号(声源)。IPD和OPD相结合,能够反映两个通道具体的相位信息。
关于上述4个物理量对应的损失函数,具体可以表示为:
此外,需要说明的,上述表示立体声的声像的物理量,如IID、IPD、IC、OPD也可以根据划分的子带进行计算。具体地,根据双工理论(duplex theory),人耳对立体声方位的感知在低频段主要取决于IPD,在高频段主要取决于IID。而双通道的相关性在全频带同等重要。因此可以根据频带数(频点的个数)赋予上述4个物理量对应的损失函数不同的权重。例如:
其中,L表示低频频带数,H表示高频频带数,α表示不同物理量对应的损失函数的权重系数。在实际的应用中,也可以根据需要调节声像损失函数中不同部分(不同物理量对应的损失函数)的占比。
基于此,本申请实施例中涉及的神经网络模型对应的总损失函数,可以表示为:Lstereo_noisestereo_+stereo_。相比于分别对左右声道进行单独降噪而言,本实施例提供的立体声降噪方法,通过时频域损失函数和立体声的声像损失函数构造神经网络模型的损失函数,从而能够从根源上提升立体声的降噪性能,确保在降噪的同时还原立体声呈现的空间感。
基于上述描述的神经网络模型对应的总损失函数,即Lstereo_sestereo_+Lstereo_age,在采用含噪频训练数据,对CRNN结构的模型进行迭代训练的过程中,通过最小化上述损失函数,便可以得到满足迭代要求的神经网络模型。
关于训练神经网络模型的具体细节,可以参见CRNN结构的模型的相关文献,此处不再赘述。
此外,还需要说明的,在实际应用中,还可以将上述所说的时频域损失函数和立体声的声像损失函数扩展到其他结构的神经网络,即本申请实施例提供的立体声降噪方法中适应的神经网络模型,对神经网络的结构不作限定,只要训练神经网络模型时,使用的损失函数包括时频域损失函数和立体声的声像损失函数即可。
由此,基于上述损失函数包括时频域损失函数和声像损失函数的神经网络模型,在将第一音频信号和第二音频信号输入神经网络模型后,神经网络模型便可以根据时频域损失函数,确定第一幅度掩膜中的第一频域特征,以及第二幅度掩膜中的第二频域特征。同时,根据声像损失函数,确定第一幅度掩膜中的第一声像特征,以及第二幅度掩膜中的第二声像特征。
需要说明的,第一频域特征用于描述第一音频信号中目标音频信号和噪音音频信号在频域上的关系,第二频域特征用于描述第二音频信号中目标音频信号和噪音音频信号在频域上的关系。第一声像特征和第二声像特征相同,均是根据频域上的第一音频信号和第二音频信号确定,主要用于描述立体声的声像。这样,根据每一音频信号对应的幅度掩膜对音频信号进行掩蔽时,便可以根据频域特征确保立体声中目标音频信号的保真度,根据声像特征确定立体声的空间感。
此外,还需要说明的,由于第一声像特征和第二声像特征为相同的声像特征,其用于描述立体声的声像,以使得降噪后的立体声能够保持空间感。因此,含噪音的第一音频信号和含噪音的第二音频信号需要同时输入按照上述训练方式,训练获得的神经网络模型。
此外,还需要说明的,关于本实施例中所说的神经网络模型,在实际应用中可以是由终端设备自己训练获得的,也可以是由服务器训练获得发送给终端设备的。
为了降低终端设备的资源和功耗,本实施例以服务器训练获得为例。具体地说,在本实施例中,为了尽可能减小对服务器的训练压力,同时又能使得训练出的神经网络模型能够适合大部分类型、配置的终端设备,服务器首次训练出的神经网络模型可以是基于大数据平台中获得的含噪音频训练数据,训练一个初始神经网络模型,然后将训练出的初始神经网络模型分别推送给各个终端设备,例如图9中的手机1、手机2和手机3,或者在接收到各个终端设备的请求后,再将训练出的初始神经网络模型推送给对应的终端设备。
进一步地,为了实现定制化需求,服务器还可以收集每个使用初始神经网络模型的终端设备后续采集的含噪音的立体声音频信号,如图9中手机1采集的含噪音的立体声音频信号a、手机2采集的含噪音的立体声音频信号a、手机3采集的含噪音的立体声音频信号a。然后根据不同的含噪音的立体声音频信号分别对初始神经网络模型进行优化训练,进而得到针对不同终端设备的目标神经网络模型,并分别将不同终端设备的目标神经网络模型推送给对应的终端设备使用。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
103,采用第一幅度掩膜对第一音频信号进行掩蔽,采用第二幅度掩膜对第二音频信号进行掩蔽,得到降噪后的立体声。
由此,通过采用同一个神经网络模型确定适合立体声中两路音频信号的幅度掩膜,由于每一路音频信号的幅度掩膜均可以体现对应音频信号的频域特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理时,根据对应的频域特征,可以确保每一音频信号中的目标音频信号的保证度。
此外,由于每一路音频信号的幅度掩膜还包括了相同的声像特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理,根据相同的声像特征,保持立体声的方位感/空间感/立体感(后续统一为:空间感)。
这样,基于本申请实施例提供的立体声降噪方法,既兼顾了立体声中目标语音信号的保真度,又兼顾了立体声的方位感/空间感/立体感。
针对本申请实施例提供的立体声降噪方法,在应用到终端设备中时,不仅需要涉及终端设备的软件部分,还会涉及终端设备的硬件部分。以终端设备为手机为例,硬件结构为图1所示为例,为了更好地理解图1所示手机100的软件结构,以下对手机100的软件结构进行说明。在对手机100的软件结构进行说明之前,首先对手机100的软件系统可以采用的架构进行说明。
具体的,在实际应用中,手机100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。
此外,可理解地,目前主流的终端设备使用的软件系统包括但不限于Windows系统、Android系统和iOS系统。为了便于说明,本申请实施例以分层架构的Android系统为例,示例性说明手机100的软件结构。在具体实现中,本申请实施例提供的立体声降噪方法同样适用于其他系统。
此外,还应当理解地,目前手机的分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。这些层例如可以包括应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库、硬件抽象层、内核层等。
参见图10,为本申请实施例的手机100的软件结构框图。
其中,应用程序层可以包括一系列应用程序包。应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,API)和编程框架。在一些实现方式中,这些编程接口和编程框架可以描述为函数。
继续参见图10,具体到本申请实施例提供的技术方案中,应用程序层可包括能够录制立体声的相机应用、录音机应用,以及集成了开启或关闭音频降噪功能的设置应用等。
继续参见图10,具体到本申请实施例提供的技术方案中,应用程序框架层可包括音频服务、摄像头服务、立体声降噪模块等。
继续参见图10,示例性的,Android Runtime包括核心库和虚拟机。AndroidRuntime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维(3D)图形处理库(例如:OpenGL ES),二维(2D)图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式播放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
可理解地,上述所说的2D图形引擎是2D绘图的绘图引擎。
关于立体声的录制是通过相机应用的录像模式进行录制时,涉及画面的内容会由系统库中与图形有关的功能模块进行处理。
此外,可理解地,Android系统中的内核层是硬件和软件之间的层。继续参见图11,示例性的,内核层至少包含显示驱动,摄像头驱动,音频驱动等。示例性的,在录制立体声的场景中,音频驱动可以驱动音频模块中的第一麦克风和第二麦克风采集音频信号。关于手机100的软件结构就介绍到此,可以理解地是,图10示出的软件结构中的层以及各层中包含的部件,并不构成对手机100的具体限定。在本申请另一些实施例中,手机100可以包括比图示更多或更少的层,以及每个层中可以包括更多或更少的部件,本申请不作限制。
基于图1示出的手机的硬件结构和图10示出的软件结构,以下对实现本申请实施例提供的立体声降噪方法时,涉及的硬件和软件结构进行说明。
以录制立体声的应用为相机应用为例,参见图11,示例性的,当用户点击上述实施例中所说的图3中(1)示出的S4’后,手机响应于该操作行为,相机应用将向音频服务下发立体声录制指令,即告知音频服务当期要进行立体声录制。
可理解地,在相机应用的录像模式下进行录制时,还会涉及画面的录制,即还需要涉及摄像头服务,以及摄像头驱动、摄像头、出来摄像头采集的视频流的功能模块。此处仅以与音频相关的内容进行说明。
继续参见图11,示例性的,音频服务接收到立体声录制指令后,将启动对应的进程,调起音频驱动,进而由音频驱动去驱动音频模块,例如音频模块中的第一麦克风和第二麦克风。这样,在录像过程中,第一麦克风便可以采集上述所说的第一音频信号(未降噪),第二麦克风便可以采集上述所说的第二音频信号(未降噪)。
示例性的,第一麦克风和第二麦克风采集到的音频信号会交由Modem进行出来,以得到立体声,并在停止录制时将得到的立体声保存至存储器中。
关于Modem对第一音频信号(未降噪)和第二音频信号(未降噪)进行的处理,具体要根据立体声降噪模块给的指令确定。
本实施例以录制立体声的界面中提供了音频降噪选项为例,立体声降噪模块发送给Modem的指令根据用户对音频降噪选项进行点击操作后,音频降噪选项的状态确定。
继续参见图11,示例性的,当用户点击了处于第一状态的音频降噪选项,如上述实施例中界面10c中样式为S8的音频降噪选项后,立体声降噪模块会确定用户开启了音频降噪功能,即需要Modem采用降噪模式对第一音频信号(未降噪)和第二音频信号(未降噪)进行的处理。这种情况下,立体声降噪模块将向Modem发送降噪指令,这样Modem便会基于本申请实施例提供的立体声降噪方法对第一音频信号(未降噪)和第二音频信号(未降噪)进行降噪出来,具体可以是对第一音频信号(未降噪)和第二音频信号(未降噪)进行上述实施例中步骤102和步骤103的处理。
示例性的,当用户点击了处于第二状态的音频降噪选项,如上述实施例中界面10c中样式为S8’的音频降噪选项后,立体声降噪模块会确定用户关闭了音频降噪功能,即需要Modem采用原声模式对第一音频信号(未降噪)和第二音频信号(未降噪)进行的处理。这种情况下,立体声降噪模块将向Modem发送原声指令,这样Modem就不会采用上述实施例中步骤102和步骤103对第一音频信号(未降噪)和第二音频信号(未降噪)进行降噪处理。
应当理解地是,上述说明仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。上述各种指令的表述,也仅是为了说明各功能模块和硬件在什么时候进行何种操作,在具体实现中,对这些指令的名称并不限定。
由此,基于上述软、硬件结构的终端设备,通过本申请实施例提供的立体声降噪方法,能够在确保立体声中目标语音信号保真度的条件下,实现降噪处理,同时保全立体声的空间特征,提升录音录像体验。
此外,可以理解地是,终端设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
此外,需要说明的是,在实际的应用场景中由终端设备实现的上述各实施例提供的立体声降噪方法,也可以由终端设备中包括的一种芯片系统来执行,其中,该芯片系统可以包括处理器。该芯片系统可以与存储器耦合,使得该芯片系统运行时调用该存储器中存储的计算机程序,实现上述终端设备执行的步骤。其中,该芯片系统中的处理器可以是应用处理器也可以是非应用处理器的处理器。
另外,本申请实施例还提供一种计算机可读存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在终端设备上运行时,使得终端设备执行上述相关方法步骤实现上述实施例中的立体声降噪方法。
另外,本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在终端设备上运行时,使得终端设备执行上述相关步骤,以实现上述实施例中的立体声降噪方法。
另外,本申请的实施例还提供一种芯片(也可以是组件或模块),该芯片可包括一个或多个处理电路和一个或多个收发管脚;其中,所述收发管脚和所述处理电路通过内部连接通路互相通信,所述处理电路执行上述相关方法步骤实现上述实施例中的立体声降噪方法,以控制接收管脚接收信号,以控制发送管脚发送信号。
此外,通过上述描述可知,本申请实施例提供的终端设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (15)

1.一种立体声降噪方法,其特征在于,应用于终端设备,所述方法包括:
获取第一麦克风采集的含噪音的第一音频信号和第二麦克风采集的含噪音的第二音频信号;其中,所述第一麦克风和所述第二麦克风为位于不同位置的麦克风;
将所述第一音频信号和所述第二音频信号输入神经网络模型,得到所述第一音频信号对应的第一幅度掩膜和第二音频信号对应的第二幅度掩膜;其中,所述第一幅度掩膜体现了所述第一音频信号的第一频域特征和第一声像特征,所述第二幅度掩膜体现了所述第二音频信号的第二频域特征和第二声像特征,所述第一声像特征和所述第二声像特征相同;
采用所述第一幅度掩膜对所述第一音频信号进行掩蔽,采用所述第二幅度掩膜对所述第二音频信号进行掩蔽,得到降噪后的立体声。
2.根据权利要求1所述的方法,其特征在于,
所述第一频域特征用于描述所述第一音频信号中目标音频信号和噪音音频信号在频域上的关系;
所述第一声像特征用于描述立体声的声像。
3.根据权利要求1所述的方法,其特征在于,
所述第二频域特征用于描述所述第二音频信号中目标音频信号和噪音音频信号在频域上的关系;
所述第二声像特征用于描述立体声的声像。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述神经网络模型采用不同方位和距离下,采集的含噪音的立体声音频信号训练获得。
5.根据权利要求4所述的方法,其特征在于,采集含噪音的所述立体声音频信号的麦克风与所述第一麦克风和所述第二麦克风的位置相同。
6.根据权利要求4所述的方法,其特征在于,所述神经网络模型对应的损失函数包括时频域损失函数;
其中,在将所述第一音频信号和所述第二音频信号输入所述神经网络模型后,所述神经网络模型根据所述时频域损失函数,确定所述第一幅度掩膜中的所述第一频域特征,以及所述第二幅度掩膜中的所述第二频域特征。
7.根据权利要求6所述的方法,其特征在于,所述神经网络模型对应的损失函数还包括声像损失函数;
其中,在将所述第一音频信号和所述第二音频信号输入所述神经网络模型后,所述神经网络模型根据所述声像损失函数,确定所述第一幅度掩膜中的所述第一声像特征,以及所述第二幅度掩膜中的所述第二声像特征。
8.根据权利要求7所述的方法,其特征在于,所述第一声像特征和所述第二声像特征相同,根据频域上的所述第一音频信号和所述第二音频信号确定。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述第一声像特征和所述第二声像特征包括:双通道能量差、双通道相位差、双通道相关性和全局相位差;
其中,双通道包括所述第一麦克风对应的一路通道和所述第二麦克风对应的一路通道。
10.根据权利要求9所述的方法,其特征在于,所述声像损失函数包括双通道能量差损失函数、双通道相位差损失函数、双通道相关性损失函数和全局相位差损失函数;
其中,所述声像损失函数中包括的每一个损失函数对应一个权重系数,每一个权重系数根据频带数确定。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述神经网络模型包括依序设置的卷积网络层、长短时记忆网络层和全连接网络层;
其中,所述卷积网络层用于获取所述第一音频信号对应的频域特征的局部特征,所述长短时记忆网络层用于获取所述第一音频信号中各帧之间的时序特征,所述全连接网络层用于将所述卷积网络层获取的频域特征的局部特征和所述长短时记忆网络层获取的时序特征映射到所述第一幅度掩膜对应的特征维度;
以及,所述卷积网络层用于获取所述第二音频信号对应的频域特征的局部特征,所述长短时记忆网络层用于获取所述第二音频信号中各帧之间的时序特征,所述全连接网络层用于将所述卷积网络层获取的频域特征的局部特征和所述长短时记忆网络层获取的时序特征映射到所述第二幅度掩膜对应的特征维度。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述第一麦克风位于所述终端设备的顶部,所述第二麦克风位于所述终端设备的底部。
13.根据权利要求1至11任一项所述的方法,其特征在于,所述终端设备与真无线耳机的左耳机和右耳机分别建立通信链路;
所述第一麦克风位于所述左耳机,所述第二麦克风位于所述右耳机。
14.一种终端设备,其特征在于,所述终端设备包括:存储器和处理器,所述存储器和所述处理器耦合;所述存储器存储有程序指令,所述程序指令由所述处理器执行时,使得所述终端设备执行如权利要求1至13任意一项所述的立体声降噪方法。
15.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在终端设备上运行时,使得所述终端设备执行如权利要求1至13任意一项所述的立体声降噪方法。
CN202310481754.2A 2023-04-27 2023-04-27 立体声降噪方法、设备及存储介质 Pending CN117133306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310481754.2A CN117133306A (zh) 2023-04-27 2023-04-27 立体声降噪方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310481754.2A CN117133306A (zh) 2023-04-27 2023-04-27 立体声降噪方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117133306A true CN117133306A (zh) 2023-11-28

Family

ID=88855336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310481754.2A Pending CN117133306A (zh) 2023-04-27 2023-04-27 立体声降噪方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117133306A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117133305A (zh) * 2023-04-27 2023-11-28 荣耀终端有限公司 立体声降噪方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
US20190318757A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US20200342891A1 (en) * 2019-04-26 2020-10-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for aduio signal processing using spectral-spatial mask estimation
CN111883091A (zh) * 2020-07-09 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频降噪方法和音频降噪模型的训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318757A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
US20200342891A1 (en) * 2019-04-26 2020-10-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for aduio signal processing using spectral-spatial mask estimation
CN111883091A (zh) * 2020-07-09 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频降噪方法和音频降噪模型的训练方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117133305A (zh) * 2023-04-27 2023-11-28 荣耀终端有限公司 立体声降噪方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110109636B (zh) 投屏方法、电子设备以及系统
CN113726950B (zh) 一种图像处理方法和电子设备
WO2020093988A1 (zh) 一种图像处理方法及电子设备
CN113572954A (zh) 一种视频录制方法、电子设备、介质及程序产品
CN114040242B (zh) 投屏方法、电子设备和存储介质
CN114710640A (zh) 基于虚拟形象的视频通话方法、装置和终端
CN114338965B (zh) 音频处理的方法及电子设备
CN113935898A (zh) 图像处理方法、系统、电子设备及计算机可读存储介质
WO2022148319A1 (zh) 视频切换方法、装置、存储介质及设备
CN110989961A (zh) 一种声音处理方法及其装置
CN113810589A (zh) 电子设备及其视频拍摄方法和介质
CN114339429A (zh) 音视频播放控制方法、电子设备和存储介质
CN113593567B (zh) 视频声音转文本的方法及相关设备
CN117133306A (zh) 立体声降噪方法、设备及存储介质
EP4138381A1 (en) Method and device for video playback
CN114422935A (zh) 音频处理方法、终端及计算机可读存储介质
CN113572948B (zh) 视频处理方法和视频处理装置
US20230350629A1 (en) Double-Channel Screen Mirroring Method and Electronic Device
CN115641867A (zh) 语音处理方法和终端设备
CN117440194A (zh) 一种投屏画面的处理方法及相关装置
CN114827098A (zh) 合拍的方法、装置、电子设备和可读存储介质
CN117133305A (zh) 立体声降噪方法、设备及存储介质
CN114449393A (zh) 一种声音增强方法、耳机控制方法、装置及耳机
CN115119214A (zh) 一种立体声组网方法、系统及相关装置
CN114830608A (zh) 一种多路http通道复用的方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination