CN113611324B - 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 - Google Patents
一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113611324B CN113611324B CN202110688922.6A CN202110688922A CN113611324B CN 113611324 B CN113611324 B CN 113611324B CN 202110688922 A CN202110688922 A CN 202110688922A CN 113611324 B CN113611324 B CN 113611324B
- Authority
- CN
- China
- Prior art keywords
- audio
- processing
- time domain
- model
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000007613 environmental effect Effects 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 108
- 238000001228 spectrum Methods 0.000 claims abstract description 38
- 239000000872 buffer Substances 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 29
- 230000001629 suppression Effects 0.000 claims abstract description 26
- 108010076504 Protein Sorting Signals Proteins 0.000 claims abstract description 21
- 230000004913 activation Effects 0.000 claims abstract description 15
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 17
- 238000003672 processing method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims 2
- 230000005236 sound signal Effects 0.000 description 14
- 230000009467 reduction Effects 0.000 description 11
- 230000037433 frameshift Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 2
- WLRMANUAADYWEA-NWASOUNVSA-N (S)-timolol maleate Chemical compound OC(=O)\C=C/C(O)=O.CC(C)(C)NC[C@H](O)COC1=NSN=C1N1CCOCC1 WLRMANUAADYWEA-NWASOUNVSA-N 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4392—Processing of audio elementary streams involving audio buffer management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
一种直播中环境噪声抑制的方法、装置、电子设备及存储介质,它包括:获取待处理的直播音频数据流,将直播音频数据流最前列固定长度数据放入输入缓冲区;将输入缓冲区的音频时域信号序列输入音频处理模型进行处理,音频处理模型至少包括频域处理过程和时域处理过程,经过傅里叶变换转换为语音频谱,语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,在频谱相位保持不变的情况下从而得到新的幅值;将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种实施例涉及计算机技术领域,尤其涉及一种直播中环境噪声抑制的方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的迅速发展,以视频直播和语音直播为主的网络直播如今已深入人们的日常工作和生活,各种各样的网络直播可以为人们带来多样化的信息,提供新鲜的娱乐体验。
广州市百果园网络科技有限公司在公开了一种201610754817.7音频信号处理方法,及装置,其中方法包括:获取直播过程中产生的待处理音频信号,从所述待处理音频信号中提取音频帧;根据先验的音频模型确定第一概率、第二概率以及第三概率;所述第一概率为所述音频帧属于语音的概率,所述第二概率为所述音频帧属于音乐的概率,所述第三概率为所述音频帧属于噪音的概率;若所述第一概率小于第一门限或者所述第二概率小于第二门限,并且,所述第三概率大于第三门限,则确定所述音频帧包含噪音;在确定所述待处理音频信号中包含噪音后,对属于噪音的音频帧进行降噪处理。可以适用于直播的应用场景,实现音频信号的降噪,提升音频信号质量。该方法中采用维纳滤波器进行降噪的具体实现方案是:上述对属于噪音的音频帧进行降噪处理包括:根据上述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR;然后计算维纳滤波器的传递函数H,H=SNR/(SNR+1),在频域计算输出的音频信号Y,Y=H×U。更具体地,该提案实施例还提供了先验的音频模型的自动化训练方案:在上述根据先验的音频模型确定第一概率、第二概率以及第三概率之前,先通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得上述先验的音频模型。在获得先验的音频模型后,可以通过实际测试来确定训练的效果,选择较好的先验的音频模型在后续判断噪音的过程中使用。
上述的方法主要是通过滤波器来环境噪声抑制的,存在噪声抑制效果不佳的问题。现有技术中期望通过卷积神经网络或循环神经网络根据某一时刻前后波形预计此时刻纯语音波形,但该方法忽略音频频谱特征,导致网络结构复杂,所需训练样本较多,推理时间较长;而之前仅使用频域处理方式,是期望通过滤波仅保留当前音频中的人声频谱,但仍会保留人声率范围内的噪声频谱,存在噪声抑制不佳的问题。
发明内容
本发明提供了一种直播中环境噪声抑制的方法,以解决现有技术中噪声抑制不佳的问题。
一种直播中环境噪声抑制的方法,包括:
获取待处理的直播音频数据流,将所述直播音频数据流最前列固定长度数据放入输入缓冲区;
将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理,所述音频处理模型至少包括频域处理过程和时域处理过程,
所述频域处理过程至少包括:经过傅里叶变换转换为语音频谱,所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,在频谱相位保持不变的情况下从而得到新的幅值;
时域处理过程至少包括:将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号;
较佳地,还包括:经过所述噪声抑制的新语音信号与所述音频时域信号序列按比例进行叠加后输出。
一种环境噪声抑制处理装置,其特征在于,
输入缓冲区;
输出缓冲区;
音频处理模型:包括频域处理过程和时域处理过程,用于通过训练集训练所述模型的频域处理过程可获得输入音频数据的所述频域的预估幅值系数序列,训练时域处理过程可获得输入音频数据的时域处理的信号长度相等的系数序列;
前端处理模块:用于获取待处理的直播音频数据流,将所述直播音频数据流最前列固定长度数据放入所述输入缓冲区;
噪声抑制处理模块:包括频域处理过程子模块和时域处理过程子模块,用于将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理
频域处理过程子模块:经过傅里叶变换转换为语音频谱,所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,从而得到新的幅值;
时域处理过程子模块:用于将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号。
一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的语音处理方法。
一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述的语音处理方法。
本发明可以实现:采用频域处理的音频降噪模型,可直接剔除语音频谱中不属于人声的部分,模型结构较简单,处理速率较快,并同时采用时域处理的音频降噪模型,又直接预测人声波形,达到效果,但是同时又克服了只采用时域处理的音频降噪模型直接结算频谱,造成其模型结构复杂,所需训练样本量较大,处理速率较慢的问题。
附图说明
图1为直播网络的一种原理图;
图2为一种声音数据处理原理图;
图3为音频处理模型的处理原理图。
具体实施方式
以下结合附图,具体说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,图1为本申请实施例提供的直播系统的架构示意图。如图1所示,该直播互动系统包括第一终端110、第二终端120和服务器130,第一终端110和第二终端120可以通过有线或无线网络与服务器130进行通信。
需要说明的是,第一终端110和第二终端120上运行有直播应用程序(Application,APP),第一终端110上运行的直播APP中登录有第一用户,第二终端120上运行的直播APP中登录有第二用户。示例性的,第一用户可以为目标直播间中的观看用户,第二用户可以为目标直播间中的在线主播,在本申请实施例提供的直播系统中,目标直播间中可以同时存在多位在线主播(此时直播系统中包括多个第二终端120),这多位在线主播与观看用户共同进行音频的直播活动。
在本申请实施例提供的直播互动系统中,第一终端110可以预先安装音频处理模型和噪声抑制模块,也可以不安装,如果安装,则在本端完成噪声抑制处理,如果不安排,可以在服务器130完成处理。
在本申请实施例提供的直播系统中,第二终端120一般会安装音频处理模型和噪声抑制模块,在本端完成噪声抑制处理,处理效率高,速度更快。
应理解,图1所示的直播系统的结构仅为示例,在实际应用中,本申请实施例提供的直播互动系统并不仅限于图1所示的结构,例如,本申请实施例提供的直播系统中可以包括多个第二终端120,也可以包括一个第二终端120,又例如,本申请实施例提供的直播系统中的第一终端110和第二终端120并不仅限于图1所示的智能手机,也可以平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等携带数据处理功能(例如,多媒体数据播放功能)的智能终端。在此不对本申请实施例提供的直播互动系统的结构做任何限定。
第一终端110和第二终端120均可以包括直播软件,其中直播可以是指通过设备采集开播方数据,经过一系列处理(例如,视频编码压缩)成可观看、可传输的音视频流,输出至观看用户端(也可以称为互动用户端)的技术。
一种直播中环境噪声抑制的方法,它包括:
S110:获取待处理的直播音频数据流,将所述直播音频数据流最前列固定长度数据放入输入缓冲区;
S120:将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理,所述音频处理模型至少包括频域处理过程和时域处理过程,
所述频域处理过程至少包括:经过傅里叶变换转换为语音频谱,所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,在频谱相位保持不变的情况下从而得到新的幅值;
时域处理过程至少包括:将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号.
在本发明中,最佳还可以包括:
S130:经过所述噪声抑制的新语音信号与所述音频时域信号序列按比例进行叠加后输出。
在步骤S110之前包括:音频处理模型建立并进行训练和验证。即:收集纯语音音频和噪声音频的样本集,按照预先采样率和分辨率采样其波形,经过等比例混叠作为音频处理模型的输入,而纯语音音频波形作为真实值,损失函数采用所有样本的信噪比的相反数平均值,其中模型输出音频波形作为预估值,所述样本集分成训练集和验证集,通过所述训练集训练所述模型,通过所述验证集验证所述模型。
应用例:
在信号的实时处理流程(如图2所示)中,输入缓冲区和输出缓冲区固定为相同长度(记为block_len)并且初始为0,每次处理的偏移长度(记为block_shift)也相同。每次处理将输入流中的最前列的block_shift长度信号复制到输入缓冲区,输入缓冲区的时域信号序列,输入缓冲区中的信号通过下述降噪方法处理后的输出信号叠加到输出缓冲区。每次处理后,输出缓冲区的前block_shift长度信号幅值到输出流,并且输出缓冲器中的信号序列前移block_shift长度,后方补0。
获得输入缓冲区的时域信号序列进一步包括:
首先获取需要进行处理的音频信号,这些音频信号可以通过爬取或用户预设输入得到,在分帧之前,用户可自行设置帧移或帧叠,以及帧长,其中,在一帧数据中帧叠的数据为为上一帧的数据,帧移的数据为新数据;当获取到音频信号时,同时获取预设的帧长,由于帧长由帧移与帧叠相加得到,当帧移已设定,则依据帧长以及预设的帧移,可得到帧叠,当帧叠已设定,则可依据帧长以及预设的帧叠得到帧移,然后按照帧长、帧移与帧叠进行分帧,得到相应的时域信号。
举例地,设置输入音频信号的帧长为L、帧移为L2,帧叠为L1,其中L=L1+L2,上述L2取值可为一帧音频信号的时间/>其中fs为采样频率,例如一段音频时长为20ms左右,采样频率为16kHz的时候,则可以设定帧长为256点,当设定帧长以及帧移后,即可得到帧叠,然后按照设定的值进行分帧,得到相应的时域信号。
音频处理模型建立并进行训练和验证。即:收集纯语音音频和噪声音频的样本集,按照预先采样率和分辨率采样其波形,经过等比例混叠作为音频处理模型的输入,而纯语音音频波形作为真实值,损失函数采用所有样本的信噪比的相反数平均值,其中模型输出音频波形作为预估值(通过每轮训练过程中损失在模型中的反向传播,调整模型隐藏层的权重),所述样本集分成训练集和验证集,通过所述训练集训练所述模型,通过所述验证集验证所述模型
降噪方法处理进一步包括:
频域处理部分:
输入音频时域信号,经过傅里叶变换(例如短时傅里叶变换)转换为语音频谱,频谱的幅值经过m个(m可为任意正整数,例如2)循环神经网络(例如LSTM(Long Short-TermMemory,长短期记忆网络))和非线性激活函数(例如sigmoid函数:f(x)=1/1+exp(-x))处理,生成幅值系数序列,与初始幅值相乘,从而得到新的幅值,而频谱的相位保持不变。
时域处理部分:
经过上述处理的语音频谱通过逆傅里叶变换(例如逆短时傅里叶变换),得到时域信号。该时域信号经过一维卷积(卷积核大小和跨度都为1,输出空间维度为LSTM隐藏节点数目)、n个(n可为任意正整数,例如2)循环神经网络(例如LSTM)和非线性激活函数(例如sigmoid函数)处理,生成输入信号长度相等的系数序列,并与其相乘。再通过一维卷积(卷积核大小和跨度都为1,输出空间维度为输入信号长度),输出经过噪声抑制的语音信号。在允许少量噪声的场景下,可以将经过噪声抑制的语音信号与原始语音信号按照一定比例(例如此比例0.8:0.2时,输出音频波形幅值=经过噪声抑制的音频波形幅值*0.8+输入音频波形幅值*0.2)叠加,以保证语音信号的完整性。
从直播音频数据流对应的音频数据流中获得音频时域信号序列中包括采样步骤,所述采样率和分辨率与所述音频处理模型的样本集的采样率和分辨率适配,
并且所述音频处理模型的样本集采集若干种采样率和分辨率,不同的采样率和分辨率对应适配的所述音频处理模型,所述直播音频数据流对应的音频数据流中采样的采样率和分辨率为至少其中之一,并且输入对应的音频处理模型进行处理。一般地,输入音频采样率和分辨率越高,采用的block_len、block_shift和LSTM隐藏节点数目越大。例如,输入音频采样率和分辨率为16kHz时,输入和输出缓冲区block_len=512,block_shift=128,LSTM隐藏节点数目=128;音频采样率和分辨率为44.1kHz时,输入和输出缓冲区block_len=1024,block_shift=256,LSTM隐藏节点数目=256。模型频域处理部分LSTM输出长度与傅里叶变换后的长度(输入波形长度的一半+1)相同,时域处理部分LSTM输出长度为256。
本实例可以实现:采用频域处理的音频降噪模型,可直接剔除语音频谱中不属于人声的部分,模型结构较简单,处理速率较快,并同时采用时域处理的音频降噪模型,又直接预测人声波形,达到效果,但是同时又克服了只采用时域处理的音频降噪模型直接结算频谱,造成其模型结构复杂,所需训练样本量较大,处理速率较慢的问题。
本申请还提供了一种计算机可读的存储介质,存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行以上实施例所描述音频信号处理方法。
本申请还提供了一种包含指令的计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以上实施例所描述的音频信号处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种直播中环境噪声抑制的方法,其特征在于,包括:
获取待处理的直播音频数据流,将所述直播音频数据流最前列固定长度数据放入输入缓冲区;
将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理,所述音频处理模型至少包括频域处理过程和时域处理过程,
所述频域处理过程至少包括:经过傅里叶变换转换为语音频谱,所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,在频谱相位保持不变的情况下从而得到新的幅值;
时域处理过程至少包括:将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号。
2.如权利要求1所述的方法,其特征在于,还包括:经过所述噪声抑制的新语音信号与所述音频时域信号序列按比例进行叠加后输出。
3.如权利要求1所述的方法,其特征在于,与之前的时域信号进行相乘之后还包括:再通过一维卷积核大小和跨度都为N,输出空间维度为输入信号长度的卷积层,后输出经过噪声抑制的语音信号。
4.如权利要求1所述的方法,其特征在于,还包括:
收集纯语音音频和噪声音频的样本集,按照预先采样率和分辨率采样其波形,经过等比例混叠作为音频处理模型的输入,而纯语音音频波形作为真实值,损失函数采用所有样本的信噪比的相反数平均值,其中模型输出音频波形作为预估值,所述样本集分成训练集和验证集,通过所述训练集训练所述模型,通过所述验证集验证所述模型。
5.如权利要求4所述的方法,其特征在于,获取待处理的直播音频数据流,将所述直播音频数据流最前列固定长度数据放入输入缓冲区进一步包括:
设置输入缓冲区和输出缓冲区固定为block_len的相同长度并且初始为0,每次处理偏移长度block_shift且block_shift不大于block_len的数据;
将直播音频数据流中获取最前列block_len长度的数据;
将所述数据放入所述输入缓冲区,以便输入音频处理模型进行环境噪声抑制处理,
处理后,输出缓冲区的前block_shift长度信号幅值到输出缓冲区,并且输出缓冲器中的信号序列前移block_shift长度,后方补0。
6.如权利要求1所述的方法,其特征在于,所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数进一步包括:
频谱的幅值经过m个LSTM循环神经网络和sigmoid函数:f(x)=1/(1+exp(-x))处理,生成幅值系数序列。
7.如权利要求5所述的方法,其特征在于,从直播音频数据流对应的音频数据流中获得音频时域信号序列中包括采样步骤,所述采样率和分辨率与所述音频处理模型的样本集的采样率和分辨率适配,
并且所述音频处理模型的样本集采集若干种采样率和分辨率,不同的采样率和分辨率对应适配的所述音频处理模型,所述直播音频数据流对应的音频数据流中采样的采样率和分辨率为至少其中之一,并且输入对应的音频处理模型进行处理。
8.如权利要求7所述的方法,其特征在于:输入音频采样率和分辨率越高,采用的block_len、block_shift和LSTM隐藏节点数目越大,输入音频采样率和分辨率为16kHz时,输入和输出缓冲区block_len=512,block_shift=128,LSTM隐藏节点数目=128;音频采样率和分辨率为44.1kHz时,输入和输出缓冲区block_len=1024,block_shift=256,LSTM隐藏节点数目=256,模型频域处理部分LSTM输出长度与傅里叶变换后的长度相同,所述傅里叶变换后的长度为输入波形长度的一半+1,时域处理部分LSTM输出长度为256。
9.一种环境噪声抑制处理装置,其特征在于,
输入缓冲区;
输出缓冲区;
音频处理模型:包括频域处理过程和时域处理过程,用于通过训练集训练所述模型的频域处理过程可获得输入音频数据的所述频域的预估幅值系数序列,训练时域处理过程可获得输入音频数据的时域处理的信号长度相等的系数序列;
前端处理模块:用于获取待处理的直播音频数据流,将所述直播音频数据流最前列固定长度数据放入所述输入缓冲区;
噪声抑制处理模块:包括频域处理过程子模块和时域处理过程子模块,用于将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理
频域处理过程子模块:经过傅里叶变换转换为语音频谱,所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,从而得到新的幅值;
时域处理过程子模块:用于将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号。
10.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的语音处理方法。
11.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688922.6A CN113611324B (zh) | 2021-06-21 | 2021-06-21 | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688922.6A CN113611324B (zh) | 2021-06-21 | 2021-06-21 | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113611324A CN113611324A (zh) | 2021-11-05 |
CN113611324B true CN113611324B (zh) | 2024-03-26 |
Family
ID=78336712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110688922.6A Active CN113611324B (zh) | 2021-06-21 | 2021-06-21 | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611324B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278352A (zh) * | 2022-06-22 | 2022-11-01 | 北京字跳网络技术有限公司 | 一种视频播放方法、装置、设备及存储介质 |
CN114999519A (zh) * | 2022-07-18 | 2022-09-02 | 中邮消费金融有限公司 | 一种基于双重变换的语音实时降噪方法及系统 |
CN115273883A (zh) * | 2022-09-27 | 2022-11-01 | 成都启英泰伦科技有限公司 | 卷积循环神经网络、语音增强方法及装置 |
CN117932410B (zh) * | 2024-03-22 | 2024-05-28 | 山东省地震工程研究院 | 一种浅层地震勘探节点数据自动筛选方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107928673A (zh) * | 2017-11-06 | 2018-04-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、存储介质和计算机设备 |
CN110491404A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN111247585A (zh) * | 2019-12-27 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
CN112784731A (zh) * | 2021-01-20 | 2021-05-11 | 深圳市科思创动科技有限公司 | 一种检测驾驶员的生理指标、及建立模型的方法 |
CN112882386A (zh) * | 2021-01-12 | 2021-06-01 | 清华大学 | 闭环系统的主动故障检测方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
EP3915007A4 (en) * | 2019-01-23 | 2022-08-31 | Sound Genetics, Inc. | SYSTEMS AND METHODS FOR PRE-FILTERING AUDIO CONTENT ACCORDING TO PROMINENCE OF FREQUENCY CONTENT |
-
2021
- 2021-06-21 CN CN202110688922.6A patent/CN113611324B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107928673A (zh) * | 2017-11-06 | 2018-04-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、存储介质和计算机设备 |
CN110491404A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN111247585A (zh) * | 2019-12-27 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
CN112882386A (zh) * | 2021-01-12 | 2021-06-01 | 清华大学 | 闭环系统的主动故障检测方法、装置、设备及存储介质 |
CN112784731A (zh) * | 2021-01-20 | 2021-05-11 | 深圳市科思创动科技有限公司 | 一种检测驾驶员的生理指标、及建立模型的方法 |
Non-Patent Citations (2)
Title |
---|
AI在数字出版内容审核中的应用研究;陈奎莲;;出版广角(第10期);全文 * |
语音/音乐的深度置信网络高准确度识别方法;田旺兰;;吉首大学学报(自然科学版)(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113611324A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113611324B (zh) | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 | |
CN110709924B (zh) | 视听语音分离 | |
WO2022166710A1 (zh) | 语音增强方法、装置、设备及存储介质 | |
CN113763977A (zh) | 消除回声信号的方法、装置、计算设备和存储介质 | |
CN111883107A (zh) | 语音合成、特征提取模型训练方法、装置、介质及设备 | |
CN115472153A (zh) | 语音增强系统、方法、装置及设备 | |
CN112259116A (zh) | 一种音频数据的降噪方法、装置、电子设备及存储介质 | |
CN114333874B (zh) | 处理音频信号的方法 | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN107452398A (zh) | 回声获取方法、电子设备及计算机可读存储介质 | |
CN113053400A (zh) | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 | |
CN113113038B (zh) | 回声消除方法、装置及电子设备 | |
CN117219107B (zh) | 一种回声消除模型的训练方法、装置、设备及存储介质 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN113763976A (zh) | 音频信号的降噪方法、装置、可读介质和电子设备 | |
WO2023030017A1 (zh) | 音频数据处理方法、装置、设备以及介质 | |
WO2022166738A1 (zh) | 语音增强方法、装置、设备及存储介质 | |
CN114333891B (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN115565543A (zh) | 一种基于深度神经网络的单通道语音回声消除方法和装置 | |
CN114743571A (zh) | 一种音频处理方法、装置、存储介质及电子设备 | |
CN115083440A (zh) | 音频信号降噪方法、电子设备和存储介质 | |
CN114255778A (zh) | 一种音频流降噪方法、装置、设备及存储介质 | |
Shankar et al. | Real-time single-channel deep neural network-based speech enhancement on edge devices | |
CN109378012B (zh) | 用于单通道语音设备录制音频的降噪方法及系统 | |
CN113571081A (zh) | 语音增强方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |