CN115762546A - 音频数据处理方法、装置、设备以及介质 - Google Patents

音频数据处理方法、装置、设备以及介质 Download PDF

Info

Publication number
CN115762546A
CN115762546A CN202111032206.9A CN202111032206A CN115762546A CN 115762546 A CN115762546 A CN 115762546A CN 202111032206 A CN202111032206 A CN 202111032206A CN 115762546 A CN115762546 A CN 115762546A
Authority
CN
China
Prior art keywords
audio
recording
voice
sample
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111032206.9A
Other languages
English (en)
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111032206.9A priority Critical patent/CN115762546A/zh
Priority to PCT/CN2022/113179 priority patent/WO2023030017A1/zh
Priority to EP22863157.8A priority patent/EP4300493A1/en
Publication of CN115762546A publication Critical patent/CN115762546A/zh
Priority to US18/137,332 priority patent/US20230260527A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02085Periodic noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例提供了一种音频数据处理方法、装置、设备以及介质,方法包括:获取录音音频;录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量;获取录音音频的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频;根据原型音频从录音音频中获取候选语音音频;候选语音音频包括语音音频分量和环境噪声分量;将录音音频与候选语音音频之间的差值,确定为录音音频中所包含的背景基准音频分量;对候选语音音频进行环境噪声降噪处理,得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行合并,得到降噪后的录音音频。采用本申请,可以提升录音音频的降噪效果。

Description

音频数据处理方法、装置、设备以及介质
技术领域
本申请涉及音频处理技术领域,尤其涉及一种音频数据处理方法、装置、设备以及介质。
背景技术
随着音视频业务应用的迅速推广普及,用户使用音频业务应用分享日常音乐录音的频率日益增加。例如,当用户听着伴唱唱歌,通过具有录音功能的设备(例如手机或者接入麦克风的声卡设备)进行录音时,该用户可能处在嘈杂的环境中,或者使用的设备过于简易,这就导致该设备所录制的音乐录音信号除了包括用户的歌声(人声信号)、伴唱(音乐信号)之外,还可能会引入嘈杂环境中的噪声信号、设备中的电子噪声信号等。若是直接将未处理的音乐录音信号分享至音频业务应用,会导致其余用户在音频业务应用中播放音乐录音信号时很难听清用户的歌声,因此需要对所录制的音乐录音信号进行降噪处理。
目前的降噪算法需要明确噪声类型和信号类型,如基于人声和噪声从信号相关性、频谱分布特征上具有一定的特征距离,通过一些统计降噪或者深度学习降噪的方法进行噪声抑制。然而,音乐信号的类型较多(例如,古典音乐、民族音乐、摇滚音乐等),有些音乐类型与一些环境噪声类型相似,或者一些音乐频谱特征与一些噪声比较接近,采用上述降噪算法对音乐录音信号进行降噪处理时,可能会将音乐信号误判为噪声信号进行抑制,或者将噪声信号误判别音乐信号进行保留,造成音乐录音信号的降噪效果并不理想。
发明内容
本申请实施例提供一种音频数据处理方法、装置、设备以及介质,可以提升录音音频的降噪效果。
本申请实施例一方面提供了一种音频数据处理方法,包括:
获取录音音频;录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量;
获取录音音频对应的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频;
根据原型音频从录音音频中获取候选语音音频;候选语音音频包括语音音频分量和环境噪声分量;
将录音音频与候选语音音频之间的差值,确定为录音音频中所包含的背景基准音频分量;
对候选语音音频进行环境噪声降噪处理,得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行合并,得到降噪后的录音音频。
本申请实施例一方面提供了一种音频数据处理方法,包括:
获取语音样本音频、噪声样本音频以及标准样本音频,根据语音样本音频、噪声样本音频以及标准样本音频,生成样本录音音频;语音样本音频和噪声样本音频是通过录音采集得到的,标准样本音频是音频数据库中所存储的纯净音频;
根据第一初始网络模型获取样本录音音频中的样本预测语音音频;第一初始网络模型用于过滤样本录音音频所包含的标准样本音频,第一初始网络模型的期望预测语音音频由语音样本音频和噪声样本音频所确定;
根据第二初始网络模型获取样本预测语音音频对应的样本预测降噪音频;第二初始网络模型用于抑制样本预测语音音频所包含的噪声样本音频,第二初始网络模型的期望预测降噪音频由语音样本音频所确定;
基于样本预测语音音频和期望预测语音音频,对第一初始网络模型的网络参数进行调整,得到第一深度网络模型;第一深度网络模型用于对录音音频进行过滤后得到候选语音音频,录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量,候选语音音频包括语音音频分量和环境噪声分量;
基于样本预测降噪音频和期望预测降噪音频,对第二初始网络模型的网络参数进行调整,得到第二深度网络模型;第二深度网络模型用于对候选语音音频进行降噪处理后得到降噪语音音频。
本申请实施例一方面提供了一种音频数据处理装置,包括:
音频获取模块,用于获取录音音频;录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量;
指纹检索模块,用于获取录音音频对应的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频;
音频过滤模块,用于根据原型音频从录音音频中获取候选语音音频;候选语音音频包括语音音频分量和环境噪声分量;
音频确定模块,用于将录音音频与候选语音音频之间的差值,确定为录音音频中所包含的背景基准音频分量;
降噪处理模块,用于对候选语音音频进行环境噪声降噪处理,得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行合并,得到降噪后的录音音频。
其中,指纹检索模块包括:
频域变换单元,用于将录音音频划分为M个录音数据帧,对M个录音数据帧中的第i个录音数据帧进行频域变换,得到第i个录音数据帧对应的功率谱数据;i和M均为正整数,且i小于或等于M;
频谱带划分单元,用于将第i个录音数据帧对应的功率谱数据划分为N个频谱带,根据N个频谱带中的峰值信号,构建第i个录音数据帧对应的子指纹信息;N为正整数;
音频指纹组合单元,用于按照M个录音数据帧在录音音频中的时间顺序,对M个录音数据帧分别对应的子指纹信息进行组合,得到录音音频对应的待匹配音频指纹;
原型音频匹配单元,用于获取音频数据库对应的音频指纹库,根据待匹配音频指纹在音频指纹库中进行指纹检索,根据指纹检索结果在音频数据库中确定与录音音频相匹配的原型音频。
其中,原型音频匹配单元具体用于:
将待匹配音频指纹中所包含的M个子指纹信息映射为M个待匹配哈希值,获取M个待匹配哈希值分别对应的录音时间;一个待匹配哈希值所对应的录音时间用于表征该待匹配哈希值对应的子指纹信息在录音音频中出现的时间;
若M个待匹配哈希值中的第p个待匹配哈希值与音频指纹库所包含的第一哈希值相匹配,则获取第p个待匹配哈希值对应的录音时间与第一哈希值对应的时间信息之间的第一时间差;p为小于或等于M的正整数;
若M个待匹配哈希值中的第q个待匹配哈希值与音频指纹库所包含的第二哈希值相匹配,则获取第q个待匹配哈希值对应的录音时间与第二哈希值对应的时间信息之间的第二时间差;q为小于或等于M的正整数;
当第一时间差和第二时间差满足数值阈值,且第一哈希值和第二哈希值属于相同的音频指纹时,将第一哈希值所属的音频指纹确定为指纹检索结果,将指纹检索结果所对应的音频数据确定为录音音频对应的原型音频。
其中,音频过滤模块包括:
归一化处理单元,用于获取录音音频对应的录音功率谱数据,对录音功率谱数据进行归一化处理,得到第一频谱特征;
上述归一化处理单元,还用于获取原型音频对应的原型功率谱数据,对原型功率谱数据进行归一化处理,得到第二频谱特征,将第一频谱特征和第二频谱特征组合为输入特征;
第一频点增益输出单元,用于将输入特征输入至第一深度网络模型,通过第一深度网络模型输出针对录音音频的第一频点增益;
语音音频获取单元,用于根据第一频点增益和录音功率谱数据,获取录音音频中所包含的候选语音音频。
其中,第一频点增益输出单元包括:
特征提取子单元,用于将输入特征输入至第一深度网络模型,根据第一深度网络模型中的特征提取网络层,获取输入特征对应的时序分布特征;
激活子单元,用于根据第一深度网络模型中的全连接网络层,获取时序分布特征对应的目标特征向量,通过第一深度网络模型中的激活层,输出第一频点增益。
其中,第一频点增益包括T个频点分别对应的语音增益,录音功率谱数据包括T个频点分别对应的能量值,T个语音增益与T个能量值一一对应;T为大于1的正整数;
语音音频获取单元包括:
频点加权子单元,用于根据第一频点增益中的T个频点分别对应的语音增益,对录音功率谱数据中属于相同频点的能量值进行加权,得到T个频点分别对应的加权能量值;
加权能量值组合子单元,用于根据T个频点分别对应的加权能量值,确定录音音频对应的加权录音频域信号;
时域变换子单元,用于对加权录音频域信号进行时域变换,得到录音音频中所包含的候选语音音频。
其中,降噪处理模块包括:
第二频点增益输出单元,用于获取候选语音音频对应的语音功率谱数据,将语音功率谱数据输入至第二深度网络模型,通过第二深度网络模型输出针对候选语音音频的第二频点增益;
信号加权单元,用于根据第二频点增益与语音功率谱数据,获取候选语音音频对应的加权语音频域信号;
时域变换单元,用于对加权语音频域信号进行时域变换,得到候选语音音频对应的降噪语音音频。
其中,该装置还包括:
音频分享模块,用于将降噪后的录音音频分享至社交平台,以使社交平台中的终端设备在访问社交平台时,播放降噪后的录音音频。
本申请实施例一方面提供了一种音频数据处理装置,包括:
样本获取模块,用于获取语音样本音频、噪声样本音频以及标准样本音频,根据语音样本音频、噪声样本音频以及标准样本音频,生成样本录音音频;语音样本音频和噪声样本音频是通过录音采集得到的,标准样本音频是音频数据库中所存储的纯净音频;
第一预测模块,用于根据第一初始网络模型获取样本录音音频中的样本预测语音音频;第一初始网络模型用于过滤样本录音音频所包含的标准样本音频,第一初始网络模型的期望预测语音音频由语音样本音频和噪声样本音频所确定;
第二预测模块,用于根据第二初始网络模型获取样本预测语音音频对应的样本预测降噪音频;第二初始网络模型用于抑制样本预测语音音频所包含的噪声样本音频,第二初始网络模型的期望预测降噪音频由语音样本音频所确定;
第一调整模块,用于基于样本预测语音音频和期望预测语音音频,对第一初始网络模型的网络参数进行调整,得到第一深度网络模型;第一深度网络模型用于对录音音频进行过滤后得到候选语音音频,录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量,候选语音音频包括语音音频分量和环境噪声分量;
第二调整模块,用于基于样本预测降噪音频和期望预测降噪音频,对第二初始网络模型的网络参数进行调整,得到第二深度网络模型;第二深度网络模型用于对候选语音音频进行降噪处理后得到降噪语音音频。
其中,样本录音音频的数量为K个,K为正整数;
样本获取模块包括:
数组构建单元,用于获取针对第一初始网络模型的加权系数集合,根据加权系数集合构建K个数组;每个数组包括语音样本音频、噪声样本音频以及标准样本音频分别对应的系数;
样本录音构建单元,用于根据K个数组中的第j个数组所包含的系数,分别对语音样本音频、噪声样本音频以及标准样本音频进行加权,得到第j个数组对应的样本录音音频;j为小于或等于K的正整数。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例可以通过获取包含背景基准音频分量、语音音频分量以及环境噪声分量的录音音频,获取录音音频对应的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频,进而可以根据原型音频从录音音频中获取候选语音音频,该候选语音音频包括语音音频分量和环境噪声分量;将录音音频与候选语音音频之间的差值确定为背景基准音频分量,进而对候选语音音频进行环境噪声降噪处理,得到候选语音音频对应的降噪语音音频,将该降噪语音音频与背景基准音频分量进行合并,可以得到降噪后的录音音频。可见,录音音频可以为包含多种音频分量的混合音频,在对录音音频进行降噪处理的过程中,可以通过音频指纹检索找到录音音频对应的原型音频,根据该原型音频可以从录音音频中筛选出候选语音音频,将上述录音音频减去候选语音音频可以得到背景基准音频分量;进而可以对候选语音音频进行降噪处理,得到降噪语音音频,将降噪语音音频与背景基准音频分量进行叠加后可以得到降噪后的录音音频。换言之,通过将录音音频的降噪处理问题转换为候选语音音频的降噪处理问题,可以避免将录音音频中的背景基准音频分量与环境噪声分量进行混淆,进而可以提升录音音频的降噪效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种音乐录音音频的降噪场景示意图;
图3是本申请实施例提供的一种音频数据处理方法的流程示意图;
图4是本申请实施例提供的一种音乐录音场景的示意图;
图5是本申请实施例提供的一种音频数据处理方法的流程示意图;
图6是本申请实施例提供的一种第一深度网络模型的结构示意图;
图7是本申请实施例提供的一种第二深度网络模型的结构示意图;
图8是本申请实施例提供的一种录音音频降噪处理的流程示意图;
图9是本申请实施例提供的一种音频数据处理方法的流程示意图;
图10是本申请实施例提供的一种深度网络模型的训练示意图;
图11是本申请实施例提供的一种音频数据处理装置的结构示意图;
图12是本申请实施例提供的一种音频数据处理装置的结构示意图;
图13是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能云服务,一般也被称作为“AI即服务”(AI as a Service,AIaaS)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API(Application Program Interface)接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
本申请实施例提供的方案涉及人工智能云服务中的AI降噪服务,本申请实施例中可以通过API接口的方式接入AI降噪服务,通过AI降噪服务对分享至社交平台(例如,音乐类录音分享应用)的录音音频进行降噪处理,以提升录音音频的降噪效果。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括但不限于:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具有录音功能的智能终端,或者为接入麦克风的声卡设备等。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
以图1所示的用户终端10a为例,该用户终端10a可以集成有录音功能,当用户想要录制自己或他人的音频数据时,可以使用音频播放设备播放背景基准音频(此处的背景基准音频可以为音乐伴唱,或者为视频中的背景音频和字幕配音音频等),并启动用户终端10a中的录音功能,开始录制包含上述音频播放设备所播放的背景基准音频的混合音频,本申请可以将该混合音频称为录音音频,背景基准音频可以作为上述录音音频中的背景基准音频分量。其中,当用户终端10a具有音频播放功能时,上述音频播放设备可以是用户终端10a本身;或者,音频播放设备还可以是用户终端10a之外的其余具有音频播放功能的设备;上述录音音频可以为包含音频播放设备所播放的背景基准音频、音频播放设备/用户所处环境中的环境噪声以及用户语音的缓和音频,录制的背景基准音频可以作为录音音频中的背景基准音频分量,录制的环境噪声可以作为录音音频中的环境噪声分量,录制的用户语音可以作为录音音频中的语音音频分量。用户终端10a可以将录制好的录音音频上传至社交平台;例如,用户终端10a安装有社交平台的客户端时,可以将录制好的录音音频上传至社交平台的客户端,该社交平台的客户端可以将录音音频传输至社交平台的后台服务器(例如,上述图1所示的服务器10d)。
进一步地,由于录音音频中包含环境噪声分量,因此社交平台的后台服务器需要对该录音音频进行降噪处理。该录音音频的降噪处理过程可以为:获取录音音频对应的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频(此处的原型音频可以理解为录音音频中的背景基准音频分量所对应的官方正版音频);基于原型音频可以从录音音频中获取候选语音音频(包括上述环境噪声和上述用户语音),进而可以将录音音频与候选语音音频之间的差值确定为背景基准音频分量;对候选语音音频进行降噪处理,可以得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行叠加后可以得到降噪后的录音音频,此时降噪后的录音音频可以在社交平台中进行分享。通过将录音音频的降噪处理问题转换为候选语音音频的降噪处理问题,可以提升录音音频的降噪效率。
请参见图2,图2是本申请实施例提供的一种音乐录音音频的降噪场景示意图。如图2所示的用户终端20a可以为用户A所持有的终端设备(例如,上述图1所示的用户终端集群中的任一个用户终端),该用户终端20a中集成有录音功能和音频播放功能,因此该用户终端20a既可以作为录音设备,也可以作为音频播放设备。当用户A想要录制自己演唱的音乐录音时,可以启动该用户终端20a中的录音功能,在该用户终端20a播放音乐伴唱的背景下开始演唱歌曲,并开始录制音乐,录制完成后,可以得到音乐录音音频20b,该音乐录音音频20b可以包含用户A的歌声和用户终端20a所播放的音乐伴唱。用户终端20a可以将录制的音乐录音音频20b上传至音乐类应用对应的客户端,该客户端获取到音乐录音音频20b后,将音乐录音音频20b传输至音乐类应用对应的后台服务器(例如,上述图1所示的服务器10d),以使后台服务器对该音乐录音音频20b进行存储和分享。
其中,在实际的音乐录音场景中,用户A可能会处于嘈杂的环境中,因此,上述用户终端20a所录制的音乐录音音频20b中除了包含用户A的歌声和该用户终端20a所播放的音乐伴唱之外,还会包含环境中的噪声,即音乐录音音频20b可以包括噪声、音乐伴唱以及用户歌声三个音频分量。假设用户A在街道上,那么用户终端20a所录制的音乐录音音频20b中的噪声可以为车辆的鸣笛声、路边门店的吆喝声以及路人的说话声等;当然,音乐录音音频20b中的噪声还可以包括电子噪声。若是后台服务器直接将用户终端20a所上传的音乐录音音频20b进行分享,会导致其余终端设备在访问音乐类应用并播放音乐录音音频20a时无法听清用户A所录制的音乐。因此,在音乐类应用中分享音乐录音音频20b之前,需要对音乐录音音频20b进行降噪处理,再将降噪后的音乐录音音频进行分享,使得其余终端设备在访问音乐类应用时可以播放降噪后的音乐录音音频,了解用户A的真实歌唱水平;换言之,用户终端20a仅负责音乐录音音频20b的采集及上传操作,音乐录音音频20b的降噪处理过程可以由音乐类应用对应的后台服务器执行。可选的,用户终端20a在采集到音乐录音音频20b后,可以由用户终端20a对音乐录音音频20b进行降噪处理,并将降噪后的音乐录音音频上传至音乐类应用,该音乐类应用对应的后台服务器接收到降噪后的音乐录音音频后,可以直接对降噪后的音乐录音音频进行分享,即音乐录音音频20b的降噪处理可以由用户终端20a执行。
其中,下面以音乐类应用的后台服务器(例如,上述服务器10d)为例,对音乐录制音频20b的降噪处理过程进行描述。该音乐录制音频20b的降噪处理的本质是对该音乐录制音频20b中的噪声进行抑制,并保留该音乐录音音频20b中的音乐伴唱和用户A的歌声。换言之,对音乐录音音频20b进行降噪,就是尽可能地消除音乐录音音乐20b中的噪声,但是需要尽可能地保持音乐录音音频20b中的音乐伴唱和用户A的歌声不被改变。
如图2所示,音乐类应用的后台服务器(例如,上述服务器10d)获取到音乐录音音频20b后,可以对该音乐录音音频20b进行频域变换,即将音乐录音音频20b由时域变换到频域,得到音乐录音音频20b对应的频域功率谱;该频域功率谱可以包括各个频点分别对应的能量值,该频域功率谱可以如图2中的频域功率谱20i所示,该频域功率谱20i中的一个能量值对应于一个频点,一个频点即为一个频率采样点。
进一步地,根据音乐录音音频20b对应的频域功率谱,可以提取该音乐录音音频20b对应的音频指纹20c;其中,音频指纹可以是指以标识符的形式表示一段音频中独有的数字特征。后台服务器可以获取音乐类应用中的曲库20d,以及该曲库20d对应的音频指纹库20e,该曲库20d可以包括音乐类应用中所存储的所有音乐音频,该音频指纹库20e可以包括曲库20d中的每首音乐音频分别对应的音频指纹。进而可以根据音乐录音音频20b对应的音频指纹20c,在音频指纹库20e中进行音频指纹检索,得到该音频指纹20c对应的指纹检索结果(即音频指纹库20e中与音频指纹20b相匹配的音频指纹),根据指纹检索结果可以从曲库20d中确定与音乐录音音频20b相匹配的音乐原型音频20f(如音乐录音音频20b中的音乐伴唱所对应的音乐原型)。同样地,可以对音乐原型音频20f进行频域变换,即将音乐原型音频20由时域变换到频域,得到音乐原型音频20对应的频域功率谱。
将音乐录音音频20b对应的频域功率谱与音乐原型音乐对应的频域功率谱进行特征组合,并将组合后的频域功率谱输入至第一阶深度网络模型20g,通过第一阶深度网络模型20g输出频点增益。其中,第一阶深度网络模型20g可以为预先训练好的、具备对音乐录音音频进行去音乐处理能力的网络模型,第一阶深度网络模型20g的训练过程可以参见下述步骤S304中所描述的过程。通过将第一阶深度网络模型20g输出的频点增益与音乐录音音频20b对应的频域功率谱相乘,得到加权录音频域信号,将加权录音频域信号进行时域变换,即将加权录音频域信号由频域变换到时域,得到去音乐音频20k,此处的去音乐音频20k可以是指从音乐录音音频20b中过滤掉音乐伴唱的音频信号。
如图2所示,假设第一阶深度网络模型20g输出的频点增益为频点增益序列20h,该频点增益序列20h中包括5个频点分别对应的语音增益,包括频点1对应的语音增益5、频点2对应的语音增益7、频点3对应的语音增益8、频点4对应的语音增益10以及频点5对应的语音增益3。假设音乐录音音频20b对应的频域功率谱为频域功率谱20i,该频域功率谱20i中也包括上述5个频点分别对应的能量值,具体包括频点1对应的能量值1、频点2对应的能量值2、频点3对应的能量值3、频点4对应的能量值2以及频点5对应的能量值1。通过计算频点增益序列20h中各个频点的语音增益和频域功率谱20i中对应于相同频点的能量值之间的乘积,得到加权录音频域信号20j;其计算过程具体为:计算频点增益序列20h中的频点1对应的语音增益5与频域功率谱20i中的频点1对应的能量值1之间的乘积,得到加权后的能量值5,该加权后的能量值5即为加权录音频域信号20j中针对频点1的能量值5;计算频点增益序列20h中的频点2对应的语音增益7与频域功率谱20i中的频点2对应的能量值2之间的乘积,得到加权录音频域信号20j中针对频点2的能量值14;计算频点增益序列20h中的频点3对应的语音增益8与频域功率谱20i中的频点3对应的能量值3之间的乘积,得到加权录音频域信号20j中针对频点3的能量值24;计算频点增益序列20h中的频点4对应的语音增益10与频域功率谱20i中的频点4对应的能量值2之间的乘积,得到加权录音频域信号20j中针对频点4的能量值20;计算频点增益序列20h中的频点5对应的语音增益3与频域功率谱20i中的频点4对应的能量值1之间的乘积,得到加权录音频域信号20j中针对频点5的能量值3。通过对加权录音频域信号20j进行时域变换,可以得到去音乐音频20k,该去音乐音频20k可以包含噪声和用户歌声两个分量。
后台服务器在得到去音乐音频20k后,可以将音乐录音音频20b与去音乐音频20k之间的差值,确定为音乐录音音频20b中所包含的纯音乐音频20p,此处的纯音乐音频20p可以为音乐播放设备所播放的音乐伴唱。与此同时,还可以对去音乐音频20k进行频域变换,得到去音乐音频20k对应的频域功率谱,将去音乐音频20k对应的频域功率谱输入第二阶深度网络模型20m中,通过第二阶深度网络模型20m输出去音乐音频20k对应的频点增益。其中,第二阶深度网络模型20m可以为预先训练好的、具备对携带噪声的语音音频进行降噪处理能力的网络模型,第二阶深度网络模型20m的训练过程可以参见下述步骤S305中所描述的过程。通过将第二阶深度网络模型20m输出的频点增益与去音乐音频20k对应的频域功率谱相乘,得到加权语音频域信号,将加权语音频域信号进行时域变换,得到人声去噪音频20n,此处的人声去噪音频20n可以是指对去音乐音频20k进行噪声抑制后所得到的音频信号,如音乐录音音频20b中的用户A的歌声。其中,上述第一阶深度网络模型20g和第二阶深度网络模型20m可以为具有不同网络结构的深度网络;人声去噪音频20n的计算过程与上述去音乐音频20k的计算过程类似,此处不再进行赘述。
后台服务器可以将纯音乐音频20p与人声去噪音频20n进行叠加,得到降噪后的音乐录音音频20q。通过从音乐录音音频20b中分离出纯音乐音频20q,将音乐录音音频20b的降噪处理转换为去音乐音频20k(可以理解为人声音频)的降噪处理,使得降噪后的音乐录音音频20q既保留了用户A的歌声和音乐伴唱,又能够最大程度抑制音乐录音音频20b中的噪声,提升了音乐录音音频20b的降噪效果。
请参见图3,图3是本申请实施例提供的一种音频数据处理方法的流程示意图。可以理解地,该音频数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者为服务器,或者为计算机设备中的一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该音频数据处理方法可以包括以下步骤S101-步骤S105:
步骤S101,获取录音音频;录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量。
具体的,计算机设备可以获取包含背景基准音频分量、语音音频分量以及环境噪声分量的录音音频,该录音音频可以是通过录音设备对处于目标环境下的目标对象和音频播放设备进行共同录音采集得到的混合音频。其中,录音设备可以为具有录音功能的设备,如接入麦克风的声卡设备、手机等;音频播放设备可以为具有音频播放功能的设备,如手机、音乐播放设备以及音响设备等;目标对象可以是指需要进行语音录制的用户,如上述图2所对应实施例中的用户A;目标环境可以为目标对象和音频播放设备所处的录制环境,如目标对象和音频播放设备所处的室内空间、室外空间(例如,街道、公园)等。当某一个设备同时具备录音功能和音频播放功能时,该设备既可以作为录音设备,也可以作为音频播放设备,即本申请中的音频播放设备和录音设备可以为同一个设备,如上述图2所对应实施例中的用户终端20a。需要说明的是,计算机设备所获取到的录音音频可以为录音设备传输至该计算机设备的录音数据,或者可以为计算机设备自身采集到的录音数据,如上述计算机设备具备录音功能和音频播放功能时,同样既可以作为录音设备又可以作为音频播放设备,该计算机设备可以安装有音频类应用,可以通过该音频类应用中的录制功能,来实现上述录音音频的录制过程。
可选的,假设目标对象想要录制自己演唱的音乐录音,那么该目标对象可以启动录音设备中的录音功能,并使用音频播放设备播放音乐伴唱,在播放音乐伴唱的背景下演唱歌曲,开始使用录音设备录制音乐;录制完成后,可以将所录制的音乐录音作为上述录音音频,此时的录音音频可以包括音频播放设备所播放的音乐伴唱、目标对象的歌声;若目标环境是一个嘈杂的环境,则录音音频中还可以包括目标环境中的环境噪声;此处录制的音乐伴唱可以作为录音音频中的背景基准音频分量,如上述图2所对应实施例中用户终端20a所播放的音乐伴唱;录制的目标对象的歌声可以作为录音音频中的语音音频分量,如上述图2所对应实施例中用户A的歌声;录制的环境噪声可以作为录音音频中的环境噪声分量,如上述图2所对应实施例中用户终端20a所处环境中的噪声,该录音音频可以如上述图2所对应实施例中的音乐录音音频20b。
可选的,假设目标用户想要录制自己的配音音频,那么该目标对象可以启动录音设备中的录音功能,并使用音频播放设备播放待配音片段中的背景音频,在播放背景音频的基础上进行配音,开始使用录制设备录制配音;录制完成后,可以将所录制的配音音频作为上述录音音频,此时的录音音频可以包括音频播放设备所播放的背景音频、目标对象的配音;若目标环境是一个嘈杂的环境,则录音音频中还可以包括目标环境中的环境噪声;此处录制的背景音频可以作为录音音频中的背景基准音频分量;录制的目标对象的配音可以作为录音音频中的语音音频分量;录制的环境噪声可以作为录音音频中的环境噪声分量。
换言之,计算机设备所获取的录音音频可以包括音频播放设备所播出的音频(例如,上述音乐伴唱、待配音片段中的背景音频等)、目标对象所输出的语音(例如,上述用户的配音、歌声等)以及目标环境中的环境噪声。可以理解的是,上述音乐录制场景以及配音录制场景仅为本申请中的举例,本申请还可以应用在其余音频录制场景中,例如:目标对象与音频播放设备之间的人机问答交互场景、目标对象与音频播放设备之间的语言类表演场景(相声表演场景等),本申请对此不做限定。
步骤S102,获取录音音频对应的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频。
具体的,由于计算机设备所获取到的录音音频中除了包含目标对象所输出的音频和音频播放设备所播放的音频之外,还可能包含目标环境中的环境噪声。例如,目标对象和音频播放设备所处的目标环境为商场时,上述录音音频中的环境噪声可以是商场的宣传活动广播声、商铺店员的吆喝声,以及录音设备的电子噪声等;目标对象和音频播放设备所处的目标环境为办公室内时,上述录音音频中的环境噪声可以是空调机的运行声音或者风扇的转动声音,以及录音设备的电子噪声等。因此,计算机设备需要对获取到的录音音频进行降噪处理,而降噪处理所要达到的效果为尽可能地抑制录音音频中的环境噪声,而保持录音音频中所包含的目标对象所输出的音频和音频播放设备所播放的音频不被改变。
在对录音音频进行降噪处理的过程中,计算机设备可以对录音音频进行数据压缩,将录音音频映射为数字摘要信息,此处的数字摘要信息可以称为该录音音频对应的待匹配音频指纹,待匹配音频指纹的数据量远小于上述录音音频的数据量。计算机设备还可以获取音频数据库,并获取该音频数据库对应的音频指纹库,将上述待匹配音频指纹与音频指纹库中所包含的音频指纹进行匹配,在音频指纹库中找到与待匹配音频指纹相匹配的音频指纹,并将相匹配的音频指纹所对应的音频数据确定为录音音频对应的原型音频(例如,上述图2所对应实施例中的音乐原型音频20f);换言之,计算机设备可以基于音频指纹检索技术,从音频数据库中检索到与录音音频相匹配的原型音频。其中,上述音频数据库中可以包括音频类应用所包含的所有音频数据,音频指纹库中可以包括音频数据库中的每个音频数据所对应的音频指纹,该音频数据库和音频指纹库可以是预先配置好的;例如,上述录音音频为音乐录音音频时,音频数据库可以为包含全部音乐序列的数据库;上述录音音频为配音录制音频时,音频数据库可以为包含全部视频数据中的音频的数据库;等等。计算机设备在对录音音频进行音频指纹检索时可以直接访问音频数据库和音频指纹库,以检索得到与录音音频相匹配的原型音频,原型音频可以是指录音音频中的语音播放设备所播放的音频对应的原始音频;例如,当录音音频为音乐录音音频时,原型音频可以为音乐录音音频中所包含的音乐伴唱所对应的音乐原型;当录音音频为配音录制音频时,原型音频可以为配音录制音频中所包含的视频背景音频所对应的原型配音等。
其中,计算机设备所采用的音频指纹检索技术可以包括但不限于:philips音频检索技术(一种检索技术,可以包括高度鲁棒性的指纹提取方法和高效的指纹搜索策略两个部分)、shazam音频检索技术(一种音频检索技术,可以包括音频指纹提取和音频指纹匹配两个部分);本申请可以根据实际需求选择合适的音频检索技术来检索得到上述原型音频,例如:基于上述两种音频指纹检索技术的改进技术,本申请对所使用的音频检索技术不做限定。其中,在音频指纹检索技术中,计算机设备所提取的待匹配音频指纹可以通过录音音频的常用音频特征来表示,其中常用音频特征可以包括但不限于:傅里叶系数、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、谱平坦度、锐度、LPC(线性预测系数)系数等。计算机设备所采用的音频指纹匹配算法可以包括但不限于:基于距离的匹配算法(当计算机设备在音频指纹库中找到音频指纹A与待匹配音频指纹之间的距离最短时,表明该音频指纹A所对应的音频数据即为录音音频对应的原型音频),基于索引的匹配方法,基于阈值的匹配方法;本申请可以根据实际需求选择合适的音频指纹提取算法和音频指纹匹配算法,本申请对此不做限定。
步骤S103,根据原型音频从录音音频中获取候选语音音频;候选语音音频包括语音音频分量和环境噪声分量。
具体的,计算机设备从音频数据库中检索得到与录音音频相匹配的原型音频后,可以根据该原型音频对录音音频进行过滤,得到该录音音频中所包含的候选语音音频(也可以称为携带噪声的人声信号,如上述图2所对应实施例中的去音乐音频20k),该候选语音音频可以包括录音音频中语音音频分量和环境噪声分量;换言之,候选语音音频可以理解为过滤了音频播放设备所输出的音频后的录音音频,即将录音音频中所包含的音频播放设备所输出的音频进行消除处理后可以得到上述候选语音音频。
进一步地,计算机设备可以对录音音频进行频域变换,得到录音音频对应的第一频谱特征;对原型音频进行频域变换,得到原型音频对应的第二频谱特征。其中,本申请中的频域变换方法可以包括但不限于:傅里叶变换(Fourier Transformation,FT)、拉普拉斯变换(Laplace Transform)、z变换(Z-transformation)、以及上述三种频域变换方法的变形或改进方法,如快速傅里叶变换(Fast Fourier Transformation,FFT)、离散傅里叶变换(Discrete Fourier Transform,DFT)等;本申请对所采用的频域变换方法不做限定。上述第一频谱特征可以为对录音音频进行频域变换之后所得到的功率谱数据,也可以为对其功率谱数据进行归一化处理后所得到的结果;上述第二频谱特征与上述第一频谱特征的获取过程是相同的,如第一频谱特征为录音音频对应的功率谱数据时,第二频谱特征为原型音频对应的功率谱数据;第一频谱特征为归一化处理后的功率谱数据时,第二频谱特征为归一化处理后的功率谱数据,第一频谱特征和第二频谱特征所采用的归一化处理方法是相同的。其中,上述归一化处理方法可以包括但不限于:iLN(instant layer normalization)、LN(Layer Normalizaiton)、IN(Instance Normalization)、GN(Group Normalization)、SN(Switchable Normalization)等归一化处理;本申请对所采用的归一化处理方法不做限定。
计算机设备可以对第一频谱特征和第二频谱特征进行特征组合(concat),将组合后的频谱特征输入至第一深度网络模型(例如,上述如2所对应实施例中的第一深度网络模型20g),通过第一深度网络模型可以输出第一频点增益(例如,上述图2所对应实施例中的频点增益序列20h),第一频点增益与录音音频对应的功率谱数据相乘后再经过时域变换可以得到上述候选语音音频;此处的时域变换与上述频域变换互为逆变换,如频率变换所采用的方法为傅里叶变换时,此处所采用的时域变换的方法为逆傅里叶变换。其中,候选语音音频的计算过程可以参见上述图2所对应实施例中针对去音乐音频20k的计算过程,此处不再进行赘述。上述第一深度网络模型可以用于过滤录音音频中的音频播放设备所输出的音频,该第一深度神经网络可以包括但不限于:门循环单元(Gate Recurrent Unit,GRU)、长短期记忆网络(Long Short Term Memory,LSTM)、深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Network,CNN),以及上述任意一个网络模型的变形,或者两个以及两个网络模型的组合模型等,本申请对所采用的第一深度网络模型的网络结构不做限定。需要说明的是,对于下述涉及的第二深度网络模型同样可以包括但不限于上述网络模型,其中,第二深度网络模型用于对候选语音音频进行降噪处理,该第二深度网络模型与第一深度网络模型可以具有相同的网络结构,但是具有不同的模型参数(两个网络模型所具备的功能是不一样的);或者,第二深度网络模型与第一深度网络模型可以具有不同的网络结构,且具有不同的模型参数,后续不再对第二深度网络模型的类型进行赘述。
步骤S104,将录音音频与候选语音音频之间的差值,确定为录音音频中所包含的背景基准音频分量。
具体的,计算机设备根据第一深度网络模型得到候选语音音频后,可以将录音音频减去上述候选语音音频,得到音频播放设备所输出的音频;本申请中,可以将音频设备所输出的音频称为录音音频中的背景基准音频分量(例如,上述图2所对应实施例中的纯音乐音频20p)。其中,候选语音音频包含录音音频中的环境噪声分量和语音音频分量,录音音频与候选语音音频相减后所得到的结果即为该录音音频中所包含的背景基准音频分量。
其中,录音音频与候选语音音频之间的差值可以为时域上的波形差,也可以为频域上的频谱差。当录音音频与候选语音音频为时域波形信号时,可以获取录音音频对应的第一信号波形,以及候选语音音频对应的第二信号波形,第一信号波形与第二信号波形均可以在二维坐标系(横坐标可以表示为时间,纵坐标可以表示为信号强度,也可以称为信号幅度)中进行表示,进而可以将第一信号波形与第二信号波形相减,得到录音音频与候选语音音频在时域上的波形差。录音音频与候选语音音频在时域上相减时,第一信号波形和第二信号波形的横坐标保持不变,仅将横坐标值对应的纵坐标值相减,可以得到一个新的波形信号,这个新的波形信号可以认为是背景基准音频分量所对应的时域波形信号。
可选的,当录音音频与候选语音音频为频域信号时,可以将录音音频对应的录音功率谱数据与候选语音音频对应的语音功率谱数据相减,得到两者之间的频谱差值,该频谱差值可以认为是背景基准音频分量所对应的频域信号。例如,假设录音音频对应的录音功率谱数据为(5,8,10,9,7),候选语音音频对应的语音功率谱数据为(2,4,1,5,6),两者相减后所得到的频谱差值可以为(3,4,9,4,1),此时的频谱差值(3,4,9,4,1)可以称为背景基准音频分量所对应的频域信号。
步骤S105,对候选语音音频进行环境噪声降噪处理,得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行合并,得到降噪后的录音音频。
具体的,计算机设备可以对候选语音音频进行降噪处理,即对候选语音音频中的环境噪声进行抑制,得到候选语音音频对应的降噪语音音频(例如,上述图2所对应实施例中的人声去噪音频20n)。
其中,上述候选语音音频的降噪处理可以通过上述第二深度网络模型来实现。计算机设备可以对候选语音音频进行频域变换,得到候选语音音频对应的功率谱数据(可以称为语音功率谱数据),将语音功率谱数据输入至第二深度网络模型,通过第二深度网络模型可以输出第二频点增益,第二频点增益与候选语音音频对应的语音功率谱数据相乘后再经过时域变换可以得到上述降噪语音音频。进而可以将降噪语音音频与上述背景基准音频分量进行叠加,得到降噪后的录音音频(例如,上述图2所对应实施例中的降噪后的音乐录音音频20q)。
可选的,计算机设备可以将降噪后的录音音频分享至社交平台,以使社交平台中的终端设备在访问降噪后的录音音频时,可以播放降噪后的录音音频。其中,上述社交平台是指可以用于分享并传播音视频数据的应用、网页等,如社交平台可以为音频类应用,或者视频类应用,或者为内容分享平台等。
举例来说,在音乐录音场景中,降噪后的录音音频可以为降噪后的音乐录音音频,计算机设备可以将降噪后的音乐录音音频分享至内容分享平台(此时的社交平台默认为内容分享平台),终端设备在访问内容分享平台中所分享的降噪后的音乐录音音频时,可以播放降噪后的音乐录音音频。请参见图4,图4是本申请实施例提供的一种音乐录音场景的示意图。如图4所示的服务器30a可以为内容分享平台的后台服务器,用户终端30b可以为用户小A所使用的终端设备,用户小A为在内容分享平台中分享降噪后的音乐录音音频30e的用户;用户终端30c可以为用户小B所使用的终端设备,用户终端30d可以为用户小C所使用的终端设备。当服务器30a得到降噪后的音乐录音音频30e后,可以将降噪后的音乐录音音频30e分享至内容分享平台,此时用户终端30b中的内容分享平台中可以显示降噪后的音乐录音音频30e,以及降噪后的音乐录音音频30e对应的分享时间等信息。当用户小B所使用的用户终端30c访问内容分享平台时,可以在用户终端30c的内容分享平台中显示不同用户所分享的内容,该内容可以包括用户小A所分享的降噪后的音乐录音音频30e,点击降噪后的音乐录音音频30e后,可以在用户终端30c中播放降噪后的音乐录音音频30e。同理,当用户小C所使用的用户终端30d访问内容分享平台时,可以在用户终端30d的内容分享平台中显示用户小A所分享的降噪后的音乐录音音频30e,点击降噪后的音乐录音音频30e后,可以在用户终端30d中播放降噪后的音乐录音音频30e。
本申请实施例中,录音音频可以为包含语音音频分量、背景基准音频分量以及环境噪声分量的混合音频,在对录音音频进行降噪处理的过程中,可以通过音频指纹检索找到录音音频对应的原型音频,根据该原型音频可以从录音音频中筛选出候选语音音频,将上述录音音频减去候选语音音频可以得到背景基准音频分量;进而可以对候选语音音频进行降噪处理,得到降噪语音音频,将降噪语音音频与背景基准音频分量进行叠加后可以得到降噪后的录音音频。换言之,通过将录音音频的降噪处理问题转换为候选语音音频的降噪处理问题,可以避免将录音音频中的背景基准音频分量误与环境噪声进行混淆,进而可以提升录音音频的降噪效果。
请参见图5,图5是本申请实施例提供的一种音频数据处理方法的流程示意图。可以理解地,该音频数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者为服务器,或者为计算机设备中的一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该音频数据处理方法可以包括以下步骤S101-步骤S105:
步骤S201,获取录音音频;录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量。
其中,步骤S201的具体实现方式可以参见上述图3所对应实施例中的步骤S101,此处不再进行赘述。
步骤S202,将录音音频划分为M个录音数据帧,对M个录音数据帧中的第i个录音数据帧进行频域变换,得到第i个录音数据帧对应的功率谱数据;i和M均为正整数,且i小于或等于M。
具体的,计算机设备可以对录音音频进行分帧处理,将该录音音频划分为M个录音数据帧,对M个录音数据帧中的第i个录音数据帧进行频域变换,如对第i个录音数据帧进行傅里叶变换,可以得到第i个录音数据帧对应的功率谱数据;其中,M可以为大于1的正整数,如M可以取值为2,3,……,i可以为小于或等于M的正整数。其中,计算机设备可以通过滑动窗实现对录音音频的分帧处理,进而可以得到M个录音数据帧,为了保持相邻的录音数据帧之间的连续性,通常可以采用交叠分段的方式对录音音频进行分帧处理,录音数据帧的大小可以与滑动窗的大小相关联。
对于M个录音数据帧中的每个录音数据帧,均可以独立进行频域变换(如傅里叶变换),可以得到每个录音数据帧分别对应的功率谱数据,该功率谱数据可以包括各个频点分别对应的能量值(此处的能量值也可以称为功率谱数据的幅值),功率谱数据中的一个能量值对应于一个频点,一个频点可以理解为频域变换时的一个频率采样点。
步骤S203,将第i个录音数据帧对应的功率谱数据划分为N个频谱带,根据N个频谱带中的峰值信号,构建第i个录音数据帧对应的子指纹信息;N为正整数。
具体的,计算机设备可以根据每个录音数据帧分别对应的功率谱数据,构造每个录音数据帧分别对应的子指纹信息;其中,构造子指纹信息的关键在于从每个录音数据帧所对应的功率谱数据中选出区分度最大的能量值,下面以第i个录音数据帧为例,对子指纹信息的构造过程进行描述。计算机设备可以将第i个录音数据帧对应的功率谱数据划分为N个频谱带,选取每个频谱带中的峰值信号(即每个频谱带中的极大值,也可以理解为每个频谱带中的最大能量值)作为该频谱带的签名,以此来构造第i个录音数据帧对应的子指纹信息,其中N可以为正整数,如N可以取值1,2,……。换言之,第i个录音数据帧对应的子指纹信息可以包括N个频谱带分别对应的峰值信号。
步骤S204,按照M个录音数据帧在录音音频中的时间顺序,对M个录音数据帧分别对应的子指纹信息进行组合,得到录音音频对应的待匹配音频指纹。
具体的,计算机设备可以按照上述步骤S203中的描述,获取M个录音数据帧分别对应的子指纹信息,进而可以按照M个录音数据帧在录音音频中的时间顺序,依次对M个录音数据帧分别对应的子指纹信息进行组合,可以得到录音音频对应的待匹配音频指纹。通过选取峰值信号构建待匹配音频指纹,可以尽可能地确保该待匹配音频指纹在各种噪声和失真环境下保持不变。
步骤S205,获取音频数据库对应的音频指纹库,根据待匹配音频指纹在音频指纹库中进行指纹检索,根据指纹检索结果在音频数据库中确定与录音音频相匹配的原型音频。
具体的,计算机设备可以获取音频数据库,并获取音频数据库对应的音频指纹库,音频数据库中的每个音频数据都可以按照上述步骤S201-步骤S204中的描述,得到音频数据库中的每个音频数据分别对应的音频指纹,每个音频数据所对应的音频指纹可以构成音频数据库对应的音频指纹库。其中,音频指纹库是预先构建的,计算机设备在获取了录音音频对应的待匹配音频指纹后,可以直接获取音频指纹库,基于待匹配音频指纹在音频指纹库中进行指纹检索,可以得到与待匹配音频指纹相匹配的音频指纹,该相匹配的音频指纹可以作为该待匹配音频指纹对应的指纹检索结果,进而可以将指纹检索结果所对应的音频数据确定为与录音音频相匹配的原型音频。
可选的,计算机设备可以将音频指纹作为音频检索哈希表的键值(key)进行保存。每个音频数据所包含的单个音频数据帧可以对应于一个子指纹信息,一个子指纹信息可以对应于音频检索哈希的一个键值;每个音频数据所包含的所有音频数据帧所对应的子指纹信息可以组成该音频数据对应的音频指纹。为方便查找,每个子指纹信息可以作为哈希表的键值,每个键值可以指向该子指纹信息在所属的音频数据中出现的时间,还可以指向该子指纹信息所属的音频数据的标识;如某个子指纹信息转换为哈希值后,该哈希值可以作为音频检索哈希表中的键值进行保存,该键值指向该子指纹信息在所属的音频数据中出现的时间为02:30,指向的音频数据的标识为:音频数据1。可以理解地,上述音频指纹库可以包括音频数据库中的每个音频数据所对应的一个或多个哈希值。
当录音音频划分为M个音频数据帧时,该录音音频所对应的待匹配音频指纹可以包括M个子指纹信息,一个子指纹信息对应一个音频数据帧。计算机设备可以将待匹配音频指纹中所包含的M个子指纹信息映射为M个待匹配哈希值,并获取M个待匹配哈希值分别对应的录音时间,一个待匹配哈希值所对应的录音时间用于表征该待匹配哈希值对应的子指纹信息在录音音频中出现的时间;若M个待匹配哈希值中的第p个待匹配哈希值与音频指纹库所包含的第一哈希值相匹配,则获取第p个待匹配哈希值对应的录音时间与第一哈希值对应的时间信息之间的第一时间差,其中p为小于或等于M的正整数;若M个待匹配哈希值中的第q个待匹配哈希值与音频指纹库所包含的第二哈希值相匹配,则获取第q个待匹配哈希值对应的录音时间与第二哈希值对应的时间信息之间的第二时间差;q为小于或等于M的正整数;当第一时间差和第二时间差满足数值阈值,且第一哈希值和第二哈希值属于相同的音频指纹时,可以将第一哈希值所属的音频指纹确定为指纹检索结果,将指纹检索结果所对应的音频数据确定为录音音频对应的原型音频。更多的,计算机设备可以对上述M个待匹配哈希值与音频指纹库中的哈希值进行匹配,每一个匹配成功的待匹配哈希值均可以计算得到一个时间差,在M个待匹配哈希值都完成匹配后,可以统计相同时间差的最大值,此时的最大值可以设置为上述数值阈值,将最大值所对应的音频数据确定为录音音频对应的原型音频。
举例来说,M个待匹配哈希值包括哈希值1、哈希值2、哈希值3、哈希值4、哈希值5以及哈希值6,音频指纹库中的哈希值A与哈希值1相匹配,且哈希值A指向音频数据1,哈希值A与哈希值1之间的时间差为t1;音频指纹库中的哈希值B与哈希值2相匹配,且哈希值B指向音频数据1,哈希值B与哈希值2之间的时间差为t2;音频指纹库中的哈希值C与哈希值3相匹配,且哈希值C指向音频数据1,哈希值C与哈希值3之间的时间差为t3;音频指纹库中的哈希值D与哈希值4相匹配,且哈希值D指向音频数据1,哈希值D与哈希值4之间的时间差为t4;音频指纹库中的哈希值E与哈希值5相匹配,且哈希值E指向音频数据2,哈希值E与哈希值5之间的时间差为t5;音频指纹库中的哈希值F与哈希值6相匹配,且哈希值6指向音频数据2,哈希值F与哈希值6之间的时间差为t6。若上述时间差t1、时间差t2、时间差t3以及时间差t4为相同的时间差,时间差t5和时间差t6为相同的时间差,则可以将音频数据1作为录音音频对应的原型音频。
步骤S206,获取录音音频对应的录音功率谱数据,对录音功率谱数据进行归一化处理,得到第一频谱特征;获取原型音频对应的原型功率谱数据,对原型功率谱数据进行归一化处理,得到第二频谱特征,将第一频谱特征和第二频谱特征组合为输入特征。
具体的,计算机设备可以获取录音音频对应的录音功率谱数据,该录音功率谱数据可以由上述M个音频数据帧分别对应的功率谱数据组成,录音功率谱数据可以包括录音音频中的各个频点分别对应的能量值;对录音功率谱数据进行归一化处理,得到第一频谱特征;其中,若此处的归一化处理为iLN,则可以对录音功率谱数据中各个频点所对应的能量值进行独立归一化;当然,本申请还可以采用其余归一化处理,如BN等。可选的,本申请实施例还可以无需对录音功率谱数据进行归一化处理,直接将录音功率谱数据作为第一频谱特征。同理,对于原型音频,可以执行如上述录音音频相同的频域变换(得到原型功率谱数据)、归一化处理操作,得到原型音频对应的第二频谱特征;进而可以通过concat(连接)将第一频谱特征和第二频谱特征组合为输入特征。
步骤S207,将输入特征输入至第一深度网络模型,通过第一深度网络模型输出针对录音音频的第一频点增益。
具体的,计算机设备可以将输入特征输入至第一深度网络模型,通过第一深度网络模型可以输出针对录音音频的第一频点增益,此处的第一频点增益可以包括录音音频中的各个频点分别对应的语音增益。
其中,当第一深度网络模型包括GRU(可以作为特征提取网络层)、全连接网络(可以作为全连接网络层)以及Sigmoid函数(可以称为激活层,在本申请中可以作为输出层)时,输入特征首先输入至第一深度网络模型中的特征提取网络层,根据特征提取网络层,可以获取输入特征对应的时序分布特征,该时序分布特征可以用于表征录音音频中的上下文语义;根据第一深度网络模型中的全连接网络层,获取时序分布特征对应的目标特征向量,通过第一深度网络模型中的激活层,输出第一频点增益,如可以由Sigmoid函数输出录音音频中所包含的各个频点分别对应的语音增益。
步骤S208,根据第一频点增益和录音功率谱数据,获取录音音频中所包含的候选语音音频;将录音音频与候选语音音频之间的差值,确定为录音音频中所包含的背景基准音频分量;候选语音音频包括语音音频分量和环境噪声分量。
具体的,假设录音音频包括T个频点(T为大于1的正整数),那么第一频点增益可以包括T个频点分别对应的语音增益,录音功率谱数据包括T个频点分别对应的能量值,T个语音增益与T个能量值一一对应。计算机设备可以根据第一频点增益中的T个频点分别对应的语音增益,对录音功率谱数据中属于相同频点的能量值进行加权,得到T个频点分别对应的加权能量值;进而可以根据T个频点分别对应的加权能量值,确定录音音频对应的加权录音频域信号;通过对加权录音频域信号进行时域变换(与前述频域变换互为逆变换),得到录音音频中所包含的候选语音音频。例如,当第一深度网络模型输出的第一频点增益为(2,3),录音功率谱数据为(1,2)时,表示录音音频可以包括两个频点(此处T取值为2),第一个频点在第一频点增益中的语音增益为2,在录音功率谱数据中的能量值为1,第二个频点在第一频点增益中的语音增益为3,在录音功率谱数据中的能量值为2;可以计算得到加权录音频域信号为(2,6),通过对加权录音频域信号进行时域变换,可以得到录音音频中所包含的候选语音音频。进一步地,可以将录音音频与候选语音音频之间的差值,确定为背景基准音频分量,即音频播放设备所输出的音频。
请参见图6,图6是本申请实施例提供的一种第一深度网络模型的结构示意图;以音乐录音场景为例,对第一深度网络模型的网络结构进行说明。如图6所示,计算机设备从音频数据库中检索到音乐录音音频40a(即录音音频)对应的音乐原型音频40b(即原型音频)后,可以分别对音乐录音音频40a和音乐原型音频40b进行快速傅里叶变换(FFT),得到音乐录音音频40a对应的功率谱数据40c(即录音功率谱数据),以及音乐原型音频40b对应的功率谱数据40d(即原型功率谱数据),上述快速傅里叶变换仅仅只是本实施例中的一种举例,本申请还可以使用其余频域变换方法,如离散傅里叶变换等。对功率谱数据40c和功率谱数据40d中的各帧功率谱进行iLN归一化处理后通过concat进行特征组合,将组合得到的输入特征作为第一深度网络模型40e的输入数据,该第一深度网络模型40e可以由门循环单元1、门循环单元2、全连接网络1组成,最后通过Sigmoid函数输出第一频点增益;第一频点增益所包含的各个频点的语音增益与功率谱数据40c中对应频点的能量值(也可以称为频点功率谱)相乘后,再经过逆傅里叶变换(iFFT)可以得到去音乐音频40f(即上述候选语音音频);其中,逆傅里叶变换可以为时域变换方法,即从频域转换到时域。可以理解的是,如图6所示的第一深度网络模型40e的网络结构仅为一种举例,本申请实施例所使用的第一深度网络模型还可以在上述第一深度网络模型40e的基础上增加门循环单元或全连接网络结构,本申请对此不做限定。
步骤S209,获取候选语音音频对应的语音功率谱数据,将语音功率谱数据输入至第二深度网络模型,通过第二深度网络模型输出针对候选语音音频的第二频点增益。
具体的,计算机设备在获取到候选语音音频后,可以对候选语音音频进行频域变换,得到候选语音音频对应的语音功率谱数据,将语音功率谱数据输入至第二深度网络模型,通过第二深度网络模型中的特征提取网络层(可以为GRU)、全连接网络层(可以为全连接网络)、激活层(Sigmoid函数),可以输出针对候选语音音频的第二频点增益,第二频点增益可以包括候选语音音频中的各个频点分别对应的降噪增益,可以为Sigmoid函数的输出值。
步骤S210,根据第二频点增益与语音功率谱数据,获取候选语音音频对应的加权语音频域信号;对加权语音频域信号进行时域变换,得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行合并,得到降噪后的录音音频。
具体的,假设候选语音音频包括D个频点(D为大于1的正整数,此处的D可以等于上述T,也可以不等于上述T,两者可以根据实际需求进行取值,本申请对D和T的取值不做限定),那么第二频点增益可以包括D个频点分别对应的降噪增益,语音功率谱数据包括D个频点分别对应的能量值,D个降噪增益与D个能量值一一对应。计算机设备可以根据第二频点增益中的D个频点分别对应的降噪增益,对语音功率谱数据中属于相同频点的能量值进行加权,得到D个频点分别对应的加权能量值;进而可以根据D个频点分别对应的加权能量值,确定候选语音音频对应的加权语音频域信号;通过对加权语音频域信号进行时域变换(与前述频域变换互为逆变换),得到候选语音音频对应的降噪语音音频。例如,当第二深度网络模型输出的第二频点增益为(0.1,0.5),语音功率谱数据为(5,8)时,表示候选语音音频可以包括两个频点(此处D取值为2),第一个频点在第二频点增益中的降噪增益为0.1,在语音功率谱数据中的能量值为5,第二个频点在第二频点增益中的降噪增益为0.5,在语音功率谱数据中的能量值为8;可以计算得到加权语音频域信号为(0.5,4),通过对加权语音频域信号进行时域变换,可以得到候选语音音频对应的降噪语音音频。进一步地,可以将降噪语音音频与背景基准音频分量进行叠加,可以得到降噪后的录音音频。
请参见图7,图7是本申请实施例提供的一种第二深度网络模型的结构示意图。如图7所示,如前述图6所对应实施例,计算机设备通过第一深度网络模型40e得到去音乐音频40f后,可以对去音乐音频40f进行快速傅里叶变换(FFT),得到去音乐音频40f对应的功率谱数据40g(即上述语音功率谱数据)。将功率谱数据40g作为第二深度网络模型40h的输入数据,该第二深度网络模型40h可以由全连接网络2、门循环单元3、门循环单元4、全连接网络3组成,最后通过Sigmoid函数可以输出第二频点增益;第二频点增益所包含的各个频点的降噪增益与功率谱数据40g中对应频点的能量值相乘后,再经过逆傅里叶变换(iFFT)可以得到人声去噪音频40i(即上述降噪语音音频)。可以理解的是,如图7所示的第二深度网络模型40h的网络结构仅为一种举例,本申请实施例所使用的第二深度网络模型还可以在上述第二深度网络模型40h的基础上增加门循环单元或全连接网络结构,本申请对此不做限定。
请参见图8,图8是本申请实施例提供的一种录音音频降噪处理的流程示意图。如图8所示,本实施例以音乐录音场景为例,计算机设备在获取到音乐录音音频50a后,可以获取该音乐录音音频50a对应的音频指纹50b,基于该音频指纹50b,在曲库50c(即上述音频数据库)所对应的音频指纹库50d中进行音频指纹检索,当曲库50c中的某个音频数据所对应的音频指纹与音频指纹50b相匹配时,可以将区块50c中的该音频数据确定为音乐录音音频50a对应的音乐原型音频50e;其中,音频指纹50b的提取过程以及音频指纹50b的音频指纹检索过程可以参见前述步骤S202-步骤S205中的描述,在此不再进行赘述。
进一步地,可以对音乐录音音频50a和音乐原型音频50e分别进行频谱特征提取,将获取到的频谱特征进行特征组合后输入至第一阶深度网络50h(即前述第一深度网络模型),通过第一阶深度网络50h可以得到去音乐音频50i(去音乐音频50i的获取过程可以参见上述图6所对应的实施例,此处不再进行赘述);其中,频谱特征提取过程可以包括傅里叶变换等频域变换和iLN等归一化处理。进而可以将音乐录音音频50a与去音乐音频50i相减,可以得到纯音乐音频50j(即上述背景基准音频分量)。
对去音乐音频50i进行快速傅里叶变换后可以得到其对应的功率谱数据,将该功率谱数据作为第二阶深度网络50k(即上述第二深度网络模型)的输入,通过第二阶深度网络50k可以得到人声去噪音频50m(人声去噪音频50m的获取过程可以参见上述图7所对应的实施例,此处不再进行赘述);进而可以将纯音乐音频50j与人声去噪音频50m进行叠加,可以得到最终降噪后的音乐录音音频50n(即降噪后的录音音频)。
本申请实施例中,录音音频可以为包含语音音频分量、背景基准音频分量以及环境噪声分量的背景基准音频分量的混合音频,在对录音音频进行降噪处理的过程中,可以通过音频指纹检索找到录音音频对应的原型音频,根据该原型音频可以从录音音频中筛选出候选语音音频,将上述录音音频减去候选语音音频可以得到背景基准音频分量;进而可以对候选语音音频进行降噪处理,得到降噪语音音频,将降噪语音音频与背景基准音频分量进行叠加后可以得到降噪后的录音音频。换言之,通过将录音音频的降噪处理问题转换为候选语音音频的降噪处理问题,可以避免将录音音频中的背景基准音频分量误与环境噪声进行混淆,进而可以提升录音音频的降噪效果;通过音频指纹检索技术进行检索得到原型音频,可以提高检索准确性。
在录音场景中使用前述第一深度网络模型和第二深度网络模型之前,还需要对其进行训练,下面将通过附图9和附图10对第一深度网络模型和第二深度网络模型的训练过程进行描述。
请参见图9,图9是本申请实施例提供的一种音频数据处理方法的流程示意图。可以理解地,该音频数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者为服务器,或者为计算机设备中的一个计算机程序应用(包括程序代码),这里不做具体限定。如图9所示,该音频数据处理方法可以包括以下步骤S301-步骤S305:
步骤S301,获取语音样本音频、噪声样本音频以及标准样本音频,根据语音样本音频、噪声样本音频以及标准样本音频,生成样本录音音频。
具体的,计算机设备可以预先获取大量的语音样本音频、大量的噪声样本音频以及大量的标准样本音频。其中,语音样本音频可以为仅包含人声的音频序列;例如,该语音样本音频可以是预先录制好的各种用户的歌声序列,或者为各种用户的配音序列等。噪声样本音频可以为仅包含噪声的音频序列,该噪声样本音频可以是预先录制好的不同场景的噪声;例如,噪声样本音频可以是车辆鸣笛的声音、敲击键盘的声音、敲击各种金属的声音等各种类型的噪声。标准样本音频可以为音频数据库中所存储的纯净音频;例如,该标准样本音频可以为音乐序列,或者视频配音序列等。换言之,语音样本音频和噪声样本音频可以是通过录采集,标准样本音频可以为各种平台中所存储的纯净音频,其中计算机设备在获取平台中的标准样本音频时需要获得该平台的授权许可。举例来说,在音乐录音场景中,语音样本音频可以为人声序列,噪声样本音频可以为不同场景的噪声序列,标准样本音频可以为音乐序列。
计算机设备可以对语音样本音频、噪声样本音频以及标准样本音频进行叠加,得到样本录音音频。为了构建更多的样本录音音频,不仅可以对不同的语音样本音频、噪声样本音频以及标准样本音频进行随机组合,还可以使用不同的系数对同一组语音样本音频、噪声样本音频以及标准样本音频进行加权,可以得到不同的样本录音音频。具体的,计算机设备可以获取针对第一初始网络模型的加权系数集合,该加权系数集合可以为一组随机生成的浮点数,根据该加权系数集合可以构建K个数组,每个数组都可以包括三个具有排列顺序的数值,具有不同排列顺序的三个数值可以构成不同的数组,一个数组中所包含的三个数值分别为语音样本音频、噪声样本音频以及标准样本音频的系数;根据K个数组中的第j个数组所包含的系数,分别对语音样本音频、噪声样本音频以及标准样本音频进行加权,可以得到第j个数组对应的样本录音音频。换言之,对于任意一个语音样本音频、一个噪声样本音频以及一个标准样本音频,可以构建K个不同的样本录音音频。
举例来说,假设K个数组包括以下4个数组(此时的K取值为4),该4个数组分别为[0.1,0.5,0.3],[0.5,0.6,0.8],[0.6,0.1,0.4],[1,0.7,0.3],对于语音样本音频a、噪声样本音频b以及标准样本音频c,可以构建如下样本录音音频:样本录音音频y1=0.1a+0.5b+0.3c,样本录音音频y2=0.5a+0.6b+0.8c,样本录音音频y3=0.6a+0.1b+0.4c,样本录音音频y4=a+0.7b+0.3c。
步骤S302,根据第一初始网络模型获取样本录音音频中的样本预测语音音频;第一初始网络模型用于过滤样本录音音频所包含的标准样本音频,第一初始网络模型的期望预测语音音频由语音样本音频和噪声样本音频所确定。
具体的,对于用来训练两个初始网络模型(包括第一初始网络模型和第二初始网络模型)的所有样本录音音频,每个样本录音音频在两个初始网络模型中的处理过程是相同。在训练阶段,样本录音音频可以分批次输入第一初始网络模型,即对所有样本录音音频进行分批次训练;为方便描述,下面以所有样本录音音频中的任一个样本录音音频为例,对上述两个初始网络模型的训练过程进行描述。
请参见图10,图10是本申请实施例提供的一种深度网络模型的训练示意图。如图10所示,样本录音音频y可以由样本数据库60a中的语音样本音频x1、噪声样本序列x2以及标准样本音频所确定,如样本录音音频y=r1×x1+r2×x2+r3×x3。计算机设备可以对该样本录音音频y进行频域变换,得到该样本录音音频y对应的样本功率谱数据,并对该样本功率谱数据进行归一化处理(例如,iLN归一化),得到该样本录音音频y对应的样本频谱特征;将该样本频谱特征输入至第一初始网络模型60b,通过第一初始网络模型60b可以输出样本频谱特征对应的第一样本频点增益,该第一样本频点增益可以包括样本录音音频所对应的各个频点的语音增益,此处的第一样本频点增益即为第一初始网络模型60b针对上述样本录音音频y的实际输出结果。其中,第一初始网络模型60b可以是指处于训练阶段的第一深度网络模型,训练第一初始网络模型60b是为了过滤样本录音音频所包含的标准样本音频。
计算机设备可以根据第一样本频点增益和样本功率谱数据,得到样本预测语音音频60c,该样本预测语音音频60c的计算过程与前述候选语音音频的计算过程类似,此处不再赘述。其中,第一初始网络模型60b对应的期望预测语音音频可以由语音样本音频x1和噪声样本音频x2所确定,该期望预测语音音频可以为上述样本录音音频y中的信号(r1×x1+r2×x2);也就是说,第一初始网络模型60b的期望输出结果可以为信号(r1×x1+r2×x2)的功率谱数据中的各频点能量值(或者称为各频点功率谱值)除以样本功率谱数据中对应的频点能量值后的开平方处理结果。
步骤S303,根据第二初始网络模型获取样本预测语音音频对应的样本预测降噪音频;第二初始网络模型用于抑制样本预测语音音频所包含的噪声样本音频,第二初始网络模型的期望预测降噪音频由语音样本音频所确定。
具体的,如图10所示,计算机设备可以样本预测语音音频60c对应的功率谱数据输入至第二初始网络模型60f,通过第二初始网络模型60f可以输出样本预测语音音频60c对应的第二样本频点增益,该第二样本频点增益可以包括样本预测语音音频60c所对应的各个频点的降噪增益,此处的第二样本频点增益即为第二初始网络模型60f针对上述样本预测语音音频60c的实际输出结果。其中,第二初始网络模型60f可以是指处于训练阶段的第二深度网络模型,训练第二初始网络模型60f是为了对样本预测语音音频中所包含的噪声进行抑制。需要说明的是,第二初始网络模型60f的训练样本需要与第一初始网络模型60b的部分样本对齐,如第二初始网络模型60f的训练样本可以为基于第一初始网络模型60b所确定的样本预测语音音频60c。
计算机设备可以根据第二样本频点增益和样本预测语音音频60c的功率谱数据,得到样本预测降噪音频60g,该样本预测降噪音频60g的计算过程与前述降噪语音音频的计算过程类似,此处不再赘述。其中,第二初始网络模型60f对应的期望预测降噪音频可以由语音样本音频x1所确定,该期望预测降噪音频可以为上述样本录音音频y中的信号(r1×x1);也就是说,第二初始网络模型60f的期望输出结果可以为信号(r1×x1)的功率谱数据中的各频点能量值(或者称为各频点功率谱值),除以样本预测语音音频60c的功率谱数据中对应的频点能量值后的开平方处理结果。
步骤S304,基于样本预测语音音频和期望预测语音音频,对第一初始网络模型的网络参数进行调整,得到第一深度网络模型;第一深度网络模型用于对录音音频进行过滤后得到候选语音音频,录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量,候选语音音频包括语音音频分量和环境噪声分量。
具体的,如图10所示,根据第一初始网络模型60b对应的样本预测语音音频60c与期望预测语音音频(r1×x1+r2×x2)之间的差值,确定针对第一初始网络模型60b对应的第一损失函数60d,通过优化第一损失函数60d至最小值,即使得训练损失最小,对第一初始网络模型60b的网络参数进行调整,直至训练迭代次数达到预先设置的最大迭代次数(或第一初始网络模型60b的训练达到收敛),此时的第一初始网络模型60b可以作为第一深度网络模型60e,训练完成的第一深度网络模型60e可以用于对录音音频进行过滤后得到候选语音音频,第一深度网络模型60e的使用过程可以参见上述步骤S207中的描述。可选的,上述第一损失函数60d还可以为第一初始网络模型60b的期望输出结果与第一频点增益(实际输出结果)之间的平方项。
步骤S305,基于样本预测降噪音频和期望预测降噪音频,对第二初始网络模型的网络参数进行调整,得到第二深度网络模型;第二深度网络模型用于对候选语音音频进行降噪处理后得到降噪语音音频。
具体的,如图10所示,根据第二初始网络模型60f对应的样本预测降噪音频60g与期望预测语音音频(r1×x1)之间的差值,确定针对第二初始网络模型60f对应的第二损失函数60h,通过优化第二损失函数60h至最小值,即使得训练损失最小,对第二初始网络模型60f的网络参数进行调整,直至训练迭代次数达到预先设置的最大迭代次数(或第二初始网络模型60f的训练达到收敛),此时的第二初始网络模型可以作为第二深度网络模型60i,训练完成的第二深度网络模型60i可以用于对候选语音音频进行降噪处理后得到降噪语音音频,第二深度网络模型60i的使用过程可以参见上述步骤S209中的描述。可选的,上述第二损失函数60h还可以为第二初始网络模型60f的期望输出结果与第二频点增益(实际输出结果)之间的平方项。
本申请实施例中,通过为语音样本音频、噪声样本音频以及标准样本音频加权不同的系数,可以扩展样本录音音频的数量,通过这些样本录音音频对第一初始网络模型和第二初始网络模型进行训练,可以提高网络模型的泛化能力;通过将第二初始网络模型的训练样本与第一初始网络模型的部分训练样本(样本录音音频中所包含的部分信号)进行对齐,可以增强第一初始网络模型与第二初始网络模型之间的整体关联性,在使用训练完成的第一深度网络模型与第二深度网络模型进行降噪处理时,可以提高录音音频的降噪效果。
请参见图11,图11是本申请实施例提供的一种音频数据处理装置的结构示意图。如图11所示,该音频数据处理装置1可以包括:音频获取模块11,指纹检索模块12,音频过滤模块13,音频确定模块14,降噪处理模块15;
音频获取模块11,用于获取录音音频;录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量;
指纹检索模块12,用于获取录音音频对应的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频;
音频过滤模块13,用于根据原型音频从录音音频中获取候选语音音频;候选语音音频包括语音音频分量和环境噪声分量;
音频确定模块14,用于将录音音频与候选语音音频之间的差值,确定为录音音频中所包含的背景基准音频分量;
降噪处理模块15,用于对候选语音音频进行环境噪声降噪处理,得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行合并,得到降噪后的录音音频。
其中,音频获取模块11,指纹检索模块12,音频过滤模块13,音频确定模块14,降噪处理模块15的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S105,这里不再进行赘述。
在一个或多个实施例中,指纹检索模块12可以包括:频域变换单元121,频谱带划分单元122,音频指纹组合单元123,原型音频匹配单元124;
频域变换单元121,用于将录音音频划分为M个录音数据帧,对M个录音数据帧中的第i个录音数据帧进行频域变换,得到第i个录音数据帧对应的功率谱数据;i和M均为正整数,且i小于或等于M;
频谱带划分单元122,用于将第i个录音数据帧对应的功率谱数据划分为N个频谱带,根据N个频谱带中的峰值信号,构建第i个录音数据帧对应的子指纹信息;N为正整数;
音频指纹组合单元123,用于按照M个录音数据帧在录音音频中的时间顺序,对M个录音数据帧分别对应的子指纹信息进行组合,得到录音音频对应的待匹配音频指纹;
原型音频匹配单元124,用于获取音频数据库对应的音频指纹库,根据待匹配音频指纹在音频指纹库中进行指纹检索,根据指纹检索结果在音频数据库中确定与录音音频相匹配的原型音频。
其中,原型音频匹配单元124具体用于:
将待匹配音频指纹中所包含的M个子指纹信息映射为M个待匹配哈希值,获取M个待匹配哈希值分别对应的录音时间;一个待匹配哈希值所对应的录音时间用于表征该待匹配哈希值对应的子指纹信息在录音音频中出现的时间;
若M个待匹配哈希值中的第p个待匹配哈希值与音频指纹库所包含的第一哈希值相匹配,则获取第p个待匹配哈希值对应的录音时间与第一哈希值对应的时间信息之间的第一时间差;p为小于或等于M的正整数;
若M个待匹配哈希值中的第q个待匹配哈希值与音频指纹库所包含的第二哈希值相匹配,则获取第q个待匹配哈希值对应的录音时间与第二哈希值对应的时间信息之间的第二时间差;q为小于或等于M的正整数;
当第一时间差和第二时间差满足数值阈值,且第一哈希值和第二哈希值属于相同的音频指纹时,将第一哈希值所属的音频指纹确定为指纹检索结果,将指纹检索结果所对应的音频数据确定为录音音频对应的原型音频。
其中,频域变换单元121,频谱带划分单元122,音频指纹组合单元123,原型音频匹配单元124的具体功能实现方式可以参见上述图5所对应实施例中的步骤S202步骤S205,这里不再进行赘述。
在一个或多个实施例中,音频过滤模块13可以包括:归一化处理单元131,第一频点增益输出单元132,语音音频获取单元133;
归一化处理单元131,用于获取录音音频对应的录音功率谱数据,对录音功率谱数据进行归一化处理,得到第一频谱特征;
上述归一化处理单元131,还用于获取原型音频对应的原型功率谱数据,对原型功率谱数据进行归一化处理,得到第二频谱特征,将第一频谱特征和第二频谱特征组合为输入特征;
第一频点增益输出单元132,用于将输入特征输入至第一深度网络模型,通过第一深度网络模型输出针对录音音频的第一频点增益;
语音音频获取单元133,用于根据第一频点增益和录音功率谱数据,获取录音音频中所包含的候选语音音频。
可选的,第一频点增益输出单元132可以包括:特征提取子单元1321,激活子单元1322;
特征提取子单元1321,用于将输入特征输入至第一深度网络模型,根据第一深度网络模型中的特征提取网络层,获取输入特征对应的时序分布特征;
激活子单元1322,用于根据第一深度网络模型中的全连接网络层,获取时序分布特征对应的目标特征向量,通过第一深度网络模型中的激活层,输出第一频点增益。
可选的,第一频点增益包括T个频点分别对应的语音增益,录音功率谱数据包括T个频点分别对应的能量值,T个语音增益与T个能量值一一对应;T为大于1的正整数;
语音音频获取单元133可以包括:频点加权子单元1331,加权能量值组合子单元1332,时域变换子单元1333;
频点加权子单元1331,用于根据第一频点增益中的T个频点分别对应的语音增益,对录音功率谱数据中属于相同频点的能量值进行加权,得到T个频点分别对应的加权能量值;
加权能量值组合子单元1332,用于根据T个频点分别对应的加权能量值,确定录音音频对应的加权录音频域信号;
时域变换子单元1333,用于对加权录音频域信号进行时域变换,得到录音音频中所包含的候选语音音频。
其中,归一化处理单元131,第一频点增益输出单元132,语音音频获取单元133,特征提取子单元1321,激活子单元1322,频点加权子单元1331,加权能量值组合子单元1332,时域变换子单元1333的具体功能实现方式可以参见上述图5所对应实施例中的步骤S206步骤S208,这里不再进行赘述。
在一个或多个实施例中,降噪处理模块15可以包括:第二频点增益输出单元151,信号加权单元152,时域变换单元153;
第二频点增益输出单元151,用于获取候选语音音频对应的语音功率谱数据,将语音功率谱数据输入至第二深度网络模型,通过第二深度网络模型输出针对候选语音音频的第二频点增益;
信号加权单元152,用于根据第二频点增益与语音功率谱数据,获取候选语音音频对应的加权语音频域信号;
时域变换单元153,用于对加权语音频域信号进行时域变换,得到候选语音音频对应的降噪语音音频。
其中,第二频点增益输出单元151,信号加权单元152,时域变换单元153的具体功能实现方式可以参见上述图5所对应实施例中的步骤S209和步骤S210,这里不再进行赘述。
在一个或多个实施例中,该音频数据处理装置1还可以包括:音频分享模块16;
音频分享模块16,用于将降噪后的录音音频分享至社交平台,以使社交平台中的终端设备在访问社交平台时,播放降噪后的录音音频。
其中,音频分享模块16的具体功能实现方式可以参见上述图3所对应实施例中的步骤S105,这里不再进行赘述。
本申请中,上述各个模块、单元、子单元可以实现前述图3、图5任一个方法实施例中的描述,对采用相同方法的有益效果描述,也不再进行赘述。
请参见图12,图12是本申请实施例提供的一种音频数据处理装置的结构示意图。如图12所示,该音频数据处理装置2可以包括:样本获取模块21,第一预测模块22,第二预测模块23,第一调整模块24,第二调整模块25;
样本获取模块21,用于获取语音样本音频、噪声样本音频以及标准样本音频,根据语音样本音频、噪声样本音频以及标准样本音频,生成样本录音音频;语音样本音频和噪声样本音频是通过录音采集得到的,标准样本音频是音频数据库中所存储的纯净音频;
第一预测模块22,用于根据第一初始网络模型获取样本录音音频中的样本预测语音音频;第一初始网络模型用于过滤样本录音音频所包含的标准样本音频,第一初始网络模型的期望预测语音音频由语音样本音频和噪声样本音频所确定;
第二预测模块23,用于根据第二初始网络模型获取样本预测语音音频对应的样本预测降噪音频;第二初始网络模型用于抑制样本预测语音音频所包含的噪声样本音频,第二初始网络模型的期望预测降噪音频由语音样本音频所确定;
第一调整模块24,用于基于样本预测语音音频和期望预测语音音频,对第一初始网络模型的网络参数进行调整,得到第一深度网络模型;第一深度网络模型用于对录音音频进行过滤后得到候选语音音频,录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量,候选语音音频包括语音音频分量和环境噪声分量;
第二调整模块25,用于基于样本预测降噪音频和期望预测降噪音频,对第二初始网络模型的网络参数进行调整,得到第二深度网络模型;第二深度网络模型用于对候选语音音频进行降噪处理后得到降噪语音音频。
其中,样本获取模块21,第一预测模块22,第二预测模块23,第一调整模块24,第二调整模块25的具体功能实现方式可以参见上述图9所对应实施例中的步骤S301-步骤S305,这里不再进行赘述。
在一个或多个实施例中,样本录音音频的数量为K个,K为正整数;
样本获取模块21可以包括:数组构建单元211,样本录音构建单元212;
数组构建单元211,用于获取针对第一初始网络模型的加权系数集合,根据加权系数集合构建K个数组;每个数组包括语音样本音频、噪声样本音频以及标准样本音频分别对应的系数;
样本录音构建单元212,用于根据K个数组中的第j个数组所包含的系数,分别对语音样本音频、噪声样本音频以及标准样本音频进行加权,得到第j个数组对应的样本录音音频;j为小于或等于K的正整数。
其中,数组构建单元211,样本录音构建单元212的具体功能实现方式可以参见上述图9所对应实施例中的步骤S301,这里不再进行赘述。
本申请中,上述各个模块、单元、子单元可以实现前述图9所对应的方法实施例中的描述,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图13,图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示,该计算机设备1000可以为用户终端,例如,上述图1所对应实施例中的用户终端10a,还可以为服务器,例如,上述图1所对应实施例中的服务器10d,这里将不对其进行限制。为便于理解,本申请以计算机设备为用户终端为例,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,该计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
其中,该计算机设备1000中的网络接口1004还可以提供网络通讯功能,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图13所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取录音音频;录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量;
获取录音音频对应的待匹配音频指纹,根据待匹配音频指纹在音频数据库中获取与录音音频相匹配的原型音频;
根据原型音频从录音音频中获取候选语音音频;候选语音音频包括语音音频分量和环境噪声分量;
将录音音频与候选语音音频之间的差值,确定为录音音频中所包含的背景基准音频分量;
对候选语音音频进行环境噪声降噪处理,得到候选语音音频对应的降噪语音音频,将降噪语音音频与背景基准音频分量进行合并,得到降噪后的录音音频。
或者,处理器1001还可以实现:
获取语音样本音频、噪声样本音频以及标准样本音频,根据语音样本音频、噪声样本音频以及标准样本音频,生成样本录音音频;语音样本音频和噪声样本音频是通过录音采集得到的,标准样本音频是音频数据库中所存储的纯净音频;
根据第一初始网络模型获取样本录音音频中的样本预测语音音频;第一初始网络模型用于过滤样本录音音频所包含的标准样本音频,第一初始网络模型的期望预测语音音频由语音样本音频和噪声样本音频所确定;
根据第二初始网络模型获取样本预测语音音频对应的样本预测降噪音频;第二初始网络模型用于抑制样本预测语音音频所包含的噪声样本音频,第二初始网络模型的期望预测降噪音频由语音样本音频所确定;
基于样本预测语音音频和期望预测语音音频,对第一初始网络模型的网络参数进行调整,得到第一深度网络模型;第一深度网络模型用于对录音音频进行过滤后得到候选语音音频,录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量,候选语音音频包括语音音频分量和环境噪声分量;
基于样本预测降噪音频和期望预测降噪音频,对第二初始网络模型的网络参数进行调整,得到第二深度网络模型;第二深度网络模型用于对候选语音音频进行降噪处理后得到降噪语音音频。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3、图5以及图9任一个所对应实施例中对音频数据处理方法的描述,也可执行前文图11所对应实施例中对音频数据处理装置1的描述,或者图12所对应实施例中对音频数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的音频数据处理装置1和音频数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3、图5以及图9任一个所对应实施例中对音频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3、图5以及图9任一个所对应实施例中对音频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种音频数据处理方法,其特征在于,包括:
获取录音音频;所述录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量;
获取所述录音音频对应的待匹配音频指纹,根据所述待匹配音频指纹在音频数据库中获取与所述录音音频相匹配的原型音频;
根据所述原型音频从所述录音音频中获取候选语音音频;所述候选语音音频包括所述语音音频分量和所述环境噪声分量;
将所述录音音频与所述候选语音音频之间的差值,确定为所述录音音频中所包含的所述背景基准音频分量;
对所述候选语音音频进行环境噪声降噪处理,得到所述候选语音音频对应的降噪语音音频,将所述降噪语音音频与所述背景基准音频分量进行合并,得到降噪后的录音音频。
2.根据权利要求1所述的方法,其特征在于,所述获取所述录音音频对应的待匹配音频指纹,根据所述待匹配音频指纹在音频数据库中获取与所述录音音频相匹配的原型音频,包括:
将所述录音音频划分为M个录音数据帧,对所述M个录音数据帧中的第i个录音数据帧进行频域变换,得到所述第i个录音数据帧对应的功率谱数据;i和M均为正整数,且i小于或等于M;
将所述第i个录音数据帧对应的功率谱数据划分为N个频谱带,根据所述N个频谱带中的峰值信号,构建所述第i个录音数据帧对应的子指纹信息;N为正整数;
按照所述M个录音数据帧在所述录音音频中的时间顺序,对所述M个录音数据帧分别对应的子指纹信息进行组合,得到所述录音音频对应的待匹配音频指纹;
获取所述音频数据库对应的音频指纹库,根据所述待匹配音频指纹在所述音频指纹库中进行指纹检索,根据指纹检索结果在所述音频数据库中确定与所述录音音频相匹配的原型音频。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待匹配音频指纹在所述音频指纹库中进行指纹检索,根据指纹检索结果在所述音频数据库中确定与所述录音音频相匹配的原型音频,包括:
将所述待匹配音频指纹中所包含的M个子指纹信息映射为M个待匹配哈希值,获取所述M个待匹配哈希值分别对应的录音时间;一个待匹配哈希值所对应的录音时间用于表征该待匹配哈希值对应的子指纹信息在所述录音音频中出现的时间;
若所述M个待匹配哈希值中的第p个待匹配哈希值与所述音频指纹库所包含的第一哈希值相匹配,则获取所述第p个待匹配哈希值对应的录音时间与所述第一哈希值对应的时间信息之间的第一时间差;p为小于或等于M的正整数;
若所述M个待匹配哈希值中的第q个待匹配哈希值与所述音频指纹库所包含的第二哈希值相匹配,则获取所述第q个待匹配哈希值对应的录音时间与所述第二哈希值对应的时间信息之间的第二时间差;q为小于或等于M的正整数;
当所述第一时间差和所述第二时间差满足数值阈值,且所述第一哈希值和所述第二哈希值属于相同的音频指纹时,将所述第一哈希值所属的音频指纹确定为所述指纹检索结果,将所述指纹检索结果所对应的音频数据确定为所述录音音频对应的原型音频。
4.根据权利要求1所述的方法,其特征在于,所述根据所述原型音频从所述录音音频中获取候选语音音频,包括:
获取所述录音音频对应的录音功率谱数据,对所述录音功率谱数据进行归一化处理,得到第一频谱特征;
获取所述原型音频对应的原型功率谱数据,对所述原型功率谱数据进行归一化处理,得到第二频谱特征,将所述第一频谱特征和所述第二频谱特征组合为输入特征;
将所述输入特征输入至第一深度网络模型,通过所述第一深度网络模型输出针对所述录音音频的第一频点增益;
根据所述第一频点增益和所述录音功率谱数据,获取所述录音音频中所包含的候选语音音频。
5.根据权利要求4所述的方法,其特征在于,所述将所述输入特征输入至第一深度网络模型,通过所述第一深度网络模型输出第一频点增益,包括:
将所述输入特征输入至第一深度网络模型,根据所述第一深度网络模型中的特征提取网络层,获取所述输入特征对应的时序分布特征;
根据所述第一深度网络模型中的全连接网络层,获取所述时序分布特征对应的目标特征向量,通过所述第一深度网络模型中的激活层,输出所述第一频点增益。
6.根据权利要求4所述的方法,其特征在于,所述第一频点增益包括T个频点分别对应的语音增益,所述录音功率谱数据包括所述T个频点分别对应的能量值,T个语音增益与T个能量值一一对应;T为大于1的正整数;
所述根据所述第一频点增益和所述录音功率谱数据,获取所述录音音频中所包含的候选语音音频,包括:
根据所述第一频点增益中的所述T个频点分别对应的语音增益,对所述录音功率谱数据中属于相同频点的能量值进行加权,得到所述T个频点分别对应的加权能量值;
根据所述T个频点分别对应的加权能量值,确定所述录音音频对应的加权录音频域信号;
对所述加权录音频域信号进行时域变换,得到所述录音音频中所包含的所述候选语音音频。
7.根据权利要求1所述的方法,其特征在于,所述对所述候选语音音频进行环境噪声降噪处理,得到所述候选语音音频对应的降噪语音音频,包括:
获取所述候选语音音频对应的语音功率谱数据,将所述语音功率谱数据输入至第二深度网络模型,通过所述第二深度网络模型输出针对所述候选语音音频的第二频点增益;
根据所述第二频点增益与所述语音功率谱数据,获取所述候选语音音频对应的加权语音频域信号;
对所述加权语音频域信号进行时域变换,得到所述候选语音音频对应的所述降噪语音音频。
8.根据权利要求1所述的方法,其特征在于,还包括:
将所述降噪后的录音音频分享至社交平台,以使所述社交平台中的终端设备在访问所述社交平台时,播放所述降噪后的录音音频。
9.一种音频数据处理方法,其特征在于,包括:
获取语音样本音频、噪声样本音频以及标准样本音频,根据所述语音样本音频、所述噪声样本音频以及所述标准样本音频,生成样本录音音频;所述语音样本音频和所述噪声样本音频是通过录音采集得到的,所述标准样本音频是音频数据库中所存储的纯净音频;
根据第一初始网络模型获取所述样本录音音频中的样本预测语音音频;所述第一初始网络模型用于过滤所述样本录音音频所包含的标准样本音频,所述第一初始网络模型的期望预测语音音频由所述语音样本音频和所述噪声样本音频所确定;
根据第二初始网络模型获取所述样本预测语音音频对应的样本预测降噪音频;所述第二初始网络模型用于抑制所述样本预测语音音频所包含的噪声样本音频,所述第二初始网络模型的期望预测降噪音频由所述语音样本音频所确定;
基于所述样本预测语音音频和所述期望预测语音音频,对所述第一初始网络模型的网络参数进行调整,得到第一深度网络模型;所述第一深度网络模型用于对录音音频进行过滤后得到候选语音音频,所述录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量,所述候选语音音频包括所述语音音频分量和所述环境噪声分量;
基于所述样本预测降噪音频和所述期望预测降噪音频,对所述第二初始网络模型的网络参数进行调整,得到第二深度网络模型;所述第二深度网络模型用于对所述候选语音音频进行降噪处理后得到降噪语音音频。
10.根据权利要求9所述的方法,其特征在于,所述样本录音音频的数量为K个,K为正整数;
所述根据所述语音样本音频、所述噪声样本音频以及所述标准样本音频,生成样本录音音频,包括:
获取针对所述第一初始网络模型的加权系数集合,根据所述加权系数集合构建K个数组;每个数组包括所述语音样本音频、所述噪声样本音频以及所述标准样本音频分别对应的系数;
根据所述K个数组中的第j个数组所包含的系数,分别对所述语音样本音频、所述噪声样本音频以及所述标准样本音频进行加权,得到所述第j个数组对应的样本录音音频;j为小于或等于K的正整数。
11.一种音频数据处理装置,其特征在于,包括:
音频获取模块,用于获取录音音频;所述录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量;
指纹检索模块,用于获取所述录音音频对应的待匹配音频指纹,根据所述待匹配音频指纹在音频数据库中获取与所述录音音频相匹配的原型音频;
音频过滤模块,用于根据所述原型音频从所述录音音频中获取候选语音音频;所述候选语音音频包括所述语音音频分量和所述环境噪声分量;
音频确定模块,用于将所述录音音频与所述候选语音音频之间的差值,确定为所述录音音频中所包含的背景基准音频分量;
降噪处理模块,用于对所述候选语音音频进行环境噪声降噪处理,得到所述候选语音音频对应的降噪语音音频,将所述降噪语音音频与所述背景基准音频分量进行合并,得到降噪后的录音音频。
12.一种音频数据处理装置,其特征在于,包括:
样本获取模块,用于获取语音样本音频、噪声样本音频以及标准样本音频,根据所述语音样本音频、所述噪声样本音频以及所述标准样本音频,生成样本录音音频;所述语音样本音频和所述噪声样本音频是通过录音采集得到的,所述标准样本音频是音频数据库中所存储的纯净音频;
第一预测模块,用于根据第一初始网络模型获取所述样本录音音频中的样本预测语音音频;所述第一初始网络模型用于过滤所述样本录音音频所包含的标准样本音频,所述第一初始网络模型的期望预测语音音频由所述语音样本音频和所述噪声样本音频所确定;
第二预测模块,用于根据第二初始网络模型获取所述样本预测语音音频对应的样本预测降噪音频;所述第二初始网络模型用于抑制所述样本预测语音音频所包含的噪声样本音频,所述第二初始网络模型的期望预测降噪音频由所述语音样本音频所确定;
第一调整模块,用于基于所述样本预测语音音频和所述期望预测语音音频,对所述第一初始网络模型的网络参数进行调整,得到第一深度网络模型;所述第一深度网络模型用于对录音音频进行过滤后得到候选语音音频,所述录音音频包括背景基准音频分量、语音音频分量以及环境噪声分量,所述候选语音音频包括所述语音音频分量和所述环境噪声分量;
第二调整模块,用于基于所述样本预测降噪音频和所述期望预测降噪音频,对所述第二初始网络模型的网络参数进行调整,得到第二深度网络模型;所述第二深度网络模型用于对所述候选语音音频进行降噪处理后得到降噪语音音频。
13.一种计算机设备,其特征在于,包括存储器和处理器;
所述存储器与所述处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-10任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-10任一项所述的方法。
15.一种计算程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-10任一项所述的方法。
CN202111032206.9A 2021-09-03 2021-09-03 音频数据处理方法、装置、设备以及介质 Pending CN115762546A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202111032206.9A CN115762546A (zh) 2021-09-03 2021-09-03 音频数据处理方法、装置、设备以及介质
PCT/CN2022/113179 WO2023030017A1 (zh) 2021-09-03 2022-08-18 音频数据处理方法、装置、设备以及介质
EP22863157.8A EP4300493A1 (en) 2021-09-03 2022-08-18 Audio data processing method and apparatus, device and medium
US18/137,332 US20230260527A1 (en) 2021-09-03 2023-04-20 Audio data processing method and apparatus, device, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111032206.9A CN115762546A (zh) 2021-09-03 2021-09-03 音频数据处理方法、装置、设备以及介质

Publications (1)

Publication Number Publication Date
CN115762546A true CN115762546A (zh) 2023-03-07

Family

ID=85332470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111032206.9A Pending CN115762546A (zh) 2021-09-03 2021-09-03 音频数据处理方法、装置、设备以及介质

Country Status (4)

Country Link
US (1) US20230260527A1 (zh)
EP (1) EP4300493A1 (zh)
CN (1) CN115762546A (zh)
WO (1) WO2023030017A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994600B (zh) * 2023-09-28 2023-12-12 中影年年(北京)文化传媒有限公司 基于音频驱动角色口型的方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
US9947333B1 (en) * 2012-02-10 2018-04-17 Amazon Technologies, Inc. Voice interaction architecture with intelligent background noise cancellation
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN111046226B (zh) * 2018-10-15 2023-05-05 阿里巴巴集团控股有限公司 一种音乐的调音方法及装置
CN110675886B (zh) * 2019-10-09 2023-09-15 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110808063A (zh) * 2019-11-29 2020-02-18 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于处理语音的装置
CN111128214B (zh) * 2019-12-19 2022-12-06 网易(杭州)网络有限公司 音频降噪方法、装置、电子设备及介质
CN111524530A (zh) * 2020-04-23 2020-08-11 广州清音智能科技有限公司 一种基于膨胀因果卷积的语音降噪方法
CN113257283B (zh) * 2021-03-29 2023-09-26 北京字节跳动网络技术有限公司 音频信号的处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP4300493A1 (en) 2024-01-03
US20230260527A1 (en) 2023-08-17
WO2023030017A1 (zh) 2023-03-09

Similar Documents

Publication Publication Date Title
US20210089967A1 (en) Data training in multi-sensor setups
JP2019216408A (ja) 情報を出力するための方法、及び装置
CN111161752A (zh) 回声消除方法和装置
CN110970014A (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
CN113611324B (zh) 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN111477238B (zh) 一种回声消除方法、装置及电子设备
CN113763977A (zh) 消除回声信号的方法、装置、计算设备和存储介质
CN113205793A (zh) 音频生成方法、装置、存储介质及电子设备
US20230260527A1 (en) Audio data processing method and apparatus, device, and medium
CN116612778B (zh) 回声及噪声抑制方法、相关装置和介质
Liu et al. Anti-forensics of fake stereo audio using generative adversarial network
CN116312559A (zh) 跨信道声纹识别模型的训练方法、声纹识别方法及装置
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
WO2022204612A1 (en) Harmonics based target speech extraction network
CN114627889A (zh) 多声源声音信号处理方法及装置、存储介质和电子设备
CN116982111A (zh) 音频特征补偿方法、音频识别方法及相关产品
CN117153178B (zh) 音频信号处理方法、装置、电子设备和存储介质
CN117316160B (zh) 无声语音识别方法、装置、电子设备和计算机可读介质
US20230005479A1 (en) Method for processing an audio stream and corresponding system
CN112201262B (zh) 一种声音处理方法及装置
CN112951199B (zh) 音频数据生成方法及装置、数据集构建方法、介质、设备
Yan et al. Detection of various speech forgery operations based on recurrent neural network
CN111292766B (zh) 用于生成语音样本的方法、装置、电子设备和介质
EP4343761A1 (en) Enhanced audio file generator
CN116959479A (zh) 音频干声提取方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40082743

Country of ref document: HK