CN113035223A - 音频处理方法、装置、设备及存储介质 - Google Patents

音频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113035223A
CN113035223A CN202110269652.5A CN202110269652A CN113035223A CN 113035223 A CN113035223 A CN 113035223A CN 202110269652 A CN202110269652 A CN 202110269652A CN 113035223 A CN113035223 A CN 113035223A
Authority
CN
China
Prior art keywords
plosive
candidate point
point
candidate
fade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110269652.5A
Other languages
English (en)
Other versions
CN113035223B (zh
Inventor
刘琨
周新权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110269652.5A priority Critical patent/CN113035223B/zh
Publication of CN113035223A publication Critical patent/CN113035223A/zh
Application granted granted Critical
Publication of CN113035223B publication Critical patent/CN113035223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本公开实施例提供一种音频处理方法、装置、设备及存储介质,该方法包括:对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。本公开实施例提供的音频处理方法、装置、设备及存储介质,结合时域和频域的分析处理对爆破音进行层进高效检测,有效节约了计算量,提高了音频处理效率,能够快速、准确地检测出爆破音并进行平滑处理,有效提升用户的听感。

Description

音频处理方法、装置、设备及存储介质
技术领域
本公开实施例涉及音频处理技术领域,尤其涉及一种音频处理方法、装置、设备及存储介质。
背景技术
爆破音是指音频里面出现的刺耳卡顿等噪音,产生的原因主要包括音频数据点的截波、音频算法处理漏洞以及设备或者网络延迟等。
在一些技术中,可以使用频谱分析来检测音频中存在的爆破音,以提高音频播放效果。但是,频谱分析的计算成本较高,效率低下。
发明内容
本公开实施例提供一种音频处理方法、装置、设备及存储介质,以解决对音频数据的处理效率低下的技术问题。
第一方面,本公开实施例提供一种音频处理方法,包括:
对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;
对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;
若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
第二方面,本公开实施例提供一种音频处理装置,包括:
时域分析模块,用于对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;
频域分析模块,用于对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;
处理模块,用于在存在爆破音时,对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
第三方面,本公开实施例提供一种电子设备,包括:存储器和至少一个处理器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面所述的音频处理方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面所述的音频处理方法。
第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面所述的音频处理方法。
本公开实施例提供的音频处理方法、装置、设备及存储介质,通过对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点,对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音,若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据,能够结合时域和频域的分析处理对爆破音进行层进高效检测,先从时域上进行初步过滤,找出可能存在爆破音的位置,再进一步进行频域分析,检测是否存在爆破音,有效节约了计算量,提高了音频处理效率,从而快速、准确地检测出爆破音并进行平滑处理,有效提升用户的听感。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种应用场景示意图;
图2为本公开实施例提供的一种音频处理方法的流程示意图;
图3为本公开实施例提供的一种卡顿截断候选点和卡顿截出候选点的示意图;
图4为本公开实施例提供的一种选取关键音频帧的示意图;
图5为本公开实施例提供的一种施加淡出窗的效果示意图;
图6为本公开实施例提供的一种施加淡入窗的效果示意图;
图7为本公开实施例提供的一种同步淡入淡出时施加的淡入窗和淡出窗的示意图;
图8为本公开实施例提供的另一种音频处理方法的流程示意图;
图9为本公开实施例提供的一种音频处理装置的结构框图;
图10为本公开实施例提供的一种电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
图1为本公开实施例提供的一种应用场景示意图。如图1所示,用户设备1和用户设备2之间进行音频通话,用户设备1将音频数据发送到服务器,服务器再将音频数据发送给用户设备2,用户设备2可以对音频数据进行处理并播放给用户。在一些场景中,也可以减少图中的部分设备或增加其它设备,例如可以省略服务器或用户设备1。
由于设备和网络性能限制等原因,用户设备获取到的音频数据中常常会存在爆破音,影响用户听感。
在一些技术中,可以基于短时傅里叶变换(Short-Time Fourier Transform,STFT)与频谱分析,探测频谱上突然出现的竖线形状或突然出现的短促高频能量,从而实现爆破音检测。这种方法一方面进行频谱分析的计算成本较高,另一方面短时傅里叶变换时爆破音在分析窗的位置可能影响到探测结果的准确度。
有鉴于此,本公开实施例提供一种音频处理方法,可以先对音频数据进行时域分析处理,找出可能存在爆破音的候选点,并进一步基于候选点对音频帧进行频域分析处理,确定是否存在爆破音,在存在爆破音时,对爆破音进行平滑处理,得到处理后的音频数据并播放,能够结合时域和频域的分析处理对爆破音进行层进高效检测,先从时域上进行初步过滤,找出可能存在爆破音的位置,再进一步进行频域分析检测实际的爆破音,有效节约了计算量,提高了音频处理效率,能够快速、准确地检测出爆破音并进行平滑处理,有效提升用户的听感。
下面结合附图,对本公开的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图2为本公开实施例提供的一种音频处理方法的流程示意图。本实施例中的方法可以应用于播放音频的设备,例如图1中的用户设备。如图2所示,所述音频处理方法可以包括:
步骤201、对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点。
其中,本公开实施例中所述的爆破音,可以是指音频里面出现的刺耳卡顿等噪音,常常因为设备的稳定性、网络延迟、算法漏洞出现。所述音频数据可以是待播放的音频数据,可以是从其它设备获取的,也可以是本地生成的。所述音频数据中可以包括多个采样点,所述爆破音候选点可以是指可能存在爆破音的采样点。
对于待处理的音频数据,可以基于时域分析处理进行爆破音预检,利用爆破音在时域上不平滑的特性,对爆破音可能产生的位置进行初步过滤。
其中,时域分析处理可以是指,基于时域上的信号进行分析处理。由于获取到的音频信号大都是时域信号,因此,可以直接基于获取到的音频信号中各采样点在时域上的幅值变化确定爆破音候选点。
可选的,可以遍历音频数据中的每一采样点,对于遍历到的任一采样点,都可以通过预设的条件确定该采样点是否为爆破音候选点,所述预设的条件可以根据实际需要来设置。例如,实际应用中,爆破音往往幅值较大,因此,可以基于采样点的幅值大小确定其是否属于爆破音候选点。
步骤202、对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音。
在确定爆破音候选点后,可以对爆破音候选点所在的音频帧进行频域分析。可选的,所述音频帧可以是包含所述爆破音候选点的、具有一定的帧长的音频帧。
具体的,可以对所述爆破音候选点所在的音频帧进行时频转换,得到所述音频帧对应的频域信号,所述频域信号反映了所述音频帧在频域上的特性,根据频域上的特性可以确定是否存在爆破音。
步骤203、若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
可选的,若所述爆破音候选点不存在爆破音,则可以不对该候选点进行处理。若爆破音候选点存在爆破音,则说明该候选点为产生爆破音的点,可以对其进行平滑处理。
其中,可以基于爆破音候选点的前后采样点的幅值来进行平滑处理,使得音频幅值在该候选点附近能够实现前后平滑过渡。平滑处理后,可以输出相应的音频帧。
在实际应用中,在播放音频数据之前,可以首先对音频数据进行时域上的处理,找出其中可能存在爆破音的采样点,作为爆破音候选点,再对爆破音候选点所在的音频帧进行时频转换并做频域上的进一步分析。对于非爆破音候选点的其它采样点,可以不用进行时频转换并做频域上的进一步分析,以节省计算量。
本实施例提供的音频处理方法,通过对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点,对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音,若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据,能够结合时域和频域的分析处理对爆破音进行层进高效检测,先从时域上进行初步过滤,找出可能存在爆破音的位置,再进一步进行频域分析,检测是否存在爆破音,有效节约了计算量,提高了音频处理效率,从而快速、准确地检测出爆破音并进行平滑处理,有效提升用户的听感。
在上述实施例提供的技术方案的基础上,可选的是,对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点,可以包括:获取所述音频数据中的各采样点的幅值;根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点。
可选的,可以遍历音频数据的每一采样点,对于当前遍历到的第一采样点,基于第一采样点的幅值以及第一采样点相邻的其它采样点的幅值,确定所述第一采样点是否为爆破音候选点。
在实际应用中,爆破音的产生可能是由于卡顿引起的,尤其在卡顿截断和卡顿截出时,容易出现爆破音,其中卡顿截断是指声音突然从很大变为零,卡顿截出是指声音突然从零变为很大。
因此,所述爆破音候选点可以包括下述至少一项:卡顿截断候选点、卡顿截出候选点。其中,所述卡顿截断候选点可以是指从较大信号变为全零信号的点,卡顿截出候选点可以是指从全零信号变为较大信号的点。当然,除了卡顿截断候选点和卡顿截出候选点以外,还可以有其它类型的爆破音候选点,例如不平滑候选点等,本公开实施例对此不作限制。
图3为本公开实施例提供的一种卡顿截断候选点和卡顿截出候选点的示意图。如图3所示,采样点A具有较大的幅值,其后多个采样点的幅值均为零,因此,采样点A可以为卡顿截断候选点;采样点B前面的多个采样点的幅值均为零,且采样点B具有较大的幅值,因此,采样点B可以为卡顿截断候选点。另外,采样点C与前后采样点的幅值差距均较大,但是前后采样点的幅值不为零,因此采样点C可以作为不平滑候选点。
可选的,根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点,可以包括:若检测到任一采样点的幅值的绝对值大于相邻多个采样点的绝对幅值均值的第一预设倍数,则确定该采样点为爆破音候选点,其中,所述绝对幅值均值为所述相邻多个采样点的幅值的平均值的绝对值,所述相邻多个采样点为时域上与该采样点距离最近的多个采样点;和/或,若检测到任一采样点的幅值的绝对值大于第一预设阈值,且该采样点的后N个采样点的幅值均为零,则确定该采样点为卡顿截断候选点;和/或,若检测到任一采样点的幅值的绝对值大于第二预设阈值,且该采样点的前M个采样点的幅值均为零,则确定该采样点为卡顿截出候选点;其中,M和N均为大于1的整数。
其中,所述第一预设倍数、所述第一预设阈值、所述第二预设阈值可以根据实际需要来设置。所述第一预设阈值和所述第二预设阈值可以相等,也可以不相等。
基于上述内容,本公开实施例提供了至少三种检测方法用于检测爆破音候选点。
在一种可选的实现方案中,若检测到某个采样点超出前后采样点的绝对幅值均值的第一预设倍数,则认为该点为爆破音候选点。
具体的,对于当前遍历到的第一采样点来说,可以检测所述第一采样点的前K个采样点和后L个采样点的幅值,并计算这K+L个幅值的平均值,所述平均值可以是几何平均值或算数平均值,再将平均值取绝对值,得到绝对均值幅值,若所述第一采样点的幅值的绝对值大于所述绝对均值幅值的第一预设倍数,则确定所述第一采样点为爆破音候选点。其中,K和L可以为大于0的整数。
在另一种可选的实现方案中,若出现一段连续信号由较大幅值突然变为全零幅值,则可以作为卡顿截断候选点。
具体的,对于当前遍历到的第一采样点来说,若所述第一采样点的幅值的绝对值大于第一预设阈值,且所述第一采样点之后的N个采样点的幅值均为零,则确定所述第一采样点为爆破音候选点,并且对应的爆破音可能是卡顿截断时产生的爆破音,因此,该爆破音候选点的类型为卡顿截断候选点。
在又一种可选的实现方案中,若出现一段连续信号从全零幅值突然变为较大幅值的情况,则可以作为卡顿截出候选点。
具体的,对于当前遍历到的第一采样点来说,若所述第一采样点的幅值的绝对值大于第二预设阈值,且所述第一采样点之前的M个采样点的幅值均为零,则确定所述第一采样点为爆破音候选点,并且对应的爆破音可能是卡顿截出时产生的爆破音,因此,该爆破音候选点的类型为卡顿截出候选点。
通过上述三种实现方案,可以实现爆破音候选点的确定。上述三种方案也可以结合使用,例如,满足其中任意一条或多条,即可认为属于爆破音候选点。通过上述方案,还可以区分出候选点的类型,方便后续根据不同类型的爆破音候选点进行不同的处理,提高音频处理效果。
在上述实施例提供的技术方案的基础上,可选的是,对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音,可以包括:以所述爆破音候选点为中心选取关键音频帧;根据帧移确定所述关键音频帧的前一音频帧和后一音频帧;对所述关键音频帧、所述前一音频帧及所述后一音频帧分别加窗并进行短时傅里叶变换,得到每一帧对应的频域信息;根据所述频域信息确定所述爆破音候选点是否存在爆破音。
其中,通过短时傅里叶变换可以实现时域到频域的转换。在对关键音频帧进行时频转换分析时,可以以所述爆破音候选点作为中心来选取关键音频帧,并根据关键音频帧,以半帧为帧移,选取前一关键帧和后一关键帧。
图4为本公开实施例提供的一种选取关键音频帧的示意图。如图4所示,爆破音候选点作为关键音频帧的中心,关键音频帧向前移半帧,得到前一关键帧,关键音频帧向后移半帧,得到后一关键帧。
举例来说,假设一帧的长度为1秒,爆破音候选点出现在第10秒,则关键音频帧为第9.5秒至10.5秒的音频信号,前一音频帧为第9秒至第10秒的音频信号,后一音频帧为第10秒至第11秒的音频信号,相邻的两帧会有部分重叠。
对于所述关键音频帧、所述前一音频帧及所述后一音频帧中的每一帧,均可以进行加窗及短时傅里叶变换。其中,所加的窗可以是中间高、两边低的窗,从而实现对音频帧中有效信号的提取。
具体的,对于关键音频帧,可以对其加窗后进行短时傅里叶变换,得到对应的频域信息,频域信息可以反映关键音频帧在频域上的特性。类似的,对于前一音频帧和后一音频帧,也可以分别加窗后进行短时傅里叶变换,得到各自对应的频域信息。
通过比较关键音频帧和前后音频帧的频域信息,可以有效确定关键音频帧中是否包含爆破音,从而确定所述爆破音候选点是否真的存在爆破音。并且,以爆破音候选点为基准来选取关键音频帧、前一音频帧和后一音频帧进行频域分析,可以在采样点级别初步定位爆破音产生的位置后,将其置入短时傅里叶变换窗中心位置,从而利用时域上的检测结果精确控制频域检测窗位置,避免了因为短时傅里叶变换分析窗位置对分析结果产生的影响,提高爆破音检测的准确率。
可选的,根据所述频域信息确定所述爆破音候选点是否存在爆破音,可以包括:根据所述频域信息,计算所述关键音频帧、所述前一音频帧及所述后一音频帧中每一帧对应的高频能量;若所述关键音频帧的高频能量大于能量阈值,且大于所述前一音频帧与后一音频帧的平均高频能量的第二预设倍数,则确定所述爆破音候选点存在爆破音。
可选的,可以在对上述三个音频帧分别加窗并进行短时傅里叶变换分析后,取每一音频帧对应的高频能量作为分析依据。其中,高频能量可以是高频部分(如6.5kHz到8kHz)的能量之和。若发现关键音频帧的高频能量超出能量阈值,且大于前后关键帧在该频段能量的平均值的第二预设倍数,即关键音频帧相对于前后音频帧存在骤增骤降的高频能量,则认为时域上预检测出的爆破音候选点确实存在爆破音。其中,平均值可以是算术平均和/或几何平均。
通过上述方案,可以基于关键音频帧的高频能量进行前后比对分析,进一步提升爆破音检测的准确性。
在确定存在爆破音后,可以对检测出的爆破音进行抑制。具体可分为三种情况。可选的是,对所述爆破音候选点进行平滑处理,可以包括:若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理;和/或,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理;和/或,若所述爆破音候选点为卡顿截断候选点和卡顿截出候选点以外的其它候选点,则对所述爆破音候选点进行三次样条差值重建。
通过区分不同类型的爆破音候选点,并对不同类型的爆破音候选点进行不同的平滑处理,能够有效提升平滑处理的效果,提高音频播放质量,提升用户体验度。
在第一种情况中,如果在时域分析处理时检出的爆破音候选点属于由较大幅值突然变为全零幅值的采样点,则认为属于卡顿截断候选点,需要进行淡出处理。其中淡出处理是指将音量逐渐减小到零。
可选的,若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理,包括:若所述爆破音候选点为卡顿截断候选点,则根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的至少一个采样点的幅值,得到预测信号;将所述预测信号添加到所述卡顿截断候选点后,并对所述预测信号施加淡出窗,以完成淡出处理。
举例来说,假设第1至第20个采样点是正常的信号,第21至第30个采样点为全零信号,则说明出现截断,需要进行淡出处理。首先,可以根据前面的采样点(例如第1个至第20个采样点)的幅值,预测第21个采样点的幅值,然后根据前面的采样点的幅值及第21个采样点的预测幅值(根据第2个至第21个采样点的幅值),预测第22个采样点的幅值,以此类推,从而可以预测出后续多个采样点的幅值,预测的数量与淡出窗的长度相匹配即可。
其中,淡出窗的长度可以根据实际需要来设计,例如可以为5毫秒,淡出窗越长,平滑效果越好。
假设淡出窗的长度可以涵盖5个采样点,则可以预测第21个至第25个采样点的幅值,作为预测信号。再将预测信号添加到卡顿截断候选点后,即,将这5个预测得到的幅值补入卡顿截断候选点后的对应的采样点处。这样,第21个至第25个采样点的幅值由原来的零变为预测得到的幅值,再对第21至第25个采样点施加淡出窗即可。或者,也可以先为预测信号施加淡出窗,再补入到卡顿截断候选点后。
图5为本公开实施例提供的一种施加淡出窗的效果示意图。如图5所示,淡出窗能够实现将原始信号从1倍逐渐变为0倍的效果,将淡出窗施加到原始的预测信号上,能够得到具有淡出效果的信号,从而将卡顿截断候选点后的信号幅值逐渐减小为零,完成平滑淡出。
如果不考虑对卡顿截断候选点后的信号进行预测,则需要在探测到爆破音之前,提前开始加淡出窗,在线处理时就会产生窗长的延时。例如,第21个采样点处幅值开始降为0,那么,为了实现平滑淡出的效果,需要对第15个至第20个采样点施加淡出窗,因此需要提前缓存一部分音频数据,才能保证淡出的正常进行,导致处理延迟较大。
通过本公开实施例提供的预测加淡出的方式,一方面相较于直接在卡顿截断候选点前加淡出窗的方案,不必缓存过多的数据,能够有效减少延迟,另一方面可以使得原音频信号的信息损失降低,特别是对于短促的卡顿产生的爆破音,语音能量更加稳定。
可选的,根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的采样点的幅值,可以包括:根据所述卡顿截断候选点前的采样点的幅值进行线性预测编码(Linear Predictive Coding,LPC),得到线性预测编码系数;基于所述线性预测编码系数,预测所述卡顿截断候选点后预设时长内的采样点的幅值。
其中,线性预测编码是音频丢包补偿(Packet Loss Concealment,PLC)技术中的一种预测方法,能够实现音频的预测功能。
具体的,可以基于卡顿截断候选点之前的音频数据做线性预测编码,得到线性预测编码系数(Linear Predictive Coding Coefficient),该系数反映了在卡顿截断候选点前一时刻的语音音频特性。然后,基于该系数进行一段短时间的无激励线性信号预测,该预测可以看作从卡顿截断候选点开始逐渐“落下的话音”。同时,对预测出的信号加淡出窗,将其幅值平滑过渡到零。将预测与淡出后的信号补在卡顿截断候选点之后,作为对卡顿截断候选点的补偿平滑。
通过上述方案,可以在探测到卡顿后,利用线性预测编码技术对卡顿截出产生爆破音进行补偿及平滑,有效提高了预测的效率和准确率,提高语音综合可懂度,也避免额外延时。
在第二种情况中,如果在时域分析处理时检出的爆破音候选点属于由全零信号突然变为较大幅值的采样点,则认为属于卡顿截出候选点,需要进行淡入处理。其中淡入处理是指将音量逐渐从零增加到正常。
可选的,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理,可以包括:若所述爆破音候选点为卡顿截出候选点,则从所述卡顿截出候选点开始加淡入窗,以完成淡入处理;其中,所述淡入窗与所述淡出窗的能量互补。
由于淡入处理不需要提前预知与处理,因而对音频信号直接进行淡入处理不会产生额外延迟。可以使用与情况一中的淡出窗能量互补的淡入窗,从卡顿截出候选点开始进行淡入处理,即可平滑抑制卡顿截出产生的爆破音。
举例来说,假设第26个至第30个采样点的幅值均为零,从第31个采样点开始幅值变成较大值,则从第31个采样点开始加淡入窗,完成平滑的淡入。
图6为本公开实施例提供的一种施加淡入窗的效果示意图。如图6所示,淡出窗能够实现将原始信号从0倍逐渐增加到1倍的效果,将淡出窗施加到音频信号上,能够得到具有淡入效果的信号,从而将卡顿截出候选点后的信号幅值从零逐渐增加为正常,完成平滑淡入。
其中,淡入窗和淡出窗的能量互补是指,对于一段音频信号,将对其施加淡入窗后得到的信号与对其施加淡出窗后得到的信号相加,最终得到的信号与原始的音频信号完全一致。例如,淡入窗和淡出窗的长度都为5毫秒,淡出窗在第i毫秒的能量与淡入窗在第i毫秒的能量相加等于1。通过施加互补的淡入窗和淡出窗,能够实现音频的对称淡入淡出,不会产生忽大忽小的听感,提高音频播放效果。
需要说明的是,为了体现淡入窗及淡出窗的施加效果,图中以整齐的音频信号作为示例,音频信号在各采样点的幅值是相等的,但在实际应用中,各采样点的幅值可以是不同的。此外,淡出窗和淡入窗的形状也不必拘泥于图中形状,只要能够实现从1到0或从0到1即可。
在第三种情况中,如果通过频域分析处理检出的爆破音属于其他情况,即爆破音候选点前后不平滑但未产生截断或截出,则可以基于爆破音候选点前后的信号,对其进行三次样条插值重建,将爆破音候选点与前后采样点修正为平滑,即可抑制爆破音候选点产生的爆破音。
可选的,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理,可以包括:若所述卡顿截出候选点位于施加在卡顿截断候选点后的淡出窗内,则根据所述卡顿截出候选点在所述淡出窗内的位置,确定需要施加的淡入窗的起始能量;根据所述起始能量,从所述卡顿截出候选点施加淡入窗。
图7为本公开实施例提供的一种同步淡入淡出时施加的淡入窗和淡出窗的示意图。如图7所示,采样点A为卡顿截断候选点,采样点B为卡顿截出候选点,预测采样点A后的信号,并为预测的信号施加淡出窗。采样点B位于淡出窗内,即,淡出还没结束,就需要开始淡入,则可以同步进行淡入和淡出。
具体的,可以对预测得到的采样点A后的音频信号加淡出窗,对采样点B后实际检测到的信号加淡入窗,并且两者叠加,得到最终输出的信号。且淡入窗的起始能量可以不为0,而是由淡出窗在采样点B处的能量确定。可选的,淡出窗在采样点B处的能量与淡入窗在采样点A处的能量相加为1。
举例来说,淡出窗的时长为5毫秒,在采样点A后施加淡出窗,假设采样点B距离采样点A有2毫秒,则采样点B处淡出窗还没结束,此时,需要为采样点B后的实际信号施加淡入窗,淡入窗的起始能量根据淡出窗的当前能量来确定。例如,淡出窗在采样点B处的能量为0.7(即,淡出窗能够实现将采样点B的预测信号缩小至0.7倍的效果),则淡入窗在采样点B处的能量可以为0.3(即,淡入窗能够实现将采样点B的实际检测信号缩小至0.3倍)。这样,淡入窗的能量为0.3至1,0至0.3的部分被舍。并且,在采样点后,淡出窗和淡入窗在同一采样点的能量也是互补的(相加为1),直至淡出窗结束。
基于上述方案,如果截出产生于截断后的淡出过程中,则可以直接基于当前淡出进行位置开始淡入,由于淡入淡出窗能量互补对称,处理后的音频总体能量会比较一致,且节约淡入的时间,有效提高淡入的效率。
图8为本公开实施例提供的另一种音频处理方法的流程示意图。基于上述各实施例提供的方案,图8提供了一种基于卡顿截断点和卡顿截出点的具体的音频处理流程。如图8所示,在开始流程后,可以首先输入音频帧,对所述音频帧进行时域爆破音预检,确定是否存在爆破音候选点,若不存在,则说明未检测到爆破音,则直接输出所述音频帧。若存在爆破音候选点,则进行频域爆破音检测,确定是否存在高频能量剧烈变化,若不存在,则说明未检测到爆破音,则输出音频帧。若存在高频能量剧烈变化,则说明检测到爆破音,需要进行抑制。
在进行爆破音抑制时,可以计算LPC系数,并对卡顿截断点后的信号进行LPC预测及平滑淡出,对卡顿截出点后的信号进行平滑淡入,并输出音频帧,结束流程。
对应于以上实施例提供的音频处理方法,本公开实施例还提供一种音频处理装置。图9为本公开实施例提供的一种音频处理装置的结构框图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图9,所述装置可以包括:
时域分析模块901,用于对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;
频域分析模块902,用于对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;
处理模块903,用于在存在爆破音时,对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
可选的,时域分析模块901具体用于:
获取所述音频数据中的各采样点的幅值;
根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点。
可选的,所述爆破音候选点包括卡顿截断候选点和/或卡顿截出候选点;
所述时域分析模块901在根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点时,具体用于:
若检测到任一采样点的幅值的绝对值大于相邻多个采样点的绝对幅值均值的第一预设倍数,则确定该采样点为爆破音候选点,其中,所述绝对幅值均值为所述相邻多个采样点的幅值的平均值的绝对值,所述相邻多个采样点为时域上与该采样点距离最近的多个采样点;和/或,
若检测到任一采样点的幅值的绝对值大于第一预设阈值,且该采样点的后N个采样点的幅值均为零,则确定该采样点为卡顿截断候选点;和/或,
若检测到任一采样点的幅值的绝对值大于第二预设阈值,且该采样点的前M个采样点的幅值均为零,则确定该采样点为卡顿截出候选点;
其中,M和N均为大于1的整数。
可选的,所述频域分析模块902具体用于:
以所述爆破音候选点为中心选取关键音频帧;
根据帧移确定所述关键音频帧的前一音频帧和后一音频帧;
对所述关键音频帧、所述前一音频帧及所述后一音频帧分别加窗并进行短时傅里叶变换,得到每一帧对应的频域信息;
根据所述频域信息确定所述爆破音候选点是否存在爆破音。
可选的,所述频域分析模块902在根据所述频域信息确定所述爆破音候选点是否存在爆破音时,具体用于:
根据所述频域信息,计算所述关键音频帧、所述前一音频帧及所述后一音频帧中每一帧对应的高频能量;
若所述关键音频帧的高频能量大于能量阈值,且大于所述前一音频帧与后一音频帧的平均高频能量的第二预设倍数,则确定所述爆破音候选点存在爆破音。
可选的,所述处理模块903在对所述爆破音候选点进行平滑处理时,具体用于:
若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理;和/或,
若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理;和/或,
若所述爆破音候选点为卡顿截断候选点和卡顿截出候选点以外的其它候选点,则对所述爆破音候选点进行三次样条差值重建。
可选的,所述处理模块903在对所述爆破音候选点进行淡出处理时,具体用于:
根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的至少一个采样点的幅值,得到预测信号;
将所述预测信号添加到所述卡顿截断候选点后,并对所述预测信号施加淡出窗,以完成淡出处理。
可选的,所述处理模块903在根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的采样点的幅值时,具体用于:
根据所述卡顿截断候选点前的采样点的幅值进行线性预测编码,得到线性预测编码系数;
基于所述线性预测编码系数,预测所述卡顿截断候选点后预设时长内的采样点的幅值。
可选的,所述处理模块903在对所述爆破音候选点进行淡入处理时,具体用于:
从所述卡顿截出候选点开始加淡入窗,以完成淡入处理;
其中,所述淡入窗与所述淡出窗的能量互补。
可选的,所述处理模块903在对所述爆破音候选点进行淡入处理时,具体用于:
若所述卡顿截出候选点位于施加在卡顿截断候选点后的淡出窗内,则根据所述卡顿截出候选点在所述淡出窗内的位置,确定需要施加的淡入窗的起始能量;
根据所述起始能量,从所述卡顿截出候选点施加淡入窗。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图10为本公开实施例提供的一种电子设备的结构框图。参考图10,电子设备1000可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable AndroID Device,简称PAD)、便携式多媒体播放器(Portable Media Player,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(ReadOnly Memory,简称ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(Random Access Memory,简称RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
通常,以下装置可以连接至I/O接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006;包括例如液晶显示器(LiquID CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置1008;以及通信装置1009。通信装置1009可以允许电子设备1000与其它设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1009从网络上被下载和安装,或者从存储装置1008被安装,或者从ROM1002被安装。在该计算机程序被处理装置1001执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(WIDe Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
第一方面,根据本公开的一个或多个实施例,提供了一种音频处理方法,包括:对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
根据本公开的一个或多个实施例,对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点,包括:获取所述音频数据中的各采样点的幅值;根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点。
根据本公开的一个或多个实施例,所述爆破音候选点包括卡顿截断候选点和/或卡顿截出候选点;根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点,包括:若检测到任一采样点的幅值的绝对值大于相邻多个采样点的绝对幅值均值的第一预设倍数,则确定该采样点为爆破音候选点,其中,所述绝对幅值均值为所述相邻多个采样点的幅值的平均值的绝对值,所述相邻多个采样点为时域上与该采样点距离最近的多个采样点;和/或,若检测到任一采样点的幅值的绝对值大于第一预设阈值,且该采样点的后N个采样点的幅值均为零,则确定该采样点为卡顿截断候选点;和/或,若检测到任一采样点的幅值的绝对值大于第二预设阈值,且该采样点的前M个采样点的幅值均为零,则确定该采样点为卡顿截出候选点;其中,M和N均为大于1的整数。
根据本公开的一个或多个实施例,对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音,包括:以所述爆破音候选点为中心选取关键音频帧;根据帧移确定所述关键音频帧的前一音频帧和后一音频帧;对所述关键音频帧、所述前一音频帧及所述后一音频帧分别加窗并进行短时傅里叶变换,得到每一帧对应的频域信息;根据所述频域信息确定所述爆破音候选点是否存在爆破音。
根据本公开的一个或多个实施例,根据所述频域信息确定所述爆破音候选点是否存在爆破音,包括:根据所述频域信息,计算所述关键音频帧、所述前一音频帧及所述后一音频帧中每一帧对应的高频能量;若所述关键音频帧的高频能量大于能量阈值,且大于所述前一音频帧与后一音频帧的平均高频能量的第二预设倍数,则确定所述爆破音候选点存在爆破音。
根据本公开的一个或多个实施例,对所述爆破音候选点进行平滑处理,包括:若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理;和/或,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理;和/或,若所述爆破音候选点为卡顿截断候选点和卡顿截出候选点以外的其它候选点,则对所述爆破音候选点进行三次样条差值重建。
根据本公开的一个或多个实施例,若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理,包括:若所述爆破音候选点为卡顿截断候选点,则根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的至少一个采样点的幅值,得到预测信号;将所述预测信号添加到所述卡顿截断候选点后,并对所述预测信号施加淡出窗,以完成淡出处理。
根据本公开的一个或多个实施例,根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的采样点的幅值,包括:根据所述卡顿截断候选点前的采样点的幅值进行线性预测编码,得到线性预测编码系数;基于所述线性预测编码系数,预测所述卡顿截断候选点后预设时长内的采样点的幅值。
根据本公开的一个或多个实施例,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理,包括:若所述爆破音候选点为卡顿截出候选点,则从所述卡顿截出候选点开始加淡入窗,以完成淡入处理;其中,所述淡入窗与所述淡出窗的能量互补。
根据本公开的一个或多个实施例,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理,包括:若所述卡顿截出候选点位于施加在卡顿截断候选点后的淡出窗内,则根据所述卡顿截出候选点在所述淡出窗内的位置,确定需要施加的淡入窗的起始能量;根据所述起始能量,从所述卡顿截出候选点施加淡入窗。
第二方面,根据本公开的一个或多个实施例,提供了一种音频处理装置,包括:时域分析模块,用于对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;频域分析模块,用于对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;处理模块,用于在存在爆破音时,对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
根据本公开的一个或多个实施例,所述时域分析模块具体用于:获取所述音频数据中的各采样点的幅值;根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点。
根据本公开的一个或多个实施例,所述爆破音候选点包括卡顿截断候选点和/或卡顿截出候选点;所述时域分析模块在根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点时,具体用于:若检测到任一采样点的幅值的绝对值大于相邻多个采样点的绝对幅值均值的第一预设倍数,则确定该采样点为爆破音候选点,其中,所述绝对幅值均值为所述相邻多个采样点的幅值的平均值的绝对值,所述相邻多个采样点为时域上与该采样点距离最近的多个采样点;和/或,若检测到任一采样点的幅值的绝对值大于第一预设阈值,且该采样点的后N个采样点的幅值均为零,则确定该采样点为卡顿截断候选点;和/或,若检测到任一采样点的幅值的绝对值大于第二预设阈值,且该采样点的前M个采样点的幅值均为零,则确定该采样点为卡顿截出候选点;其中,M和N均为大于1的整数。
根据本公开的一个或多个实施例,所述频域分析模块具体用于:以所述爆破音候选点为中心选取关键音频帧;根据帧移确定所述关键音频帧的前一音频帧和后一音频帧;对所述关键音频帧、所述前一音频帧及所述后一音频帧分别加窗并进行短时傅里叶变换,得到每一帧对应的频域信息;根据所述频域信息确定所述爆破音候选点是否存在爆破音。
根据本公开的一个或多个实施例,所述频域分析模块在根据所述频域信息确定所述爆破音候选点是否存在爆破音时,具体用于:根据所述频域信息,计算所述关键音频帧、所述前一音频帧及所述后一音频帧中每一帧对应的高频能量;若所述关键音频帧的高频能量大于能量阈值,且大于所述前一音频帧与后一音频帧的平均高频能量的第二预设倍数,则确定所述爆破音候选点存在爆破音。
根据本公开的一个或多个实施例,所述处理模块在对所述爆破音候选点进行平滑处理时,具体用于:若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理;和/或,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理;和/或,若所述爆破音候选点为卡顿截断候选点和卡顿截出候选点以外的其它候选点,则对所述爆破音候选点进行三次样条差值重建。
根据本公开的一个或多个实施例,所述处理模块在对所述爆破音候选点进行淡出处理时,具体用于:根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的至少一个采样点的幅值,得到预测信号;将所述预测信号添加到所述卡顿截断候选点后,并对所述预测信号施加淡出窗,以完成淡出处理。
根据本公开的一个或多个实施例,所述处理模块在根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的采样点的幅值时,具体用于:根据所述卡顿截断候选点前的采样点的幅值进行线性预测编码,得到线性预测编码系数;基于所述线性预测编码系数,预测所述卡顿截断候选点后预设时长内的采样点的幅值。
根据本公开的一个或多个实施例,所述处理模块在对所述爆破音候选点进行淡入处理时,具体用于:从所述卡顿截出候选点开始加淡入窗,以完成淡入处理;其中,所述淡入窗与所述淡出窗的能量互补。
根据本公开的一个或多个实施例,所述处理模块在对所述爆破音候选点进行淡入处理时,具体用于:若所述卡顿截出候选点位于施加在卡顿截断候选点后的淡出窗内,则根据所述卡顿截出候选点在所述淡出窗内的位置,确定需要施加的淡入窗的起始能量;根据所述起始能量,从所述卡顿截出候选点施加淡入窗。
第三方面,根据本公开的一个或多个实施例,提供了一种电子设备,包括:存储器和至少一个处理器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的音频处理方法。
第四方面,根据本公开的一个或多个实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的音频处理方法。
第五方面,根据本公开的一个或多个实施例,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (14)

1.一种音频处理方法,其特征在于,包括:
对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;
对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;
若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
2.根据权利要求1所述的方法,其特征在于,对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点,包括:
获取所述音频数据中的各采样点的幅值;
根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点。
3.根据权利要求2所述的方法,其特征在于,所述爆破音候选点包括卡顿截断候选点和/或卡顿截出候选点;
根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点,包括:
若检测到任一采样点的幅值的绝对值大于相邻多个采样点的绝对幅值均值的第一预设倍数,则确定该采样点为爆破音候选点,其中,所述绝对幅值均值为所述相邻多个采样点的幅值的平均值的绝对值,所述相邻多个采样点为时域上与该采样点距离最近的多个采样点;和/或,
若检测到任一采样点的幅值的绝对值大于第一预设阈值,且该采样点的后N个采样点的幅值均为零,则确定该采样点为卡顿截断候选点;和/或,
若检测到任一采样点的幅值的绝对值大于第二预设阈值,且该采样点的前M个采样点的幅值均为零,则确定该采样点为卡顿截出候选点;
其中,M和N均为大于1的整数。
4.根据权利要求1-3任一项所述的方法,其特征在于,对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音,包括:
以所述爆破音候选点为中心选取关键音频帧;
根据帧移确定所述关键音频帧的前一音频帧和后一音频帧;
对所述关键音频帧、所述前一音频帧及所述后一音频帧分别加窗并进行短时傅里叶变换,得到每一帧对应的频域信息;
根据所述频域信息确定所述爆破音候选点是否存在爆破音。
5.根据权利要求4所述的方法,其特征在于,根据所述频域信息确定所述爆破音候选点是否存在爆破音,包括:
根据所述频域信息,计算所述关键音频帧、所述前一音频帧及所述后一音频帧中每一帧对应的高频能量;
若所述关键音频帧的高频能量大于能量阈值,且大于所述前一音频帧与后一音频帧的平均高频能量的第二预设倍数,则确定所述爆破音候选点存在爆破音。
6.根据权利要求3所述的方法,其特征在于,对所述爆破音候选点进行平滑处理,包括:
若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理;和/或,
若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理;和/或,
若所述爆破音候选点为卡顿截断候选点和卡顿截出候选点以外的其它候选点,则对所述爆破音候选点进行三次样条差值重建。
7.根据权利要求6所述的方法,其特征在于,若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理,包括:
若所述爆破音候选点为卡顿截断候选点,则根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的至少一个采样点的幅值,得到预测信号;
将所述预测信号添加到所述卡顿截断候选点后,并对所述预测信号施加淡出窗,以完成淡出处理。
8.根据权利要求7所述的方法,其特征在于,根据所述卡顿截断候选点前的采样点的幅值,预测所述卡顿截断候选点后的采样点的幅值,包括:
根据所述卡顿截断候选点前的采样点的幅值进行线性预测编码,得到线性预测编码系数;
基于所述线性预测编码系数,预测所述卡顿截断候选点后预设时长内的采样点的幅值。
9.根据权利要求7所述的方法,其特征在于,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理,包括:
若所述爆破音候选点为卡顿截出候选点,则从所述卡顿截出候选点开始加淡入窗,以完成淡入处理;
其中,所述淡入窗与所述淡出窗的能量互补。
10.根据权利要求7所述的方法,其特征在于,若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理,包括:
若所述卡顿截出候选点位于施加在卡顿截断候选点后的淡出窗内,则根据所述卡顿截出候选点在所述淡出窗内的位置,确定需要施加的淡入窗的起始能量;
根据所述起始能量,从所述卡顿截出候选点施加淡入窗。
11.一种音频处理装置,其特征在于,包括:
时域分析模块,用于对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;
频域分析模块,用于对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;
处理模块,用于在存在爆破音时,对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
12.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-10任一项所述的音频处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-10任一项所述的音频处理方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
CN202110269652.5A 2021-03-12 2021-03-12 音频处理方法、装置、设备及存储介质 Active CN113035223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269652.5A CN113035223B (zh) 2021-03-12 2021-03-12 音频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269652.5A CN113035223B (zh) 2021-03-12 2021-03-12 音频处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113035223A true CN113035223A (zh) 2021-06-25
CN113035223B CN113035223B (zh) 2023-11-14

Family

ID=76470087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269652.5A Active CN113035223B (zh) 2021-03-12 2021-03-12 音频处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113035223B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092507A (zh) * 2023-03-22 2023-05-09 广州感音科技有限公司 一种音频混音方法、设备及介质
CN116684521A (zh) * 2022-10-14 2023-09-01 荣耀终端有限公司 音频处理方法、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US20080065381A1 (en) * 2006-09-13 2008-03-13 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
CN105118520A (zh) * 2015-07-13 2015-12-02 腾讯科技(深圳)有限公司 一种音频开头爆音的消除方法及装置
CN106170113A (zh) * 2016-09-29 2016-11-30 北京奇艺世纪科技有限公司 一种消除噪声的方法和装置以及电子设备
CN106782613A (zh) * 2016-12-22 2017-05-31 广州酷狗计算机科技有限公司 信号检测方法及装置
CN106847307A (zh) * 2016-12-21 2017-06-13 广州酷狗计算机科技有限公司 信号检测方法及装置
CN110265064A (zh) * 2019-06-12 2019-09-20 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
CN110838299A (zh) * 2019-11-13 2020-02-25 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US20080065381A1 (en) * 2006-09-13 2008-03-13 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
CN105118520A (zh) * 2015-07-13 2015-12-02 腾讯科技(深圳)有限公司 一种音频开头爆音的消除方法及装置
CN106170113A (zh) * 2016-09-29 2016-11-30 北京奇艺世纪科技有限公司 一种消除噪声的方法和装置以及电子设备
CN106847307A (zh) * 2016-12-21 2017-06-13 广州酷狗计算机科技有限公司 信号检测方法及装置
CN106782613A (zh) * 2016-12-22 2017-05-31 广州酷狗计算机科技有限公司 信号检测方法及装置
CN110265064A (zh) * 2019-06-12 2019-09-20 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
CN110838299A (zh) * 2019-11-13 2020-02-25 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684521A (zh) * 2022-10-14 2023-09-01 荣耀终端有限公司 音频处理方法、设备及存储介质
CN116684521B (zh) * 2022-10-14 2024-04-12 荣耀终端有限公司 音频处理方法、设备及存储介质
CN116092507A (zh) * 2023-03-22 2023-05-09 广州感音科技有限公司 一种音频混音方法、设备及介质

Also Published As

Publication number Publication date
CN113035223B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
EP2546831B1 (en) Noise suppression device
US8571231B2 (en) Suppressing noise in an audio signal
US20070232257A1 (en) Noise suppressor
US9467790B2 (en) Reverberation estimator
EP0897574A1 (en) A noisy speech parameter enhancement method and apparatus
US20140177853A1 (en) Sound processing device, sound processing method, and program
CN113035223B (zh) 音频处理方法、装置、设备及存储介质
Tsilfidis et al. Automatic speech recognition performance in different room acoustic environments with and without dereverberation preprocessing
CN111739544B (zh) 语音处理方法、装置、电子设备及存储介质
KR20180125963A (ko) 시간적으로 불일치된 신호들에 대한 오디오 프로세싱
JP2008076636A (ja) オーディオ信号補間方法及びオーディオ信号補間装置
JP2004513381A (ja) 音声符号化パラメータを決定する方法及び装置
US20230267947A1 (en) Noise reduction using machine learning
CN104978966B (zh) 音频流中的丢帧补偿实现方法和装置
JPS62274941A (ja) 音声符号化方式
EP2943954B1 (en) Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
JP2006243644A (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP2008309955A (ja) ノイズサプレス装置
US9697848B2 (en) Noise suppression device and method of noise suppression
CN110085214B (zh) 音频起始点检测方法和装置
US8788277B2 (en) Apparatus and methods for processing a signal using a fixed-point operation
US20230343344A1 (en) Frame loss concealment for a low-frequency effects channel
US20230360662A1 (en) Method and device for processing a binaural recording
CN110349592B (zh) 用于输出信息的方法和装置
US8615075B2 (en) Method and apparatus for removing noise signal from input signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant