CN113362837A - 一种音频信号处理方法、设备及存储介质 - Google Patents

一种音频信号处理方法、设备及存储介质 Download PDF

Info

Publication number
CN113362837A
CN113362837A CN202110860801.5A CN202110860801A CN113362837A CN 113362837 A CN113362837 A CN 113362837A CN 202110860801 A CN202110860801 A CN 202110860801A CN 113362837 A CN113362837 A CN 113362837A
Authority
CN
China
Prior art keywords
frequency
signal segment
segment frame
signal
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110860801.5A
Other languages
English (en)
Inventor
张超鹏
翁志强
姜涛
胡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202110860801.5A priority Critical patent/CN113362837A/zh
Publication of CN113362837A publication Critical patent/CN113362837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本申请公开了一种音频信号处理方法、设备以及存储介质。方法包括:获取到目标音频信号,提取目标音频信号的目标基频序列及频谱包络;根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数;根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息;基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息;根据提取出的各个泛音片段的重构频谱信息,构造目标音频信号所对应的泛音激励信号;采用泛音增强参数将泛音激励信号叠加至目标音频信号中,得到目标音频信号对应的泛音增强信号。通过本申请可增强泛音,从而美化音色。

Description

一种音频信号处理方法、设备及存储介质
技术领域
本申请涉及多媒体技术领域,尤其涉及一种音频信号处理方法、设备及存储介质。
背景技术
目前,音频信号可以包括泛音(Harmonics),其中,泛音可以是发音体部分振动产生的音,可以决定音色(Timbre)。音色可以指的是声音的特有品质,为了美化音频信号对应的音色,用户可以对音频信号中的泛音进行增强处理,得到泛音增强后的音频信号。基于此,如何对音频信号进行泛音增强处理成为一个研究热点。
发明内容
本申请公开了一种音频信号处理方法、装置、设备及存储介质,可实现泛音增强的效果,从而美化音频信号对应的音色。
第一方面,本申请实施例提供了一种音频信号处理方法,该方法包括:
获取到目标音频信号,提取目标音频信号的目标基频序列及频谱包络;
根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数;
根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息;任一信号片段帧的重构频谱信息用于指示任一信号片段帧中各频点的重构后的幅频特性;
基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息;
根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号;
采用泛音增强参数将泛音激励信号叠加至目标音频信号中,得到目标音频信号对应的泛音增强信号。
第二方面,本申请实施例提供了一种音频信号处理装置,该装置包括:
处理单元,用于获取到目标音频信号,提取目标音频信号的目标基频序列及频谱包络;
分帧单元,用于根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数;
上述处理单元,还用于根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息;任一信号片段帧的重构频谱信息用于指示任一信号片段帧中各频点的重构后的幅频特性;
上述处理单元,还用于基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息;
上述处理单元,还用于根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号;
上述处理单元,还用于采用泛音增强参数将泛音激励信号叠加至目标音频信号中,得到目标音频信号对应的泛音增强信号。
第三方面,本申请实施例提供了一种音频信号处理设备,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如第一方面描述的音频信号处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面描述的音频信号处理方法。
本申请实施例中,可以获取到目标音频信号,提取目标音频信号的目标基频序列及频谱包络;根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数;根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息,任一信号片段帧的重构频谱信息用于指示任一信号片段帧中各频点的重构后的幅频特性;基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息;根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号;采用泛音增强参数将泛音激励信号叠加至目标音频信号中,得到目标音频信号对应的泛音增强信号。本申请基于各个泛音频段的重构频谱信息来构造泛音激励信号,可以在不遗漏泛音频段中能量较小的频率值且不影响除泛音频段以外的频率值的条件下,实现对上述泛音频段的泛音增强处理,从而实现对目标音频信号的泛音增强处理,并实现对目标音频信号对应音色的美化效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种音频信号处理方法的流程示意图;
图2为本申请实施例提供的另一种音频信号处理方法的流程示意图;
图3为本申请实施例提供的一种带通窗函数的示意图;
图4为本申请实施例提供的另一种音频信号处理方法的流程示意图;
图5为本申请实施例提供的一种音频信号处理方法的框架示意图;
图6为本申请实施例提供的一种频谱的示意图;
图7为本申请实施例提供的一种音频信号处理装置的单元示意图;
图8为本申请实施例提供的一种音频信号处理设备的实体结构简化示意图。
具体实施方式
本申请实施例提出了一种音频信号处理方法,通过该音频信号处理方法可以实现对目标音频信号进行泛音增强处理,得到目标音频信号对应的泛音增强信号,在具体实现中,该音频信号方法可由一个音频信号处理设备执行;具体的,该音频信号处理设备可以是服务器或者终端设备,也可以是服务器或终端设备中的音频信号处理工具(如插件等),对此不作限定。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下面结合图1所示的流程示意图,对本申请实施例所提出的音频信号处理方法进行阐述:
S110、获取到目标音频信号,提取目标音频信号的目标基频序列及频谱包络。
在具体实现中,音频信号处理设备可以获取目标音频文件,并从该目标音频文件中获取到目标音频信号。具体的,音频信号处理设备可以通过收音设备例如麦克风采集的人声音频,或者根据用户指令从云端下载目标音频文件,也可以从用户提供的移动存储器中获取目标音频文件,该移动存储器可以是移动硬盘或者USB闪存盘(USB flash disk)等;音频信号处理设备也可以从该音频信号处理设备的存储空间中获取目标音频文件,例如当目标音频文件存在于音频信号处理设备的只读存储器(Read Only Memory,ROM)时,音频信号处理设备可以从该只读存储器中获取目标音频文件。
在获取到目标音频信号后,音频信号处理设备可以从目标音频信号中提取目标基频序列;所谓的目标基频序列可以包含目标音频信号中的多个时间位置的各个基频值,所谓的基频可以指的是自由震荡系统的最低振荡频率,相邻两个时间位置之间的间隔时长为预设时长,该预设时长可以是音频信号处理设备预先设置的,也可以是用户按照意愿设置的,本申请实施例对此不作限定。
可选的,音频信号处理设备可以通过开源工具(如pyin、harvest、crepe等基频估计工具),从目标音频信号中获取目标基频序列。具体的,音频信号处理设备可以采用预设时长为5毫秒(ms)的基频估计工具,提取目标音频信号的目标基频序列,其中,目标基频序列中相邻两个时间位置之间的间隔时长为5ms。将目标基频序列中第n个时间位置表示为tana(n),n∈[1,E],E表示目标基频序列所包括的时间位置的总数量;那么tana(n)-tana(n-1)=5ms,也就是说,音频信号处理设备可以每间隔5ms获取目标音频信号的一个时间位置的基频值,从而得到目标音频信号的目标基频序列,其中,目标基频序列中第n个时间位置的基频值可以表示为f0s(n)。
在获取到目标音频信号后,音频信号处理设备还可以从目标音频信号中提取频谱包络,所谓的频谱包络可以指的是将不同频率的振幅最高点连结起来形成的曲线。可选的,音频信号处理设备可以通过线性预测编码(linear predictive coding,LPC)、倒谱分析或者频谱平滑优化等方式从目标音频信号中获取频谱包络。
S120、根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数。
在提取出目标基频序列后,音频信号处理设备可根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧。具体的实施方式可以包括以下步骤s121-s124:
s121、采用预设采样率对目标基频序列进行插值处理,得到插值后的基频序列。
其中,插值后的基频序列中包括Q个采样点以及每个采样点的基频值,Q为大于1的整数。例如,预设采样率可设置为fs,也就是说,采样点之间的间隔时长可以为1/fs秒(s)。音频信号处理设备可以通过目标基频序列构造插值操作,并采用该插值操作计算各个采样点的基频值,从而得到插值后的基频序列,其中,该插值后的基频序列可以如式1.1所示:
f0s(i)=interp(f0s(n)) 式1.1
其中,interp(·)可以表示插值操作,f0s(n)可以表示目标基频序列中第n个时间位置的基频值,f0s(i)可以表示第i个采样点的基频值,i∈[1,Q]。
s122、根据每个采样点的基频值,计算每个采样点的辐角主值。
其中,辐角主值可以指的是复数所对应的向量与x轴正方向的夹角,且该夹角位于区间(-π,π]。音频信号处理设备可以采用每个采样点的基频值计算插值后的基频序列对应的相位(phase)序列,所谓的相位可以描述信号波形变化的度量,其中,该相位序列可以如式1.2所示:
Figure BDA0003184957770000051
其中,f0l可以表示第l个采样点的基频值,也就是说,f0l=f0s(l);Ts=1/fs可以表示各个采样点之间的间隔时长。Φ(i)旋转一周可以对应一个周期时长,也就是说,一个周期时长可以是2π弧度,那么音频信号处理设备以相位周期为单位构成帧移序列,该帧移序列可以包括各个帧移位置。帧移可以是指相邻两个信号片段帧之间的重叠部分;帧移序列又可称为合成帧移序列;帧移位置又可称为合成帧移位置,具体是指相邻两个信号片段之间的帧移的起始位置。为了获取周期特性,音频信号处理设备可以对相位序列取辐角主值如式1.3所示:
Figure BDA0003184957770000061
其中,Φarg(i)可以表示第i个采样点的辐角主值,由于i∈[1,Q],那么音频信号处理设备可以得到每个采样点的辐角主值。
s123、根据每个采样点的辐角主值,从Q个采样点中选取M个帧移位置。
其中,一个帧移位置为一个采样点。步骤s13的具体实施方式可以是:根据第q个采样点的辐角主值和第q-1个采样点的辐角主值,计算第q个采样点的主值变化度,q∈[2,Q];若第q个采样点的主值变化度大于变化度阈值,则将第q个采样点作为一个帧移位置。
在具体实现中,音频信号处理设备可以计算第q个采样点的主值变化度如式1.4所示:
dΦ(q)=Φarg(q)-Φarg(q-1) 式1.4
其中,dΦ(q)可以表示第q个采样点的主值变化度,q∈[2,Q]。具体的,变化度阈值可以是π,那么音频信号处理设备可以将dΦ(q)>π时的采样点作为帧移位置,从而在Q个采样点中选取出M个帧移位置。
s124、将目标音频信号按照M个帧移位置进行分帧处理,得到M个信号片段帧,一个信号片段帧的起始位置为一个帧移位置。
具体的,音频信号处理设备可以分别将各个帧移位置作为各个信号片段帧的起始位置,并按照各个信号片段帧的起始位置与片段时长,将目标音频信号划分成M个信号片段帧。举例来说,第m个信号片段帧的起始位置可以是第m个帧移位置,其中,m∈[1,M]。可选的,当M个信号片段帧中任一信号片段帧仅包含一个帧移位置时,该任一信号片段帧的起始位置可以为该帧移位置;当M个信号片段帧中任一信号片段帧中包含多个帧移位置时,该任一信号片段帧的起始位置可以为该多个帧移位置中的第一个帧移位置。
S130、根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息。
在具体实现中,音频信号处理设备可以在获取到目标音频信号的频谱包络后,根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息,其中,任一信号片段帧的重构频谱信息用于指示该任一信号片段帧中各频点的重构后的幅频特性,所谓的频点可以指的是给固定频率的编号。具体的实施方式可以包括以下步骤s131-s134:
s131、根据频谱包络,获取第m个信号片段帧的功率谱序列,m∈[1,M]。
在具体实现中,音频信号处理设备可获取M个信号片段帧中任一信号片段帧的功率谱序列P(k),并可将第m个信号片段帧的功率谱序列表示为P(k,m),由于m∈[1,M],那么音频信号处理设备可以根据目标音频信号的频谱包络,获取M个信号片段帧中每个信号片段帧的功率谱序列。
s132、基于功率谱序列计算第m个信号片段帧的倒谱序列。
在具体实现中,根据线性因果稳定信号中自然对数幅度谱与相位谱满足希尔伯特变换(Hilbert transform)性质,音频信号处理设备可以利用该性质基于幅度谱得到信号的频响(Frequency Response)特性,其中,频响特性可以是指系统在正弦信号激励下稳态响应随信号频率的变化情况,线性因果稳定信号可以指的是该信号具有线性、因果性以及稳定性的特征,所谓的线性可以指的是输入与输出满足叠加原理;所谓的因果性可以指的是只有在输入信号激励下才能产生输出响应的性质;所谓的稳定性可以指的是若输入有界,则输出有界的性质。那么音频信号处理设备可以对第m个信号片段帧的功率谱序列取对数,得到第m个信号片段帧的对数幅度谱。根据任一信号片段帧的功率谱序列为P(k),该任一信号片段帧的对数幅度谱如式1.5所示:
Figure BDA0003184957770000071
根据上述公式,音频信号处理设备可以得到到第m个信号片段帧的对数幅度谱LA(k,m)。
音频信号处理设备可以采用第m个信号片段帧的对数幅度谱,计算第m个信号片段帧的倒谱序列,该倒谱序列用于指示第m个信号片段帧中满足频点条件的频点的时域分布情况,所谓的满足频点条件的频点可以指的是出现较多的频点。具体的,音频信号处理设备可以采用傅里叶反变换对第m个信号片段帧的对数幅度谱进行处理,得到第m个信号片段帧的倒谱序列。M个信号片段帧中的任一信号片段帧的倒谱序列可以如式1.6所示:
C(n)=IFT(LA(k)) 式1.6
其中,IFT(·)可以表示傅里叶反变换。
s133、采用倒谱序列对第m个信号片段帧进行重构,得到重构后的信号片段帧。
在具体实现中,根据最小相位系统的倒谱序列仍为因果稳定序列,所谓的最小相位系统可以指的是开环传递函数极点和零点的实部均小于或者等于0的闭环系统,那么音频信号处理设备可以采用第m个信号片段帧的倒谱序列对第m个信号片段帧进行重构,得到重构后的信号片段帧如式1.7所示:
Figure BDA0003184957770000081
其中,N可以是第m个信号片段帧的片段时长,所谓的片段时长可以指的是第m个信号片段帧对应的傅里叶变换点数。
s134、获取重构后的信号片段帧的频谱信息,作为第m个信号片段帧的重构频谱信息。
在具体的实现中,音频信号处理设备可以采用傅里叶变换对第m个信号片段帧的重构后的信号片段帧进行处理。任一信号片段帧的重构后的信号片段帧的傅里叶变换结果可以如式1.8所示:
Figure BDA0003184957770000082
其中,FT(·)可以表示傅里叶变换,那么音频信号处理设备可以得到上述任一信号片段帧的重构频谱信息如式1.9所示:
Figure BDA0003184957770000083
根据上述公式,音频信号处理设备可以得到第m个信号片段帧的重构频谱信息
Figure BDA0003184957770000084
由于m∈[1,M],那么音频信号处理设备可以得到M个信号片段帧中每个信号片段帧的重构频谱信息。
S140、基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息。
其中,泛音的频点分布特性可以指的是泛音一般出现在中高频段,也就是说,音频信号处理设备可以基于泛音一般出现在中高频段的特征从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息。具体的,音频信号处理设备根据泛音的频点分布特性,可以对每个信号片段帧的重构频谱信息进行带通滤波处理,得到每个信号片段帧中的泛音频段的重构频谱信息。
S150、根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号。
其中,泛音激励信号可以是时域周期谐波输出序列,所谓的谐波可以是指对周期性非正弦交流量进行傅里叶级数分解所得到的大于基频整数倍的各次分量。具体的,音频信号处理设备可以根据每个信号片段帧的泛音频段的重构频谱信息,获取每个信号片段帧的泛音频段的时域周期信息,并将各个时域周期信号合成为目标音频信号所对应的泛音激励信号。可选的,音频信号处理设备可以基于重叠叠加(Overlap-and-Add,OLA)算法、同步波形叠加(Synchronized Overlap-Add,SOLA)算法或者波形相似叠加(waveformsimilarity overlap-and-add,WSOLA)算法等来合成各个信号片段帧的时域周期信号,从而得到目标音频信号所对应的泛音激励信号。
可选的,音频信号处理设备可以根据提取出的每个泛音频段的重构频谱信息,获取每个信号片段帧的频域周期信号,并采用基音同步波形叠加(Pitch-Synchronized OLA,PSOLA)算法来合成各个信号片段帧的频域周期信号;对各个信号片段帧的频域周期信号的合成结果进行频域到时域的转换,从而得到目标音频信号所对应的泛音激励信号。
S160、采用泛音增强参数将泛音激励信号叠加至目标音频信号中,得到目标音频信号对应的泛音增强信号。
在具体的实现中,音频信号处理设备可以将泛音激励信号中的幅度与对应的目标音频信号中的幅度相加,得到目标音频信号对应的泛音增强信号。假设音频信号处理设备得到的泛音激励信号可以表示为y(i),那么音频信号处理设备可以得到泛音增强信号如式1.10所示:
z(i)=x(i)+α·y(i) 式1.10
其中,α可以表示泛音(谐波)增强的程度,具体的,α可以取1。
通过上述方法,可以从每个信号片段帧的重构频谱信息中获取每个信号片段帧的泛音频段的重构频谱信息,得到目标音频信号所对应的泛音激励信号,从而基于泛音激励信号实现对目标音频信号的泛音频段的泛音增强处理,实现对目标音频信号对应音色的美化效果。通过泛音程度上的渲染,音频信号处理设备可以美化用户的声音,增加用户粘性。
下面结合图2所示的流程示意图,对本申请实施例所提出的音频信号处理方法进行阐述:
S210、确定根据泛音的频点分布特性所设置的有效频点范围。
泛音的频点分布特性可以是指需要增强的泛音部分一般出现在中频频段和高频频段,那么音频信号处理设备可以根据需要增强的泛音部分一般出现在中频频段和高频频段的特性,确定有效频点范围,所谓的有效频点范围可以包括预设的下限频率值与上限频率值之间的频率值。可选的,有效频点范围可以是音频信号处理设备预先设置的,也可以是用户按照意愿设置的,本申请实施例对此不作限定。
在具体的实现中,音频信号处理设备可以将有效频点范围设置为4000赫兹(Hz)至17000Hz,那么音频信号处理设备可以确定所设置的有效频点范围为4000Hz至17000Hz。假设上述有效频点范围的下限频率值可以表示为fL,上限频率值可以表示为fU,那么fL=4000Hz,fU=17000Hz。
S220、基于有效频点范围以及第m个信号片段帧的片段时长,构造与第m个信号片段帧适配的带通窗函数。
其中,m∈[1,M],具体的实施方式可以包括以下步骤s221-s223:
s221、基于有效频点范围以及第m个信号片段帧的片段时长,计算与第m个信号片段帧适配的频点滤波范围。
在具体的实现中,音频信号处理设备可以根据有效频点范围的下限fL、上限fU以及第m个信号片段帧的片段时长N,计算与第m个信号片段帧适配的频点滤波范围[kL,kU],其中
Figure BDA0003184957770000101
fS可以是采样率,[·]可以表示四舍五入取整操作。举例来说,假设fS=44100Hz,N=1024,根据上述有效频点范围的取值,音频信号处理设备可以计算出与第m个信号片段帧适配的频点滤波范围[kL,kU]中的kL为93,kU为395,那么与第m个信号片段帧适配的频点滤波范围可以是[93,395]。
s222、根据计算得到的频点滤波范围,构造与第m个信号片段帧适配的矩形窗函数。
在具体的实现中,音频信号处理设备可以根据频点滤波范围[kL,kU],构造与任一信号片段帧适配的矩形窗函数如式2.1所示:
Figure BDA0003184957770000111
根据上述公式,音频信号处理设备可以构造与第m个信号片段帧适配的矩形窗函数,并将与第m个信号片段帧适配的矩形窗函数表示为Wr(k,m),m∈[1,M]。
s223、对矩形窗函数进行样条平滑处理,得到与第m个信号片段帧适配的带通窗函数。
在具体实现中,音频信号处理设备可以对公式2.1所表示的与任一信号片段帧适配的矩形窗函数进行样条平滑处理,得到与该任一信号片段帧适配的带通窗函数可以如式2.2所示:
Figure BDA0003184957770000112
其中,音频信号处理设备可以将H设置为50,b(h)的表达式可以如式2.3所示:
Figure BDA0003184957770000113
根据公式2.2所示的与任一信号片段帧适配的带通窗函数,音频信号处理设备可以得到与第m个信号片段帧适配的带通窗函数,并将与第m个信号片段帧适配的带通窗函数表示为W(k,m),m∈[1,M]。
S230、采用构造的带通窗函数对第m个信号片段帧的重构频谱信息进行滤波处理,以提取出第m个信号片段帧中的泛音频段的重构频谱信息。
在具体的实现中,音频信号处理设备可以采用与任一信号片段帧适配的带通窗函数从该任一信号片段帧的重构频谱信息中,提取出该任一信号片段帧中的泛音频段的重构频谱信息。根据公式2.2所表示的与任一信号片段帧适配的带通窗函数W(k),公式1.9所表示的该任一信号片段帧的重构频谱信息
Figure BDA0003184957770000121
音频信号处理设备可以得到该任一信号片段帧的泛音频段的重构频谱信息如式2.4所示:
Figure BDA0003184957770000122
其中,V(k)可以反映频谱包络特性。根据上述公式,音频信号处理设备可以得到第m个信号片段帧的泛音频段的重构频谱信息,并将第m个信号片段帧的泛音频段的重构频谱信息表示为V(k,m),由于m∈[1,M],那么音频信号处理设备可以得到M个信号片段帧中每个信号片段帧的泛音频段的重构频谱信息。
举例来说,图3为本申请实施例提供的一种带通窗函数的示意图,如图3所示,带通窗函数分别与横轴相交与频点310和频点320,频点310的横坐标可以表示音频信号处理设备在提取泛音频段的重构频谱信息时的下限频率值,频点320的横坐标可以表示音频信号处理设备在提取泛音频段的重构频谱信息时的上限频率值,那么音频信号处理设备可以将每个信号片段帧的重构频谱信息中小于下限频率值的各个频率值对应的幅度设置为0,并将每个信号片段帧的重构频谱信息中大于上限频率值的各个频率值对应的幅度设置为0,也就是说,音频信号处理设备可以提取每个信号片段帧在频点310与频点320所指示的频率范围内的重构频谱信息,从而得到每个信号片段帧的泛音频段的重构频谱信息。
通过上述方法,音频信号处理设备可以基于有效频点范围以及第m个信号片段帧的片段时长,构造与第m个信号片段帧适配的带通窗函数,并采用与第m个信号片段帧适配的带通窗函数从第m个信号片段帧的重构频谱信息中,提取出第m个信号片段帧中的泛音频段的重构频谱信息,m∈[1,M],也就是说,音频信号处理设备可以分别获取与每个信号片段帧适配的带通窗函数,并提取出每个信号片段帧中泛音频段的重构频谱信息,从而减小对目标音频信号的基频以及较低频段的影响。
下面结合图4所示的流程示意图,对本申请实施例所提出的音频信号处理方法进行阐述:
S410、获取每个信号片段帧的周期激励。
音频信号处理设备可以根据目标基频序列,获取每个信号片段帧的周期激励。具体的实施方式可以是:每个信号片段帧的起始位置为帧移位置;对第m个信号片段帧进行频谱分析,得到第m个信号片段帧中的各个频点,m∈[1,M];获取第m个信号片段帧中的帧移位置的偏移量,并采用获取到的偏移量以及第m个信号片段帧中的各个频点的频率值,计算第m个信号片段帧中的各个频点的相位;基于计算得到的各个频点的相位,获取第m个信号片段帧中的各个频点的功率谱;采用第m个信号片段帧中的各个频点的功率谱,组成第m个信号片段帧的周期激励。
在具体的实现中,音频信号处理设备可以对第m个信号片段帧进行频谱分析,得到第m个信号片段帧中第k个频点的频率值fk,并获取第m个帧移位置的偏移量Δt(m),当第m个帧移位置的辐角主值为2π时,第m个帧移位置的相位正好回到0弧度,那么第m个帧移位置上不存在时间偏移;当第m个帧移位置的辐角主值不为2π时,第m个帧移位置上存在偏移量,其中,第m个帧移位置的偏移量可以如式3.1所示:
Figure BDA0003184957770000131
那么音频信号处理设备可以采用获取到的偏移量以及第m个信号片段帧中的各个频点的频率值,计算第m个信号片段帧中各个频点的相位如式3.2所示:
φsyn(m)=2πfk·Δt(m) 式3.2
在具体实现中,音频信号处理设备可以采用各个频点的相位构造激励源频谱,假设激励源幅度均为1,也就是说,激励源为全通频带,那么激励源频谱的频谱特性可以仅由相位谱来决定,那么可以构造第m个信号片段帧中各个频点的功率谱如式3.3所示:
Figure BDA0003184957770000132
其中,k=0,1,…,(N/2-1),N可以是第m个信号片段帧的片段时长,也就是说,N可以是第m个信号片段帧对应的傅里叶变换点数。S(k,m)可以表示第m个信号片段帧中第k个频点的功率谱,那么音频信号处理设备可以将第m个信号片段帧中各个频点的功率谱组成第m个信号片段帧的周期激励,m∈[1,M],那么音频信号处理设备可以得到每个信号片段帧的周期激励,并将任一信号片段帧的周期激励表示为S(k)。
S420、根据每个信号片段帧的周期激励,以及从每个信号片段帧中提取出的泛音频段的重构频谱信息,计算每个泛音频段的频域周期信号。
在具体的实现中,根据任一信号片段帧的周期激励S(k),以及从该任一信号片段帧中提取出的泛音频段的重构频谱信息V(k),音频信号处理设备可以计算该任一信号片段帧的频域周期信号如式3.4所示:
Y(k)=S(k)·V(k) 式3.4
根据上述公式,音频信号处理设备可以计算每个信号片段帧的泛音频段的频域周期信息。可以理解的是,每个信号片段帧的泛音频段的频域周期信号可以是激励源通过包络信息描述的通道后的输出,也就是说,每个信号片段帧的泛音频段的频域周期信号可以是音频信号处理设备通过每个信号片段帧的泛音频段的重构频谱信息对每个信号片段帧的周期激励进行处理的结果。
S430、将每个泛音频段的频域周期信号从频域转换到时域,得到每个泛音频段的时域周期信号。
在具体的实现中,音频信号处理设备可以采用傅里叶反变换对每个信号片段帧的泛音频段的频域周期信号进行处理,从而将每个信号片段帧的泛音频段的频域周期信号从频域转换到时域,得到每个信号片段帧的泛音频段的时域周期信号。
S440、合成各个泛音频段的时域周期信号,得到目标音频信号所对应的泛音激励信号。
在具体的实现中,音频信号处理设备在执行步骤S440之前,可以先计算每个帧移位置的帧时间,第m个帧移位置的帧时间如式3.5所示:
tsyn(m)=arg{dΦ(m)>π} 式3.5
其中,第m个帧移位置的dΦ(m)>π,也就是说,第m个帧移位置的主值变化度大于π。
在获取到每个帧移位置的帧时间后,可通过步骤S440合成各个泛音频段的时域周期信号,得到目标音频信号所对应的泛音激励信号。具体的,音频信号处理设备可以基于各个帧移位置的帧时间,通过OLA算法、SOLA算法或者WSOLA算法等对各个泛音频段的时域周期信号进行合成,得到目标音频信号所对应的泛音激励信号,也就是说,在通过OLA算法、SOLA算法或者WSOLA算法等合成各个泛音频段的时域周期信号的过程中,音频信号处理设备可以根据各个帧移位置的帧时间,调整各个泛音频段的时域周期信号在重叠部分的幅度变化程度,从而得到泛音激励信号。
通过上述方法,在合成各个信号片段帧的泛音频段的时域周期信号的过程中,音频信号处理设备可以通过各个帧移位置的帧时间,对各个信号片段帧的泛音频段的时域周期信号之间的重叠部分进行平滑处理,也就是说,对各个信号片段帧的泛音频段的时域周期信号之间的重叠部分的幅度进行调整,从而避免获取到的目标音频信号所对应的泛音激励信号出现突然的跳变。
下面结合图5所示的框架示意图,对本申请实施例所提出的音频信号处理方法进行阐述:
在具体的实现中,音频信号处理设备可以获取待处理的目标音频信号的目标基频序列和频谱包络,并按照预设采样率对目标音频信号的目标基频序列进行插值处理,得到插值后的基频序列,该插值后的基频序列可以包括进Q个采样点以及每个采样点的基频值,Q为大于1的整数。根据插值后的基频序列,音频信号处理设备可以获取M个帧移位置,并按照M个帧移位置对目标音频信号进行分帧处理,得到M个信号片段帧,M可以是正整数。
音频信号处理设备可以根据各个帧移位置获取各个帧移位置的帧时间,并可以根据每个帧移位置和每个信号片段帧中各个频点的频率值计算每个信号片段帧的周期激励。另一方面,音频信号处理设备还可以根据目标音频信号的频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息。接下来,音频信号处理设备可以分别获取与每个信号片段帧适配的带通窗函数,那么音频信号处理设备可以分别采用与每个信号片段帧适配的带通窗函数从每个信号片段帧的重构频谱信息中提取出泛音频段的重构频谱信息。
根据每个信号片段帧的周期激励和每个信号片段帧中的泛音频段的重构频谱信息,音频信号处理设备可以得到每个信号片段帧的频域周期信号,那么音频信号处理设备可以将每个信号片段帧的频域周期信号从频域转换到时域,并根据每个信号片段帧的频域周期信号转换到时域的结果和各个帧移位置的帧时间,获取目标音频信号所对应的泛音激励信号。接下来,音频信号处理设备可以采用泛音增强参数将泛音激励信号叠加到目标音频信号中,从而得到泛音增强信号。
举例来说,图6为本申请实施例提供的一种频谱的示意图,如图6所示,音频信号处理设备可以对目标音频信号610进行泛音增强处理,得到泛音增强信号620。如图6所示,目标音频信号610对应的频谱可以是目标音频信号频谱630,泛音增强信号620对应的频谱可以是泛音增强信号频谱640,其中,泛音增强信号频谱640中频谱范围641所指示的泛音强度高于目标音频信号频谱630中频谱范围631所指示的泛音强度。
请参见图7,图7为本申请实施例提供的一种音频信号处理装置的单元示意图,图7所示的音频信号处理装置可以应用于音频信号处理设备,并可以用于执行上述图1、图2以及图4所描述的方法实施例中的部分或全部功能。该装置的逻辑结构可包括:分帧单元710以及处理单元720。其中:
处理单元710,用于获取到目标音频信号,提取目标音频信号的目标基频序列及频谱包络;
分帧单元720,用于根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数;
上述处理单元710,还用于根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息;任一信号片段帧的重构频谱信息用于指示该任一信号片段帧中各频点的重构后的幅频特性;
上述处理单元710,还用于基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息;
上述处理单元710,还用于根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号;
上述处理单元710,还用于采用泛音增强参数将泛音激励信号叠加至目标音频信号中,得到目标音频信号对应的泛音增强信号。
在一种可能的实现方式中,上述处理单元710在根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息时,用于:根据频谱包络,获取第m个信号片段帧的功率谱序列,m∈[1,M];基于功率谱序列计算第m个信号片段帧的倒谱序列,上述倒谱序列用于指示第m个信号片段帧中满足频点条件的频点的时域分布情况;采用上述倒谱序列对第m个信号片段帧进行重构,得到重构后的信号片段帧;获取重构后的信号片段帧的频谱信息,作为第m个信号片段帧的重构频谱信息。
在一种可能的实现方式中,上述处理单元710在基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息时,用于:确定根据泛音的频点分布特性所设置的有效频点范围;基于有效频点范围以及第m个信号片段帧的片段时长,构造与第m个信号片段帧适配的带通窗函数,m∈[1,M];采用构造的带通窗函数对第m个信号片段帧的重构频谱信息进行滤波处理,以提取出第m个信号片段帧中的泛音频段的重构频谱信息。
在一种可能的实现方式中,上述处理单元710在基于有效频点范围以及第m个信号片段帧的片段时长,构造与第m个信号片段帧适配的带通窗函数时,用于:基于有效频点范围以及第m个信号片段帧的片段时长,计算与第m个信号片段帧适配的频点滤波范围;根据计算得到的频点滤波范围,构造与第m个信号片段帧适配的矩形窗函数;对矩形窗函数进行样条平滑处理,得到与第m个信号片段帧适配的带通窗函数。
在一种可能的实现方式中,上述处理单元710在根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号时,用于:获取每个信号片段帧的周期激励;根据每个信号片段帧的周期激励,以及从每个信号片段帧中提取出的泛音频段的重构频谱信息,计算每个泛音频段的频域周期信号;将每个泛音频段的频域周期信号从频域转换到时域,得到每个泛音频段的时域周期信号;合成各个泛音频段的时域周期信号,得到目标音频信号所对应的泛音激励信号。
在一种可能的实现方式中,每个信号片段帧的起始位置为帧移位置;上述处理单元710在获取每个信号片段帧的周期激励时,用于:对第m个信号片段帧进行频谱分析,得到第m个信号片段帧中的各个频点,m∈[1,M];获取第m个信号片段帧中的帧移位置的偏移量,并采用获取到的偏移量以及第m个信号片段帧中的各个频点的频率值,计算第m个信号片段帧中的各个频点的相位;基于计算得到的各个频点的相位,获取第m个信号片段帧中的各个频点的功率谱;采用第m个信号片段帧中的各个频点的功率谱,组成第m个信号片段帧的周期激励。
在一种可能的实现方式中,上述处理单元710在根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧时,用于:采用预设采样率对目标基频序列进行插值处理,得到插值后的基频序列,插值后的基频序列中包括Q个采样点以及每个采样点的基频值,Q为大于1的整数;根据每个采样点的基频值,计算每个采样点的辐角主值,并根据每个采样点的辐角主值,从Q个采样点中选取M个帧移位置,一个帧移位置为一个采样点;将目标音频信号按照M个帧移位置进行分帧处理,得到M个信号片段帧,一个信号片段帧的起始位置为一个帧移位置。
在一种可能的实现方式中,上述处理单元710在根据每个采样点的辐角主值,从Q个采样点中选取M个帧移位置时,用于:根据第q个采样点的辐角主值和第q-1个采样点的辐角主值,计算第q个采样点的主值变化度;q∈[2,Q];若第q个采样点的主值变化度大于变化度阈值,则将第q个采样点作为一个帧移位置。
可以理解的是,本申请实施例的音频信号处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
请参见图8,图8为本申请实施例提供的一种音频信号处理设备的实体结构简化示意图,该音频信号处理设备800包括处理器810、存储器820、输入接口830以及输出接口840,该处理器810、存储器820、输入接口830以及输出接口840通过一条或多条通信总线连接。
处理器810被配置为支持图1、图2以及图4中的方法实施例中音频信号处理设备相应的功能。该处理器810可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。
存储器820用于存储程序代码等。存储器820可以包括易失性存储器(volatilememory),例如随机存取存储器(random access memory,RAM);存储器820也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器820还可以包括上述种类的存储器的组合。
输入接口830用于接收数据、信息或消息等,也可以描述为接收器、接收电路等。输入接口830可以包括标准的有线接口或无线接口等,受处理器810的控制可以用于接收数据;例如,输入接口830可以用于获取目标音频信号等。
输出接口840用于发送数据、信息或消息等,受处理器810的控制可以用于发送信息;例如,当音频信号处理设备为后台服务器时,输出接口840可以用于将目标音频信号对应的泛音增强信号发送至客户端。
在本申请实施例中,该处理器810可以调用存储器820中存储的程序代码以执行以下操作:
获取到目标音频信号,提取目标音频信号的目标基频序列及频谱包络;
根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数;
根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息;任一信号片段帧的重构频谱信息用于指示该任一信号片段帧中各频点的重构后的幅频特性;
基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息;
根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号;
采用泛音增强参数将泛音激励信号叠加至目标音频信号中,得到目标音频信号对应的泛音增强信号。
在一种可能的实现方式中,该处理器810在根据频谱包络对每个信号片段帧的频谱信息进行重构,得到每个信号片段帧的重构频谱信息时,具体可以执行以下操作:
根据频谱包络,获取第m个信号片段帧的功率谱序列,m∈[1,M];基于上述功率谱序列计算第m个信号片段帧的倒谱序列,上述倒谱序列用于指示第m个信号片段帧中满足频点条件的频点的时域分布情况;采用上述倒谱序列对第m个信号片段帧进行重构,得到重构后的信号片段帧;获取重构后的信号片段帧的频谱信息,作为第m个信号片段帧的重构频谱信息。
在一种可能的实现方式中,该处理器810在基于泛音的频点分布特性从每个信号片段帧的重构频谱信息中,提取出每个信号片段帧中的泛音频段的重构频谱信息时,具体可以执行以下操作:
确定根据泛音的频点分布特性所设置的有效频点范围;基于有效频点范围以及第m个信号片段帧的片段时长,构造与第m个信号片段帧适配的带通窗函数,m∈[1,M];采用构造的带通窗函数对第m个信号片段帧的重构频谱信息进行滤波处理,以提取出第m个信号片段帧中的泛音频段的重构频谱信息。
在一种可能的实现方式中,该处理器810在基于有效频点范围以及第m个信号片段帧的片段时长,构造与第m个信号片段帧适配的带通窗函数时,具体可以执行以下操作:
基于有效频点范围以及第m个信号片段帧的片段时长,计算与第m个信号片段帧适配的频点滤波范围;根据计算得到的频点滤波范围,构造与第m个信号片段帧适配的矩形窗函数;对矩形窗函数进行样条平滑处理,得到与第m个信号片段帧适配的带通窗函数。
在一种可能的实现方式中,该处理器810在根据提取出的各个泛音频段的重构频谱信息,构造目标音频信号所对应的泛音激励信号时,具体可以执行以下操作:
获取每个信号片段帧的周期激励;根据每个信号片段帧的周期激励,以及从每个信号片段帧中提取出的泛音频段的重构频谱信息,计算每个泛音频段的频域周期信号;将每个泛音频段的频域周期信号从频域转换到时域,得到每个泛音频段的时域周期信号;合成各个泛音频段的时域周期信号,得到目标音频信号所对应的泛音激励信号。
在一种可能的实现方式中,每个信号片段帧的起始位置为帧移位置;该处理器810在获取每个信号片段帧的周期激励时,具体可以执行以下操作:
对第m个信号片段帧进行频谱分析,得到第m个信号片段帧中的各个频点,m∈[1,M];获取第m个信号片段帧中的帧移位置的偏移量,并采用获取到的偏移量以及第m个信号片段帧中的各个频点的频率值,计算第m个信号片段帧中的各个频点的相位;基于计算得到的各个频点的相位,获取第m个信号片段帧中的各个频点的功率谱;采用第m个信号片段帧中的各个频点的功率谱,组成第m个信号片段帧的周期激励。
在一种可能的实现方式中,该处理器810在根据目标基频序列,对目标音频信号进行分帧处理,得到M个信号片段帧时,具体可以执行以下操作:
采用预设采样率对目标基频序列进行插值处理,得到插值后的基频序列,插值后的基频序列中包括Q个采样点以及每个采样点的基频值,Q为大于1的整数;根据每个采样点的基频值,计算每个采样点的辐角主值,并根据每个采样点的辐角主值,从Q个采样点中选取M个帧移位置,一个帧移位置为一个采样点;将目标音频信号按照M个帧移位置进行分帧处理,得到M个信号片段帧,一个信号片段帧的起始位置为一个帧移位置。
在一种可能的实现方式中,该处理器810在根据每个采样点的辐角主值,从Q个采样点中选取M个帧移位置时,具体可以执行以下操作:
根据第q个采样点的辐角主值和第q-1个采样点的辐角主值,计算第q个采样点的主值变化度;q∈[2,Q];若第q个采样点的主值变化度大于变化度阈值,则将第q个采样点作为一个帧移位置。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例处理设备中的单元可以根据实际需要进行合并、划分和删减。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。
本申请还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如上各种可能的实施方式中所述的方法。
本申请实施例还提供一种芯片,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得安装有所述芯片的设备执行如上各种可能的实施方式中所述的方法。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请的实施例旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种音频信号处理方法,其特征在于,包括:
获取到目标音频信号,提取所述目标音频信号的目标基频序列及频谱包络;
根据所述目标基频序列,对所述目标音频信号进行分帧处理,得到M个信号片段帧,M为正整数;
根据所述频谱包络对每个信号片段帧的频谱信息进行重构,得到所述每个信号片段帧的重构频谱信息;任一信号片段帧的重构频谱信息用于指示所述任一信号片段帧中各频点的重构后的幅频特性;
基于泛音的频点分布特性从所述每个信号片段帧的重构频谱信息中,提取出所述每个信号片段帧中的泛音频段的重构频谱信息;
根据提取出的各个泛音频段的重构频谱信息,构造所述目标音频信号所对应的泛音激励信号;
采用泛音增强参数将所述泛音激励信号叠加至所述目标音频信号中,得到所述目标音频信号对应的泛音增强信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述频谱包络对每个信号片段帧的频谱信息进行重构,得到所述每个信号片段帧的重构频谱信息,包括:
根据所述频谱包络,获取第m个信号片段帧的功率谱序列,m∈[1,M];
基于所述功率谱序列计算所述第m个信号片段帧的倒谱序列,所述倒谱序列用于指示所述第m个信号片段帧中满足频点条件的频点的时域分布情况;
采用所述倒谱序列对所述第m个信号片段帧进行重构,得到重构后的信号片段帧;
获取所述重构后的信号片段帧的频谱信息,作为所述第m个信号片段帧的重构频谱信息。
3.根据权利要求1所述的方法,其特征在于,所述基于泛音的频点分布特性从所述每个信号片段帧的重构频谱信息中,提取出所述每个信号片段帧中的泛音频段的重构频谱信息,包括:
确定根据泛音的频点分布特性所设置的有效频点范围;
基于所述有效频点范围以及第m个信号片段帧的片段时长,构造与所述第m个信号片段帧适配的带通窗函数,m∈[1,M];
采用构造的带通窗函数对所述第m个信号片段帧的重构频谱信息进行滤波处理,以提取出所述第m个信号片段帧中的泛音频段的重构频谱信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述有效频点范围以及第m个信号片段帧的片段时长,构造与所述第m个信号片段帧适配的带通窗函数,包括:
基于所述有效频点范围以及第m个信号片段帧的片段时长,计算与所述第m个信号片段帧适配的频点滤波范围;
根据计算得到的所述频点滤波范围,构造与所述第m个信号片段帧适配的矩形窗函数;
对所述矩形窗函数进行样条平滑处理,得到与所述第m个信号片段帧适配的带通窗函数。
5.根据权利要求1所述的方法,其特征在于,所述根据提取出的各个泛音频段的重构频谱信息,构造所述目标音频信号所对应的泛音激励信号,包括:
获取所述每个信号片段帧的周期激励;
根据所述每个信号片段帧的周期激励,以及从所述每个信号片段帧中提取出的泛音频段的重构频谱信息,计算每个泛音频段的频域周期信号;
将所述每个泛音频段的频域周期信号从频域转换到时域,得到所述每个泛音频段的时域周期信号;
合成各个泛音频段的时域周期信号,得到所述目标音频信号所对应的泛音激励信号。
6.根据权利要求5所述的方法,其特征在于,所述每个信号片段帧的起始位置为帧移位置;所述获取所述每个信号片段帧的周期激励,包括:
对第m个信号片段帧进行频谱分析,得到所述第m个信号片段帧中的各个频点,m∈[1,M];
获取所述第m个信号片段帧中的帧移位置的偏移量,并采用获取到的偏移量以及所述第m个信号片段帧中的各个频点的频率值,计算所述第m个信号片段帧中的各个频点的相位;
基于计算得到的各个频点的相位,获取所述第m个信号片段帧中的各个频点的功率谱;
采用所述第m个信号片段帧中的各个频点的功率谱,组成所述第m个信号片段帧的周期激励。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标基频序列,对所述目标音频信号进行分帧处理,得到M个信号片段帧,包括:
采用预设采样率对所述目标基频序列进行插值处理,得到插值后的基频序列,所述插值后的基频序列中包括Q个采样点以及每个采样点的基频值,Q为大于1的整数;
根据所述每个采样点的基频值,计算所述每个采样点的辐角主值,并根据所述每个采样点的辐角主值,从Q个采样点中选取M个帧移位置,一个帧移位置为一个采样点;
将所述目标音频信号按照所述M个帧移位置进行分帧处理,得到M个信号片段帧,一个信号片段帧的起始位置为一个帧移位置。
8.根据权利要求7所述的方法,其特征在于,所述根据所述每个采样点的辐角主值,从Q个采样点中选取M个帧移位置,包括:
根据第q个采样点的辐角主值和第q-1个采样点的辐角主值,计算所述第q个采样点的主值变化度;q∈[2,Q];
若所述第q个采样点的主值变化度大于变化度阈值,则将所述第q个采样点作为一个帧移位置。
9.一种音频信号处理设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。
CN202110860801.5A 2021-07-28 2021-07-28 一种音频信号处理方法、设备及存储介质 Pending CN113362837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860801.5A CN113362837A (zh) 2021-07-28 2021-07-28 一种音频信号处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860801.5A CN113362837A (zh) 2021-07-28 2021-07-28 一种音频信号处理方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113362837A true CN113362837A (zh) 2021-09-07

Family

ID=77540506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860801.5A Pending CN113362837A (zh) 2021-07-28 2021-07-28 一种音频信号处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113362837A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501283A (zh) * 2022-04-15 2022-05-13 南京天悦电子科技有限公司 一种针对数字助听器的低复杂度双麦克风定向拾音方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994012972A1 (en) * 1992-11-30 1994-06-09 Digital Voice Systems, Inc. Method and apparatus for quantization of harmonic amplitudes
US20040093206A1 (en) * 2002-11-13 2004-05-13 Hardwick John C Interoperable vocoder
US20080255830A1 (en) * 2007-03-12 2008-10-16 France Telecom Method and device for modifying an audio signal
US20120046771A1 (en) * 2009-02-17 2012-02-23 Kyoto University Music audio signal generating system
US20130182862A1 (en) * 2010-02-26 2013-07-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for modifying an audio signal using harmonic locking
US20140309992A1 (en) * 2013-04-16 2014-10-16 University Of Rochester Method for detecting, identifying, and enhancing formant frequencies in voiced speech
CN105408957A (zh) * 2013-06-11 2016-03-16 松下电器(美国)知识产权公司 进行语音信号的频带扩展的装置及方法
CN109065068A (zh) * 2018-08-17 2018-12-21 广州酷狗计算机科技有限公司 音频处理方法、装置及存储介质
CN110956971A (zh) * 2019-12-03 2020-04-03 广州酷狗计算机科技有限公司 音频处理方法、装置、终端及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994012972A1 (en) * 1992-11-30 1994-06-09 Digital Voice Systems, Inc. Method and apparatus for quantization of harmonic amplitudes
US20040093206A1 (en) * 2002-11-13 2004-05-13 Hardwick John C Interoperable vocoder
US20080255830A1 (en) * 2007-03-12 2008-10-16 France Telecom Method and device for modifying an audio signal
US20120046771A1 (en) * 2009-02-17 2012-02-23 Kyoto University Music audio signal generating system
US20130182862A1 (en) * 2010-02-26 2013-07-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for modifying an audio signal using harmonic locking
US20140309992A1 (en) * 2013-04-16 2014-10-16 University Of Rochester Method for detecting, identifying, and enhancing formant frequencies in voiced speech
CN105408957A (zh) * 2013-06-11 2016-03-16 松下电器(美国)知识产权公司 进行语音信号的频带扩展的装置及方法
CN109065068A (zh) * 2018-08-17 2018-12-21 广州酷狗计算机科技有限公司 音频处理方法、装置及存储介质
CN110956971A (zh) * 2019-12-03 2020-04-03 广州酷狗计算机科技有限公司 音频处理方法、装置、终端及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TAO JIANG ET AL: "Almost sure identifiability of multidimensional harmonic retrieval", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS (CAT. NO.01CH37221) *
张栋;彭建云;余春艳;: "稳定音色的音乐语音变调方法", 计算机工程, no. 03 *
石立新;张俊星;: "基于音色模型的多基频估计方法", 计算机工程与设计, no. 13 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501283A (zh) * 2022-04-15 2022-05-13 南京天悦电子科技有限公司 一种针对数字助听器的低复杂度双麦克风定向拾音方法
CN114501283B (zh) * 2022-04-15 2022-06-28 南京天悦电子科技有限公司 一种针对数字助听器的低复杂度双麦克风定向拾音方法

Similar Documents

Publication Publication Date Title
JP5551258B2 (ja) 狭帯域信号から「より上の帯域」の信号を決定すること
TWI480856B (zh) 音訊編解碼器中之雜訊產生技術
TWI480857B (zh) 在不活動階段期間利用雜訊合成之音訊編解碼器
CN109147805B (zh) 基于深度学习的音频音质增强
EP0865028A1 (en) Waveform interpolation speech coding using splines functions
WO1993004467A1 (en) Audio analysis/synthesis system
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
TW201209808A (en) Frequency band enlarging apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) Reducing octave errors during pitch determination for noisy audio signals
EP0865029A1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
CN111640411A (zh) 音频合成方法、装置及计算机可读存储介质
CN113362837A (zh) 一种音频信号处理方法、设备及存储介质
JP2018004870A (ja) 音声合成装置および音声合成方法
RU2682851C2 (ru) Усовершенствованная коррекция потери кадров с помощью речевой информации
TW201218185A (en) Determining pitch cycle energy and scaling an excitation signal
CN115294995A (zh) 语音转换方法、语音转换装置、电子设备、存储介质
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
JP2016218281A (ja) 音声合成装置、その方法、およびプログラム
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
US20220277754A1 (en) Multi-lag format for audio coding
CN113436644B (zh) 音质评估方法、装置、电子设备及存储介质
KR102621842B1 (ko) 비 자기회귀 음성 합성 방법 및 시스템
CN117095670A (zh) 语音生成方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination