CN113178183A - 音效处理方法、装置、存储介质和计算设备 - Google Patents

音效处理方法、装置、存储介质和计算设备 Download PDF

Info

Publication number
CN113178183A
CN113178183A CN202110482417.6A CN202110482417A CN113178183A CN 113178183 A CN113178183 A CN 113178183A CN 202110482417 A CN202110482417 A CN 202110482417A CN 113178183 A CN113178183 A CN 113178183A
Authority
CN
China
Prior art keywords
pitch
value
sliding window
audio
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110482417.6A
Other languages
English (en)
Other versions
CN113178183B (zh
Inventor
陈梦
朱一闻
曹偲
郑博
刘华平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Cloud Music Technology Co Ltd
Original Assignee
Hangzhou Netease Cloud Music Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Cloud Music Technology Co Ltd filed Critical Hangzhou Netease Cloud Music Technology Co Ltd
Priority to CN202110482417.6A priority Critical patent/CN113178183B/zh
Publication of CN113178183A publication Critical patent/CN113178183A/zh
Application granted granted Critical
Publication of CN113178183B publication Critical patent/CN113178183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明的实施方式提供了一种音效处理方法、装置、存储介质和计算设备。音效处理方包括:对所采集音频中的多个采样点进行音高检测,得到多个音高值;根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;根据所述音高差序列对所述音频进行频移处理以生成对应的音效。利用本申请的实施例能够优化音效处理过程。

Description

音效处理方法、装置、存储介质和计算设备
技术领域
本申请的实施方式涉及音频处理技术领域,具体地,本申请的实施方式涉及音效处理方法、装置、存储介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
音效(Sound effects)或声效(Audio effects)通常指人工制造或加强的声音效果,使声音听起来具有不同的特性,可用来增强音乐、电影、电子游戏或其他媒体内容的氛围感,音效也可简单理解为由声音制造的效果。以电音音效(Electronic Effect)为例,电音音效可以对原音频加入电子感的变声效果,使音频产生一种机械感,形成电音音效的感觉。电音音效与“电音”不同,电音通常指电子音乐,是一种音乐形式。本文中的“电音音效”属于音效范畴。为了实现需要的音效,在已知歌曲旋律类型或已知检测处的旋律的前提下,与实际演唱的音高进行比较处理,可获得移频系数,基于此利用变调不变速算法可产生一定的电音音效。此外还出现了一种可修正人声或独奏乐器音高的数字音乐工作站(DigitalAudio Workstation,DAW)插件(名为“Autotune”),也可用来产生电音音效,使用时该插件基于用户选择的主音(key)和音阶(scale)获得目标音高序列,人声演唱时插件可通过音高检测获得人声演唱的音高,据此可计算移频系数用于修正音高,将插件的响应速度设置为最快,修正后的音高可产生一种机械感即产生了电音音效。
但是,上述两种处理方式均存在缺陷之处,前者需要提前知晓旋律才能计算移频系数从而使用变调不变速算法,否则无法实施;后者的“Autotune”插件则要求使用者具有目标音高序列的先验知识,体现在用户需要设置准确的目标音高序列,选择合适的key和合适的scale,从而插件可将演唱者的演唱音高修改至目标音高值上产生电音音效。这对于不常使用类似插件的用户来说负担较重,可能需要反复尝试或调试很长时间仍难以获得满意的音效。
发明内容
本发明期望提供一种音效处理方法、装置、存储介质和计算设备,以至少解决上述技术问题。
第一方面,本发明实施例提供一种音效处理方法,包括:对所采集音频中的多个采样点进行音高检测,得到多个音高值;根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;根据所述音高差序列对所述音频进行频移处理以生成对应的音效。
根据本申请实施例的音效处理方法,所述对所述多个音高值进行滑动窗滤波处理,包括;令所述多个音高值依次进入滑动窗,计算处于滑动窗中的多个音高值的平均值,以k个音高值为周期输出多个平滑处理后音高值,其中k为正整数。
根据本申请实施例的音效处理方法,所述对所述多个音高值进行滑动窗滤波处理之后,还包括;根据预定规则对所述滑动窗输出的多个平滑处理后音高值进行合并处理,得到所述目标音高值。
根据本申请实施例的音效处理方法,所述预定规则包括:若所述滑动窗输出的多个音高值中的第一音高值与第二音高值的差小于或等于第二阈值,则将所述第一音高值与所述第二音高值合并为目标音高值。
根据本申请实施例的音效处理方法,在所述计算处于滑动窗中的多个音高值的平均值的过程中,还包括:在第一音高值进入所述滑动窗后,若所述第一音高值与当前所述滑动窗中的多个音高值的平均值之间的差大于或等于第一阈值,则确定所述第一音高值属于音高拐点,并以所述音高拐点为起始位置输出一个音高值。
根据本申请实施例的音效处理方法,在所述计算处于滑动窗中的多个音高值的平均值的过程中,还包括:在所述第一音高值进入所述滑动窗后,若所述第一音高值与所述平均值之间的差小于所述第一阈值,则以先入先出的方式将所述第一音高值加入所述滑动窗中,并更新所述滑动窗中多个音高值的平均值。
根据本申请实施例的音效处理方法,在确定所述第一音高值属于音高拐点之后,还包括:清空所述滑动窗中已有的音高值,并将所述第一音高值加入所述滑动窗中,继续接收下一个音高值。
根据本申请实施例的音效处理方法,所述根据所述音高差序列对所述音频进行频移处理以生成对应的音效,包括:根据所述音高差序列确定所述音频的移频系数;基于所述移频系数,利用变调不变速算法对所述音频进行升降调处理以生成对应的音效。
根据本申请实施例的音效处理方法,所述第一阈值包括1个半音或2个半音。
第二方面,本发明实施例提供一种音效处理装置,包括:
音高检测模块,用于对所采集音频中的多个采样点进行音高检测,得到多个音高值;
滑动窗滤波处理模块,用于根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;
对比处理模块,用于将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;
音效处理模块,用于根据所述音高差序列对所述音频进行频移处理以生成对应的音效。
第三方面,本申请实施例还提供一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
第四方面,本申请实施例还提供一种非易失性计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
采用本申请实施例的音效处理方案无需歌曲旋律标注或其他额外信息,操作友好,基于滑动窗滤波处理的方式能够大幅缩短操作时间,实现接近实时的音效处理,尤其适用于现场演唱或演奏等对实时性要求较高的场合。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出本发明实施例的音效处理方法的实现流程图;
图2示意性地示出本申请一个实施例的音效处理的逻辑示意图;
图3示意性地示出本申请一个实施例的滑动窗滤波处理的逻辑示意图;
图4示意性地示出本申请一个实施例的音符轨迹合并处理的逻辑示意图;
图5示意性地示出本申请一个实施例的音高包络及音符轨迹的示意图;
图6示意性地示出本发明实施例的存储介质结构示意图;
图7示意性地示出本发明实施例的音效处理装置结构示意图;
图8示意性地示出本发明实施例的计算设备结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种音效处理方法、存储介质、装置和计算设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明若干代表性实施方式详细阐释本发明的原理和精神。
发明概述
为了解决存在的至少一种技术问题,本申请的发明人从分析电音效果产生的原理入手,发现自然人声的音高过渡是自然且顺滑的,如果在音高包络变化处使原来平滑过渡的音高变得陡峭,可以产生电音的机械感,制造出电音效果。
为了实现本申请的思想,可做如下设计:在例如演唱者演唱过程中,通过麦克风或者耳机采集音频,对采样的音频进行音高检测,例如每M个采样点计算1个音高值,对音高值进行滑动窗滤波处理,可计算出滑动窗内音高值的平均值,通过将平均音高值与实际音高值进行比较可获得移频系数,从而可使用变调不变速算法对音频进行升降调操作,获得带有音效的音频。
以下对本申请实施例中可能涉及的概念、算法等内容进行简要介绍。
·关于音高检测算法(Pitch Detection Algorithm):也称基音检测算法,是用于估计周期性或准周期性信号的音高或基本频率的算法。该算法主要用于语音或乐音的信号处理中。音高检测算法既可以单独从时域或频域的角度实现,也可以同时利用时域和频域的信息实现。具体的,可使用已知的方法操作,例如互相关法、yin算法、倒谱法、pyin算法等,在本申请实施例中可使用基于时域的基音检测算法,具有计算速度快且计算资源开销较少的优点。此外也可使用尚未公开的内部算法实现,本申请对此没有特殊限制。
·关于升降调算法(Pitch Shift Algorithm):也称变调不变速算法,用于修改音频音高,同时可维持原音频的速度不变。对应地,也存在变速不变调算法,其只修改音频速度而维持音高不变。变调不变速算法主要有三类方法:时域法、频域法、参量法。具体的,可使用已知的方法操作,例如时域拉伸结合重采样法、Psola(基音同步叠加)方法等,在本申请实施例中可采用phase vocoder(相位声码器)方法,通过对源信号加窗进行傅里叶变换可转为频率域,修改当前频带的实际频率值达到变调效果,之后通过逆傅里叶变换恢复为时域信号。利用phase vocoder算法处理后的音频可在一定程度上带有合成机械感。此外也可使用尚未公开的内部算法实现,本申请对此没有特殊限制。
·关于滑动窗滤波(Moving Average Filter)处理:若设定窗长为N,对窗内的数据做平均,可获得滤波后的输出(见式①)。如果输入数据量X大于窗长N,相当于先入先出的队列,每次移动指定步长M,抛出头部M个数据,尾部一次塞入M个数据,更新一次平均值,直到X个数据全部消费为止。滑动窗滤波处理的计算量小且对周期性干扰有良好的抑制作用,平滑度高。
Figure BDA0003049737890000061
·音高(Pitch):也就是基频周期,人在发音时声带振动产生浊音(voiced),声带不振动产生的则是清音(Unvoiced)。浊音是由来自肺部的气流冲击声门,造成声门的张合,形成一系列准周期的气流脉冲,经过声道的谐振及唇齿的辐射形成的语音信号。基频就是指该周期性,它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。因此浊音有音高,清音没有音高。本申请中,可通过式②将音高由基频(frequency)的频率值转换为音符值(Note):
Figure BDA0003049737890000062
·音高检测算法(Pitch Detection Algorithm):也叫基音检测算法,是用来估计周期性或准周期性信号的音高或基本频率的算法。该算法主要用于语音或乐音的信号处理中。基音检测算法既可以单独从时域或频域的角度实现,也可以同时利用时域和频域的信息来实现。
·移频系数:可表示目标音高值与实际音高值之间的差值,移频系数是升降调算法的输入信息。
在介绍了本发明的基本思想及相关概念之后,下面具体介绍本发明的各种非限制性实施方式。
示例性方法
下面参考图1来描述根据本发明示例性实施方式的音效处理方法。
图1示意性地示出了根据本申请一实施方式的音效处理方法的实现流程图,该方法包括以下步骤:
S101,对所采集音频中的多个采样点进行音高检测,得到多个音高值;
S102,根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;
S103,将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;
S104,根据所述音高差序列对所述音频进行频移处理以生成对应的音效。
根据本申请的实施例,在获得采样点的多个音高值(或称音高数据)后,根据多个音高值得到音频的音高序列,并通过对多个音高值进行滑动窗滤波处理得到目标音高值,将获得的音高序列与目标音高值做对比处理得到音高差序列,基于此即可对音频进行频移处理,从而生成对应的音效。采用本申请实施例的音效处理方案不需要提前知晓歌曲旋律,也不需要选择主音(key)或音阶(scale),因此无需歌曲旋律标注以及其他额外信息,操作友好不繁琐,且基于滑动窗滤波处理的方式可以在最大限度上缩短操作时间,实现接近实时的音效处理,尤其适用于现场演唱歌曲或演奏乐曲等对实时性要求较高的场合。
根据本申请的实施例,可选地,可通过如下方式对所述多个音高值进行滑动窗滤波处理:令所述多个音高值依次进入滑动窗,计算处于滑动窗中的多个音高值的平均值,以k个音高值为周期输出多个平滑处理后音高值,其中k为正整数。
也就是说,将采样并进行音高检测得到的多个音高数据依次输入滑动窗,可计算滑动窗中容纳的多个音高数据的平均值,以平均值作为该多个音高数据的音高值,输出时以k个音高数据为周期计算并输出多个平滑处理后音高值,通过上述滑动窗滤波处理实际上可实现对采样音高值的平滑处理,为后续的处理做好准备。
根据本申请的实施例,可选地,对所述多个音高值进行滑动窗滤波处理之后,可根据预定规则对滑动窗输出的多个音高值做合并处理,得到目标音高值。当然,本实施例也可以不进行上述合并处理,直接将上述平滑处理后音高值作为目标音高值。对滑动窗输出的多个音高值做合并处理后可得到目标音高值。
关于预定规则,根据本申请的实施例,可选地,该预定规则可包括:若滑动窗输出的多个音高值中的第一音高值与第二音高值的差小于或等于第二阈值,则将第一音高值与第二音高值合并为目标音高值。按照本申请的实施例,对于相邻的音高值,如果音高相近则进行合并,如果音高不相近则不合并,如此可得到多个目标音高值。
根据本申请的实施例,可选地,在计算处于滑动窗中的多个音高值的平均值的过程中,在第一音高值进入滑动窗后,若第一音高值与当前滑动窗中的多个音高值的平均值之间的差大于或等于第一阈值,则确定第一音高值属于音高拐点,并以音高拐点为起始位置输出一个音高值。可选地,第一阈值包括1个半音或2个半音。
上述情况下,该第一音高值与滑动窗中的多个音高值的平均值不相近,说明该第一音高值为音高拐点,如果将音高拐点计入当前滑动窗的多个音高值中计算平均值将产生较大的误差,因此不将该第一音高值计入当前滑动窗中,而是将当前滑动窗的平均音高值输出,以该第一音高值为起始位置输出音高值,如此可降低音高值的计算误差,在音频上可表现为不会明显改变音频中原有演唱的音高表现,可避免音准瑕疵被放大,提升音效处理的品质。
根据本申请的实施例,可选地,在确定第一音高值属于音高拐点之后,清空滑动窗中已有的音高值,并将第一音高值加入滑动窗中,继续接收下一个音高值。
根据本申请的实施例,可选地,在计算处于滑动窗中的多个音高值的平均值的过程中,在第一音高值进入所述滑动窗后,若第一音高值与所述平均值之间的差小于第一阈值,则以先入先出的方式将第一音高值加入滑动窗中,并更新滑动窗中多个音高值的平均值。
根据本申请的实施例,可选地,所述根据所述音高差序列对所述音频进行频移处理以生成对应的音效,可通过如下方式实现:根据所述音高差序列确定所述音频的移频系数;基于所述移频系数,利用变调不变速算法对所述音频进行升降调处理以生成对应的音效。
如前所述,将所述音频的音高序列与所述目标音高值进行对比处理可得到音高差序列,则根据音高差序列可确定音频的移频系数,获得移频系数后即可使用变调不变速算法对音频进行升降调处理,产生对应的音效。
利用本申请的以上至少一个实施例进行音效处理,测试结果显示采用滑动窗滤波技术进行接近实时的升降调系数计算,输出的音频带有电音效果,且滑动滤波的窗长越长,平滑效果越好,最终生成的电音效果越明显;并且,本申请实施例的处理方式不会明显改变演唱者原有的音高表现,能够在很大程度上减少放大音准瑕疵的问题。
以上通过实施例描述了本申请实施例的音效处理方法的实现方式,以下通过具体的例子,描述本申请实施例的具体实现过程。
下文以对人声演唱音频增加电音音效为例,描述本申请实施例的音效处理方法的操作过程。图2示意性地示出了本申请实施例的音效处理方法的原理示意图,其中通过“电音音效模块”执行音效处理方法的一系列操作。示例性地,可使用录音系统的音频采集模块实时采集演唱音频,将采集的音频传入电音音效模块进行电音算法的处理,经过电音算法处理后输出带有电音音效的音频,可进行播放或者存储。其中,电音音效模块可包括如下组件:音高检测组件、音高包络平滑组件、变调系数计算组件和变调不变速处理组件。以下详细描述电音音效模块的具体处理过程。
音频采集模块每收集到缓冲区大小(buffer size)的音频采样后传入电音音效模块,传入电音音效模块的音频首先由音高检测组件执行音高检测算法,音高检测算法的音高单位可根据需要设置,例如可设置为256,以buffer size为2048个音频为例,每个buffer可得到8个音高序列(pitch contour,2048/256=8)。可选地,可对这8个音高序列进行后处理,例如去除其中明显的异常值。将8个音高序列由基频(frequency)的频率值换算为音符值(Note)后,输入音高包络平滑组件。
假设音高包络平滑组件中滑动窗滤波的数据单元最多可存储例如20个音高值(约116ms,可采用经验参数),那么向数据单元存储音高数据时,可按照如下方式处理:
·在滑动窗滤波的数据单元未存满20个音高值时,可依次在数据队列的尾部存入新的音高值;
·在存满20个音高值后,需要先取出最先存储的第一个音高值,后面的音高值依次向前移动一个单位,再在末尾输入一个新的音高值。
为了确定音高的拐点,更好的制造电音音效,在向数据单元存储音高数据的过程中,可进行如下处理:
(1)如果滑动窗滤波的数据单元非空,可计算数据单元中已有音高数据的mean(音高平均值),作为数据单元输出的平滑值;
(2)当有新的音高值进入数据单元后,将新的音高值与(1)中得到的mean进行比较,得到该新的音高值与mean的差值,其中,
a)如果该差值小于预定阈值,例如1个半音(可采用经验值),则认为此时没有到达音高拐点,可将该新的音高值存入数据单元,重新计算音高平均值,将mean更新为new_mean;
b)如果该差值大于或等于预定阈值,则认为此时到达音高拐点,该新的音高值是音高拐点,参考图3,可清空数据单元中的历史数据,将该新的音高值存入数据单元中。
进一步地,在达到音高拐点或者当前输入音高包络平滑组件的8个音高已完成上述处理后,可输出一个较短的音符轨迹(note track),该音符轨迹包括起始时间(start)、持续时长(duration)和音符值(note),其中音符轨迹代表一段音高包络的平均值。由于一段note track的视野较小,因此可将已经生成的音符轨迹(old note track)作为历史数据,与新生成的音符轨迹(newnote track)进行比较处理,具体可进行以下处理:
·如果newnote track与old note track在时间上连续且音高值相近,则可将两者合并,形成一个持续时长(duration)更长的old note track,再与下一段新生成的notetrack进行比较;
·否则,如果newnote track与old note track在时间上不连续或存在变音,则不对两者做合并处理,参考图4,而是将该newnote track作为一个old note track,再与下一段新生成的note track进行比较,以此往复,直至处理完毕,将得到的多个音符轨迹作为目标音高值。
图5示意性地示出了一段音频信号及其对应的音高包络和音符轨迹,其中深色波形表示原始采集的音频信号,较细的包络线表示对应的音高包络,中空的平直线段表示按照本申请实施例处理后得到的音符轨迹即目标音高值。可以看出,音高包络是起伏波动且平滑的,音符轨迹是平直且存在跳变的。
进一步,获得音符轨迹后,通过对比音高序列与对应时间段内的音符轨迹的音高值,可获得音高差序列,根据音高差序列可确定移频系数,作为变调不变速模块的输入。变调不变速模块做升降调处理后,输出音频数据给上层播放使用。
其中,音高差序列的格式与上文描述的音符轨迹的格式类似,为三元组数据,包括起始时间、持续时长和移频系数。
其中,变调不变速模块的算法可支持每帧设置一个移频系数并实时生效,可按照音高差序列给出的起始时间和时长对该段内的音频数据进行移频操作。
关于本申请实施例的以上处理的实时性,做如下说明:音频采集模块每收集到buffer size个例如1帧2048个音频采样后传入电音音效模块,对于例如采样率Fs=44100Hz的音频而言,2048个采样点对应的时长为46ms,由于变调模块内部包含傅里叶变换FFT的计算处理,FFT计算时会对时域信号做加窗和重叠的处理,因此由第一次进入的buffer size个(例如2048个)数据只会输出step size个(步进大小,例如256个)数据,其中,延时可通过下式计算得到:
(buffer size-step size)/Fs=34.8ms,
对于大多数场合的实时性要求而言,该时延(34.8毫秒)属于可接受的范围内,因此基于本申请实施例可提升音效的实时处理能力。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图6对本发明示例性实施方式的介质进行说明。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种计算机可读介质,其上存储有程序,当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音效处理方法中的步骤。
具体地,上述处理器执行上述程序时用于实现如下步骤:
对所采集音频中的多个采样点进行音高检测,得到多个音高值;
根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;
将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;
根据所述音高差序列对所述音频进行频移处理以生成对应的音效。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图6所示,描述了根据本发明的实施方式的介质60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序,并可以在设备上运行。然而,本发明不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。
示例性装置
在介绍了本发明示例性实施方式的存储介质之后,接下来,参考图7对本发明示例性实施方式的装置进行说明。
如图7所示,本发明实施例的音效处理装置100可以包括:
音高检测模块110,用于对所采集音频中的多个采样点进行音高检测,得到多个音高值;
滑动窗滤波处理模块120,用于根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;
对比处理模块130,用于将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;
音效处理模块140,用于根据所述音高差序列对所述音频进行频移处理以生成对应的音效。
可选地,所述滑动窗滤波处理模块包括计算子模块,用于令所述多个音高值依次进入滑动窗,计算处于滑动窗中的多个音高值的平均值,以k个音高值为周期输出多个平滑处理后音高值,其中k为正整数。
可选地,音效处理装置100还包括:合并处理模块,用于在所述滑动窗滤波处理模块对所述多个音高值进行滑动窗滤波处理之后,根据预定规则对所述滑动窗输出的多个平滑处理后音高值进行合并处理,得到所述目标音高值。
可选地,所述预定规则包括:若所述滑动窗输出的多个音高值中的第一音高值与第二音高值的差小于或等于第二阈值,则将所述第一音高值与所述第二音高值合并为目标音高值。
可选地,所述计算子模块还用于在第一音高值进入所述滑动窗后,若所述第一音高值与当前所述滑动窗中的多个音高值的平均值之间的差大于或等于第一阈值,则确定所述第一音高值属于音高拐点,并以所述音高拐点为起始位置输出一个音高值。
可选地,所述计算子模块还用于在所述第一音高值进入所述滑动窗后,若所述第一音高值与所述平均值之间的差小于所述第一阈值,则以先入先出的方式将所述第一音高值加入所述滑动窗中,并更新所述滑动窗中多个音高值的平均值。
可选地,所述计算子模块还用于在确定所述第一音高值属于音高拐点之后,清空所述滑动窗中已有的音高值,并将所述第一音高值加入所述滑动窗中,继续接收下一个音高值。
可选地,所述音效处理模块140包括:
移频系数处理子模块,用于根据所述音高差序列确定所述音频的移频系数;
升降调处理子模块,用于基于所述移频系数,利用变调不变速算法对所述音频进行升降调处理以生成对应的音效。
可选地,所述第一阈值包括1个半音或2个半音。
示例性计算设备
在介绍了本发明示例性实施方式的方法、存储介质和装置之后,接下来,参考图8对本发明示例性实施方式的计算设备进行说明。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的音效处理方法中的步骤。
下面参照图8来描述根据本发明的这种实施方式的计算设备80。图8显示的计算设备80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算设备80以通用计算设备的形式表现。计算设备80的组件可以包括但不限于:上述至少一个处理单元801、上述至少一个存储单元802,连接不同系统组件(包括处理单元801和存储单元802)的总线803。
总线803包括数据总线、控制总线和地址总线。
存储单元802可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)8021和/或高速缓存存储器8022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)8023。
存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025,这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备80也可以与一个或多个外部设备804(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与计算设备80的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备80使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了音效处理装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种音效处理方法,其特征在于,包括:
对所采集音频中的多个采样点进行音高检测,得到多个音高值;
根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;
将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;
根据所述音高差序列对所述音频进行频移处理以生成对应的音效。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个音高值进行滑动窗滤波处理,包括;
令所述多个音高值依次进入滑动窗,计算处于滑动窗中的多个音高值的平均值,以k个音高值为周期输出多个平滑处理后音高值,其中k为正整数。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个音高值进行滑动窗滤波处理之后,还包括;
根据预定规则对所述滑动窗输出的多个平滑处理后音高值进行合并处理,得到所述目标音高值。
4.根据权利要求3所述的方法,其特征在于,所述预定规则包括:若所述滑动窗输出的多个音高值中的第一音高值与第二音高值的差小于或等于第二阈值,则将所述第一音高值与所述第二音高值合并为目标音高值。
5.根据权利要求2所述的方法,其特征在于,在所述计算处于滑动窗中的多个音高值的平均值的过程中,还包括:
在第一音高值进入所述滑动窗后,若所述第一音高值与当前所述滑动窗中的多个音高值的平均值之间的差大于或等于第一阈值,则确定所述第一音高值属于音高拐点,并以所述音高拐点为起始位置输出一个音高值。
6.根据权利要求5所述的方法,其特征在于,在确定所述第一音高值属于音高拐点之后,所述方法还包括:
清空所述滑动窗中已有的音高值,并将所述第一音高值加入所述滑动窗中,继续接收下一个音高值。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述音高差序列对所述音频进行频移处理以生成对应的音效,包括:
根据所述音高差序列确定所述音频的移频系数;
基于所述移频系数,利用变调不变速算法对所述音频进行升降调处理以生成对应的音效。
8.一种音效处理装置,其特征在于,包括:
音高检测模块,用于对所采集音频中的多个采样点进行音高检测,得到多个音高值;
滑动窗滤波处理模块,用于根据所述多个音高值得到所述音频的音高序列,并对所述多个音高值进行滑动窗滤波处理,得到目标音高值;
对比处理模块,用于将所述音频的音高序列与所述目标音高值进行对比处理,得到音高差序列;
音效处理模块,用于根据所述音高差序列对所述音频进行频移处理以生成对应的音效。
9.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
10.一种非易失性计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202110482417.6A 2021-04-30 2021-04-30 音效处理方法、装置、存储介质和计算设备 Active CN113178183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110482417.6A CN113178183B (zh) 2021-04-30 2021-04-30 音效处理方法、装置、存储介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110482417.6A CN113178183B (zh) 2021-04-30 2021-04-30 音效处理方法、装置、存储介质和计算设备

Publications (2)

Publication Number Publication Date
CN113178183A true CN113178183A (zh) 2021-07-27
CN113178183B CN113178183B (zh) 2024-05-14

Family

ID=76925904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110482417.6A Active CN113178183B (zh) 2021-04-30 2021-04-30 音效处理方法、装置、存储介质和计算设备

Country Status (1)

Country Link
CN (1) CN113178183B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689837A (zh) * 2021-08-24 2021-11-23 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质
CN114449339A (zh) * 2022-02-16 2022-05-06 深圳万兴软件有限公司 背景音效的转换方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060252536A1 (en) * 2005-05-06 2006-11-09 Yu Shiu Hightlight detecting circuit and related method for audio feature-based highlight segment detection
CN102543091A (zh) * 2011-12-29 2012-07-04 深圳市万兴软件有限公司 一种模拟音效的生成系统及方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
WO2017162187A1 (zh) * 2016-03-24 2017-09-28 腾讯科技(深圳)有限公司 音频识别方法、装置和计算机存储介质
WO2018077364A1 (en) * 2016-10-28 2018-05-03 Transformizer Aps Method for generating artificial sound effects based on existing sound clips
CN108257613A (zh) * 2017-12-05 2018-07-06 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN109949829A (zh) * 2019-02-02 2019-06-28 北京奇艺世纪科技有限公司 音频数据的处理方法、装置及计算机程序产品和存储介质
WO2020199381A1 (zh) * 2019-03-29 2020-10-08 广州市百果园信息技术有限公司 音频信号的旋律检测方法、装置以及电子设备
CN112270913A (zh) * 2020-10-27 2021-01-26 腾讯音乐娱乐科技(深圳)有限公司 音高调节方法、装置及计算机存储介质
CN112309425A (zh) * 2020-10-14 2021-02-02 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质
CN112435680A (zh) * 2019-08-08 2021-03-02 北京字节跳动网络技术有限公司 音频处理方法、装置、电子设备及计算机可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060252536A1 (en) * 2005-05-06 2006-11-09 Yu Shiu Hightlight detecting circuit and related method for audio feature-based highlight segment detection
CN102543091A (zh) * 2011-12-29 2012-07-04 深圳市万兴软件有限公司 一种模拟音效的生成系统及方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
WO2017162187A1 (zh) * 2016-03-24 2017-09-28 腾讯科技(深圳)有限公司 音频识别方法、装置和计算机存储介质
WO2018077364A1 (en) * 2016-10-28 2018-05-03 Transformizer Aps Method for generating artificial sound effects based on existing sound clips
CN108257613A (zh) * 2017-12-05 2018-07-06 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN109949829A (zh) * 2019-02-02 2019-06-28 北京奇艺世纪科技有限公司 音频数据的处理方法、装置及计算机程序产品和存储介质
WO2020199381A1 (zh) * 2019-03-29 2020-10-08 广州市百果园信息技术有限公司 音频信号的旋律检测方法、装置以及电子设备
CN112435680A (zh) * 2019-08-08 2021-03-02 北京字节跳动网络技术有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
CN112309425A (zh) * 2020-10-14 2021-02-02 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质
CN112270913A (zh) * 2020-10-27 2021-01-26 腾讯音乐娱乐科技(深圳)有限公司 音高调节方法、装置及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
万利 等: "基于内容的音频检索方法研究", 信息通信, no. 03, pages 19 - 20 *
田佳鹭 等: "一种音乐自动识别及实时可视化的方法", 电脑与信息技术, no. 04, pages 13 - 16 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689837A (zh) * 2021-08-24 2021-11-23 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质
CN113689837B (zh) * 2021-08-24 2023-08-29 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质
CN114449339A (zh) * 2022-02-16 2022-05-06 深圳万兴软件有限公司 背景音效的转换方法、装置、计算机设备及存储介质
CN114449339B (zh) * 2022-02-16 2024-04-12 深圳万兴软件有限公司 背景音效的转换方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113178183B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN110503976B (zh) 音频分离方法、装置、电子设备及存储介质
JP2906970B2 (ja) サウンドの分析及び合成方法並びに装置
JP2017519255A (ja) 楽譜の追従方法及びそれに関連したモデル化方法
CN113178183B (zh) 音效处理方法、装置、存储介质和计算设备
CN108269579B (zh) 语音数据处理方法、装置、电子设备及可读存储介质
CN103915093A (zh) 一种实现语音歌唱化的方法和装置
JP2020003536A (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
CN112309409A (zh) 音频修正方法及相关装置
JP2006030575A (ja) 音声合成装置およびプログラム
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
JP2018004870A (ja) 音声合成装置および音声合成方法
US20210366454A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
US10319353B2 (en) Method for audio sample playback using mapped impulse responses
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
CN112992110B (zh) 音频处理方法、装置、计算设备以及介质
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
CN113257211A (zh) 音频调节方法、介质、装置和计算设备
Bonada et al. Spectral approach to the modeling of the singing voice
Verma et al. Real-time melodic accompaniment system for indian music using tms320c6713
JP6834370B2 (ja) 音声合成方法
JP2002287744A (ja) 波形データ分析方法、波形データ分析装置およびプログラム
WO2023171497A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP7088403B2 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP6047863B2 (ja) 音響信号の符号化方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant