CN112420062A - 一种音频信号处理方法及设备 - Google Patents

一种音频信号处理方法及设备 Download PDF

Info

Publication number
CN112420062A
CN112420062A CN202011294030.XA CN202011294030A CN112420062A CN 112420062 A CN112420062 A CN 112420062A CN 202011294030 A CN202011294030 A CN 202011294030A CN 112420062 A CN112420062 A CN 112420062A
Authority
CN
China
Prior art keywords
curve
audio signal
target
processing
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011294030.XA
Other languages
English (en)
Inventor
张超鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202011294030.XA priority Critical patent/CN112420062A/zh
Publication of CN112420062A publication Critical patent/CN112420062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音频信号处理方法,该方法包括:获取音频信号以及与音频信号对应的调参数据;识别音频信号中的静音段和非静音段;基于非静音段的音频信号对调参数据进行处理,生成修正后的目标调参数据;利用目标调参数据对音频信号进行变速处理和/或变调处理。可见,本申请获取调参数据后,需要基于音频信号的非静音段对该调参数据进行修正,以通过修正后的调参数据对音频信号进行变速处理和/或变调处理,通过这种方式,可以避免因调参数据导致的听感不自然问题,从而提高变速变调效果。本申请还公开了一种电子设备,同样能实现上述技术效果。

Description

一种音频信号处理方法及设备
技术领域
本申请涉及音频信号处理技术领域,更具体地说,涉及一种音频信号处理方法及设备。
背景技术
对音频信号进行变速或者变调处理时,若输入的参数变化过于剧烈,会出现帧间音频衔接位置听感的不自然。如:输入的变调参数曲线为正弦信号时,由于该曲线变化缓慢,因此可实现对恒定发音的颤音效果,变化较快时可实现类似镶边(flanger)的效果,但如果该曲线中存在过多跳变点或整体变化过于剧烈,将导致输出信号音调不自然甚至引入噪声;同样的,若输入的变速参数曲线也存在过多跳变点或整体变化过于剧烈时,会使得输出信号有突兀点,导致输出信号自然度变弱,导致变速效果不好。
发明内容
本申请的目的在于提供一种音频信号处理方法、装置、设备及存储介质,以避免处理后的音频信号听感不自然,提高音频信号的处理效果。
为实现上述目的,本申请第一方面提供了一种音频信号处理方法,所述方法包括:
获取音频信号以及与所述音频信号对应的调参数据;
识别所述音频信号中的静音段和非静音段;
基于所述非静音段的所述音频信号对所述调参数据进行处理,生成修正后的目标调参数据;
利用所述目标调参数据对所述音频信号进行变速处理和/或变调处理。
为实现上述目的,本申请第二方面提供了一种电子设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述音频信号处理方法的步骤。
通过以上方案可知,本申请提供了一种音频信号处理方法,该方法包括:获取音频信号以及与音频信号对应的调参数据;识别音频信号中的静音段和非静音段;基于非静音段的音频信号对调参数据进行处理,生成修正后的目标调参数据;利用目标调参数据对音频信号进行变速处理和/或变调处理。可见,本申请获取调参数据后,需要基于音频信号的非静音段对该调参数据进行修正,以通过修正后的调参数据对音频信号进行变速处理和/或变调处理,通过这种方式,可以避免因调参数据导致的听感不自然问题,从而提高变速变调效果。本申请还公开了一种电子设备,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为现有方案中的变速变调过程示意图;
图2为本申请实施例提供的第一种音频信号处理方法流程示意图;
图3为本申请实施例提供的第二种音频信号处理方法流程示意图;
图4为本申请实施例提供的第三种音频信号处理方法流程示意图;
图5a为本申请实施例提供的第一种目标上升曲线示意图;
图5b为本申请实施例提供的第二种目标上升曲线示意图;
图5c为本申请实施例提供的第三种目标上升曲线示意图;
图6a为本申请实施例提供的第一种目标下降曲线示意图;
图6b为本申请实施例提供的第二种目标下降曲线示意图;
图6c为本申请实施例提供的第三种目标下降曲线示意图;
图7为本申请实施例提供的第四种音频信号处理方法流程示意图;
图8a为本申请实施例提供的原始调参曲线示意图;
图8b为本申请实施例提供的一种调参曲线修正示意图;
图8c为本申请实施例提供的另一种调参曲线修正示意图;
图8d为本申请实施例提供的另一种调参曲线修正示意图;
图9为本申请实施例提供的第五种音频信号处理方法流程示意图;
图10为本申请实施例提供的第六种音频信号处理方法流程示意图;
图11为本申请实施例提供的第七种音频信号处理方法流程示意图;
图12为本申请实施例提供的动态变速变调流程图;
图13为本申请实施例提供的一种音频信号处理方法整体流程示意图;
图14为本申请实施例提供的一种音频信号处理装置结构示意图;
图15为本申请实施例提供的一种电子设备10的结构图。
具体实施方式
参见图1,为现有方案中的变速变调过程示意图;通过该图可以看出,目前对音频信号进行变速变调处理时,可利用频域方案或时域方案将变速变调参数scale value作用于输入音频信号x in,常用的频域方案可以为PV(Phase Vocoder,相频声码器),常用的时域方案可以为SOLA(Synchronized Overlap-Add,同步波形叠加法);或者,为了获得更高精度的变速或更加逼真效果的音色,还会基于PV或SOLA仅做变速处理,后续添加重采样模块resample实现最终变调。但是,通过该方式对音频信号进行变速变调处理时,若输入的变速变调参数变化过于剧烈甚至非法时,会使得处理后的信号出现杂音,听感不自然,严重影响用户听音感受。因此,在本申请中,获取调参数据后,需要基于音频信号的非静音段对该调参数据进行修正,以通过修正后的调参数据对音频信号进行变速处理和/或变调处理,通过这种方式,可以避免因调参数据导致的听感不自然问题,从而提高变速变调效果。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图2,为本申请实施例提供的第一种音频信号处理方法流程示意图,如图2所示,该方法包括:
S101、获取音频信号以及与音频信号对应的调参数据;
具体来说,本方案首先需要获取用户输入的待处理的音频信号,以及与该音频信号对应的调参数据;该音频信号可以为包括人声或者不包括人声的音乐信号,该音频信号也可以为仅包括人声的信号等等,在此并不具体限定,只要是可进行变速和/或变调处理的音频即可。需要说明的是,本方案并不对该调参数据的具体形式进行限定,只要该调参数据可对音频信号进行变速和/或变调即可,例如:该调参数据可以是参数形式或者曲线形式等,该调参数据可以为用户自定义生成的调参数据,也可以为预先设定的调参数据,以通过该调参数据结合变速和/或变调算法对音频信号执行变速处理和/或变调处理。在本方案中,主要以调参数据为调参曲线为例对方案进行具体说明。
需要说明的是,该音频信号的总时长与调参数据可调节的总时长是相同的,以调参数据为调参曲线为例,若音频信号的总时长为2分钟,则该调参曲线的时长也为2分钟。该调参曲线中与每一时刻对应曲线值,即为变速参数值或者变调参数值,也就是说,随着时间的变化,调参曲线中对应的曲线值也在动态变化,因此,通过调参曲线可实现对音频信号的动态变速变调处理。
S102、识别音频信号中的静音段和非静音段;
需要说明的是,在一段音频信号中,可能会包括不含有任何声音的静音段,以及除静音段以外的含有声音的非静音段,该非静音段也可以为有效语音段;具体来说,由于静音段不含有任何的声音,因此该静音段在进行变速和/或变调处理的前后,并不会具有较大的差别,而由于非静音段包含有人声、背景音乐等,其在进行变速和/或变调处理的前后会有较大的差异,因此本申请在对音频信号进行处理时,可将该音频信号分为静音段和非静音段后进行处理。其中,本实施例在检测音频信号中的静音段和非静音段时,可通过VAD(Voice Activity Detection,语音活动检测)算法来实现。
S103、基于非静音段的音频信号对调参数据进行处理,生成修正后的目标调参数据;
在本实施例中,识别出非静音段的音频信号后,需要基于非静音段的音频信号对调参数据进行处理,以对调参数据进行修正;具体来说,本方案基于非静音段的音频信号对调参数据进行处理时,主要是通过处于非静音段的音频信号的时间位置,确定调参数据中待处理的数据,以对待处理的数据进行修正,例如:音频信号共3分钟,其中,静音段为0~1分钟,非静音段为1~3分钟,因此方案需要根据音频信号中的非静音段的1~3分钟,确定调参数据中对这1~3分钟音频信号进行调节的数据,通过对该数据进行处理生成修正后的目标调参数据,以保证动态处理后的音频信号自然度高,实现音频信号的保真输出。
例如:若调参数据为调参曲线,则本实施例对调参曲线进行修正时,可从多个方面来对调参曲线进行修正,如:检测到调参曲线中曲线值变化过于剧烈时,可通过调整曲线值变化程度的方式进行修正;检测到音频信号中存在人声时,通过对该人声起始处所对应的调参曲线进行平滑处理,避免人声起始处产生听感不自然现象等等。并且,对调参曲线进行修正时,可以根据默认设置的修正方式来对调参曲线进行修正,但是为了满足用户的个性化需求,在本实施例中,用户可以根据需求自动选择对应的修正方式,也即:本方案可以根据默认的修正方式来对调参曲线进行修正,也可以根据用户选择的修正方式对调参曲线进行修正,获得修正后的目标调参曲线。
S104、利用目标调参数据对音频信号进行变速处理和/或变调处理。
在本实施例中,通过对调参数据进行修正获得目标调参数据后,可通过该目标调参数据对音频信号进行变速处理、或者变调处理、或者变速处理和变调处理,具体执行哪种处理在此并不具体限定。具体来说,在对音频信号进行变速处理和/或变调处理时,可通过多种方式实现。如:可通过PV相频声码器实现变速处理、通过SOLA算法实现变速处理、通过OLA(overlap adding,重叠相加)算法实现变速处理、通过重采样技术实现变调处理等等,用户可根据实际需求进行选择,或者通过默认处理方式进行处理。
综上可以看出,本申请获取调参数据后,需要基于音频信号的非静音段对该调参数据进行修正,以通过修正后的调参数据对音频信号进行变速处理和/或变调处理,通过这种方式,可以避免因调参数据导致的听感不自然问题,从而提高变速变调效果。
本申请实施例公开了一种音频信号处理方法方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。
参见图3,为本申请实施例提供的第二种音频信号处理方法流程示意图,如图3所示,该方法包括:
S201、获取音频信号以及与音频信号对应的调参数据;
需要说明的是,为了保证音频信号的处理效果,本方案在获取与音频信号对应的调参数据之后,在对调参数据进行修正之前,还包括:判断调参数据的最大值和最小值是否均在预定范围内;若是,则继续执行识别音频信号中的静音段和非静音段的步骤;若否,则生成提醒信息,提醒信息用于提醒用户修改所述调参数据。
可以理解的是,在对音频信号进行处理时,若调参数据的数据值在合适的范围内,那么处理后的音频信号会有较好的听感,若该数据值超过或者低于该预定范围,处理后的音频信号效果会变差。因此本申请在检测到该调参数据的最大值超过该预定范围,或者最小值小于该预定范围时,可以生成一个提醒信息,该提醒信息用于提醒用户该调参数据的最大值和/或最小值超出预定范围,并提示用户修改该调参数据;若用户不修改调参数据,则基于原始输入的调参数据执行后续操作;如果用户对该调参数据进行修改,则基于用户输入的修改后的调参数据执行后续操作。
如:若将曲线值的最大值和最小值控制在2倍速以内时,处理后的音频信号效果最好,因此可以预先设置预定范围为[0.5,2],若检测到调参曲线的最大曲线值大于2,则生成提醒信息:“调参曲线的最大曲线值大于适宜范围的最大值2,请问是否需要修改调参曲线”这一提醒信息,若检测到调参曲线的最小曲线值小于0.5,则生成提醒信息:“调参曲线的最小曲线值小于适宜范围的最小值0.5,请问是否需要修改调参曲线”这一提醒信息,并基于用户的选择来执行后续处理。
S202、识别音频信号中的静音段和非静音段,将调参数据中与静音段对应的数据值设置为1;
需要说明的是,由于静音段不含有任何声音,因此对于静音段而言,变速可以通过简单地OLA算法(Overlap-and-Add,重叠叠加算法)实现;对于变调而言,由于是否变调对听感无影响,因此也可以不做变调处理。因此,本实施例为了减少变速变调处理的工作量,可将与静音段对应的数据值设置为1,如:音频信号中10秒~13秒为静音段,因此,无论调参曲线的10秒~13秒的原曲线值为多少,都强制修改为1。
S203、若该调参数据为调参曲线,则检测到调参曲线中存在无效的波峰和/或波谷后,对无效的波峰和/或波谷进行平滑处理,获得修正后的目标调参曲线;
需要说明的是,调参曲线的曲线值在短时间内剧烈变化时,其调参曲线在短时间内会快速上升又快速下降,或者快速下降又快速上升,在本实施例中,对于短时间内快速上升又快速下降称为无效的波峰,对于短时间内快速下降又快速上升的称为无效的波谷。因此,在本实施例中,为了避免调参曲线中曲线值变化过于剧烈,在对调参曲线进行修正时,可通过检测调参曲线中无效的波峰和/或波谷的方式快速定位调参曲线中剧烈变化的曲线值,然后将检测出的无效的波峰和/或波谷进行平滑处理,去除无效的波峰和波谷,得到修正后的目标调参曲线,因此通过该目标调参曲线对音频信号进行变速处理和/或变调处理时,可以避免因为调参曲线的剧烈变化导致处理后的音乐出现噪音,提高用户的听音感受。
S204、利用目标调参曲线对音频信号进行变速处理和/或变调处理。
可以理解的是,识别音频信号中的静音段和非静音段之后,本实施例还可进一步识别非静音段中的和谐音段和打击音段;相应的,在利用目标调参数据对音频信号进行变速处理时,可通过相频声码器对和谐音段进行变速处理,通过SOLA算法对打击音段进行变速处理。
具体来说,由于音乐信号主要可分为和谐音(Harmonic)以及打击音(Percussion)两大部分,这两类音乐具有相对明显的频谱分布,如:Harmonic语谱图上具有横向评估平稳度,Percussion在频谱图上具有更明显的纵向能量,因此,若该音频信号为音乐信号,则对该非静音段做HPS(Harmonic and Percussion Separation,和谐音与打击音分离)处理,然后基于不同音频段的特点做不同变速处理。如:由于和谐音具有相对明显的频谱分布,因此可通过PV进行变速处理,而对于频谱图具有更明显的纵向能量的Percussion,则可利用SOLA进行变速,通过这两个算法对不同的音频段执行变速处理后,可重构回与音频信号对应的完整变速音频。
综上可以看出,本实施例通过将静音段的数据值设置为1的方式,可以在减少变速变调处理的工作量,提高处理速度;并且,本实施例在检测到调参曲线中具有无效的波峰和/或波谷时,可通过对无效的波峰和/或波谷进行平滑处理,去除无效的波峰和/或波谷,得到修正后的目标调参曲线,通过该目标调参曲线对音频信号进行变速处理和/或变调处理时,可以避免因为调参曲线的剧烈变化导致处理后的音乐出现噪音,提高用户的听音感受。
参见图4,为本申请实施例提供的第三种音频信号处理方法流程示意图,在本实施例中,具体以调参数据为调参曲线为例对本方案进行具体说明。
如图4所示,该方法包括:
S301、获取音频信号以及与音频信号对应的调参曲线;
S302、识别音频信号中的静音段和非静音段,将调参曲线中与静音段对应的曲线值设置为1;
S303、确定所述调参曲线上的各个样点;其中,所述调参曲线上的每两个样点之间的时间间隔均为第一预定时长;
在本实施例中,为了对调参曲线进行修正,可在调参曲线中选取样点,通过对样点之间的曲线值之差的判断,查找出无效的波峰以及波谷。设置调参曲线中各个样点的方式可以为:预先设定第一预定时长,以调参曲线的端点为首个样点,每间隔第一预定时长在调参曲线中设置一个样点,通过该方式,便可在调参曲线中设置多个样点,且相邻样点之间的间隔为第一预定时长,该第一预定时长可以为用户自定义设置的,也可以为系统默认的,如:可将该第一预定时长设置为5ms。需要说明的是,调参曲线的横向表示时间,纵向表示曲线值,因此,本方案在调参曲线上设置各个样点后,每个样点均具有对应的曲线值。
S304、从调参曲线中确定第一目标曲线,第一目标曲线包括:任意两个相邻样点间的曲线值之差均大于第一预定阈值的目标上升曲线,和/或,任意两个相邻样点间的曲线值之差均大于第二预定阈值的目标下降曲线;
可以理解的是,为了从调参曲线中检测出无效的波峰和波谷,可先从调参曲线中识别出曲线斜率较大的第一目标曲线,在本实施例中,由于不同样点之间的时间间隔均相同,因此在识别曲线率较大的第一目标曲线时,可通过样点间的曲线值之差代表曲线斜率;具体来说,该第一目标曲线包括目标上升和目标下降曲线,在此分别进行说明。
在从调参曲线的起始点开始向后遍历该调参曲线直到最后,获得每两个样点之间的曲线值之差,将其作为两个样点之间的步长。然后预先设置第一预定阈值和第二预定阈值,该第一预定阈值为上升沿最大步长,该第二预定阈值为下降沿最大步长,在本实施例中,设置第一预定阈值为vdiff_h,其计算公式为:vdiff_h=0.5·(21/12-1),设置第二预定阈值为vdiff_l,其计算公式为:vdiff_l=0.5·(1-2-1/12)。
进一步,在遍历调参曲线中相邻样点间的曲线值之差时,若设定调参曲线为Scale曲线,则对于相连的两个样点i-1和i,其对应的曲线值分别为:scale(i-1)和scale(i),相应的,这两个样点间的曲线值之差vdiff的计算方式为:vdiff=scale(i)-scale(i-1)。若vdiff>vdiff_h,则代表样点i上升太快,此时需要找以样点i-1为起点,查找相邻两个样点的曲线值之差均大于第一预定阈值的曲线,该曲线即为目标上升曲线,查找过程包括如下步骤:
1.1、记录当前上升曲线的首个样点位置is,以及最后一个样点的位置ie,若目前的样点共包括i-1和i这两个样点,则is=i-1,ie=i;如:当前i=1时,is=0,ie=1,ie会根据查找到的满足曲线值之差条件的样点进行更新;
1.2、继续向后寻找相邻样点的曲线值之差大于第一预定阈值的样点,如:i=1时,样点0和样点1的曲线值之差vdiff>vdiff_h,则继续向后寻找,设置i=2,查看样点1和样点2的曲线值之差vdiff是否还大于vdiff_h,若是,则继续向后寻找,设置i=3,依次类推,直至相邻的曲线值之差vdiff<=vdiff_h为止,将满足条件的最后一个样点更新至ie,如i=5时,样点4和样点5的曲线值之差vdiff<=vdiff_h,也即i=5时曲线值之差不满足条件,因此i=4是最后一个满足条件的点,因此,将i=4更新至ie,此时:is=0,ie=4,也即:从样点0至样点4之间的曲线即为目标上升曲线,目标上升曲线的上升最大距离为:vdiff_mark=scale(ie)-scale(is)。
相对应的,若vdiff<-vdiff_l,则代表样点i-1和i下降太快,此时需要找以样点i-1为起点,相邻两个样点的曲线值之差均大于第二预定阈值的曲线,该曲线即为目标下降曲线,查找过程包括如下步骤:
2.1、记录当前下降曲线的首个样点位置is,以及最后一个样点的位置ie,若目前的样点共包括i-1和i这两个样点,则is=i-1,ie=i;如:当前i=1时,is=0,ie=1,ie会根据查找到的满足曲线值之差条件的样点进行更新;
2.2、继续向后寻找相邻样点的曲线值之差大于第二预定阈值的样点,如:i=1时,样点0和样点1的曲线值之差vdiff<-vdiff_l,则继续向后寻找,设置i=2,查看样点1和样点2的曲线值之差vdiff是否还小于-vdiff_l,若是,则继续向后寻找,设置i=3,依次类推,直至相邻的曲线值之差vdiff>=-vdiff_l为止,将满足条件的最后一个样点更新至ie,如i=5时,样点4和样点5的曲线值之差vdiff>=-vdiff_l,也即i=5时曲线值之差不满足条件,i=4是最后一个满足条件的点,因此,将i=4更新至ie,此时:is=0,ie=4,也即:从样点0至样点4之间的曲线即为目标下降曲线,目标下降曲线的下降最大距离为:vdiff_mark=scale(is)-scale(ie)。
S305、确定以第一目标曲线的最后一个样点为时间起点的第二预定时长内,与第一目标曲线的首个样点的曲线值之差最小的目标样点;其中,目标样点为调参曲线中除第一目标曲线之外的曲线上的样点;
进一步,本实施例确定目标上升曲线或者目标下降曲线后,需要判断该目标上升曲线是否在短时间内下降,或者判断该目标下降曲线是否在短时间内上升,也即:只有目标上升曲线在短时间内下降时,才能形成无效波峰,只有目标下降曲线在短时间内上升时,才能形成无效波谷。在本实施例中,判断波峰或者波谷是否为无效时,可通过波峰的回落程度或者波谷的上升程度来判定,在此,分别对目标生成曲线和目标下降曲线进行说明:
若第一目标曲线为目标上升曲线,且通过S304判定了is=0,ie=4,即:从样点0至样点4之间的曲线即为目标上升曲线,那么该目标上升曲线的首个样点为样点0,最后一个样点为样点4,以样点4为时间起点,查找以样点4为时间起点的第二预定时长内,与样点0的曲线值之差最小的目标样点,并且,由于本申请是为了确定目标上升曲线的回落程度,因此目标样点的选取范围并不包括目标上升曲线,也即:从目标上升曲线的最后一个样点向后寻找各个样点,如:设定查找的样点为样点k,则k的选取范围为ie+1,...,L,其中,L为样点的总数量,然后记录每个样点k与首个样点is之间的曲线值之差,该差值用d表示,也即:d=scale(k)-scale(is),k=ie+1,...,L。然后在第一目标曲线的最后一个样点为时间起点的第二预定时长内,从记录的各个样点与首个样点的差值中选择差值最小的节点作为目标节点。
同样的,若第一目标曲线为目标下降曲线,且通过S304判定了is=0,ie=4,即:从样点0至样点4之间的曲线即为目标下降曲线,那么该目标下降曲线的首个样点为样点0,最后一个样点为样点4,以样点4为时间起点,查找以样点4为时间起点的第二预定时长内,与样点0的曲线值之差最小的目标样点,并且,由于本申请是为了确定目标下降曲线的上升程度,因此目标样点的选取范围并不包括目标下降曲线,也即:从下降上升曲线的最后一个样点向后寻找各个样点,如:设定查找的样点为样点k,则k的选取范围为ie+1,...,L,其中,L为样点的总数量,然后记录每个样点k与首个样点is之间的曲线值之差,该差值用d表示,也即:d=scale(is)-scale(k),k=ie+1,...,L。然后在第一目标曲线的最后一个样点为时间起点的第二预定时长内,从记录的各个样点与首个样点的差值中选择差值最小的节点作为目标节点。
S306、判断首个样点与目标样点之间的曲线值之差是否小于预定距离值;若是,则执行S307;若否,则执行S308;
在本实施例中,需要预先设置预定距离值,目标样点确认后,便可通过该预定距离值对波峰的回落程度或者波谷的上升程度进行判定,如:第一目标曲线为目标上升曲线,则判断目标上升曲线中首个样点与目标样点之间的曲线值之差是否小于预定距离值,若小于预定距离值,则说明目标上升曲线的回落程度较大,也就是说明目标上升曲线在上升后短时间内下降,形成了无效的波峰;若不小于预定距离值,则说明目标上升曲线上升之后无回落或者回落程度不大,也即:目标上升曲线在上升后没有在短时间内下降,因此没有形成无效的波峰。
同样的,若第一目标曲线为目标下降曲线,则判断目标下降曲线中首个样点与目标样点之间的曲线值之差是否小于预定距离值,若小于预定距离值,则说明目标下降曲线的上升程度较大,也就是说明目标下降曲线在下降后短时间内上升,形成了无效的波峰;若不小于预定距离值,则说明目标下降曲线下降之后无上升或者上升程度不大,也即:目标下降曲线在下降后没有在短时间内上升,因此没有形成无效的波谷。
S307、将调参曲线中首个样点与目标样点之间的曲线通过直线替换,获得修正后的目标调参曲线;
S308、将S302得到的调参曲线作为修正后的目标调参曲线;
参见图5a、图5b和图5c,为本申请实施例提供的三种目标上升曲线示意图,通过图5a可以看出,目标上升曲线为样点is~样点ie的曲线,目标上升曲线到达波峰后有回落,则会在第二预定时长内(100ms)找到距离is最近的点,记为idx,若样点idx与样点is的曲线值之差小于预定距离值,则将当前波峰视为抖动过为剧烈的无效波峰,直接连接is与idx对应点,拉直该波峰,如图5a中is与idx之间的直线。可以理解的是,将is与idx之间的曲线拉直后,is与idx之间的每个样点的曲线值均会发生改变,从而实现了对调参曲线的修正;若目标上升曲线回落少或无回落,则找到的目标样点与首个样点之间的曲线值之差大于预定距离值,在该情况下,不对曲线值进行修改正;参见图5b,样点ie之后的曲线没有回落,所以不对曲线值进行修正;参见图5c,样点ie后的样点的曲线值均为1,也即曲线也没有回落,此时同样跳过不过处理。
参见图6a、图6b和图6c,为本申请实施例提供的三种目标下降曲线示意图,通过图6a可以看出,目标下降曲线为样点is~样点ie的曲线,目标下降曲线到达波谷后有上升,则会在第二预定时长内(100ms)找到距离is最近的点,记为idx,若样点idx与样点is的曲线值之差小于预定距离值,则将当前波谷视为抖动过为剧烈的无效波谷,直接连接is与idx对应点,拉直该波谷,如图6a中is与idx之间的直线。可以理解的是,将is与idx之间的曲线拉直后,is与idx之间的每个样点的曲线值均会发生改变,从而实现了对调参曲线的修正;若目标下降曲线上升少或无上升,则找到的目标样点与首个样点之间的曲线值之差大于预定距离值,在该情况下,不对曲线值进行修改正;参见图6b,样点ie之后的曲线上升程度小,所以不对曲线值进行修正;参见图6c,样点ie后的样点的曲线值均为1,也即曲线也没有上升,此时同样跳过不过处理。
S309、利用目标调参曲线对音频信号进行变速处理和/或变调处理。
通过上述步骤对调参曲线的参数值进行修正后,可以避免调参曲线中出现短时间内剧烈变化的波峰和波谷,因此通过修正后的目标调参曲线对音频信号进行处理,可以使得处理后的音频信号避免出现杂音,避免因参数变化剧烈导致处理后的音频听感不自然。
参见图7,为本申请实施例提供的第四种音频信号处理方法流程示意图,在本实施例中,具体以调参数据为调参曲线为例对本方案进行具体说明。如图7所示,该方法包括:
S401、获取音频信号以及与音频信号对应的调参曲线;
S402、识别音频信号中的静音段和非静音段,将调参曲线中与静音段对应的曲线值设置为1;
S403、若检测到调参曲线中存在无效的波峰和/或波谷,则对无效的波峰和/或波谷进行平滑处理;
S404、对调参曲线进行三角窗平滑处理,获得修正后的目标调参曲线;
S405、利用目标调参曲线对音频信号进行变速处理和/或变调处理。
在本实施例中,考虑到音频信号的短时平稳特点,在短时间内(如:25ms~30ms)曲线的音速和音调不会有剧烈的抖动,因此为了进一步对调参曲线进行修正,可对调参曲线添加三角窗平滑处理,也即:对调参曲线通过移动加权平均的方式对每个参数值进行修正。在对调参曲线进行修正时,以每个样点为中心点执行三角窗平滑处理,如:以当前样点为中心点,左右各偏移2帧共确定了5个样点,这5个样点按照时间顺序可排列为样点1、样点2、当前样点3、样点4、样点5,然后对这个5个样点设置对应的权重系数,该权重系数可以为用户自定义设置,也可以为默认设置的。
如:若设置样点1、样点2、当前样点3、样点4、样点5的权重系数为:1、2、3、2、1,则对当前样点执行三角窗平滑处理时,首先需要将各个样点的曲线值与对应的权重系数相乘后求和,并除以权重系数之和后,即可得到当前样点的处理结果,如:
Figure BDA0002784666560000131
通过该公式,便可获得当前样点3修正后的曲线值scale(3)',每个样点均执行上述操作后,便可实现对调参曲线的三角窗平滑处理,获得修正后的目标调参曲线。参见图8a,为本申请实施例提供的原始调参曲线示意图,参见图8b,为本实施例提供的一种调参曲线修正示意图,在图8b中,已将音频信号的静音段对应的曲线值设置为1;参见图8c,为本实施例提供的另一种调参曲线修正示意图,在图8c中,已将无效的波峰进行平滑处理;参见图8d,为本实施例提供的另一种调参曲线修正示意图,图8d中的曲线为进行三角窗平滑处理后的曲线。
可以看出,本实施例在对调参曲线中的剧烈变化的波峰和波谷进行修正后,还可以通过对调参曲线执行三角窗平滑处理的方式,使得修正后的目标调参曲线更平滑,因此通过目标调参曲线对音频信号进行处理,可以进一步提高处理后音频信号的听感,提高其自然度。
参见图9,为本申请实施例提供的第五种音频信号处理方法流程示意图,在本实施例中,具体以调参数据为调参曲线为例对本方案进行具体说明。如图9所示,该方法包括:
S501、获取音频信号以及与音频信号对应的调参曲线;
S502、识别音频信号中的静音段和非静音段,将调参曲线中与静音段对应的曲线值设置为1;
S503、若检测到调参曲线中存在无效的波峰和/或波谷,则对无效的波峰和/或波谷进行平滑处理;
S504、对调参曲线进行三角窗平滑处理;
S505、识别非静音段中清音至浊音的过渡段音频;对调参曲线中与过渡段音频对应的曲线做渐入处理,获得修正后的目标调参曲线;
S506、利用目标调参曲线对音频信号进行变速处理和/或变调处理。
需要说明的是,若该音频信号为带有歌唱声的音乐信号,那么在一句歌声的开始可能会以气泡音作为发声起点,因此在本实施例中,为了防止气泡音进行变速变调处理后听感不自然,可对调参曲线进行三角窗平滑处理之后,对音频信号中的气泡音进行识别,将与气泡音处对应的调参曲线执行渐入处理。具体来说,本申请对气泡音进行识别时,具体是通过对音频信号内歌声为清音到浊音的过渡段进行识别,并对该过渡段对应的调参曲线的曲线值做渐入处理,如:识别到清音到浊音的过渡段为音频信号的第10s~13s,则对调参曲线的第10s~13s的曲线值执行1~目标曲线值的渐入处理,该目标曲线值即为调参曲线中第13s的目标原曲线值,调参曲线进行修正后,从第10s~13s的曲线值即修正为1~目标原曲线值的过渡段,通过该方式,可以防止变调程度明显带来气泡音听感不自然。
参见图10,为本申请实施例提供的第六种音频信号处理方法流程示意图,如图10所示,该方法包括:
S601、获取音频信号以及与音频信号对应的调参数据;
S602、识别音频信号中的静音段和非静音段;;
S603、基于非静音段的音频信号对调参数据进行处理,生成修正后的目标调参数据;
S604、若对音频信号执行变速处理和变调处理,则计算调参数据的中值;
在本实施例中,若对音频信号执行的处理为变速处理和变调处理,那么本申请可以通过调参数据的中值来确定变速处理和变调处理的执行顺序。具体来说,在计算中值时,首先需要获取调参数据的最大值与最小值,并计算最大值与最小值的和,将和除以2后便可获得调参数据的中值。
S605、判断中值是否小于1;若是,则执行S606;若否,则执行S607;
S606、对利用目标调参数据音频信号执行变调处理后再执行变速处理;
S607、对利用目标调参数据音频信号执行变速处理后再执行变调处理。
需要说明的是,在对音频信号进行变调时,需对音频执行变速处理和变调处理,但是两者的执行顺序并不确定,如:可以是通过相频声码器PV变速后,再通过叠加重采样模块resample实现变调;或者通过重采样模块resample进行变调后,通过相频声码器PV变速获得变调结果。
在本实施例中,为了最大程度保持变调后音质,提升听感质量,根据调参数据的数据值来确定变速和变调的执行顺序。其中,若调参数据的中值小于1,则代表调参数据的大部分调参数据值为小于1,否则,代表调参数据的大部分数据值为大于等于1;因此,当调参数据的中值小于1时,可先通过重采样模块做变调处理,实现对音频信号的升采样,再通过相频声码器做变速处理,实现对时域的压缩得到降调后信号;当调参数据的中值不小于1时,可通过相频声码器做变速处理后,实现对时域的扩展,再通过重采样模块做变调处理,实现降采样得到降调后的信号。
参见图11,为本申请实施例提供的第七种音频信号处理方法流程示意图,如图11所示,该方法包括:
S701、获取音频信号以及与音频信号对应的调参数据;
S702、识别所述音频信号中的静音段和非静音段;
S703、基于所述非静音段的所述音频信号对所述调参数据进行处理,生成修正后的目标调参数据;
S704、若对音频信号执行变速处理和变调处理,则根据目标调参数据将音频信号分为不同的音频段;
S705、根据每个音频段所对应的数据值,确定每个音频段对应的处理方式,并基于所述处理方式对每个音频段进行变速处理和变调处理。
需要说明的是,在对音频信号进行变调时,需对音频执行变速处理和变调处理,但是两者的执行顺序并不确定,如:可以是通过相频声码器PV变速后,再通过叠加重采样模块resample实现变调;或者通过重采样模块resample进行变调后,通过相频声码器PV变速获得变调结果。
在本实施例中,可通过目标调参数据的数据值将音频信号分为不同的音频段,然后确定与不同音频段对应的处理方式。具体来说,本申请可将音频信号分为多个帧,每一帧音频信号对应调参数据中的一个数据值,如果该目标调参数据为目标调参曲线,则相对应的,每一帧音频信号对应调参曲线中的一个曲线值,每个音频段至少包括一帧音频信号。
进一步,若该目标调参数据为目标调参曲线,则本申请可根据调参曲线的曲线值,将音频信号分为不同类型的音频段,如:从目标调参曲线中识别第二目标曲线,该第二目标曲线包括:曲线值大于1的第一曲线、曲线值小于1的第二曲线、曲线值等于1的第三曲线中的至少一者;然后从音频信号中确定与每个第二目标曲线对应的音频段。在确定音频段的处理方式时,若与音频段对应的第二目标曲线为第一曲线,则处理方式为:利用第一曲线执行变速处理后再执行变调处理;若与音频段对应的第二目标曲线为第二曲线,则处理方式为:利用第二曲线执行变调处理后再执行变速处理;若与音频段对应的第二目标曲线为第三曲线,则处理方式为:不执行变速处理和变调处理。
通过这种方式,可以具体针对每个音频段通过不同的处理方式进行处理,如:当音频段的曲线值小于1时,可先通过重采样模块做变调处理,实现对音频信号的升采样,再通过相频声码器做变速处理,实现对时域的压缩得到降调后信号;当音频段的曲线值大于1时,可通过相频声码器做变速处理后,实现对时域的扩展,再通过重采样模块做变调处理,实现降采样得到降调后的信号;当音频段的曲线值等于1时,由于不需要进行变调处理,此时可不执行变速和变调操作;各个音频段通过不同的处理方式进行处理后,会得到与不同音频段对应的处理结果,然后再将各个处理结果按照时间先后进行拼接合成,得到处理后的音频信号。需要说明的是,曲线参数值在1附近切换时,会导致合成后的信号不连续,出现听感上的咔哒声,为解决该问题,可通过渐入渐出crossfade加权窗,对拼接处信号的变化位置坐抑制。
在本实施例中,具体提供一种变速变调方法,由于音乐信号本身为非单基频信号,因此本方案通过相频声码器PV做变速处理;通过串联高质量的重采样技术实现对音乐信号的实时变调效果,调参数据具体为调参曲线scale。
具体来说,本方案在调参曲线scale中设置多个样点,由于每个样点在调参曲线scale中具有对应的曲线值,若样点的数量为L,则可以生成序列的长度为L的scale值序列,该序列中包括与每个样点对应的曲线值。通过上述任意方法实施例对调参曲线修正后,调参曲线中与样点对应的曲线值会发生变化,因此,可将修正后的调参曲线对应的scale值序列称为new_scale值序列,同样的,该new_scale值序列的序列长度也为L。获得修正后的调参曲线后,后续即可通过修正后的调参曲线执行变速变调处理。
相频声码器主要分为:分析analysis,修改process,合成synthesis三个阶段。整个处理过程基于帧间偏移量来估计帧间各个频点上相位偏移量,从而实现帧间各个频点上信号的连续性。通过调参曲线实现动态PV变速过程,首先需要确定分析帧移以及合成帧移,然后利用基于OLA的STFT(short-time Fourier transform,短时傅里叶变换)得到动态变速后音频,处理过程如下:
1、帧移计算
在相频声码器进行变速时,以5ms为帧移,将音频信号划分为多帧音频信号,每帧音频信号的scale值顺序对应到new_scale值序列内的各个元素,并且,每帧音频信号的分析帧移has为5ms,合成帧移为该帧信号的曲线值与分析帧移的乘积,即:scale*5ms;其中,每帧信号的scale值决定了信号帧移变化程度。
在本实施例中,分析帧移系列为:
Figure BDA0002784666560000181
其中,fs表示采样率;
new_scale值序列为:
Figure BDA0002784666560000182
则合成帧移表示为:
Figure BDA0002784666560000183
需要说明的是,由于实际处理过程中的分析帧移、合成帧移用来表明样点位置,因此分析帧移、合成帧移需为整数值,因此需要对
Figure BDA0002784666560000184
做取整处理,该处理将导致scale参数有轻微改动,为了保证整个系统处理的一致性,此处需要对scale参数也做对应修改,过程处理描述如以下公式所示:
Figure BDA0002784666560000185
其中,round表示对向量内的各个元素取整,也即:通过对原分析帧移
Figure BDA0002784666560000186
原合成帧移
Figure BDA0002784666560000187
取整后获得更新后的分析帧移和合成帧移,并生成更新后的scale值序列:
Figure BDA0002784666560000188
其中,·/表示对符号两侧向量做点除操作。
2、STFT分析阶段
以固定帧长为基准做STFT变换,为保证每帧信号可以获得足够的频谱信息,将帧长定义为帧移的4倍左右。此处帧移包括分析帧移和合成帧移,此处定义帧移为10ms,故帧长最好大于40ms;若频率为48kHz,帧长为43ms,则该帧长为T=2048个采样点。对信号加窗截断,窗函数h(n)长度T。一般选用hann窗或hamming窗。通过STFT将每个分析帧信号转换到频域,定义第u帧第k个频点上信号的频谱函数表示为:
Figure BDA0002784666560000189
其中Ωk表示第k个频点的角频率。
3、帧移修改阶段
将每帧信号频谱幅度保持不变,仅修改相位信息,故可以定义处理后分帧信号的频谱特性表示为:
Figure BDA00027846665600001810
定义初始合成帧相位
Figure BDA00027846665600001811
后续合成帧相位调整如下:
定义分析帧间相位误差为:
Figure BDA00027846665600001812
提取该相位变化的辐角主值,得到落在[-π,π]区间上的误差量:
Figure BDA00027846665600001813
利用变速参数,构造第u帧的合成相位:
Figure BDA0002784666560000191
其中,
Figure BDA0002784666560000192
分别表示第u帧的分析帧移,合成帧移。
4、ISTFT合成阶段
相邻合成帧通过重叠相加进行拼接,定义合成窗函数w(n),定义yw(u,n)为第u帧合成频域信号
Figure BDA0002784666560000193
经反变换加窗后的时域表示,
Figure BDA0002784666560000194
为第u帧的实际输出信号。则最终输出应使
Figure BDA0002784666560000195
最小。由此得到最终合成信号:
Figure BDA0002784666560000196
需要说明的是,基本的相频声码器实现了相位帧间的连续平滑过度,可视为相位变化在语谱图中水平方向上的一致性。但并未明确相位垂直方向一致性的维持,即需要实现帧内频点间相位的一致性。由于各个频点垂直同步一致性不佳,会引入很多伪像,如人为噪声,即会在变速时出现混响(reverberation),对应听感上的声场后移以及瞬态模糊(transientsmearing)等相位失真现象。Laroche和Dolson提出锁相策略(PhaseLocking),改善上述问题。锁相技术主要通过选择并保持频谱幅度峰值周围的相对相位不变,实现相频的垂直一致性。
并且,信号分帧过程中,必然会有不同程度的频谱泄漏。这会造成某频率上的能量扩展到与该频率接近的若干相邻频点上。故需要移除该频率对相邻频点的影响,恒定锁相(Identity Phase Locking)通过直接提取分析帧内的幅度谱峰值分布,直接讲该分布特性映射到合成帧内。因此,在本实施例中,在ISTFT合成阶段,需要对合成相位进行修正,如:定义某一峰值频点kl,则该频点附近的合成相位修正为:
Figure BDA0002784666560000197
进一步,通过上述过程对音频信号进行变速处理后,需要通过重采样技术实现变调处理。需要说明的是,为提高系统计算效率,需要提升重采样速度。理论上相对完美的重采样,需要对信号进行复杂的插值,抽样过程,其中对于理想低通滤波器的估计,其耗时过长,不利于客户端的及时处理输出。而直接通过简单插值获取到的重采样会带来频谱镜像/混血问题,影响听感。最期望的重采样结果为在保证输出信号音质听感的同时,具有快速的处理效果,这必然要求信号直接从时域在做插值/抽取的同时,实现防镜像/混叠的低通滤波过程。经测试搜寻,在开源工具中libresample相较目前构造的理想重采样模块有着20倍左右的处理速度提升,处理后信号音质得到较为理想的保留,因此可通过libresample进行变调处理。
其中,本方案利用短时间片段(如5ms左右),对已变速的音频信号做重采样处理,完成变速不变调到变调不变速的转换。重采样系数确定如下:
对于PV参数序列:
Figure BDA0002784666560000201
为了得到变调后信号,需要做倒数处理,即原始参数取倒数得到重采样系数:
Figure BDA0002784666560000202
即当第u帧参数α(u)>1时,速度变慢;此时β(u)<1表示降采样速度变快,频率升高。由于α(u)·β(u)=1即,两次变速最终保证速度不变但频率升高,从而完成了升调处理。同样的过程应用于α(u)<1时实现降调处理。
参见图12,为本申请实施例提供的动态变速变调流程图;通过图12可以看出,输入音频信号x in经过VAD后,可对输入的调参曲线scale进行曲线确认scale_confirm后,输出修正后的曲线scale_out;进而,音频信号x in与修正后的曲线scale_out输入phase_vocoder相频声码器后,可以得到变速后信号:y_speedshift,变速信号y_speedshift继续输入重采样模块resample,可以得到变调后信号y_pitchshift。参见图13,为本发明实施例提供的一种优选的音频信号处理方法整体流程示意图,通过图13可以看出,本方案通过S801获取音频信号及调参曲线后,可通过S802~S809对调参曲线进行修正,如:将静音段对应的曲线值设置为1、对无效的波峰和波谷进行平滑处理、对处理后的调参曲线进行三角窗平滑处理、对过渡段音频对应的曲线做渐入处理,通过上述处理后,即可得到修正后的目标调参曲线,最后通过S810~S813确定处理顺序后,通过目标调参曲线对音频信号执行变速处理和变调处理。
可以看出,本方案通过对调参曲线中不合理的曲线值进行修正,使得本方案对音频信号在不同时刻实现不同程度的变速变调时,保证处理后信号的高自然度的输出。并且,本方案还可以结合输入信号的清浊音特点以及人声发声物理特性,对该调参曲线做进一步的修正,以实现最终动态变调后人声的自然高保真输出。
下面对本申请实施例提供的音频信号处理装置进行介绍,下文描述的音频信号处理装置与上文描述的音频信号处理方法可以相互参照。
参见图14,本申请实施例提供的一种音频信号处理装置结构示意图,如图14所示,该装置包括:
音频信号获取模块100,用于获取音频信号;
调参数据获取模块200,用于获取与所述音频信号对应的调参数据;
第一识别模块300,用于识别所述音频信号中的静音段和非静音段;
调参数据处理模块400,用于基于所述非静音段的所述音频信号对所述调参数据进行处理,生成修正后的目标调参数据;
音频信号处理模块500,用于利用所述目标调参数据对所述音频信号进行变速处理和/或变调处理。
其中,本装置还包括:
数据值设置模块,用于将所述调参数据中与所述静音段对应的数据值设置为1。
其中,所述调参数据处理模块具体用于:若检测到所述调参曲线中存在无效的波峰和/或波谷,则对所述无效的波峰和/或波谷进行平滑处理。
其中,所述调参数据处理模块包括:
第一确定单元,用于确定所述调参曲线上的各个样点;其中,所述调参曲线上的每两个样点之间的时间间隔均为第一预定时长;
第二确定单元,用于从所述调参曲线中确定第一目标曲线,所述第一目标曲线包括:任意两个相邻样点间的曲线值之差均大于第一预定阈值的目标上升曲线,和/或,任意两个相邻样点间的曲线值之差均大于第二预定阈值的目标下降曲线;
第三确定单元,用于确定以所述第一目标曲线的最后一个样点为时间起点的第二预定时长内,与所述第一目标曲线的首个样点的曲线值之差最小的目标样点;其中,所述目标样点为所述调参曲线中除所述第一目标曲线之外的曲线上的样点;
第一判断单元,用于判断所述首个样点与所述目标样点之间的曲线值之差是否小于预定距离值;若是,则触发替换单元;
替换单元,用于将所述调参曲线中所述首个样点与所述目标样点之间的曲线通过直线替换。
其中,本装置还包括:
平滑处理模块,用于对所述调参曲线进行三角窗平滑处理。
其中,本装置还包括:
第二识别模块,用于识别所述非静音段中清音至浊音的过渡段音频;并对所述调参曲线中与所述过渡段音频对应的曲线做渐入处理。
其中,本装置还包括:
第三识别模块,用于识别所述非静音段中的和谐音段和打击音段;
所述音频信号处理模块具体用于:通过相频声码器对所述和谐音段进行变速处理,通过SOLA算法对所述打击音段进行变速处理。
其中,本装置还包括:
判断模块,用于判断所述调参数据的最大值和最小值是否均在预定范围内;若是,则触发第一识别模块识别所述音频信号中的静音段和非静音段;若否,则触发提醒模块;
提醒模块,用于生成提醒信息,所述提醒信息用于提醒用户修改所述调参数据。
其中,音频信号处理模块包括:
计算单元,用于计算所述调参数据的中值;
第二判断单元,用于判断所述中值是否小于1;
若是,则触发第一处理单元;若否,则触发第二处理单元;
第一处理单元,用于利用所述目标调参数据对所述音频信号执行变调处理后再执行变速处理;
第二处理单元,用于利用所述目标调参数据对所述音频信号执行变速处理后再执行变调处理。
其中,音频信号处理模块包括:
音频段划分单元,用于根据所述目标调参数据将所述音频信号分为不同的音频段;
第四确定单元,用于根据每个音频段所对应的数据值,确定每个音频段对应的处理方式;
第三处理单元,用于基于所述处理方式对每个音频段进行变速处理和变调处理。
其中,音频段划分单元具体用于:从所述目标调参曲线中识别第二目标曲线;从所述音频信号中确定与每个第二目标曲线对应的音频段;其中,所述第二目标曲线包括曲线值大于1的第一曲线、曲线值小于1的第二曲线、曲线值等于1的第三曲线中的至少一者。
其中,第三处理单元具体用于:若与音频段对应的第二目标曲线为第一曲线,则处理方式为:利用所述第一曲线执行变速处理后再执行变调处理;若与音频段对应的第二目标曲线为第二曲线,则处理方式为:利用所述第二曲线执行变调处理后再执行变速处理;若与音频段对应的第二目标曲线为第三曲线,则处理方式为:不执行变速处理和变调处理。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。本申请还提供了一种电子设备,参见图15,本申请实施例提供的一种电子设备10的结构图,如图15所示,可以包括处理器11和存储器12。
其中,处理器11可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器11可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器11也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器11可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器11还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器12可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器12还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器12至少用于存储以下计算机程序121,其中,该计算机程序被处理器11加载并执行之后,能够实现前述任一实施例公开的音频信号处理方法中的相关步骤。另外,存储器12所存储的资源还可以包括操作系统122和数据123等,存储方式可以是短暂存储或者永久存储。其中,操作系统122可以包括Windows、Unix、Linux等。
在一些实施例中,电子设备10还可包括有显示屏13、输入输出接口14、通信接口15、传感器16、电源17以及通信总线18。
当然,图15所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备可以包括比图15所示的更多或更少的部件,或者组合某些部件。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任一方法实施例所述的音频信号处理方法的步骤。其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (13)

1.一种音频信号处理方法,其特征在于,所述方法包括:
获取音频信号以及与所述音频信号对应的调参数据;
识别所述音频信号中的静音段和非静音段;
基于所述非静音段的所述音频信号对所述调参数据进行处理,生成修正后的目标调参数据;
利用所述目标调参数据对所述音频信号进行变速处理和/或变调处理。
2.根据权利要求1所述的音频信号处理方法,其特征在于,所述识别所述音频信号中的静音段和非静音段之后,还包括:
将所述调参数据中与所述静音段对应的数据值设置为1。
3.根据权利要求2所述的音频信号处理方法,其特征在于,若所述调参数据为调参曲线,则所述基于所述非静音段的所述音频信号对所述调参数据进行处理包括:
若检测到所述调参曲线中存在无效的波峰和/或波谷,则对所述无效的波峰和/或波谷进行平滑处理。
4.根据权利要求3所述的音频信号处理方法,其特征在于,所述若检测到所述调参曲线中存在无效的波峰和/或波谷,则对所述无效的波峰和/或波谷进行平滑处理,包括:
确定所述调参曲线上的各个样点;其中,所述调参曲线上的每两个样点之间的时间间隔均为第一预定时长;
从所述调参曲线中确定第一目标曲线,所述第一目标曲线包括:任意两个相邻样点间的曲线值之差均大于第一预定阈值的目标上升曲线,和/或,任意两个相邻样点间的曲线值之差均大于第二预定阈值的目标下降曲线;
确定以所述第一目标曲线的最后一个样点为时间起点的第二预定时长内,与所述第一目标曲线的首个样点的曲线值之差最小的目标样点;其中,所述目标样点为所述调参曲线中除所述第一目标曲线之外的曲线上的样点;
判断所述首个样点与所述目标样点之间的曲线值之差是否小于预定距离值;若是,则将所述调参曲线中所述首个样点与所述目标样点之间的曲线通过直线替换。
5.根据权利要求3所述的音频信号处理方法,其特征在于,所述对所述无效的波峰和/或波谷进行平滑处理之后,还包括:
对所述调参曲线进行三角窗平滑处理。
6.根据权利要求5所述的音频信号处理方法,其特征在于,所述对所述调参曲线进行三角窗平滑处理之后,还包括:
识别所述非静音段中清音至浊音的过渡段音频;
对所述调参曲线中与所述过渡段音频对应的曲线做渐入处理。
7.根据权利要求1所述的音频信号处理方法,其特征在于,所述识别所述音频信号中的静音段和非静音段之后,还包括:
识别所述非静音段中的和谐音段和打击音段;
相应的,利用所述目标调参数据对所述音频信号进行变速处理包括:
通过相频声码器对所述和谐音段进行变速处理,通过SOLA算法对所述打击音段进行变速处理。
8.根据权利要求1所述的音频信号处理方法,其特征在于,获取与所述音频信号对应的调参数据之后,还包括:
判断所述调参数据的最大值和最小值是否均在预定范围内;
若是,则继续执行所述识别所述音频信号中的静音段和非静音段的步骤;
若否,则生成提醒信息,所述提醒信息用于提醒用户修改所述调参数据。
9.根据权利要求1至8任意一项所述的音频信号处理方法,其特征在于,利用所述目标调参数据对所述音频信号进行变速处理和变调处理,包括:
计算所述调参数据的中值;
判断所述中值是否小于1;
若是,则利用所述目标调参数据对所述音频信号执行变调处理后再执行变速处理;若否,则利用所述目标调参数据对所述音频信号执行变速处理后再执行变调处理。
10.根据权利要求1至8任意一项所述的音频信号处理方法,其特征在于,利用所述目标调参数据对所述音频信号进行变速处理和变调处理,包括:
根据所述目标调参数据将所述音频信号分为不同的音频段;
根据每个音频段所对应的数据值,确定每个音频段对应的处理方式,并基于所述处理方式对每个音频段进行变速处理和变调处理。
11.根据权利要求10所述的音频信号处理方法,其特征在于,若所述目标调参数据为目标调参曲线,则根据所述目标调参曲线将所述音频信号分为不同的音频段,包括:
从所述目标调参曲线中识别第二目标曲线;其中,所述第二目标曲线包括曲线值大于1的第一曲线、曲线值小于1的第二曲线、曲线值等于1的第三曲线中的至少一者;
从所述音频信号中确定与每个第二目标曲线对应的音频段。
12.根据权利要求11所述的音频信号处理方法,其特征在于,根据每个音频段所对应的数据值,确定每个音频段对应的处理方式,包括:
若与音频段对应的第二目标曲线为第一曲线,则处理方式为:利用所述第一曲线执行变速处理后再执行变调处理;若与音频段对应的第二目标曲线为第二曲线,则处理方式为:利用所述第二曲线执行变调处理后再执行变速处理;若与音频段对应的第二目标曲线为第三曲线,则处理方式为:不执行变速处理和变调处理。
13.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至12任一项所述的音频信号处理方法的步骤。
CN202011294030.XA 2020-11-18 2020-11-18 一种音频信号处理方法及设备 Pending CN112420062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011294030.XA CN112420062A (zh) 2020-11-18 2020-11-18 一种音频信号处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294030.XA CN112420062A (zh) 2020-11-18 2020-11-18 一种音频信号处理方法及设备

Publications (1)

Publication Number Publication Date
CN112420062A true CN112420062A (zh) 2021-02-26

Family

ID=74774731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294030.XA Pending CN112420062A (zh) 2020-11-18 2020-11-18 一种音频信号处理方法及设备

Country Status (1)

Country Link
CN (1) CN112420062A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241082A (zh) * 2021-04-22 2021-08-10 杭州朗和科技有限公司 变声方法、装置、设备和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060093455A (ko) * 2005-02-21 2006-08-25 재단법인서울대학교산학협력재단 음성 시스템을 통한 오디오 정보 제공 시스템
CN1967657A (zh) * 2005-11-18 2007-05-23 成都索贝数码科技股份有限公司 节目制作中的说话人声音自动跟踪变调系统和方法
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
US20170098439A1 (en) * 2015-10-06 2017-04-06 Yamaha Corporation Content data generating device, content data generating method, sound signal generating device and sound signal generating method
CN107170464A (zh) * 2017-05-25 2017-09-15 厦门美图之家科技有限公司 一种基于音乐节奏的语音变速方法及计算设备
CN108257613A (zh) * 2017-12-05 2018-07-06 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN108269579A (zh) * 2018-01-18 2018-07-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
US20190392802A1 (en) * 2018-06-25 2019-12-26 Casio Computer Co., Ltd. Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus
CN111739544A (zh) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060093455A (ko) * 2005-02-21 2006-08-25 재단법인서울대학교산학협력재단 음성 시스템을 통한 오디오 정보 제공 시스템
CN1967657A (zh) * 2005-11-18 2007-05-23 成都索贝数码科技股份有限公司 节目制作中的说话人声音自动跟踪变调系统和方法
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
US20170098439A1 (en) * 2015-10-06 2017-04-06 Yamaha Corporation Content data generating device, content data generating method, sound signal generating device and sound signal generating method
CN107170464A (zh) * 2017-05-25 2017-09-15 厦门美图之家科技有限公司 一种基于音乐节奏的语音变速方法及计算设备
CN108257613A (zh) * 2017-12-05 2018-07-06 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN108269579A (zh) * 2018-01-18 2018-07-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
US20190392802A1 (en) * 2018-06-25 2019-12-26 Casio Computer Co., Ltd. Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus
CN111739544A (zh) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241082A (zh) * 2021-04-22 2021-08-10 杭州朗和科技有限公司 变声方法、装置、设备和介质
CN113241082B (zh) * 2021-04-22 2024-02-20 杭州网易智企科技有限公司 变声方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
EP1308928B1 (en) System and method for speech synthesis using a smoothing filter
JP4641620B2 (ja) ピッチ検出の精密化
EP2264696B1 (en) Voice converter with extraction and modification of attribute data
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JP3294604B2 (ja) 波形の加算重畳による音声合成のための処理装置
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
WO1999030315A1 (fr) Procede et dispositif de traitement du signal sonore
JPH031200A (ja) 規則型音声合成装置
JP2002515610A (ja) 位相変化からの雑音寄与度の決定に基づく音声符号化
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
EP3480810A1 (en) Voice synthesizing device and voice synthesizing method
Al-Radhi et al. Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis.
JP2612868B2 (ja) 音声の発声速度変換方法
CN112420062A (zh) 一种音频信号处理方法及设备
JP2004272292A (ja) 音信号加工方法
JP2002358090A (ja) 音声合成方法、音声合成装置及び記録媒体
JP4358221B2 (ja) 音信号加工方法及び音信号加工装置
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
CN116168678A (zh) 语音合成方法、装置、计算机设备和存储介质
JP2612867B2 (ja) 音声ピッチ変換方法
JP2003208188A (ja) 日本語テキスト音声合成方法
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
KR100715013B1 (ko) 대역확장장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination