CN112086085A - 音频信号的和声处理方法、装置、电子设备和存储介质 - Google Patents
音频信号的和声处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112086085A CN112086085A CN202010829749.2A CN202010829749A CN112086085A CN 112086085 A CN112086085 A CN 112086085A CN 202010829749 A CN202010829749 A CN 202010829749A CN 112086085 A CN112086085 A CN 112086085A
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- audio signal
- data points
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 344
- 238000003672 processing method Methods 0.000 title description 8
- 238000001228 spectrum Methods 0.000 claims abstract description 335
- 230000000630 rising effect Effects 0.000 claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000001174 ascending effect Effects 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 8
- 239000011295 pitch Substances 0.000 description 191
- 230000000694 effects Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Abstract
本申请涉及一种音频信号的和声处理方法、装置、设备和介质。方法包括:获取初始音高的升调频率比和降调频率比;利用升调频率比确第一音频数据点,利用降调频率比确定第二音频数据点;确定各第一音频数据点的幅度形成升调谱以及各第二音频数据点的幅度形成降调谱;基于升调谱获取第一信号,基于降调谱获取第二信号;利用升调频率比确定第三音频数据点,利用降调频率比确定第四音频数据点;确定各第三音频数据点的幅度,形成升调和声谱,以及各第四音频数据点的幅度形成降调和声谱;基于升调和声谱获取升调和声信号,降调和声谱获取降调和声信号;叠加升调和声信号与降调和声信号得到和声。采用本方法能够降低计算量,可适用于较小的音频处理系统。
Description
技术领域
本申请涉及音频数据处理技术领域,特别是涉及一种音频信号的和声处理方法、装置、电子设备和存储介质。
背景技术
近年来,语音合成技术获得了快速发展,语音合成具体表现形式有和声、电音等效果。和声,即两个以上不同的音按一定的法则同时发声而构成的音响组合。它包含:和弦,是和声的基本素材,由3个或3个以上不同的音,根据三度叠置或其他方法同时结合构成,是它的纵向结构;和声进行,各和弦相互连接、转换,是它的横向结构,通过纵向和横向合成或连接,实现和声效果。
目前,对和声的处理通常采用训练好的神经网络对输入的声音信号进行处理,从而输出和声文件,然而,引入神经网络处理,需要输入大量训练源数据,包括主音符序列以及和声序列作为训练得到模型,且计算量庞大复杂,不适用较小的音频处理系统。
发明内容
基于此,有必要针对上述技术问题,提供一种音频信号的和声处理方法、装置、电子设备和存储介质。
一种音频信号的和声处理方法,所述方法包括:
获取音频信号的初始音高对应的升调频率比和降调频率比;所述初始音高根据所述音频信号的基频确定;
利用所述升调频率比确定所述音频信号的多个第一音频数据点,以及,利用所述降调频率比确定所述音频信号的多个第二音频数据点;
根据所述音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据所述音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;
基于所述音频信号的相位谱和所述升调幅度谱获取第一音频信号,以及,基于所述音频信号的相位谱和所述降调幅度谱获取第二音频信号;
利用所述升调频率比确定所述第一音频信号的多个第三音频数据点,以及,利用所述降调频率比确定所述第二音频信号的多个第四音频数据点;
根据所述第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据所述第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;
基于所述第一音频信号的相位谱和所述升调和声幅度谱获取升调和声信号,以及,基于所述第二音频信号的相位谱和所述降调和声幅度谱获取降调和声信号;
叠加所述升调和声信号与所述降调和声信号得到所述音频信号的和声。
在其中一个实施例中,所述根据所述音频信号的幅度谱确定各第一音频数据点对应的幅度值,包括:获取当前第一音频数据点;从所述音频信号的幅度谱中确定与所述当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点;确定各第一目标音频数据点对应的第一高斯权值;基于所述第一高斯权值以及所述各第一目标音频数据点对应的幅度值确定所述当前第一音频数据点对应的幅度值;所述根据所述音频信号的幅度谱确定各第二音频数据点对应的幅度值,包括:获取当前第二音频数据点;从所述音频信号的幅度谱中确定与所述当前第二音频数据点相适应的多个音频数据点,作为多个第二目标音频数据点;确定各第二目标音频数据点对应的第二高斯权值;基于所述第二高斯权值以及所述各第二目标音频数据点对应的幅度值确定所述当前第二音频数据点对应的幅度值。
在其中一个实施例中,所述从所述音频信号的幅度谱中确定与所述当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点,包括:获取预设的第一频点个数;按照所述音频信号的幅度谱中的音频数据点顺序,将所述音频信号的幅度谱中与所述当前第一音频数据点最靠近的音频数据点作为第一目标音频中值点;将所述音频信号的幅度谱中位于所述第一目标音频中值点之前的所述第一频点个数的音频数据点,以及位于所述第一目标音频中值点之后的所述第一频点个数的音频数据点,作为所述第一目标音频数据点;所述从所述音频信号的幅度谱中确定与所述当前第二音频数据点相适应的多个音频数据点,作为多个第二目标音频数据点,包括:按照所述音频信号的幅度谱中的音频数据点顺序,将所述音频信号的幅度谱中与所述当前第二音频数据点最靠近的音频数据点作为第二目标音频中值点;将所述音频信号的幅度谱中位于所述第二目标音频中值点之前的所述第一频点个数的音频数据点,以及位于所述第二目标音频中值点之后的所述第一频点个数的音频数据点,作为所述第二目标音频数据点。
在其中一个实施例中,所述方法还包括:若所述音频信号的幅度谱中位于所述第一目标音频中值点之前的音频数据点的数量小于所述第一频点个数,或所述音频信号的幅度谱中位于所述第一目标音频中值点之后的音频数据点的数量小于所述第一频点个数,则将对应的第一目标音频数据点对应的幅度值归零;和/或若所述音频信号的幅度谱中位于所述第二目标音频中值点之前的音频数据点的数量小于所述第一频点个数,或所述音频信号的幅度谱中位于所述第二目标音频中值点之后的音频数据点的数量小于所述第一频点个数,则将对应的第二目标音频数据点对应的幅度值归零。
在其中一个实施例中,所述根据所述第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,包括获取当前第三音频数据点;从所述第一音频信号的幅度谱中确定与所述当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点;确定各第三目标音频数据点对应的第一插值系数;基于所述第一插值系数以及所述各第三目标音频数据点对应的幅值确定所述当前第三音频数据点对应的幅度值;所述根据所述第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,包括:获取当前第四音频数据点;从所述第二音频信号的幅度谱中确定与所述当前第四音频数据点相适应的多个音频数据点,作为多个第四目标音频数据点;确定各第四目标音频数据点对应的第二插值系数;基于所述第二插值系数以及所述各第四目标音频数据点对应的幅度值确定所述当前第四音频数据点对应的幅度值。
在其中一个实施例中,所述从所述第一音频信号的幅度谱中确定与所述当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点,包括:获取预设的第二频点个数;按照所述第一音频信号的幅度谱的音频数据点顺序,从所述第一音频信号的幅度谱中选取出与向下取整处理后所述当前第三音频数据点的音频数据点,作为第三目标音频中值点;将所述第一音频信号的幅度谱中位于所述第三目标音频中值点之前的所述第二频点个数的音频数据点,以及位于所述当前第一音频数据点之后的所述第一频点个数的音频数据点,作为所述第三目标音频数据点;所述从所述第二音频信号的幅度谱中确定与所述当前第四音频数据点相适应的多个音频数据点,作为多个第四目标音频数据点,包括:按照所述第二音频信号的幅度谱的音频数据点顺序,从所述第二音频信号的幅度谱中选取出与向下取整处理后所述当前第四音频数据点的音频数据点,作为第四目标音频中值点;将所述第二音频信号的幅度谱中位于所述第四目标音频中值点之前的所述第二频点个数的音频数据点,以及位于所述四目标音频中值点之后的所述第二频点个数的音频数据点,作为所述第四目标音频数据点。
在其中一个实施例中,所述方法还包括:若所述第一音频信号的幅度谱中位于所述第三目标音频中值点之前的音频数据点的数量小于所述第二频点个数,或所述第一音频信号的幅度谱中位于所述第三目标音频中值点之后的音频数据点的数量小于所述第二频点个数,则将对应的第三目标音频数据点对应的幅度值归零;和/或若所述第二音频信号的幅度谱中位于所述第四目标音频中值点之前的音频数据点的数量小于所述第二频点个数,或所述第二音频信号的幅度谱中位于所述第四目标音频中值点之后的音频数据点的数量小于所述第二频点个数,则将对应的第四目标音频数据点对应的幅度值归零。
在其中一个实施例中,所述获取音频信号的初始音高对应的升调频率比和降调频率比,包括:获取所述初始音高对应的升调音高,以及所述升调音高的和弦标识;若所述升调音高的和弦标识为第一升调和弦标识,则获取所述升调音高与所述初始音高之间的半音的个数,作为第一半音个数;所述第一升调和弦标识为所述升调音高位于预设的和弦表中的和弦标识;根据所述第一半音个数确定所述升调频率比;和/或获取所述初始音高对应的降调音高,以及所述降调音高的和弦标识;若所述降调音高的和弦标识为第一降调和弦标识,则获取所述降调音高与所述初始音高之间的半音的个数,作为第二半音个数;所述第一降调和弦标识为所述降调音高位于所述和弦表中的和弦标识;根据所述第二半音个数确定所述降调频率比。
在其中一个实施例中,所述方法还包括:若所述升调音高的和弦标识为第二升调和弦标识,则从所述和弦表中获取与所述升调音高最接近的音高作为第一音高,并将所述第一音高与所述初始音高之间的半音的个数,作为所述第一半音个数;所述第二升调和弦标识为所述升调音高不位于所述和弦表中的和弦标识;和/或若所述降调音高的和弦标识为第二降调和弦标识,则从所述和弦表中获取与所述降调音高最接近的音高作为第二音高,并将所述第二音高与所述初始音高之间的半音的个数,作为所述第二半音个数;所述第二降调和弦标识为所述降调音高不位于所述和弦表中的和弦标识。
一种音频信号的和声处理装置,所述装置包括:
频率比确定模块,用于获取音频信号的初始音高对应的升调频率比和降调频率比;所述初始音高根据所述音频信号的基频确定;
第一数据点获取模块,用于利用所述升调频率比确定所述音频信号的多个第一音频数据点,以及,利用所述降调频率比确定所述音频信号的多个第二音频数据点;
第一幅度谱获取模块,用于根据所述音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据所述音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;
第一信号获取模块,用于基于所述音频信号的相位谱和所述升调幅度谱获取第一音频信号,以及,基于所述音频信号的相位谱和所述降调幅度谱获取第二音频信号;
第二数据点获取模块,用于利用所述升调频率比确定所述第一音频信号的多个第三音频数据点,以及,利用所述降调频率比确定所述第二音频信号的多个第四音频数据点;
第二幅度谱获取模块,用于根据所述第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据所述第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;
第二信号获取模块,用于基于所述第一音频信号的相位谱和所述升调和声幅度谱获取升调和声信号,以及,基于所述第二音频信号的相位谱和所述降调和声幅度谱获取降调和声信号;
和声信号获取模块,用于叠加所述升调和声信号与所述降调和声信号得到所述音频信号的和声。
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述音频信号的和声处理方法、装置、电子设备和存储介质,获取音频信号的初始音高对应的升调频率比和降调频率比;初始音高根据音频信号的基频确定;利用升调频率比确定音频信号的多个第一音频数据点,以及,利用降调频率比确定音频信号的多个第二音频数据点;根据音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;基于音频信号的相位谱和升调幅度谱获取第一音频信号,以及,基于音频信号的相位谱和降调幅度谱获取第二音频信号;利用升调频率比确定第一音频信号的多个第三音频数据点,以及,利用降调频率比确定第二音频信号的多个第四音频数据点;根据第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;基于第一音频信号的相位谱和升调和声幅度谱获取升调和声信号,以及,基于第二音频信号的相位谱和降调和声幅度谱获取降调和声信号;叠加升调和声信号与降调和声信号得到音频信号的和声。本申请通过升调频率比以及降调频率比对音频信号进行处理分别得到第一音频信号以及第二音频信号,并再次利用升调频率比以及降调频率比对第一音频信号以及第二音频信号分别得到升调和声信号以及降调和声信号,实现了对音频信号的音色和音高的单独处理,不需要引入神经网络的方式处理音频信号实现和声效果,从而降低计算量,可适用于较小的音频处理系统。
附图说明
图1为一个实施例中音频信号的和声处理方法的流程示意图;
图2为一个实施例中根据音频信号的幅度谱确定各第一音频数据点对应的幅度值的流程示意图;
图3为一个实施例中从音频信号的幅度谱中确定与当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点的流程示意图;
图4为一个实施例中根据第一音频信号的幅度谱确定各第三音频数据点对应的幅度值的流程示意图;
图5为一个实施例中从第一音频信号的幅度谱中确定与当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点的流程示意图;
图6为一个实施例中获取音频信号的初始音高对应的升调频率比和降调频率比的流程示意图;
图7为一个应用实例中基于改进基频搜索的和声处理系统的结构示意图;
图8为一个应用实例中第二部分和声处理的流程示意图;
图9为一个应用实例中音频信号的波形示意图;
图10为一个实施例中音频信号的和声处理装置的结构框图;
图11为一个实施例中电子设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种音频信号的和声处理方法,本实施例以该方法应用于终端进行举例说明,本实施例中,该方法包括以下步骤:
步骤S101,终端获取音频信号的初始音高对应的升调频率比和降调频率比;初始音高根据音频信号的基频确定。
其中,初始音高指的是终端得到音频信号未经过处理之前得到的音高,初始音高可以通过音频信号的基频确定,终端得到音频信号的基频后,可以通过12平均律音高与频率的换算方式,确定音频信号的初始音高,之后可按照预设音高度数对初始音高进行升调处理以及降调处理,例如可以对初始音高进行升3度或者降3度处理,分别得到升调音高以及降调音高,从而确定升调频率比与降调频率比。
步骤S102,终端利用升调频率比确定音频信号的多个第一音频数据点,以及,利用降调频率比确定音频信号的多个第二音频数据点。
终端得到升调频率比以及降调频率比后,可以基于升调频率比以及降调频率比,对音频信号进行重新采样,采样频率可以分别定义为升调频率比的倒数以及降调频率比的倒数,从而分别得到音频信号的多个第一音频数据点以及第二音频数据点。
步骤S103,终端根据音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;
步骤S104,终端基于音频信号的相位谱和升调幅度谱获取第一音频信号,以及,基于音频信号的相位谱和降调幅度谱获取第二音频信号。
之后,终端可通过傅里叶变换的方式提取音频信号的频谱,并从中分离出相位谱以及幅度谱,再根据每个得到的第一音频数据点的频率确定其对应的幅度值,从而可得到多个升调幅度值,形成升调幅度谱,同样,也可以根据每个第二音频数据点的频率,得到多个降调幅度值,形成降调幅度谱,最后可分别合成相位谱以及升调幅度谱,并进行傅里叶反变换,得到第一音频信号,以及合成相位谱以及降调幅度谱,并进行傅里叶反变换,得到第二音频信号。
步骤S105,终端利用升调频率比确定第一音频信号的多个第三音频数据点,以及,利用降调频率比确定第二音频信号的多个第四音频数据点。
步骤S104中终端得到第一音频信号以及第二音频信号,可以再次基于升调频率比以及降调频率比,对第一音频信号以及第二音频信号分别进行重新采样,采样频率可以设置为升调频率比以及降调频率比本身,从而分别得到多个第三音频数据点以及第四音频数据点。
步骤S106,终端根据第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;
步骤S107,终端基于第一音频信号的相位谱和升调和声幅度谱获取升调和声信号,以及,基于第二音频信号的相位谱和降调和声幅度谱获取降调和声信号。
其中,第一音频信号的幅度谱以及第二音频信号的幅度谱是终端分别对第一音频信号以及第二音频信号进行傅里叶变换得到,具体来说,终端进行傅里叶变换后可分别得到第一音频信号的幅度谱与相位谱以及第二音频信号的幅度谱与相位谱,之后可以从第一音频信号的幅度谱中确定每个第三音频数据点的幅度值,以及从第二音频信号的幅度谱中确定每个第四音频数据点的幅度值,从而分别形成升调和声幅度谱以及降调和声幅度谱。终端得到升调和声幅度谱以及降调和声幅度谱后,可分别合成第一音频信号的相位谱以及第二音频信号的相位谱,并将合成后的频谱进行反傅里叶变换,从而得到升调和声信号以及降调和声信号。
步骤S108,终端叠加升调和声信号与降调和声信号得到音频信号的和声。
具体地,步骤S107中终端得到升调和声信号以及降调和声信号后,可将升调和声信号与降调和声信号进行叠加处理,得到的信号即为需要处理的音频信号的和声信号。
上述音频信号的和声处理方法中,终端获取音频信号的初始音高对应的升调频率比和降调频率比;初始音高根据音频信号的基频确定;利用升调频率比确定音频信号的多个第一音频数据点,以及,利用降调频率比确定音频信号的多个第二音频数据点;根据音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;基于音频信号的相位谱和升调幅度谱获取第一音频信号,以及,基于音频信号的相位谱和降调幅度谱获取第二音频信号;利用升调频率比确定第一音频信号的多个第三音频数据点,以及,利用降调频率比确定第二音频信号的多个第四音频数据点;根据第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;基于第一音频信号的相位谱和升调和声幅度谱获取升调和声信号,以及,基于第二音频信号的相位谱和降调和声幅度谱获取降调和声信号;叠加升调和声信号与降调和声信号得到音频信号的和声。本申请中终端通过升调频率比以及降调频率比对音频信号进行处理分别得到第一音频信号以及第二音频信号,并再次利用升调频率比以及降调频率比对第一音频信号以及第二音频信号分别得到升调和声信号以及降调和声信号,实现了对音频信号的音色和音高的单独处理,不需要引入神经网络的方式处理音频信号实现和声效果,从而降低计算量,可适用于较小的音频处理系统。
在一个实施例中,如图2所示,步骤S103可以包括:
步骤S201,终端获取当前第一音频数据点;
步骤S202,终端从音频信号的幅度谱中确定与当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点。
其中当前第一音频数据点可以是多个第一音频数据点之中的任意一个,具体来说,终端可以先从多个第一音频数据点中确定出一个当前第一音频数据点,并基于上述当前第一音频数据点从原始音频信号的幅度谱中找出与当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点。
例如:原始音频信号可以由音频数据点A、音频数据点B、音频数据点C与音频数据点D组成,原始音频信号基于升调频率比进行采样后得到的多个第一音频数据点则可以是第一音频数据点A1、第一音频数据点B1、第一音频数据点C1以及第一音频数据点D1,如果当前第一音频数据点为A1,那么终端可以从原来的音频数据点A、音频数据点B、音频数据点C与音频数据点D中找到多个与当前第一音频数据点A1相适应的音频数据点,例如可以是音频数据点A和音频数据点B,作为多个第一目标音频数据点。
步骤S203,终端确定各第一目标音频数据点对应的第一高斯权值。
其中,第一高斯权值指的是高斯加权算法中不同第一目标音频数据点对应的高斯权值,由于不同的第一目标音频数据点与当前第一音频数据点在幅度谱中的距离有所不同,因此需要分别获取第一目标音频数据点对应的第一高斯权值,一般来说,越靠近当前第一音频数据点的第一目标音频数据点所占的第一高斯权值会越大,表明两个点之间关系越密切,例如音频数据点A与当前第一音频数据点A1之间的距离要小于音频数据点B与当前第一音频数据点A1之间的距离,那么音频数据点A对应的第一高斯权值则可以大于音频数据点B对应的第一高斯权值。
步骤S204,终端基于第一高斯权值以及各第一目标音频数据点对应的幅度值确定当前第一音频数据点对应的幅度值。
步骤S203中终端得到每个第一目标音频数据点对应的第一高斯权值后,可以从原始音频信号的幅度谱中,确定每个第一目标音频数据点对应的幅度值,并利用每个第一目标音频数据点对应的幅度值以及其对应的第一高斯权值,进而得到当前第一音频数据点对应的幅度值。
例如,当前第一音频数据点A1对应的第一目标音频数据点包括音频数据点A和音频数据点B,其中音频数据点A的幅度值为幅度值a2,其对应的第一高斯权值为a3,而音频数据点B的幅度值为幅度值b2,其对应的第一高斯权值为b3,那么当前第一音频数据点A1对应的幅度值即为a2a3+b2b3。
同理,步骤S103还可以包括:终端获取当前第二音频数据点;从音频信号的幅度谱中确定与当前第二音频数据点相适应的多个音频数据点,作为多个第二目标音频数据点;确定各第二目标音频数据点对应的第二高斯权值;基于第二高斯权值以及各第二目标音频数据点对应的幅度值确定当前第二音频数据点对应的幅度值。
具体来说,终端可以多个第二音频数据点中确定当前第二音频数据点,并基于得到的当前第二音频数据点从频信号的幅度谱中确定与当前第二音频数据点相适应的多个第二目标音频数据点,并分别得到每个第二目标音频数据点对应的高斯权值,作为第二高斯权值,最后可利用每个第二目标音频数据点的幅度值以及其对应的第二高斯权值得到当前第二音频数据点对应的幅度值。
进一步地,如图3所示,步骤S202进一步可以包括:
步骤S301,终端获取预设的第一频点个数。
其中,第一频点个数指的是用于决定终端需要获取的与当前第一音频数据点对应的第一目标音频数据点的数量,或者与当前第二音频数据点对应的第二目标音频数据点的数量,第一频点个数可以根据用户需要进行设置。
步骤S302,终端按照音频信号的幅度谱中的音频数据点顺序,将音频信号的幅度谱中与当前第一音频数据点最靠近的音频数据点作为第一目标音频中值点。
其中,第一目标音频中值点为多个第一目标音频数据点的中间点,具体来说,终端可以首先按照音频数据点顺序,从音频信号的幅度谱中将与当前第一音频数据点最靠近的音频数据点作为该第一目标音频中值点。例如,与当前第一音频数据点A1最靠近的音频数据点为音频数据点A,那么,音频数据点A则可以作为当前第一音频数据点对应的第一目标音频中值点。
步骤S303,终端将音频信号的幅度谱中位于第一目标音频中值点之前的第一频点个数的音频数据点,以及位于第一目标音频中值点之后的第一频点个数的音频数据点,作为第一目标音频数据点。
步骤S301以及步骤S302中终端分别得到第一频点个数以及第一目标音频中值点,可以按照音频信号的幅度谱中的音频数据点的顺序,位于第一目标音频中值点之前的第一频点个数的音频数据点,以及位于第一目标音频中值点之后的第一频点个数的音频数据点作为第一目标音频数据点。
例如:音频数据点的排列顺序为音频数据点B、音频数据点A、音频数据点C以及音频数据点D,如果当前第一音频数据点对应的第一目标音频中值点为音频数据点A,且预设的频点个数为1,那么则以音频数据点A为中心,以相邻的两个音频数据点即音频数据点B以及音频数据点C作为第一目标音频数据点。
同理,终端从音频信号的幅度谱中确定与当前第二音频数据点相适应的多个音频数据点,作为多个第二目标音频数据点,可以进一步包括:终端按照音频信号的幅度谱中的音频数据点顺序,将音频信号的幅度谱中与当前第二音频数据点最靠近的音频数据点作为第二目标音频中值点;将音频信号的幅度谱中位于第二目标音频中值点之前的第一频点个数的音频数据点,以及位于第二目标音频中值点之后的第一频点个数的音频数据点,作为第二目标音频数据点。
具体来说,终端可以按照音频信号的幅度谱中的音频数据点顺序,找出音频信号的幅度谱中与当前第二音频数据点最靠近的音频数据点,作为第二目标音频中值点,再基于预设的第一频点个数,从音频信号的幅度谱中确定出多个音频数据点,作为第二目标音频数据点。
进一步地,若音频信号的幅度谱中位于第一目标音频中值点之前的音频数据点的数量小于第一频点个数,或音频信号的幅度谱中位于第一目标音频中值点之后的音频数据点的数量小于第一频点个数,则终端将对应的第一目标音频数据点对应的幅度值归零;以及,若音频信号的幅度谱中位于第二目标音频中值点之前的音频数据点的数量小于第一频点个数,或音频信号的幅度谱中位于第二目标音频中值点之后的音频数据点的数量小于第一频点个数,则终端将对应的第二目标音频数据点对应的幅度值归零。
而如果位于第一目标音频中值点之前的音频数据点的数量小于第一频点个数,或音频信号的幅度谱中位于第一目标音频中值点之后的音频数据点的数量小于第一频点个数,那么终端会将超出部分对应的第一目标音频数据点对应的幅度值归零。例如:音频数据点的排列顺序为音频数据点B、音频数据点A、音频数据点C以及音频数据点D,如果当前第一音频数据点对应的第一目标音频中值点为音频数据点A,且预设的第一频点个数为2,由于音频数据点A之前只有音频数据点B,因此音频数据点A之前的音频数据点的数量小于第一频点个数,那么则仅将音频数据点B、音频数据点A、音频数据点C以及音频数据点D作为第一目标音频数据点,来计算当前第一音频数据点对应的幅值,超出部分的幅值进行置零。同理,如果位于第二目标音频中值点之前的音频数据点的数量小于第一频点个数,或音频信号的幅度谱中位于第二目标音频中值点之后的音频数据点的数量小于第一频点个数,那么终端会将超出部分对应的第二目标音频数据点对应的幅度值归零。
本实施例中,通过高斯加权的方式对音频信号进行调整,实现了频谱拉伸,完成了在音色上调整和声效果。
在一个实施例中,如图4所示,步骤S106可以包括:
步骤S401,终端获取当前第三音频数据点;
步骤S402,终端从第一音频信号的幅度谱中确定与当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点。
其中当前第三音频数据点可以是多个第三音频数据点之中的任意一个,具体来说,终端可以先从多个第三音频数据点中确定出一个当前第三音频数据点,并基于上述当前第三音频数据点从第一音频信号的幅度谱中找出与当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点。
步骤S403,终端确定各第三目标音频数据点对应的第一插值系数;
步骤S404,终端基于第一插值系数以及各第三目标音频数据点对应的幅值确定当前第三音频数据点对应的幅度值。
其中,第一插值系数指的是拉普拉斯插值法中使用的插值系数,可以用于近似确定一段曲线中某个任意点的坐标。拉普拉斯插值法需要确定一条曲线上多个已知点的坐标,并获取每个已知点对应的插值系数,即可得到该曲线中任意点的坐标。
具体来说,本实施例是将第三目标音频数据点作为第一音频信号的幅度谱上的已知点,并且分别确定每个第三目标音频数据点所对应的第一插值系数,最后则可以根据每个第三目标音频数据点的幅度值以及其对应的第一插值系数,得到当前第三音频数据点对应的幅度值。
同理,步骤S106还可以包括:终端获取当前第四音频数据点;从第二音频信号的幅度谱中确定与当前第四音频数据点相适应的多个音频数据点,作为多个第四目标音频数据点;确定各第四目标音频数据点对应的第二插值系数;基于第二插值系数以及各第四目标音频数据点对应的幅度值确定当前第四音频数据点对应的幅度值。
具体来说,终端可以确定当前第四音频数据点,并从第二音频信号的幅度谱中确定与当前第四音频数据点相适应的多个音频数据点,作为第四目标音频数据点,同时终端可得到每个第四目标音频数据点对应的插值系数,作为第二插值系数,以及每个第四目标音频数据点对应的幅度值,进而基于第二插值系数以及每个第四目标音频数据点对应的幅度值得到当前第四音频数据点对应的幅度值。
进一步地,如图5所示,步骤S402可以进一步包括:
步骤S501,终端获取预设的第二频点个数。
其中,第二频点个数指的是用于决定终端需要获取的与当前第三音频数据点对应的第三目标音频数据点的数量,或者与当前第四音频数据点对应的第四目标音频数据点的数量,第二频点个数可以根据用户需要进行设置。
步骤S502,终端按照第一音频信号的幅度谱的音频数据点顺序,从第一音频信号的幅度谱中选取出与向下取整处理后当前第三音频数据点的音频数据点,作为第三目标音频中值点。
其中,向下取整处理后当前第三音频数据点的音频数据点指的是与当前第三音频数据点最靠近的并且位于当前第三音频数据点之前的音频数据点,例如当前第三音频数据点A2位于音频数据点B以及音频数据点C之间,且第一音频信号的幅度谱的音频数据点顺序为音频数据点A、音频数据点B以及音频数据点C,那么得到的第三目标音频中值点则记为位于当前第三音频数据点A2之前且与当前第三音频数据点A2的音频数据点B作为第三目标音频中值点。
步骤S503,终端将第一音频信号的幅度谱中位于第三目标音频中值点之前的第二频点个数的音频数据点,以及位于当前第一音频数据点之后的第一频点个数的音频数据点,作为第三目标音频数据点。
步骤S501以及步骤S502中终端分别得到第二频点个数以及第三目标音频中值点,可以按照第一音频信号的幅度谱中的音频数据点的顺序,位于第三目标音频中值点之前的第二频点个数的音频数据点,以及位于第三目标音频中值点之后的第二频点个数的音频数据点作为第三目标音频数据点。
同理,终端从第二音频信号的幅度谱中确定与当前第四音频数据点相适应的多个音频数据点,作为多个第四目标音频数据点,可以进一步包括:终端按照第二音频信号的幅度谱的音频数据点顺序,从第二音频信号的幅度谱中选取出与向下取整处理后当前第四音频数据点的音频数据点,作为第四目标音频中值点;将第二音频信号的幅度谱中位于第四目标音频中值点之前的第二频点个数的音频数据点,以及位于四目标音频中值点之后的第二频点个数的音频数据点,作为第四目标音频数据点。
具体来说,终端可以按照第二音频信号的幅度谱中的音频数据点顺序,找出第二音频信号的幅度谱中与当前第四音频数据点最靠近的音频数据点,作为第四目标音频中值点,再基于预设的第二频点个数,从第二音频信号的幅度谱中确定出多个音频数据点,作为第四目标音频数据点。
进一步地,若第一音频信号的幅度谱中位于第三目标音频中值点之前的音频数据点的数量小于第二频点个数,或第一音频信号的幅度谱中位于第三目标音频中值点之后的音频数据点的数量小于第二频点个数,则将对应的第三目标音频数据点对应的幅度值归零;以及,若第二音频信号的幅度谱中位于第四目标音频中值点之前的音频数据点的数量小于第二频点个数,或第二音频信号的幅度谱中位于第四目标音频中值点之后的音频数据点的数量小于第二频点个数,则终端将对应的第四目标音频数据点对应的幅度值归零。
而如果位于第三目标音频中值点之前的音频数据点的数量小于第二频点个数,或第一音频信号的幅度谱中位于第三目标音频中值点之后的音频数据点的数量小于第二频点个数,那么终端会将超出部分对应的第三目标音频数据点对应的幅度值归零。同理,如果位于第四目标音频中值点之前的音频数据点的数量小于第二频点个数,或第二音频信号的幅度谱中位于第四目标音频中值点之后的音频数据点的数量小于第一频点个数,那么终端会将超出部分对应的第四目标音频数据点对应的幅度值归零。
本实施例中,通过拉格朗日插值法的方式遍历频点计算和声效果的频谱,完成了在音高上调整和声效果。
在一个实施例中,如图6所示,步骤S101可以包括:
步骤S601,终端获取初始音高对应的升调音高,以及升调音高的和弦标识。
其中升调音高可以由初始音高进行升调处理得到,例如可以对其进行升3度处理。具体地,终端可以对初始音高进行升调,得到对应的升调音高,并且可以利用预先存储的和弦表对升调音高进行匹配,根据升调音高是否位于该和弦表中确定该升调音高的和弦标识。
步骤S602,若升调音高的和弦标识为第一升调和弦标识,则终端获取升调音高与初始音高之间的半音的个数,作为第一半音个数;第一升调和弦标识为升调音高位于预设的和弦表中的和弦标识;
步骤S603,终端根据第一半音个数确定升调频率比。
如果升调音高位于该和弦表中,那么终端则可以确定此时的升调音高的和弦标识为第一升调和弦标识,并计算升调音高与初始音高之间的半音的个数,作为第一半音个数,并可以利用预设的频率比换算公式以及第一半音个数确定升调频率比。
同理,步骤S101还可以包括:终端获取初始音高对应的降调音高,以及降调音高的和弦标识;若降调音高的和弦标识为第一降调和弦标识,则获取降调音高与初始音高之间的半音的个数,作为第二半音个数;第一降调和弦标识为降调音高位于和弦表中的和弦标识;根据第二半音个数确定降调频率比。
终端还可以对初始音高进行降调处理,得到降调音高,并利用预设的和弦表确定降调音高的和弦标识,如果降调音高位于该和弦表中,那么终端可以将降调音高的和弦标识确定为第一降调和弦标识,并获取降调音高与初始音高之间的半音的个数作为第二半音个数,最后可基于预设的频率比换算公式以及第二半音个数确定降调频率比。
另外,若升调音高的和弦标识为第二升调和弦标识,则终端从和弦表中获取与升调音高最接近的音高作为第一音高,并将第一音高与初始音高之间的半音的个数,作为第一半音个数;第二升调和弦标识为升调音高不位于和弦表中的和弦标识;以及,若降调音高的和弦标识为第二降调和弦标识,则终端从和弦表中获取与降调音高最接近的音高作为第二音高,并将第二音高与初始音高之间的半音的个数,作为第二半音个数;第二降调和弦标识为降调音高不位于和弦表中的和弦标识。
而如果升调音高不位于和弦表中,那么终端就会将升调音高的和弦标识设置为第二升调和弦标识,并从和弦表中选出与升调音高最接近的音高作为第一音高,再计算第一音高与初始音高之间的半音个数,作为第一半音个数。同时,如果降调音高不位于和弦表中,那么终端就会将降调音高的和弦标识设置为第二降调和弦标识,并从和弦表中选出与降调音高最接近的音高作为第二音高,再计算第二音高与初始音高之间的半音个数,作为第二半音个数。
上述实施例中,可通过和弦表确定升调音高以及降调音高,并分别确定升调音高以及降调音高与初始音高之间的半音个数,进而得到升调频率比以及降调频率比,提高了得到的升调频率比以及降调频率比的准确性。
在一个应用实例中,提供了一种基于改进基频搜索的和声处理系统及方法,其中,该系统的整体架构,如图7所示,可包括:
拾音单元,获取音频信号。缓存音频信号,当音频信号累计缓存达到一帧数据时,将信号分别输入基频查找单元跟和声生成单元;
基频查找单元,通过基频估算算法算出对应的频率,以及该频率对应调式最接近的key值(即音阶值),并提取原始人声输出至混响单元。
音效定制单元,通过用户需求选择语音合成的效果类型;
和声处理单元,根据基频查找单元得到的key值,然后根据程序中存储的和弦表,然后生成和弦表中对应音高的声音,然后把主旋律的声音(输入音频)跟和声效果的声音混合起来输出至混响单元。
电音处理单元,计算基频查找模块算得的频率值以及key值对应的标准key的比值,按这个比值重新调整电音单元处理器参数,然后得到电音计算的结果输出至混响单元;
混响单元:对输入的原始人声、和声、电音进行混响处理,然后输出至限幅单元。
限幅单元,由于和声单元跟电音处理单元中会改变数据的幅值。这里将数据重新限幅到数字数模转换单元的位宽,最后输出至音频输出单元,得到和声音频。
具体来说,基于改进基频搜索的和声处理方法可以包括如下步骤:
1、获取时域音频信号,这里以采样率44.1kHz,位宽16bit的数据为例。
2、进行数据缓存,当数据到达一帧处理长度5ms的时候,输入基频查找单元。
3、基频查找单元中,将输入的音频通过一个截止频率为4k的低通滤波器,然后将滤波后的数据进行下采样,并基于预设的音频数据点选择区间,求得音频数据点选择区间中各采样点的自相关误差,形成自相关误差曲线,进而从自相关误差曲线找出最小波谷值以及次最小波谷值,再对最小波谷值以及次最小波谷值附近的区间进行上采样,再次计算最小波谷值以及次最小波谷值附近的区间中的取样点的自相关误差,选取自相关误差最小的点作为该音频信号的基频f0。最后按12平均律音高的频率换算得到key值,当前基频的key值计算公式如下:
key_index=round(log(f0/65.41)/log(2)*12)
其中,以65.41hz作为第一个key,依次增长,增长规律依照乐理中的12平均率,找到对应的key,Round表示临近取整。
4、和声效果生成单元:需要先配置调式,默认是C大调,可以切换成C小调或者G大调等。
本单元包含2个部分。
第一部分:包含计数模块、随机数生成模块、存储模块,所述的存储模块存储了常用和弦表。通过查找基频模块计算得到的key对应的和弦。计算key对应的和弦。在该实施例中,所述的key升3度的音高,和所述的key降3度的音高,确认这两个升降后的音高是否在预存的和弦组成表的结果里。
1)当两个升降后的音高在预存的和弦组成表的结果里,则所述的key升3度后,计算前后音高相差的半音个数K0,通过频率比换算公式得到的频率比为delta0,所述的key降3度后,计算前后音高相差的半音个数K1,通过频率比换算公式得到的频率比为delta1。
2)当两个升降后的音高不在预存的和弦组成表的结果里,则获取和弦表,匹配所述的和弦表中最接近所述key最接近的升调音高和降调音高,然后将所述最接近的升调音高和降调音高分别作为第一和声的音高和第二和声音高,分别计算出第一和声的音高和第二和声音高与初始key相差的半音个数KO和K1,根据频率比换算公式得到频率比delta0和delta1;
频率比换算公式:deltaN=2^(k/12);
例如,旋律是1565,用默认先上三度得到3717。然后含有1的和弦可以是135,这时候,3是在和弦组成里面的。然后计算它们间的频率比。再检查含有5的和弦里是否含有7,如果没有的话,就换成一个接近7的一个组成音。
以第二部分和声处理的流程图如图8所示,可包括如下步骤:
步骤s801,所述升调频率比delta0和降调频率比delta1分别通过第一和声模块基于高斯加权的方式实现拉伸频谱;
步骤s802,所述升调频率比delta0和降调频率比delta1分别通过第一和声模块基于高斯加权的方式实现拉伸频谱,得到两个拉伸后的频谱;
步骤s803,两个拉伸后的频谱分别通过第二和声模块遍历频点计算和声效果的频谱,得到升调和声和降调和声;
步骤s804,升调和声和降调和声的频谱叠加得到目标和声,并输出。
第一和声模块,当前帧的音频数据(5ms的音频数据),获取delta0、delta1。这个模块有一个10ms先进先出的缓存区,将输入音频输入该缓存区。然后加一个窗长为10ms的cos窗。然后做傅里叶变换。分离出幅度谱跟相位谱。然后对幅度谱做如下运算。作用是:实现拉伸频谱,同时保证频谱的连贯性。具体如下运算:
变量定义过程:
x_out+=(1/deltaN);
运算过程(高斯加权,常用于图像模糊处理)
amp_out[x_out++]=amp[x-2]*fir0+amp[x-1]*fr1+amp[x]*fr2+amp[x+1]*fr3+amp[x+2]*fr4;
这里的fir(n)=0.5/1.276*exp(-1/2.*((n-2)/(1.03+dither)).^2);这里的n取0到4,即结果对应上面式子里的fir0,fir1,fir2,fir3,fir4.其中的dither的选取范围是0.01到0.04.
x是代表amp是下标索引。x_out代表amp_out的下标索引,然后这里的deltaN代表delta0跟delta1.
备注,如果x-2,x-1小于0,或者x+1,x+2大于数组长度,则对应的amp[n]记为0.
解释:amp_out是计算后的幅度谱,amp是输入的幅度谱。然后delta0是计算好的key间频率比例。循环上面的计算公式,一直到x_out到达数组结束。或者x到达数组结束。目标是跟进amp跟delta0来算出amp_out。
重新合成幅度谱跟相位谱,做反傅里叶变换,然后加cos窗,重叠输出5ms的音频数据。
第二和声模块.它含有一个40ms先进先出的缓存区,将5ms的输入数据输入该缓存区。然后叠加一个40ms的cos窗,做傅里叶变换。分离出幅度谱跟相位谱。然后对幅度谱做如下运算,实现基频改变:
outindex+=(deltaN);
x=(int)outindex;
index_val=outindex-x;
inter_L[0]=amp[x-2]/((-2-(-1))*(-2-0)*(-2-1)*(-2-2));
inter_L[1]=amp[x-1]/((-1-(-2))*(-1-0)*(-1-1)*(-1-2));
inter_L[2]=amp[x]/((0-(-2))*(0-(-1))*(0-1)*(0-2));
inter_L[3]=amp[x+1]/((1-(-2))*(1-(-1))*(1-0)*(1-2));
inter_L[4]=amp[x+2]/((2-(-2))*(2-(-1))*(2-0)*(2-1));
amp_out[x_out++]=((index_val-(-1))*(index_val-0)*(index_val-1)*(index_val-2))*inter_L[0]+
((index_val-(-2))*(index_val-0)*(index_val-1)*(index_val-2))*inter_L[1]+
((index_val-(-2))*(index_val-(-1))*(index_val-1)*(index_val-2))*inter_L[2]+
((index_val-(-2))*(index_val-(-1))*(index_val-0)*(index_val-2))*inter_L[3]+
((index_val-(-2))*(index_val-(-1))*(index_val-0)*(index_val-1))*inter_L[4];
备注,如果x-2,x-1小于0,或者x+1,x+2大于数组长度,则对应的amp[n]记为0。
解释:amp_out是计算后的幅度谱,amp是输入的幅度谱。然后delta0是计算好的key间频率比例。循环上面的计算公式,一直到x_out到达数组结束。或者x到达数组结束。目标是跟进amp跟delta0来算出amp_out。
x是代表amp是下标索引。outindex用于计算x,index_val用于计算x跟outindex的分数位距离。x_out代表amp_out的下标索引,然后这里的deltaN代表delta0跟delta1.
然后重新合成幅度谱跟相位谱,做反傅里叶变换,然后加cos窗,重叠输出5ms的音频数据,如图9所示,其中图9中左右的频谱分别是处理前的音频,和声模块处理后对应的示例,可以看到key值升高。
5、电音效果生成单元:
模块需要先配置调式,默认是C大调,可以切换成C小调或者G大调等。
计算基频查找模块算得的频率值以及key值对应的标准key的比值key_rate,把这个key_rate的值设给和声模块的delta0跟delta1。还包括,通过和声处理单元和电音处理单元共用缓存区,实现电音与和声效果的无缝切换。
6、bypass模块:Bypass的时候,数据继续经过和声模块,但是不对amp做调整。即amp_out=amp;
7、混响:对输入数据做所需的混响效果。
8、限幅处理输出单元:以50ms为一个能量计算数据块大小,以10ms作为一个进出单元。然后调整音量。
上述应用实例中提供的和声处理方法,通过预设升降音阶的幅度值,当前key升音阶与降音阶,分别得到两个新音阶,对应计算出2个音阶的频率比,通过第一频率比进行第一和声处理得到第一和声音频,通过第二频率比进行第二和声处理得到第二和声音频,第一和声音频和第二和声音频叠加得到目标和声音频,第一和声模块结合高斯加权实现拉伸频谱,在音色上调整和声效果,第二和声模块遍历频点计算和声效果的频谱,在音高上调整和声效果。
应该理解的是,虽然本申请的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种音频信号的和声处理装置,包括:频率比确定模块1001、第一数据点获取模块1002、第一幅度谱获取模块1003、第一信号获取模块1004、第二数据点获取模块1005、第二幅度谱获取模块1006、第二信号获取模块1007和和声信号获取模块1008,其中:
频率比确定模块1001,用于获取音频信号的初始音高对应的升调频率比和降调频率比;初始音高根据音频信号的基频确定;
第一数据点获取模块1002,用于利用升调频率比确定音频信号的多个第一音频数据点,以及,利用降调频率比确定音频信号的多个第二音频数据点;
第一幅度谱获取模块1003,用于根据音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;
第一信号获取模块1004,用于基于音频信号的相位谱和升调幅度谱获取第一音频信号,以及,基于音频信号的相位谱和降调幅度谱获取第二音频信号;
第二数据点获取模块1005,用于利用升调频率比确定第一音频信号的多个第三音频数据点,以及,利用降调频率比确定第二音频信号的多个第四音频数据点;
第二幅度谱获取模块1006,用于根据第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;
第二信号获取模块1007,用于基于第一音频信号的相位谱和升调和声幅度谱获取升调和声信号,以及,基于第二音频信号的相位谱和降调和声幅度谱获取降调和声信号;
和声信号获取模块1008,用于叠加升调和声信号与降调和声信号得到音频信号的和声。
在一个实施例中,第一幅度谱获取模块1003,进一步用于获取当前第一音频数据点;从音频信号的幅度谱中确定与当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点;确定各第一目标音频数据点对应的第一高斯权值;基于第一高斯权值以及所述各第一目标音频数据点对应的幅度值确定当前第一音频数据点对应的幅度值;以及用于获取当前第二音频数据点;从音频信号的幅度谱中确定与当前第二音频数据点相适应的多个音频数据点,作为多个第二目标音频数据点;确定各第二目标音频数据点对应的第二高斯权值;基于第二高斯权值以及各第二目标音频数据点对应的幅度值确定当前第二音频数据点对应的幅度值。
在一个实施例中,第一幅度谱获取模块1003,进一步用于获取预设的第一频点个数;按照音频信号的幅度谱中的音频数据点顺序,将音频信号的幅度谱中与当前第一音频数据点最靠近的音频数据点作为第一目标音频中值点;将音频信号的幅度谱中位于第一目标音频中值点之前的第一频点个数的音频数据点,以及位于第一目标音频中值点之后的第一频点个数的音频数据点,作为第一目标音频数据点;以及用于按照音频信号的幅度谱中的音频数据点顺序,将音频信号的幅度谱中与当前第二音频数据点最靠近的音频数据点作为第二目标音频中值点;将音频信号的幅度谱中位于第二目标音频中值点之前的第一频点个数的音频数据点,以及位于第二目标音频中值点之后的第一频点个数的音频数据点,作为第二目标音频数据点。
在一个实施例中,第一幅度谱获取模块1003,还用于若音频信号的幅度谱中位于第一目标音频中值点之前的音频数据点的数量小于第一频点个数,或音频信号的幅度谱中位于第一目标音频中值点之后的音频数据点的数量小于第一频点个数,则将对应的第一目标音频数据点对应的幅度值归零;以及用于若音频信号的幅度谱中位于第二目标音频中值点之前的音频数据点的数量小于第一频点个数,或音频信号的幅度谱中位于第二目标音频中值点之后的音频数据点的数量小于第一频点个数,则将对应的第二目标音频数据点对应的幅度值归零。
在一个实施例中,第二幅度谱获取模块1006,进一步用于获取当前第三音频数据点;从第一音频信号的幅度谱中确定与当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点;确定各第三目标音频数据点对应的第一插值系数;基于第一插值系数以及各第三目标音频数据点对应的幅值确定当前第三音频数据点对应的幅度值;以及用于获取当前第四音频数据点;从第二音频信号的幅度谱中确定与当前第四音频数据点相适应的多个音频数据点,作为多个第四目标音频数据点;确定各第四目标音频数据点对应的第二插值系数;基于第二插值系数以及各第四目标音频数据点对应的幅度值确定当前第四音频数据点对应的幅度值。
在一个实施例中,第二幅度谱获取模块1006,进一步用于获取预设的第二频点个数;按照第一音频信号的幅度谱的音频数据点顺序,从第一音频信号的幅度谱中选取出与向下取整处理后当前第三音频数据点的音频数据点,作为第三目标音频中值点;将第一音频信号的幅度谱中位于第三目标音频中值点之前的第二频点个数的音频数据点,以及位于当前第一音频数据点之后的第一频点个数的音频数据点,作为第三目标音频数据点;以及用于按照第二音频信号的幅度谱的音频数据点顺序,从第二音频信号的幅度谱中选取出与向下取整处理后当前第四音频数据点的音频数据点,作为第四目标音频中值点;将第二音频信号的幅度谱中位于第四目标音频中值点之前的第二频点个数的音频数据点,以及位于四目标音频中值点之后的第二频点个数的音频数据点,作为第四目标音频数据点。
在一个实施例中,第二幅度谱获取模块1006,还用于若第一音频信号的幅度谱中位于第三目标音频中值点之前的音频数据点的数量小于第二频点个数,或第一音频信号的幅度谱中位于第三目标音频中值点之后的音频数据点的数量小于第二频点个数,则将对应的第三目标音频数据点对应的幅度值归零;以及用于若第二音频信号的幅度谱中位于第四目标音频中值点之前的音频数据点的数量小于第二频点个数,或第二音频信号的幅度谱中位于第四目标音频中值点之后的音频数据点的数量小于第二频点个数,则将对应的第四目标音频数据点对应的幅度值归零。
在一个实施例中,频率比确定模块1001,进一步用于获取初始音高对应的升调音高,以及升调音高的和弦标识;若升调音高的和弦标识为第一升调和弦标识,则获取升调音高与初始音高之间的半音的个数,作为第一半音个数;第一升调和弦标识为升调音高位于预设的和弦表中的和弦标识;根据第一半音个数确定所述升调频率比;以及用于获取初始音高对应的降调音高,以及降调音高的和弦标识;若降调音高的和弦标识为第一降调和弦标识,则获取降调音高与初始音高之间的半音的个数,作为第二半音个数;第一降调和弦标识为降调音高位于和弦表中的和弦标识;根据第二半音个数确定降调频率比。
在一个实施例中,频率比确定模块1001,还用于若升调音高的和弦标识为第二升调和弦标识,则从和弦表中获取与升调音高最接近的音高作为第一音高,并将第一音高与初始音高之间的半音的个数,作为第一半音个数;第二升调和弦标识为升调音高不位于和弦表中的和弦标识;以及用于若降调音高的和弦标识为第二降调和弦标识,则从和弦表中获取与降调音高最接近的音高作为第二音高,并将第二音高与初始音高之间的半音的个数,作为第二半音个数;第二降调和弦标识为降调音高不位于和弦表中的和弦标识。
关于音频信号的和声处理装置的具体限定可以参见上文中对于音频信号的和声处理方法的限定,在此不再赘述。上述音频信号的和声处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频信号的和声处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图Y中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种音频信号的和声处理方法,其特征在于,所述方法包括:
获取音频信号的初始音高对应的升调频率比和降调频率比;所述初始音高根据所述音频信号的基频确定;
利用所述升调频率比确定所述音频信号的多个第一音频数据点,以及,利用所述降调频率比确定所述音频信号的多个第二音频数据点;
根据所述音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据所述音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;
基于所述音频信号的相位谱和所述升调幅度谱获取第一音频信号,以及,基于所述音频信号的相位谱和所述降调幅度谱获取第二音频信号;
利用所述升调频率比确定所述第一音频信号的多个第三音频数据点,以及,利用所述降调频率比确定所述第二音频信号的多个第四音频数据点;
根据所述第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据所述第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;
基于所述第一音频信号的相位谱和所述升调和声幅度谱获取升调和声信号,以及,基于所述第二音频信号的相位谱和所述降调和声幅度谱获取降调和声信号;
叠加所述升调和声信号与所述降调和声信号得到所述音频信号的和声。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述音频信号的幅度谱确定各第一音频数据点对应的幅度值,包括:
获取当前第一音频数据点;
从所述音频信号的幅度谱中确定与所述当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点;
确定各第一目标音频数据点对应的第一高斯权值;
基于所述第一高斯权值以及所述各第一目标音频数据点对应的幅度值确定所述当前第一音频数据点对应的幅度值;
所述根据所述音频信号的幅度谱确定各第二音频数据点对应的幅度值,包括:
获取当前第二音频数据点;
从所述音频信号的幅度谱中确定与所述当前第二音频数据点相适应的多个音频数据点,作为多个第二目标音频数据点;
确定各第二目标音频数据点对应的第二高斯权值;
基于所述第二高斯权值以及所述各第二目标音频数据点对应的幅度值确定所述当前第二音频数据点对应的幅度值。
3.根据权利要求2所述的方法,其特征在于,
所述从所述音频信号的幅度谱中确定与所述当前第一音频数据点相适应的多个音频数据点,作为多个第一目标音频数据点,包括:
获取预设的第一频点个数;
按照所述音频信号的幅度谱中的音频数据点顺序,将所述音频信号的幅度谱中与所述当前第一音频数据点最靠近的音频数据点作为第一目标音频中值点;
将所述音频信号的幅度谱中位于所述第一目标音频中值点之前的所述第一频点个数的音频数据点,以及位于所述第一目标音频中值点之后的所述第一频点个数的音频数据点,作为所述第一目标音频数据点;
所述从所述音频信号的幅度谱中确定与所述当前第二音频数据点相适应的多个音频数据点,作为多个第二目标音频数据点,包括:
按照所述音频信号的幅度谱中的音频数据点顺序,将所述音频信号的幅度谱中与所述当前第二音频数据点最靠近的音频数据点作为第二目标音频中值点;
将所述音频信号的幅度谱中位于所述第二目标音频中值点之前的所述第一频点个数的音频数据点,以及位于所述第二目标音频中值点之后的所述第一频点个数的音频数据点,作为所述第二目标音频数据点。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述音频信号的幅度谱中位于所述第一目标音频中值点之前的音频数据点的数量小于所述第一频点个数,或所述音频信号的幅度谱中位于所述第一目标音频中值点之后的音频数据点的数量小于所述第一频点个数,则将对应的第一目标音频数据点对应的幅度值归零;
和/或
若所述音频信号的幅度谱中位于所述第二目标音频中值点之前的音频数据点的数量小于所述第一频点个数,或所述音频信号的幅度谱中位于所述第二目标音频中值点之后的音频数据点的数量小于所述第一频点个数,则将对应的第二目标音频数据点对应的幅度值归零。
5.根据权利要求1所述的方法,其特征在于,
所述根据所述第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,包括:
获取当前第三音频数据点;
从所述第一音频信号的幅度谱中确定与所述当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点;
确定各第三目标音频数据点对应的第一插值系数;
基于所述第一插值系数以及所述各第三目标音频数据点对应的幅值确定所述当前第三音频数据点对应的幅度值;
所述根据所述第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,包括:
获取当前第四音频数据点;
从所述第二音频信号的幅度谱中确定与所述当前第四音频数据点相适应的多个音频数据点,作为多个第四目标音频数据点;
确定各第四目标音频数据点对应的第二插值系数;
基于所述第二插值系数以及所述各第四目标音频数据点对应的幅度值确定所述当前第四音频数据点对应的幅度值。
6.根据权利要求5所述的方法,其特征在于,
所述从所述第一音频信号的幅度谱中确定与所述当前第三音频数据点相适应的多个音频数据点,作为多个第三目标音频数据点,包括:
获取预设的第二频点个数;
按照所述第一音频信号的幅度谱的音频数据点顺序,从所述第一音频信号的幅度谱中选取出与向下取整处理后所述当前第三音频数据点的音频数据点,作为第三目标音频中值点;
将所述第一音频信号的幅度谱中位于所述第三目标音频中值点之前的所述第二频点个数的音频数据点,以及位于所述当前第一音频数据点之后的所述第一频点个数的音频数据点,作为所述第三目标音频数据点;
所述从所述第二音频信号的幅度谱中确定与所述当前第四音频数据点相适应的多个音频数据点,作为多个第四目标音频数据点,包括:
按照所述第二音频信号的幅度谱的音频数据点顺序,从所述第二音频信号的幅度谱中选取出与向下取整处理后所述当前第四音频数据点的音频数据点,作为第四目标音频中值点;
将所述第二音频信号的幅度谱中位于所述第四目标音频中值点之前的所述第二频点个数的音频数据点,以及位于所述四目标音频中值点之后的所述第二频点个数的音频数据点,作为所述第四目标音频数据点。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述第一音频信号的幅度谱中位于所述第三目标音频中值点之前的音频数据点的数量小于所述第二频点个数,或所述第一音频信号的幅度谱中位于所述第三目标音频中值点之后的音频数据点的数量小于所述第二频点个数,则将对应的第三目标音频数据点对应的幅度值归零;
和/或
若所述第二音频信号的幅度谱中位于所述第四目标音频中值点之前的音频数据点的数量小于所述第二频点个数,或所述第二音频信号的幅度谱中位于所述第四目标音频中值点之后的音频数据点的数量小于所述第二频点个数,则将对应的第四目标音频数据点对应的幅度值归零。
8.根据权利要求1所述的方法,其特征在于,所述获取音频信号的初始音高对应的升调频率比和降调频率比,包括:
获取所述初始音高对应的升调音高,以及所述升调音高的和弦标识;
若所述升调音高的和弦标识为第一升调和弦标识,则获取所述升调音高与所述初始音高之间的半音的个数,作为第一半音个数;所述第一升调和弦标识为所述升调音高位于预设的和弦表中的和弦标识;
根据所述第一半音个数确定所述升调频率比;
和/或
获取所述初始音高对应的降调音高,以及所述降调音高的和弦标识;
若所述降调音高的和弦标识为第一降调和弦标识,则获取所述降调音高与所述初始音高之间的半音的个数,作为第二半音个数;所述第一降调和弦标识为所述降调音高位于所述和弦表中的和弦标识;
根据所述第二半音个数确定所述降调频率比。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所述升调音高的和弦标识为第二升调和弦标识,则从所述和弦表中获取与所述升调音高最接近的音高作为第一音高,并将所述第一音高与所述初始音高之间的半音的个数,作为所述第一半音个数;所述第二升调和弦标识为所述升调音高不位于所述和弦表中的和弦标识;
和/或
若所述降调音高的和弦标识为第二降调和弦标识,则从所述和弦表中获取与所述降调音高最接近的音高作为第二音高,并将所述第二音高与所述初始音高之间的半音的个数,作为所述第二半音个数;所述第二降调和弦标识为所述降调音高不位于所述和弦表中的和弦标识。
10.一种音频信号的和声处理装置,其特征在于,所述装置包括:
频率比确定模块,用于获取音频信号的初始音高对应的升调频率比和降调频率比;所述初始音高根据所述音频信号的基频确定;
第一数据点获取模块,用于利用所述升调频率比确定所述音频信号的多个第一音频数据点,以及,利用所述降调频率比确定所述音频信号的多个第二音频数据点;
第一幅度谱获取模块,用于根据所述音频信号的幅度谱确定各第一音频数据点对应的幅度值,并形成升调幅度谱,以及,根据所述音频信号的幅度谱确定各第二音频数据点对应的幅度值,并形成降调幅度谱;
第一信号获取模块,用于基于所述音频信号的相位谱和所述升调幅度谱获取第一音频信号,以及,基于所述音频信号的相位谱和所述降调幅度谱获取第二音频信号;
第二数据点获取模块,用于利用所述升调频率比确定所述第一音频信号的多个第三音频数据点,以及,利用所述降调频率比确定所述第二音频信号的多个第四音频数据点;
第二幅度谱获取模块,用于根据所述第一音频信号的幅度谱确定各第三音频数据点对应的幅度值,并形成升调和声幅度谱,以及,根据所述第二音频信号的幅度谱确定各第四音频数据点对应的幅度值,并形成降调和声幅度谱;
第二信号获取模块,用于基于所述第一音频信号的相位谱和所述升调和声幅度谱获取升调和声信号,以及,基于所述第二音频信号的相位谱和所述降调和声幅度谱获取降调和声信号;
和声信号获取模块,用于叠加所述升调和声信号与所述降调和声信号得到所述音频信号的和声。
11.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829749.2A CN112086085B (zh) | 2020-08-18 | 2020-08-18 | 音频信号的和声处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829749.2A CN112086085B (zh) | 2020-08-18 | 2020-08-18 | 音频信号的和声处理方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112086085A true CN112086085A (zh) | 2020-12-15 |
CN112086085B CN112086085B (zh) | 2024-02-20 |
Family
ID=73729668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010829749.2A Active CN112086085B (zh) | 2020-08-18 | 2020-08-18 | 音频信号的和声处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112086085B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689837A (zh) * | 2021-08-24 | 2021-11-23 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102124515A (zh) * | 2008-06-17 | 2011-07-13 | 声感有限公司 | 基于语音分析的说话者表征 |
US20160019878A1 (en) * | 2014-07-21 | 2016-01-21 | Matthew Brown | Audio signal processing methods and systems |
CN105304092A (zh) * | 2015-09-18 | 2016-02-03 | 深圳市海派通讯科技有限公司 | 一种基于智能终端的实时变声方法 |
US20180187546A1 (en) * | 2014-05-30 | 2018-07-05 | Scientific Drilling International, Inc. | Downhole mwd signal enhancement, tracking, and decoding |
CN110136730A (zh) * | 2019-04-08 | 2019-08-16 | 华南理工大学 | 一种基于深度学习的钢琴和声自动编配系统及方法 |
CN110148420A (zh) * | 2019-06-30 | 2019-08-20 | 桂林电子科技大学 | 一种适用于噪声环境下的语音识别方法 |
CN110797041A (zh) * | 2019-10-21 | 2020-02-14 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-08-18 CN CN202010829749.2A patent/CN112086085B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102124515A (zh) * | 2008-06-17 | 2011-07-13 | 声感有限公司 | 基于语音分析的说话者表征 |
US20180187546A1 (en) * | 2014-05-30 | 2018-07-05 | Scientific Drilling International, Inc. | Downhole mwd signal enhancement, tracking, and decoding |
US20160019878A1 (en) * | 2014-07-21 | 2016-01-21 | Matthew Brown | Audio signal processing methods and systems |
CN105304092A (zh) * | 2015-09-18 | 2016-02-03 | 深圳市海派通讯科技有限公司 | 一种基于智能终端的实时变声方法 |
CN110136730A (zh) * | 2019-04-08 | 2019-08-16 | 华南理工大学 | 一种基于深度学习的钢琴和声自动编配系统及方法 |
CN110148420A (zh) * | 2019-06-30 | 2019-08-20 | 桂林电子科技大学 | 一种适用于噪声环境下的语音识别方法 |
CN110797041A (zh) * | 2019-10-21 | 2020-02-14 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689837A (zh) * | 2021-08-24 | 2021-11-23 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
WO2023024501A1 (zh) * | 2021-08-24 | 2023-03-02 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
CN113689837B (zh) * | 2021-08-24 | 2023-08-29 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112086085B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stoller et al. | Wave-u-net: A multi-scale neural network for end-to-end audio source separation | |
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
CN1954642B (zh) | 多信道合成器及产生多信道输出信号方法 | |
US10430154B2 (en) | Tonal/transient structural separation for audio effects | |
JPH07319490A (ja) | 音声合成方法及び装置 | |
CN112086085A (zh) | 音频信号的和声处理方法、装置、电子设备和存储介质 | |
EP0685834B1 (en) | A speech synthesis method and a speech synthesis apparatus | |
US6453253B1 (en) | Impulse response measuring method | |
CN109300484B (zh) | 音频对齐方法、装置、计算机设备以及可读存储介质 | |
CN108806721A (zh) | 信号处理器 | |
Colonel et al. | Conditioning autoencoder latent spaces for real-time timbre interpolation and synthesis | |
Beltrán et al. | Additive synthesis based on the continuous wavelet transform: A sinusoidal plus transient model | |
JP2779983B2 (ja) | 電子楽器 | |
JP5251381B2 (ja) | 音処理装置およびプログラム | |
RU2810281C1 (ru) | Гармоническое преобразование на основе блока поддиапазонов, усиленное перекрестными произведениями | |
JPH10254500A (ja) | 補間音色合成方法 | |
JP7472575B2 (ja) | 処理方法、処理装置、及びプログラム | |
US7251301B2 (en) | Methods and systems for providing a noise signal | |
Horner | A comparison of wavetable and FM parameter spaces | |
JPH05127668A (ja) | 自動採譜装置 | |
JPH07261798A (ja) | 音声分析合成装置 | |
CN113160849B (zh) | 歌声合成方法、装置及电子设备和计算机可读存储介质 | |
JP5609280B2 (ja) | 音響信号の符号化方法および装置 | |
JP2553745B2 (ja) | 音声分析方法と音声分析装置 | |
Every et al. | Separation of overlapping impulsive sounds by bandwise noise interpolation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 519000 No. 333, Kexing Road, Xiangzhou District, Zhuhai City, Guangdong Province Applicant after: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. Address before: Floor 1-107, building 904, ShiJiHua Road, Zhuhai City, Guangdong Province Applicant before: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |