CN111916093A - 音频处理方法及装置 - Google Patents
音频处理方法及装置 Download PDFInfo
- Publication number
- CN111916093A CN111916093A CN202010758220.6A CN202010758220A CN111916093A CN 111916093 A CN111916093 A CN 111916093A CN 202010758220 A CN202010758220 A CN 202010758220A CN 111916093 A CN111916093 A CN 111916093A
- Authority
- CN
- China
- Prior art keywords
- signal
- spectrum
- sequence
- frequency
- linear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000001228 spectrum Methods 0.000 claims abstract description 257
- 230000005236 sound signal Effects 0.000 claims abstract description 138
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 59
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000000737 periodic effect Effects 0.000 claims abstract description 30
- 238000009432 framing Methods 0.000 claims description 125
- 230000003595 spectral effect Effects 0.000 claims description 33
- 238000001914 filtration Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 230000037433 frameshift Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 239000011295 pitch Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 241000272186 Falco columbarius Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例公开了一种音频处理方法及装置,该方法包括:获取原始音频信号,并从原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;获取基频调整参数,根据基频调整参数对基频序列进行调整以生成目标基频序列;根据目标基频序列、频谱包络序列以及非周期参数序列确定线性频谱;将线性频谱转换为非线性频谱,并根据非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
Description
技术领域
本申请涉及音频信号处理领域,尤其涉及一种音频处理方法及装置。
背景技术
随着人工智能技术的发展,语音方面的智能应用也越来越多。在影视配音行业,可将原演员的音色特征加入到本地化电影配音中,让配音更原汁原味。在卡拉OK等数字化娱乐行业,可以在保留音色的同时修改音高信息,实现修音。在医疗领域里,声音转换技术可以提升声道受损的病人的声音的可懂性。在军事国防领域里,语音转换技术可以在通信中对说话人语音进行伪装。在日常生活中,手机语音助手、问答机器人、电子读书和虚拟歌姬等都和音色音高相关。现有技术中,大多都是通过语音信号模型,来分离语音信号中的声源信息和声道信息,以提取特征参数的。其中,通过将这些特征参数进行转换,可合成新的音频合成信号。然而,根据现有技术所合成的音频合成信号的信号质量不高。
发明内容
本申请实施例提供一种音频处理方法及装置,可提高音频合成信号的信号质量,适用性高。
第一方面,本申请实施例提供了一种音频处理方法,该方法包括:
获取原始音频信号,并从所述原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;
获取基频调整参数,根据所述基频调整参数对所述基频序列进行调整以生成目标基频序列;
根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱;
将所述线性频谱转换为非线性频谱,并根据所述非线性频谱生成目标音频信号。
结合第一方面,在一种可能的实施方式中,所述根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱,包括:
基于所述目标基频序列、所述频谱包络序列以及所述非周期参数序列生成粗合成音频信号;
对所述粗合成音频信号进行分帧加窗处理,以得到组成所述粗合成音频信号的至少一个第一分帧信号;
对所述至少一个第一分帧信号中每个第一分帧信号进行短时傅里叶变换以得到每个第一分帧信号对应的子线性频谱;
将各子线性频谱进行拼接,以得到所述粗合成音频信号对应的线性频谱。
结合第一方面,在一种可能的实施方式中,所述从所述原始音频信号中获取基频序列,包括:
对所述原始音频信号进行分帧加窗处理,以得到组成所述原始音频信号的至少一个第二分帧信号;
针对第二分帧信号,采用多个截止频率的低通滤波器分别对所述第二分帧信号进行滤波,以得到所述第二分帧信号分别经所述多个截止频率的低通滤波器后得到的多个滤波信号;
根据每个滤波信号的周期信息确定每个滤波信号的截止频率的置信度;
从多个置信度中确定出最大置信度对应的截止频率作为所述第二分帧信号对应的基频;
将各第二分帧信号对应的基频进行拼接以得到基频序列。
结合第一方面,在一种可能的实施方式中,所述从所述原始音频信号中获取频谱包络序列,包括:
对所述至少一个第二分帧信号中每个第二分帧信号进行短时傅里叶变换以得到每个第二分帧信号对应的子线性频谱;
对每个第二分帧信号对应的子线性频谱求绝对值以得到每个第二分帧信号的功率谱;
对每个第二分帧信号对应的功率谱求对数并作相位展开,再进行逆傅里叶变换以得到每个第二分帧信号对应的功率谱的倒谱;
基于低通滤波器对每个第二分帧信号对应的功率谱的倒谱进行滤波,以得到每个第二分帧信号对应的频谱包络;
将各第二分帧信号对应的频谱包络进行拼接以得到所述原始音频信号对应的频谱包络序列。
结合第一方面,在一种可能的实施方式中,所述从所述原始音频信号中获取非周期参数序列,包括:
获取每个第二分帧信号对应的最小相位谱,根据每个第二分帧信号对应的子线性频谱和最小相位谱确定每个第二分帧信号对应的非周期参数;
将各第二分帧信号对应的非周期参数进行拼接以得到所述原始音频信号对应的非周期参数序列。
结合第一方面,在一种可能的实施方式中,所述非线性频谱包括梅尔频谱;所述将所述线性频谱转换为非线性频谱,包括:
将所述线性频谱包括的所述各子线性频谱输入梅尔滤波器组,以得到所述梅尔滤波器组输出的所述各子线性频谱对应的各梅尔频谱,其中,一个子线性频谱对应一个梅尔频谱;
将所述各梅尔谱进行拼接,以得到所述粗合成音频信号对应的完整的梅尔谱。
结合第一方面,在一种可能的实施方式中,所述根据所述非线性频谱生成目标音频信号,包括:
将所述非线性频谱输入预训练的音频合成模型,获取所述音频合成模型输出的目标音频信号,其中,所述音频合成模型根据不同用户的音频信号以及各音频信号对应的非线性频谱训练得到。
第二方面,本申请实施例提供了一种音频处理装置,该装置包括:
原始音频处理模块,用于获取原始音频信号,并从所述原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;
基频调整模块,用于获取基频调整参数,根据所述基频调整参数对所述基频序列进行调整以生成目标基频序列;
线性频谱确定模块,用于根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱;
目标音频合成模块,用于将所述线性频谱转换为非线性频谱,并根据所述非线性频谱生成目标音频信号。
结合第二方面,在一种可能的实施方式中,上述线性频谱确定模块包括:
音频粗合成单元,用于基于所述目标基频序列、所述频谱包络序列以及所述非周期参数序列生成粗合成音频信号;
第一预处理单元,用于对所述粗合成音频信号进行分帧加窗处理,以得到组成所述粗合成音频信号的至少一个第一分帧信号;
子线性频谱确定单元,用于对所述至少一个第一分帧信号中每个第一分帧信号进行短时傅里叶变换以得到每个第一分帧信号对应的子线性频谱;
线性频谱确定单元,用于将各子线性频谱进行拼接,以得到所述粗合成音频信号对应的线性频谱。
结合第二方面,在一种可能的实施方式中,所述原始音频处理模块包括基频序列获取单元,所述基频序列获取单元包括:
第二预处理子单元,用于对所述原始音频信号进行分帧加窗处理,以得到组成所述原始音频信号的至少一个第二分帧信号;
滤波子单元,用于针对第二分帧信号,采用多个截止频率的低通滤波器分别对所述第二分帧信号进行滤波,以得到所述第二分帧信号分别经所述多个截止频率的低通滤波器后得到的多个滤波信号;
置信度确定子单元,用于根据每个滤波信号的周期信息确定每个滤波信号的截止频率的置信度;
基频确定子单元,用于从多个置信度中确定出最大置信度对应的截止频率作为所述第二分帧信号对应的基频;
基频序列生成子单元,用于将各第二分帧信号对应的基频进行拼接以得到基频序列。
结合第二方面,在一种可能的实施方式中,所述原始音频处理模块包括频谱包络序列获取单元,所述频谱包络序列获取单元包括:
子线性频谱获取子单元,用于对所述至少一个第二分帧信号中每个第二分帧信号进行短时傅里叶变换以得到每个第二分帧信号对应的子线性频谱;
功率谱获取子单元,用于对每个第二分帧信号对应的子线性频谱求绝对值以得到每个第二分帧信号的功率谱;
倒谱获取子单元,用于对每个第二分帧信号对应的功率谱求对数并作相位展开,再进行逆傅里叶变换以得到每个第二分帧信号对应的功率谱的倒谱;
频谱包络确定子单元,用于基于低通滤波器对每个第二分帧信号对应的功率谱的倒谱进行滤波,以得到每个第二分帧信号对应的频谱包络;
频谱包络序列生成子单元,用于将各第二分帧信号对应的频谱包络进行拼接以得到所述原始音频信号对应的频谱包络序列。
结合第二方面,在一种可能的实施方式中,所述原始音频处理模块包括非周期参数序列获取单元,所述非周期参数序列获取单元包括:
非周期参数确定子单元,用于获取每个第二分帧信号对应的最小相位谱,根据每个第二分帧信号对应的子线性频谱和最小相位谱确定每个第二分帧信号对应的非周期参数;
非周期参数序列生成子单元,用于将各第二分帧信号对应的非周期参数进行拼接以得到所述原始音频信号对应的非周期参数序列。
结合第二方面,在一种可能的实施方式中,所述非线性频谱包括梅尔频谱;所述目标音频合成模块包括非线性频谱确定单元,上述非线性频谱确定单元具体用于:
将所述线性频谱包括的所述各子线性频谱输入梅尔滤波器组,以得到所述梅尔滤波器组输出的所述各子线性频谱对应的各梅尔频谱,其中,一个子线性频谱对应一个梅尔频谱;
将所述各梅尔谱进行拼接,以得到所述粗合成音频信号对应的完整的梅尔谱。
结合第二方面,在一种可能的实施方式中,上述目标音频合成模块还包括音频合成单元,上述音频合成单元用于:
将所述非线性频谱输入预训练的音频合成模型,获取所述音频合成模型输出的目标音频信号,其中,所述音频合成模型根据不同用户的音频信号以及各音频信号对应的非线性频谱训练得到。
第四方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第五方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过获取原始音频信号,可从原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列。进一步地,通过获取基频调整参数,可根据基频调整参数对基频序列进行调整以生成目标基频序列。其中,根据目标基频序列、频谱包络序列以及非周期参数序列可确定线性频谱。通过将线性频谱转换为非线性频谱,可根据非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频处理方法的一流程示意图;
图2是本申请实施例提供的正弦波信号的波形示意图;
图3是本申请实施例提供的帧长和帧移的关系示意图;
图4是本申请实施例提供的音频处理装置的一结构示意图;
图5是本申请实施例提供的音频处理装置的另一结构示意图;
图6是本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的音频处理方法,可广泛适用于能够进行音频信号处理的终端设备。其中,上述终端设备包括但不限于服务器、智能手机、平板电脑、笔记本电脑和台式计算机等,在此不做限制。为方便描述,下面将以终端设备为例进行说明。本申请实施例中的方法,通过获取原始音频信号,可从原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列。进一步地,通过获取基频调整参数,可根据基频调整参数对基频序列进行调整以生成目标基频序列。其中,根据目标基频序列、频谱包络序列以及非周期参数序列可确定线性频谱。通过将线性频谱转换为非线性频谱,可根据非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
下面将结合图1至图6分别对本申请实施例提供的方法及相关装置分别进行详细说明。
请参见图1,图1为本申请实施例提供的音频处理方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S101至S104:
S101、获取原始音频信号,从原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列。
在一些可行的实施方式中,可从终端设备的本地存储中,或者从与终端设备相连的外部存储器中获取事先存储的音频,以作为原始音频信号。或者也可以实时获取终端设备的麦克风所录制的音频,以作为原始音频信号。应当理解的是,这里的原始音频信号为干声,例如,不包含伴奏或音乐的纯人声。
在一些可行的实施方式中,可从原始音频信号中提取出基频序列。应当理解的是,基频通常也称为音高或音准。具体地,通过对原始音频信号进行分帧加窗处理,可得到组成原始音频信号的至少一个分帧信号(为方便描述,以第二分帧信号为例进行说明)。其中,上述分帧加窗处理时所使用的窗函数可选择汉宁窗或海明窗等,在此不做限制。帧长可在8-32毫秒内选择,例如,帧长可以为10毫秒等,帧移则可根据实际应用场景确定,在此不做限制。请参见图3,图3是本申请实施例提供的帧长和帧移的关系示意图。图3以第k帧和第k+1帧为例进行说明。其中,线段①的长度为第k+1帧相对于第k帧的帧移,线段②的长度为第k帧或第k+1帧的帧长。
其中,针对获取到的至少一个第二分帧信号中每个第二分帧信号,可采用多个截止频率的低通滤波器分别对第二分帧信号进行滤波,以得到第二分帧信号分别经多个截止频率的低通滤波器后得到的多个滤波信号。例如,针对任一个第二分帧信号1,当采用截止频率为截止频率1的低通滤波器对上述第二分帧信号1进行滤波后,可得到对应的滤波信号1。当采用截止频率为截止频率2的低通滤波器对上述第二分帧信号1进行滤波后,可得到对应的滤波信号2。当采用截止频率为截止频率3的低通滤波器对上述第二分帧信号1进行滤波后,可得到对应的滤波信号3,以此类推,在此不做限制。其中,上述截止频率3可大于截止频率2,上述截止频率2可大于截止频率1,在此不做限制。
其中,通过获取每个滤波信号的周期信息,可根据每个滤波信号的周期信息可确定出每个滤波信号的截止频率的置信度。进而,可从多个置信度中确定出最大置信度对应的截止频率以作为第二分帧信号对应的基频。其中,通过将至少一个第二分帧信号中各第二分帧信号对应的基频进行拼接,可得到原始音频信号对应的第一基频序列。并进一步地,可将上述得到的第一基频序列确定为原始音频信号的目标基频序列。其中,滤波信号的周期信息可以为该滤波信号的信号周期。
应当理解的是,当采用了合适的截止频率的低通滤波器对第二分帧信号进行滤波后,所得到的滤波信号应该为一个标准的正弦波信号。请参见图2,图2是本申请实施例提供的正弦波信号的波形示意图。如图2所示,正弦波信号的横坐标为时间,纵坐标为振幅。其中,图2所示的正弦波信号的信号周期T可以为(t4-t0)或者(t6-t2)或者(t5-t1)或者(t7-t3)。也就是说,可将(t4-t0)、(t6-t2)、(t5-t1)以及(t7-t3)作为滤波信号的周期信息。假设滤波信号为一个标准的正弦波信号,如图2所示,标准的正弦波信号中,信号周期T=T1=T2=T3=T4,其中,T1=(t4-t0),T2=(t6-t2),T3=(t5-t1),T4=(t7-t3)。也就是说,由于每个第二分帧信号的真实基频是未知的,因此,需要使用多个不同截止频率的低通滤波器进行尝试,以确定每个第二分帧信号对应的真实基频。这里,本申请实施例可根据每个滤波信号的周期信息来确定该滤波信号的截止频率的置信度。也就是说,本申请实施例可根据每个截止频率对应的滤波信号的周期信息,来确定将该截止频率作为该滤波信号的置信度。
举例来说,假设采用截止频率为截止频率1的低通滤波器对第二分帧信号1进行滤波后,可得到该第二分帧信号1对应的滤波信号1。其中,假设滤波信号1的周期信息为T1、T2、T3和T4。因此,可将周期信息T1、T2、T3和T4之间的标准差或者方差的倒数作为将该截止频率1作为上述第二分帧信号1的基频的置信度。或者,也可以将滤波信号1的周期信息T1、T2、T3和T4之间的平均值与之间的差值绝对值的倒数作为将该截止频率1作为第二分帧信号1的基频的置信度,在此不做限制。不难理解的是,置信度越大,则将该截止频率作为基频的可信度就越高。
其中,针对每个第二分帧信号,都分别采用了多个不同截止频率的低通滤波器进行滤波,因此,可得到每个第二分帧信号对应的多个滤波信号。进一步地,根据多个滤波信号中每个滤波信号的周期信息,可确定出每个滤波信号的截止频率的置信度,因此可得到多个置信度。最后,可从每个第二分帧信号对应的多个置信度中确定出最大置信度对应的截止频率作为该第二分帧信号对应的基频。
可选的,在一些可行的实施方式中,当确定出每个第二分帧信号对应的多个置信度后,针对某个第二分帧信号对应的多个置信度,可先将该第二分帧信号对应的多个置信度中的最大置信度对应的截止频率作为候选基频。进一步地,针对该第二分帧信号,计算其n个相邻帧的最大置信度对应的截止频率的平均值。然后,确定候选基频和上述平均值的差值的绝对值,以作为偏差值p,其中,n为正整数,例如n=4。其中,若上述偏差值p小于或者等于预设偏差阈值q,则可将该候选基频确定为上述第二分帧信号的基频。若上述偏差值p大于上述预设偏差阈值q,则可将该第二分帧信号对应的多个置信度中,第二大置信度对应的截止频率作为该第二分帧信号的候选基频,并重新计算候选基频与平均值间的偏差值p,进而比较偏差值p与预设偏差阈值q间的大小关系。以此类推,若置信度最大的前m个截止频率均未符合其偏差值p小于或者等于预设偏差阈值q的条件,则可将n个相邻帧的最大置信度对应的截止频率的平均值作为上述第二分帧信号的基频。其中,m为正整数,例如m=3。
举例来说,假设多个截止频率分别为截止频率1、截止频率2和截止频率3。其中,截止频率1<截止频率2<截止频率3。假设对原始音频信号进行分帧加窗处理后,可得到组成原始音频信号的4个第二分帧信号,分别为第二分帧信号1、第二分帧信号2、第二分帧信号3和第二分帧信号4。其中,针对每个第二分帧信号,采用上述截止频率1~截止频率3的低通滤波器分别对每个第二分帧信号分别进行滤波后,可得到第二分帧信号1经截止频率1的低通滤波器滤波后得到的滤波信号1-1,第二分帧信号1经截止频率2的低通滤波器滤波后得到的滤波信号1-2,第二分帧信号1经截止频率3的低通滤波器滤波后得到的滤波信号1-3。第二分帧信号2经截止频率1的低通滤波器滤波后得到的滤波信号2-1,第二分帧信号2经截止频率2的低通滤波器滤波后得到的滤波信号2-2,第二分帧信号2经截止频率3的低通滤波器滤波后得到的滤波信号2-3。以此类推,可得到第二分帧信号3采用截止频率1~截止频率3的低通滤波器分别进行滤波后得到的滤波信号3-1、滤波信号3-2和滤波信号3-3。第二分帧信号4采用截止频率1~截止频率3的低通滤波器分别进行滤波后得到的滤波信号4-1、滤波信号4-2和滤波信号4-3。其中,根据每个滤波信号的周期信息,可确定出每个滤波信号的截止频率的置信度。这里,假设第二分帧信号1对应的多个置信度分别为截止频率1对应的置信度1-1、截止频率2对应的置信度1-2、以及截止频率3对应的置信度1-3,且置信度1-3>置信度1-1>置信度1-2。第二分帧信号2对应的多个置信度分别为截止频率1对应的置信度2-1、截止频率2对应的置信度2-2、以及截止频率3对应的置信度2-3,且置信度2-1>置信度2-2>置信度2-3。第二分帧信号3对应的多个置信度分别为截止频率1对应的置信度3-1、截止频率2对应的置信度3-2、截止频率3对应的置信度3-3,且置信度3-3>置信度3-2>置信度3-1。第二分帧信号4对应的多个置信度分别为截止频率1对应的置信度4-1、截止频率2对应的置信度4-2、以及截止频率3对应的置信度4-3,且置信度4-3>置信度4-1>置信度4-2。
为方便描述,这里仅以确定第二分帧信号1对应的基频为例进行说明。具体地,可将第二分帧信号1对应的3个置信度中的最大置信度对应的截止频率作为候选基频,即置信度1-3对应的截止频率3作为候选基频。其中,假设n=2,m=2,通过计算第二分帧信号1的2个相邻帧(即第二分帧信号2和第二分帧信号3)的最大置信度(即置信度2-1和置信度3-3)对应的截止频率的平均值,可得到然后,计算候选基频和上述平均值的差值的绝对值以作为偏差值p,即偏差值p=|候选基频-平均值|。假设偏差值p小于或者等于预设偏差阈值q,则可将截止频率3确定为第二分帧信号1的基频。若上述偏差值p大于上述预设偏差阈值q,则可将第二分帧信号1对应的多个置信度中,第二大置信度对应的截止频率作为上述分帧信号的候选基频,即可将置信度1-1对应的截止频率1确定为第二分帧信号1的候选基频,并重新计算候选基频与平均值间的偏差值p,进而比较偏差值p与预设偏差阈值q间的大小关系。以此类推,若置信度最大的前2个截止频率(即置信度1-3对应的截止频率3,置信度1-1对应的截止频率1)均未符合其偏差值p小于或者等于预设偏差阈值q的条件,则可将第二分帧信号1的2个相邻帧(即第二分帧信号2和第二分帧信号3)的最大置信度对应的截止频率的平均值作为上述第二分帧信号的基频,即可将确定为第二分帧信号1的基频。
在一些可行的实施方式中,还可以从原始音频信号中提取出频谱包络序列。这里,频谱包络即我们常说的音色。具体地,针对原始音频信号包括的至少一个第二分帧信号中每个第二分帧信号,通过对每个第二分帧信号进行短时傅里叶变换,可以得到每个第二分帧信号对应的子线性频谱。其中,通过对每个第二分帧信号对应的子线性频谱求绝对值,可以得到每个第二分帧信号的功率谱。进而,通过对每个第二分帧信号对应的功率谱求对数并作相位展开,再进行逆傅里叶变换,可以得到每个第二分帧信号对应的功率谱的倒谱。最后,基于低通滤波器对每个第二分帧信号对应的功率谱的倒谱进行滤波,可以得到每个第二分帧信号对应的频谱包络。这里,通过将各第二分帧信号对应的频谱包络进行拼接,可得到原始音频信号对应的完整的频谱包络,即频谱包络序列。
在一些可行的实施方式中,还可以从原始音频信号中提取出非周期参数序列。其中,通过获取每个第二分帧信号对应的最小相位谱,可根据每个第二分帧信号对应的子线性频谱和最小相位谱确定出每个第二分帧信号对应的非周期参数。其中,通过将各第二分帧信号对应的非周期参数进行拼接,可得到原始音频信号对应的非周期参数序列。具体地,根据上述基频序列和频谱包络序列可拟合得到正弦波信号。通过对上述拟合出的正弦波信号进行分帧加窗处理,可得到组成该正弦波信号的至少一个分帧信号(为方便描述,以第三分帧信号为例进行说)。这里,对正弦波信号进行分帧加窗处理时所使用的帧长、帧移以及窗函数与上述对原始音频信号进行分帧加窗处理时所使用的帧长、帧移以及窗函数相同。也就是说,对拟合出的正弦波信号进行分帧加窗处理后得到的第三分帧信号的数量等于对原始音频信号进行分帧加窗处理后的第二分帧信号的数量。其中,通过对第三分帧信号进行短时傅里叶变换,可得到第三分帧信号对应的频谱。应当理解的是,第三分帧信号对应的频谱即相应位置的第二分帧信号对应的最小相位谱。进一步地,可将每个第二分帧信号对应的子线性频谱与最小相位谱的比值确定为每个第二分帧信号对应的非周期频谱值。再通过对每个第二分帧信号对应的非周期频谱值进行逆傅里叶变换,可将逆傅里叶变换后得到的值确定为每个第二分帧信号对应的非周期参数。其中,通过将各第二分帧信号对应的非周期参数进行拼接,可得到原始音频信号对应的非周期参数序列。
可选的,在一些可行的实施方式中,在得到上述组成该正弦波信号的至少一个第三分帧信号后,还可以获取每个第三分帧信号对应的功率谱,以得到正弦波信号对应的完整的功率谱。进一步地,可将原始音频信号的功率谱中每个频带的功率与拟合得到的正弦波信号的功率谱中每个频带的功率之间的比值确定为每个频带对应的非周期功率值,再通过对非周期功率值进行逆傅里叶变换,可以得到非周期参数。其中,通过将各非周期参数进行拼接,可得到原始音频信号对应的非周期参数序列。也就是说,通过将第二分帧信号与第三分帧信号对应频带的功率谱相除,可得到对应的非周期功率值。然后,通过对得到的每个第二分帧信号对应的非周期功率值进行逆傅里叶变换,可将逆傅里叶变换后得到的值确定为每个第二分帧信号对应的非周期参数。进一步地,通过将各第二分帧信号对应的非周期参数进行拼接,可得到原始音频信号对应的非周期参数序列。
S102、获取基频调整参数,根据基频调整参数对基频序列进行调整以生成目标基频序列。
在一些可行的实施方式中,当从原始音频信号中提取出基频序列后,还可以进一步获取基频调整参数。然后,根据上述基频调整参数调整基频序列,并将调整后的基频序列确定为目标基频序列。不难理解的是,当本申请的应用场景为歌声修音时,通常需要获取基频调整参数,并通过基频调整参数对提取出的基频序列进行调整,以实现升调或者降调效果。应当理解的是,基频调整参数可以是一个值或者也可以是一个序列。其中,当基频调整参数为一个值时,可以是对基频序列进行整体升调或降低。当基频调整参数为一个序列时,其序列长度等于基频序列的序列长度,也就是说,根据基频调整参数序列可对基频序列上各个基频值进行不同程度的升调或降调。
S103、根据目标基频序列、频谱包络序列以及非周期参数序列确定线性频谱。
在一些可行的实施方式中,根据上述步骤S101和步骤S102得到目标基频序列、频谱包络序列以及非周期参数序列后,可根据上述目标基频序列、频谱包络序列以及非周期参数序列确定出线性频谱。具体地,可首先根据上述目标基频序列、频谱包络序列以及非周期参数序列生成粗合成音频信号。其中,可通过将目标基频序列、频谱包络序列以及非周期参数序列输入World声码器,以得到World声码器输出的粗合成音频信号。其中,World声码器是由日本明治大学的森势将雅教授提出的一种声码器,其作为一种开源声码器在Merlin语音合成系统中被广泛使用。或者,也可以采用由日本明治大学的河原英纪教授提出的Straight声码器等来生成粗合成音频信号,在此不做限制。应当理解的是,这里所生成的粗合成音频信号为低质量的音频信号。也就是说,粗合成音频信号的音质比较机械,且电音明显。将粗合成音频信号转换成线性频谱,以便进行下一步。
S104、将线性频谱转换为非线性频谱,并根据非线性频谱生成目标音频信号。
在一些可行的实施方式中,通过将线性频谱转换为非线性频谱,可根据非线性频谱生成目标音频信号。具体地,可对粗合成音频信号进行分帧加窗处理,以得到组成粗合成音频信号的至少一个分帧信号(为方便描述,以第一分帧信号为例进行说明)。其中,上述分帧加窗处理时所使用的帧长可在8-32毫秒内选择,窗函数可选择汉宁窗或海明窗等,具体根据实际应用场景确定,在此不做限制。
在一些可行的实施方式中,针对至少一个第一分帧信号中每个第一分帧信号,通过获取每个第一分帧信号对应的子线性频谱,可将每个第一分帧信号对应的子线性频谱转换为子非线性频谱。其中,所转换成的非线性频谱可以为梅尔频谱或者巴克刻度频谱等,在此不做限制。为便于理解,本申请实施例以非线性频谱为梅尔频谱为例进行说明。具体地,通过对每个第一分帧信号进行短时傅里叶变换,可得到每个第一分帧信号对应的子线性频谱。其中,通过将每个第一分帧信号对应的子线性频谱输入梅尔滤波器组,可以得到上述梅尔滤波器组输出的梅尔频谱。
应当理解的是,由于人耳听到的声音高低和实际频率不呈线性关系,用梅尔频率更符合人耳的听觉特性。即对1000Hz以下呈线性分布,对1000Hz以上呈对数增长,因此,梅尔频率fmel与线性频率f的关系可表示为:
fmel=1125·ln(1+f/700)
一般而言,基于不同采样率获取到的音频信号,可选用不同个数的梅尔滤波器组用于将该音频信号对应的线性频谱转换为梅尔频谱。例如,针对采样率为16000HZ的音频信号,一般可选用80个梅尔滤波器组,对于采样率为24000HZ的音频信号,一般可选取100个梅尔滤波器组。
在一些可行的实施方式中,通过将上述至少一个第一分帧信号中各第一分帧信号对应的子非线性频谱进行拼接,可得到粗合成音频信号对应的完整的非线性频谱。
在一些可行的实施方式中,根据上述得到的非线性频谱,可生成目标音频信号。具体地,可以将上述非线性频谱输入预训练的音频合成模型,进而获取音频合成模型输出的目标音频信号。其中,音频合成模型可以是根据训练样本集合中包括的大量训练样本训练得到。其中,每个训练样本包括一个音频信号和该音频信号对应的非线性频谱。应当理解的是,上述训练样本集合中可包括不同用户的音频信号以及各音频信号对应的非线性频谱。或者,训练样本集合中可包括相同用户的音频信号以及各音频信号对应的非线性频谱,在此不做限制。其中,本申请中所使用的音频合成模型包括但不限于Wavenet模型,Wavernn模型等,具体根据实际应用场景确定,在此不做限制。
在本申请实施例中,通过获取原始音频信号,可从原始音频信号中提取基频序列、频谱包络序列和非周期参数序列。通过获取基频调整参数,可根据基频调整参数对基频序列进行调整以生成目标基频序列。根据目标基频序列、频谱包络序列以及非周期参数序列可确定线性频谱。进一步地,通过将线性频谱转换为非线性频谱,可根据所述非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
请参见图4,图4是本申请实施例提供的音频处理装置的一结构示意图。本申请实施例提供的音频处理装置包括:
原始音频处理模块41,用于获取原始音频信号,并从所述原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;
基频调整模块42,用于获取基频调整参数,根据所述基频调整参数对所述基频序列进行调整以生成目标基频序列;
线性频谱确定模块43,用于根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱;
目标音频合成模块44,用于将所述线性频谱转换为非线性频谱,并根据所述非线性频谱生成目标音频信号。
请参见图5,图5是本申请实施例提供的音频处理装置的另一结构示意图。其中:
在一些可行的实施方式中,上述线性频谱确定模块43包括:
音频粗合成单元431,用于基于所述目标基频序列、所述频谱包络序列以及所述非周期参数序列生成粗合成音频信号;
第一预处理单元432,用于对所述粗合成音频信号进行分帧加窗处理,以得到组成所述粗合成音频信号的至少一个第一分帧信号;
子线性频谱确定单元433,用于对所述至少一个第一分帧信号中每个第一分帧信号进行短时傅里叶变换以得到每个第一分帧信号对应的子线性频谱;
线性频谱确定单元434,用于将各子线性频谱进行拼接,以得到所述粗合成音频信号对应的线性频谱。
在一些可行的实施方式中,所述原始音频处理模块41包括基频序列获取单元411,所述基频序列获取单元411包括:
第二预处理子单元4111,用于对所述原始音频信号进行分帧加窗处理,以得到组成所述原始音频信号的至少一个第二分帧信号;
滤波子单元4112,用于针对第二分帧信号,采用多个截止频率的低通滤波器分别对所述第二分帧信号进行滤波,以得到所述第二分帧信号分别经所述多个截止频率的低通滤波器后得到的多个滤波信号;
置信度确定子单元4113,用于根据每个滤波信号的周期信息确定每个滤波信号的截止频率的置信度;
基频确定子单元4114,用于从多个置信度中确定出最大置信度对应的截止频率作为所述第二分帧信号对应的基频;
基频序列生成子单元4115,用于将各第二分帧信号对应的基频进行拼接以得到基频序列。
在一些可行的实施方式中,所述原始音频处理模块41包括频谱包络序列获取单元412,所述频谱包络序列获取单元412包括:
子线性频谱获取子单元4121,用于对所述至少一个第二分帧信号中每个第二分帧信号进行短时傅里叶变换以得到每个第二分帧信号对应的子线性频谱;
功率谱获取子单元4122,用于对每个第二分帧信号对应的子线性频谱求绝对值以得到每个第二分帧信号的功率谱;
倒谱获取子单元4123,用于对每个第二分帧信号对应的功率谱求对数并作相位展开,再进行逆傅里叶变换以得到每个第二分帧信号对应的功率谱的倒谱;
频谱包络确定子单元4124,用于基于低通滤波器对每个第二分帧信号对应的功率谱的倒谱进行滤波,以得到每个第二分帧信号对应的频谱包络;
频谱包络序列生成子单元4125,用于将各第二分帧信号对应的频谱包络进行拼接以得到所述原始音频信号对应的频谱包络序列。
在一些可行的实施方式中,所述原始音频处理模块41包括非周期参数序列获取单元413,所述非周期参数序列获取单元413包括:
非周期参数确定子单元4131,用于获取每个第二分帧信号对应的最小相位谱,根据每个第二分帧信号对应的子线性频谱和最小相位谱确定每个第二分帧信号对应的非周期参数;
非周期参数序列生成子单元4132,用于将各第二分帧信号对应的非周期参数进行拼接以得到所述原始音频信号对应的非周期参数序列。
在一些可行的实施方式中,所述非线性频谱包括梅尔频谱;所述目标音频合成模块44包括非线性频谱确定单元441,上述非线性频谱确定单元441具体用于:
将所述线性频谱包括的所述各子线性频谱输入梅尔滤波器组,以得到所述梅尔滤波器组输出的所述各子线性频谱对应的各梅尔频谱,其中,一个子线性频谱对应一个梅尔频谱;
将所述各梅尔谱进行拼接,以得到所述粗合成音频信号对应的完整的梅尔谱。
在一些可行的实施方式中,上述目标音频合成模块44还包括音频合成单元442,上述音频合成单元442用于:
将所述非线性频谱输入预训练的音频合成模型,获取所述音频合成模型输出的目标音频信号,其中,所述音频合成模型根据不同用户的音频信号以及各音频信号对应的非线性频谱训练得到。
具体实现中,上述音频处理装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式。例如,上述原始音频处理模块41可用于执行上述各个步骤中从获取的原始音频信号中提取基频序列、频谱包络序列,以及非周期参数序列等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述基频调整模块42可用于执行上述各个步骤中获取基频调整参数、基于基频调整参数确定目标基频序列等相关步骤所描述的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述线性频谱确定模块43可用于执行上述各个步骤中根据目标基频序列、频谱包络序列以及非周期参数序列确定线性频谱等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述目标音频合成模块44可用于执行上述各个步骤中将线性频谱转换为非线性频谱,根据非线性频谱生成目标音频信号等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,音频处理装置通过从获取的原始音频信号中提取出基频序列、频谱包络序列和非周期参数序列后,可根据基频调整参数对基频序列进行调整以生成目标基频序列。其中,根据目标基频序列、频谱包络序列以及非周期参数序列可确定线性频谱。进一步地,通过将线性频谱转换为非线性频谱,可根据所述非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
参见图6,图6是本申请实施例提供的终端设备的结构示意图。如图6所示,本实施例中的终端设备可以包括:一个或多个处理器501、一个或多个存储器502、以及一个或多个收发器503。上述处理器501、存储器502和收发器503通过总线504连接。存储器502用于存储计算机程序,该计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令,以执行上述实施例中步骤S101至步骤S104中描述的过程。
应当理解,在一些可行的实施方式中,上述处理器501可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如,存储器502还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,终端设备通过从获取的原始音频信号中提取出基频序列、频谱包络序列和非周期参数序列后,可根据基频调整参数对基频序列进行调整以生成目标基频序列。其中,根据目标基频序列、频谱包络序列以及非周期参数序列可确定线性频谱。进一步地,通过将线性频谱转换为非线性频谱,可根据所述非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1中各个步骤所提供的音频处理方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的音频处理装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smartmedia card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种音频处理方法,其特征在于,所述方法包括:
获取原始音频信号,并从所述原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;
获取基频调整参数,根据所述基频调整参数对所述基频序列进行调整以生成目标基频序列;
根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱;
将所述线性频谱转换为非线性频谱,并根据所述非线性频谱生成目标音频信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱,包括:
基于所述目标基频序列、所述频谱包络序列以及所述非周期参数序列生成粗合成音频信号;
对所述粗合成音频信号进行分帧加窗处理,以得到组成所述粗合成音频信号的至少一个第一分帧信号;
对所述至少一个第一分帧信号中每个第一分帧信号进行短时傅里叶变换以得到每个第一分帧信号对应的子线性频谱;
将各子线性频谱进行拼接,以得到所述粗合成音频信号对应的线性频谱。
3.根据权利要求1或2所述的方法,其特征在于,所述从所述原始音频信号中获取基频序列,包括:
对所述原始音频信号进行分帧加窗处理,以得到组成所述原始音频信号的至少一个第二分帧信号;
针对第二分帧信号,采用多个截止频率的低通滤波器分别对所述第二分帧信号进行滤波,以得到所述第二分帧信号分别经所述多个截止频率的低通滤波器后得到的多个滤波信号;
根据每个滤波信号的周期信息确定每个滤波信号的截止频率的置信度;
从多个置信度中确定出最大置信度对应的截止频率作为所述第二分帧信号对应的基频;
将各第二分帧信号对应的基频进行拼接以得到基频序列。
4.根据权利要求3所述的方法,其特征在于,所述从所述原始音频信号中获取频谱包络序列,包括:
对所述至少一个第二分帧信号中每个第二分帧信号进行短时傅里叶变换以得到每个第二分帧信号对应的子线性频谱;
对每个第二分帧信号对应的子线性频谱求绝对值以得到每个第二分帧信号的功率谱;
对每个第二分帧信号对应的功率谱求对数并作相位展开,再进行逆傅里叶变换以得到每个第二分帧信号对应的功率谱的倒谱;
基于低通滤波器对每个第二分帧信号对应的功率谱的倒谱进行滤波,以得到每个第二分帧信号对应的频谱包络;
将各第二分帧信号对应的频谱包络进行拼接以得到所述原始音频信号对应的频谱包络序列。
5.根据权利要求3或4所述的方法,其特征在于,所述从所述原始音频信号中获取非周期参数序列,包括:
获取每个第二分帧信号对应的最小相位谱,根据每个第二分帧信号对应的子线性频谱和最小相位谱确定每个第二分帧信号对应的非周期参数;
将各第二分帧信号对应的非周期参数进行拼接以得到所述原始音频信号对应的非周期参数序列。
6.根据权利要求2所述的方法,其特征在于,所述非线性频谱包括梅尔频谱;所述将所述线性频谱转换为非线性频谱,包括:
将所述线性频谱包括的所述各子线性频谱输入梅尔滤波器组,以得到所述梅尔滤波器组输出的所述各子线性频谱对应的各梅尔频谱,其中,一个子线性频谱对应一个梅尔频谱;
将所述各梅尔谱进行拼接,以得到所述粗合成音频信号对应的完整的梅尔谱。
7.根据权利要求1所述的方法,其特征在于,所述根据所述非线性频谱生成目标音频信号,包括:
将所述非线性频谱输入预训练的音频合成模型,获取所述音频合成模型输出的目标音频信号,其中,所述音频合成模型根据不同用户的音频信号以及各音频信号对应的非线性频谱训练得到。
8.一种音频处理装置,其特征在于,所述装置包括:
原始音频处理模块,用于获取原始音频信号,并从所述原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;
基频调整模块,用于获取基频调整参数,根据所述基频调整参数对所述基频序列进行调整以生成目标基频序列;
线性频谱确定模块,用于根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱;
目标音频合成模块,用于将所述线性频谱转换为非线性频谱,并根据所述非线性频谱生成目标音频信号。
9.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758220.6A CN111916093A (zh) | 2020-07-31 | 2020-07-31 | 音频处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758220.6A CN111916093A (zh) | 2020-07-31 | 2020-07-31 | 音频处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111916093A true CN111916093A (zh) | 2020-11-10 |
Family
ID=73288277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010758220.6A Pending CN111916093A (zh) | 2020-07-31 | 2020-07-31 | 音频处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111916093A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927715A (zh) * | 2021-02-26 | 2021-06-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、设备及计算机可读存储介质 |
CN113160849A (zh) * | 2021-03-03 | 2021-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
CN113421584A (zh) * | 2021-07-05 | 2021-09-21 | 平安科技(深圳)有限公司 | 音频降噪方法、装置、计算机设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
US20160140951A1 (en) * | 2014-11-13 | 2016-05-19 | Google Inc. | Method and System for Building Text-to-Speech Voice from Diverse Recordings |
US20180174570A1 (en) * | 2015-09-16 | 2018-06-21 | Kabushiki Kaisha Toshiba | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product |
JP2018146821A (ja) * | 2017-03-07 | 2018-09-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109920446A (zh) * | 2019-03-12 | 2019-06-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置及计算机存储介质 |
CN110047501A (zh) * | 2019-04-04 | 2019-07-23 | 南京邮电大学 | 基于beta-VAE的多对多语音转换方法 |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110335587A (zh) * | 2019-06-14 | 2019-10-15 | 平安科技(深圳)有限公司 | 语音合成方法、系统、终端设备和可读存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111402855A (zh) * | 2020-03-06 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111402858A (zh) * | 2020-02-27 | 2020-07-10 | 平安科技(深圳)有限公司 | 一种歌声合成方法、装置、计算机设备及存储介质 |
-
2020
- 2020-07-31 CN CN202010758220.6A patent/CN111916093A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
US20160140951A1 (en) * | 2014-11-13 | 2016-05-19 | Google Inc. | Method and System for Building Text-to-Speech Voice from Diverse Recordings |
US20180174570A1 (en) * | 2015-09-16 | 2018-06-21 | Kabushiki Kaisha Toshiba | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product |
JP2018146821A (ja) * | 2017-03-07 | 2018-09-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109920446A (zh) * | 2019-03-12 | 2019-06-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置及计算机存储介质 |
CN110047501A (zh) * | 2019-04-04 | 2019-07-23 | 南京邮电大学 | 基于beta-VAE的多对多语音转换方法 |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110335587A (zh) * | 2019-06-14 | 2019-10-15 | 平安科技(深圳)有限公司 | 语音合成方法、系统、终端设备和可读存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111402858A (zh) * | 2020-02-27 | 2020-07-10 | 平安科技(深圳)有限公司 | 一种歌声合成方法、装置、计算机设备及存储介质 |
CN111402855A (zh) * | 2020-03-06 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
丁耀娥等: "采用谱包络与超音段韵律调整的高自 然度语音转换", 苏州大学学报(工科版), 31 August 2009 (2009-08-31) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927715A (zh) * | 2021-02-26 | 2021-06-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、设备及计算机可读存储介质 |
CN113160849A (zh) * | 2021-03-03 | 2021-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
CN113160849B (zh) * | 2021-03-03 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
CN113421584A (zh) * | 2021-07-05 | 2021-09-21 | 平安科技(深圳)有限公司 | 音频降噪方法、装置、计算机设备及存储介质 |
CN113421584B (zh) * | 2021-07-05 | 2023-06-23 | 平安科技(深圳)有限公司 | 音频降噪方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916093A (zh) | 音频处理方法及装置 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN108108357B (zh) | 口音转换方法及装置、电子设备 | |
EP2375785A2 (en) | Stability improvements in hearing aids | |
JP2009042716A (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
CN111883106B (zh) | 音频处理方法及装置 | |
JP6386237B2 (ja) | 音声明瞭化装置及びそのためのコンピュータプログラム | |
CN106257584A (zh) | 改进的语音可懂度 | |
CN113658583B (zh) | 一种基于生成对抗网络的耳语音转换方法、系统及其装置 | |
CN111667803B (zh) | 一种音频处理方法及相关产品 | |
CN113241082A (zh) | 变声方法、装置、设备和介质 | |
US6701291B2 (en) | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis | |
CN113421584B (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
CN109147798A (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN111081249A (zh) | 一种模式选择方法、装置及计算机可读存储介质 | |
CN112309425A (zh) | 一种声音变调方法、电子设备及计算机可读存储介质 | |
CN115410602A (zh) | 一种语音情感识别方法、装置及电子设备 | |
CN112309404B (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
Umesh et al. | Frequency-warping and speaker-normalization | |
Kameoka et al. | Speech spectrum modeling for joint estimation of spectral envelope and fundamental frequency | |
CN112908351A (zh) | 一种音频变调方法、装置、设备及存储介质 | |
CN112185403B (zh) | 一种语音信号处理方法、装置、存储介质及终端设备 | |
CN114038474A (zh) | 音频合成方法、终端设备及计算机可读存储介质 | |
Goli et al. | Speech intelligibility improvement in noisy environments based on energy correlation in frequency bands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |