CN111048063A - 音频合成方法及装置 - Google Patents
音频合成方法及装置 Download PDFInfo
- Publication number
- CN111048063A CN111048063A CN201911284619.9A CN201911284619A CN111048063A CN 111048063 A CN111048063 A CN 111048063A CN 201911284619 A CN201911284619 A CN 201911284619A CN 111048063 A CN111048063 A CN 111048063A
- Authority
- CN
- China
- Prior art keywords
- recorded
- audio
- equalization
- loudness
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 26
- 239000000463 material Substances 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 20
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims description 51
- 238000007781 pre-processing Methods 0.000 claims description 40
- 230000002194 synthesizing effect Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract description 13
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 239000000872 buffer Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例提供一种音频合成方法及装置,方法包括:对预录音材料进行响度预处理和均衡参数预处理;将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件;本申请能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
Description
技术领域
本申请涉及音频处理领域,具体涉及一种音频合成方法及装置。
背景技术
在有变量或者用户隐私内容等不便于真人录音时,必须使用合成音进行插入以保证整句话的完整表达。真人录音与电子合成音在音色上有显著区别,如果不进行处理,会严重影响体验感观。
发明内容
针对现有技术中的问题,本申请提供一种音频合成方法及装置,能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种音频合成方法,包括:
对预录音材料进行响度预处理和均衡参数预处理;
将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
进一步地,所述对预录音材料进行响度预处理,包括:
根据ERB谱计算Moore响度算法,对所述合成音进行分析,得到合成音Moore响度数值;
根据ERB谱计算Moore响度算法,对所述预录音材料进行分析,得到预录音Moore响度数值;
根据所述合成音Moore响度数值,对所述预录音Moore响度数值进行数值调整。
进一步地,所述对预录音材料进行均衡参数预处理,包括:
根据EQ均衡器算法,对所述合成音进行分析,得到合成音均衡频谱特征,并对此频谱设定专用颜色标示;
根据EQ均衡器算法,对所述预录音材料进行分析,得到预录音均衡频谱特征,并对此频谱设定专用颜色标示(与语音合成音颜色不同);
根据所述合成音均衡频谱特征中的均衡参数,对所述预录音材料的预录音均衡频谱特征中的均衡参数进行调整。
进一步地,所述将经过处理后的预录音材料与合成音进行音频拼接,包括:
根据预设语音话术流程,依次导入对应的所述预录音材料。
根据预设话术模板调用所述预录音材料并播放。
第二方面,本申请提供一种音频合成装置,包括:
预录音材料预处理模块,用于对预录音材料进行响度预处理和均衡参数预处理;
音频拼接模块,用于将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
进一步地,所述预录音材料预处理模块包括:
第一响度分析单元,用于根据ERB谱计算Moore响度算法,对所述合成音进行分析,得到合成音Moore响度数值;
第二响度分析单元,用于根据ERB谱计算Moore响度算法,对所述预录音材料进行分析,得到预录音Moore响度数值;
响度修正单元,用于根据所述合成音Moore响度数值,对所述预录音Moore响度数值进行数值调整。
进一步地,所述预录音材料预处理模块还包括:
第一均衡参数分析单元,用于根据EQ均衡器算法,对所述合成音进行分析,得到合成音均衡频谱特征,并对此频谱设定专用颜色标示;
第二均衡参数分析单元,用于根据EQ均衡器算法,对所述预录音材料进行分析,得到预录音均衡频谱特征,并对此频谱设定专用颜色标示(与语音合成音颜色不同);
均衡参数修正单元,用于根据所述合成音均衡频谱特征中的均衡参数,对所述预录音材料的预录音均衡频谱特征中的均衡参数进行调整。
进一步地,所述音频拼接模块包括:
预录音材料导入单元,用于根据预设语音话术流程,依次导入对应的所述预录音材料。
预录音材料播放单元,用于根据预设话术模板调用所述预录音材料并播放。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的音频合成方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的音频合成方法的步骤。
由上述技术方案可知,本申请提供一种音频合成方法及装置,通过对预录音材料进行响度预处理和均衡参数预处理;将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件,能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的音频合成方法的流程示意图之一;
图2为本申请实施例中的音频合成方法的流程示意图之二;
图3为本申请实施例中的音频合成方法的流程示意图之三;
图4为本申请实施例中的音频合成方法的流程示意图之四;
图5为本申请实施例中的音频合成装置的结构图之一;
图6为本申请实施例中的音频合成装置的结构图之二;
图7为本申请实施例中的音频合成装置的结构图之三;
图8为本申请实施例中的音频合成装置的结构图之四;
图9为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到在有变量或者用户隐私内容等不便于真人录音时,必须使用合成音进行插入以保证整句话的完整表达。真人录音与电子合成音在音色上有显著区别,如果不进行处理,会严重影响体验感观的问题,本申请提供一种音频合成方法及装置,通过对预录音材料进行响度预处理和均衡参数预处理;将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件,能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
为了能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观,本申请提供一种音频合成方法的实施例,参见图1,所述音频合成方法具体包含有如下内容:
步骤S101:对预录音材料进行响度预处理和均衡参数预处理。
可以理解的是,在步骤S101之前,还包括对预音频材料的录制及采集。
可选地,对所述预录音材料的预处理处理包括:预录音材料Moore响度处理、预录音材料EQ均衡器参数设置。
步骤S102:将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
从上述描述可知,本申请实施例提供的音频合成方法,能够通过对预录音材料进行响度预处理和均衡参数预处理;将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件,能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
为了能够准确有效的对预录音材料进行响度预处理,在本申请的音频合成方法的一实施例中,参见图2,还可以具体包含如下内容:
步骤S201:根据ERB谱计算Moore响度算法,对所述合成音进行分析,得到合成音Moore响度数值。
步骤S202:根据ERB谱计算Moore响度算法,对所述预录音材料进行分析,得到预录音Moore响度数值。
步骤S203:根据所述合成音Moore响度数值,对所述预录音Moore响度数值进行数值调整。
可选地,使用ERB谱计算Moore响度算法,对语音合成(TTS)音进行分析,得到语音合成(TTS)音Moore响度数值;
可选地,使用ERB谱计算Moore响度算法,对预录音材料进行分析,得到预录音Moore响度数值;
可选地,以语音合成(TTS)音Moore响度数值为基准,对预录音Moore响度数值进行调整,使语音合成(TTS)音与预录音Moore响度数值相同或相近。
可选地,EQ均衡器参数设置之后,再次检查音合成(TTS)音以及预录音材料Moore响度数值,确保数值相同或相近。此步骤可有效改变语音合成(TTS)音与预录音声音强弱不一致问题。
为了能够准确有效的对预录音材料进行均衡参数预处理,在本申请的音频合成方法的一实施例中,参见图3,还可以具体包含如下内容:
步骤S301:根据EQ均衡器算法,对所述合成音进行分析,得到合成音均衡频谱特征,并对此频谱设定专用颜色标示。
步骤S302:根据EQ均衡器算法,对所述预录音材料进行分析,得到预录音均衡频谱特征。
步骤S303:根据所述合成音均衡频谱特征中的均衡参数,对所述预录音材料的预录音均衡频谱特征中的均衡参数进行调整。
可选地,使用EQ均衡器算法,对语音合成(TTS)音进行分析,得到语音合成(TTS)音均衡频谱特征,并对此频谱设定专用颜色标示;
可选地,使用EQ均衡器算法,对预录音进行分析,得到预录音均衡频谱特征,并对此频谱设定专用颜色标示(与语音合成音颜色不同);
可选地,以语音合成(TTS)音均衡参数线为目标对预录音材料均衡参数进行调整,使调整后的预录音材料均衡频谱特征与语音合成音均衡参数频谱贴合。此步骤可有效改变预录音材料与语音合成(TTS)音高、低音区别过大的问题。
为了能够有效应用所述预录音材料,在本申请的音频合成方法的一实施例中,参见图4,还可以具体包含如下内容:
步骤S401:根据预设语音话术流程,依次导入对应的所述预录音材料。
步骤S402:根据预设话术模板调用所述预录音材料并播放。
可选地,根据预设智能语音话术流程,有序导入对应预录音。如文本中含有敏感信息,则标示敏感信息(变量)位置,如若多个敏感信息(变量),则分别标示并指定代表编号;根据话术模板调用相应录音实现对话,如若有用户敏感信息(变量)存在,根据敏感信息(变量)位置标记,在标记位置调用TTS合成敏感信息(变量)语音并播放。
为了能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观,本申请提供一种用于实现所述音频合成方法的全部或部分内容的音频合成装置的实施例,参见图5,所述音频合成装置具体包含有如下内容:
预录音材料预处理模块10,用于对预录音材料进行响度预处理和均衡参数预处理。
音频拼接模块20,用于将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
从上述描述可知,本申请实施例提供的音频合成装置,能够通过对预录音材料进行响度预处理和均衡参数预处理;将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件,能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
为了能够准确有效的对预录音材料进行响度预处理,在本申请的音频合成装置的一实施例中,参见图6,所述预录音材料预处理模块10包括:
第一响度分析单元11,用于根据ERB谱计算Moore响度算法,对所述合成音进行分析,得到合成音Moore响度数值。
第二响度分析单元12,用于根据ERB谱计算Moore响度算法,对所述预录音材料进行分析,得到预录音Moore响度数值。
响度修正单元13,用于根据所述合成音Moore响度数值,对所述预录音Moore响度数值进行数值调整。
为了能够准确有效的对预录音材料进行均衡参数预处理,在本申请的音频合成装置的一实施例中,参见图7,所述预录音材料预处理模块10还包括:
第一均衡参数分析单元14,用于根据EQ均衡器算法,对所述合成音进行分析,得到合成音均衡频谱特征,并对此频谱设定专用颜色标示。
第二均衡参数分析单元15,用于根据EQ均衡器算法,对所述预录音材料进行分析,得到预录音均衡频谱特征。
均衡参数修正单元16,用于根据所述合成音均衡频谱特征中的均衡参数,对所述预录音材料的预录音均衡频谱特征中的均衡参数进行调整。
为了能够有效应用所述预录音材料,在本申请的音频合成装置的一实施例中,参见图8,所述音频拼接模块20包括:
预录音材料导入单元21,用于根据预设语音话术流程,依次导入对应的所述预录音材料。
预录音材料播放单元22,用于根据预设话术模板调用所述预录音材料并播放。
从硬件层面来说,为了能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观,本申请提供一种用于实现所述音频合成方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现音频合成装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的音频合成方法的实施例,以及音频合成装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,音频合成方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图9为本申请实施例的电子设备9600的系统构成的示意框图。如图9所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图9是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,音频合成方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:对预录音材料进行响度预处理和均衡参数预处理。
步骤S102:将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
从上述描述可知,本申请实施例提供的电子设备,通过对预录音材料进行响度预处理和均衡参数预处理;将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件,能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
在另一个实施方式中,音频合成装置可以与中央处理器9100分开配置,例如可以将音频合成装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现音频合成方法功能。
如图9所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图9中所示的所有部件;此外,电子设备9600还可以包括图9中没有示出的部件,可以参考现有技术。
如图9所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的音频合成方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的音频合成方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:对预录音材料进行响度预处理和均衡参数预处理。
步骤S102:将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过对预录音材料进行响度预处理和均衡参数预处理;将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件,能够有效克服因真人录音与电子合成音音色差别造成的拼接不流畅、过度突兀的问题,进而提高用户的听觉体验感观。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种音频合成方法,其特征在于,所述方法包括:
对预录音材料进行响度预处理和均衡参数预处理;
将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
2.根据权利要求1所述的音频合成方法,其特征在于,所述对预录音材料进行响度预处理,包括:
根据ERB谱计算Moore响度算法,对所述合成音进行分析,得到合成音Moore响度数值;
根据ERB谱计算Moore响度算法,对所述预录音材料进行分析,得到预录音Moore响度数值;
根据所述合成音Moore响度数值,对所述预录音Moore响度数值进行数值调整。
3.根据权利要求1所述的音频合成方法,其特征在于,所述对预录音材料进行均衡参数预处理,包括:
根据EQ均衡器算法,对所述合成音进行分析,得到合成音均衡频谱特征,并对此频谱设定专用颜色标示;
根据EQ均衡器算法,对所述预录音材料进行分析,得到预录音均衡频谱特征;
根据所述合成音均衡频谱特征中的均衡参数,对所述预录音材料的预录音均衡频谱特征中的均衡参数进行调整。
4.根据权利要求1所述的音频合成方法,其特征在于,所述将经过处理后的预录音材料与合成音进行音频拼接,包括:
根据预设语音话术流程,依次导入对应的所述预录音材料;
根据预设话术模板调用所述预录音材料并播放。
5.一种音频合成装置,其特征在于,包括:
预录音材料预处理模块,用于对预录音材料进行响度预处理和均衡参数预处理;
音频拼接模块,用于将经过处理后的预录音材料与合成音进行音频拼接,得到目标音频文件。
6.根据权利要求5所述的音频合成装置,其特征在于,所述预录音材料预处理模块包括:
第一响度分析单元,用于根据ERB谱计算Moore响度算法,对所述合成音进行分析,得到合成音Moore响度数值;
第二响度分析单元,用于根据ERB谱计算Moore响度算法,对所述预录音材料进行分析,得到预录音Moore响度数值;
响度修正单元,用于根据所述合成音Moore响度数值,对所述预录音Moore响度数值进行数值调整。
7.根据权利要求5所述的音频合成装置,其特征在于,所述预录音材料预处理模块还包括:
第一均衡参数分析单元,用于根据EQ均衡器算法,对所述合成音进行分析,得到合成音均衡频谱特征,并对此频谱设定专用颜色标示;
第二均衡参数分析单元,用于根据EQ均衡器算法,对所述预录音材料进行分析,得到预录音均衡频谱特征;
均衡参数修正单元,用于根据所述合成音均衡频谱特征中的均衡参数,对所述预录音材料的预录音均衡频谱特征中的均衡参数进行调整。
8.根据权利要求5所述的音频合成装置,其特征在于,所述音频拼接模块包括:
预录音材料导入单元,用于根据预设语音话术流程,依次导入对应的所述预录音材料;
预录音材料播放单元,用于根据预设话术模板调用所述预录音材料并播放。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的音频合成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的音频合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284619.9A CN111048063A (zh) | 2019-12-13 | 2019-12-13 | 音频合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284619.9A CN111048063A (zh) | 2019-12-13 | 2019-12-13 | 音频合成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111048063A true CN111048063A (zh) | 2020-04-21 |
Family
ID=70236291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911284619.9A Pending CN111048063A (zh) | 2019-12-13 | 2019-12-13 | 音频合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111048063A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700762A (zh) * | 2020-12-23 | 2021-04-23 | 武汉理工大学 | 一种基于缸压信号的汽车声音合成方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5360601A (en) * | 1976-11-11 | 1978-05-31 | Matsushita Electric Ind Co Ltd | Binaural recording and reproducing system |
US20060106472A1 (en) * | 2004-11-16 | 2006-05-18 | Romesburg Eric D | Method and apparatus for normalizing sound recording loudness |
US20090232329A1 (en) * | 2006-05-26 | 2009-09-17 | Kwon Dae-Hoon | Equalization method using equal loudness curve, and sound output apparatus using the same |
WO2011019339A1 (en) * | 2009-08-11 | 2011-02-17 | Srs Labs, Inc. | System for increasing perceived loudness of speakers |
CN104393848A (zh) * | 2014-10-27 | 2015-03-04 | 常州听觉工坊智能科技有限公司 | 音量调节方法及装置 |
CN108174031A (zh) * | 2017-12-26 | 2018-06-15 | 上海展扬通信技术有限公司 | 一种音量调节方法、终端设备及计算机可读存储介质 |
CN108882115A (zh) * | 2017-05-12 | 2018-11-23 | 华为技术有限公司 | 响度调节方法、装置及终端 |
CN109859729A (zh) * | 2019-01-21 | 2019-06-07 | 北京小唱科技有限公司 | 对音频进行波形幅度控制方法及装置 |
CN109889170A (zh) * | 2019-02-25 | 2019-06-14 | 珠海格力电器股份有限公司 | 音频信号的控制方法和装置 |
CN110446102A (zh) * | 2018-05-04 | 2019-11-12 | 青岛海信电器股份有限公司 | 音频信号的响度调整方法及装置 |
-
2019
- 2019-12-13 CN CN201911284619.9A patent/CN111048063A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5360601A (en) * | 1976-11-11 | 1978-05-31 | Matsushita Electric Ind Co Ltd | Binaural recording and reproducing system |
US20060106472A1 (en) * | 2004-11-16 | 2006-05-18 | Romesburg Eric D | Method and apparatus for normalizing sound recording loudness |
US20090232329A1 (en) * | 2006-05-26 | 2009-09-17 | Kwon Dae-Hoon | Equalization method using equal loudness curve, and sound output apparatus using the same |
WO2011019339A1 (en) * | 2009-08-11 | 2011-02-17 | Srs Labs, Inc. | System for increasing perceived loudness of speakers |
CN104393848A (zh) * | 2014-10-27 | 2015-03-04 | 常州听觉工坊智能科技有限公司 | 音量调节方法及装置 |
CN108882115A (zh) * | 2017-05-12 | 2018-11-23 | 华为技术有限公司 | 响度调节方法、装置及终端 |
CN108174031A (zh) * | 2017-12-26 | 2018-06-15 | 上海展扬通信技术有限公司 | 一种音量调节方法、终端设备及计算机可读存储介质 |
CN110446102A (zh) * | 2018-05-04 | 2019-11-12 | 青岛海信电器股份有限公司 | 音频信号的响度调整方法及装置 |
CN109859729A (zh) * | 2019-01-21 | 2019-06-07 | 北京小唱科技有限公司 | 对音频进行波形幅度控制方法及装置 |
CN109889170A (zh) * | 2019-02-25 | 2019-06-14 | 珠海格力电器股份有限公司 | 音频信号的控制方法和装置 |
Non-Patent Citations (4)
Title |
---|
LE LUO等: "基于自适应Moore响度算法研究高速列车车内声品质(英文)", 《JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE A(APPLIED PHYSICS & ENGINEERING)》 * |
刘阳等: "Ambisonics声捡拾与重放音色的双耳听觉模型分析与实验", 《声学学报》 * |
唐舒岩: "录音教材产品录制加工中的语音信号响度平衡", 《电声技术》 * |
焦中兴等: "一种用ERB谱计算Moore响度的算法", 《电声技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700762A (zh) * | 2020-12-23 | 2021-04-23 | 武汉理工大学 | 一种基于缸压信号的汽车声音合成方法及装置 |
CN112700762B (zh) * | 2020-12-23 | 2022-10-04 | 武汉理工大学 | 一种基于缸压信号的汽车声音合成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473525B (zh) | 获取语音训练样本的方法和装置 | |
CN110956956A (zh) | 基于策略规则的语音识别方法及装置 | |
CN111599343B (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN111078930A (zh) | 音频文件数据处理方法及装置 | |
CN110289024B (zh) | 一种音频编辑方法、装置、电子设备及存储介质 | |
CN109982231B (zh) | 一种信息处理方法、设备及存储介质 | |
CN113257218B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN103327156A (zh) | 一种语音文件输出方法及装置 | |
CN111931835A (zh) | 一种图像识别方法、装置及系统 | |
CN110191221A (zh) | 音频处理方法、电路和终端 | |
CN111405129A (zh) | 智能外呼风险监控方法及装置 | |
CN113395538B (zh) | 音效渲染方法、装置、计算机可读介质和电子设备 | |
CN111918174B (zh) | 音量增益平衡的方法、设备、电子设备及交通工具 | |
CN106601268B (zh) | 一种多媒体数据处理方法及装置 | |
CN111048115A (zh) | 语音识别方法及装置 | |
CN111048063A (zh) | 音频合成方法及装置 | |
CN114121050B (zh) | 音频播放方法、装置、电子设备和存储介质 | |
CN113206998B (zh) | 一种业务录制的视频数据质检方法及装置 | |
CN113206997B (zh) | 一种多业务的录制音频数据的同时质检方法及装置 | |
CN114840576A (zh) | 数据标准匹配方法及装置 | |
CN106331356B (zh) | 一种音量控制方法及终端 | |
CN109995941B (zh) | 一种数据调整方法、设备及存储介质 | |
KR20060082702A (ko) | 이동통신 단말기의 음악파일 이득 조정장치 | |
CN112307161B (zh) | 用于播放音频的方法和装置 | |
CN113840034A (zh) | 声音信号处理方法和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200421 |