CN112634857A - 一种语音合成方法、装置、电子设备和计算机可读介质 - Google Patents

一种语音合成方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN112634857A
CN112634857A CN202011477390.3A CN202011477390A CN112634857A CN 112634857 A CN112634857 A CN 112634857A CN 202011477390 A CN202011477390 A CN 202011477390A CN 112634857 A CN112634857 A CN 112634857A
Authority
CN
China
Prior art keywords
target
streaming media
voice
file
media content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011477390.3A
Other languages
English (en)
Inventor
李小庆
曲南檄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202011477390.3A priority Critical patent/CN112634857A/zh
Publication of CN112634857A publication Critical patent/CN112634857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供了一种语音合成方法、装置、电子设备和计算机可读介质,属于语音技术领域。所述方法包括:获取目标语音的采样率,其中,所述目标语音是使用语音合成工具对目标文本进行转换得到的;按照关联关系确定与所述目标语音的采样率匹配的目标文件头标识,其中,所述关联关系为采样率与文件头标识之间的对应关系;将所述目标文件头标识和所述目标语音保存为音频文件。在本申请中,智能平台根据目标语音的采样率,采用与该采样率匹配的目标文件头标识,保证合成后的语音音速与获取到的目标语音的音速相匹配,提高音频的清晰性。

Description

一种语音合成方法、装置、电子设备和计算机可读介质
技术领域
本申请涉及语音技术领域,尤其涉及一种语音合成方法、装置、电子设备和计算机可读介质。
背景技术
目前文字转语音技术已经成为一种常用的技术手段,它可以将文字转换为mp3声音文件,适用于影视配音,制作小说音频、电子书文档朗读、制作英文听力音频等。精简研报是各行各业均可以应用的、有深度、高质量的研究报告,包括公司调研调查报告、行业前景趋势预测报告、券商研报等。目前精简研报也可以采用文字转语音技术,其过程为采用智能平台提供的语音技术,将精简研报文字版转换为一段段语音,然后将各段语音按照一定的规则合并成一个语音文件。
目前在语音合成过程中,技术人员可以根据实际需要采取对应的采样率进行语音合成,一般的,采样率越高,语音清晰度越高,但智能平台对于任何采样率的语音均采用默认的文件头标识,文件头标识与采样率不匹配会导致语音进行转换后的速率与合成后输出的速率不同,导致输出的语音的清晰度不够清楚。
发明内容
本申请实施例的目的在于提供一种语音合成方法、装置、电子设备和计算机可读介质,以解决语音的清晰度不够清楚的问题。具体技术方案如下:
第一方面,提供了一种语音合成方法,所述方法包括:
获取目标语音的采样率,其中,所述目标语音是使用语音合成工具对目标文本进行转换得到的;
按照关联关系确定与所述目标语音的采样率匹配的目标文件头标识,其中,所述关联关系为采样率与文件头标识之间的对应关系;
将所述目标文件头标识和所述目标语音保存为音频文件。
可选地,所述目标语音包括多个流媒体文件,所述将所述目标文件头标识和所述目标语音保存为音频文件包括:
对所述目标语音的流媒体文件进行解码操作,得到流媒体内容;
将所述流媒体内容和所述目标文件头标识写入目标音频格式的所述音频文件。
可选地,每个所述流媒体文件包括一个初始文件头标识和流媒体内容,所述对所述目标语音的流媒体文件进行解码操作,得到流媒体内容包括:
将每个所述流媒体文件进行解码操作,得到解码后的流媒体文件;
将每个所述解码后的流媒体文件进行初始文件头标识过滤操作,得到所述流媒体内容。
可选地,所述将所述流媒体内容和所述目标文件头标识写入目标音频格式的所述音频文件包括:
将所有所述流媒体内容进行拼接,得到拼接后的语音缓冲流;
选取所述语音缓冲流中位于起始位置的起始流媒体内容;
将所述目标文件头标识加载在所述起始流媒体内容中,得到所述音频文件,其中,所述音频文件的音频格式为所述目标音频格式。
可选地,所述流媒体内容包括所述流媒体文件的文件长度,所述将所述目标文件头标识加载在所述起始流媒体内容中,得到所述音频文件之前,所述方法还包括:
将所有所述文件长度的加和结果作为所述语音缓冲流的长度;
根据所述语音缓冲流的长度确定语音长度标识,其中,所述语音长度标识用于表示所述语音缓冲流的长度;
将所述目标文件头标识中的目标长度标识替换为所述语音长度标识,其中,所述目标长度标识为所述目标文件头标识中的一种标识。
可选地,所述将所有所述流媒体内容进行拼接,得到拼接后的语音缓冲流之后,所述方法还包括:
确定与所述目标语音流的采样率对应的留白时长,其中,所述留白时长用于使所述流媒体内容之间留有停顿时长;
将所述留白时长插入任意两个所述流媒体内容之间。
可选地,
所述确定与所述目标语音流的采样率对应的留白时长包括:获取预设留白时长和与所述目标语音流的采样率对应的单元留白数据量;将所述预设留白时长和所述单元留白数据量的乘积作为目标留白数据量;
所述将所述留白时长插入任意两个所述流媒体内容之间包括:将所述目标留白数据量插入任意两个所述流媒体内容之间。
可选地,所述对所述目标语音的流媒体文件进行解码操作包括:
采用目标解码方式对所述目标语音的流媒体文件进行解码操作,其中,所述目标文本转化为所述目标语音的目标编码方式与所述目标解码方式相同。
可选地,所述获取目标语音的采样率包括:
获取目标语音,其中,所述目标语音中携带有所述初始文件头标识;
识别所述初始文件头标识中携带的所述目标语音的采样率。
可选地,所述流媒体内容包括第一采样率的第一流媒体内容和第二采样率的第二流媒体内容,第一采样率是第二采样率两倍,在对所述目标语音的流媒体文件进行解码操作,得到流媒体内容之后,所述方法还包括按照如下方式在所述第二流媒体内容的任意两个相邻的信号采样时刻之间进行插帧处理:
确定第一信号采样时刻对应的第一信号采样值和第二信号采样时刻对应的第二信号采样值,其中,所述第一信号采样时刻与所述第二信号采样时刻相邻;
将所述第一信号采样时刻和所述第二信号采样时刻的平均值作为第三信号采样时刻,并将所述第一信号采样值和所述第二信号采样值的平均值作为第三信号采样值;
在所述第二流媒体内容中按照所述第三信号采样时刻和所述第三信号采样值进行插帧。
第二方面,提供了一种语音合成装置,所述装置包括:
获取模块,用于获取目标语音的采样率,其中,所述目标语音是使用语音合成工具对目标文本进行转换得到的;
确定模块,用于按照关联关系确定与所述目标语音的采样率匹配的目标文件头标识,其中,所述关联关系为采样率与文件头标识之间的对应关系;
保存模块,用于将所述目标文件头标识和所述目标语音保存为音频文件。
可选地,所述目标语音包括多个流媒体文件,所述保存模块包括:
解码单元,用于对所述目标语音的流媒体文件进行解码操作,得到流媒体内容;
写入单元,用于将所述流媒体内容和所述目标文件头标识写入目标音频格式的所述音频文件。
可选地,每个流媒体文件包括一个初始文件头标识和流媒体内容,所述解码单元包括:
解码子单元,用于将每个所述流媒体文件进行解码操作,得到解码后的流媒体文件;
过滤子单元,用于将每个所述解码后的流媒体文件进行初始文件头标识过滤操作,得到所述流媒体内容。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种语音合成方法,方法包括:智能平台获取目标语音的采样率,其中,目标语音是使用语音合成工具对目标文本进行转换得到的,然后按照关联关系确定与目标语音的采样率匹配的目标文件头标识,其中,关联关系为采样率与文件头标识之间的对应关系,最后将目标文件头标识和目标语音保存为音频文件。在本申请中,智能平台根据目标语音的采样率,采用与该采样率匹配的目标文件头标识,保证合成后的语音音速与获取到的目标语音的音速相匹配,提高音频的清晰性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可选的图像编码方法硬件环境示意图;
图2为本申请实施例提供的一种语音合成的方法流程图;
图3为本申请实施例提供的得到音频文件的方法流程图;
图4为本申请实施例提供的确定目标文件头标识的方法流程图;
图5为本申请实施例提供的一种语音合成装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种语音合成方法的实施例。
可选地,在本申请实施例中,上述语音合成方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种语音合成方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种语音合成方法,可以应用于智能平台,用于确定与目标语音的采样率匹配的目标文件头标识,然后再合成语音。
下面将结合具体实施方式,对本申请实施例提供的一种语音合成方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:获取目标语音的采样率。
其中,目标语音是使用语音合成工具对目标文本进行转换得到的。
语音合成工具可以将目标文本转化为多个语音片段,每个语音片段对应目标文本中的部分文本信息,每个语音片段可以作为一个流媒体文件,多个流媒体文件组成了目标语音,其中,目标语音可以为WAV格式。
智能平台获取到智能平台发送的目标语音后,由于流媒体文件中携带有初始文件头标识,智能平台可以根据初始文件头标识获取目标语音的采样率,其中,音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。
采样率包括多种类型,示例性地,可以为8000Hz,16000Hz,22050Hz。
步骤202:按照关联关系确定与目标语音的采样率匹配的目标文件头标识。
其中,关联关系为采样率与文件头标识之间的对应关系。
目标语音的WAV文件采用的是RIFF(Resource Interchange File Format,资源交换档案标准)格式结构。每个RIFF文档是由若干个块构成。每个块由块标识、块长度及数据等三部分所组成。块标识应该与目标语音的采样率是匹配的,因此,本申请设定了采样率和文件头标识之间的对应关系,在确定目标语音的采样率之后,根据对应关系确定目标语音的采样率匹配的目标文件头标识,避免采用单一的文件头标识造成文件头标识与采样率不匹配,造成输出的语音音速和合成之前的语音音速不同,降低语音清晰度。
可选地,若目标语音流携带有第一采样率和第二采样率,第一采样率高于第二采样率,则按照关联关系确定与第一采样率匹配的目标文件头标识,第二采样率以预设比例进行插帧。
步骤203:将目标文件头标识和目标语音保存为音频文件。
智能平台在确定目标文件头标识后,将目标文件头标识和目标语音保存为音频文件,其中,音频文件的音频格式可以为WAV格式,本申请对音频格式不做具体限定。
在本申请中,智能平台根据目标语音的采样率,采用与该采样率匹配的目标文件头标识,保证合成后的语音音速与获取到的目标语音的音速相匹配,提高音频的清晰性。
作为一种可选的实施方式,目标语音包括多个流媒体文件,将目标文件头标识和目标语音保存为音频文件包括:对目标语音的流媒体文件进行解码操作,得到流媒体内容;将流媒体内容和目标文件头标识写入目标音频格式的音频文件。
目标语音包括多个流媒体文件,流媒体文件是存在于计算机存储介质上的适合在网络上传送的多媒体文件,一般都采用高压缩音视频编码(如MPEG4)后,按播放时间的先后顺序存储,而且为了快速定位,大都存在索引信息。
语音合成工具将目标文本转化为目标语音的过程中,会对目标语音进行编码,智能平台为了得到目标语音中流媒体文件的流媒体内容,对目标语音的流媒体文件进行解码操作,得到流媒体内容,然后智能平台将流媒体内容和目标文件头标识写入音频文件,得到合成后的语音。
作为一种可选的实施方式,每个流媒体文件包括一个初始文件头标识和流媒体内容,对目标语音的流媒体文件进行解码操作,得到流媒体内容包括:将每个流媒体文件进行解码操作,得到解码后的流媒体文件;将每个解码后的流媒体文件进行初始文件头标识过滤操作,得到流媒体内容。
目标语音中的每个流媒体文件均包括流媒体内容和初始文件头标识,智能平台合成后的语音中只需要采用一个目标文件头标识,因此智能平台需要将流媒体文件中的初始文件头标识去除,得到流媒体内容。
智能平台将每个流媒体文件进行解码操作,得到解码后的流媒体文件,由于每个流媒体文件均包括流媒体内容和初始文件头标识,因此智能平台将每个解码后的流媒体文件进行初始文件头标识过滤操作,得到流媒体内容。
作为一种可选的实施方式,如图3所示,将流媒体内容和目标文件头标识写入目标音频格式的音频文件包括:
步骤301:将所有流媒体内容进行拼接,得到拼接后的语音缓冲流。
在本申请实施例中,智能平台获取到每个流媒体内容后,将多个流媒体内容进行拼接,得到拼接后的语音缓冲流。
步骤302:选取语音缓冲流中位于起始位置的起始流媒体内容。
语音缓冲流中包括多个流媒体内容,智能平台选取位于起始位置的起始流媒体内容。
步骤303:将目标文件头标识加载在起始流媒体内容中,得到音频文件。
一段音频中应该只有一个文件头标识,智能平台将目标文件头标识加载在起始流媒体内容中,得到音频文件。音频文件的音频格式为目标音频格式,在本申请实施例中,目标音频格式可以为WAV格式。
在本申请中,智能平台把多个流媒体内容拼接,然后将目标文件头标识加载在位于起始位置的起始流媒体内容上,可以使生成的语音携带有目标文件头标识。
作为一种可选的实施方式,如图4所示,流媒体内容包括流媒体文件的文件长度,将目标文件头标识加载在起始流媒体内容中,得到音频文件之前,方法还包括:
步骤401:将所有文件长度的加和结果作为语音缓冲流的长度。
流媒体内容包括流媒体文件的文件长度,智能平台对目标语音进行解码后,获取流媒体文件的文件长度,然后计算多个流媒体文件的文件长度的加和,将该加和结果作为语音缓冲流的长度,即合成后的语音长度。
步骤402:根据语音缓冲流的长度确定语音长度标识。
其中,目标长度标识为目标文件头标识中的一种标识。
每个语音文件都有长度,语音文件的文件头标识中存在用于表示该语音文件的长度的标识。在本申请中,语音缓冲流的长度即为合成后的语音长度,则智能平台可以根据语音缓冲流的长度确定语音长度标识。
步骤403:将目标文件头标识中的目标长度标识替换为语音长度标识。
其中,目标长度标识为目标文件头标识中的一种标识。
目标文件头标识中存在用于表示语音长度的标识,即目标长度标识,目标长度标识并不一定与语音缓冲流的长度匹配,但语音长度标识是与语音缓冲流的长度相匹配的,为了使目标头文件标识更加精确,本申请将目标文件头标识中的目标长度标识替换为语音长度标识。
作为一种可选的实施方式,将所有流媒体内容进行拼接,得到拼接后的语音缓冲流之后,方法还包括:确定与目标语音流的采样率对应的留白时长,其中,留白时长用于使流媒体内容之间留有停顿时长;将留白时长插入任意两个流媒体内容之间。
多个流媒体内容拼接后,流媒体内容之间没有空余时长,因此语音之间衔接时长过短。智能平台确定与目标语音流的采样率对应的留白时长,然后将留白时长插入任意两个流媒体内容之间,使流媒体内容之间留有停顿时长,提高语音听众的体验感。
作为一种可选的实施方式,所述确定与所述目标语音流的采样率对应的留白时长包括:获取预设留白时长和与所述目标语音流的采样率对应的单元留白数据量;将所述预设留白时长和所述单元留白数据量的乘积作为目标留白数据量;所述将所述留白时长插入任意两个所述流媒体内容之间包括:将所述目标留白数据量插入任意两个所述流媒体内容之间。
不同采样率对应不同的单元留白数据量,采样率越高,单元留白数据量越大,其中,单元留白数据量为单位时长的留白信息对应的数据量。智能平台获取预设设置好的留白时长,并获取与所述目标语音流的采样率对应的单元留白数据量,然后将所述预设留白时长和所述单元留白数据量的乘积作为目标留白数据量,智能平台将所述目标留白数据量插入任意两个所述流媒体内容之间,即可完成两个流媒体内容之间的留白时长。
作为一种可选的实施方式,对目标语音的流媒体文件进行解码操作包括:采用目标解码方式对所述目标语音的流媒体文件进行解码操作,其中,所述目标文本转化为所述目标语音的目标编码方式与所述目标解码方式相同。
在本申请实施例中,语音合成工具将目标文本转化为目标语音的过程中采用目标编码方式进行编码,则智能平台采用与目标编码方式相同的目标解码方式,对目标语音的流媒体文件进行解码操作。示例性地,目标编码方式和目标解码方式为base64。
作为一种可选的实施方式,所述流媒体内容包括第一采样率的第一流媒体内容和第二采样率的第二流媒体内容,第一采样率是第二采样率两倍,在对所述目标语音的流媒体文件进行解码操作,得到流媒体内容之后,所述方法还包括按照如下方式在所述第二流媒体内容的任意两个相邻的信号采样时刻之间进行插帧处理:确定第一信号采样时刻对应的第一信号采样值和第二信号采样时刻对应的第二信号采样值,其中,所述第一信号采样时刻与所述第二信号采样时刻相邻;将所述第一信号采样时刻和所述第二信号采样时刻的平均值作为第三信号采样时刻,并将所述第一信号采样值和所述第二信号采样值的平均值作为第三信号采样值;在所述第二流媒体内容中按照所述第三信号采样时刻和所述第三信号采样值进行插帧。
在本申请实施例中,对所述目标语音的流媒体文件进行解码操作,得到流媒体内容之后,确定流媒体内容包括第一采样率的第一流媒体内容和第二采样率的第二流媒体内容,第一采样率是第二采样率两倍,由于需要采用同一种目标文件头标识,则采用第一采样率对应的目标文件头标识,还需要对第二采样率进行插帧。
具体的,获取第二流媒体内容中相邻的所述第一信号采样时刻与所述第二信号采样时刻,并确定第一信号采样时刻对应的第一信号采样值和第二信号采样时刻对应的第二信号采样值,将所述第一信号采样时刻和所述第二信号采样时刻的平均值作为第三信号采样时刻,并将所述第一信号采样值和所述第二信号采样值的平均值作为第三信号采样值,按照所述第三信号采样时刻和所述第三信号采样值进行插帧对第二流媒体内容进行插帧,以使第二流媒体内容的采样频率与第一流媒体内容的采样频率相同。
可选的,本申请实施例还提供了一种语音合成方法的处理流程,具体步骤如下。
1.确定目标语音的采样率。
在本申请实施例中,智能平台获取到智能平台发送的目标语音后,获取目标语音的采样率,其中,目标语音是使用语音合成工具对目标文本进行转换得到的。
2.按照关联关系确定与目标语音的采样率匹配的目标文件头标识。
本申请设定了采样率和文件头标识之间的对应关系,在确定目标语音的采样率之后,根据对应关系确定目标语音的采样率匹配的目标文件头标识,避免采用单一的文件头标识造成文件头标识与采样率不匹配,造成输出的语音音速和合成之前的语音音速不同,降低语音清晰度。
3.将每个流媒体文件进行解码操作,得到解码后的流媒体文件。
目标文本转换成目标语音的过程中会进行编码,因此智能平台将每个流媒体文件进行解码操作,得到解码后的流媒体文件。
4.将每个解码后的流媒体文件进行初始文件头标识过滤操作,得到流媒体内容,并确定流媒体文件的文件长度。
目标语音中的每个流媒体文件均包括流媒体内容和初始文件头标识,因此智能平台将每个解码后的流媒体文件进行初始文件头标识过滤操作,得到流媒体内容,流媒体内容包括流媒体文件的文件长度。
5.将所有流媒体内容进行拼接,得到拼接后的语音缓冲流。
智能平台获取到每个流媒体内容后,将多个流媒体内容进行拼接,得到拼接后的语音缓冲流。
6.将目标文件头标识加载在起始流媒体内容中。
语音缓冲流中包括多个流媒体内容,智能平台选取位于起始位置的起始流媒体内容,一段音频中应该只有一个文件头标识,智能平台将目标文件头标识加载在起始流媒体内容中。
7.将所有文件长度的加和结果作为语音缓冲流的长度,根据语音缓冲流的长度确定语音长度标识。
智能平台获取每个流媒体文件的文件长度,然后计算多个流媒体文件的文件长度的加和,将该加和结果作为语音缓冲流的长度语音缓冲流的长度即为合成后的语音长度,则智能平台可以根据语音缓冲流的长度确定语音长度标识。
8.将目标文件头标识中的目标长度标识替换为语音长度标识。
目标文件头标识中存在用于表示语音长度的标识,即目标长度标识,目标长度标识并不一定与语音缓冲流的长度匹配,但语音长度标识是与语音缓冲流的长度相匹配的,为了使目标头文件标识更加精确,本申请将目标文件头标识中的目标长度标识替换为语音长度标识。
其中,步骤5和步骤7可以同步执行。
基于相同的技术构思,本申请实施例还提供了一种语音合成装置,如图5所示,该装置包括:
获取模块501,用于获取目标语音的采样率,其中,目标语音是使用语音合成工具对目标文本进行转换得到的;
第一确定模块502,用于按照关联关系确定与目标语音的采样率匹配的目标文件头标识,其中,关联关系为采样率与文件头标识之间的对应关系;
保存模块503,用于将目标文件头标识和目标语音保存为音频文件。
可选地,目标语音包括多个流媒体文件,保存模块503包括:
解码单元,用于对目标语音的流媒体文件进行解码操作,得到流媒体内容;
写入单元,用于将流媒体内容和目标文件头标识写入目标音频格式的音频文件。
可选地,每个流媒体文件包括一个初始文件头标识和流媒体内容,解码单元包括:
解码子单元,用于将每个流媒体文件进行解码操作,得到解码后的流媒体文件;
过滤子单元,用于将每个解码后的流媒体文件进行初始文件头标识过滤操作,得到流媒体内容。
可选地,写入单元包括:
拼接子单元,用于将所有流媒体内容进行拼接,得到拼接后的语音缓冲流;
选取子单元,用于选取语音缓冲流中位于起始位置的起始流媒体内容;
加载子单元,用于将目标文件头标识加载在起始流媒体内容中,得到音频文件,其中,音频文件的音频格式为目标音频格式。
可选地,流媒体内容包括流媒体文件的文件长度,该装置包括:
第一作为模块,用于将所有文件长度的加和结果作为语音缓冲流的长度;
第二确定模块,用于根据语音缓冲流的长度确定语音长度标识,其中,语音长度标识用于表示语音缓冲流的长度;
替换模块,用于将目标文件头标识中的目标长度标识替换为语音长度标识,其中,目标长度标识为目标文件头标识中的一种标识。
可选地,该装置还包括:
第三确定模块,用于确定与目标语音流的采样率对应的留白时长,其中,留白时长用于使流媒体内容之间留有停顿时长;
插入模块,用于将留白时长插入任意两个流媒体内容之间。
可选地,所述第三确定模块包括:
获取单元,用于获取预设留白时长和与所述目标语音流的采样率对应的单元留白数据量;
作为单元,用于将所述预设留白时长和所述单元留白数据量的乘积作为目标留白数据量;
所述插入模块包括:
插入单元,用于将所述目标留白数据量插入任意两个所述流媒体内容之间。
可选地,所述解码单元包括:
解码子单元,用于采用目标解码方式对所述目标语音的流媒体文件进行解码操作,其中,所述目标文本转化为所述目标语音的目标编码方式与所述目标解码方式相同。
可选地,所述获取模块501包括:
获取单元,用于获取目标语音,其中,所述目标语音中携带有所述初始文件头标识;
识别单元,用于识别所述初始文件头标识中携带的所述目标语音的采样率。
可选地,所述流媒体内容包括第一采样率的第一流媒体内容和第二采样率的第二流媒体内容,第一采样率是第二采样率两倍,所述装置还包括:
第四确定模块,用于确定第一信号采样时刻对应的第一信号采样值和第二信号采样时刻对应的第二信号采样值,其中,所述第一信号采样时刻与所述第二信号采样时刻相邻;
第二作为模块,用于将所述第一信号采样时刻和所述第二信号采样时刻的平均值作为第三信号采样时刻,并将所述第一信号采样值和所述第二信号采样值的平均值作为第三信号采样值;
插帧模块,用于在所述第二流媒体内容中按照所述第三信号采样时刻和所述第三信号采样值进行插帧。
在本申请中,智能平台根据目标语音的采样率,采用与该采样率匹配的目标文件头标识,保证合成后的语音音速与获取到的目标语音的音速相匹配,提高音频的清晰性。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图6所示,包括存储器601、处理器603、通信接口605及通信总线607,存储器601中存储有可在处理器603上运行的计算机程序,存储器601、处理器603通过通信接口605和通信总线607进行通信,处理器603执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
获取目标语音的采样率,其中,所述目标语音是使用语音合成工具对目标文本进行转换得到的;
按照关联关系确定与所述目标语音的采样率匹配的目标文件头标识,其中,所述关联关系为采样率与文件头标识之间的对应关系;
将所述目标文件头标识和所述目标语音保存为音频文件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种语音合成方法,其特征在于,所述方法包括:
获取目标语音的采样率,其中,所述目标语音是使用语音合成工具对目标文本进行转换得到的;
按照关联关系确定与所述目标语音的采样率匹配的目标文件头标识,其中,所述关联关系为采样率与文件头标识之间的对应关系;
将所述目标文件头标识和所述目标语音保存为音频文件。
2.根据权利要求1所述的方法,其特征在于,所述目标语音包括多个流媒体文件,所述将所述目标文件头标识和所述目标语音保存为音频文件包括:
对所述目标语音的流媒体文件进行解码操作,得到流媒体内容;
将所述流媒体内容和所述目标文件头标识写入目标音频格式的所述音频文件。
3.根据权利要求2所述的方法,其特征在于,每个所述流媒体文件包括一个初始文件头标识和流媒体内容,所述对所述目标语音的流媒体文件进行解码操作,得到流媒体内容包括:
将每个所述流媒体文件进行解码操作,得到解码后的流媒体文件;
将每个所述解码后的流媒体文件进行初始文件头标识过滤操作,得到所述流媒体内容。
4.根据权利要求2所述的方法,其特征在于,所述将所述流媒体内容和所述目标文件头标识写入目标音频格式的所述音频文件包括:
将所有所述流媒体内容进行拼接,得到拼接后的语音缓冲流;
选取所述语音缓冲流中位于起始位置的起始流媒体内容;
将所述目标文件头标识加载在所述起始流媒体内容中,得到所述音频文件,其中,所述音频文件的音频格式为所述目标音频格式。
5.根据权利要求4所述的方法,其特征在于,所述流媒体内容包括所述流媒体文件的文件长度,所述将所述目标文件头标识加载在所述起始流媒体内容中,得到所述音频文件之前,所述方法还包括:
将所有所述文件长度的加和结果作为所述语音缓冲流的长度;
根据所述语音缓冲流的长度确定语音长度标识,其中,所述语音长度标识用于表示所述语音缓冲流的长度;
将所述目标文件头标识中的目标长度标识替换为所述语音长度标识,其中,所述目标长度标识为所述目标文件头标识中的一种标识。
6.根据权利要求4所述的方法,其特征在于,所述将所有所述流媒体内容进行拼接,得到拼接后的语音缓冲流之后,所述方法还包括:
确定与所述目标语音流的采样率对应的留白时长,其中,所述留白时长用于使所述流媒体内容之间留有停顿时长;
将所述留白时长插入任意两个所述流媒体内容之间。
7.根据权利要求6所述的方法,其特征在于,
所述确定与所述目标语音流的采样率对应的留白时长包括:获取预设留白时长和与所述目标语音流的采样率对应的单元留白数据量;将所述预设留白时长和所述单元留白数据量的乘积作为目标留白数据量;
所述将所述留白时长插入任意两个所述流媒体内容之间包括:将所述目标留白数据量插入任意两个所述流媒体内容之间。
8.根据权利要求2所述的方法,其特征在于,所述对所述目标语音的流媒体文件进行解码操作包括:
采用目标解码方式对所述目标语音的流媒体文件进行解码操作,其中,所述目标文本转化为所述目标语音的目标编码方式与所述目标解码方式相同。
9.根据权利要求3所述的方法,其特征在于,所述获取目标语音的采样率包括:
获取目标语音,其中,所述目标语音中携带有所述初始文件头标识;
识别所述初始文件头标识中携带的所述目标语音的采样率。
10.根据权利要求2所述的方法,其特征在于,所述流媒体内容包括第一采样率的第一流媒体内容和第二采样率的第二流媒体内容,第一采样率是第二采样率两倍,在对所述目标语音的流媒体文件进行解码操作,得到流媒体内容之后,所述方法还包括按照如下方式在所述第二流媒体内容的任意两个相邻的信号采样时刻之间进行插帧处理:
确定第一信号采样时刻对应的第一信号采样值和第二信号采样时刻对应的第二信号采样值,其中,所述第一信号采样时刻与所述第二信号采样时刻相邻;
将所述第一信号采样时刻和所述第二信号采样时刻的平均值作为第三信号采样时刻,并将所述第一信号采样值和所述第二信号采样值的平均值作为第三信号采样值;
在所述第二流媒体内容中按照所述第三信号采样时刻和所述第三信号采样值进行插帧。
11.一种语音合成装置,其特征在于,所述装置包括:
获取模块,用于获取目标语音的采样率,其中,所述目标语音是使用语音合成工具对目标文本进行转换得到的;
确定模块,用于按照关联关系确定与所述目标语音的采样率匹配的目标文件头标识,其中,所述关联关系为采样率与文件头标识之间的对应关系;
保存模块,用于将所述目标文件头标识和所述目标语音保存为音频文件。
12.根据权利要求11所述的装置,其特征在于,所述目标语音包括多个流媒体文件,所述保存模块包括:
解码单元,用于对所述目标语音的流媒体文件进行解码操作,得到流媒体内容;
写入单元,用于将所述流媒体内容和所述目标文件头标识写入目标音频格式的所述音频文件。
13.根据权利要求12所述的装置,其特征在于,每个流媒体文件包括一个初始文件头标识和流媒体内容,所述解码单元包括:
解码子单元,用于将每个所述流媒体文件进行解码操作,得到解码后的流媒体文件;
过滤子单元,用于将每个所述解码后的流媒体文件进行初始文件头标识过滤操作,得到所述流媒体内容。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-10任一所述的方法步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10任一所述的方法步骤。
CN202011477390.3A 2020-12-15 2020-12-15 一种语音合成方法、装置、电子设备和计算机可读介质 Pending CN112634857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011477390.3A CN112634857A (zh) 2020-12-15 2020-12-15 一种语音合成方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011477390.3A CN112634857A (zh) 2020-12-15 2020-12-15 一种语音合成方法、装置、电子设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN112634857A true CN112634857A (zh) 2021-04-09

Family

ID=75313152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011477390.3A Pending CN112634857A (zh) 2020-12-15 2020-12-15 一种语音合成方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN112634857A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182107A1 (en) * 2002-03-21 2003-09-25 Tenx Technology, Inc. Voice signal synthesizing method and device
US20170278527A1 (en) * 2016-03-28 2017-09-28 Nuance Communications, Inc. Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
CN110335615A (zh) * 2019-05-05 2019-10-15 北京字节跳动网络技术有限公司 音频数据的处理方法、装置、电子设备及存储介质
US20200005761A1 (en) * 2018-12-20 2020-01-02 Baidu Online Network Technology (Beijing) Co., Ltd. Voice synthesis method, apparatus, device and storage medium
CN111402908A (zh) * 2020-03-30 2020-07-10 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备和存储介质
CN111459445A (zh) * 2020-02-28 2020-07-28 问问智能信息科技有限公司 网页端音频生成方法、装置、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182107A1 (en) * 2002-03-21 2003-09-25 Tenx Technology, Inc. Voice signal synthesizing method and device
US20170278527A1 (en) * 2016-03-28 2017-09-28 Nuance Communications, Inc. Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
US20200005761A1 (en) * 2018-12-20 2020-01-02 Baidu Online Network Technology (Beijing) Co., Ltd. Voice synthesis method, apparatus, device and storage medium
CN110335615A (zh) * 2019-05-05 2019-10-15 北京字节跳动网络技术有限公司 音频数据的处理方法、装置、电子设备及存储介质
CN111459445A (zh) * 2020-02-28 2020-07-28 问问智能信息科技有限公司 网页端音频生成方法、装置、存储介质
CN111402908A (zh) * 2020-03-30 2020-07-10 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
CN106653036B (zh) 基于ott盒子的混音转码方法
US20170163955A1 (en) Method and device for playing video
CN109473104B (zh) 语音识别网络延时优化方法及装置
US11270737B2 (en) Systems and methods for editing a video
CN112039991B (zh) 通知信息处理方法、装置、计算机系统及可读存储介质
RU2010144057A (ru) Маскирование ошибки передачи в цифровом аудиосигнале в иерархической структуре декодирования
CN112954434B (zh) 字幕处理方法、系统、电子设备和存储介质
CN102047336B (zh) 用于产生或截除或改变包括至少一个报头部分在内的基于帧的比特流格式文件的方法和设备以及相应数据结构
WO2019007308A1 (zh) 语音播报方法及装置
CN101292428B (zh) 用于编码/解码的方法和装置
EP4099694A1 (en) Video stream processing method and apparatus, and electronic device and computer-readable medium
CN111182315A (zh) 一种多媒体文件拼接方法、装置、设备及介质
CN112116903A (zh) 语音合成模型的生成方法、装置、存储介质及电子设备
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
KR20070117120A (ko) 전자기기에서 이미지 파일에 추가 정보 삽입 장치 및 방법
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
WO2016179921A1 (zh) 音频推广信息的处理方法、装置、设备及非易失性计算机存储介质
CN111816197B (zh) 音频编码方法、装置、电子设备和存储介质
CN112634857A (zh) 一种语音合成方法、装置、电子设备和计算机可读介质
CN104981868A (zh) 对音频信号进行编码和解码的方法以及用于对音频信号进行编码和解码的设备
WO2023005193A1 (zh) 字幕显示方法及装置
CN113409792B (zh) 一种语音识别方法及其相关设备
CN116233411A (zh) 音视频同步测试的方法、装置、设备及计算机存储介质
Koenig et al. Forensic authenticity analyses of the metadata in re-encoded WAV files

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co., Ltd

CB02 Change of applicant information