CN111128116A - 一种语音处理方法、装置、计算设备及存储介质 - Google Patents

一种语音处理方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN111128116A
CN111128116A CN201911330867.2A CN201911330867A CN111128116A CN 111128116 A CN111128116 A CN 111128116A CN 201911330867 A CN201911330867 A CN 201911330867A CN 111128116 A CN111128116 A CN 111128116A
Authority
CN
China
Prior art keywords
voice
adjusted
initial
synthesized voice
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911330867.2A
Other languages
English (en)
Other versions
CN111128116B (zh
Inventor
高杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201911330867.2A priority Critical patent/CN111128116B/zh
Publication of CN111128116A publication Critical patent/CN111128116A/zh
Application granted granted Critical
Publication of CN111128116B publication Critical patent/CN111128116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种语音处理方法、装置、计算设备及存储介质,用于解决设备在进行语音合成时合成的语音较为机械,缺乏真实感的技术问题。所述方法包括:先获取文本文字,并将获取到的文本文字转换为初始语音,然后将初始语音与语音合成库中的预定波形对进行合成,以获得初始合成语音,然后再获取基准语音的韵律特征信息,并根据获取的韵律特征信息对初始合成语音进行调整,以获得调整后的合成语音,最后将调整后的合成语音进行输出。

Description

一种语音处理方法、装置、计算设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音处理方法、装置、计算设备及存储介质。
背景技术
语音合成,是一种可以将任意输入文本转换成相应语音的技术。随着人工智能技术的发展,语音合成技术越来越收到人们的重视,利用语音合成技术和语音识别技术,一方面,可以使智能设备生成用户听得懂的口语,另一方面,智能设备可以听懂用户说的话,从而可以实现人机语音通信。
为了实现语音合成,可以采用传统的参数语音合成方法,将文本文字和键盘输入的文字经过文本分析之后,从语音合成库中选择匹配的波形片段进行编辑拼接,以形成合成语音,进而输出合成语音。在进行波形片段拼接的时候,可能会出现一些失真的情况,导致合成的语音与用户发出的自然语音存在一些差异,进而使得输出的合成语音不够自然。
综上所述,现有技术中设备在合成语音时的语音合成效果较差,所以,如何提高语音合成的效果是需要解决的技术问题。
发明内容
本申请实施例提供一种语音处理方法、装置、计算设备及存储介质,用于解决设备在进行语音合成时合成的语音较为机械,缺乏真实感的技术问题。
第一方面,提供一种语音处理方法,所述方法包括:
获取文本文字,并将所述文本文字转换为初始语音;
将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;
获取基准语音的韵律特征信息;
根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;
输出所述调整后的合成语音。
在一种可能的设计中,在获取基准自然语音的韵律特征信息之前,所述方法还包括:
确定所述初始合成语音的语音属性信息;
从多个预设的自然语音中确定与所述语音属性信息相符的候选自然语音;
根据所述候选自然语音确定所述基准语音。
在一种可能的设计中,根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音,包括:
根据所述韵律特征信息,调整所述初始合成语音的基音周期,以获得第一调整合成语音;
根据所述韵律特征信息,调整所述第一调整合成语音的振幅,以获得第二调整合成语音;
将所述第二调整合成语音确定为所述调整后的合成语音。
在一种可能的设计中,根据所述韵律特征信息,调整所述初始合成语音的基音周期,包括:
确定所述初始合成语音的待调整声调波形;
确定所述待调整声调波形的原始标记点,其中,所述原始标记点包括所述初始合成语音的每个所述基音周期的起始点和终止点;
根据基准声调曲线,从所述待调整声调波形中确定目标位置,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;
将调整标记点插入所述目标位置,并根据所述调整标记点调整所述初始合成语音的基音周期。
在一种可能的设计中,根据所述韵律特征信息,调整所述第一调整合成语音的振幅,包括:
获取所述待调整声调波形的第一振幅值及对应所述第一振幅值的时间帧;
确定所述基准声调波形中对应所述时间帧的第二振幅值,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;
将所述第一振幅值调整为所述第二振幅值。
在一种可能的设计中,在根据所述韵律特征信息对所述初始合成语音进行调整之前,所述方法还包括:
对所述待调整声调波形进行加窗处理,以获得加窗后的待调整声调波形,其中,所述加窗后的待调整声调波形包括所述初始合成语音中的至少一个完整基音周期。
第二方面,提供一种语音处理装置,所述装置包括:
第一获取模块,用于获取文本文字,并将所述文本文字转换为初始语音;
获得模块,用于将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;
第二获取模块,用于获取基准语音的韵律特征信息;
调整模块,用于根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;
输出模块,用于输出所述调整后的合成语音。
在一种可能的设计中,所述装置还包括确定模块,用于:
在第二获取模块获取基准语音的韵律特征信息之前,确定所述初始合成语音的语音属性信息;
从多个预设的自然语音中确定与所述语音属性信息相符的候选自然语音;
根据所述候选自然语音确定所述基准语音。
在一种可能的设计中,所述调整模块,用于:
根据所述韵律特征信息,调整所述初始合成语音的基音周期,以获得第一调整合成语音;
根据所述韵律特征信息,调整所述第一调整合成语音的振幅,以获得第二调整合成语音;
将所述第二调整合成语音确定为所述调整后的合成语音。
在一种可能的设计中,所述调整模块,用于:
确定所述初始合成语音的待调整声调波形;
确定所述待调整声调波形的原始标记点,其中,所述原始标记点包括所述初始合成语音的每个所述基音周期的起始点和终止点;
根据基准声调曲线,从所述待调整声调波形中确定目标位置,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;
将调整标记点插入所述目标位置,并根据所述调整标记点调整所述初始合成语音的基音周期。
在一种可能的设计中,所述调整模块,用于:
获取所述待调整声调波形的第一振幅值及对应所述第一振幅值的时间帧;
确定所述基准声调波形中对应所述时间帧的第二振幅值,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;
将所述第一振幅值调整为所述第二振幅值。
在一种可能的设计中,所述装置还包括加窗模块,用于:
在调整模块根据所述韵律特征信息对所述初始合成语音进行调整之前,对所述待调整声调波形进行加窗处理,以获得加窗后的待调整声调波形,其中,所述加窗后的待调整声调波形包括所述初始合成语音中的至少一个完整基音周期。
第三方面,提供一种计算设备,所述计算设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤。
第四方面,提供一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中的任一方法包括的步骤。
第五方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述各种可能的实现方式中所描述的语音处理方法。
在本申请实施例中,先获取文本文字,并将获取到的文本文字转换为初始语音,然后将初始语音与语音合成库中的预定波形进行合成,以获得初始合成语音,然后再获取基准语音的韵律特征信息,并根据获取的韵律特征信息对初始合成语音进行调整,以获得调整后的合成语音,最后将调整后的合成语音进行输出。也就是说,初始语音与语音合成库中的预定波形进行合成后获得的初始合成语音,是没有进行特殊的韵律处理的合成语音,而在将初始语音与语音合成库中的匹配波段进行拼接合成时,可能会出现韵律信息丢失的情况,所以,导致初始合成语音可能不够自然。通过基准语音的一些韵律特征信息对初始合成语音的韵律特征进行调整,使得初始合成语音的韵律特征比较接近自然语音的韵律特征,优化了初始合成语音,进而使得最后输出的合成语音更加自然、清晰。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为传统语音合成的方法的示意图;
图2为本申请实施例提供的语音合成的方法的示意图;
图3为本申请实施例提供的语音处理方法的流程图;
图4a为本申请实施例提供的语音处理装置的结构框图;
图4b为本申请实施例提供的语音处理装置的另一结构框图;
图5为本申请实施例提供的计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
以下介绍本申请的设计思想。
如前所述的,对初始合成语音进行韵律处理,以使输出的合成语音更加自然是目前亟待解决的技术问题。请参见图1,图1所示的是传统语音合成的方法,图1中,在对文本文字和键盘输入的文字进行文本文字分析之后,就将文本文字转换为了语音,例如可以将转换后的语音称为是初始语音,然后从语音合成库中选取与初始语音相匹配的波形片段,并将初始语音的语音波形与匹配的波形片段进行编辑拼接,就形成了合成语音,该合成语音即可以理解为是未经韵律调整的初始合成语音,形成初始合成语音之后,就直接将初始合成语音进行输出。一般情况下,在传统的语音合成方法中,进行语音合成时,可能会存在韵律特征信息丢失的情况,导致合成的语音不够自然。
鉴于此,本申请实施例提供一种语音处理方法,通过该方法可以获取基准语音的韵律特征信息,对初始合成语音的韵律进行适当的调整,并将优化后的合成语音作为最终的合成语音进行输出。下面结合图2对本申请实施例提供的语音合成方法做简单的介绍,图2所示的语音合成方法中,在传统的语音合成方法的基础上,增加了一个语音韵律控制的处理模块,也就是说,本申请实施例提供的语音合成方法是在传统语音合成方法的基础上,进行了语音韵律的优化,在通过传统语音合成方法得到初始合成语音,先对初始合成语音进行韵律处理,然后再进行输出,这样,用户最终听到的就是经过优化以后的更接近自然语音的合成语音,提升了用户体验。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
请参见图3所示,图3为本申请实施例提供的一种语音处理方法,该方法可以部署在可以进行语音交互的各种智能设备中,智能设备例如是手机、电脑、平板等终端设备,也可以是可以进行语音交互的各种智能家居设备(例如空调、冰箱、智能风扇、加湿器)。图3中的语音处理方法的流程描述如下。
步骤301:获取文本文字,并将文本文字转换为初始语音。
在获得通过键盘输入的文本文字,或者直接存储在设备中的文本文字时,先对获得的文本文字进行文本文字分析,文本文字分析的过程可以直接理解为是将获取到的文本文字转换为语音的过程,具体来说,可以先获取到文本文字对应的一些特征信息,特征信息例如可以是文本文字对应的字符、语调,等等,然后通过这些特征信息将该文本文字转换为对应的语音,例如将该语音称为是初始语音。
步骤302:将初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音。
其中,初始合成语音指的是根据语音合成库中的预定波形对初始语音进行合成后的合成语音,也就是说,在将文本文字转换为初始语音后,需要获取语音合成库中对应于该初始语音的预设波形,然后将初始语音与确定出的预设波形进行合成,进而获得初始合成语音,即初始合成语音是通过传统的语音合成方法得到的合成语音。在将初始语音与确定出的预设波形进行合成时,可能会存在韵律特征信息丢失的情况,所以,该初始合成语音是没有进行韵律优化的合成语音,自然程度和清晰程度上可能与自然语音存在一定的差异。
步骤303:获取基准语音的韵律特征信息。
其中,基准语音可以理解为是由专业的发音人员录制的比较标准的纯净语音,基准语音的韵律特征信息,可以理解为是由专业技术人员提取到的基准语音对应的韵律特征信息。韵律特征信息可以包括声调、语调、重音、音色等语音信息,也可以是其它一些用于描述语音的特征信息,对于韵律特征信息的类型与数量,本申请实施例不做限制。
在一种可能的实施方式中,在获取基准自然语音的韵律特征信息之前,需要先确定当前需要使用到的基准语音是哪一个基准语音。在确定基准语音之前,可以先获取初始合成语音的语音属性信息,语音属性信息例如是该初始合成语音的声音是男性的还是女性的,或者是该初始合成语音的声音是小孩子的声音,老年人的声音,还是中年人的声音,或者还可以是该初始合成语音是某个地区的某种方言,等等,对于获取的语音属性信息的类型和数量,本申请实施例不做限制。
在具体的实施过程中,可以事先录制很多专业的发音人员说出的标准语音,例如将这些标准语音作为自然语音,录制的自然语音可以包括不同性别、不同年龄段、不同职业、不同方言的各种人物的自然语言,在确定初始合成语音的语音属性信息之后,就可以从多个预设的自然语音中确定出与获取到的语音属性信息相符的候选自然语音,因为获取的语音属性信息可能包含多种信息,所以确定出的候选自然语音也可能是多个,所以,需要再从候选自然语音确定出基准语音,进而获取基准语音的韵律特征信息。在确定出的候选自然语音为多个时,可以获取各个候选自然语音与初始合成语音的语音属性信息的符合程度,该符合程度例如可以是通过特定算法获得的相关度数据,等等,然后将符合程度最高的候选自然语音确定为基准语音。需要说明的是,确定出的基准自然合成语音的语音属性信息可以和初始合成语音的语音属性信息完全相同,也可以是与初始合成语音的语音属性信息相近的语音属性信息,本申请实施例不做限制。
在本申请实施例中,可以预先设定多个自然语音,然后根据初始合成语音的语音属性选择最适合的自然语音作为基准语音,可以使得确定出的基准语音是最符合当前初始合成语音的,进而使得调整后的初始合成语音的韵律特征更加接近自然语音的韵律特征。
步骤304:根据韵律特征信息对初始合成语音进行调整,以获得调整后的合成语音。
在具体的实施过程中,可以根据获取到的基准语音的韵律特征信息调整初始合成语音的基音周期,以获得调整基音周期后的初始合成语音,例如将调整基音周期后的合成语音称为是第一调整合成语音,然后再调整第一调整合成语音的振幅,以获得调整振幅后的初始合成语音,例如将调整振幅后的初始合成语音称为是第二调整合成语音,最后将第二调整合成语音确定为是调整后的合成语音。
在一种可能的实施方式中,在调整初始合成语音的基音周期之前,需要先获取初始合成语音的声调波形,例如可以将该声调波形称为是待调整声调波形,然后对待调整声调波形标记原始标记点,在标记原始标记点的时候,一般需要包括初始合成语音中每个基音周期的起始点和终止点,然后确定出基准语音的基准声调波形,该基准声调波形是通过基准语音的韵律特征信息确定的声调波形,然后根据基准声调波形确定需要插入到待调整声调波形中的调整插入点的位置,例如可以将插入调整标记点的位置称为是目标位置,然后在目标位置插入调整标记点,进而调整初始合成语音的基音周期。
调整标记点的目标位置可以是根据基准声调波形的固定波形位置进行确定的,也就是说,先确定基准声调波形中某一些比较容易标记的点,然后根据这些点确定出调整标记点的目标位置,进而在确定出的目标位置插入调整标记点,然后根据插入的调整标记点调整待调整声调波形,进而可以将待调整声调波形的基音周期调整为与基准声调波形相近的基音周期,或者也可以直接将调整待调整声调波形的基音周期调整与基准声调波形相同的基音周期,本申实施例也不做限制。
调整标记点的目标位置也可以是先确定一个原始的调整标记点,然后确定一个调整单位增量,例如将该调整单位增量称为是预设调整单位增量,并根据该预设调整单位增量确定调整标记点的位置,例如在将待调整声调波形的基音的两个原始标记点之间随机插入一个调整标记点,该调整标记点的位置即可以理解为是第一个目标位置,然后在该第一目标位置的基础上,叠加一个预设调整单位增量,获得第二个目标位置,在后续的确定过程中,依次在每个调整标记点的基础上增加一个预设调整单位增量,以获得多个目标位置,然后在对应的目标位置上插入调整标记点,以通过调整标记点调整初始合成语音的基音周期。预设调整单位增量可以是通过一些特定的算法确定出的单位增量,对于预设调整单位的设定,本申请实施例不做限制。需要说明的是,通过此方法可以将待调整声调波形的基音周期调整为与基准声调波形相近的基音周期,或者也可以直接将调整待调整声调波形的基音周期调整与基准声调波形相同的基音周期。
在本申请实施例中,可以通过不同的方法确定出插入待调整声调波形的调整标记点的位置,然后插入调整标记点,进而根据调整标记点将待调整波形进行一定的移位,以将待调整声调波形的基音周期调整为与基准声调波形相近或者相同的基音周期,这样,初始合成语音的待调整声调波形与基准声调波形基本上是一致的,是的初始合成语音经过基音周期调整之后,在自然程度和清晰程度上与自然语音更贴近。
在一种可能实施方式中,在调整完初始合成语音的基音周期之后,可以在调整了基音周期的待调整声调波形上对其振幅进行调整。需要说明的是,在具体的实施过程中,可以先调整初始合成语音的基音周期,再调整其振幅,或者也可以先调整初始合成语音的振幅,再调整其基音周期,或者也可以只调整初始合成语音的基音周期,或者还可以只调整初始合成语音的振幅,对于具体的调整顺序以及调整的数目,本申请实施例不做限制。
在具体的实施过程中,可以先确定出待调整声调波形的振幅值,该振幅值可以是多个,也可以只有一个,例如可以将该振幅值称为是第一振幅值,然后确定对应于每个第一振幅值的时间帧,再确定基准声调波形中对应于多个时间帧的各个振幅值,例如可以将基准声调波形的振幅值称为是第二振幅值,然后将相同时间帧下的第一振幅值调整为第二振幅值,即将对应时间帧下的待调整波形的振幅值直接调整为基准声调波形的振幅值。
在本申请实施例中,直接将待调整声调波形的振幅值调整为基准声调波形的振幅值,可以使得待调整声调波形与基准声调波形更加相似,那么调整后的初始合成语音的韵律也就更加贴近自然语音的韵律特征,在自然程度和清晰程度上与自然语音更接近。
在一种可能的实施方式中,在根据韵律特征信息对初始合成语音进行调整之前,需要对初始合成语音进行加窗处理,也就是说,需要先对待调整声调波形进行加窗处理,以得到加窗后的待调整声调波形,因为语音信号是一个时变信号,为了能通过传统的方法对语音信息进行分析,可以假设语音信号在非常短的时间内是短时平稳的,所以需要先对待调整声调波形进行加窗处理。在对初始合成语音进行调整的时候,实际上调整的就是加窗后的每个短时待调整声调波形。在对每一个加窗后的待调整声调波形进行调整之后,还需要将它们进行整合处理,以将调整后的多个待调整声调波形整合为一个完整的声调波形,进而获取完整的合成语音,该完整的合成语音即为调整后的合成语音。
在本申请实施例中,在对待调整声调波形进行调整之前,可以对待调整声调波形进行加窗处理,得到短时的待调整声调波形,确保调整待调整声调波形时是准确有效的调整处理。
步骤305:输出调整后的合成语音。
在本申请实施例中,先获取到的初始合成语音是根据语音合成库中的预定波形对初始语音进行合成后的合成语音,没有进行特殊的韵律处理,所以,初始合成语音可能不够自然。在获取基准语音的韵律特征信息之后,通过该韵律特征信息对初始合成语音的韵律特征进行调整,优化了初始合成语音,使得初始合成语音的韵律特征更加接近自然语音的韵律特征,最后实际输出的合成语音更加自然、清晰,提升了用户体验。
基于同一发明构思,本申请实施例提供了一种语音处理装置,该语音处理装置能够实现前述的语音处理方法对应的功能。该语音处理装置可以是硬件结构、软件模块、或者硬件结构加软件模块。该语音处理装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图4a所示,该语音处理装置包括第一获取模块401、获得模块402、第二获取模块403、调整模块404和输出模块405。其中:
第一获取模块401,用于获取文本文字,并将文本文字转换为初始语音;
获得模块402,用于将初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;
第二获取模块403,用于获取基准语音的韵律特征信息;
调整模块404,用于根据韵律特征信息对初始合成语音进行调整,以获得调整后的合成语音;
输出模块405,用于输出调整后的合成语音。
在一种可能的实施方式中,请参见图4b所示,本申请实施例中的语音处理装置还包括确定模块406,用于:
在第二获取模块403获取基准语音的韵律特征信息之前,确定初始合成语音的语音属性信息;
从多个预设的自然语音中确定与语音属性信息相符的候选自然语音;
根据候选自然语音确定基准语音。
在一种可能的设计中,调整模块404,用于:
根据韵律特征信息,调整初始合成语音的基音周期,以获得第一调整合成语音;
根据韵律特征信息,调整第一调整合成语音的振幅,以获得第二调整合成语音;
将第二调整合成语音确定为调整后的合成语音。
在一种可能的设计中,调整模块404,用于:
根据韵律特征信息,调整初始合成语音的基音周期,包括:
确定初始合成语音的待调整声调波形;
确定待调整声调波形的原始标记点,其中,原始标记点包括初始合成语音的每个基音周期的起始点和终止点;
根据基准声调曲线,从待调整声调波形中确定目标位置,基准声调曲线是通过韵律特征信息确定的基准自然语音的声调波形;
将调整标记点插入目标位置,并根据调整标记点调整初始合成语音的基音周期。
在一种可能的设计中,调整模块404,用于:
获取待调整声调波形的第一振幅值及对应第一振幅值的时间帧;
确定基准声调波形中对应时间帧的第二振幅值,基准声调曲线是通过韵律特征信息确定的基准自然语音的声调波形;
将第一振幅值调整为第二振幅值。
在一种可能的实施方式中,请参见图4b所示,本申请实施例中的语音处理装置还包括加窗模块407,用于:
在调整模块404根据韵律特征信息对初始合成语音进行调整之前,对待调整声调波形进行加窗处理,以获得加窗后的待调整声调波形,其中,加窗后的待调整声调波形包括初始合成语音中的至少一个完整基音周期。
前述的语音处理方法的实施例涉及的各步骤的所有相关内容均可援引到本申请施例中的语音处理装置所对应的功能模块的功能描述,在此不再赘述。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本申请实施例提供一种计算设备。请参见图5所示,该计算设备包括至少一个处理器501,以及与至少一个处理器连接的存储器502,本申请实施例中不限定处理器501与存储器502之间的具体连接介质,图5中是以处理器501和存储器502之间通过总线500连接为例,总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请实施例中的计算设备还可以包括通信接口503,该通信接口503例如是网口,计算设备可以通过该通信接口503接收数据或者发送数据。
在本申请实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前述的存储设置参数的方法中所包括的步骤。
其中,处理器501是计算设备的控制中心,可以利用各种接口和线路连接整个计算设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据,计算设备的各种功能和处理数据,从而对计算设备进行整体监控。可选的,处理器501可包括一个或多个处理单元,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的存储设置参数的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器501进行设计编程,可以将前述实施例中介绍的存储设置参数的方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的存储设置参数的方法的步骤,如何对处理器501进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的存储设置参数的方法的步骤。
在一些可能的实施方式中,本申请提供的存储设置参数的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算设备上运行时,程序代码用于使该计算设备执行本说明书上述描述的根据本申请各种示例性实施方式的语音处理方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种语音处理方法,其特征在于,所述方法包括:
获取文本文字,并将所述文本文字转换为初始语音;
将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;
获取基准语音的韵律特征信息;
根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;
输出所述调整后的合成语音。
2.如权利要求1所述的方法,其特征在于,在获取基准自然语音的韵律特征信息之前,所述方法还包括:
确定所述初始合成语音的语音属性信息;
从多个预设的自然语音中确定与所述语音属性信息相符的候选自然语音;
根据所述候选自然语音确定所述基准语音。
3.如权利要求1所述的方法,其特征在于,根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音,包括:
根据所述韵律特征信息,调整所述初始合成语音的基音周期,以获得第一调整合成语音;
根据所述韵律特征信息,调整所述第一调整合成语音的振幅,以获得第二调整合成语音;
将所述第二调整合成语音确定为所述调整后的合成语音。
4.如权利要求3所述的方法,其特征在于,根据所述韵律特征信息,调整所述初始合成语音的基音周期,包括:
确定所述初始合成语音的待调整声调波形;
确定所述待调整声调波形的原始标记点,其中,所述原始标记点包括所述初始合成语音的每个所述基音周期的起始点和终止点;
根据基准声调曲线,从所述待调整声调波形中确定目标位置,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;
将调整标记点插入所述目标位置,并根据所述调整标记点调整所述初始合成语音的基音周期。
5.如权利要求4所述的方法,其特征在于,根据所述韵律特征信息,调整所述第一调整合成语音的振幅,包括:
获取所述待调整声调波形的第一振幅值及对应所述第一振幅值的时间帧;
确定所述基准声调波形中对应所述时间帧的第二振幅值;
将所述第一振幅值调整为所述第二振幅值。
6.如权利要求4所述的方法,其特征在于,在根据所述韵律特征信息对所述初始合成语音进行调整之前,所述方法还包括:
对所述待调整声调波形进行加窗处理,以获得加窗后的待调整声调波形,其中,所述加窗后的待调整声调波形包括所述初始合成语音中的至少一个完整基音周期。
7.一种语音处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取文本文字,并将所述文本文字转换为初始语音;
获得模块,用于将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;
第二获取模块,用于获取基准语音的韵律特征信息;
调整模块,用于根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;
输出模块,用于输出所述调整后的合成语音。
8.如权利要求7所述的装置,其特征在于,所述调整模块具体用于:
根据所述韵律特征信息,调整所述初始合成语音的基音周期,以获得第一调整合成语音;
根据所述韵律特征信息,调整所述第一调整合成语音的振幅,以获得第二调整合成语音;
将所述第二调整合成语音确定为所述调整后的合成语音。
9.一种计算设备,其特征在于,所述计算设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-6任一所述的方法包括的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-6任一所述的方法包括的步骤。
CN201911330867.2A 2019-12-20 2019-12-20 一种语音处理方法、装置、计算设备及存储介质 Active CN111128116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330867.2A CN111128116B (zh) 2019-12-20 2019-12-20 一种语音处理方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330867.2A CN111128116B (zh) 2019-12-20 2019-12-20 一种语音处理方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN111128116A true CN111128116A (zh) 2020-05-08
CN111128116B CN111128116B (zh) 2021-07-23

Family

ID=70501343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330867.2A Active CN111128116B (zh) 2019-12-20 2019-12-20 一种语音处理方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN111128116B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883103A (zh) * 2020-06-19 2020-11-03 马上消费金融股份有限公司 语音合成的方法及装置
CN112382273A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112530400A (zh) * 2020-11-30 2021-03-19 清华珠三角研究院 基于深度学习的文本生成语音的方法、系统、装置及介质
CN113409762A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 情感语音合成方法、装置、设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229194A (zh) * 1997-11-28 1999-09-22 松下电器产业株式会社 基频特性曲线产生方法,基频特性曲线产生器,和程序记录介质
CN1604077A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 对发音波形语料库的改进
CN1604182A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 语音合成方法
CN1622195A (zh) * 2003-11-28 2005-06-01 株式会社东芝 语音合成方法和语音合成系统
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN1826633A (zh) * 2004-06-04 2006-08-30 松下电器产业株式会社 声音合成装置
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN101131818A (zh) * 2006-07-31 2008-02-27 株式会社东芝 语音合成装置与方法
CN101171624A (zh) * 2005-03-11 2008-04-30 株式会社建伍 语音合成装置,语音合成方法,以及程序
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN101727904A (zh) * 2008-10-31 2010-06-09 国际商业机器公司 语音翻译方法和装置
CN103165126A (zh) * 2011-12-15 2013-06-19 无锡中星微电子有限公司 一种手机文本短信的语音播放的方法
CN103594082A (zh) * 2012-08-16 2014-02-19 株式会社东芝 声音合成装置、方法以及存储介质
CN106128450A (zh) * 2016-08-31 2016-11-16 西北师范大学 一种汉藏双语跨语言语音转换的方法及其系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229194A (zh) * 1997-11-28 1999-09-22 松下电器产业株式会社 基频特性曲线产生方法,基频特性曲线产生器,和程序记录介质
CN1604077A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 对发音波形语料库的改进
CN1604182A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 语音合成方法
CN1622195A (zh) * 2003-11-28 2005-06-01 株式会社东芝 语音合成方法和语音合成系统
CN1826633A (zh) * 2004-06-04 2006-08-30 松下电器产业株式会社 声音合成装置
CN101171624A (zh) * 2005-03-11 2008-04-30 株式会社建伍 语音合成装置,语音合成方法,以及程序
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101131818A (zh) * 2006-07-31 2008-02-27 株式会社东芝 语音合成装置与方法
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN101727904A (zh) * 2008-10-31 2010-06-09 国际商业机器公司 语音翻译方法和装置
CN103165126A (zh) * 2011-12-15 2013-06-19 无锡中星微电子有限公司 一种手机文本短信的语音播放的方法
CN103594082A (zh) * 2012-08-16 2014-02-19 株式会社东芝 声音合成装置、方法以及存储介质
CN106128450A (zh) * 2016-08-31 2016-11-16 西北师范大学 一种汉藏双语跨语言语音转换的方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄孝建: "《多媒体技术》", 28 February 2010, 北京邮电大学出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883103A (zh) * 2020-06-19 2020-11-03 马上消费金融股份有限公司 语音合成的方法及装置
CN112382273A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112530400A (zh) * 2020-11-30 2021-03-19 清华珠三角研究院 基于深度学习的文本生成语音的方法、系统、装置及介质
CN113409762A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 情感语音合成方法、装置、设备及存储介质
CN113409762B (zh) * 2021-06-30 2024-05-07 平安科技(深圳)有限公司 情感语音合成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111128116B (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111128116B (zh) 一种语音处理方法、装置、计算设备及存储介质
CN105845125B (zh) 语音合成方法和语音合成装置
CN106898340B (zh) 一种歌曲的合成方法及终端
CN110136691B (zh) 一种语音合成模型训练方法、装置、电子设备及存储介质
US11295721B2 (en) Generating expressive speech audio from text data
CN111667814B (zh) 一种多语种的语音合成方法及装置
US7054815B2 (en) Speech synthesizing method and apparatus using prosody control
EP3211637B1 (en) Speech synthesis device and method
CN107705802B (zh) 语音转换方法、装置、电子设备及可读存储介质
CN109389968A (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN104916284A (zh) 用于语音合成系统的韵律与声学联合建模的方法及装置
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
CN108305611B (zh) 文本转语音的方法、装置、存储介质和计算机设备
US10636412B2 (en) System and method for unit selection text-to-speech using a modified Viterbi approach
CN110265028A (zh) 语音合成语料库的构建方法、装置及设备
CN111599339A (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN110556092A (zh) 语音的合成方法及装置、存储介质、电子装置
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
JP3912913B2 (ja) 音声合成方法及び装置
CN105719641B (zh) 用于波形拼接语音合成的选音方法和装置
CN113112988A (zh) 一种基于ai处理的语音合成处理系统及方法
CN114446304A (zh) 语音交互方法、数据处理方法、装置和电子设备
CN112242132A (zh) 语音合成中的数据标注方法、装置和系统
CN110444053B (zh) 语言学习方法、计算机装置及可读存储介质
CN117115318B (zh) 口型动画合成方法及装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant