CN113409761A - 语音合成方法、装置、电子设备以及计算机可读存储介质 - Google Patents

语音合成方法、装置、电子设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN113409761A
CN113409761A CN202110783989.8A CN202110783989A CN113409761A CN 113409761 A CN113409761 A CN 113409761A CN 202110783989 A CN202110783989 A CN 202110783989A CN 113409761 A CN113409761 A CN 113409761A
Authority
CN
China
Prior art keywords
international phonetic
synthesized
phonetic symbol
text
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110783989.8A
Other languages
English (en)
Other versions
CN113409761B (zh
Inventor
叶剑豪
苏志霸
周鸿斌
林怡亭
李林
任凯盟
贺天威
贺雯迪
卢恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Everest Zhiren Information Technology Co ltd
Original Assignee
Shanghai Himalaya Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Himalaya Technology Co ltd filed Critical Shanghai Himalaya Technology Co ltd
Priority to CN202110783989.8A priority Critical patent/CN113409761B/zh
Publication of CN113409761A publication Critical patent/CN113409761A/zh
Application granted granted Critical
Publication of CN113409761B publication Critical patent/CN113409761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质,方法包括:确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;输入至语音合成模型中语音合成模型,依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。

Description

语音合成方法、装置、电子设备以及计算机可读存储介质
技术领域
本发明涉及语音合成领域,具体而言,涉及一种语音合成方法、装置、电子设备以及计算机可读存储介质。
背景技术
随着语音技术产业的成熟,语音合成作为语音技术的关键一环,被广泛应用于智能语音交互和有声书创作中。当前的主流端对端语音合成建模方法,在有高质量的数据集支持下,已经能够生成具有较高自然度的合成语音。
在语音合成的实际应用场景中,常常需要语音合成说话人能够合成不同语言的发音。如在生成中英混合的新闻文稿时,需要穿插一些必须用英文发音的专有名词。为了使同一个说话人在合成不同语言语音的时候有同样的音色,通常需要该说话人录制不同语言的数据集。而通常很难找到一个说话人同时能将多个语言说的非常流利,这给制作高质量的多语言语音合成数据集带来了极大的困难。
近年来,也出现了一些将多个单语言数据集联合训练,从而实现语言能力在不同的说话人之间进行迁移的语音合成框架。但是这些框架在合成非本土语言的语音时,其韵律通常带有强烈的该说话人本土语言的风格。比如,当一个说话人没有英文数据,只有中文数据的时候,迁移学习框架下,合成该说话人的英文将带有明显的中文色彩。
发明内容
本发明的目的包括,例如,提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质,其能够使得目标对象在合成非本土语言的时候,得到更好的语音合成自然度。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种语音合成方法,所述方法包括:
确定待合成文本;
将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;
确定用户选择的目标对象的ID和标准对象的ID;
将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中;
所述语音合成模型依据所述待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长;
所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象ID进行处理,输出所述待合成文本的声学特征。
在可选的实施方式中,所述方法还包括:
将数据库中的音频信息转换为文本;
确定不同音频信息对应的标准对象,并为不同所述标准对象分配不同标准对象的ID,其中,所述标准对象包含目标对象;
将所述文本转化为国际音标序列;
为每个所述国际音标分配第一ID;
确定每个所述国际音标对应的声调;
为每个所述声调分配声调ID;
确定每个所述国际音标的语言,并为每种语言分配语言ID;
确定每个国际音标在对应音频信息中的时长;
对于每一段音频,提取所述音频中的声学特征;
将所述国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练,得到语音合成模型。
在可选的实施方式中,将所述声学特征输入至神经声码器中,得到所述目标对象的音频。
在可选的实施方式中,所述声学特征为梅尔频谱特征。
在可选的实施方式中,所述确定每个国际音标在对应音频信息中的时长的步骤,包括:
通过隐马尔可夫-深度神经网络的识别模型对国际音标和音频信息进行强对齐;
获取每个国际音标对应的音频段;
确定每个所述音频段的时长,作为每个所述国际音标对应的时长。
第二方面,本申请实施例提供了一种语音合成装置,所述装置包括:
处理模块和合成模块,所述处理模块具体用于:
确定待合成文本;
将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;
确定用户选择的目标对象的ID和标准对象的ID;
将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中;
所述语音合成模型依据所述待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长;
所述合成模块具体用于:所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出所述待合成文本的声学特征。
在可选的实施方式中,所述处理模块还用于:将数据库中的音频信息转换为文本;
将数据库中的音频信息转换为文本;
确定不同音频信息对应的标准对象,并为不同所述标准对象分配不同标准对象的ID,其中,所述标准对象包含目标对象;
将所述文本转化为国际音标序列;
为每个所述国际音标分配第一ID;
确定每个所述国际音标对应的声调;
为每个所述声调分配声调ID;
确定每个所述国际音标的语言,并为每种语言分配语言ID;
确定每个国际音标在对应音频信息中的时长;
对于每一段音频,提取所述音频中的声学特征;
将所述国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练,得到语音合成模型。
在可选的实施方式中,所述声学特征包括梅尔频谱特征、频谱能量特征以及基频特征。
第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述语音合成方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述语音合成方法的步骤。
本申请具有以下有益效果:
本申请通过确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中语音合成模型依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的电子设备的方框示意图;
图2为本发明实施例提供的一种语音合成方法的流程示意图之一;
图3为本发明实施例提供的一种语音合成方法的流程示意图之二;
图4为本发明实施例提供的一种语音合成装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
在现有技术中语音合成方案中,将多个单语言数据集联合训练,从而实现语言能力在不同的说话人之间进行迁移的语音合成框架。
但是经过发明人大量研究发现,采用这些框架在合成非本土语言的语音时,其韵律通常带有强烈的该说话人本土语言的风格。比如,当一个说话人没有英文数据,只有中文数据的时候,迁移学习框架下,合成该说话人的英文将带有明显的中文色彩。
有鉴于对上述问题的发现,本实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质,能够使得合成的语音不带有自身语言风格的问题,下面对本实施例提供的方案进行详细阐述。
本实施例提供一种可以对语音进行合成的电子设备。在一种可能的实现方式中,所述电子设备可以为用户终端,例如,电子设备可以是,但不限于,服务器、智能手机、个人电脑(PersonalComputer,PC)、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动上网设备(Mobile Internet Device,MID)等。
该电子设备可以具有能够对语音合成进行处理的部件,例如,中央处理器(Central Processing Unit,CPU)、图形处理器(Graphic Processing Unit,GPU)等,从而执行本实施例提供的语音合成方法。
在另一种可能的实现方式中,所述电子设备也可以为能够与用户终端通信的服务器。该服务器可以确定待合成文本;将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中;所述语音合成模型依据所述待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长;所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出所述待合成文本的声学特征。
请参照图1所示的该电子设备100的结构示意图。所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
该电子设备100包括语音合成装置110、存储器120、处理器130。
该存储器120、处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。该语音合成装置110包括至少一个可以软件或固件(Firmware)的形式存储于存储器120中或固化在服电子设备100的操作系统(Operating System,OS)中的软件功能模块。处理器130用于执行存储器120中存储的可执行模块,例如语音合成装置110所包括的软件功能模块及计算机程序等。该语音合成装置110中的计算机可执行指令被处理器执行时,实现该语音合成方法。
其中,该存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储程序,该处理器130在接收到执行指令后,执行该程序。
该处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,图2为应用于图1的电子设备100的一种语音合成方法的流程图,以下将方法包括各个步骤进行详细阐述。
步骤201:确定待合成文本。
步骤202:将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID。
步骤203:确定用户选择的目标对象的ID和标准对象的ID。
步骤204:将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中。
步骤205:语音合成模型依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长。
步骤206:语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。
将待合成文本转化为待合成国际音标序列,国际音标对应有第一ID。
IPA(International Phonetic Alphabet,国际音标),早期又称万国音标,是一套用来标音的系统,以拉丁字母为基础,由国际语音学学会设计来作为口语声音的标准化标示方法。
在本申请中,比如目待合成文本为“你好”时,用IPA进行表示则为“n i 35x
Figure BDA0003158368910000101
214”,转化的“n i 35x
Figure BDA0003158368910000102
214”即为待合成文本的待合成国际音标。
选择用户需要的目标对象和标准对象,目标待合成文本以目标对象的音色以标准对象的韵律输出。当目标对象的本土语言是汉语,且待合成文本也是汉语,则目标对象和标准对象一致,若目标对象的本土语言是汉语,待合成文本是英语,则需要选择目标对象的音色以及本土语言是英语的标准对象,即标准对象和目标对象不同。
语音合成模型依据待合成为本的待合成国际音标序列,预测每个待合成国际音标的时长。
不同语言下,每个国际音标发音的时长也不同。
其中,语言包括英语、汉语、阿拉伯语、德语、西班牙语等,本申请实施例对此不做具体限制。每种语言对应不同的ID,例如:英语对应的ID为1,汉语对应的ID为2,阿拉伯语对应的ID为3,德语对应的ID为4,西班牙语对应的ID为5。
语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID和/或标准对象的ID进行处理,输出待合成文本的声学特征。
将声学特征输入至神经声码器中,得到待合成文本的音频。
最终得到的音频不包含说话人的语言风格,例如:待合成文本为“Hello”,并且需要基于A的音色合成待合成文本,由于A的母语是汉语,因此英文不是A的母语,因此以A说“Hello”时会带有明显的汉语口音。为了解决这个问题,选择一个标准对象B,B的母语是英语,将“Hello”转化为国际音标序列,确定A的音色信息,确定“Hello”的国际音标的第一ID序列,每个国际音标对应有一个第一ID,语音合成模型依据“Hello”国际音标序列,预测出每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、每个待合成国际音标的时长、目标对象的ID和标准对象的ID进行处理,输出“Hello”的声学特征。
本申请通过确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列;确定用户选择的目标对象的ID和标准对象的ID;将待合成国际音标对应的第一ID序列、目标对象的ID和标准对象的ID作为输入,输入至语音合成模型中语音合成模型依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。
在确定目标对象的待合成文本之前,在本申请的另一实施例中,如图3所示,提供了一种语音合成方法,具体包括如下步骤:
步骤301:将数据库中的音频信息转换为文本。
步骤302:确定不同音频信息对应的标准对象,并为不同标准对象分配不同标准对象的ID。
其中,标准对象包含目标对象。
步骤303:将文本转化为国际音标序列。
步骤304:为每个国际音标分配第一ID。
步骤305:确定每个国际音标对应的声调。
步骤306:为每个声调分配声调ID。
步骤307:确定每个国际音标的语言,并为每种语言分配语言ID。
步骤308:确定每个国际音标在对应音频信息中的时长。
步骤309:对于每一段音频,提取所述音频中的声学特征。
步骤310:将国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练,得到语音合成模型。
将数据库中音频信息转换为文本,将文本转化为国际音标,为每个国际音标分配不同ID,即IPA ID。确定不同音频信息对应的标准对象,并为不同标准对象分配不同标准对象的ID,即Speaker ID。确定每个国际音标对应的声调。为每个声调分配声调ID,即ToneID。确定每个国际音标的语言,并为每种语言分配语言ID,即Language ID。
确定每个国际音标在对应音频信息中的时长通过以下方式确定:通过隐马尔可夫-深度神经网络的识别模型对国际音标和音频信息进行强对齐;获取每个国际音标对应的音频段;确定每个音频段的时长,作为每个国际音标对应的时长。
首先,每个栏目和对应ID,对应一张表,见表1。一般语音合成的数据集会包含音频和对应文本,以及标准对象。而从文本可以轻易推断出某个字符所属的语言。
例如:“你好”,用拼音表示则为“ni2 hao3”,相对应的用IPA和对应的TONE进行表示则为“n i 35x
Figure BDA0003158368910000121
214”。将该表示转化为ID序列(假设标准对象为A)则为:
[IPA ID=0,TONE ID=1,Speaker ID=0,Language ID=0]
[IPA ID=1,TONE ID=1,Speaker ID=0,Language ID=0]
[IPA ID=2,TONE ID=2,Speaker ID=0,Language ID=0]
[IPA ID=3,TONE ID=2,Speaker ID=0,Language ID=0]
当文本为纯英文时,英语的国际音标不具有声调。例如:“nerd”,相对应的用IPA进行表示则为“n3:d”(无TONE)。将该表示转化为ID序列(假设标准对象为B)则为:
[IPA ID=0,TONE ID=5,Speaker ID=1,Language ID=1]
[IPA ID=4,TONE ID=5,Speaker ID=1,Language ID=1]
[IPA ID=5,TONE ID=5,Speaker ID=1,Language ID=1]
当文本为中文和英文混合时,例如:“你好nerd”,相对应的用IPA进行表示则为“ni 35x
Figure BDA0003158368910000131
214n3:d”。将该表示转化为ID序列(假设标准对象为B)则为:
[IPA ID=0,TONE ID=1,Speaker ID=1,Language ID=0]
[IPA ID=1,TONE ID=1,Speaker ID=1,Language ID=0]
[IPA ID=2,TONE ID=2,Speaker ID=1,Language ID=0]
[IPA ID=3,TONE ID=2,Speaker ID=1,Language ID=0]
[IPA ID=0,TONE ID=5,Speaker ID=1,Language ID=1]
[IPA ID=4,TONE ID=5,Speaker ID=1,Language ID=1]
[IPA ID=5,TONE ID=5,Speaker ID=1,Language ID=1]
提取声学特征,例如每10ms提取一组声学特征,该声学特征表征了一段10ms的音频。声码器可以将声学特征转换成对应的音频波形。而一个ID序列对应的是一个国际音标的文本信息,而一个国际音标的文本信息可能对应一段时间的音频,如50ms。那么这50ms就是5(帧)x 10ms,即5组声学特征。除了文本信息提取和声学特征外,还需要有国际音标到帧映射,即例如音频时长为50ms,则该国际音标有5帧的时长。
声学特征包括梅尔频谱特征、频谱能量特征以及基频特征。
具体可以通过kaldi工具对国际音标和音频进行强对齐,即:找到每个国际音标对应于音频中的对应段,从而得到每个国际音标对应的时长(以帧为单位)。Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法。Kaldi的主要代码是C++编写,在此之上使用bash和python脚本做了一些工具。
例如:
[IPA ID=0,TONE ID=1,Speaker ID=1,Language ID=0]时长=2
[IPA ID=1,TONE ID=1,Speaker ID=1,Language ID=0]时长=5
[IPA ID=2,TONE ID=2,Speaker ID=1,Language ID=0]时长=6
[IPA ID=3,TONE ID=2,Speaker ID=1,Language ID=0]时长=3
[IPAID=0,TONE ID=5,Speaker ID=1,Language ID=1]时长=4
[IPAID=4,TONE ID=5,Speaker ID=1,Language ID=1]时长=5
[IPAID=5,TONE ID=5,Speaker ID=1,Language ID=1]时长=3
表1
IPA表:
Figure BDA0003158368910000142
TONE表:
Figure BDA0003158368910000141
Figure BDA0003158368910000151
语言表:
语言 ID
中文 0
英文 1
说话人表:
标准对象 ID
标准对象A 0
标准对象B 1
从数据集中的每个音频提取声学特征,将国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练,得到语音合成模型。
通过本申请提供的语音合成方法,在使用国际音标IPA作为基础声学表征时,相比其他表征,需要更少的数据就可以达到语言能力的迁移。本申请能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。
请参照图4,本申请实施例还提供了一种应用于图1所述电子设备100的语音合成装置110,所述语音合成装置110包括:处理模块111和合成模块112,所述处理模块111具体用于:
确定待合成文本;
将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;
确定用户选择的目标对象的ID和标准对象的ID;
将待合成的国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中;
所述语音合成模型依据所述待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长;
所述合成模块112具体用于:所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出所述待合成文本的声学特征。
可选地,在一些可能的实施方式中,所述处理模块111还用于:将数据库中的音频信息转换为文本;
将数据库中的音频信息转换为文本;
确定不同音频信息对应的标准对象,并为不同所述标准对象分配不同标准对象的ID,其中,所述标准对象包含目标对象;
将所述文本转化为国际音标序列;
为每个所述国际音标分配第一ID;
确定每个所述国际音标对应的声调;
为每个所述声调分配声调ID;
确定每个所述国际音标的语言,并为每种语言分配语言ID;
确定每个国际音标在对应音频信息中的时长;
对于每一段音频,提取所述音频中的声学特征;
将所述国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练,得到语音合成模型。
可选地,在一些可能的实施方式中,所述声学特征为梅尔频谱特征。
可选地,在一些可能的实施方式中,所述处理模块111还用于:
将所述声学特征输入至神经声码器中,得到所述待合成文本的音频。
可选地,在一些可能的实施方式中,所述处理模块111还用于:通过隐马尔可夫-深度神经网络的识别模型对国际音标和音频信息进行强对齐;
获取每个国际音标对应的音频段;
确定每个所述音频段的时长,作为每个所述国际音标对应的时长。
综上所述,本申请通过确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中语音合成模型依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。
本申请还提供一种电子设备100,电子设备100包括处理器130以及存储器120。存储器120存储有计算机可执行指令,计算机可执行指令被处理器130执行时,实现该语音合成方法。
本申请实施例还提供一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序被处理器130执行时,实现该语音合成方法。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
确定待合成文本;
将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;
确定用户选择的目标对象的ID和标准对象的ID;
将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中;
所述语音合成模型依据所述待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长;
所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出所述待合成文本的声学特征。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将数据库中的音频信息转换为文本;
确定不同音频信息对应的标准对象,并为不同所述标准对象分配不同标准对象的ID,其中,所述标准对象包含目标对象;
将所述文本转化为国际音标序列;
为每个所述国际音标分配第一ID;
确定每个所述国际音标对应的声调;
为每个所述声调分配声调ID;
确定每个所述国际音标的语言,并为每种语言分配语言ID;
确定每个国际音标在对应音频信息中的时长;
对于每一段音频,提取所述音频中的声学特征;
将所述国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练,得到语音合成模型。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述声学特征输入至神经声码器中,得到所述待合成文本的音频。
4.根据权利要求1所述的方法,其特征在于,所述声学特征为梅尔频谱特征。
5.根据权利要求2所述的方法,其特征在于,所述确定每个国际音标在对应音频信息中的时长的步骤,包括:
通过隐马尔可夫-深度神经网络的识别模型对国际音标和音频信息进行强对齐;
获取每个国际音标对应的音频段;
确定每个所述音频段的时长,作为每个所述国际音标对应的时长。
6.一种语音合成装置,其特征在于,所述装置包括:处理模块和合成模块,所述处理模块具体用于:
确定待合成文本;
将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;
确定用户选择的目标对象的ID和标准对象的ID;
将待合成的国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入,输入至语音合成模型中;
所述语音合成模型依据所述待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长;
所述合成模块具体用于:所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出所述待合成文本的声学特征。
7.根据权利要求6所述的装置,其特征在于,所述处理模块还用于:
将数据库中的音频信息转换为文本;
确定不同音频信息对应的标准对象,并为不同所述标准对象分配不同标准对象的ID,其中,所述标准对象包含目标对象;
将所述文本转化为国际音标序列;
为每个所述国际音标分配第一ID;
确定每个所述国际音标对应的声调;
为每个所述声调分配声调ID;
确定每个所述国际音标的语言,并为每种语言分配语言ID;
确定每个国际音标在对应音频信息中的时长;
对于每一段音频,提取所述音频中的声学特征;
将所述国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练,得到语音合成模型。
8.根据权利要求6所述的装置,其特征在于,所述声学特征为梅尔频谱特征。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
CN202110783989.8A 2021-07-12 2021-07-12 语音合成方法、装置、电子设备以及计算机可读存储介质 Active CN113409761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110783989.8A CN113409761B (zh) 2021-07-12 2021-07-12 语音合成方法、装置、电子设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110783989.8A CN113409761B (zh) 2021-07-12 2021-07-12 语音合成方法、装置、电子设备以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113409761A true CN113409761A (zh) 2021-09-17
CN113409761B CN113409761B (zh) 2022-11-01

Family

ID=77686129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110783989.8A Active CN113409761B (zh) 2021-07-12 2021-07-12 语音合成方法、装置、电子设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113409761B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746834A (zh) * 2024-02-21 2024-03-22 青岛海尔科技有限公司 基于大模型的语音生成方法及装置、存储介质、电子装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019139428A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
CN111402857A (zh) * 2020-05-09 2020-07-10 广州虎牙科技有限公司 语音合成模型训练方法和装置、电子设备及存储介质
WO2020147404A1 (zh) * 2019-01-17 2020-07-23 平安科技(深圳)有限公司 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质
CN111566655A (zh) * 2018-01-11 2020-08-21 新智株式会社 多种语言文本语音合成方法
WO2020200178A1 (zh) * 2019-04-03 2020-10-08 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN112309366A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112382270A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 语音合成方法、装置、设备以及存储介质
CN112669841A (zh) * 2020-12-18 2021-04-16 平安科技(深圳)有限公司 多语种语音的生成模型的训练方法、装置及计算机设备
CN112786018A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 语音转换及相关模型的训练方法、电子设备和存储装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019139428A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
CN111566655A (zh) * 2018-01-11 2020-08-21 新智株式会社 多种语言文本语音合成方法
WO2020147404A1 (zh) * 2019-01-17 2020-07-23 平安科技(深圳)有限公司 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质
WO2020200178A1 (zh) * 2019-04-03 2020-10-08 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN111402857A (zh) * 2020-05-09 2020-07-10 广州虎牙科技有限公司 语音合成模型训练方法和装置、电子设备及存储介质
CN112309366A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112382270A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 语音合成方法、装置、设备以及存储介质
CN112669841A (zh) * 2020-12-18 2021-04-16 平安科技(深圳)有限公司 多语种语音的生成模型的训练方法、装置及计算机设备
CN112786018A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 语音转换及相关模型的训练方法、电子设备和存储装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张家: "汉语普通话机读音标SAMPA-SC", 《声学学报(中文版)》 *
徐英进等: "基于HCSIPA的中英文混合语音合成", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746834A (zh) * 2024-02-21 2024-03-22 青岛海尔科技有限公司 基于大模型的语音生成方法及装置、存储介质、电子装置
CN117746834B (zh) * 2024-02-21 2024-05-24 青岛海尔科技有限公司 基于大模型的语音生成方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN113409761B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN105845125B (zh) 语音合成方法和语音合成装置
CN110797006B (zh) 端到端的语音合成方法、装置及存储介质
US9865251B2 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
WO2005059894A1 (en) Multi-lingual speech synthesis
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
CN112365878A (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN113380222A (zh) 语音合成方法、装置、电子设备及存储介质
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN113409761B (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
CN108109610B (zh) 一种模拟发声方法及模拟发声系统
CN112270917B (zh) 一种语音合成方法、装置、电子设备及可读存储介质
CN113870833A (zh) 语音合成相关系统、方法、装置及设备
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
CN111710328A (zh) 语音识别模型的训练样本选取方法、装置及介质
CN116229935A (zh) 语音合成方法、装置、电子设备及计算机可读介质
CN116110370A (zh) 基于人机语音交互的语音合成系统及相关设备
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
US20200243092A1 (en) Information processing device, information processing system, and computer program product
JPH10228471A (ja) 音声合成システム,音声用テキスト生成システム及び記録媒体
Dika et al. The principles of designing of algorithm for speech synthesis from texts written in Albanian language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230804

Address after: 200241 Room 288, Floor 8, Building 1, No. 588, Zixing Road, Minhang District, Shanghai

Patentee after: Shanghai Everest Zhiren Information Technology Co.,Ltd.

Address before: 201100 room 2062, building 2, 588 Zixing Road, Minhang District, Shanghai

Patentee before: Shanghai Himalaya Technology Co.,Ltd.