CN111369966A - 一种用于个性化语音合成的方法和装置 - Google Patents

一种用于个性化语音合成的方法和装置 Download PDF

Info

Publication number
CN111369966A
CN111369966A CN201811489961.8A CN201811489961A CN111369966A CN 111369966 A CN111369966 A CN 111369966A CN 201811489961 A CN201811489961 A CN 201811489961A CN 111369966 A CN111369966 A CN 111369966A
Authority
CN
China
Prior art keywords
target
user
audio file
tts model
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811489961.8A
Other languages
English (en)
Inventor
孙尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811489961.8A priority Critical patent/CN111369966A/zh
Priority to TW108130025A priority patent/TW202025135A/zh
Priority to PCT/CN2019/121852 priority patent/WO2020114323A1/zh
Publication of CN111369966A publication Critical patent/CN111369966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种用于个性化语音合成的方法和装置,方法包括:接收用户输入的TTS模型生成请求,所述TTS模型生成请求中包括目标领域标识;向所述用户发送与所述目标领域标识对应的目标录音文本,并接收所述用户返回的与所述目标录音文本对应的音频文件,所述音频文件是所述用户根据所述目标录音文本录制得到的;根据所述音频文件,为所述用户生成与所述目标领域标识对应的目标TTS模型,所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。

Description

一种用于个性化语音合成的方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于个性化语音合成的方法和装置。
背景技术
语音合成技术,也称为从文本到语音技术(TTS,Text To Speech),可以实现将文本信息转化为语音输出。具体地,首先,采集大量语音数据;然后,根据采集到的大量语音数据,生成TTS模型;最后,根据TTS模型,实现将文本信息转化为语音输出。由于传统TTS模型构建过程需要采集大量的语音数据,使得TTS模型的构建过程较为复杂。
因此,需要一种更加容易实现的用于个性化语音合成的方法。
发明内容
本说明书实施例提供一种用于个性化语音合成的方法和装置,使得可以简化TTS模型的生成过程。
第一方面,本说明书实施例提供了一种用于个性化语音合成的方法,包括:
接收用户输入的语音合成TTS模型生成请求,所述TTS模型生成请求中包括目标领域标识;
向所述用户发送与所述目标领域标识对应的目标录音文本,并接收所述用户返回的与所述目标录音文本对应的音频文件,所述音频文件是所述用户根据所述目标录音文本录制得到的;
根据所述音频文件,为所述用户生成与所述目标领域标识对应的目标TTS模型,所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。
第二方面,本说明书实施例还提供了一种用于个性化语音合成的装置,用于执行如第一方面所述的用于个性化语音合成的方法,所述装置包括:
接收模块,接收用户输入的TTS模型生成请求,所述TTS模型生成请求中包括目标领域标识;
发送模块,向所述用户发送与所述目标领域标识对应的目标录音文本;
所述接收模块,接收所述用户返回的与所述目标录音文本对应的音频文件,所述音频文件是所述用户根据所述目标录音文本录制得到的;
TTS模型生成模块,根据所述音频文件,为所述用户生成与所述目标领域标识对应的目标TTS模型,所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。
第三方面,本说明书实施例还提供了一种电子设备,包括:
存储器,存放程序;
处理器,执行所述存储器存储的程序,并具体执行如第一方面所述的用于个性化语音合成的方法。
第四方面,本说明书实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行如第一方面所述的用于个性化语音合成的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
接收用户输入的包括目标领域标识的TTS模型生成请求,向用户发送与目标领域标识对应的目标录音文本,并接收用户返回的与目标录音文本对应的音频文件,音频文件是用户根据目标录音文本录制得到的,进而根据音频文件,为用户生成与目标领域标识对应的目标TTS模型,目标TTS模型用于提供具有用户发音特点的个性化语音合成服务,从而可以简化TTS模型的生成过程,降低了个性化语音合成服务的成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种用于个性化语音合成的方法的流程示意图;
图2为本说明书实施例提供的一种电子设备的结构示意图;
图3为本说明书实施例提供的一种用于个性化语音合成的装置的结构示意图。
具体实施方式
下面结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的一种用于个性化语音合成的方法的流程示意图。所述方法可以如下所示。
步骤102,接收用户输入的TTS模型生成请求,TTS模型生成请求中包括目标领域标识。
步骤104,向用户发送与目标领域标识对应的目标录音文本,并接收用户返回的与目标录音文本对应的音频文件,音频文件是用户根据目标录音文本录制得到的。
步骤106,根据音频文件,为用户生成与目标领域标识对应的目标TTS模型,目标TTS模型用于提供具有用户发音特点的个性化语音合成服务。
其中,向用户发送与目标领域标识对应的目标录音文本,包括:
确定录音文本数据库,录音文本数据库中包括不同领域标识对应的录音文本;
根据录音文本数据库,确定与目标领域标识对应的所述目标录音文本;
向用户发送目标录音文本。
具体地,通过以下方式确定得到所述录音文本数据库:
确定不同领域标识,不同领域标识中的任一领域标识对应一个领域;
根据预设算法,生成与任一领域标识对应的录音文本,在任一领域标识对应的录音文本中,包括与该领域标识对应的领域中常见的字和/或词语。
领域标识包括下述至少一种:
儿童故事领域标识、交通领域标识、社会新闻领域标识,和天气预报领域标识。
个性化语音合成系统,根据生活常识,确定日常生活中的不同领域,例如,儿童故事领域、交通领域、社会新闻领域、天气预报领域,等。任一领域对应一个领域标识,例如,儿童故事领域与儿童故事领域标识对应、交通领域与交通领域标识对应、社会新闻领域与社会新闻领域标识对应、天气预报领域与天气预报领域标识对应,等。
根据预设算法,生成与任一领域对应的最优的录音文本,即与任一领域标识对应的录音文本。在任一领域对应的录音文本中,包括与该领域中常见的字和/或词语。
例如,根据预设算法,生成儿童故事领域对应的最优的录音文本,该录音文本中包括儿童故事领域中常见的字/或词语。
需要说明的是,预设算法可以根据实际情况确定,这里不做具体限定。
任一领域对应的最优的录音文本,包含该领域中常见的字/或词语对应的中文主要音节,且尽量避免重复,以精简录音文本的数据量。
任一领域对应的最优的录音文本,按照常规语速来说,尽量将于录音文本对应的音频文件控制在预设时长(例如,20~60分钟)范围内,以提高音频文件的获取速度。
此外,由于任一领域对应的最优的录音文本,需要适配该领域中常见的字/或词语,因此,该录音文本可以不具备完整的情节。
当用户需要构建TTS模型时,可以登录智能终端上个性化语音合成系统对应的应用程序(以下简称APP),并在该应用程序中选择目标领域标识,进而使得个性化语音合成系统接收到包括目标领域标识的TTS模型生成请求。
个性化语音合成系统从录音文本数据库中,查找到与目标领域标识对应的目标录音文本,并将该目标录音文本发送到用户智能终端中的APP。
用户接收到该目标录音文本之后,可以在安静的周边环境中,通过自身的智能终端录制与目标录音文本对应的音频文件,进而将录制得到的音频文件发送到个性化语音合成系统对应的云端私有TTS存储和建模空间中。
本说明书实施例中,根据音频文件,为用户生成与目标领域标识对应的目标TTS模型,包括:
对音频文件进行预处理,得到处理后音频文件;
根据处理后的音频文件,确定与用户发音特点匹配的特征参数;
根据特征参数,生成目标TTS模型。
其中,特征参数包括下述至少一种:
音调、音色、语速、停顿,和口音。
对音频文件进行预处理,包括下述至少一个步骤:
对音频文件进行降噪处理;
通过自动语言识别技术,判断音频文件是否正确。
在个性化语音合成系统对应的云端私有TTS存储和建模空间中,TTS模型生成模块,首先对于目标录音文本对应的音频文件进行降噪处理,进而通过自动语言识别(ASR,Automatic Speech Recognition)技术将降噪之后的音频文件转化为文本文件,进而将该文本文件与目标录音文本进行匹配,判断该音频文件是否正确。若该音频文件正确,则得到处理后的音频文件。
根据处理后的音频文件进行个性化TTS建模,得到与处理后的音频文件最接近的特征参数,即得到与用户发音特点匹配的特征参数,其中,特征参数包括但不限于:音调、音色、语速、停顿、口音,等。
从而根据与用户发音特点匹配的特征参数,生成在目标领域标识对应的领域内,可以提供具有用户发音特点的个性化语音合成服务的目标TTS模型。
通过用户自身智能终端对目标录音文本进行录制得到音频文件,进而通过音频文件生成目标TTS模型,有效简化了TTS模型的生成过程,而且相对于现有技术中录音棚录制音频文件来说,可以大大节约录音成本。
对于生成的目标TTS模型,个性化语音合成系统提供云端服务,即该目标TTS模型可以被经过用户授权的智能终端调用。
本说明书实施例中,还包括:
接收语音播报请求,语音播报请求中包括与用户对应的授权信息;
根据语音播报请求,使用目标TTS模型,提供个性化语音合成服务。
其中,个性化语音合成服务包括下述至少一种:
讲故事、播报天气预报、播报时间,和播报新闻。
语音播报请求来自于发送TTS模型生成请求的用户,或经该用户授权的其他用户。
当个性化语音合成系统接收到包含用户对应的授权信息的语音播报请求时,可以调用云端存储的该用户对应的目标TTS模型,进而根据该目标TTS模型,提供个性化语音合成服务。
在一实施例中,个性化语音合成系统为用户A生成了与儿童故事领域标识对应的目标TTS模型。使得当用户A在上班,无法陪伴子女时,其子女可以通过家中智能设备,访问个性化语音合成系统的云端服务,要求“爸爸给我讲个小猪佩奇的故事”,个性化语音合成系统对应的私有云服务器识别出是经过用户A授权的用户A子女的访问,可以称呼子女的小名,比如“豆豆,爸爸给你讲故事”。然后可以根据目标TTS模型生成的用户A的语音来讲述小猪佩奇的故事(其中,儿童故事本身来自智能设备对应的公有云服务器)。
在另一实施例中,个性化语音合成系统为用户B生成了与天气预报领域标识对应的目标TTS模型。使得生活在农村的用户B的父母,通过家中经过用户B授权的智能设备(例如,登录了用户B对应的账号),访问个性化语音合成系统的云端服务查询天气时,可以根据目标TTS模型生成的用户B的语音来播报天气,提醒用户B的父母注意天气变化,使得用户B的父母可以感受到温馨的亲情。
在另一实施例中,个性化语音合成系统为用户C生成目标TTS模型之后,若用户C去世,但是用户C的亲人仍然可以通过经过用户C授权的智能设备(例如,登录了用户C对应的账号),访问个性化语音合成系统的云端服务,进而根据目标TTS模型生成的用户C的语音来播报天气、讲故事、播新闻、讲笑话,等,使得亲人仍然能够感受到用户C的陪伴。
本说明书实施例中,当接收到的语音播报请求对应的领域,与目标TTS模型对应的目标领域标识不一致时,若仍然采用目标TTS模型来提供个性化语音合成服务,将导致播报效果较差。此时,可以调用公有云服务器中存储的全领域TTS模型,为用户提供较好的语音合成服务。
其中,公有云服务器中存储的全领域TTS模型可以是根据现有技术中通过采集大量语音数据构建得到的,也可以是通过其它方式构建得到的,这里不做具体限定。
本说明书实施例记载的技术方案,接收用户输入的包括目标领域标识的TTS模型生成请求,向用户发送与目标领域标识对应的目标录音文本,并接收用户返回的与目标录音文本对应的音频文件,音频文件是用户根据目标录音文本录制得到的,进而根据音频文件,为用户生成与目标领域标识对应的目标TTS模型,目标TTS模型用于提供具有用户发音特点的个性化语音合成服务,从而可以简化TTS模型的生成过程,降低了个性化语音合成服务的成本。
图2为本说明书实施例提供的一种电子设备的结构示意图。如图2所示,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成用于个性化语音合成的装置。处理器,执行存储器所存放的程序,并具体执行图1所示的方法实施例的步骤。
上述如图1所述的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备可执行图1所示方法实施例执行的方法,并实现上述图1所示方法实施例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中的用于个性化语音合成的方法,并具体执行图1所示方法实施例的步骤。
图3为本说明书实施例提供的一种用于个性化语音合成的装置的结构示意图。图3所示的装置300可以用于执行上述图1所示实施例的方法,装置300包括:
接收模块301,接收用户输入的TTS模型生成请求,TTS模型生成请求中包括目标领域标识;
发送模块302,向用户发送与目标领域标识对应的目标录音文本;
接收模块301,接收用户返回的与目标录音文本对应的音频文件,音频文件是用户根据目标录音文本录制得到的;
TTS模型生成模块303,根据音频文件,为用户生成与目标领域标识对应的目标TTS模型,目标TTS模型用于提供具有用户发音特点的个性化语音合成服务。
可选地,发送模块302,进一步包括:
第一确定单元,确定录音文本数据库,录音文本数据库中包括不同领域标识对应的录音文本;
第二确定单元,根据录音文本数据库,确定与目标领域标识对应的目标录音文本;
发送单元,向用户发送目标录音文本。
可选地,通过以下方式确定得到录音文本数据库:
确定不同领域标识,不同领域标识中的任一领域标识对应一个领域;
根据预设算法,生成与任一领域标识对应的录音文本,在任一领域标识对应的录音文本中,包括与该领域标识对应的领域中常见的字和/或词语。
可选地,领域标识包括下述至少一种:
儿童故事领域标识、交通领域标识、社会新闻领域标识,和天气预报领域标识。
可选地,TTS模型生成模块303,进一步包括:
预处理单元,对音频文件进行预处理,得到处理后音频文件;
第三确定单元,根据处理后的音频文件,确定与用户发音特点匹配的特征参数;
生成单元,根据特征参数,生成目标TTS模型。
可选地,特征参数包括下述至少一种:
音调、音色、语速、停顿,和口音。
可选地,预处理单元,具体用于:
对音频文件进行降噪处理;
通过自动语言识别技术,判断音频文件是否正确。
可选地,装置400还包括:
接收模块301,接收语音播报请求,语音播报请求中包括与用户对应的授权信息;
服务模块,根据语音播报请求,使用目标TTS模型,提供个性化语音合成服务。
可选地,个性化语音合成服务包括下述至少一种:
讲故事、播报天气预报、播报时间,和播报新闻。
可选地,语音播报请求来自于用户,或经用户授权的其它用户。
根据用于个性化语音合成的装置,接收模块接收用户输入的TTS模型生成请求,TTS模型生成请求中包括目标领域标识;发送模块向用户发送与目标领域标识对应的目标录音文本;接收模块接收用户返回的与目标录音文本对应的音频文件,音频文件是用户根据目标录音文本录制得到的;TTS模型生成模块根据音频文件,为用户生成与目标领域标识对应的目标TTS模型,目标TTS模型用于提供具有用户发音特点的个性化语音合成服务,从而可以简化TTS模型的生成过程,降低了个性化语音合成服务的成本。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (13)

1.一种用于个性化语音合成的方法,包括:
接收用户输入的语音合成TTS模型生成请求,所述TTS模型生成请求中包括目标领域标识;
向所述用户发送与所述目标领域标识对应的目标录音文本,并接收所述用户返回的与所述目标录音文本对应的音频文件,所述音频文件是所述用户根据所述目标录音文本录制得到的;
根据所述音频文件,为所述用户生成与所述目标领域标识对应的目标TTS模型,所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。
2.如权利要求1所述的方法,向所述用户发送与所述目标领域标识对应的目标录音文本,包括:
确定录音文本数据库,所述录音文本数据库中包括不同领域标识对应的录音文本;
根据所述录音文本数据库,确定与所述目标领域标识对应的所述目标录音文本;
向所述用户发送所述目标录音文本。
3.如权利要求2所述的方法,通过以下方式确定得到所述录音文本数据库:
确定不同领域标识,所述不同领域标识中的任一领域标识对应一个领域;
根据预设算法,生成与所述任一领域标识对应的录音文本,在所述任一领域标识对应的录音文本中,包括与所述领域标识对应的领域中常见的字和/或词语。
4.如权利要求3所述的方法,所述领域标识包括下述至少一种:
儿童故事领域标识、交通领域标识、社会新闻领域标识,和天气预报领域标识。
5.如权利要求1所述的方法,根据所述音频文件,为所述用户生成与所述目标领域标识对应的目标TTS模型,包括:
对所述音频文件进行预处理,得到处理后音频文件;
根据所述处理后的音频文件,确定与所述用户发音特点匹配的特征参数;
根据所述特征参数,生成所述目标TTS模型。
6.如权利要求5所述的方法,所述特征参数包括下述至少一种:
音调、音色、语速、停顿,和口音。
7.如权利要求5所述的方法,对所述音频文件进行预处理,包括下述至少一个步骤:
对所述音频文件进行降噪处理;
通过自动语言识别技术,判断所述音频文件是否正确。
8.如权利要求1所述的方法,还包括:
接收语音播报请求,所述语音播报请求中包括与所述用户对应的授权信息;
根据所述语音播报请求,使用所述目标TTS模型,提供个性化语音合成服务。
9.如权利要求8所述的方法,所述个性化语音合成服务包括下述至少一种:
讲故事、播报天气预报、播报时间,和播报新闻。
10.如权利要求8所述的方法,所述语音播报请求来自于所述用户,或经所述用户授权的其他用户。
11.一种用于个性化语音合成的装置,用于执行如权利要求1-10任一项所述的用于个性化语音合成的方法,所述装置包括:
接收模块,接收用户输入的TTS模型生成请求,所述TTS模型生成请求中包括目标领域标识;
发送模块,向所述用户发送与所述目标领域标识对应的目标录音文本;
所述接收模块,接收所述用户返回的与所述目标录音文本对应的音频文件,所述音频文件是所述用户根据所述目标录音文本录制得到的;
TTS模型生成模块,根据所述音频文件,为所述用户生成与所述目标领域标识对应的目标TTS模型,所述目标TTS模型用于提供具有所述用户发音特点的个性化语音合成服务。
12.一种电子设备,包括:
存储器,存放程序;
处理器,执行所述存储器存储的程序,并具体执行如权利要求1-10任一项所述的用于个性化语音合成的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行如权利要求1-10任一项所述的用于个性化语音合成的方法。
CN201811489961.8A 2018-12-06 2018-12-06 一种用于个性化语音合成的方法和装置 Pending CN111369966A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811489961.8A CN111369966A (zh) 2018-12-06 2018-12-06 一种用于个性化语音合成的方法和装置
TW108130025A TW202025135A (zh) 2018-12-06 2019-08-22 用於個性化語音合成的方法和裝置
PCT/CN2019/121852 WO2020114323A1 (zh) 2018-12-06 2019-11-29 一种用于个性化语音合成的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811489961.8A CN111369966A (zh) 2018-12-06 2018-12-06 一种用于个性化语音合成的方法和装置

Publications (1)

Publication Number Publication Date
CN111369966A true CN111369966A (zh) 2020-07-03

Family

ID=70975185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811489961.8A Pending CN111369966A (zh) 2018-12-06 2018-12-06 一种用于个性化语音合成的方法和装置

Country Status (3)

Country Link
CN (1) CN111369966A (zh)
TW (1) TW202025135A (zh)
WO (1) WO2020114323A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116904B (zh) * 2020-11-20 2021-02-23 北京声智科技有限公司 语音转换方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169610A1 (en) * 2001-04-06 2002-11-14 Volker Luegger Method and system for automatically converting text messages into voice messages
US20050256716A1 (en) * 2004-05-13 2005-11-17 At&T Corp. System and method for generating customized text-to-speech voices
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN105261355A (zh) * 2015-09-02 2016-01-20 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN107516509A (zh) * 2017-08-29 2017-12-26 苏州奇梦者网络科技有限公司 用于新闻播报语音合成的语音库构建方法及系统
CN108492819A (zh) * 2018-03-30 2018-09-04 浙江吉利控股集团有限公司 语言练习方法、装置、智能车载终端及存储介质
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN108899013A (zh) * 2018-06-27 2018-11-27 广州视源电子科技股份有限公司 语音搜索方法、装置和语音识别系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169610A1 (en) * 2001-04-06 2002-11-14 Volker Luegger Method and system for automatically converting text messages into voice messages
US20050256716A1 (en) * 2004-05-13 2005-11-17 At&T Corp. System and method for generating customized text-to-speech voices
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN105261355A (zh) * 2015-09-02 2016-01-20 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN107516509A (zh) * 2017-08-29 2017-12-26 苏州奇梦者网络科技有限公司 用于新闻播报语音合成的语音库构建方法及系统
CN108492819A (zh) * 2018-03-30 2018-09-04 浙江吉利控股集团有限公司 语言练习方法、装置、智能车载终端及存储介质
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN108899013A (zh) * 2018-06-27 2018-11-27 广州视源电子科技股份有限公司 语音搜索方法、装置和语音识别系统

Also Published As

Publication number Publication date
TW202025135A (zh) 2020-07-01
WO2020114323A1 (zh) 2020-06-11

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
CN107437416B (zh) 一种基于语音识别的咨询业务处理方法及装置
US10276161B2 (en) Contextual hotwords
KR102097097B1 (ko) 사용자-녹음 오디오의 생성 및 재생 촉진
WO2018121275A1 (zh) 一种智能硬件设备中的语音识别纠错方法和装置
US11862174B2 (en) Voice command processing for locked devices
JP2023015054A (ja) 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード
CN111292734B (zh) 一种语音交互方法和装置
CN104050966A (zh) 终端设备的语音交互方法和使用该方法的终端设备
CN111292733A (zh) 一种语音交互方法和装置
CN110297616B (zh) 话术的生成方法、装置、设备以及存储介质
CN110659361B (zh) 一种对话方法、装置、设备及介质
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
KR20200069264A (ko) 사용자 맞춤형 음성 선택이 가능한 음성 출력 시스템 및 그 구동방법
CN117369783B (zh) 一种安全代码生成模型的训练方法及装置
CN107919127B (zh) 语音处理方法、装置和电子设备
CN111369966A (zh) 一种用于个性化语音合成的方法和装置
CN114596840B (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN111353035B (zh) 人机对话方法、装置、可读存储介质及电子设备
CN113035181A (zh) 语音数据处理方法、设备和系统
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법
TW202014915A (zh) 互動方法、設備、儲存媒體和作業系統
CN113077790A (zh) 多语言配置方法、多语音交互方法、装置及电子设备
CN112328308A (zh) 用于识别文本的方法和装置
WO2019236745A1 (en) Temporary account association with voice-enabled devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination