CN109686361B - 一种语音合成的方法、装置、计算设备及计算机存储介质 - Google Patents

一种语音合成的方法、装置、计算设备及计算机存储介质 Download PDF

Info

Publication number
CN109686361B
CN109686361B CN201811557245.9A CN201811557245A CN109686361B CN 109686361 B CN109686361 B CN 109686361B CN 201811557245 A CN201811557245 A CN 201811557245A CN 109686361 B CN109686361 B CN 109686361B
Authority
CN
China
Prior art keywords
clauses
text information
preset
splitting
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811557245.9A
Other languages
English (en)
Other versions
CN109686361A (zh
Inventor
徐建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Robotics Co Ltd filed Critical Cloudminds Robotics Co Ltd
Priority to CN201811557245.9A priority Critical patent/CN109686361B/zh
Publication of CN109686361A publication Critical patent/CN109686361A/zh
Application granted granted Critical
Publication of CN109686361B publication Critical patent/CN109686361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音信号处理及语音合成技术领域,尤其公开了一种语音合成的方法、装置、计算设备及计算机存储介质,其中,方法包括:接收用户输入的文本信息;将所述文本信息拆分为分句;生成所述分句对应的拼音码;将所述拼音码输入预设深度学习模型中,得到相应的梅尔频谱;将所述梅尔频谱转换为对应的语音,以得到合成语音。由此可见,利用本发明方案,可以减少语料库中的文本量,方便快捷的实现语音合成。

Description

一种语音合成的方法、装置、计算设备及计算机存储介质
技术领域
本发明实施例涉及语音信号处理及语音合成技术领域,特别是涉及一种语音合成的方法、装置、计算设备及计算机存储介质。
背景技术
语音合成,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。本发明的发明人在实现本发明的过程中,发现:现有技术中,语音合成技术通过词语直接匹配语音,所需的语料库会十分庞大。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成的方法、装置、计算设备及计算机存储介质。
为解决上述技术问题,本发明实施例采用的一个技术方案是:提供一种语音合成的方法,包括:接收用户输入的文本信息;将所述文本信息拆分为分句;生成所述分句对应的拼音码;将所述拼音码输入预设深度学习模型中,得到相应的梅尔频谱;将所述梅尔频谱转换为对应的语音,以得到合成语音。
其中,所述将所述文本信息拆分为分句包括:识别所述文本信息中的标点符号;根据所述标点符号位置将所述文本信息拆分为分句。
其中,所述生成所述分句对应的拼音码,包括:使用预设分词算法将所述分句拆分为分词;识别所述分词中的多音字、数字及特殊字符;将所述数字及特殊字符按照读音转换为相应的汉字;使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;将转换之后的分词合成为新的分句;使用预设生成算法将所述新的分句生成对应的拼音码。
其中,所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。
本发明实施例采用的另一个技术方案是:提供一种语音合成装置,包括:接收模块:用于接收用户输入的文本信息;拆分模块:用于将所述文本信息拆分成分句;生成模块:用于生成所述分句对应的拼音码;合成模块:用于将所述拼音码输入预设深度学习模型中,得到相应的梅尔频谱;将所述梅尔频谱转换为对应的语音,以得到合成语音。
其中,所述拆分模块包括:第一识别单元:用于识别所述文本信息中的标点符号;第一拆分单元:用于根据所述标点符号位置将所述文本信息拆分为分句。
其中,所述生成模块包括:第二拆分单元:用于使用预设分词算法将所述分句拆分为分词;第二识别单元:用于识别所述分词中的多音字、数字及特殊字符;第一转换单元:用于将所述数字及特殊字符按照读音转换为相应的汉字;第二转换单元:用于使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;合成单元:用于将转换之后的分词合成为新的分句;生成单元:用于使用预设生成算法将所述新的分句生成对应的拼音码。
其中,所述合成模块中所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。
本发明实施例采用的再一个技术方案是:提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的一种语音合成的方法对应的操作。
本发明实施例采用的有一个技术方案是:提供一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述的一种语音合成的方法对应的操作。
本发明实施例的有益效果是:区别于现有技术的情况,本发明实施例将文本信息转换为对应的拼音码,并使用深度学习模型得到相应的合成语音,从而精简了所需语料库以及语音录制工作;此外,将多音词使用语义理解算法确定发音,使语音合成更加准确。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施例。
附图说明
通过阅读下文优选实施例的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施例的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的一种语音合成的方法流程图;
图2是本发明实施例的一种语音合成的方法中生成拼音码流程图;
图3是本发明另一实施例的一种语音合成装置的功能框图;
图4是本发明另一实施例的一种计算设备示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1为本发明一种语音合成的方法实施例的流程图。如图1所示,该方法包括以下步骤:
步骤S101:接收用户输入的文本信息。
在本步骤中,机器人接收用户输入的文本信息,所述文本信息是一段文字。
步骤S102:将所述文本信息拆分为分句。
在本步骤中,通过预设识别算法识别所述文本信息中的标点符号,如逗号、句号,根据所述标点符号所在的位置,将两个标点符号之间的语句定义为一个分句,所述文本信息拆分成若干个分句。
步骤S103:生成所述分句对应的拼音码。
在本步骤中,将所述分句生成对应的拼音,如:“将所述分句生成对应的拼音”,转化成对应的拼音码为“jiang suo shu fen ju sheng cheng dui ying de pin yin”。
步骤S104:将所述拼音码输入预设深度学习模型中,得到相应的梅尔频谱。
在本步骤中,所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型,在进行训练时,获取大量大文本信息及其对应的拼音码,并人为录制所属文本信息对应的语音,将所述文本信息对应的拼音码作为所述深度学习模型的输入,将其对应的梅尔频谱作为输出,设置网络相关参数进行网络训练,得到一个训练好的模型。
步骤S105:将所述梅尔频谱转换为对应的语音,以得到合成语音。
其中,所述梅尔频谱经过声码器转换为对应的语音文件。在进行语音合成时,将拼音码作为训练好的深度学习模型的输入,并将输出的梅尔频谱转换为语音,即可得到对应的合成语音。
本发明实施例通过将文本信息转换为对应的拼音码,并使用深度学习模型得到相应的合成语音,从而精简了所需语料库以及语音录制工作,提高了语音合成的效率。
在一些实施例中,在生成分句对应的拼音码时,可以逐字生成,具体的,如图2所示,包括:
步骤S201:使用预设分词算法将所述分句拆分为分词。
在本步骤中,所述预设分词算法是现有技术中任意一种分词算法,使用所述算法,将所述分句拆分为若干个分词组合。
步骤S202:识别所述分词中的多音字、数字及特殊字符。
在本步骤中,所述特殊字符是指分词中区别于汉字和数字的其他特殊字符,如:ɑ、β。在本发明实施例中,在进行多音字、数字及特殊字符识别时,使用正则表达式区分,识别方法在本发明中不做限定。
步骤S203:将所述数字及特殊字符按照读音转换为相应的汉字。
在本步骤中,将所述数字及特殊字符按照通用读法转换为相应的汉字,如数字“1”,按照其通用读法转化为其对应的汉字“一”;特殊字符“ɑ”,按照其通用读法转化为其对应的汉字“阿尔法”。
步骤S204:使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字。
在本步骤中,所述预设语义理解算法为现有技术中任意一种语义理解算法,在本发明实施例中,将包含多音字的分词应用预设语义理解算法,在多音词库中确定与其对应的多音汉字的读音,如,“睡觉”通过语义理解算法,在多音词库中确定其读音为“jiao”,为了正确得到改词的读音,将“睡觉”一词中的“觉”转变为其他相同读音的汉字,如“叫”。
步骤S205:将转换之后的分词合成为新的分句。
在本步骤中,所述转换之后的分词是将数字、多音字及特殊字符转换为通用汉字之后的词语,将所述转换之后的词语按照原句子中的分词组合顺序合称为新的分句。如,原句为“ɑ粒子是由2个质子和2个中子组成”,将其中的特殊字符“ɑ”按照通用读法转换为汉字“阿尔法”,数字“2”汉字转化为“两”,多音字“和”转化为汉字“禾”,按照原句中分词的组合顺序,组成新的分句为“阿尔法粒子由两个质子禾两个中子组成”。
步骤S206:使用预设生成算法将所述新的分句生成对应的拼音码。
本发明实施例将文本信息中的数字及特殊字符按照通用读音转化为相应的汉字,将文本信息中涉及到的多音词使用语义理解算法确定发音,从而使语音合成更加准确。
图3为本发明一种语音合成装置的功能框图,如图3所示,所述装置包括:接收模块301、拆分模块302、生成模块303及合成模块304。其中,接收模块301,用于接收用户输入的文本信息;拆分模块302,用于将所述文本信息拆分成分句;生成模块303,用于生成所述分句对应的拼音码;合成模块304,用于将所述拼音码输入预设深度学习模型中,得到相应的梅尔频谱;将所述梅尔频谱转换为对应的语音,以得到合成语音。
其中,拆分模块302包括:第一识别单元3021及第一拆分单元3022,其中,第一识别单元3021,用于识别所述文本信息中的标点符号;第一拆分单元3022,用于根据所述标点符号位置将所述文本信息拆分为分句。
其中,所述生成模块303包括:第二拆分单元3031、第二识别单元3032、第一转换单元3033、第二转换单元3034、合成单元3035及生成单元3036。其中,第二拆分单元3031,用于使用预设分词算法将所述分句拆分为分词;第二识别单元3032,用于识别所述分词中的多音字、数字及特殊字符;第一转换单元3033,用于将所述数字及特殊字符按照读音转换为相应的汉字;第二转换单元3034,用于使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;合成单元3035,用于将转换之后的分词合成为新的分句;生成单元3036,用于使用预设生成算法将所述新的分句生成对应的拼音码。
其中,合成模块304中所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。
本发明实施例通过生成模块将文本信息生成为对应的拼音码,并使用合成模块得到相应的合成语音,从而精简了所需语料库以及语音录制工作;此外,将多音字、数字及特殊字符使用语义理解算法确定发音,使语音合成更加准确。
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的一种语音合成的方法。
图4为本发明计算设备实施例的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述一种语音合成的方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
接收用户输入的文本信息;
将所述文本信息拆分为分句;
生成所述分句对应的拼音码;
将所述拼音码输入预设深度学习模型中,得到相应的梅尔频谱;将所述梅尔频谱转换为对应的语音,以得到合成语音。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
识别所述文本信息中的标点符号;
根据所述标点符号位置将所述文本信息拆分为分句。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
使用预设分词算法将所述分句拆分为分词;
识别所述分词中的多音字、数字及特殊字符;
将所述数字及特殊字符按照读音转换为相应的汉字;
使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;
将转换之后的分词合成为新的分句;
使用预设生成算法将所述新的分句生成对应的拼音码。
在一种可选的方式中,所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施例的权利要求书由此明确地并入该具体实施例,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种语音合成装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (6)

1.一种语音合成的方法,其特征在于,包括:
接收用户输入的文本信息;
将所述文本信息拆分为分句,包括:识别所述文本信息中的标点符号;根据所述标点符号位置将所述文本信息拆分为分句;
使用预设分词算法将所述分句拆分为分词;识别所述分词中的多音字、数字及特殊字符,使用正则表达式区分多音字、数字及特殊字符;
使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字,将所述数字及特殊字符按照通用读法转换为相应的汉字;将转换之后的分词合成为新的分句;使用预设生成算法将所述新的分句生成所述新的分句对应的拼音码;
将所述新的分句对应的拼音码输入预设深度学习模型中,得到相应的梅尔频谱;其中,所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型;
将所述梅尔频谱转换为对应的语音,以得到合成语音。
2.根据权利要求1所述的方法,其特征在于,所述生成所述分句对应的拼音码,包括:
使用预设分词算法将所述分句拆分为分词;
识别所述分词中的多音字、数字及特殊字符;
将所述数字及特殊字符按照读音转换为相应的汉字;
使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;
将转换之后的分词合成为新的分句;
使用预设生成算法将所述新的分句生成对应的拼音码。
3.一种语音合成装置,其特征在于,包括:
接收模块:用于接收用户输入的文本信息;
拆分模块:用于将所述文本信息拆分成分句,所述拆分模块包括:第一识别单元:用于识别所述文本信息中的标点符号;第一拆分单元:用于根据所述标点符号位置将所述文本信息拆分为分句;
生成模块:使用预设分词算法将所述分句拆分为分词;识别所述分词中的多音字、数字及特殊字符,使用正则表达式区分多音字、数字及特殊字符;将所述数字及特殊字符按照通用读法转换为相应的汉字;将转换之后的分词合成为新的分句;使用预设生成算法将所述新的分句生成对应的拼音码;
合成模块:用于将所述拼音码输入预设深度学习模型中,得到相应的相应的梅尔频谱;将所述梅尔频谱转换为对应的语音,以得到合成语音,所述合成模块中所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。
4.根据权利要求3所述的装置,其特征在于,所述生成模块包括:
第二拆分单元:用于使用预设分词算法将所述分句拆分为分词;
第二识别单元:用于识别所述分词中的多音字、数字及特殊字符;
第一转换单元:用于将所述数字及特殊字符按照读音转换为相应的汉字;
第二转换单元:用于使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;
合成单元:用于将转换之后的分词合成为新的分句;
生成单元:用于使用预设生成算法将所述新的分句生成对应的拼音码。
5.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1或2中所述的一种语音合成的方法对应的操作。
6.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1或2中所述的一种语音合成的方法对应的操作。
CN201811557245.9A 2018-12-19 2018-12-19 一种语音合成的方法、装置、计算设备及计算机存储介质 Active CN109686361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811557245.9A CN109686361B (zh) 2018-12-19 2018-12-19 一种语音合成的方法、装置、计算设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811557245.9A CN109686361B (zh) 2018-12-19 2018-12-19 一种语音合成的方法、装置、计算设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN109686361A CN109686361A (zh) 2019-04-26
CN109686361B true CN109686361B (zh) 2022-04-01

Family

ID=66186431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811557245.9A Active CN109686361B (zh) 2018-12-19 2018-12-19 一种语音合成的方法、装置、计算设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109686361B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及系统
CN112291281B (zh) * 2019-07-09 2023-11-03 钉钉控股(开曼)有限公司 语音播报及语音播报内容的设定方法和装置
CN112241629A (zh) * 2019-12-23 2021-01-19 北京来也网络科技有限公司 结合rpa及ai的拼音标注文本生成方法及装置
CN110956948A (zh) * 2020-01-03 2020-04-03 北京海天瑞声科技股份有限公司 端到端的语音合成方法、装置及存储介质
CN111341293B (zh) * 2020-03-09 2022-11-18 广州市百果园信息技术有限公司 一种文本语音的前端转换方法、装置、设备和存储介质
CN111653261A (zh) * 2020-06-29 2020-09-11 北京字节跳动网络技术有限公司 语音合成方法、装置、可读存储介质及电子设备
CN111785247A (zh) * 2020-07-13 2020-10-16 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN112102807A (zh) * 2020-08-17 2020-12-18 招联消费金融有限公司 语音合成方法、装置、计算机设备和存储介质
CN112185341A (zh) * 2020-09-10 2021-01-05 广州多益网络股份有限公司 基于语音合成的配音方法、装置、设备和存储介质
CN112151008B (zh) * 2020-09-22 2022-07-15 中用科技有限公司 一种语音合成方法、系统及计算机设备
CN112487804B (zh) * 2020-11-25 2024-04-19 合肥三恩信息科技有限公司 一种基于语义上下文场景的中文小说语音合成系统
CN112667865A (zh) * 2020-12-29 2021-04-16 西安掌上盛唐网络信息有限公司 中英混合语音合成技术在汉语言教学中的应用的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004070701A2 (en) * 2003-01-31 2004-08-19 Scansoft, Inc. Linguistic prosodic model-based text to speech
CN1811912A (zh) * 2005-01-28 2006-08-02 北京捷通华声语音技术有限公司 小音库语音合成方法
CN104134081A (zh) * 2014-07-31 2014-11-05 广东小天才科技有限公司 一种手写输入内容的拼读方法及装置
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报系统及语音播报方法
CN107945786A (zh) * 2017-11-27 2018-04-20 北京百度网讯科技有限公司 语音合成方法和装置
CN108847249A (zh) * 2018-05-30 2018-11-20 苏州思必驰信息科技有限公司 声音转换优化方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004070701A2 (en) * 2003-01-31 2004-08-19 Scansoft, Inc. Linguistic prosodic model-based text to speech
CN1811912A (zh) * 2005-01-28 2006-08-02 北京捷通华声语音技术有限公司 小音库语音合成方法
CN104134081A (zh) * 2014-07-31 2014-11-05 广东小天才科技有限公司 一种手写输入内容的拼读方法及装置
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报系统及语音播报方法
CN107945786A (zh) * 2017-11-27 2018-04-20 北京百度网讯科技有限公司 语音合成方法和装置
CN108847249A (zh) * 2018-05-30 2018-11-20 苏州思必驰信息科技有限公司 声音转换优化方法和系统

Also Published As

Publication number Publication date
CN109686361A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
CN110675854B (zh) 一种中英文混合语音识别方法及装置
CN109523989B (zh) 语音合成方法、语音合成装置、存储介质及电子设备
CN107564511B (zh) 电子装置、语音合成方法和计算机可读存储介质
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
TWI698857B (zh) 語音辨識系統及其方法、與電腦程式產品
CN110010136B (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
WO2020098269A1 (zh) 一种语音合成方法及语音合成装置
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN107451119A (zh) 基于语音交互的语义识别方法及装置、存储介质、计算机设备
CN111696521A (zh) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN111161703B (zh) 带语气的语音合成方法、装置、计算设备及存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN112818089A (zh) 文本注音方法、电子设备及存储介质
CN106710587A (zh) 一种语音识别数据预处理方法
CN113409761B (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
CN105895076B (zh) 一种语音合成方法及系统
Ekpenyong et al. Improved syllable-based text to speech synthesis for tone language systems
JP2019215660A (ja) 処理プログラム、処理方法および情報処理装置
CN113362801A (zh) 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
Mukherjee et al. A Bengali speech synthesizer on Android OS
CN116580698A (zh) 基于人工智能的语音合成方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210128

Address after: 200000 second floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant after: Dalu Robot Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: Shenzhen Qianhaida Yunyun Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 201111 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee after: Dayu robot Co.,Ltd.

Address before: 200000 second floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee before: Dalu Robot Co.,Ltd.

CP03 Change of name, title or address