CN112349272A - 语音合成方法、装置、存储介质及电子装置 - Google Patents
语音合成方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN112349272A CN112349272A CN202011105070.5A CN202011105070A CN112349272A CN 112349272 A CN112349272 A CN 112349272A CN 202011105070 A CN202011105070 A CN 202011105070A CN 112349272 A CN112349272 A CN 112349272A
- Authority
- CN
- China
- Prior art keywords
- voice
- emotion detection
- target text
- synthesis
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 160
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 160
- 238000001308 synthesis method Methods 0.000 title claims abstract description 21
- 230000008451 emotion Effects 0.000 claims abstract description 169
- 238000001514 detection method Methods 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims description 36
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音合成方法、装置、存储介质及电子装置。该方法包括:对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果。通过本申请,解决了相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题。
Description
技术领域
本申请涉及语音合成技术领域,具体而言,涉及一种语音合成方法、装置、存储介质及电子装置。
背景技术
当前的语音合成技术中,一次合成的文本内容,往往采用一个固定的音库合成,这就决定了合成的音频是固定的语气和情绪,音色为固定的,不会包含语气与情感的变化,拟人化程度并不高。尤其在故事阅读的场景下,单纯一个音色,机械性强,不能有很好的情景代入感。
针对相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种语音合成方法、装置、存储介质及电子装置,以解决相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题。
根据本申请的一个方面,提供了一种语音合成方法。该方法包括:对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果。
可选地,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果包括:对目标文本进行语句切分,得到多个切分结果;分别对每个切分结果进行情绪检测,得到切分结果对应的情绪检测结果。
可选地,分别对每个切分结果进行情绪检测,得到切分结果对应的情绪检测结果包括:对一个切分结果进行情绪检测,得到至少一个候选情绪检测结果以及候选情绪检测结果的分值;基于候选情绪检测结果的分值,从至少一个候选情绪检测结果中确定切分结果对应的情绪检测结果。
可选地,确定每个情绪检测结果对应的语音库,得到多个语音库包括:在多个候选语音库中,基于候选语音库的标签确定与情绪检测结果匹配的候选语音库;将与情绪检测结果匹配的候选语音库确定为情绪检测结果对应的语音库。
可选地,基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果包括:采用每个情绪检测结果对应的语音库,对情绪检测结果对应的文本部分进行语音合成,得到多个预设语音合成结果;按照各个文本部分在目标文本中的顺序,对多个预设语音合成结果进行拼接,得到目标文本的语音合成结果。
根据本申请的另一个方面,提供了另一种语音合成方法。该方法包括:接收客户端发送的服务调用请求,其中,服务调用请求中携带有对目标文本的语音合成的请求;响应服务调用请求,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成;输出目标文本的语音合成结果。
可选地,基于多个语音库,对目标文本进行语音合成包括:采用每个情绪检测结果对应的语音库,对情绪检测结果对应的文本部分进行语音合成,得到多个预设语音合成结果;按照各个文本部分在目标文本中的顺序,对多个预设语音合成结果进行拼接,得到目标文本的语音合成结果。
根据本申请的另一方面,提供了一种语音合成装置。该装置包括:检测单元,用于对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定单元,用于确定每个情绪检测结果对应的语音库,得到多个语音库。合成单元,用于基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种语音合成方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种语音合成方法。
通过本申请,采用以下步骤:对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果,解决了相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题。通过确定目标文本的各个文本部分的情绪检测结果以及对应的音库,对目标文本进行语音合成,进而达到了减小语音合成结果与真人朗诵文本的差异的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的语音合成方法的流程图;
图2是根据本申请实施例提供的另一种语音合成方法的流程图;
图3是根据本申请实施例提供的另一种语音合成方法的流程图;
图4是根据本申请实施例提供的语音合成装置的示意图;以及
图5是根据本申请实施例提供的另一种语音合成装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
语音合成:语音合成是通过机械的、电子的方法产生人造语音的技术。
文语转换技术:隶属于语音合成,是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
情绪检测:本专利中的情感分析主要用于对一句话或半句话进行情感的判定,当前支持兴奋、愤怒、喜欢、厌恶、悲伤、惊讶、恐惧、中性等八种情感的判定。
根据本申请的实施例,提供了一种语音合成方法。
图1是根据本申请实施例的语音合成方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果。
具体地,目标文本为待语音合成的文本,目标文本可以是一段文本,也可以是多段文本,目标文本的各个文本部分可以是各句文本内容。
在目标文本的各个文本部分可以是各句文本内容情况下,可选地,在本申请实施例提供的语音合成方法中,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果包括:对目标文本进行语句切分,得到多个切分结果;分别对每个切分结果进行情绪检测,得到切分结果对应的情绪检测结果。
具体地,可以按句子切分技术,对目标文本进行切分,得到多条句子,采用情绪检测技术对每条句子进行情绪检测,得到对应的以下之一情绪检测结果:兴奋、愤怒、喜欢、厌恶、恐惧、中性、悲伤、惊讶等。
存在一个句子包含不同情绪成分的情况,可选地,分别对每个切分结果进行情绪检测,得到切分结果对应的情绪检测结果包括:对一个切分结果进行情绪检测,得到至少一个候选情绪检测结果以及候选情绪检测结果的分值;基于候选情绪检测结果的分值,从至少一个候选情绪检测结果中确定切分结果对应的情绪检测结果。
需要说明的是,存在一个句子包含不同情绪成分。例如,一条句子中同时出现兴奋和喜欢的情绪成分、一条句子中同时出现愤怒和悲伤的情绪成分等。在采用情绪检测技术对一条句子进行情绪检测,可以检测出多个情绪检测结果以及每个情绪检测结果对应的分值,并取分值最高的情绪检测结果作为该句子对应的情绪检测结果。
例如,一个句子为:考生查询成绩时,发现自身超出预估成绩,不由说到“哇,这真的是我的成绩吗”。检测出兴奋情绪和惊讶情绪,兴奋情绪的分值为7,惊讶情绪的分值为8,取惊讶情绪作为该句子对应的情绪检测结果。
步骤S102,确定每个情绪检测结果对应的语音库,得到多个语音库。
可以根据音库的标签确定情绪检测结果对应的语音库,可选地,确定每个情绪检测结果对应的语音库,得到多个语音库包括:在多个候选语音库中,基于候选语音库的标签确定与情绪检测结果匹配的候选语音库;将与情绪检测结果匹配的候选语音库确定为情绪检测结果对应的语音库。
例如,共有8个候选音库,标签分别为“兴奋”、“愤怒”、“喜欢”、“厌恶”、“恐惧”、“中性”、“悲伤”、“惊讶”,对一句话检测出兴奋的情绪结果后,确定该情绪结果对应的候选音库的标签为“兴奋”,从而根据标签和候选音库之间的关联关系,从多个候选音库中确定兴奋音库为兴奋的情绪结果对应的音库。
步骤S103,基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果。
具体地,对每个情绪检测结果对应的文本部分采用对应的音库进行语音合成,从而得到目标文本的语音合成结果。
可选地,基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果包括:采用每个情绪检测结果对应的语音库,对情绪检测结果对应的文本部分进行语音合成,得到多个预设语音合成结果;按照各个文本部分在目标文本中的顺序,对多个预设语音合成结果进行拼接,得到目标文本的语音合成结果。
例如,各个文本部分为目标文本的各条句子,分别采用每条句子对应的音库对句子进行语音合成,得到句子语音合成结果,再按照各个句子在目标文本中的顺序拼接句子语音合成结果,得到目标文本的语音合成结果。
此外,需要说明的是,由于每个文本部分均采用独立的音库进行语音合成,可以对拼接处的语音内容进行语调的弱化,从而保证目标文本的合成结果的流畅性。
本申请实施例提供的语音合成方法,通过对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果,解决了相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题。通过确定目标文本的各个文本部分的情绪检测结果以及对应的音库,对目标文本进行语音合成,进而达到了减小语音合成结果与真人朗诵文本的差异的效果。
图2是根据本申请实施例的另一种语音合成方法的示意图。如图2所示,该方法包括:
确定待语音合成的目标文本为:高考成绩快出来了,小明预估成绩不理想,忐忑的打开分数查询页面,查出高考成绩足足比预估成绩高了50分,小明说“太好了,可以报考我想去的学校了!”。
采用文本切分模块,对目标文本进行切分,得到多个切分结果,例如,多个切分结果可以为以下多个短句:“高考成绩快出来了,小明预估成绩不理想,忐忑的打开分数查询页面”,“查出高考成绩足足比预估成绩高了50分”,“小明说”,“太好了,可以报考我想去的学校了”。
采用情绪检测模块,对句子“高考成绩快出来了,小明预估成绩不理想,忐忑的打开分数查询页面”检测出悲伤的情绪检测结果,对句子“查出高考成绩足足比预估成绩高了50分”检测出惊讶的情绪检测结果,对句子“小明说”检测出中性的情绪检测结果,对句子“太好了,可以报考我想去的学校了”检测出兴奋的情绪检测结果。
采用语音选择模块,从兴奋音库、愤怒音库、喜欢音库、厌恶音库、恐惧音库、中性音库、悲伤音库、惊讶音库等8中候选音库中,确定悲伤的情绪检测结果对应的音库为悲伤音库,确定惊讶的情绪检测结果对应的音库为惊讶音库,确定兴奋的情绪检测结果对应的音库为兴奋音库。
采用语音合成模块,分别通过对应的音库对各句话进行语音合成,得到多个语音合成结果,并采用语音拼接技术对多个语音合成结果进行拼接,得到目标文本的语音合成结果。
通过本申请实施例,可以通过在音频合成前,通过情绪检测模块自动检测待合成文本的内容进行情绪检测,根据文本内容分析出每句文本对应的情绪,之后再通过音库选择模块,根据每句文本对应的不同情绪,如兴奋、愤怒、惊讶、悲伤、恐惧等来选择不同的音库,并根据语音合成模块进行语音合成,之后再通过语音拼接模块进行拼接,作为一整段音频输出,以达到合成的音频有情绪起伏变化效果的目的。
图3是根据本申请实施例的另一种语音合成方法的示意图。如图3所示,该方法包括:
步骤S301,接收客户端发送的服务调用请求,其中,服务调用请求中携带有对目标文本的语音合成的请求。
具体地,对目标文本的语音合成的请求即为请求将目标文本转化为语音内容的请求。目标文本为待语音合成的文本,目标文本可以是一段文本,也可以是多段文本。
步骤S302,响应服务调用请求,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成。
具体地,服务器响应服务调用请求,可以按句子切分技术,对目标文本进行切分,得到多条句子,也即目标文本的各个文本部分,并采用情绪检测技术对每条句子进行情绪检测,得到对应的以下之一情绪检测结果:兴奋、愤怒、喜欢、厌恶、恐惧、中性、悲伤、惊讶等。
得到每句话对应的情绪检测结果后,确定该情绪结果对应的候选音库的标签,从而根据标签和候选音库之间的关联关系,从多个候选音库中确定兴奋音库为兴奋的情绪结果对应的音库。
可选地,在本申请实施例提供的语音合成方法中,基于多个语音库,对目标文本进行语音合成包括:采用每个情绪检测结果对应的语音库,对情绪检测结果对应的文本部分进行语音合成,得到多个预设语音合成结果;按照各个文本部分在目标文本中的顺序,对多个预设语音合成结果进行拼接,得到目标文本的语音合成结果。
具体地,分别采用每条句子对应的音库对句子进行语音合成,得到句子语音合成结果,再按照各个句子在目标文本中的顺序拼接句子语音合成结果,得到目标文本的语音合成结果。
步骤S303,输出目标文本的语音合成结果。
需要说明的是,由于每个文本部分均采用独立的音库进行语音合成,可以对拼接处的语音内容进行语调的弱化,从而保证输出的目标文本的合成结果的流畅性。
通过本申请实施例,服务器可以在客户端发出大段文本的语音合成请求下,自动针对不同内容的文本采用不同的音库合,针对每句文本对应的语境合成不同语气与情感的音频进行播放,以达到合成的音频有情绪起伏变化效果的目的。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种语音合成装置,需要说明的是,本申请实施例的语音合成装置可以用于执行本申请实施例所提供的用于语音合成方法。以下对本申请实施例提供的语音合成装置进行介绍。
图4是根据本申请实施例的语音合成装置的示意图。如图4所示,该装置包括:检测单元41、确定单元42和合成单元43。
具体地,检测单元41,用于对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果。
确定单元42,用于确定每个情绪检测结果对应的语音库,得到多个语音库。
合成单元43,用于基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果。
本申请实施例提供的语音合成装置,通过检测单元41对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定单元42确定每个情绪检测结果对应的语音库,得到多个语音库;合成单元43基于多个语音库,对目标文本进行语音合成,得到目标文本的语音合成结果,解决了相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题,通过确定目标文本的各个文本部分的情绪检测结果以及对应的音库,对目标文本进行语音合成,进而达到了减小语音合成结果与真人朗诵文本的差异的效果。
可选地,在本申请实施例提供的语音合成装置中,检测单元41包括:切分模块,用于对目标文本进行语句切分,得到多个切分结果;检测模块,用于分别对每个切分结果进行情绪检测,得到切分结果对应的情绪检测结果。
可选地,在本申请实施例提供的语音合成装置中,检测模块包括:检测子模块,用于对一个切分结果进行情绪检测,得到至少一个候选情绪检测结果以及候选情绪检测结果的分值;确定子模块,用于基于候选情绪检测结果的分值,从至少一个候选情绪检测结果中确定切分结果对应的情绪检测结果。
可选地,在本申请实施例提供的语音合成装置中,确定单元42包括:第一确定模块,用于在多个候选语音库中,基于候选语音库的标签确定与情绪检测结果匹配的候选语音库;第二确定模块,用于将与情绪检测结果匹配的候选语音库确定为情绪检测结果对应的语音库。
可选地,在本申请实施例提供的语音合成装置中,合成单元43包括:第一合成模块,用于采用每个情绪检测结果对应的语音库,对情绪检测结果对应的文本部分进行语音合成,得到多个预设语音合成结果;第一拼接模块,用于按照各个文本部分在目标文本中的顺序,对多个预设语音合成结果进行拼接,得到目标文本的语音合成结果。
所述语音合成装置包括处理器和存储器,上述检测单元41、确定单元42和合成单元43等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
图5是根据本申请实施例的语音合成装置的示意图。如图5所示,该装置包括:接收单元51、响应单元52和输出单元53。
具体地,接收单元51,用于接收客户端发送的服务调用请求,其中,服务调用请求中携带有对目标文本的语音合成的请求。
响应单元52,用于响应服务调用请求,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成。
输出单元53,用于输出目标文本的语音合成结果。
本申请实施例提供的语音合成装置,通过接收单元51接收客户端发送的服务调用请求,其中,服务调用请求中携带有对目标文本的语音合成的请求;响应单元52响应服务调用请求,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个情绪检测结果对应的语音库,得到多个语音库;基于多个语音库,对目标文本进行语音合成;输出单元53输出目标文本的语音合成结果,解决了相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题,通过确定目标文本的各个文本部分的情绪检测结果以及对应的音库,对目标文本进行语音合成,进而达到了减小语音合成结果与真人朗诵文本的差异的效果。
可选地,在本申请实施例提供的语音合成装置中,响应单元52包括:第二合成模块,用于采用每个情绪检测结果对应的语音库,对情绪检测结果对应的文本部分进行语音合成,得到多个预设语音合成结果;第二拼接模块,用于按照各个文本部分在目标文本中的顺序,对多个预设语音合成结果进行拼接,得到目标文本的语音合成结果。
所述语音合成装置包括处理器和存储器,上述接收单元51、响应单元52和输出单元53等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中对文本内容采用固定音库进行语音合成,合成结果机械性强、拟人化程度不高的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种语音合成方法。
本申请实施例还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种语音合成方法。本文中的电子装置可以是服务器、PC、PAD、手机等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器EPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory mEdia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;
确定每个所述情绪检测结果对应的语音库,得到多个语音库;
基于所述多个语音库,对所述目标文本进行语音合成,得到所述目标文本的语音合成结果。
2.根据权利要求1所述的方法,其特征在于,对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果包括:
对所述目标文本进行语句切分,得到多个切分结果;
分别对每个所述切分结果进行情绪检测,得到所述切分结果对应的情绪检测结果。
3.根据权利要求2所述的方法,其特征在于,分别对每个所述切分结果进行情绪检测,得到所述切分结果对应的情绪检测结果包括:
对一个所述切分结果进行情绪检测,得到至少一个候选情绪检测结果以及所述候选情绪检测结果的分值;
基于所述候选情绪检测结果的分值,从所述至少一个候选情绪检测结果中确定所述切分结果对应的情绪检测结果。
4.根据权利要求1所述的方法,其特征在于,确定每个所述情绪检测结果对应的语音库,得到多个语音库包括:
在多个候选语音库中,基于所述候选语音库的标签确定与所述情绪检测结果匹配的候选语音库;
将与所述情绪检测结果匹配的候选语音库确定为所述情绪检测结果对应的语音库。
5.根据权利要求1所述的方法,其特征在于,基于所述多个语音库,对所述目标文本进行语音合成,得到所述目标文本的语音合成结果包括:
采用每个所述情绪检测结果对应的语音库,对所述情绪检测结果对应的所述文本部分进行语音合成,得到多个预设语音合成结果;
按照所述各个文本部分在所述目标文本中的顺序,对所述多个预设语音合成结果进行拼接,得到所述目标文本的语音合成结果。
6.一种语音合成方法,其特征在于,包括:
接收客户端发送的服务调用请求,其中,所述服务调用请求中携带有对目标文本的语音合成的请求;
响应所述服务调用请求,对所述目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;确定每个所述情绪检测结果对应的语音库,得到多个语音库;基于所述多个语音库,对所述目标文本进行语音合成;
输出所述目标文本的语音合成结果。
7.根据权利要求6所述的方法,其特征在于,基于所述多个语音库,对所述目标文本进行语音合成包括:
采用每个所述情绪检测结果对应的语音库,对所述情绪检测结果对应的所述文本部分进行语音合成,得到多个预设语音合成结果;
按照所述各个文本部分在所述目标文本中的顺序,对所述多个预设语音合成结果进行拼接,得到所述目标文本的语音合成结果。
8.一种语音合成装置,其特征在于,包括:
检测单元,用于对目标文本的各个文本部分进行情绪检测,得到多个情绪检测结果;
确定单元,用于确定每个所述情绪检测结果对应的语音库,得到多个语音库;
合成单元,用于基于所述多个语音库,对所述目标文本进行语音合成,得到所述目标文本的语音合成结果。
9.一种非易失性存储介质,其特征在于,所非易失性存储介质包括存储的程序,其中,所述程序运行时控制所述非易失性存储介质所在的设备执行权利要求1至5中任意一项所述的语音合成方法。
10.一种电子装置,其特征在于,包含处理器和存储器,所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行权利要求1至5中任意一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011105070.5A CN112349272A (zh) | 2020-10-15 | 2020-10-15 | 语音合成方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011105070.5A CN112349272A (zh) | 2020-10-15 | 2020-10-15 | 语音合成方法、装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112349272A true CN112349272A (zh) | 2021-02-09 |
Family
ID=74360860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011105070.5A Pending CN112349272A (zh) | 2020-10-15 | 2020-10-15 | 语音合成方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112349272A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN108364632A (zh) * | 2017-12-22 | 2018-08-03 | 东南大学 | 一种具备情感的中文文本人声合成方法 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
CN110379409A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 语音合成方法、系统、终端设备和可读存储介质 |
CN110556092A (zh) * | 2018-05-15 | 2019-12-10 | 中兴通讯股份有限公司 | 语音的合成方法及装置、存储介质、电子装置 |
CN111048062A (zh) * | 2018-10-10 | 2020-04-21 | 华为技术有限公司 | 语音合成方法及设备 |
CN111192568A (zh) * | 2018-11-15 | 2020-05-22 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
CN111367490A (zh) * | 2020-02-28 | 2020-07-03 | 广州华多网络科技有限公司 | 语音播放方法、装置及电子设备 |
CN111653265A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111739509A (zh) * | 2020-06-16 | 2020-10-02 | 掌阅科技股份有限公司 | 电子书音频生成方法、电子设备及存储介质 |
-
2020
- 2020-10-15 CN CN202011105070.5A patent/CN112349272A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN108364632A (zh) * | 2017-12-22 | 2018-08-03 | 东南大学 | 一种具备情感的中文文本人声合成方法 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
CN110556092A (zh) * | 2018-05-15 | 2019-12-10 | 中兴通讯股份有限公司 | 语音的合成方法及装置、存储介质、电子装置 |
CN111048062A (zh) * | 2018-10-10 | 2020-04-21 | 华为技术有限公司 | 语音合成方法及设备 |
CN111192568A (zh) * | 2018-11-15 | 2020-05-22 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
CN110379409A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 语音合成方法、系统、终端设备和可读存储介质 |
CN111367490A (zh) * | 2020-02-28 | 2020-07-03 | 广州华多网络科技有限公司 | 语音播放方法、装置及电子设备 |
CN111653265A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111739509A (zh) * | 2020-06-16 | 2020-10-02 | 掌阅科技股份有限公司 | 电子书音频生成方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9552807B2 (en) | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos | |
EP1308928A2 (en) | System and method for speech synthesis using a smoothing filter | |
US20110046943A1 (en) | Method and apparatus for processing data | |
US8019605B2 (en) | Reducing recording time when constructing a concatenative TTS voice using a reduced script and pre-recorded speech assets | |
US10062385B2 (en) | Automatic speech-to-text engine selection | |
CN110599998B (zh) | 一种语音数据生成方法及装置 | |
CN111312231A (zh) | 音频检测方法、装置、电子设备及可读存储介质 | |
US20210082408A1 (en) | Generating acoustic sequences via neural networks using combined prosody info | |
US11170755B2 (en) | Speech synthesis apparatus and method | |
Panda et al. | An efficient model for text-to-speech synthesis in Indian languages | |
CN114842826A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
CN108597522B (zh) | 一种语音处理方法及装置 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
US20190088258A1 (en) | Voice recognition device, voice recognition method, and computer program product | |
CN112349272A (zh) | 语音合成方法、装置、存储介质及电子装置 | |
CN113506565B (zh) | 语音识别的方法、装置、计算机可读存储介质与处理器 | |
EP1632932B1 (en) | Voice response system, voice response method, voice server, voice file processing method, program and recording medium | |
CN113299271B (zh) | 语音合成方法、语音交互方法、装置及设备 | |
CN112489646B (zh) | 语音识别方法及其装置 | |
CN114842828A (zh) | 一种合成语音的音量控制方法及装置 | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
CN114446304A (zh) | 语音交互方法、数据处理方法、装置和电子设备 | |
CN112837688A (zh) | 语音转写方法、装置、相关系统及设备 | |
CN110491376B (zh) | 一种语音处理方法及装置 | |
KR102376552B1 (ko) | 음성 합성 장치 및 음성 합성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |