CN111508471B - 语音合成方法及其装置、电子设备和存储装置 - Google Patents

语音合成方法及其装置、电子设备和存储装置 Download PDF

Info

Publication number
CN111508471B
CN111508471B CN201910877106.2A CN201910877106A CN111508471B CN 111508471 B CN111508471 B CN 111508471B CN 201910877106 A CN201910877106 A CN 201910877106A CN 111508471 B CN111508471 B CN 111508471B
Authority
CN
China
Prior art keywords
recording unit
scheme
splicing
text
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910877106.2A
Other languages
English (en)
Other versions
CN111508471A (zh
Inventor
何朋
杨春勇
罗欢
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN201910877106.2A priority Critical patent/CN111508471B/zh
Publication of CN111508471A publication Critical patent/CN111508471A/zh
Application granted granted Critical
Publication of CN111508471B publication Critical patent/CN111508471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明公开了一种语音合成方法、电子设备和存储装置。该语音合成方法包括:接收语音合成请求,语音合成请求包括待合成文本;为待合成文本生成至少一个拼接方案,并确定每个拼接方案的至少一个录音单元方案,该录音单元方案表示实现所述拼接方案所采用的录音单元组合;获得每个拼接方案的每个录音单元方案的拼接代价;基于拼接代价,从不同录音单元方案中选出待合成文本的录音单元方案;根据选择出的录音单元方案挑选出预存的若干录音单元,并将若干录音单元拼接得到语音数据。通过上述方式,本发明能够提升合成语音的自然度。

Description

语音合成方法及其装置、电子设备和存储装置
技术领域
本发明涉及语音领域,特别是涉及语音合成方法及其装置、电子设备和存储装置。
背景技术
语音是现在人机交互中最重要的交互方式,一方面在用户端用户通过语音表述意图,另一方面在机器人端通过语音合成技术使机器对客户意图生成响应。波形拼接合成,又称作语音拼接合成,其基本原理是根据输入文本的分析结果,从预先录制好的语音库中挑选合适的录音单元,经过少量的调整,然后进行拼接得到最终合成的语音。录音库由一条条预先录制完成并且标注了文本的语音组成。挑选录音单元的过程叫做单元挑选。
现有波形拼接由于需要考虑很多的单元挑选规则,当规则变得越来越多时,就会使得语音合成系统难以维护。对于一条待合成的语音,当能根据录音单元库生成多种拼接方案时,只能随机选取一种方案进行合成,而不一定能选择自然度最高的方案。
发明内容
本发明主要解决的技术问题是提供语音合成方法及其装置、电子设备和存储装置,能够提升合成语音的自然度。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种语音合成方法,包括:接收语音合成请求,所述语音合成请求包括待合成文本;为所述待合成文本生成至少一个拼接方案,并确定每个所述拼接方案的至少一个录音单元方案,所述录音单元方案表示实现所述拼接方案所采用的录音单元组合;获得每个所述拼接方案的每个录音单元方案的拼接代价;基于所述拼接代价,从不同所述录音单元方案中选出待合成文本的录音单元方案;根据所述选择出的录音单元方案挑选出预存的若干录音单元,并将所述若干录音单元拼接得到语音数据。
其中,所述获得每个拼接方案的每个录音单元方案的拼接代价,包括:获取所述每个录音单元方案的至少一个关系因子;利用所述关系因子,确定所述录音单元方案的拼接代价。
其中,所述获取所述每个录音单元方案的至少一个关系因子,包括:将所述录音单元方案中每相邻的两个录音单元划分为一录音单元对;获取所述录音单元方案中每个录音单元对的至少一个关系因子;所述利用所述关系因子,确定所述录音单元方案的拼接代价,包括:利用所述关系因子,确定每个录音单元对的拼接代价;根据所述录音单元方案中每个录音单元对的拼接代价,得到所述录音单元方案的拼接代价。
其中,所述获取所述录音单元方案中每个录音单元对的至少一个关系因子,包括以下至少一者:判断所述录音单元对是否在同一段录音中录制,并将第一判断结果作为第一关系因子;判断所述录音单元对是否在同一段录音的相邻位置,并将第二判断结果作为第二关系因子;判断所述录音单元对中前一录音单元在录制时后面接续的录音单元文本是否为后一录音单元的文本,并将第三判断结果作为第三关系因子;判断所述录音单元对中后一录音单元在录制时前面接续的录音单元文本是否为前一录音单元的文本,并将第四判断结果作为第四关系因子;所述利用所述关系因子,确定每个录音单元对的拼接代价,包括:利用所述关系因子与拼接代价之间的预设映射关系,确定与所述录音单元对的关系因子匹配的拼接代价;其中,对于每个所述关系因子,其判断结果为表示为“否”的拼接代价大于表示为“是”的所述拼接代价;所述结合所述录音单元方案中每个录音单元对的拼接代价,得到所述录音单元方案的拼接代价,包括:将所述录音单元方案中每个录音单元对的拼接代价之和,作为所述录音单元方案的拼接代价。
其中,所述第一关系因子和所述第二关系因子对所述拼接代价的影响均低于所述第三关系因子和第四关系因子;所述第一关系因子和第二关系因子对所述拼接代价的影响相同或不同;所述第三关系因子和第四关系因子对所述拼接代价的影响相同或不同。
其中,所述预设映射关系为映射表或加权公式,其中,所述映射表包括每个关系因子为不同判断结果时所对应的拼接代价。
其中,当所述预设映射关系为加权公式时,所述利用关系因子与拼接代价之间的预设映射关系,确定与所述录音单元对的关系因子匹配的拼接代价,包括:利用所述加权公式以及每个关系因子的影响权重,将所述关系因子进行加权处理得到所述录音单元对的拼接代价,其中,对于每个关系因子,所述关系因子采用不同数据表示不同判断结果,且判断结果表示为“否”所采用的数值大于表示为“是”所采用的数值。
其中,所述基于所述拼接代价,从不同所述录音单元方案中选出最优的录音单元方案,包括:为每个所述拼接方案选出代价最小的录音单元方案,作为所述拼接方案的最优单元方案;从每个拼接方案的最优单元方案中,选择代价最小的最优单元方案,以获得最优的录音单元方案。
其中,所述为每个所述拼接方案选出代价最小的录音单元方案,作为所述拼接方案的最优单元方案,包括:采用维特比算法为每个所述拼接方案选出拼接代价最小的录音单元方案,作为所述拼接方案的最优单元方案;所述从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案,以获得最优的录音单元方案,包括:从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案;若所述拼接代价最小的最优单元方案为单个,则直接将所述拼接代价最小的最优单元方案作为最优的录音单元方案;若所述拼接代价最小的最优单元方案为多个,则随机选择一所述拼接代价最小的最优单元方案作为最优的录音单元方案。
其中,所述为所述待合成文本生成至少一个拼接方案,包括:对所述待合成文本进行预处理后,去除所述待合成文本中的特殊字符;对经所述去除特殊字符后的所述待合成文本进行词语拆分,得到至少一个拼接方案;所述将所述若干录音单元拼接得到语音数据,包括:将所述若干录音单元按照所述最优的录音单元方案的顺序进行拼接,并经过拼接平滑得到语音数据。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种语音智能问答方法,其特征在于,包括:获取用户的语音请求;根据所述用户的语音请求识别所述用户的意图;根据用户的意图得到响应文本,将所述响应文本通过如上述所述的语音合成方法得到语音数据;并输出所述语音数据。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种语音合成装置,包括:接收单元,用于接收语音合成请求,其中,所述语音合成请求包括待合成文本;生成单元,用于为所述待合成文本生成至少一个拼接方案,并确定每个拼接方案的至少一个录音单元方案;计算单元,用于获得每个拼接方案的每个录音单元方案的拼接代价;选择单元,用于基于所述拼接代价,从不同所述录音单元方案中选出最优的录音单元方案;拼接单元,用于按照所述最优的录音单元方案挑选出预存的若干录音单元,并将所述若干录音单元拼接得到语音数据。
为解决上述技术问题,本发明采用的又一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器;所述处理器用于执行所述存储器存储的程序指令,以实现如上所述的语音合成方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种存储装置,存储有能够被处理器运行的程序指令,所述程序指令用于实现如上所述的语音合成方法。
本发明的有益效果是:区别于现有技术的情况,本发明在获取语音合成请求后,为该语音合成请求中的待合成文本生成至少一个拼接方案,并确定每一个拼接方案的至少一个录音单元方案,根据录音单元方案的拼接代价选择最优的录音单元方案,按照最优的录音单元方案挑选录音单元,并进行拼接以得到语音数据,可以提升合成语音的自然度。
附图说明
为了更清楚地说明本发明实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本发明提供的语音合成方法的一实施例的流程示意图;
图2是本发明提供的语音合成方法中获取所述每个录音单元方案的至少一个关系因子的步骤的一实施例的流程示意图;
图3是本发明提供的语音合成方法中确定所述录音单元方案的拼接代价的步骤的一实施例的流程示意图;
图4是本发明提供的语音合成方法中从不同所述录音单元方案中选出最优的录音单元方案的步骤的一实施例的流程示意图;
图5是本发明提供的语音合成装置的一实施例的结构示意图;
图6是本发明提供的电子设备的一实施例的结构示意图;
图7是本发明提供的存储装置的一实施例的结构示意图。
具体实施方式
下面将结合本发明实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
请参阅图1,图1是本发明提供的语音合成方法的一实施例的流程示意图。本发明提供的语音合成方法包括:
S101:接收语音合成请求。
在一个具体的实施场景中,接收语音合成请求,该语音合成请求中包括待合成文本。可以是用户手动输入该待合成文本,或者是通过文字识别从用户指定的图片或者网页上识别出待合成文本。
S102:为所述待合成文本生成至少一个拼接方案,并确定每个拼接方案的至少一个录音单元方案。
在一个具体的实施场景中,为待合成文本生成至少一个拼接方案。进一步地,对待合成文本进行预处理后,去除该待合成文本中的特殊字符,以方便后续为待合成文本生成至少一个拼接方案。
当待合成文本由两个以上的词语组成时,对经去除后的待合成文本进行词语拆分,获取该待合成文本的至少一个拼接方案。例如,待合成文本为“我喜欢悉尼歌剧院”,可以由“我喜欢”和“悉尼歌剧院”合成,也可以由“我喜欢悉尼”和“歌剧院”合成。
确定该至少一个拼接方案的至少一个录音单元方案,录音单元方案表示实现所述拼接方案所采用的录音单元组合。即,该录音单元方案包含多个录音单元信息,每个录音单元信息指向一预存的录音单元,进而表示用该多个录音单元信息所对应的多个录音单元实现该拼接方案。
具体地说,给每一个拼接方案生成其对应的至少一个录音单元方案。例如,待合成文本为“我喜欢悉尼歌剧院”,其拼接方案为“我喜欢”和“悉尼歌剧院”以及“我喜欢悉尼”和“歌剧院”。对于拼接方案为“我喜欢”和“悉尼歌剧院”而言,录音库里面可能存储有多个不同场景下的“我喜欢”以及“悉尼歌剧院”录音单元,将不同场景下的“我喜欢”的录音单元以及“悉尼歌剧院”的录音单元分别组合,形成至少一个录音单元方案。进一步地,可以对多个不同场景下的“我喜欢”的录音单元以及“悉尼歌剧院”的录音单元进行初步筛选,将筛选后的“我喜欢”的录音单元以及“悉尼歌剧院”的录音单元进行组合,生成该拼接方案的至少一个录音单元方案。
S103:获得每个拼接方案的每个录音单元方案的拼接代价。
在一个具体的实施场景中,获得步骤S102中的每个拼接方案的每个录音单元方案的拼接代价。具体地说,可以通过获取每个录音单元方案的对合成的自然度的影响程度,利用该影响程度确定每个录音单元方案的拼接代价。
S104:基于所述拼接代价,从不同所述录音单元方案中选出待合成文本的录音单元方案。
在一个具体的实施场景中,该拼接代价可以反映拼接后对录音合成的自然度的影响,基于该拼接代价从不同的录音单元方案中选择出待合成文本的录音单元方案,该待合成文本的录音单元方案可以是根据该拼接代价计算出对合成语音的自然度影响最低的录音单元方案。例如,待合成文本“我喜欢悉尼歌剧院”的至少一个录音单元方案中“我喜欢”和“悉尼歌剧院”的录音单元方案的拼接代价反映出该录音单元方案对合成语音的自然度负面影响最低,因此,将“我喜欢”和“悉尼歌剧院”的录音单元方案作为待合成文本的录音单元方案。
S105:根据选择的录音单元方案挑选出预存的若干录音单元,并将所述若干录音单元拼接得到语音数据。
在一个具体的实施场景中,将步骤S104中选出的若干录音单元拼接得到语音数据。例如,待合成文本“我喜欢悉尼歌剧院”的录音单元方案是“我喜欢”和“悉尼歌剧院”的录音单元方案,则从录音库中找到预存的“我喜欢”的录音单元和“悉尼歌剧院”的录音单元,将“我喜欢”的录音单元和“悉尼歌剧院”的录音单元拼接,得到“我喜欢悉尼歌剧院”的语音数据。
进一步地,将若干录音单元根据选择出的录音单元方案的顺序进行拼接,例如,“我喜欢”在“悉尼歌剧院”之前,并经过拼接平滑得到语音数据。
通过上述描述可知,在本实施例中在获取语音合成请求后,为该语音合成请求中的待合成文本生成至少一个拼接方案,并确定每一个拼接方案的至少一个录音单元方案,根据录音单元方案的拼接代价选择待合成文本的录音单元方案,根据选择出的录音单元方案挑选录音单元,并进行拼接以得到语音数据,可以提升合成语音的自然度。
请参阅图2,图2是本发明提供的语音合成方法中获取所述每个录音单元方案的至少一个关系因子的步骤的一实施例的流程示意图。
S201:将所述录音单元方案中每相邻的两个录音单元划分为一录音单元对。
在一个具体的实施场景中,将录音单元方案中每相邻的两个录音单元划分为一录音单元对,例如,“我喜欢”和“悉尼歌剧院”的录音单元方案中录音单元对即为“我喜欢”和“悉尼歌剧院”。
S202:获取该录音单元方案中每一个录音单元对的至少一个关系因子。
在一个具体的实施场景中,对录音单元方案中每一个录音单元对按照预设的标准进行判断,并获取该项标准判断的结果,将该结果作为该录音单元对的关系因子。在本实施场景中,根据录音单元方案中每一个录音单元对中的录音单元录制时的位置关系和/或上下文关系获取录音单元对的关系因子。
在本实施场景中,在进行语音合成之前,先在录音库中预存多个录音单元。该录音单元是由通过如下步骤获取:首先对固定语言进行语音录制,得到录制数据,再将该录制数据切成若干录音单元,并保留该录音单元的上下文信息,最后构建录音库,存储上述录音单元。
具体地说,可以判断当前录音单元对是否在同一段录音中录制,将该判断结果作为第一关系因子。若该录音单元对在同一段录音中录制,则将该录音单元对中录音单元进行拼接时,对合成的语音的自然度的影响较小,即拼接代价更小。还可以判断该录音单元对是否在同一段录音的相邻位置,并将该判断结果作为第二关系因子。若该录音单元对在同一段录音中的相邻位置,则将该录音单元对中录音单元进行拼接时,对合成的语音的自然度的影响更小,即拼接代价更小。
还可以判断该录音单元对中前一录音单元在录制时后面接续的录音单元文本是否为后一录音单元的文本,并将该判断结果作为第三关系因子。在本实施场景中每一录音单元的上下文信息有保留,根据该上下文信息判断该录音单元对中前一录音单元后面接续的录音单元文本是否为后一录音单元的文本,若是,则对合成的语音的自然度的影响较小,即拼接代价更小。类似地,还可以判断录音单元对中后一录音单元在录制时前面接续的录音单元文本是否为前一录音单元的文本,根据后一录音单元的上下文信息判断其在录制时前面接续的录音单元文本是否为前一录音单元的文本,将判断的结果作为第四因子。若录音单元对中后一录音单元在录制时前面接续的录音单元文本为前一录音单元的文本,则对合成的语音的自然度的影响较小,即拼接代价更小。
请参阅图3,图3是本发明提供的语音合成方法中确定所述录音单元方案的拼接代价的步骤的一实施例的流程示意图。
S301:利用所述关系因子,确定每个录音单元对的拼接代价。
在一个具体的实施场景中,根据上文中获取的每个录音单元对的至少一个关系因子,确定每个录音单元对的拼接代价。例如,利用关系因子与拼接代价之间的预设映射关系,确定与该录音单元对的关系因子匹配的拼接代价。根据上文的分析可知,在本实施场景中,对于每个关系因子,其判断结果为“否”的拼接代价大于为“是”的拼接代价。
在本实施场景中,该预设映射关系为映射表,该映射表包括每个关系因子为不同判断结果所对应的拼接代价。请参阅表1,表1为至少一个关系因子与拼接代价映射表。
表1:至少一个关系因子与拼接代价映射表
Figure GDA0002352317930000091
例如,录制文本“我喜欢下雨”,切割成“我喜欢”的录音单元1和“下雨”的录音单元2;录制文本“我喜欢悉尼歌剧院”,切割成“我喜欢”的录音单元3和“悉尼歌剧院”的录音单元4;录制文本“想去悉尼歌剧院”,切割成“想去”的录音单元5和“悉尼歌剧院”的录音单元6。以待合成文本“我喜欢悉尼歌剧院”为例,针对拼接方案“我喜欢”和“悉尼歌剧院”,包括录音单元方案1:录音单元1+录音单元4;录音单元方案2:录音单元1+录音单元6;录音单元方案3:录音单元3+录音单元4;录音单元方案4:录音单元3+录音单元6。
根据表1可知,录音单元方案1中,录音单元1和录音单元4第一关系因子为否,第二关系因子为否,第三关系因子为否,第四关系因子为是,因此,录音单元方案1的拼接代价为5。录音单元方案2中,第一关系因子为否,第二关系因子为否,第三关系因子为否,第四关系因子为否,因此,录音单元方案2的拼接代价为9。录音单元方案3中,第一关系因子为是,第二关系因子为是,第三关系因子为是,第四关系因子为是,因此,录音单元方案3的拼接代价为0。录音单元方案4中,第一关系因子为否,第二关系因子为否,第三关系因子为是,第四关系因子为否,因此,录音单元方案3的拼接代价为6。
在本实施场景中,第一关系因子和第二关系因子对拼接代价的影响均低于第三关系因子和第四关系因子,第一关系因子和第二关系因子对拼接代价的影响相同或不同;第三关系因子和第四关系因子对拼接代价的影响相同或不同。
在其他实施场景中,预设映射关系为加权公式,利用该加权公式以及每个关系因子的影响权重,将该至少一个关系因子进行加权处理得到该录音单元对的拼接代价。该至少一个关系因子采用不同数值表示不同判断结果,且判断结果为“否”所采用的数值大于为“是”所采用的数值。
S302:结合所述录音单元方案中每个录音单元对的拼接代价,得到所述录音单元方案的拼接代价。
在一个具体的实施场景中,将该录音单元方案中每个录音单元对的拼接代价之和,作为所述录音单元方案的拼接代价。
通过上述描述可知,在本实施例中,通过录音时划分的录音单元的位置和上下文关系计算录音单元方案中每一录音单元对的拼接代价,结合录音单元方案中每个录音单元对的拼接代价,得到该录音单元方案的拼接代价,从而可以依据该录音单元方案的拼接代价选出最优的录音单元方案,可以提升合成语音的自然度。
请参阅图4,图4是本发明提供的语音合成方法中从不同所述录音单元方案中选出最优的录音单元方案的步骤的一实施例的流程示意图。
S401:为每个所述拼接方案选出拼接代价最小的录音单元方案,作为所述拼接方案的最优单元方案。
在一个具体的实施场景中,采用维特比算法为每个拼接方案选出拼接代价最小的录音单元方案,作为该拼接方案的最优单元方案。维特比算法是一种动态规划算法,维特比算法其实就是多步骤每步多选择模型的最优选择问题,其在每一步的所有选择都保存了前续所有步骤到当前步骤当前选择的最小总代价(或者最大价值)以及当前代价的情况下前续步骤的选择。依次计算完所有步骤后,通过回溯的方法找到最优选择路径。
在本实施场景中,针对一拼接方案的至少一个录音单元方案,分别获取该至少一个录音单元方案的每个录音单元对的至少一个关系因子,通过维特比算法,获取拼接代价最小的录音单元方案。
S402:从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案,以获得最优的录音单元方案。
在一个具体的实施场景中,从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案,若该拼接代价最小的最优单元方案为单个,则直接将该拼接代价最小的最优单元方案作为最优的录音单元方案;若该拼接代价最小的最优单元方案为多个,则随机选择一拼接代价最小的最优单元方案作为最优的录音单元方案。
通过上述描述可知,在本实施例中通维特比算法选出拼接代价最小的录音单元方案,作为该拼接方案的最优单元方案,可以简化选取规则,降低维护难度。
在实际应用中,本方案可以应用在机器人语音对话、语音智能问答、智能语音交互等场景中,在本实施例中,提供了一种语音智能问答方法,包括:获取用户的语音请求;所述用户的语音请求可以为娱乐用语,也可以是日常的交流用语,或者其他模拟场景的用语等;根据所述用户的语音请求识别所述用户的意图;在本实施例中识别用户的语音意图是按照现有的方式进行识别,在本实施例中不详细说明;根据用户的意图得到响应文本,将所述响应文本通过如上述实施例所述的语音合成方法得到语音数据,并输出所述语音数据。
请参阅图5,图5是本发明提供的语音合成装置的一实施例的结构示意图,该语音合成装置50包括:接收单元51、生成单元52、计算单元53、选择单元54和拼接单元55。
接收单元51用于接收语音合成请求,该语音合成请求包括待合成文本。生成单元52用于为该待合成文本生成至少一个拼接方案,并确定每个拼接方案的至少一个录音单元方案,该录音单元方案表示实现该拼接方案所采用的录音单元组合。计算单元53用于获得每个拼接方案的每个录音单元方案的拼接代价。选择单元54用于基于拼接代价,从不同录音单元方案中选出最优的录音单元方案。拼接单元55用于按照该最优的录音单元方案挑选出预存的若干录音单元,并将该若干录音单元拼接得到语音数据。
具体地说,接收单元51还用于对待合成文本进行预处理后,去除所述待合成文本中的特殊字符。生成单元52还用于对经去除后的待合成文本进行词语拆分,得到至少一个拼接方案。拼接单元55还用于将若干录音单元按照最优的录音单元方案的顺序进行拼接,并经过拼接平滑得到语音数据。
具体地说,计算单元53还用于获取每个录音单元方案的至少一个关系因子,并利用该关系因子,确定该录音单元方案的拼接代价。
具体地说,计算单元53还用于将该录音单元方案中每相邻的两个录音单元划分为一录音单元对;获取该录音单元方案中每个录音单元对的至少一个关系因子。
具体地说,计算单元53还用于利用该关系因子,确定每个录音单元对的拼接代价;结合该录音单元方案中每个录音单元对的拼接代价,得到该录音单元方案的拼接代价。
具体地说,计算单元53还用于第一判断该录音单元对是否在同一段录音中录制,并将第一判断结果作为第一关系因子;第二判断该录音单元对是否在同一段录音的相邻位置,并将第二判断结果作为第二关系因子;第三判断该录音单元对中前一录音单元在录制时后面接续的录音单元文本是否为后一录音单元的文本,并将第三判断结果作为第三关系因子;第四判断该录音单元对中后一录音单元在录制时前面接续的录音单元文本是否为前一录音单元的文本,并将第四判断结果作为第四关系因子。
具体地说,第一关系因子和第二关系因子对拼接代价的影响均低于第三关系因子和第四关系因子;第一关系因子和第二关系因子对拼接代价的影响相同或不同;第三关系因子和第四关系因子对拼接代价的影响相同或不同。
具体地说,计算单元53还用于利用关系因子与拼接代价之间的预设映射关系,确定与录音单元对的关系因子匹配的拼接代价;其中,对于每个所述关系因子,其判断结果为“否”的拼接代价大于为“是”的拼接代价。
具体地说,预设映射关系为映射表或加权公式,其中,该映射表包括每个关系因子为不同判断结果所对应的拼接代价。
具体地说,计算单元53还用于当预设映射关系为加权公式时,利用加权公式以及每个关系因子的影响权重,将关系因子进行加权处理得到所述录音单元对的拼接代价,其中,对于每个关系因子:关系因子采用不同数值表示不同判断结果,且判断结果为“否”所采用的数值大于为“是”所采用的数值。
具体地说,计算单元53还用于将录音单元方案中每个录音单元对的拼接代价之和,作为该录音单元方案的拼接代价。
具体地说,选择单元54还用于为每个拼接方案选出代价最小的录音单元方案,作为该拼接方案的最优单元方案;从每个拼接方案的最优单元方案中,选择代价最小的最优单元方案,以获得最优的录音单元方案。
具体地说,选择单元54还用于用维特比算法为每个拼接方案选出代价最小的录音单元方案,作为该拼接方案的最优单元方案。
具体地说,选择单元54还用于从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案;若拼接代价最小的最优单元方案为单个,则直接将该拼接代价最小的最优单元方案作为最优的录音单元方案;若拼接代价最小的最优单元方案为多个,则随机选择一拼接代价最小的最优单元方案作为最优的录音单元方案。
进一步地,该电子设备还包括录音模块(图未示),录音模块用于将固定语言进行语音录制,得到录制数据;将该录制数据切成若干录音单元,并保留该录音单元的上下文信息;构建录音库,以存储该录音单元。
通过上述描述可知,在本实施例中电子设备,通过为待合成本文生成至少一个拼接方案,并确定每一个拼接方案的至少一个录音单元方案,基于该至少一个录音单元方案的拼接代价,选出最优的录音单元方案,按照最优的录音单元方案挑选出预存的若干录音单元,并进行拼接得到语音数据,可以提升合成语音的自然度。
请参阅图6,图6是本发明提供的电子设备的一实施例的结构示意图,该电子设备60包括:处理器61和存储器62,处理器61耦接存储器62,处理器61在工作时控制自身以及存储器62以实现上述任一项实施例中所述的步骤。
其中,电子设备60可以是手机、笔记本、平板电脑以及台式电脑等,在此不做限制。详细的方法可参见上述,在此不再赘述。
参阅图7,图7是本发明提供的存储装置的一实施例的结构示意图,该存储装置70存储有程序指令71,程序指令71能够被处理器执行以实现上述任一项实施例中的步骤。
其中,存储装置70可以是便携式存储介质,如U盘、光盘,也可以是终端、服务器等。详细的方法可参见上述,在此不再赘述。
区别于现有技术,本发明通过采用拼接代价反映拼接后对语音合成自然度的影响,解决了无法选择最优拼接的问题,可以提升合成语音的自然度。在通过选择拼接代价最小的录音单元方案时采用维特比算法,可以简化选取规则,降低维护难度。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种语音合成方法,其特征在于,包括:
接收语音合成请求,所述语音合成请求包括待合成文本;
为所述待合成文本生成至少一个拼接方案,并确定每个所述拼接方案的至少一个录音单元方案,所述录音单元方案表示实现所述拼接方案所采用的录音单元组合;
获得每个所述拼接方案的每个录音单元方案的拼接代价;
基于所述拼接代价,从不同所述录音单元方案中选出所述待合成文本的录音单元方案;
根据选出的所述录音单元方案挑选出预存的若干录音单元,并将所述若干录音单元拼接得到语音数据;
其中,所述获得每个拼接方案的每个录音单元方案的拼接代价,包括:
将所述录音单元方案中每相邻的两个录音单元划分为一录音单元对;
获取所述录音单元方案中每个录音单元对的至少一个关系因子,包括以下至少一者:判断所述录音单元对是否在同一段录音中录制,并将判断结果作为第一关系因子;判断所述录音单元对是否在同一段录音的相邻位置,并将判断结果作为第二关系因子;判断所述录音单元对中前一录音单元在录制时后面接续的录音单元文本是否为后一录音单元的文本,并将第三判断结果作为关系因子;判断所述录音单元对中后一录音单元在录制时前面接续的录音单元文本是否为前一录音单元的文本,并将第四判断结果作为关系因子;
利用所述关系因子,确定所述录音单元方案的拼接代价。
2.根据权利要求1所述的方法,其特征在于,
所述利用所述关系因子,确定所述录音单元方案的拼接代价,包括:
利用所述关系因子,确定每个录音单元对的拼接代价;
根据所述录音单元方案中每个录音单元对的拼接代价,得到所述录音单元方案的拼接代价。
3.根据权利要求2所述的方法,其特征在于,
所述利用所述关系因子,确定每个录音单元对的拼接代价,包括:
利用所述关系因子与拼接代价之间的预设映射关系,确定与所述录音单元对的关系因子匹配的拼接代价;其中,对于每个所述关系因子,其判断结果为表示为“否”的拼接代价大于表示为“是”的所述拼接代价,所述预设映射关系为映射表或加权公式,其中,所述映射表包括每个关系因子为不同判断结果时所对应的拼接代价;
所述根据所述录音单元方案中每个录音单元对的拼接代价,得到所述录音单元方案的拼接代价,包括:
将所述录音单元方案中每个录音单元对的拼接代价之和,作为所述录音单元方案的拼接代价。
4.根据权利要求3所述的方法,其特征在于,所述预设映射关系为加权公式,所述利用关系因子与拼接代价之间的预设映射关系,确定与所述录音单元对的关系因子匹配的拼接代价,包括:
利用所述加权公式以及每个关系因子的影响权重,将所述关系因子进行加权处理得到所述录音单元对的拼接代价,其中,所述每个关系因子采用不同数据表示不同判断结果,且判断结果表示为“否”所采用的数值大于表示为“是”所采用的数值。
5.根据权利要求1所述的方法,其特征在于,所述基于所述拼接代价,从不同所述录音单元方案中选出所述待合成文本的录音单元方案,包括:
为每个所述拼接方案选出拼接代价最小的录音单元方案,作为所述拼接方案的最优单元方案;
从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案,以获得所述待合成文本的录音单元方案。
6.根据权利要求5所述的方法,其特征在于,所述为每个所述拼接方案选出拼接代价最小的录音单元方案,作为所述拼接方案的最优单元方案,包括:
采用维特比算法为每个所述拼接方案选出拼接代价最小的录音单元方案,作为所述拼接方案的最优单元方案;
所述从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案,以获得最优的录音单元方案,包括:
从每个拼接方案的最优单元方案中,选择拼接代价最小的最优单元方案;
若所述拼接代价最小的最优单元方案为一个,则直接将所述拼接代价最小的最优单元方案作为最优的录音单元方案;
若所述拼接代价最小的最优单元方案为两个以上,则随机选择一所述拼接代价最小的最优单元方案作为最优的录音单元方案。
7.根据权利要求5-6任一项所述的方法,其特征在于,所述为所述待合成文本生成至少一个拼接方案,包括:
对所述待合成文本进行预处理后,去除所述待合成文本中的特殊字符;
对所述去除特殊字符后的待合成文本进行词语拆分,得到至少一个拼接方案;
所述将所述若干录音单元拼接得到语音数据,包括:
将所述若干录音单元按照所述最优的录音单元方案的顺序进行拼接,并经过拼接平滑得到语音数据。
8.一种语音智能问答方法,其特征在于,包括:
获取用户的语音请求;
根据所述用户的语音请求识别所述用户的意图;
根据用户的意图得到响应文本,将所述响应文本通过如权利要求1至7任一项所述的语音合成方法得到语音数据,并输出所述语音数据。
9.一种语音合成装置,其特征在于,包括:
接收单元,用于接收语音合成请求,所述语音合成请求包括待合成文本;
生成单元,用于为所述待合成文本生成至少一个拼接方案,并确定每个所述拼接方案的至少一个录音单元方案,所述录音单元方案表示实现所述拼接方案所采用的录音单元组合;
计算单元,用于获得每个所述拼接方案的每个录音单元方案的拼接代价;
选择单元,用于基于所述拼接代价,从不同所述录音单元方案中选出所述待合成文本的录音单元方案;
拼接单元,用于根据所述选择的录音单元方案挑选出预存的若干录音单元,并将所述若干录音单元拼接得到语音数据;
其中,所述计算单元还用于将所述录音单元方案中每相邻的两个录音单元划分为一录音单元对;所述计算单元用于获取所述录音单元方案中每个录音单元对的至少一个关系因子,包括以下至少一者:判断所述录音单元对是否在同一段录音中录制,并将判断结果作为第一关系因子;判断所述录音单元对是否在同一段录音的相邻位置,并将判断结果作为第二关系因子;判断所述录音单元对中前一录音单元在录制时后面接续的录音单元文本是否为后一录音单元的文本,并将第三判断结果作为关系因子;判断所述录音单元对中后一录音单元在录制时前面接续的录音单元文本是否为前一录音单元的文本,并将第四判断结果作为关系因子。
10.一种电子设备,其特征在于,包括相互耦接的存储器和处理器;
所述处理器用于执行所述存储器存储的程序指令,以实现权利要求1至8任一项所述的方法。
11.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8任一项所述的方法。
CN201910877106.2A 2019-09-17 2019-09-17 语音合成方法及其装置、电子设备和存储装置 Active CN111508471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910877106.2A CN111508471B (zh) 2019-09-17 2019-09-17 语音合成方法及其装置、电子设备和存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910877106.2A CN111508471B (zh) 2019-09-17 2019-09-17 语音合成方法及其装置、电子设备和存储装置

Publications (2)

Publication Number Publication Date
CN111508471A CN111508471A (zh) 2020-08-07
CN111508471B true CN111508471B (zh) 2021-04-20

Family

ID=71876516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910877106.2A Active CN111508471B (zh) 2019-09-17 2019-09-17 语音合成方法及其装置、电子设备和存储装置

Country Status (1)

Country Link
CN (1) CN111508471B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883103B (zh) * 2020-06-19 2021-12-24 马上消费金融股份有限公司 语音合成的方法及装置
CN113160792B (zh) * 2021-01-15 2023-11-17 广东外语外贸大学 一种多语种的语音合成方法、装置和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214216B2 (en) * 2003-06-05 2012-07-03 Kabushiki Kaisha Kenwood Speech synthesis for synthesizing missing parts
CN105654940B (zh) * 2016-01-26 2019-12-24 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
CN108172211B (zh) * 2017-12-28 2021-02-12 云知声(上海)智能科技有限公司 可调节的波形拼接系统及方法
CN109039872B (zh) * 2018-09-04 2020-04-17 北京达佳互联信息技术有限公司 实时语音信息的交互方法、装置、电子设备及存储介质
CN109346056B (zh) * 2018-09-20 2021-06-11 中国科学院自动化研究所 基于深度度量网络的语音合成方法及装置

Also Published As

Publication number Publication date
CN111508471A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
US8626489B2 (en) Method and apparatus for processing data
US8972265B1 (en) Multiple voices in audio content
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN107507615A (zh) 界面智能交互控制方法、装置、系统及存储介质
JP6677419B2 (ja) 音声対話方法及び装置
KR20200130352A (ko) 음성 웨이크업 방법 및 장치
CN110175012B (zh) 技能推荐方法、装置、设备及计算机可读存储介质
CN109634501B (zh) 电子书批注添加方法、电子设备及计算机存储介质
CN111883137B (zh) 基于语音识别的文本处理方法及装置
CN108922564A (zh) 情绪识别方法、装置、计算机设备及存储介质
CN111508471B (zh) 语音合成方法及其装置、电子设备和存储装置
CN108519998B (zh) 基于知识图谱的问题引导方法及装置
CN111462726B (zh) 一种外呼应答方法、装置、设备及介质
CN111402864A (zh) 语音处理方法及电子设备
CN101460994A (zh) 语音区分
CN108108143B (zh) 录音回放的方法、移动终端及具有存储功能的装置
CN113327576A (zh) 语音合成方法、装置、设备及存储介质
US20140180695A1 (en) Generation of conversation to achieve a goal
KR102621436B1 (ko) 음성 합성 방법, 장치, 전자 기기 및 저장 매체
CN110516043A (zh) 用于问答系统的答案生成方法和装置
CN112863496A (zh) 一种语音端点检测方法以及装置
CN107515720A (zh) 一种消息处理方法、介质、装置和计算设备
CN112837688A (zh) 语音转写方法、装置、相关系统及设备
KR20230025708A (ko) 오디오 제시 인터렉션을 갖는 자동화된 어시스턴트

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant