CN116580696A - 基于情感识别的语音流合成方法及装置 - Google Patents

基于情感识别的语音流合成方法及装置 Download PDF

Info

Publication number
CN116580696A
CN116580696A CN202310644888.1A CN202310644888A CN116580696A CN 116580696 A CN116580696 A CN 116580696A CN 202310644888 A CN202310644888 A CN 202310644888A CN 116580696 A CN116580696 A CN 116580696A
Authority
CN
China
Prior art keywords
analyzed
emotion
segmentation
voice stream
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310644888.1A
Other languages
English (en)
Inventor
韦玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Weizhi Zhuoxin Information Technology Co ltd
Original Assignee
Shanghai Weizhi Zhuoxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Weizhi Zhuoxin Information Technology Co ltd filed Critical Shanghai Weizhi Zhuoxin Information Technology Co ltd
Priority to CN202310644888.1A priority Critical patent/CN116580696A/zh
Publication of CN116580696A publication Critical patent/CN116580696A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于情感识别的语音流合成方法及装置,该方法包括:根据待分析素材的文本内容,确定待分析素材的语义特征,待分析素材包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种;根据语义特征,提取待分析素材的情感特征;基于情感特征,生成待分析素材对应的第一语音流,第一语音流为包含情感特征的语音流。可见,实施本发明能够根据待分析素材的语义特征提取待分析素材的情感特征,并基于情感特征生成待分析素材对应的第一语音流,使得合成的语音流中富有情感,更加生动。

Description

基于情感识别的语音流合成方法及装置
技术领域
本发明涉及语音合成技术领域,尤其涉及一种基于情感识别的语音流合成方法及装置。
背景技术
在现代数字化时代,文字已经成为了人们日常生活和工作中必不可少的一部分。然而,对于某些人群,如视障人士,阅读文字却是一项艰难的任务,为了帮助视障人士更便捷地获取信息,以及提高大家的生产力和享受生活的质量,许多文本转语音工具应运而生。然而,现有的文本转语音工具仅仅文本中将每个文字对应的固定语音直接连接整合成语音流,导致合成的语音流比较生硬、不够生动。可见,如何合成更加生动的语音流显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种基于情感识别的语音流合成方法及装置,能够使得合成的语音流中富有情感,更加生动。
为了解决上述技术问题,本发明第一方面公开了一种基于情感识别的语音流合成方法,所述方法包括:
根据待分析素材的文本内容,确定所述待分析素材的语义特征,所述待分析素材包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种;
根据所述语义特征,提取所述待分析素材的情感特征;
基于所述情感特征,生成所述待分析素材对应的第一语音流,所述第一语音流为包含所述情感特征的语音流。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
若待分析素材为待分析语音流或待分析图像,基于所述待分析素材相匹配的文本识别方式,对所述待分析素材中的文字信息进行识别,得到所述待分析素材的文本内容;
以及,所述基于所述情感特征,生成所述待分析素材对应的第一语音流,包括:
在基于所述文本内容生成语音流的过程将所述情感特征同步融合至正在生成的语音流中,得到所述待分析素材对应的第一语音流;或者,
根据所述情感特征对预先生成的初始语音流进行调整,以将所述情感特征融合至所述初始语音流中,得到所述待分析素材对应的第一语音流,其中,所述初始语音流包括所述待分析语音流或基于所述文本内容生成的语音流。
作为一种可选的实施方式,在本发明第一方面中,所述语义特征包括所述待分析素材的全局语义特征以及所述文本内容中按照位置顺序排列的一个或多个分割语句的局部语义特征;
在所述根据所述语义特征,提取所述待分析素材中的情感特征之前,所述方法还包括:
提取每个所述分割语句所包含的目标关键词;
以及,所述根据所述语义特征,提取所述待分析素材的情感特征,包括:
根据所述全局语义特征,确定所述待分析素材的全局情感特征,所述全局情感特征包括所述待分析素材的情感基调;
根据每个所述分割语句的局部语义特征以及每个所述分割语句所包含的目标关键词,确定每个所述分割语句的局部情感特征,所述局部情感特征包括情感程度、情感类型、情感指向中的一个或多个,其中,所述情感程度包括情感愉悦程度、情感激烈程度、情感可控程度中的一个或多个,所述情感指向包括内倾情感指向或外倾情感指向;
根据所述全局情感特征,对每个所述分割语句的局部情感特征中的情感程度进行调整,得到每个所述分割语句的新的局部情感特征,作为所述待分析素材的情感特征。
作为一种可选的实施方式,在本发明第一方面中,所述根据每个所述分割语句的局部语义特征以及每个所述分割语句所包含的目标关键词,确定每个所述分割语句的局部情感特征,包括:
对于所有所述分割语句中排列顺序为首的第一个分割语句,根据所述第一个分割语句的局部语义特征以及所述第一个分割语句所包含的目标关键词,确定所述第一个分割语句的局部情感特征;
对于所有所述分割语句中除所述第一个分割语句之外的每个其他所述分割语句,根据该分割语句的局部语义特征,判断该分割语句与其在前相邻分割语句之间的关联程度是否大于等于关联程度阈值;当判断结果为是时,根据该分割语句的局部语义特征、该分割语句所包含的目标关键词以及该分割语句的在前相邻分割语句的局部情感特征,确定该分割语句的局部情感特征;当判断结果为否时,根据该分割语句的局部语义特征以及该分割语句所包含的目标关键词,确定该分割语句的局部情感特征。
作为一种可选的实施方式,在本发明第一方面中,所述在基于所述文本内容生成语音流的过程中将所述情感特征同步融合至正在生成的语音流中,得到所述待分析素材对应的第一语音流,包括:
根据所述文本内容中每个语素的标准发音以及该语素的相邻语素的标准发音,确定该语素的适配发音,所述语素用于表示所述文本内容中最小的音义结合体;
在基于每个所述语素的适配发音生成语音的过程中将预先根据所述情感特征确定出的该语素相匹配的情感表征属性同步融合至该语素对应的语音中,以合成所述待分析素材对应的第一语音流;
所述根据所述情感特征对预先生成的初始语音流进行调整,以将所述情感特征融合至所述初始语音流中,得到所述待分析素材对应的第一语音流,包括:
基于预先根据所述情感特征确定出的所述文本内容中每个语素相匹配的情感表征属性,对预先生成的初始语音流中该语素对应的语音进行调整,得到所述待分析素材对应的第一语音流;
以及,所述方法还包括:
根据所述情感特征,确定每个所述分割语句的基础语调;
对于每个所述分割语句中的每个语素,根据该语素的语素属性以及该分割语句的基础语调,确定该语素相匹配的情感表征属性,每个所述语素的语素属性包括该语素所属的词语类型和/或该语素在相应分割语句中的位置,所述情感表征属性包括轻重音程度、声调和发音时长中的一个或多个。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
确定所述待分析素材所包含的一个或多个角色相匹配的声音特征;
根据每个所述角色相匹配的声音特征对所述第一语音流进行调整,以将该角色相匹配的声音特征融合至所述第一语音流中该角色对应的子语音流中,得到所述待分析素材对应的第二语音流;
其中,所述确定所述待分析素材所包含的一个或多个角色相匹配的声音特征,包括:
确定所述待分析素材所包含的一个或多个角色相匹配的声音标签,并根据每个所述角色相匹配的声音标签,合成该角色相匹配的声音特征,其中,每个所述角色相匹配的声音标签包括用户针对该角色确定的声音标签和/或根据所述待分析素材的特征信息确定出的该角色相匹配的声音标签,所述特征信息包括所述语义特征和/或所述情感特征;和/或,
对于所述待分析素材所包含的每个角色,基于预先设定的一个或多个声音特征提取因子,从针对该角色预先采集的声音采集语音中提取该角色相匹配的声音特征。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
若所述待分析素材为所述待分析语音流且所述待分析素材的声纹识别结果包括至少两种声纹信息,将每种所述声纹信息所对应的人物确定为所述待分析素材中的一个角色;
若所述待分析素材为所述待分析语音流且所述待分析素材的声纹识别结果仅包括一种声纹信息,或者,若所述待分析素材为待分析文本或所述待分析图像,根据所述语义特征以及所述文本内容中一个或多个分割语句所包含的目标关键词,确定每个所述分割语句所对应的角色,作为所述待分析素材所包含的所有角色,其中,每个所述角色对应一个或多个所述分割语句。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
确定所述待分析素材相匹配的语句分割依据;
基于所述语句分割依据,对所述文本内容进行分割,得到所述文本内容所包含的按照位置顺序排列的一个或多个分割语句;
其中,所述确定所述待分析素材相匹配的语句分割依据,包括:
若所述待分析素材为所述待分析语音流,当所述待分析素材的声纹识别结果包括至少两种声纹信息时,将所述声纹识别结果以及所述待分析素材中的语音停顿时间确定为所述待分析素材相匹配的语句分割依据;当所述待分析素材的声纹识别结果仅包括一种所述声纹信息时,将所述待分析素材中的语音停顿时间确定为所述待分析素材相匹配的语句分割依据;
若所述待分析素材为所述待分析文本或所述待分析图像,判断所述文本内容是否包括元素类型为预设元素类型的第一文本元素;若所述文本内容包括所述第一文本元素,将所述第一文本元素确定为所述待分析素材相匹配的语句分割依据;若所述文本内容不包括所述第一文本元素,确定所述文本内容中每两个相邻语素之间的间隙,并判断每两个相邻语素之间的间隙是否存在大于等于预设长度的目标间隙;若存在所述目标间隙,将所述目标间隙确定为所述待分析素材相匹配的语句分割依据。
作为一种可选的实施方式,在本发明第一方面中,在所述确定所述待分析素材所包含的一个或多个角色相匹配的声音特征之后,所述方法还包括:
确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态,所述声音状态至少包括声音年龄;
根据每个所述角色对应的每个所述分割语句相匹配的声音状态,对该角色相匹配的声音特征中该分割语句对应的子声音特征进行调整,得到该角色相匹配的新的声音特征,并触发执行所述的根据每个所述角色相匹配的声音特征对所述第一语音流进行调整,以将该角色相匹配的声音特征融合至所述第一语音流中该角色对应的子语音流中,得到所述待分析素材对应的第二语音流的操作;
所述确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态,包括:
根据用户针对每个所述角色对应的一个或多个所述分割语句输入的声音状态描述,确定该分割语句相匹配的声音状态;和/或,
根据所述语义特征,确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态。
本发明第二方面公开了一种基于情感识别的语音流合成装置,所述装置包括:
确定模块,用于根据待分析素材的文本内容,确定所述待分析素材的语义特征,所述待分析素材包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种;
提取模块,用于根据所述语义特征,提取所述待分析素材的情感特征;
语音生成模块,用于基于所述情感特征,生成所述待分析素材对应的第一语音流,所述第一语音流为包含所述情感特征的语音流。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
识别模块,用于若待分析素材为待分析语音流或待分析图像,基于所述待分析素材相匹配的文本识别方式,对所述待分析素材中的文字信息进行识别,得到所述待分析素材的文本内容;
以及,所述语音生成模块基于所述情感特征,生成所述待分析素材对应的第一语音流的具体方式,包括:
在基于所述文本内容生成语音流的过程将所述情感特征同步融合至正在生成的语音流中,得到所述待分析素材对应的第一语音流;或者,
根据所述情感特征对预先生成的初始语音流进行调整,以将所述情感特征融合至所述初始语音流中,得到所述待分析素材对应的第一语音流,其中,所述初始语音流包括所述待分析语音流或基于所述文本内容生成的语音流。
作为一种可选的实施方式,在本发明第二方面中,所述语义特征包括所述待分析素材的全局语义特征以及所述文本内容中按照位置顺序排列的一个或多个分割语句的局部语义特征;
所述提取模块,还用于在根据所述语义特征,提取所述待分析素材中的情感特征之前,提取每个所述分割语句所包含的目标关键词;
以及,所述提取模块根据所述语义特征,提取所述待分析素材的情感特征的具体方式,包括:
根据所述全局语义特征,确定所述待分析素材的全局情感特征,所述全局情感特征包括所述待分析素材的情感基调;
根据每个所述分割语句的局部语义特征以及每个所述分割语句所包含的目标关键词,确定每个所述分割语句的局部情感特征,所述局部情感特征包括情感程度、情感类型、情感指向中的一个或多个,其中,所述情感程度包括情感愉悦程度、情感激烈程度、情感可控程度中的一个或多个,所述情感指向包括内倾情感指向或外倾情感指向;
根据所述全局情感特征,对每个所述分割语句的局部情感特征中的情感程度进行调整,得到每个所述分割语句的新的局部情感特征,作为所述待分析素材的情感特征。
作为一种可选的实施方式,在本发明第二方面中,所述提取模块根据每个所述分割语句的局部语义特征以及每个所述分割语句所包含的目标关键词,确定每个所述分割语句的局部情感特征的具体方式,包括:
对于所有所述分割语句中排列顺序为首的第一个分割语句,根据所述第一个分割语句的局部语义特征以及所述第一个分割语句所包含的目标关键词,确定所述第一个分割语句的局部情感特征;
对于所有所述分割语句中除所述第一个分割语句之外的每个其他所述分割语句,根据该分割语句的局部语义特征,判断该分割语句与其在前相邻分割语句之间的关联程度是否大于等于关联程度阈值;当判断结果为是时,根据该分割语句的局部语义特征、该分割语句所包含的目标关键词以及该分割语句的在前相邻分割语句的局部情感特征,确定该分割语句的局部情感特征;当判断结果为否时,根据该分割语句的局部语义特征以及该分割语句所包含的目标关键词,确定该分割语句的局部情感特征。
作为一种可选的实施方式,在本发明第二方面中,所述语音生成模块在基于所述文本内容生成语音流的过程将所述情感特征同步融合至正在生成的语音流中,得到所述待分析素材对应的第一语音流的具体方式,包括:
根据所述文本内容中每个语素的标准发音以及该语素的相邻语素的标准发音,确定该语素的适配发音,所述语素用于表示所述文本内容中最小的音义结合体;
在基于每个所述语素的适配发音生成语音的过程中将预先根据所述情感特征确定出的该语素相匹配的情感表征属性同步融合至该语素对应的语音中,以合成所述待分析素材对应的第一语音流;
所述语音生成模块根据所述情感特征对预先生成的初始语音流进行调整,以将所述情感特征融合至所述初始语音流中,得到所述待分析素材对应的第一语音流的具体方式,包括:
基于预先根据所述情感特征确定出的所述文本内容中每个语素相匹配的情感表征属性,对预先生成的初始语音流中该语素对应的语音进行调整,得到所述待分析素材对应的第一语音流;
以及,所述确定模块,还用于根据所述情感特征,确定每个所述分割语句的基础语调;对于每个所述分割语句中的每个语素,根据该语素的语素属性以及该分割语句的基础语调,确定该语素相匹配的情感表征属性,每个所述语素的语素属性包括该语素所属的词语类型和/或该语素在相应分割语句中的位置,所述情感表征属性包括轻重音程度、声调和发音时长中的一个或多个。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块,还用于确定所述待分析素材所包含的一个或多个角色相匹配的声音特征;
所述语音生成模块,还用于根据每个所述角色相匹配的声音特征对所述第一语音流进行调整,以将该角色相匹配的声音特征融合至所述第一语音流中该角色对应的子语音流中,得到所述待分析素材对应的第二语音流;
其中,所述确定模块确定所述待分析素材所包含的一个或多个角色相匹配的声音特征的具体方式,包括:
确定所述待分析素材所包含的一个或多个角色相匹配的声音标签,并根据每个所述角色相匹配的声音标签,合成该角色相匹配的声音特征,其中,每个所述角色相匹配的声音标签包括用户针对该角色确定的声音标签和/或根据所述待分析素材的特征信息确定出的该角色相匹配的声音标签,所述特征信息包括所述语义特征和/或所述情感特征;和/或,
对于所述待分析素材所包含的每个角色,基于预先设定的一个或多个声音特征提取因子,从针对该角色预先采集的声音采集语音中提取该角色相匹配的声音特征。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块,还用于若所述待分析素材为所述待分析语音流且所述待分析素材的声纹识别结果包括至少两种声纹信息,将每种所述声纹信息所对应的人物确定为所述待分析素材中的一个角色;若所述待分析素材为所述待分析语音流且所述待分析素材的声纹识别结果仅包括一种声纹信息,或者,若所述待分析素材为待分析文本或所述待分析图像,根据所述语义特征以及所述文本内容中一个或多个分割语句所包含的目标关键词,确定每个所述分割语句所对应的角色,作为所述待分析素材所包含的所有角色,其中,每个所述角色对应一个或多个所述分割语句。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块,还用于确定所述待分析素材相匹配的语句分割依据;
所述装置还包括:
分割模块,用于基于所述语句分割依据,对所述文本内容进行分割,得到所述文本内容所包含的按照位置顺序排列的一个或多个分割语句;
其中,所述确定模块确定所述待分析素材相匹配的语句分割依据的具体方式,包括:
若所述待分析素材为所述待分析语音流,当所述待分析素材的声纹识别结果包括至少两种声纹信息时,将所述声纹识别结果以及所述待分析素材中的语音停顿时间确定为所述待分析素材相匹配的语句分割依据;当所述待分析素材的声纹识别结果仅包括一种所述声纹信息时,将所述待分析素材中的语音停顿时间确定为所述待分析素材相匹配的语句分割依据;
若所述待分析素材为所述待分析文本或所述待分析图像,判断所述文本内容是否包括元素类型为预设元素类型的第一文本元素;若所述文本内容包括所述第一文本元素,将所述第一文本元素确定为所述待分析素材相匹配的语句分割依据;若所述文本内容不包括所述第一文本元素,确定所述文本内容中每两个相邻语素之间的间隙,并判断每两个相邻语素之间的间隙是否存在大于等于预设长度的目标间隙;若存在所述目标间隙,将所述目标间隙确定为所述待分析素材相匹配的语句分割依据。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块,还用于在确定所述待分析素材所包含的一个或多个角色相匹配的声音特征之后,确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态,所述声音状态至少包括声音年龄;
所述装置还包括:
调整模块,用于根据每个所述角色对应的每个所述分割语句相匹配的声音状态,对该角色相匹配的声音特征中该分割语句对应的子声音特征进行调整,得到该角色相匹配的新的声音特征,并触发所述语音生成模块执行所述的根据每个所述角色相匹配的声音特征对所述第一语音流进行调整,以将该角色相匹配的声音特征融合至所述第一语音流中该角色对应的子语音流中,得到所述待分析素材对应的第二语音流的操作;
所述确定模块确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态的具体方式,包括:
根据用户针对每个所述角色对应的一个或多个所述分割语句输入的声音状态描述,确定该分割语句相匹配的声音状态;和/或,
根据所述语义特征,确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态。
本发明第三方面公开了另一种基于情感识别的语音流合成装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于情感识别的语音流合成方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于情感识别的语音流合成方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,根据待分析素材的文本内容,确定待分析素材的语义特征,待分析素材包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种;根据语义特征,提取待分析素材的情感特征;基于情感特征,生成待分析素材对应的第一语音流,第一语音流为包含情感特征的语音流。可见,实施本发明能够根据待分析素材的语义特征提取待分析素材的情感特征,并基于情感特征生成待分析素材对应的第一语音流,使得合成的语音流中富有情感,更加生动。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于情感识别的语音流合成方法的流程示意图;
图2是本发明实施例公开的另一种基于情感识别的语音流合成方法的流程示意图;
图3是本发明实施例公开的一种基于情感识别的语音流合成装置的结构示意图;
图4是本发明实施例公开的另一种基于情感识别的语音流合成装置的结构示意图;
图5是本发明实施例公开的又一种基于情感识别的语音流合成装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于情感识别的语音流合成方法及装置,能够根据待分析素材的语义特征提取待分析素材的情感特征,并基于情感特征生成待分析素材对应的第一语音流,使得合成的语音流中富有情感,更加生动。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于情感识别的语音流合成方法的流程示意图。其中,图1所描述的基于情感识别的语音流合成方法可以应用于任意具有文本转语音需求的终端和服务器中,比如视障人士的智能终端、电子阅读器、智能配音软件或平台等等,本发明实施例不做限定。如图1所示,该基于情感识别的语音流合成方法可以包括以下操作:
101、根据待分析素材的文本内容,确定待分析素材的语义特征。
可选的,待分析素材可以包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种,本发明实施例不做限定。
可选的,语义特征可以包括待分析素材的全局语义特征以及文本内容中按照位置顺序排列的一个或多个分割语句的局部语义特征,进一步可选的,全局语义特征可以包括待分析素材的文本内容所属的文本类型、文本内容的中心思想(或文本意图)、文本标题等等,每个分割语句的局部语义特征可以包括用于表示该分割语句中基本概念和逻辑意义的自然语义特征、用于表示该分割语句中非自然性且主观内容的附属语义特征、用于表示脱离了该分割语句后不同词汇之间的关联性的聚合性语义特征、用于表示该分割语句中不同词汇搭配后的语义的组合性语义特征等中的一个或多个。
102、根据语义特征,提取待分析素材的情感特征。
作为一种可选的实施方式,根据语义特征,提取待分析素材的情感特征,可以包括:
根据全局语义特征,确定待分析素材的全局情感特征,全局情感特征可以包括待分析素材的情感基调,举例来说,若全局语义特征表示待分析素材为童话故事,则其情感基调比较欢快,若全局语义特征表示待分析素材为散文,则其情感基调比较恬淡;
根据每个分割语句的局部语义特征以及每个分割语句所包含的目标关键词,确定每个分割语句的局部情感特征,可选的,局部情感特征可以包括情感程度、情感类型、情感指向中的一个或多个,进一步可选的,情感程度可以包括情感愉悦程度、情感激烈程度、情感可控程度中的一个或多个,情感指向可以包括内倾情感指向或外倾情感指向;
根据全局情感特征,对每个分割语句的局部情感特征中的情感程度进行调整,得到每个分割语句的新的局部情感特征,作为待分析素材的情感特征。
在该可选的实施方式中,内倾情感指向用于表示针对自身因素的情感指向,外倾情感执行用于表示针对外部因素的情感指向。例如,“小明对自己的长相不太满意”的情感指向为内倾情感指向,“小红特别喜欢吃麻辣香锅”的情感指向为外倾情感指向。需要说明的是,情感激烈程度与情感可控程度正相关,但是不同情感类型在同等情感激烈程度的情况下情感可控程度不一定相同,比如,在情感激烈程度相同的情况下,愤怒的情感可控程度通常高于恐惧的情感可控程度。
在该可选的实施方式中,可选的,在根据语义特征,提取待分析素材中的情感特征之前,该方法还可以包括:提取每个分割语句所包含的目标关键词,可选的,目标关键词可以包括情感词汇、程度助词、语气助词、肯定性词汇、否定性词汇、情感主体、情感客体中的一个或多个的组合。其中,情感主体用于表示情感的所属者,情感客体用于表示情感对象,例如,“小明喜欢小红”中,“小明”为情感主体,“小红”为情感客体。
可见,实施该可选的实施方式通过全局语义特征确定待分析素材的情感基调,并且在根据分割语句的局部语义特征及其目标关键词确定出相应的局部情感特征后,利用情感基调对局部情感特征进行调整,使得每个整个文本内容的情感特征与其情感基调相匹配,不仅提高了情感特征确定的准确性,且有利于使得合成的语音流的情感基调保持一致。
在该可选的实施方式中,可选的,根据每个分割语句的局部语义特征以及每个分割语句所包含的目标关键词,确定每个分割语句的局部情感特征,可以包括:
对于所有分割语句中排列顺序为首的第一个分割语句,根据第一个分割语句的局部语义特征以及第一个分割语句所包含的目标关键词,确定第一个分割语句的局部情感特征;
对于所有分割语句中除第一个分割语句之外的每个其他分割语句,根据该分割语句的局部语义特征,判断该分割语句与其在前相邻分割语句之间的关联程度是否大于等于关联程度阈值;当判断结果为是时,根据该分割语句的局部语义特征、该分割语句所包含的目标关键词以及该分割语句的在前相邻分割语句的局部情感特征,确定该分割语句的局部情感特征;当判断结果为否时,根据该分割语句的局部语义特征以及该分割语句所包含的目标关键词,确定该分割语句的局部情感特征。
可见,实施该可选的实施方式能够在某个分割语句与其在前相邻分割语句之间的关联性较强时结合在前相邻分割语句的局部情感特征来确定该分割语句的局部情感特征,从而提高该分割语句的局部情感特征确定的效率、准确性和完整性。
在该可选的实施方式中,进一步可选的,根据该分割语句的局部语义特征、该分割语句所包含的目标关键词以及该分割语句的在前相邻分割语句的局部情感特征,确定该分割语句的局部情感特征,可以包括:
判断该分割语句所包含的目标关键词中是否包含情感关键词;
当判断结果为是时,根据该分割语句的局部情感特征以及该分割语句所包含的目标关键词,确定该分割语句的局部情感特征;
当判断结果为否时,根据该分割语句的局部语义特征、该分割语句所包含的目标关键词,确定该分割语句与其在前相邻分割语句之间的关联关系;根据该分割语句的在前相邻分割语句的局部情感特征以及该分割语句与其在前相邻分割语句的关联关系,确定该分割语句的局部情感特征,其中,关联关系为正向关联关系或反向关联关系,关联关系为正向关联关系用于表示该分割语句与其在前相邻分割语句的情感类型的相似度大于等于第一相似度阈值,关联关系为反向关联关系用于表示该分割语句与其在前相邻分割语句的情感类型的相似度小于第二相似度阈值,第一相似度阈值大于等于第二相似度阈值。
进一步的,在根据该分割语句的在前相邻分割语句的局部情感特征以及该分割语句与其在前相邻分割语句的关联关系,确定该分割语句的局部情感特征之后,该方法还包括:根据该分割语句的局部语义特征以及该分割语句所包含的目标关键词,对该分割语句的局部情感特征中的情感程度和情感指向进行修正,得到该分割语句的新的局部情感特征。
可见,实施该可选的实施方式能够根据分割语句与其在前相邻分割语句的关联关系以及在前相邻分割语句的局部情感特征来确定该分割语句的局部情感特征,进一步提高了情感特征确定的效率和准确性。
103、基于情感特征,生成待分析素材对应的第一语音流。
其中,第一语音流为包含情感特征的语音流。
作为一种可选的实施方式,基于情感特征,生成待分析素材对应的第一语音流,可以包括:
在基于文本内容生成语音流的过程将情感特征同步融合至正在生成的语音流中,得到待分析素材对应的第一语音流;或者,
根据情感特征对预先生成的初始语音流进行调整,以将情感特征融合至初始语音流中,得到待分析素材对应的第一语音流,其中,初始语音流可以包括待分析语音流或基于文本内容生成的语音流。
可见,实施该可选的实施方式既可以在基于文本内容生成语音流的过程中同步融合情感特征,提高包含语音流的合成效率,也可以将情感特征融合至待分析语音流或已生成的语音流中,提高语音流的合成准确性,同时丰富了语音流合成方式。
在该可选的实施方式中,进一步可选的,在基于文本内容生成语音流的过程中将情感特征同步融合至正在生成的语音流中,得到待分析素材对应的第一语音流,可以包括:
根据文本内容中每个语素的标准发音以及该语素的相邻语素的标准发音,确定该语素的适配发音,语素用于表示文本内容中最小的音义结合体;
在基于每个语素的适配发音生成语音的过程中将预先根据情感特征确定出的该语素相匹配的情感表征属性同步融合至该语素对应的语音中,以合成待分析素材对应的第一语音流。
可见,实施该可选的实施方式还能够根据文本内容中每个语素及其相邻语素的标准发音确定该语素的适配发音,从而有利于提高合成的语音的流畅度,减少语音卡顿的情况,且根据每个语素的适配发音和情感表征属性来合成语音流,使得语音和情感融合得更加自然、生动以及流畅。
在该可选的实施方式中,进一步可选的,根据情感特征对预先生成的初始语音流进行调整,以将情感特征融合至初始语音流中,得到待分析素材对应的第一语音流,可以包括:
基于预先根据情感特征确定出的文本内容中每个语素相匹配的情感表征属性,对预先生成的初始语音流中该语素对应的语音进行调整,得到待分析素材对应的第一语音流。
可见,实施该可选的实施方式还能够根据每个语素的情感表征属性对初始语音流中该语素对应的语音进行调整,提高了对初始语音流调整的精准度。
在该可选的实施方式中,又进一步可选的,该方法还可以包括:
根据情感特征,确定每个分割语句的基础语调;
对于每个分割语句中的每个语素,根据该语素的语素属性以及该分割语句的基础语调,确定该语素相匹配的情感表征属性。
可选的,基础语调可以包括高升调、降抑调、平直调、曲折调等等,每个语素的语素属性可以包括该语素所属的词语类型和/或该语素在相应分割语句中的位置,情感表征属性可以包括轻重音程度、声调和发音时长等中的一个或多个。比如,根据“你吃了吗?”这一句子的语义特征可知该句子为疑问句,相应的基础语调应为高升调,因此句尾“吗”的声调应当高于句首和句中“你吃了”的声调。
可见,实施该可选的实施方式通过语素所属的词语类型、位置以及分割语句的基础语调确定语素的轻重音程度、声调、发音时长等,从而提高了确定语素的情感表征属性的准确性。
可见,实施本发明实施例能够根据待分析素材的语义特征提取待分析素材的情感特征,并基于情感特征生成待分析素材对应的第一语音流,使得合成的语音流中富有情感,更加生动。
在一个可选的实施例中,该方法还可以包括:若待分析素材为待分析语音流或待分析图像,基于待分析素材相匹配的文本识别方式,对待分析素材中的文字信息进行识别,得到待分析素材的文本内容;可选的,待分析图像相匹配的文本识别方式可以为OCR(Optical Character Recognition,光学字符识别)技术,待分析语音流相匹配的文本识别方式可以为任意语音转文本技术。这样通过对待分析语音流或待分析图像的文字信息进行识别从而得到文本内容,能够便于将不同的素材中的文本转为语音。
在另一个可选的实施例中,该方法还可以包括:
确定待分析素材相匹配的语句分割依据;
基于语句分割依据,对文本内容进行分割,得到文本内容所包含的按照位置顺序排列的一个或多个分割语句;
其中,确定待分析素材相匹配的语句分割依据,可以包括:
若待分析素材为待分析语音流,当待分析素材的声纹识别结果包括至少两种声纹信息时,将声纹识别结果以及待分析素材中的语音停顿时间确定为待分析素材相匹配的语句分割依据;当待分析素材的声纹识别结果仅包括一种声纹信息时,将待分析素材中的语音停顿时间确定为待分析素材相匹配的语句分割依据;
若待分析素材为待分析文本或待分析图像,判断文本内容是否包括元素类型为预设元素类型的第一文本元素;若文本内容包括第一文本元素,将第一文本元素确定为待分析素材相匹配的语句分割依据;若文本内容不包括第一文本元素,确定文本内容中每两个相邻语素之间的间隙,并判断每两个相邻语素之间的间隙是否存在大于等于预设长度的目标间隙;若存在目标间隙,将目标间隙确定为待分析素材相匹配的语句分割依据;可选的,第一文本元素可以包括预设标点符号,比如“。”等,进一步可选的,第一文本元素还可以包括预设句尾语气词类型,比如“吧”等。
可见,实施该可选的实施例通过声纹识别结果和语音停顿信息来对待分析语音流的文本内容进行分割,不仅提高了待分析语音流文本内容分割的效率,还能够将不同角色对应的分割语句分割开来,此外,通过元素类型为预设元素类型的第一文本元素、每两个相邻语素之间的间隙对文本内容进行分割,提高了文本内容分割的准确性。
实施例二
请参阅图2,图2是本发明实施例公开的另一种基于情感识别的语音流合成方法的流程示意图。其中,图2所描述的基于情感识别的语音流合成方法可以应用于任意具有文本转语音需求的终端和服务器中,比如视障人士的智能终端、电子阅读器、智能配音软件或平台等等,本发明实施例不做限定,此外,还可以用于存储人们的声音,比如用于永久保留已逝人员的声音。如图2所示,该基于情感识别的语音流合成方法可以包括以下操作:
201、根据待分析素材的文本内容,确定待分析素材的语义特征。
202、根据语义特征,提取待分析素材的情感特征。
203、基于情感特征,生成待分析素材对应的第一语音流。
本发明实施例中,针对步骤201-步骤203的其他描述,请参照实施例一种针对步骤101-步骤103的详细描述,本发明实施例不再赘述。
204、确定待分析素材所包含的一个或多个角色相匹配的声音特征。
作为一种可选的实施方式,确定待分析素材所包含的一个或多个角色相匹配的声音特征,可以包括:
确定待分析素材所包含的一个或多个角色相匹配的声音标签,并根据每个角色相匹配的声音标签,合成该角色相匹配的声音特征,可选的,每个角色相匹配的声音标签可以包括用户针对该角色确定的声音标签和/或根据待分析素材的特征信息确定出的该角色相匹配的声音标签,特征信息可以包括语义特征和/或情感特征,可选的,声音标签可以包括音量、频率、音色、声源距离、声音方向、发声位置、口音、共鸣腔等中的一个或多个;和/或,
对于待分析素材所包含的每个角色,基于预先设定的一个或多个声音特征提取因子,从针对该角色预先采集的声音采集语音中提取该角色相匹配的声音特征,可选的,声音特征提取因子可以包括音量特征提取因子、音色特征提取因子、频率特征提取因子、发声位置特征提取因子、口音特征提取因子、共鸣腔特征提取因子等中的一个或多个。
可见,实施该可选的实施方式可以由用户确定的声音标签来合成声音特征,满足用户的个性化需求,也可以根据语义特征、情感特征确定出声音标签以进一步合成声音特征,提高了声音特征合成的智能化程度,还能够从已有的声音采集语音提取声音特征,以便用户选择自己喜欢的真人声音。
205、根据每个角色相匹配的声音特征对第一语音流进行调整,以将该角色相匹配的声音特征融合至第一语音流中该角色对应的子语音流中,得到待分析素材对应的第二语音流。
可选的,每个角色相匹配的声音特征可以包括该角色对应的一个或多个分割语句相匹配的子声音特征,每个角色对应的分割语句用于表示该角色的台词。
可见,实施本发明实施例能够根据待分析素材的语义特征提取待分析素材的情感特征,并基于情感特征生成待分析素材对应的第一语音流,使得合成的语音流中富有情感,还能够将待分析素材中所包含的角色的声音特征融合至第一语音流中,进一步丰富了语音流内容,使得合成的语音流与真人语音更加相似、更加生动,且提高了合成的语音流的个性化程度。
在一个可选的实施例中,该方法还可以包括:
若待分析素材为待分析语音流且待分析素材的声纹识别结果包括至少两种声纹信息,将每种声纹信息所对应的人物确定为待分析素材中的一个角色;
若待分析素材为待分析语音流且待分析素材的声纹识别结果仅包括一种声纹信息,或者,若待分析素材为待分析文本或待分析图像,根据语义特征以及文本内容中一个或多个分割语句所包含的目标关键词,确定每个分割语句所对应的角色,作为待分析素材所包含的所有角色,其中,每个角色对应一个或多个分割语句。
可见,实施该可选的实施例能够通过待分析语音流中的声纹信息确定待分析语音流中所包含的角色,提高了待分析素材中角色确定的效率,或者通过文本内容中每个分割语句所包含的目标关键词及其语义特征来确定待分析素材所包含的所有角色,提高了待分析素材中角色确定的准确性和全面性。
在另一个可选的实施例中,在确定待分析素材所包含的一个或多个角色相匹配的声音特征之后,该方法还可以包括:
确定每个角色对应的一个或多个分割语句相匹配的声音状态;
根据每个角色对应的每个分割语句相匹配的声音状态,对该角色相匹配的声音特征中该分割语句对应的子声音特征进行调整,得到该角色相匹配的新的声音特征,并触发执行上述的根据每个角色相匹配的声音特征对第一语音流进行调整,以将该角色相匹配的声音特征融合至第一语音流中该角色对应的子语音流中,得到待分析素材对应的第二语音流的操作;
可选的,确定每个角色对应的一个或多个分割语句相匹配的声音状态,可以包括:根据用户针对每个角色对应的一个或多个分割语句输入的声音状态描述,确定该分割语句相匹配的声音状态;和/或,根据语义特征,确定每个角色对应的一个或多个分割语句相匹配的声音状态。
可选的,声音状态至少包括声音年龄,例如,一篇文章中描述了一个角色的青年时期和老年时期,则该角色在青年时期的声音年龄和在老年时期的声音年龄应当有所区别。进一步可选的,声音状态还可以包括发声流畅度、声音健康度、声音饱满程度、声音沙哑程度等中的一个或多个;例如,若某个角色需要长时间对话或该角色需要发表一大段言论,则该角色对应的分割语句相匹配的声音状态应当表现为越来越沙哑,若某个角色生病了,则该角色的声音健康度比较低,该角色的声音状态应当表现为较为沙哑、鼻音较重、偶尔咳嗽、音量较低。
可见,实施该可选的实施例能够根据每个角色对应的每个分割语句相匹配的声音状态对该分割语句对应的子声音特征进行调整,以使合成的语音流中每个语句均与相应角色的声音状态相匹配,使得合成的语音流更加生动,个性化程度更高,且画面感更强,有利于增强语音流的代入感。
实施例三
请参阅图3,图3是本发明实施例公开的一种基于情感识别的语音流合成装置的结构示意图。其中,图3所描述的基于情感识别的语音流合成装置可以应用于任意具有文本转语音需求的终端和服务器中,比如视障人士的智能终端、电子阅读器、智能配音软件或平台等等,本发明实施例不做限定,此外,还可以用于存储人们的声音,比如用于永久保留已逝人员的声音。如图3所示,该基于情感识别的语音流合成装置可以包括:
确定模块301,用于根据待分析素材的文本内容,确定待分析素材的语义特征,待分析素材包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种;
提取模块302,用于根据语义特征,提取待分析素材的情感特征;
语音生成模块303,用于基于情感特征,生成待分析素材对应的第一语音流,第一语音流为包含情感特征的语音流。
可见,实施图3所描述的装置能够根据待分析素材的语义特征提取待分析素材的情感特征,并基于情感特征生成待分析素材对应的第一语音流,使得合成的语音流中富有情感,更加生动。
在一个可选的实施例中,如图4所示,该装置还可以包括:
识别模块304,用于若待分析素材为待分析语音流或待分析图像,基于待分析素材相匹配的文本识别方式,对待分析素材中的文字信息进行识别,得到待分析素材的文本内容;
可选的,语音生成模块303基于情感特征,生成待分析素材对应的第一语音流的具体方式,可以包括:
在基于文本内容生成语音流的过程将情感特征同步融合至正在生成的语音流中,得到待分析素材对应的第一语音流;或者,
根据情感特征对预先生成的初始语音流进行调整,以将情感特征融合至初始语音流中,得到待分析素材对应的第一语音流,其中,初始语音流包括待分析语音流或基于文本内容生成的语音流。
可见,实施图4所描述的装置能够对待分析语音流或待分析图像的文字信息进行识别从而得到文本内容,能够便于将不同的素材中的文本转为语音,此外,既可以在基于文本内容生成语音流的过程中同步融合情感特征,提高包含语音流的合成效率,也可以将情感特征融合至待分析语音流或已生成的语音流中,提高语音流的合成准确性,同时丰富了语音流合成方式。
在另一个可选的实施例中,如图4所示,语义特征可以包括待分析素材的全局语义特征以及文本内容中按照位置顺序排列的一个或多个分割语句的局部语义特征;
提取模块302,还用于在根据语义特征,提取待分析素材中的情感特征之前,提取每个分割语句所包含的目标关键词;
以及,提取模块302根据语义特征,提取待分析素材的情感特征的具体方式,可以包括:
根据全局语义特征,确定待分析素材的全局情感特征,全局情感特征包括待分析素材的情感基调;
根据每个分割语句的局部语义特征以及每个分割语句所包含的目标关键词,确定每个分割语句的局部情感特征,局部情感特征包括情感程度、情感类型、情感指向中的一个或多个,其中,情感程度包括情感愉悦程度、情感激烈程度、情感可控程度中的一个或多个,情感指向包括内倾情感指向或外倾情感指向;
根据全局情感特征,对每个分割语句的局部情感特征中的情感程度进行调整,得到每个分割语句的新的局部情感特征,作为待分析素材的情感特征。
可见,实施图4所描述的装置还能够通过全局语义特征确定待分析素材的情感基调,并且在根据分割语句的局部语义特征及其目标关键词确定出相应的局部情感特征后,利用情感基调对局部情感特征进行调整,使得每个整个文本内容的情感特征与其情感基调相匹配,不仅提高了情感特征确定的准确性,且有利于使得合成的语音流中的情感基调保持一致。
在又一个可选的实施例中,如图4所示,提取模块302根据每个分割语句的局部语义特征以及每个分割语句所包含的目标关键词,确定每个分割语句的局部情感特征的具体方式,可以包括:
对于所有分割语句中排列顺序为首的第一个分割语句,根据第一个分割语句的局部语义特征以及第一个分割语句所包含的目标关键词,确定第一个分割语句的局部情感特征;
对于所有分割语句中除第一个分割语句之外的每个其他分割语句,根据该分割语句的局部语义特征,判断该分割语句与其在前相邻分割语句之间的关联程度是否大于等于关联程度阈值;当判断结果为是时,根据该分割语句的局部语义特征、该分割语句所包含的目标关键词以及该分割语句的在前相邻分割语句的局部情感特征,确定该分割语句的局部情感特征;当判断结果为否时,根据该分割语句的局部语义特征以及该分割语句所包含的目标关键词,确定该分割语句的局部情感特征。
可见,实施图4所描述的装置还能够在某个分割语句与其在前相邻分割语句之间的关联性较强时结合在前相邻分割语句的局部情感特征来确定该分割语句的局部情感特征,从而提高该分割语句的局部情感特征确定的效率、准确性和完整性。
在又一个可选的实施例中,如图4所示,语音生成模块303在基于文本内容生成语音流的过程将情感特征同步融合至正在生成的语音流中,得到待分析素材对应的第一语音流的具体方式,可以包括:
根据文本内容中每个语素的标准发音以及该语素的相邻语素的标准发音,确定该语素的适配发音,语素用于表示文本内容中最小的音义结合体;
在基于每个语素的适配发音生成语音的过程中将预先根据情感特征确定出的该语素相匹配的情感表征属性同步融合至该语素对应的语音中,以合成待分析素材对应的第一语音流;
可选的,语音生成模块303根据情感特征对预先生成的初始语音流进行调整,以将情感特征融合至初始语音流中,得到待分析素材对应的第一语音流的具体方式,可以包括:
基于预先根据情感特征确定出的文本内容中每个语素相匹配的情感表征属性,对预先生成的初始语音流中该语素对应的语音进行调整,得到待分析素材对应的第一语音流;
以及,确定模块301,还用于根据情感特征,确定每个分割语句的基础语调;对于每个分割语句中的每个语素,根据该语素的语素属性以及该分割语句的基础语调,确定该语素相匹配的情感表征属性,每个语素的语素属性包括该语素所属的词语类型和/或该语素在相应分割语句中的位置,情感表征属性包括轻重音程度、声调和发音时长中的一个或多个。
可见,实施图4所描述的装置还能够根据文本内容中每个语素及其相邻语素的标准发音确定该语素的适配发音,从而有利于提高合成的语音的流畅度,减少语音卡顿,且根据每个语素的适配发音和情感表征属性来合成语音流,使得语音和情感融合得更加自然、生动以及流畅,还能够根据每个语素的情感表征属性对初始语音流中该语素对应的语音进行调整,提高了对初始语音流调整的精准度。
在又一个可选的实施例中,如图4所示,确定模块301,还用于确定待分析素材所包含的一个或多个角色相匹配的声音特征;
语音生成模块303,还用于根据每个角色相匹配的声音特征对第一语音流进行调整,以将该角色相匹配的声音特征融合至第一语音流中该角色对应的子语音流中,得到待分析素材对应的第二语音流;
其中,确定模块301确定待分析素材所包含的一个或多个角色相匹配的声音特征的具体方式,可以包括:
确定待分析素材所包含的一个或多个角色相匹配的声音标签,并根据每个角色相匹配的声音标签,合成该角色相匹配的声音特征,其中,每个角色相匹配的声音标签包括用户针对该角色确定的声音标签和/或根据待分析素材的特征信息确定出的该角色相匹配的声音标签,特征信息包括语义特征和/或情感特征;和/或,
对于待分析素材所包含的每个角色,基于预先设定的一个或多个声音特征提取因子,从针对该角色预先采集的声音采集语音中提取该角色相匹配的声音特征。
可见,实施图4所描述的装置还能够将待分析素材中所包含的角色的声音特征融合至语音流中,进一步丰富了语音流内容,使得通过文本合成的语音流更加生动,与真人语音更加相似,且提高了合成的语音流的个性化程度。
在又一个可选的实施例中,如图4所示,确定模块301,还用于若待分析素材为待分析语音流且待分析素材的声纹识别结果包括至少两种声纹信息,将每种声纹信息所对应的人物确定为待分析素材中的一个角色;若待分析素材为待分析语音流且待分析素材的声纹识别结果仅包括一种声纹信息,或者,若待分析素材为待分析文本或待分析图像,根据语义特征以及文本内容中一个或多个分割语句所包含的目标关键词,确定每个分割语句所对应的角色,作为待分析素材所包含的所有角色,其中,每个角色对应一个或多个分割语句。
可见,实施图4所描述的装置还能够根据待分析语音流中的声纹信息确定待分析语音流中所包含的角色,提高了待分析素材中角色确定的效率,或者根据待分析素材的文本内容中每个分割语句所包含的目标关键词及其语义特征来确定待分析素材所包含的所有角色,提高了待分析素材中角色确定的准确性和全面性。
在又一个可选的实施例中,如图4所示,确定模块301,还用于确定待分析素材相匹配的语句分割依据;
该装置还可以包括:
分割模块305,用于基于语句分割依据,对文本内容进行分割,得到文本内容所包含的按照位置顺序排列的一个或多个分割语句;
可选的,确定模块301确定待分析素材相匹配的语句分割依据的具体方式,可以包括:
若待分析素材为待分析语音流,当待分析素材的声纹识别结果包括至少两种声纹信息时,将声纹识别结果以及待分析素材中的语音停顿时间确定为待分析素材相匹配的语句分割依据;当待分析素材的声纹识别结果仅包括一种声纹信息时,将待分析素材中的语音停顿时间确定为待分析素材相匹配的语句分割依据;
若待分析素材为待分析文本或待分析图像,判断文本内容是否包括元素类型为预设元素类型的第一文本元素;若文本内容包括第一文本元素,将第一文本元素确定为待分析素材相匹配的语句分割依据;若文本内容不包括第一文本元素,确定文本内容中每两个相邻语素之间的间隙,并判断每两个相邻语素之间的间隙是否存在大于等于预设长度的目标间隙;若存在目标间隙,将目标间隙确定为待分析素材相匹配的语句分割依据。
可见,实施图4所描述的装置还通过声纹识别结果和语音停顿信息来对待分析语音流的文本内容进行分割,不仅提高了待分析语音流文本内容分割的效率,还能够将不同角色对应的分割语句分割开来,此外,通过根据元素类型为预设元素类型的第一文本元素、每两个相邻语素之间的间隙对文本内容进行分割,提高了文本内容分割的准确性。
在又一个可选的实施例中,如图4所示,
确定模块301,还用于在确定待分析素材所包含的一个或多个角色相匹配的声音特征之后,确定每个角色对应的一个或多个分割语句相匹配的声音状态,声音状态至少包括声音年龄;
该装置还可以包括:
调整模块306,用于根据每个角色对应的每个分割语句相匹配的声音状态,对该角色相匹配的声音特征中该分割语句对应的子声音特征进行调整,得到该角色相匹配的新的声音特征,并触发语音生成模块303执行上述的根据每个角色相匹配的声音特征对第一语音流进行调整,以将该角色相匹配的声音特征融合至第一语音流中该角色对应的子语音流中,得到待分析素材对应的第二语音流的操作;
可选的,确定模块301确定每个角色对应的一个或多个分割语句相匹配的声音状态的具体方式,可以包括:
根据用户针对每个角色对应的一个或多个分割语句输入的声音状态描述,确定该分割语句相匹配的声音状态;和/或,
根据语义特征,确定每个角色对应的一个或多个分割语句相匹配的声音状态。
可见,实施图4所描述的装置还能够根据每个角色对应的每个分割语句相匹配的声音状态对该分割语句对应的子声音特征进行调整,以使合成的语音流中每个语句均与相应角色的声音状态相匹配,使得合成的语音流更加生动,个性化程度更高,且画面感更强,有利于增强语音流的代入感。
实施例四
请参阅图5,图5是本发明实施例公开的又一种基于情感识别的语音流合成装置的结构示意图。如图5所示,该基于情感识别的语音流合成装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的基于情感识别的语音流合成方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的基于情感识别的语音流合成方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的基于情感识别的语音流合成方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于情感识别的语音流合成方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种基于情感识别的语音流合成方法,其特征在于,所述方法包括:
根据待分析素材的文本内容,确定所述待分析素材的语义特征,所述待分析素材包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种;
根据所述语义特征,提取所述待分析素材的情感特征;
基于所述情感特征,生成所述待分析素材对应的第一语音流,所述第一语音流为包含所述情感特征的语音流。
2.根据权利要求1所述的基于情感识别的语音流合成方法,其特征在于,所述方法还包括:
若待分析素材为待分析语音流或待分析图像,基于所述待分析素材相匹配的文本识别方式,对所述待分析素材中的文字信息进行识别,得到所述待分析素材的文本内容;
以及,所述基于所述情感特征,生成所述待分析素材对应的第一语音流,包括:
在基于所述文本内容生成语音流的过程将所述情感特征同步融合至正在生成的语音流中,得到所述待分析素材对应的第一语音流;或者,
根据所述情感特征对预先生成的初始语音流进行调整,以将所述情感特征融合至所述初始语音流中,得到所述待分析素材对应的第一语音流,其中,所述初始语音流包括所述待分析语音流或基于所述文本内容生成的语音流。
3.根据权利要求2所述的基于情感识别的语音流合成方法,其特征在于,所述语义特征包括所述待分析素材的全局语义特征以及所述文本内容中按照位置顺序排列的一个或多个分割语句的局部语义特征;
在所述根据所述语义特征,提取所述待分析素材中的情感特征之前,所述方法还包括:
提取每个所述分割语句所包含的目标关键词;
以及,所述根据所述语义特征,提取所述待分析素材的情感特征,包括:
根据所述全局语义特征,确定所述待分析素材的全局情感特征,所述全局情感特征包括所述待分析素材的情感基调;
根据每个所述分割语句的局部语义特征以及每个所述分割语句所包含的目标关键词,确定每个所述分割语句的局部情感特征,所述局部情感特征包括情感程度、情感类型、情感指向中的一个或多个,其中,所述情感程度包括情感愉悦程度、情感激烈程度、情感可控程度中的一个或多个,所述情感指向包括内倾情感指向或外倾情感指向;
根据所述全局情感特征,对每个所述分割语句的局部情感特征中的情感程度进行调整,得到每个所述分割语句的新的局部情感特征,作为所述待分析素材的情感特征。
4.根据权利要求3所述的基于情感识别的语音流合成方法,其特征在于,所述根据每个所述分割语句的局部语义特征以及每个所述分割语句所包含的目标关键词,确定每个所述分割语句的局部情感特征,包括:
对于所有所述分割语句中排列顺序为首的第一个分割语句,根据所述第一个分割语句的局部语义特征以及所述第一个分割语句所包含的目标关键词,确定所述第一个分割语句的局部情感特征;
对于所有所述分割语句中除所述第一个分割语句之外的每个其他所述分割语句,根据该分割语句的局部语义特征,判断该分割语句与其在前相邻分割语句之间的关联程度是否大于等于关联程度阈值;当判断结果为是时,根据该分割语句的局部语义特征、该分割语句所包含的目标关键词以及该分割语句的在前相邻分割语句的局部情感特征,确定该分割语句的局部情感特征;当判断结果为否时,根据该分割语句的局部语义特征以及该分割语句所包含的目标关键词,确定该分割语句的局部情感特征。
5.根据权利要求3所述的基于情感识别的语音流合成方法,其特征在于,所述在基于所述文本内容生成语音流的过程中将所述情感特征同步融合至正在生成的语音流中,得到所述待分析素材对应的第一语音流,包括:
根据所述文本内容中每个语素的标准发音以及该语素的相邻语素的标准发音,确定该语素的适配发音,所述语素用于表示所述文本内容中最小的音义结合体;
在基于每个所述语素的适配发音生成语音的过程中将预先根据所述情感特征确定出的该语素相匹配的情感表征属性同步融合至该语素对应的语音中,以合成所述待分析素材对应的第一语音流;
所述根据所述情感特征对预先生成的初始语音流进行调整,以将所述情感特征融合至所述初始语音流中,得到所述待分析素材对应的第一语音流,包括:
基于预先根据所述情感特征确定出的所述文本内容中每个语素相匹配的情感表征属性,对预先生成的初始语音流中该语素对应的语音进行调整,得到所述待分析素材对应的第一语音流;
以及,所述方法还包括:
根据所述情感特征,确定每个所述分割语句的基础语调;
对于每个所述分割语句中的每个语素,根据该语素的语素属性以及该分割语句的基础语调,确定该语素相匹配的情感表征属性,每个所述语素的语素属性包括该语素所属的词语类型和/或该语素在相应分割语句中的位置,所述情感表征属性包括轻重音程度、声调和发音时长中的一个或多个。
6.根据权利要求1-5中任一项所述的基于情感识别的语音流合成方法,其特征在于,所述方法还包括:
确定所述待分析素材所包含的一个或多个角色相匹配的声音特征;
根据每个所述角色相匹配的声音特征对所述第一语音流进行调整,以将该角色相匹配的声音特征融合至所述第一语音流中该角色对应的子语音流中,得到所述待分析素材对应的第二语音流;
其中,所述确定所述待分析素材所包含的一个或多个角色相匹配的声音特征,包括:
确定所述待分析素材所包含的一个或多个角色相匹配的声音标签,并根据每个所述角色相匹配的声音标签,合成该角色相匹配的声音特征,其中,每个所述角色相匹配的声音标签包括用户针对该角色确定的声音标签和/或根据所述待分析素材的特征信息确定出的该角色相匹配的声音标签,所述特征信息包括所述语义特征和/或所述情感特征;和/或,
对于所述待分析素材所包含的每个角色,基于预先设定的一个或多个声音特征提取因子,从针对该角色预先采集的声音采集语音中提取该角色相匹配的声音特征。
7.根据权利要求6所述的基于情感识别的语音流合成方法,其特征在于,所述方法还包括:
若所述待分析素材为所述待分析语音流且所述待分析素材的声纹识别结果包括至少两种声纹信息,将每种所述声纹信息所对应的人物确定为所述待分析素材中的一个角色;
若所述待分析素材为所述待分析语音流且所述待分析素材的声纹识别结果仅包括一种声纹信息,或者,若所述待分析素材为待分析文本或所述待分析图像,根据所述语义特征以及所述文本内容中一个或多个分割语句所包含的目标关键词,确定每个所述分割语句所对应的角色,作为所述待分析素材所包含的所有角色,其中,每个所述角色对应一个或多个所述分割语句。
8.根据权利要求3、4、5、7中任一项所述的基于情感识别的语音流合成方法,其特征在于,所述方法还包括:
确定所述待分析素材相匹配的语句分割依据;
基于所述语句分割依据,对所述文本内容进行分割,得到所述文本内容所包含的按照位置顺序排列的一个或多个分割语句;
其中,所述确定所述待分析素材相匹配的语句分割依据,包括:
若所述待分析素材为所述待分析语音流,当所述待分析素材的声纹识别结果包括至少两种声纹信息时,将所述声纹识别结果以及所述待分析素材中的语音停顿时间确定为所述待分析素材相匹配的语句分割依据;当所述待分析素材的声纹识别结果仅包括一种所述声纹信息时,将所述待分析素材中的语音停顿时间确定为所述待分析素材相匹配的语句分割依据;
若所述待分析素材为所述待分析文本或所述待分析图像,判断所述文本内容是否包括元素类型为预设元素类型的第一文本元素;若所述文本内容包括所述第一文本元素,将所述第一文本元素确定为所述待分析素材相匹配的语句分割依据;若所述文本内容不包括所述第一文本元素,确定所述文本内容中每两个相邻语素之间的间隙,并判断每两个相邻语素之间的间隙是否存在大于等于预设长度的目标间隙;若存在所述目标间隙,将所述目标间隙确定为所述待分析素材相匹配的语句分割依据。
9.根据权利要求6或7所述的基于情感识别的语音流合成方法,其特征在于,在所述确定所述待分析素材所包含的一个或多个角色相匹配的声音特征之后,所述方法还包括:
确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态,所述声音状态至少包括声音年龄;
根据每个所述角色对应的每个所述分割语句相匹配的声音状态,对该角色相匹配的声音特征中该分割语句对应的子声音特征进行调整,得到该角色相匹配的新的声音特征,并触发执行所述的根据每个所述角色相匹配的声音特征对所述第一语音流进行调整,以将该角色相匹配的声音特征融合至所述第一语音流中该角色对应的子语音流中,得到所述待分析素材对应的第二语音流的操作;
所述确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态,包括:
根据用户针对每个所述角色对应的一个或多个所述分割语句输入的声音状态描述,确定该分割语句相匹配的声音状态;和/或,
根据所述语义特征,确定每个所述角色对应的一个或多个所述分割语句相匹配的声音状态。
10.一种基于情感识别的语音流合成装置,其特征在于,所述装置包括:
确定模块,用于根据待分析素材的文本内容,确定所述待分析素材的语义特征,所述待分析素材包括待分析文本、待分析语音流以及包含至少一个文字的待分析图像中的任意一种;
提取模块,用于根据所述语义特征,提取所述待分析素材的情感特征;
语音生成模块,用于基于所述情感特征,生成所述待分析素材对应的第一语音流,所述第一语音流为包含所述情感特征的语音流。
CN202310644888.1A 2023-06-01 2023-06-01 基于情感识别的语音流合成方法及装置 Pending CN116580696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310644888.1A CN116580696A (zh) 2023-06-01 2023-06-01 基于情感识别的语音流合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310644888.1A CN116580696A (zh) 2023-06-01 2023-06-01 基于情感识别的语音流合成方法及装置

Publications (1)

Publication Number Publication Date
CN116580696A true CN116580696A (zh) 2023-08-11

Family

ID=87545184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310644888.1A Pending CN116580696A (zh) 2023-06-01 2023-06-01 基于情感识别的语音流合成方法及装置

Country Status (1)

Country Link
CN (1) CN116580696A (zh)

Similar Documents

Publication Publication Date Title
CN111566655B (zh) 多种语言文本语音合成方法
US11496582B2 (en) Generation of automated message responses
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US10891928B2 (en) Automatic song generation
US11443733B2 (en) Contextual text-to-speech processing
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US9368104B2 (en) System and method for synthesizing human speech using multiple speakers and context
US20160379638A1 (en) Input speech quality matching
WO2018200268A1 (en) Automatic song generation
JP4038211B2 (ja) 音声合成装置,音声合成方法および音声合成システム
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
CN115485766A (zh) 使用bert模型的语音合成韵律
KR101160193B1 (ko) 감성적 음성합성 장치 및 그 방법
Boeffard et al. Towards Fully Automatic Annotation of Audio Books for TTS.
CN108364632A (zh) 一种具备情感的中文文本人声合成方法
CN101685633A (zh) 基于韵律参照的语音合成装置和方法
CN108305611B (zh) 文本转语音的方法、装置、存储介质和计算机设备
CN106710585A (zh) 语音交互过程中的多音字播报方法及系统
Lin et al. Hierarchical prosody modeling for Mandarin spontaneous speech
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
KR20090040014A (ko) 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
CN116580696A (zh) 基于情感识别的语音流合成方法及装置
CN114492382A (zh) 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination