CN114678006B - 一种基于节奏的语音合成方法及系统 - Google Patents

一种基于节奏的语音合成方法及系统 Download PDF

Info

Publication number
CN114678006B
CN114678006B CN202210596049.2A CN202210596049A CN114678006B CN 114678006 B CN114678006 B CN 114678006B CN 202210596049 A CN202210596049 A CN 202210596049A CN 114678006 B CN114678006 B CN 114678006B
Authority
CN
China
Prior art keywords
natural
paragraph
speech
rhythm
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210596049.2A
Other languages
English (en)
Other versions
CN114678006A (zh
Inventor
余勇
钟少恒
付佳佳
陈锦荣
杨毅
王翊
王佳骏
吕华良
蔡勇超
丁铖
陈志刚
陈捷
陈瑾
曹小冬
吴启明
林承勋
林家树
郭泽豪
符春造
方美明
李鸿盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Power Supply Bureau of Guangdong Power Grid Corp
Original Assignee
Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Power Supply Bureau of Guangdong Power Grid Corp filed Critical Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority to CN202210596049.2A priority Critical patent/CN114678006B/zh
Publication of CN114678006A publication Critical patent/CN114678006A/zh
Application granted granted Critical
Publication of CN114678006B publication Critical patent/CN114678006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音识别技术领域,公开了一种基于节奏的语音合成方法及系统,其方法通过将待处理文本划分为多个自然段落,对每个自然段落和全文进行分词处理和词性标注,根据词性标注结果进行加权计算,并根据计算结果确定相应的自然段落的情绪类型以及全文的情绪类型,还根据情绪类型确定自然段落的节奏以及全文节奏,根据预设的语音属性数据、全文节奏与自然段落的节奏进行加权计算,得到每个自然段落的语音合成节奏,通过语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果,从而利用情绪确定自然段落的节奏,降低了节奏生成难度,使得语音合成结果更加生动。

Description

一种基于节奏的语音合成方法及系统
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于节奏的语音合成方法及系统。
背景技术
在语音合成中,选择基本节奏是最重要的一个步骤,选择基本节奏是由文本的基调决定的,若不符合文本基调,导致所有文本的语音合成出现错误,导致滑稽的场景。
在语音合成(TTS)中,现有技术只是对语音进行简单的文字转换输出,但语音合成的节奏生成难度较高,导致语音合成结果十分生硬,难以表达出真实的情感,降低了用户交互的体验感。
发明内容
本发明提供了一种基于节奏的语音合成方法及系统,解决了语音合成的节奏生成难度较高的技术问题。
有鉴于此,本发明第一方面提供了一种基于节奏的语音合成方法,包括以下步骤:
将待处理文本进行段落划分,得到多个自然段落;
对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型;
对所述待处理文本的全文进行分词处理,得到全文的分词结果,对全文的分词结果进行词性标注,对全文的词性标注结果进行加权计算,根据计算结果确定全文的情绪类型;
基于预设的情绪-节奏映射规则,根据所述自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏;
根据预设的语音属性数据、全文的节奏与所述自然段落的节奏进行加权计算,得到相应所述自然段落的语音合成节奏;
根据所述语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果。
优选地,所述将待处理文本进行段落划分,得到多个自然段落的步骤具体包括:
获取所述待处理文本中的换行字符,根据所述换行字符对上下文进行段落划分,得到多个自然段落。
优选地,所述将待处理文本进行段落划分,得到多个自然段落的步骤之后,所述对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型的步骤之前具体包括:
对各个自然段落进行LDA建模,得到相应的LDA主题模型;
基于所述LDA主题模型,计算各个自然段落之间的主题相似度,根据所述主题相似度与预设的相似度阈值的比对结果,对多个所述自然段落进行合并。
优选地,所述对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型的步骤具体包括:
对所述自然段落进行分词处理,得到分词结果;
对所述分词结果进行词性标注,得到词性标注结果,其词性包括形容词、动词和名词;
根据预设的词性权重对所述分词结果的词性进行加权计算,得到词性加权结果;
根据词性加权结果与预设的加权阈值的对比结果,确定相应的自然段落的情绪类型,所述情绪类型包括表现型情绪和场景型情绪,所述表现型情绪包括喜、怒、哀、中性,所述场景型情绪包括轻快、庄重、舒缓、紧张。
优选地,所述预设的语音属性数据包括语速、停顿时间、音调和音量。
第二方面,本发明还提供了一种基于节奏的语音合成系统,包括:
段落划分模块,用于将待处理文本进行段落划分,得到多个自然段落;
段落情绪判断模块,用于对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型;
全文情绪判断模块,用于对所述待处理文本的全文进行分词处理,得到全文的分词结果,对全文的分词结果进行词性标注,对全文的词性标注结果进行加权计算,根据计算结果确定全文的情绪类型;
节奏判断模块,用于基于预设的情绪-节奏映射规则,根据所述自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏;
节奏合成模块,用于根据预设的语音属性数据、全文的节奏与所述自然段落的节奏进行加权计算,得到相应所述自然段落的语音合成节奏;
语音合成模块,用于根据所述语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果。
优选地,所述段落划分模块具体用于,获取所述待处理文本中的换行字符,根据所述换行字符对上下文进行段落划分,得到多个自然段落。
优选地,本系统还包括:
主题模块,用于对各个自然段落进行LDA建模,得到相应的LDA主题模型;
合并模块,用于基于所述LDA主题模型,计算各个自然段落之间的主题相似度,根据所述主题相似度与预设的相似度阈值的比对结果,对多个所述自然段落进行合并。
优选地,所述段落情绪判断模块具体包括:
分词模块,用于对所述自然段落进行分词处理,得到分词结果;
词性标注模块,用于对所述分词结果进行词性标注,得到词性标注结果,其词性包括形容词、动词和名词;
词性加权模块,用于根据预设的词性权重对所述分词结果的词性进行加权计算,得到词性加权结果;
情绪确定模块,用于根据词性加权结果与预设的加权阈值的对比结果,确定相应的自然段落的情绪类型,所述情绪类型包括表现型情绪和场景型情绪,所述表现型情绪包括喜、怒、哀、中性,所述场景型情绪包括轻快、庄重、舒缓、紧张。
优选地,所述预设的语音属性数据包括语速、停顿时间、音调和音量。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过将待处理文本划分为多个自然段落,对每个自然段落和全文进行分词处理和词性标注,根据词性标注结果进行加权计算,并根据计算结果确定相应的自然段落的情绪类型以及全文的情绪类型,还根据情绪类型确定自然段落的节奏以及全文节奏,根据预设的语音属性数据、全文节奏与自然段落的节奏进行加权计算,得到每个自然段落的语音合成节奏,通过语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果,从而利用情绪确定自然段落的节奏,降低了节奏生成难度,使得语音合成结果更加生动。
附图说明
图1为本发明实施例提供的一种基于节奏的语音合成方法的流程图;
图2为本发明实施例提供的一种基于节奏的语音合成系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,请参阅图1,本发明提供的一种基于节奏的语音合成方法,包括以下步骤:
S1、将待处理文本进行段落划分,得到多个自然段落。
S2、对每个自然段落进行分词处理,得到每个自然段落的分词结果,对每个自然段落的分词结果进行词性标注,对自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型。
S3、对待处理文本的全文进行分词处理,得到全文的分词结果,对全文的分词结果进行词性标注,对全文的词性标注结果进行加权计算,根据计算结果确定全文的情绪类型;
S4、基于预设的情绪-节奏映射规则,根据自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏。
可以理解的是,语言的基本节奏的概念是将语速、停顿时间、音调(音色)、音量结合在一起,表达不同文本的概念,若在语音合成过程中,不考虑节奏,则会使得语音合成结果十分生硬,难以表达出真实的情感,降低了用户交互的体验感。
S5、根据预设的语音属性数据、全文的节奏与自然段落的节奏进行加权计算,得到相应自然段落的语音合成节奏。
其中,预设的语音属性数据包括语速、停顿时间、音调和音量。在加权计算中,可以赋予每个语音属性数据全文的节奏与自然段落的节奏的权重进行加权计算,得到相应的语音合成节奏。
可以理解的是,通过考虑全文的节奏,可以更能贴切全文主题情感,使得每个自然段的节奏更加贴切全文主题。
S6、根据语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果。
可以理解的是,得到语音合成节奏后,通过在语音合成设备中设置相应的语音合成节奏,使得自然段落在转换为语音后,可以根据其语音合成节奏进行朗读。
需要说明的是,本实施例提供了一种基于节奏的语音合成方法,通过将待处理文本划分为多个自然段落,对每个自然段落和全文进行分词处理和词性标注,根据词性标注结果进行加权计算,并根据计算结果确定相应的自然段落的情绪类型以及全文的情绪类型,还根据情绪类型确定自然段落的节奏以及全文节奏,根据预设的语音属性数据、全文节奏与自然段落的节奏进行加权计算,得到每个自然段落的语音合成节奏,通过语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果,从而利用情绪确定自然段落的节奏,降低了节奏生成难度,使得语音合成结果更加生动。
在一个具体实施例中,步骤S1具体包括:
S101、获取待处理文本中的换行字符,根据换行字符对上下文进行段落划分,得到多个自然段落。
可以理解的是,可以通过深度学习技术训练目标识别模型,来识别特定的换行字符,如换行键,根据换行字符对上下文进行段落划分,得到多个自然段落。
在一个具体实施例中,步骤S1之后,步骤S2之前具体包括:
S111、对各个自然段落进行LDA建模,得到相应的LDA主题模型。
S112、基于LDA主题模型,计算各个自然段落之间的主题相似度,根据主题相似度与预设的相似度阈值的比对结果,对多个自然段落进行合并。
可以理解的是,由于多个自然段落的主题可能相同,则通过构建每个自然段落的LDA主题模型,计算各个自然段落之间的主题相似度,若主题相似度大于预设的相似度阈值,则将相应的两个自然段落进行合并,以便于后续同步处理。
在一个具体实施例中,步骤S2具体包括:
S201、对自然段落进行分词处理,得到分词结果。
S202、对分词结果进行词性标注,得到词性标注结果,其词性包括形容词、动词和名词。
可以理解的是,可以根据已有的词语-词性的词库对分词结果进行匹配,得到相应的词性进行词性标注。
S203、根据预设的词性权重对分词结果的词性进行加权计算,得到词性加权结果;
S204、根据词性加权结果与预设的加权阈值的对比结果,确定相应的自然段落的情绪类型,情绪类型包括表现型情绪和场景型情绪,表现型情绪包括喜、怒、哀、中性,场景型情绪包括轻快、庄重、舒缓、紧张。
具体地,本实施例通过表现型情绪和场景型情绪分别对自然段落进行确定情绪,设置动词和名词的情绪加权比例,通常来说,表现型情绪偏重于动词和形容词。而场景型情绪偏重于名词和形容词,通过定义情绪类型,表现性情绪:喜、怒、哀、中性 场景型情绪:轻快、庄重、舒缓、紧张。
需要说明的是,在步骤S3中,对于待处理文本的全文进行分词处理,得到全文的分词结果,对全文的分词结果进行词性标注,对全文的词性标注结果进行加权计算,根据计算结果确定全文的情绪类型与步骤S2的具体过程一致,在此不再赘述。
通过统计每个自然段落中各个词性的数量,并设置不同词性的加权比例,得出加权情绪得分,并根据加权分值与不同情绪阈值范围的划分来判断为哪种表现型情绪以及哪种场景型情绪。
同时,情绪-节奏映射规则为预先设定的,其情绪-节奏映射规则如表1。
表1
Figure 73651DEST_PATH_IMAGE001
以上为本发明提供的一种基于节奏的语音合成方法的实施例的详细描述,以下为本发明提供的一种基于节奏的语音合成系统的实施例的详细描述。
为了方便理解,请参阅图2,本发明提供了一种基于节奏的语音合成系统,包括:
段落划分模块100,用于将待处理文本进行段落划分,得到多个自然段落;
段落情绪判断模块200,用于对每个自然段落进行分词处理,得到每个自然段落的分词结果,对每个自然段落的分词结果进行词性标注,对自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型;
全文情绪判断模块300,用于对待处理文本的全文进行分词处理,得到全文的分词结果,对全文的分词结果进行词性标注,对全文的词性标注结果进行加权计算,根据计算结果确定全文的情绪类型;
节奏判断模块400,用于基于预设的情绪-节奏映射规则,根据自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏;
节奏合成模块500,用于根据预设的语音属性数据、全文的节奏与自然段落的节奏进行加权计算,得到相应自然段落的语音合成节奏;
语音合成模块600,用于根据语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果。
在一个具体实施例中,段落划分模块具体用于,获取待处理文本中的换行字符,根据换行字符对上下文进行段落划分,得到多个自然段落。
在一个具体实施例中,本系统还包括:
主题模块,用于对各个自然段落进行LDA建模,得到相应的LDA主题模型;
合并模块,用于基于LDA主题模型,计算各个自然段落之间的主题相似度,根据主题相似度与预设的相似度阈值的比对结果,对多个自然段落进行合并。
在一个具体实施例中,段落情绪判断模块具体包括:
分词模块,用于对自然段落进行分词处理,得到分词结果;
词性标注模块,用于对分词结果进行词性标注,得到词性标注结果,其词性包括形容词、动词和名词;
词性加权模块,用于根据预设的词性权重对分词结果的词性进行加权计算,得到词性加权结果;
情绪确定模块,用于根据词性加权结果与预设的加权阈值的对比结果,确定相应的自然段落的情绪类型,情绪类型包括表现型情绪和场景型情绪,表现型情绪包括喜、怒、哀、中性,场景型情绪包括轻快、庄重、舒缓、紧张。
在一个具体实施例中,预设的语音属性数据包括语速、停顿时间、音调和音量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于节奏的语音合成方法,其特征在于,包括以下步骤:
将待处理文本进行段落划分,得到多个自然段落;
对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型;
对所述待处理文本的全文进行分词处理,得到全文的分词结果,对全文的分词结果进行词性标注,对全文的词性标注结果进行加权计算,根据计算结果确定全文的情绪类型;
基于预设的情绪-节奏映射规则,根据所述自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏;
根据预设的语音属性数据、全文的节奏与所述自然段落的节奏进行加权计算,得到相应所述自然段落的语音合成节奏;
根据所述语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果;
所述对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型的步骤具体包括:
对所述自然段落进行分词处理,得到分词结果;
对所述分词结果进行词性标注,得到词性标注结果,其词性包括形容词、动词和名词;
根据预设的词性权重对所述分词结果的词性进行加权计算,得到词性加权结果;
根据词性加权结果与预设的加权阈值的对比结果,确定相应的自然段落的情绪类型,所述情绪类型包括表现型情绪和场景型情绪,所述表现型情绪包括喜、怒、哀、中性,所述场景型情绪包括轻快、庄重、舒缓、紧张。
2.根据权利要求1所述的基于节奏的语音合成方法,其特征在于,所述将待处理文本进行段落划分,得到多个自然段落的步骤具体包括:
获取所述待处理文本中的换行字符,根据所述换行字符对上下文进行段落划分,得到多个自然段落。
3.根据权利要求1所述的基于节奏的语音合成方法,其特征在于,所述将待处理文本进行段落划分,得到多个自然段落的步骤之后,所述对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型的步骤之前具体包括:
对各个自然段落进行LDA建模,得到相应的LDA主题模型;
基于所述LDA主题模型,计算各个自然段落之间的主题相似度,根据所述主题相似度与预设的相似度阈值的比对结果,对多个所述自然段落进行合并。
4.根据权利要求1所述的基于节奏的语音合成方法,其特征在于,所述预设的语音属性数据包括语速、停顿时间、音调和音量。
5.一种基于节奏的语音合成系统,其特征在于,包括:
段落划分模块,用于将待处理文本进行段落划分,得到多个自然段落;
段落情绪判断模块,用于对每个所述自然段落进行分词处理,得到每个所述自然段落的分词结果,对每个所述自然段落的分词结果进行词性标注,对所述自然段落的词性标注结果进行加权计算,根据计算结果确定相应的自然段落的情绪类型;
全文情绪判断模块,用于对所述待处理文本的全文进行分词处理,得到全文的分词结果,对全文的分词结果进行词性标注,对全文的词性标注结果进行加权计算,根据计算结果确定全文的情绪类型;
节奏判断模块,用于基于预设的情绪-节奏映射规则,根据所述自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏;
节奏合成模块,用于根据预设的语音属性数据、全文的节奏与所述自然段落的节奏进行加权计算,得到相应所述自然段落的语音合成节奏;
语音合成模块,用于根据所述语音合成节奏对相应的自然段落进行语音转换,得到语音合成结果;
所述段落情绪判断模块具体包括:
分词模块,用于对所述自然段落进行分词处理,得到分词结果;
词性标注模块,用于对所述分词结果进行词性标注,得到词性标注结果,其词性包括形容词、动词和名词;
词性加权模块,用于根据预设的词性权重对所述分词结果的词性进行加权计算,得到词性加权结果;
情绪确定模块,用于根据词性加权结果与预设的加权阈值的对比结果,确定相应的自然段落的情绪类型,所述情绪类型包括表现型情绪和场景型情绪,所述表现型情绪包括喜、怒、哀、中性,所述场景型情绪包括轻快、庄重、舒缓、紧张。
6.根据权利要求5所述的基于节奏的语音合成系统,其特征在于,所述段落划分模块具体用于,获取所述待处理文本中的换行字符,根据所述换行字符对上下文进行段落划分,得到多个自然段落。
7.根据权利要求5所述的基于节奏的语音合成系统,其特征在于,还包括:
主题模块,用于对各个自然段落进行LDA建模,得到相应的LDA主题模型;
合并模块,用于基于所述LDA主题模型,计算各个自然段落之间的主题相似度,根据所述主题相似度与预设的相似度阈值的比对结果,对多个所述自然段落进行合并。
8.根据权利要求5所述的基于节奏的语音合成系统,其特征在于,所述预设的语音属性数据包括语速、停顿时间、音调和音量。
CN202210596049.2A 2022-05-30 2022-05-30 一种基于节奏的语音合成方法及系统 Active CN114678006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210596049.2A CN114678006B (zh) 2022-05-30 2022-05-30 一种基于节奏的语音合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210596049.2A CN114678006B (zh) 2022-05-30 2022-05-30 一种基于节奏的语音合成方法及系统

Publications (2)

Publication Number Publication Date
CN114678006A CN114678006A (zh) 2022-06-28
CN114678006B true CN114678006B (zh) 2022-08-23

Family

ID=82080979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210596049.2A Active CN114678006B (zh) 2022-05-30 2022-05-30 一种基于节奏的语音合成方法及系统

Country Status (1)

Country Link
CN (1) CN114678006B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7360151B1 (en) * 2003-05-27 2008-04-15 Walt Froloff System and method for creating custom specific text and emotive content message response templates for textual communications
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
JP2017532608A (ja) * 2014-08-22 2017-11-02 ザイア インクZya, Inc. テキストメッセージを音楽組成物に自動的に変換するシステム及び方法
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN108364632B (zh) * 2017-12-22 2021-09-10 东南大学 一种具备情感的中文文本人声合成方法
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备
CN112071300B (zh) * 2020-11-12 2021-04-06 深圳追一科技有限公司 语音会话方法、装置、计算机设备和存储介质
CN114049875A (zh) * 2021-11-10 2022-02-15 阿波罗智联(北京)科技有限公司 一种tts播报方法、装置、设备以及存储介质
CN114373444B (zh) * 2022-03-23 2022-05-27 广东电网有限责任公司佛山供电局 一种基于蒙太奇的语音合成方法、系统及设备

Also Published As

Publication number Publication date
CN114678006A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN108962217B (zh) 语音合成方法及相关设备
JP5149737B2 (ja) 自動会話システム、並びに会話シナリオ編集装置
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
CN106653052A (zh) 虚拟人脸动画的生成方法及装置
CN108228576B (zh) 文本翻译方法及装置
CN108877782A (zh) 语音识别方法和装置
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
JP2018147073A (ja) 出力文生成装置、出力文生成方法および出力文生成プログラム
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
JP2006178063A (ja) 対話処理装置
CN112242144A (zh) 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
WO2024114389A1 (zh) 用于交互的方法、装置、设备和存储介质
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN109658931A (zh) 语音交互方法、装置、计算机设备及存储介质
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN112307754A (zh) 语句获取方法及装置
CN106708789B (zh) 一种文本处理方法及装置
CN111324710B (zh) 一种基于虚拟人的在线调研方法、装置和终端设备
Lee et al. Machine comprehension of spoken content: TOEFL listening test and spoken SQuAD
CN113470625A (zh) 语音对话处理方法、装置、设备及存储介质
CN114678006B (zh) 一种基于节奏的语音合成方法及系统
Reddy et al. Indian sign language generation from live audio or text for tamil
CN115019787A (zh) 一种交互式同音异义词消歧方法、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant