CN114678006B

CN114678006B - 一种基于节奏的语音合成方法及系统

Info

Publication number: CN114678006B
Application number: CN202210596049.2A
Authority: CN
Inventors: 余勇; 钟少恒; 付佳佳; 陈锦荣; 杨毅; 王翊; 王佳骏; 吕华良; 蔡勇超; 丁铖; 陈志刚; 陈捷; 陈瑾; 曹小冬; 吴启明; 林承勋; 林家树; 郭泽豪; 符春造; 方美明
Original assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-23
Anticipated expiration: 2042-05-30
Also published as: CN114678006A

Abstract

本发明涉及语音识别技术领域，公开了一种基于节奏的语音合成方法及系统，其方法通过将待处理文本划分为多个自然段落，对每个自然段落和全文进行分词处理和词性标注，根据词性标注结果进行加权计算，并根据计算结果确定相应的自然段落的情绪类型以及全文的情绪类型，还根据情绪类型确定自然段落的节奏以及全文节奏，根据预设的语音属性数据、全文节奏与自然段落的节奏进行加权计算，得到每个自然段落的语音合成节奏，通过语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果，从而利用情绪确定自然段落的节奏，降低了节奏生成难度，使得语音合成结果更加生动。

Description

一种基于节奏的语音合成方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于节奏的语音合成方法及系统。

背景技术

在语音合成中，选择基本节奏是最重要的一个步骤，选择基本节奏是由文本的基调决定的，若不符合文本基调，导致所有文本的语音合成出现错误，导致滑稽的场景。

在语音合成（TTS）中，现有技术只是对语音进行简单的文字转换输出，但语音合成的节奏生成难度较高，导致语音合成结果十分生硬，难以表达出真实的情感，降低了用户交互的体验感。

发明内容

本发明提供了一种基于节奏的语音合成方法及系统，解决了语音合成的节奏生成难度较高的技术问题。

有鉴于此，本发明第一方面提供了一种基于节奏的语音合成方法，包括以下步骤：

将待处理文本进行段落划分，得到多个自然段落；

对每个所述自然段落进行分词处理，得到每个所述自然段落的分词结果，对每个所述自然段落的分词结果进行词性标注，对所述自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型；

对所述待处理文本的全文进行分词处理，得到全文的分词结果，对全文的分词结果进行词性标注，对全文的词性标注结果进行加权计算，根据计算结果确定全文的情绪类型；

基于预设的情绪-节奏映射规则，根据所述自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏；

根据预设的语音属性数据、全文的节奏与所述自然段落的节奏进行加权计算，得到相应所述自然段落的语音合成节奏；

根据所述语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果。

优选地，所述将待处理文本进行段落划分，得到多个自然段落的步骤具体包括：

获取所述待处理文本中的换行字符，根据所述换行字符对上下文进行段落划分，得到多个自然段落。

优选地，所述将待处理文本进行段落划分，得到多个自然段落的步骤之后，所述对每个所述自然段落进行分词处理，得到每个所述自然段落的分词结果，对每个所述自然段落的分词结果进行词性标注，对所述自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型的步骤之前具体包括：

对各个自然段落进行LDA建模，得到相应的LDA主题模型；

基于所述LDA主题模型，计算各个自然段落之间的主题相似度，根据所述主题相似度与预设的相似度阈值的比对结果，对多个所述自然段落进行合并。

优选地，所述对每个所述自然段落进行分词处理，得到每个所述自然段落的分词结果，对每个所述自然段落的分词结果进行词性标注，对所述自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型的步骤具体包括：

对所述自然段落进行分词处理，得到分词结果；

对所述分词结果进行词性标注，得到词性标注结果，其词性包括形容词、动词和名词；

根据预设的词性权重对所述分词结果的词性进行加权计算，得到词性加权结果；

根据词性加权结果与预设的加权阈值的对比结果，确定相应的自然段落的情绪类型，所述情绪类型包括表现型情绪和场景型情绪，所述表现型情绪包括喜、怒、哀、中性，所述场景型情绪包括轻快、庄重、舒缓、紧张。

优选地，所述预设的语音属性数据包括语速、停顿时间、音调和音量。

第二方面，本发明还提供了一种基于节奏的语音合成系统，包括：

段落划分模块，用于将待处理文本进行段落划分，得到多个自然段落；

段落情绪判断模块，用于对每个所述自然段落进行分词处理，得到每个所述自然段落的分词结果，对每个所述自然段落的分词结果进行词性标注，对所述自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型；

全文情绪判断模块，用于对所述待处理文本的全文进行分词处理，得到全文的分词结果，对全文的分词结果进行词性标注，对全文的词性标注结果进行加权计算，根据计算结果确定全文的情绪类型；

节奏判断模块，用于基于预设的情绪-节奏映射规则，根据所述自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏；

节奏合成模块，用于根据预设的语音属性数据、全文的节奏与所述自然段落的节奏进行加权计算，得到相应所述自然段落的语音合成节奏；

语音合成模块，用于根据所述语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果。

优选地，所述段落划分模块具体用于，获取所述待处理文本中的换行字符，根据所述换行字符对上下文进行段落划分，得到多个自然段落。

优选地，本系统还包括：

主题模块，用于对各个自然段落进行LDA建模，得到相应的LDA主题模型；

合并模块，用于基于所述LDA主题模型，计算各个自然段落之间的主题相似度，根据所述主题相似度与预设的相似度阈值的比对结果，对多个所述自然段落进行合并。

优选地，所述段落情绪判断模块具体包括：

分词模块，用于对所述自然段落进行分词处理，得到分词结果；

词性标注模块，用于对所述分词结果进行词性标注，得到词性标注结果，其词性包括形容词、动词和名词；

词性加权模块，用于根据预设的词性权重对所述分词结果的词性进行加权计算，得到词性加权结果；

情绪确定模块，用于根据词性加权结果与预设的加权阈值的对比结果，确定相应的自然段落的情绪类型，所述情绪类型包括表现型情绪和场景型情绪，所述表现型情绪包括喜、怒、哀、中性，所述场景型情绪包括轻快、庄重、舒缓、紧张。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过将待处理文本划分为多个自然段落，对每个自然段落和全文进行分词处理和词性标注，根据词性标注结果进行加权计算，并根据计算结果确定相应的自然段落的情绪类型以及全文的情绪类型，还根据情绪类型确定自然段落的节奏以及全文节奏，根据预设的语音属性数据、全文节奏与自然段落的节奏进行加权计算，得到每个自然段落的语音合成节奏，通过语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果，从而利用情绪确定自然段落的节奏，降低了节奏生成难度，使得语音合成结果更加生动。

附图说明

图1为本发明实施例提供的一种基于节奏的语音合成方法的流程图；

图2为本发明实施例提供的一种基于节奏的语音合成系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1，本发明提供的一种基于节奏的语音合成方法，包括以下步骤：

S1、将待处理文本进行段落划分，得到多个自然段落。

S2、对每个自然段落进行分词处理，得到每个自然段落的分词结果，对每个自然段落的分词结果进行词性标注，对自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型。

S3、对待处理文本的全文进行分词处理，得到全文的分词结果，对全文的分词结果进行词性标注，对全文的词性标注结果进行加权计算，根据计算结果确定全文的情绪类型；

S4、基于预设的情绪-节奏映射规则，根据自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏。

可以理解的是，语言的基本节奏的概念是将语速、停顿时间、音调（音色）、音量结合在一起，表达不同文本的概念，若在语音合成过程中，不考虑节奏，则会使得语音合成结果十分生硬，难以表达出真实的情感，降低了用户交互的体验感。

S5、根据预设的语音属性数据、全文的节奏与自然段落的节奏进行加权计算，得到相应自然段落的语音合成节奏。

其中，预设的语音属性数据包括语速、停顿时间、音调和音量。在加权计算中，可以赋予每个语音属性数据全文的节奏与自然段落的节奏的权重进行加权计算，得到相应的语音合成节奏。

可以理解的是，通过考虑全文的节奏，可以更能贴切全文主题情感，使得每个自然段的节奏更加贴切全文主题。

S6、根据语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果。

可以理解的是，得到语音合成节奏后，通过在语音合成设备中设置相应的语音合成节奏，使得自然段落在转换为语音后，可以根据其语音合成节奏进行朗读。

需要说明的是，本实施例提供了一种基于节奏的语音合成方法，通过将待处理文本划分为多个自然段落，对每个自然段落和全文进行分词处理和词性标注，根据词性标注结果进行加权计算，并根据计算结果确定相应的自然段落的情绪类型以及全文的情绪类型，还根据情绪类型确定自然段落的节奏以及全文节奏，根据预设的语音属性数据、全文节奏与自然段落的节奏进行加权计算，得到每个自然段落的语音合成节奏，通过语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果，从而利用情绪确定自然段落的节奏，降低了节奏生成难度，使得语音合成结果更加生动。

在一个具体实施例中，步骤S1具体包括：

S101、获取待处理文本中的换行字符，根据换行字符对上下文进行段落划分，得到多个自然段落。

可以理解的是，可以通过深度学习技术训练目标识别模型，来识别特定的换行字符，如换行键，根据换行字符对上下文进行段落划分，得到多个自然段落。

在一个具体实施例中，步骤S1之后，步骤S2之前具体包括：

S111、对各个自然段落进行LDA建模，得到相应的LDA主题模型。

S112、基于LDA主题模型，计算各个自然段落之间的主题相似度，根据主题相似度与预设的相似度阈值的比对结果，对多个自然段落进行合并。

可以理解的是，由于多个自然段落的主题可能相同，则通过构建每个自然段落的LDA主题模型，计算各个自然段落之间的主题相似度，若主题相似度大于预设的相似度阈值，则将相应的两个自然段落进行合并，以便于后续同步处理。

在一个具体实施例中，步骤S2具体包括：

S201、对自然段落进行分词处理，得到分词结果。

S202、对分词结果进行词性标注，得到词性标注结果，其词性包括形容词、动词和名词。

可以理解的是，可以根据已有的词语-词性的词库对分词结果进行匹配，得到相应的词性进行词性标注。

S203、根据预设的词性权重对分词结果的词性进行加权计算，得到词性加权结果；

S204、根据词性加权结果与预设的加权阈值的对比结果，确定相应的自然段落的情绪类型，情绪类型包括表现型情绪和场景型情绪，表现型情绪包括喜、怒、哀、中性，场景型情绪包括轻快、庄重、舒缓、紧张。

具体地，本实施例通过表现型情绪和场景型情绪分别对自然段落进行确定情绪，设置动词和名词的情绪加权比例，通常来说，表现型情绪偏重于动词和形容词。而场景型情绪偏重于名词和形容词，通过定义情绪类型，表现性情绪：喜、怒、哀、中性场景型情绪：轻快、庄重、舒缓、紧张。

需要说明的是，在步骤S3中，对于待处理文本的全文进行分词处理，得到全文的分词结果，对全文的分词结果进行词性标注，对全文的词性标注结果进行加权计算，根据计算结果确定全文的情绪类型与步骤S2的具体过程一致，在此不再赘述。

通过统计每个自然段落中各个词性的数量，并设置不同词性的加权比例，得出加权情绪得分，并根据加权分值与不同情绪阈值范围的划分来判断为哪种表现型情绪以及哪种场景型情绪。

同时，情绪-节奏映射规则为预先设定的，其情绪-节奏映射规则如表1。

表1

以上为本发明提供的一种基于节奏的语音合成方法的实施例的详细描述，以下为本发明提供的一种基于节奏的语音合成系统的实施例的详细描述。

为了方便理解，请参阅图2，本发明提供了一种基于节奏的语音合成系统，包括：

段落划分模块100，用于将待处理文本进行段落划分，得到多个自然段落；

段落情绪判断模块200，用于对每个自然段落进行分词处理，得到每个自然段落的分词结果，对每个自然段落的分词结果进行词性标注，对自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型；

全文情绪判断模块300，用于对待处理文本的全文进行分词处理，得到全文的分词结果，对全文的分词结果进行词性标注，对全文的词性标注结果进行加权计算，根据计算结果确定全文的情绪类型；

节奏判断模块400，用于基于预设的情绪-节奏映射规则，根据自然段落的情绪类型和全文的情绪类型确定每个自然段落相应的节奏以及全文的节奏；

节奏合成模块500，用于根据预设的语音属性数据、全文的节奏与自然段落的节奏进行加权计算，得到相应自然段落的语音合成节奏；

语音合成模块600，用于根据语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果。

在一个具体实施例中，段落划分模块具体用于，获取待处理文本中的换行字符，根据换行字符对上下文进行段落划分，得到多个自然段落。

在一个具体实施例中，本系统还包括：

合并模块，用于基于LDA主题模型，计算各个自然段落之间的主题相似度，根据主题相似度与预设的相似度阈值的比对结果，对多个自然段落进行合并。

在一个具体实施例中，段落情绪判断模块具体包括：

分词模块，用于对自然段落进行分词处理，得到分词结果；

词性标注模块，用于对分词结果进行词性标注，得到词性标注结果，其词性包括形容词、动词和名词；

词性加权模块，用于根据预设的词性权重对分词结果的词性进行加权计算，得到词性加权结果；

情绪确定模块，用于根据词性加权结果与预设的加权阈值的对比结果，确定相应的自然段落的情绪类型，情绪类型包括表现型情绪和场景型情绪，表现型情绪包括喜、怒、哀、中性，场景型情绪包括轻快、庄重、舒缓、紧张。

在一个具体实施例中，预设的语音属性数据包括语速、停顿时间、音调和音量。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于节奏的语音合成方法，其特征在于，包括以下步骤：

将待处理文本进行段落划分，得到多个自然段落；

根据所述语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果；

所述对每个所述自然段落进行分词处理，得到每个所述自然段落的分词结果，对每个所述自然段落的分词结果进行词性标注，对所述自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型的步骤具体包括：

对所述自然段落进行分词处理，得到分词结果；

2.根据权利要求1所述的基于节奏的语音合成方法，其特征在于，所述将待处理文本进行段落划分，得到多个自然段落的步骤具体包括：

3.根据权利要求1所述的基于节奏的语音合成方法，其特征在于，所述将待处理文本进行段落划分，得到多个自然段落的步骤之后，所述对每个所述自然段落进行分词处理，得到每个所述自然段落的分词结果，对每个所述自然段落的分词结果进行词性标注，对所述自然段落的词性标注结果进行加权计算，根据计算结果确定相应的自然段落的情绪类型的步骤之前具体包括：

对各个自然段落进行LDA建模，得到相应的LDA主题模型；

4.根据权利要求1所述的基于节奏的语音合成方法，其特征在于，所述预设的语音属性数据包括语速、停顿时间、音调和音量。

5.一种基于节奏的语音合成系统，其特征在于，包括：

语音合成模块，用于根据所述语音合成节奏对相应的自然段落进行语音转换，得到语音合成结果；

所述段落情绪判断模块具体包括：

6.根据权利要求5所述的基于节奏的语音合成系统，其特征在于，所述段落划分模块具体用于，获取所述待处理文本中的换行字符，根据所述换行字符对上下文进行段落划分，得到多个自然段落。

7.根据权利要求5所述的基于节奏的语音合成系统，其特征在于，还包括：

8.根据权利要求5所述的基于节奏的语音合成系统，其特征在于，所述预设的语音属性数据包括语速、停顿时间、音调和音量。