CN116741146A

CN116741146A - 基于语义语调的方言语音生成方法、系统及介质

Info

Publication number: CN116741146A
Application number: CN202311020306.9A
Authority: CN
Inventors: 高健豪; 崔晓乾
Original assignee: Chengdu Ict Information Technology Co ltd
Current assignee: Chengdu Ict Information Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-09-12
Anticipated expiration: 2043-08-15
Also published as: CN116741146B

Abstract

本发明公开了基于语义语调的方言语音生成方法、系统及介质，涉及语音合成技术领域；识别次方言语音输入信息并进行语义语调相似度分析，根据语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则；按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音输出；本方案在现有的方言语音生成技术基础上进行方法上的改进，分析次方言输入信息的语义语调，根据语义语调分析结果确定该次方言输入信息的所属次方言规则，并根据次方言规则对基本方言输出文本进行修正，按照次方言规则输出次方言语音，有效解决大方言区内部的语言差异导致的沟通难的问题。

Description

基于语义语调的方言语音生成方法、系统及介质

技术领域

本发明涉及语音合成技术领域，具体涉及基于语义语调的方言语音生成方法、系统及介质。

背景技术

汉语方言是汉语的地域变体，一般认为，汉语方言通常分为十大方言：官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话；一个大方言内部仍存在语言差异，因此大方言之下又分次方言，次方言内部还可以再分为若干土语。如，官话方言分为：东北官话、北京官话、冀鲁官话、胶辽官话、兰银官话、西南官话和江淮官话；西南官话下分6片、22小片，主要分布于四川、重庆、贵州、云南、湖北、广西、湖南七省和直辖市。

对于汉语方言的语音识别和语音合成技术越来越成熟，语音合成是一种将文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。

现有的方言语音生成方法主要是大方言区方言，但是一个大方言区内部仍存在语言差异，现有的方言语音合成技术，仍然存在大方言区内部交流障碍的问题。

发明内容

本发明所要解决的技术问题是：现有的方言语音生成方法主要是大方言区方言，但是一个大方言区内部仍存在语言差异，目前的方言语音合成技术，仍然存在大方言区内部交流障碍的问题；本发明目的在于提供基于语义语调的方言语音生成方法、系统及介质，通过与阅读者进行一轮对话，根据阅读者的次方言语音输入信息调取相应的次方言规则，依据次方言规则将输出文本转化成次方言语音输出，有效帮助有视觉障碍的人阅读输出文本，增加文本文档的可读性，同时解决大方言区内部的语言差异导致的沟通难的问题。

本发明通过下述技术方案实现：

本方案提供基于语义语调的方言语音生成方法，包括：

识别次方言语音输入信息；

对次方言语音输入信息进行语义语调相似度分析，并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则；所述大方言语料库中存储有大方言区内所有方言规则，包括基本方言规则和次方言规则；所述基本方言规则为大方言区内使用人数最多方言所对应的规则；所述方言规则包括语义规则和语调规则；所述语义语调相似度分析包括：在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中，计算出的语义相似度和语调相似度，基于语义相似度和语调相似度得到语义语调相似度分析结果；

获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本；

按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音；

输出所述次方言语音。

本方案工作原理：现有的方言语音生成方法主要是针对大方言区，但是一个大方言区内部仍存在语言差异，比如巴蜀方言区中，不同区域还有各自的方言，一些典型的乡音比较特别的如乐山方言、内江方言、自贡方言、宜宾方言、泸州方言和雅安话等，相互之间语义和语调存在较大的差异；在进行方言语音生成时，现有方法通常直接按照的大方言区内使用人数最多的基本方言规则生成基本方言语音，对于乡音特别的区域依旧存在方言难以理解的现象；鉴于此，本方案提供基于语义语调的方言语音生成方法，在现有的方言语音生成技术基础上进行方法上的改进，分析次方言输入信息的语义语调，根据语义语调分析结果确定该次方言输入信息的所属次方言规则，并按照次方言规则（语义规则）对基本方言输出文本进行修正，按照次方言规则（语调规则）输出次方言语音，有效解决大方言区内部的语言差异导致的沟通难的问题，有效帮助有视觉障碍的人阅读输出文本，更能增加文本文档的可读性；考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点，本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征，根据语音语义分析结果来匹配查找对应的次方言规则，保障对应次方言规则匹配精准度，提高方言语音生成的有效性。

所述次方言输入信息包括次方言语音信息或精准的次方言名称信息，当次方言输入信息为精准的次方言名称信息，则可以省略语义语调分析和搜索过程，可以直接调取相关的次方言规则对基本方言输出文本进行给修正。

本方案提供了一种新的技术构思，通过与阅读者进行一轮交互，根据阅读者的（交互信息）次方言语音输入信息匹配调取相应的次方言规则，依据次方言规则将输出文本转化成次方言语音输出，有效帮助有视觉障碍的人阅读输出文本，更能增加文本文档的可读性，同时解决大方言区内部的语言差异导致的沟通难的问题。

进一步优化方案为，若在大方言语料库中未搜索出与语义语调相似度分析结果匹配的次方言规则时，直接将基本方言输出文本转化成基本方言语音后输出；当大方言语料库中未搜索匹配的次方言规则，就直接以使用人数最多的基本方言输出。

进一步优化方案为，所述识别次方言语音输入信息，包括方法：

将所述次方言语音输入信息输入到预先训练的方言语音识别模型中，得到次方言语音输入信息的识别信息，所述识别信息包括语义文本和语音信息。

进一步优化方案为，所述对次方言语音输入信息进行语义语调相似度分析，包括方法：

S1，获取次方言语音输入信息的语义文本和语音信息，基于基本方言规则先将语义文本转化成基本方言文本，再将基本方言文本转化成基本方言语音；

S2，基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Q_y，基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Q_d；

S3，根据语调相似度Q_d和语义相似度Q_y计算出语义语调相似度Q：

其中K为相似度系数。

进一步优化方案为，所述基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Q_y，包括方法：

分别对语音输入文本和基本方言输入文本进行词汇分割；

以句子为单位将语音输入文本和基本方言输入文本分别划分成m个句子，并对各句子进行词汇分割；

比较语音输入文本和基本方言输入文本对应同一句子的语义特征；所述语义特征包括：语音输入文本中句子I₁对比基本方言输入文本中句子I₂的相同词汇占比S_I：

S_I=S₁₂/S_2总

其中，句子I₁ 和句子I₂相对应；S₁₂为句子I₁ 和句子I₂中相同词汇的数量，S_2总为句子J₂的词汇总数；

语音输入文本对应句子I₁对比基本方言输入文本对应句子I₂的句长差异L_I；即字数差异。

语音输入文本对应句子I₁对比基本方言输入文本对应句子I₂中表示同一语义词汇的位置差异R_I；

基于语义特征计算语义相似度：

。

进一步优化方案为，所述基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Q_d，包括方法：

以句子为单位将次方言语音输入信息的语音信息和基本方言语音分别划分成m个语音；

比较次方言语音输入信息的语音信息和基本方言语音对应同一语音的语调特征，所述语调特征包括：

次方言语音输入信息的语音信息中语音J₁对比基本方言语音中语音J₂的音长差K_I；

次方言语音输入信息的语音信息中语音J₁对比基本方言语音中语音J₂的调型差系数M_I；（调型包含陈述、疑问、感叹和祈使，提前根据各次方言的语调特性设置各个调型之间的差异系数规则，根据差异系数规则确定出语音J₁与语音J₂的调型差系数M_I）

次方言语音输入信息的语音信息中语音J₁对比基本方言语音中语音J₂间词汇停顿时长的最大差异N_I；（根据上述的词汇分割，对比语音J₁与语音J₂中各个词汇之间的停顿时长，选出语音J₁中最长的停顿时长，比较对应语音J₂对应的停顿时长得到词汇停顿时长得到最大差异N_I。）

基于语调特征计算语调相似度：

。

进一步优化方案为，所述基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则，包括方法：

将次方言语音输入信息的语义语调相似度Q与各次方言规则对应的语义语调相似度阈值区间逐一进行比对，当次方言语音输入信息的语义语调相似度Q落在次方言规则i对应的语义语调相似度阈值区间时，判定语义语调相似度Q与次方言规则i匹配；

次方言规则i对应的语义语调相似度阈区间Q_I的获取方法包括：按照次方言规则i，将m组基本方言的语义文本和语音信息转化成次方言文本和次方言语音；计算各组基本方言的语义语调相似度和m组基本方言的平均相似度Q_imp,根据平均相似度Q_imp确定语义语调相似度阈区间Q_I。

本方案在对次方言语音输入信息进行语义语调相似度分析时，以大方言区内使用人数最多的基本方言为基础，考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点，选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征，用来匹配查找对应的次方言规则，保障对应次方言规则匹配精准度，提高方言语音生成的有效性。

次方言规则i对应的语义语调相似度阈区间Q_I的获取方法，与次方言语音输入信息的语义语调相似度分析结果的获取方法一致，只是，语义语调相似度阈区间Q_I的获取过程是从次方言转换成基本方言语音和文本，而次方言语音输入信息的语义语调相似度分析结果的过程是从基本方言转换成次方言语音和文本，一个是正向转换，一个反向转换，是的筛选过程更加精准。

进一步优化方案为，所述按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音，包括方法：根据匹配的次方言规则的语义规则修正基本方言输出文本，再根据匹配的次方言规则的语调规则将修正后的基本方言输出文本转化成次方言语音。

本方案还提供基于语义语调的方言语音生成系统，用于实现上述的基于语义语调的方言语音生成方法，包括：

识别模块，用于识别次方言语音输入信息；

分析搜索模块，用于对次方言语音输入信息进行语义语调相似度分析，并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则；所述大方言语料库中存储有大方言区内所有方言规则，包括基本方言规则和次方言规则；所述基本方言规则为大方言区内使用人数最多方言所对应的规则；所述方言规则包括语义规则和语调规则；所述语义语调相似度分析包括：在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中，计算出的语义相似度和语调相似度，基于语义相似度和语调相似度得到语义语调相似度分析结果；

输出文本获取模块，用于获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本；

修正模块，用于按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音；

输出模块，用于输出所述次方言语音。

本方案还提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现如上述的基于语义语调的方言语音生成方法。

本发明与现有技术相比，具有如下的优点和有益效果：

1.本发明提供的基于语义语调的方言语音生成方法、系统及介质；在现有的方言语音生成技术基础上进行方法上的改进，分析次方言输入信息的语义语调，根据语义语调分析结果确定该次方言输入信息的所属次方言规则，并按照次方言规则（语义规则）对基本方言输出文本进行修正，按照次方言规则（语调规则）输出次方言语音，有效解决大方言区内部的语言差异导致的沟通难的问题，有效帮助有视觉障碍的人阅读输出文本，更能增加文本文档的可读性。

2.本发明提供的基于语义语调的方言语音生成方法、系统及介质；考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点，本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征，根据语音语义分析结果来匹配查找对应的次方言规则，保障对应次方言规则匹配精准度，提高方言语音生成的有效性。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为基于语义语调的方言语音生成方法流程示意图；

图2为基于语义语调的方言语音生成系统结构示意图。

实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

现有的方言语音生成方法主要是大方言区方言，但是一个大方言区内部仍存在语言差异，目前的方言语音合成技术，仍然存在大方言区内部交流障碍的问题；因此，本方案提供以下实施例解决上述技术问题。

实施例1

本实施例提供基于语义语调的方言语音生成方法，如图1所示，包括：

步骤一：识别次方言语音输入信息；包括方法：

本实施例中次方言输入信息包括次方言语音信息或精准的次方言名称信息，当次方言输入信息为精准的次方言名称信息，则可以省略语义语调分析和搜索过程，可以直接调取相关的次方言规则对基本方言输出文本进行给修正。

步骤二：对次方言语音输入信息进行语义语调相似度分析，并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则；所述大方言语料库中存储有大方言区内所有方言规则，包括基本方言规则和次方言规则；所述基本方言规则为大方言区内使用人数最多方言所对应的规则；所述方言规则包括语义规则和语调规则；若在大方言语料库中未搜索出与语义语调相似度分析结果匹配的次方言规则时，直接将基本方言输出文本转化成基本方言语音后输出。当大方言语料库中未搜索匹配的次方言规则，就直接以使用人数最多的基本方言输出。

对次方言语音输入信息进行语义语调相似度分析，包括方法：

其中K为相似度系数。

S21，基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Q_y，包括方法：

S211，分别对语音输入文本和基本方言输入文本进行词汇分割：以句子为单位将语音输入文本和基本方言输入文本分别划分成m个句子，并对各句子进行词汇分割，将句子中的动词、名词、形容词等各种词汇分割开，这里需要保留语气词，以便后续计算句长差异L_I；

S212，比较语音输入文本和基本方言输入文本对应同一句子的语义特征；所述语义特征包括：语音输入文本中句子I₁对比基本方言输入文本中句子I₂的相同词汇占比S_I：

S_I=S₁₂/S_2总

语音输入文本对应句子I₁对比基本方言输入文本对应句子I₂的句长差异L_I；即句子中的字数差异。

S213，基于语义特征计算语义相似度：

；

S22，基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Q_d，包括方法：

S221，以句子为单位将次方言语音输入信息的语音信息和基本方言语音分别划分成m个语音；

S222，比较次方言语音输入信息的语音信息和基本方言语音对应同一语音的语调特征，所述语调特征包括：

次方言语音输入信息的语音信息中语音J₁对比基本方言语音中语音J₂的音长差K_I；用两个语音的时长差表示音长差K_I。

次方言语音输入信息的语音信息中语音J₁对比基本方言语音中语音J₂的调型差系数M_I；调型包含陈述、疑问、感叹和祈使，提前根据各次方言的语调特性设置各个调型之间的差异系数规则，根据差异系数规则确定出语音J₁与语音J₂的调型差系数M_I。

次方言语音输入信息的语音信息中语音J₁对比基本方言语音中语音J₂间词汇停顿时长的最大差异N_I；

根据上述的词汇分割，对比语音J₁与语音J₂中各个词汇之间的停顿时长，选出语音J₁中最长的停顿时长，比较对应语音J₂对应的停顿时长得到词汇停顿时长得到最大差异N_I。

当语音J₁中有语气词，而语音J₂中没有语气词时，该语气词的语音时长计入为语气词相邻词汇之间的停顿时长，如语音J₁中有词汇（A1，B1，C1，D1）其中C1为语气词，语音J₂中有词汇（A2，B2，D2）那么词汇B1与词汇D1之间的停顿时长包含有语气词C1的语音时长，而词汇B2与词汇D2之间的停顿时长只有语音停顿的时长不含语气词时长。

S223，基于语调特征计算语调相似度：

。

S23，基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则，包括方法：

步骤三：获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本；

步骤四：按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音；包括方法：

根据匹配的次方言规则的语义规则修正基本方言输出文本，再根据匹配的次方言规则的语调规则将修正后的基本方言输出文本转化成次方言语音。

步骤五：输出所述次方言语音。

实施例2

本实施例提供基于语义语调的方言语音生成系统，用于实现实施例1的基于语义语调的方言语音生成方法，如图2所示，包括：

识别模块，用于识别次方言语音输入信息；

输出模块，用于输出所述次方言语音。

实施例3

本实施例提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现实施例1的基于语义语调的方言语音生成方法。

本发明在现有的方言语音生成技术基础上进行方法上的改进，分析次方言输入信息的语义语调，根据语义语调分析结果确定该次方言输入信息的所属次方言规则，并按照次方言规则（语义规则）对基本方言输出文本进行修正，按照次方言规则（语调规则）输出次方言语音，有效解决大方言区内部的语言差异导致的沟通难的问题，有效帮助有视觉障碍的人阅读输出文本，更能增加文本文档的可读性。考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点，本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征，根据语音语义分析结果来匹配查找对应的次方言规则，保障对应次方言规则匹配精准度，提高方言语音生成的有效性。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于语义语调的方言语音生成方法，其特征在于，包括：

识别次方言语音输入信息；

输出所述次方言语音。

2.根据权利要求1所述的基于语义语调的方言语音生成方法，其特征在于，若在大方言语料库中未搜索出与语义语调相似度分析结果匹配的次方言规则时，直接将基本方言输出文本转化成基本方言语音后输出。

3.根据权利要求1所述的基于语义语调的方言语音生成方法，其特征在于，所述识别次方言语音输入信息，包括方法：

4.根据权利要求1所述的基于语义语调的方言语音生成方法，其特征在于，所述对次方言语音输入信息进行语义语调相似度分析，包括方法：

其中K为相似度系数。

5.根据权利要求4所述的基于语义语调的方言语音生成方法，其特征在于，所述基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Q_y，包括方法：

分别对语音输入文本和基本方言输入文本进行词汇分割；

S_I=S₁₂/S_2总

语音输入文本对应句子I₁对比基本方言输入文本对应句子I₂的句长差异L_I；

基于语义特征计算语义相似度：

。

6.根据权利要求4所述的基于语义语调的方言语音生成方法，其特征在于，所述基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Q_d，包括方法：

次方言语音输入信息的语音信息中语音J₁对比基本方言语音中语音J₂的调型差系数M_I；

基于语调特征计算语调相似度：

。

7.根据权利要求4所述的基于语义语调的方言语音生成方法，其特征在于，所述基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则，包括方法：

8.根据权利要求1所述的基于语义语调的方言语音生成方法，其特征在于，所述按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音，包括方法：

9.基于语义语调的方言语音生成系统，其特征在于，用于实现权利要求1-8任意一项所述的基于语义语调的方言语音生成方法，包括：

识别模块，用于识别次方言语音输入信息；

输出模块，用于输出所述次方言语音。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行可实现如权利要求1-8中任意一项所述的基于语义语调的方言语音生成方法。