CN112397048B - 语音合成的发音稳定性评价方法、装置和系统及存储介质 - Google Patents
语音合成的发音稳定性评价方法、装置和系统及存储介质 Download PDFInfo
- Publication number
- CN112397048B CN112397048B CN202011451192.XA CN202011451192A CN112397048B CN 112397048 B CN112397048 B CN 112397048B CN 202011451192 A CN202011451192 A CN 202011451192A CN 112397048 B CN112397048 B CN 112397048B
- Authority
- CN
- China
- Prior art keywords
- vector
- score
- stability
- voice
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 100
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 100
- 238000011156 evaluation Methods 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 118
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 318
- 230000009747 swallowing Effects 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 10
- 239000002131 composite material Substances 0.000 description 9
- 230000004044 response Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 101150104012 TOP2 gene Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005484 gravity Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- FBOUIAKEJMZPQG-AWNIVKPZSA-N (1E)-1-(2,4-dichlorophenyl)-4,4-dimethyl-2-(1,2,4-triazol-1-yl)pent-1-en-3-ol Chemical compound C1=NC=NN1/C(C(O)C(C)(C)C)=C/C1=CC=C(Cl)C=C1Cl FBOUIAKEJMZPQG-AWNIVKPZSA-N 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013097 stability assessment Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100506221 Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) hao3 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
提供一种语音合成的发音稳定性评价方法、装置和系统及存储介质。方法包括:获取待合成文本的音子序列;将音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,语音合成模型是基于注意力机制的序列到序列模型,声学参数序列包括与合成语音所包括的n个语音帧集一一对应相关的声学参数,n个语音帧集中的每个语音帧集包括多个语音帧,注意力矩阵用于表示音子序列与声学参数序列之间的相关度,n是大于或等于1的整数;基于注意力矩阵中的元素计算稳定性评分,稳定性评分用于反映音子序列与声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况;基于稳定性评分确定合成语音的发音稳定性。
Description
技术领域
本发明涉及语音合成技术领域,具体地,涉及一种语音合成的发音稳定性方法、装置和系统及存储介质。
背景技术
语音技术在最近几年蓬勃发展。语音合成系统能合成发音流畅、情感丰富、音质逼真的语音,合成效果越来越好,使用也越来越普及。
基于注意力机制的序列到序列模型(attn.-seq2seq模型)相对传统文本语音转换模型(TTS模型)有更自然更流畅的效果,很多公司开始采用基于注意力机制的序列到序列模型作为它们的线上服务。与传统TTS模型相比,基于注意力机制的序列到序列模型的发音相对不够稳定,容易出现发怪音(含糊、重读、吞音等)问题,判断基于注意力机制的序列到序列模型的语音合成的发音稳定性往往需要耗费大量的人力去听测,目前没有客观的针对基于注意力机制的序列到序列模型的稳定性衡量指标。
发明内容
为了至少部分地解决现有技术中存在的问题,提供一种语音合成的发音稳定性评价方法、装置和系统及存储介质。
根据本发明一个方面,提供一种语音合成的发音稳定性评价方法,包括:步骤S110:获取待合成文本的音子序列;步骤S120:将音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,语音合成模型是基于注意力机制的序列到序列模型,声学参数序列包括与合成语音所包括的n个语音帧集一一对应相关的声学参数,n个语音帧集中的每个语音帧集包括多个语音帧,注意力矩阵用于表示音子序列与声学参数序列之间的相关度,n是大于或等于1的整数;步骤S130:基于注意力矩阵中的元素计算稳定性评分,其中,稳定性评分用于反映音子序列与声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况;以及步骤S140:基于稳定性评分确定合成语音的发音稳定性。
示例性地,注意力矩阵中的第一向量组包括与音子序列所包括的m个音子一一对应的m个向量,注意力矩阵中的第二向量组包括与n个语音帧集一一对应的n个向量,其中,第一向量组是行向量组并且第二向量组是列向量组,或者第一向量组是列向量组并且第二向量组是行向量组,m是大于或等于1的整数,基于注意力矩阵中的元素计算稳定性评分包括:对于第一向量组中的第i个向量,对第i个向量中的元素求和,以获得第i个向量的求和结果,其中,i=1,2,……,m;基于求和结果与第一阈值之间的差值确定第i个向量的第一向量评分,稳定性评分包括第一向量评分;基于稳定性评分确定合成语音的发音稳定性包括:基于第i个向量的第一向量评分确定合成语音中与第i个向量相对应的音子的吞音情况。
示例性地,在基于求和结果与第一阈值之间的差值确定第i个向量的第一向量评分之前,基于注意力矩阵中的元素计算稳定性评分还包括:取第一向量组中的所有向量的求和结果的中位数或三分数;对中位数求平均或计算三分数的三分之一,以获得第一阈值。
示例性地,基于求和结果与第一阈值之间的差值确定第i个向量的第一向量评分包括:计算第一阈值减去第i个向量的求和结果获得的差值;在差值小于或等于0的情况下,将第i个向量的第一向量评分取为0,并在差值大于0的情况下,将第i个向量的第一向量评分取为差值。
示例性地,基于注意力矩阵中的元素计算稳定性评分还包括:基于第一向量组中的所有向量的第一向量评分计算第一组评分,稳定性评分还包括第一组评分;基于稳定性评分确定合成语音的发音稳定性还包括:基于第一组评分确定合成语音中所有音子的综合吞音情况。
示例性地,基于第一向量组中的所有向量的第一向量评分计算第一组评分包括:对第一向量组中的所有向量的第一向量评分求和,以获得第一组评分。
示例性地,注意力矩阵中的第一向量组包括与音子序列所包括的m个音子一一对应的m个向量,注意力矩阵中的第二向量组包括与n个语音帧集一一对应的n个向量,其中,第一向量组是行向量组并且第二向量组是列向量组,或者第一向量组是列向量组并且第二向量组是行向量组,m是大于或等于1的整数,基于注意力矩阵中的元素计算稳定性评分包括:对于第二向量组中的第j个向量,取第j个向量中的元素的最大值,其中,j=1,2,……,n;基于最大值与第二阈值之间的差值确定第j个向量的第二向量评分,稳定性评分包括第二向量评分;基于稳定性评分确定合成语音的发音稳定性包括:基于第j个向量的第二向量评分确定合成语音中与第j个向量相对应的语音帧集的解码不自信情况。
示例性地,在基于最大值与第二阈值之间的差值确定第j个向量的第二向量评分之前,基于注意力矩阵中的元素计算稳定性评分还包括:取第j个向量中前预设数目个最大的元素,并对取出的元素求平均,以获得第j个向量的平均结果;对第二向量组中的所有向量的平均结果求平均,以获得第二阈值。
示例性地,基于最大值与第二阈值之间的差值确定第j个向量的第二向量评分包括:计算第二阈值减去第j个向量的最大值获得的差值;在差值小于或等于0的情况下,将第j个向量的第二向量评分取为0,并在差值大于0的情况下,将第j个向量的第二向量评分取为差值。
示例性地,基于注意力矩阵中的元素计算稳定性评分还包括:基于第二向量组中的所有向量的第二向量评分计算第二组评分,稳定性评分还包括第二组评分;基于稳定性评分确定合成语音的发音稳定性还包括:基于第二组评分确定合成语音中所有语音帧集的综合解码不自信情况。
示例性地,基于第二向量组中的所有向量的第二向量评分计算第二组评分包括:对第二向量组中的所有向量的第二向量评分求和,以获得第二组评分。
示例性地,基于注意力矩阵中的元素计算稳定性评分还包括:对第一组评分和第二组评分按照预设权重加权求和,以获得总评分,稳定性评分还包括总评分;基于稳定性评分确定合成语音的发音稳定性还包括:基于总评分确定合成语音的综合稳定性。
示例性地,方法还包括:获取预设数目的文本;将预设数目的文本分别确定为待合成文本,步骤S110-S140针对每个待合成文本执行;对预设数目的文本所对应的所有稳定性评分求和,以判断语音合成模型的综合合成性能。
根据本发明另一方面,还提供一种语音合成的发音稳定性评价装置,包括:获取模块,用于获取待合成文本的音子序列;合成模块,用于将音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,语音合成模型是基于注意力机制的序列到序列模型,声学参数序列包括与合成语音所包括的n个语音帧集一一对应相关的声学参数,n个语音帧集中的每个语音帧集包括多个语音帧,注意力矩阵用于表示音子序列与声学参数序列之间的相关度,n是大于或等于1的整数;计算模块,用于基于注意力矩阵中的元素计算稳定性评分,其中,稳定性评分用于反映音子序列与声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况;以及确定模块,用于基于稳定性评分确定合成语音的发音稳定性。
根据本发明另一方面,还提供一种语音合成的发音稳定性评价系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述语音合成的发音稳定性评价方法。
根据本发明另一方面,还提供一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述语音合成的发音稳定性评价方法。
根据本发明实施例的语音合成的发音稳定性评价方法、装置和系统及存储介质,通过注意力矩阵中的元素的取值,可以计算稳定性评分,其可以反映音子序列与声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况。因此,通过计算稳定性评分,可以方便地判断合成语音的发音稳定性,进而还可以帮助判断基于注意力机制的序列到序列模型的合成性能。这种方案可以自动化、智能化地实现对语音合成的发音稳定性的客观评价,无需人工参与,可以大大节省人力,并有助于有效地提高基于注意力机制的序列到序列模型的训练和测试效率。
在发明内容中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
以下结合附图,详细说明本发明的优点和特征。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述,用来解释本发明的原理。在附图中,
图1示出根据本发明一个实施例的语音合成的发音稳定性评价方法的示意性流程图;
图2示出根据本发明一个实施例的基于注意力机制的序列到序列模型的处理流程示意图;
图3示出根据本发明一个实施例的句子“你好”所对应的声学参数序列的可视化示意图;
图4示出根据本发明一个实施例的音子序列在解码过程中与声学参数互相作用得到的注意力矩阵的可视化示意图;
图5示出根据本发明一个实施例的正常注意力矩阵的可视化示意图;
图6示出根据本发明一个实施例的解码不自信的发音含糊的句子的注意力矩阵的可视化示意图;
图7示出根据本发明一个实施例的出现吞音的句子的注意力矩阵的可视化示意图;
图8示出根据本发明一个实施例的行打分的示意图;
图9示出根据本发明一个实施例的列打分的示意图;
图10示出根据本发明一个实施例的语音合成的发音稳定性评价装置的示意性框图;以及
图11示出根据本发明一个实施例的语音合成的发音稳定性评价系统的示意性框图。
具体实施方式
在下文的描述中,提供了大量的细节以便能够彻底地理解本发明。然而,本领域技术人员可以了解,如下描述仅示例性地示出了本发明的优选实施例,本发明可以无需一个或多个这样的细节而得以实施。此外,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行详细描述。
传统的TTS方案包括基于参数方法的TTS方案和基于拼接方法的TTS方案。
基于参数方法的TTS方案,首先需要预测音子时长和音子声学特征(即声学参数),然后根据音子时长扩充声学特征到语音帧级别,最后通过声码器得到合成语音。这种方法由于会对每个音子分别进行时长和声学参数预测,因此不会出现重复读、吞音的情况,也不需要预测声学参数的不稳定性。
基于拼接方法的TTS方案,首先会准备一份切分好的音子音频片段库,在合成的时候通过上下文筛选出音子的候选音频片段,然后把音子音频片段拼接起来构成完整的语音进行输出。由于每个音子音频片段都从音频片段库中分别提炼出来,因此也不需要预测声学参数的不稳定性。
采用基于注意力机制的序列到序列模型的语音合成方法是最近三年才发明出来,大多数从业人员在发音稳定性和音质方面做了很多工作,但是判断语音合成的发音稳定性的指标没有被明确提出。
发明人研究了基于注意力机制的序列到序列模型,尤其是基于单调注意力机制的序列到序列模型(mono-att-seq2seq模型)所生成的音频波形与注意力矩阵(或称注意力对齐矩阵)的关系,发现出现怪音的句子通常都对应有注意力矩阵模糊、跳跃的问题。根据本发明实施例提出的发音稳定性评价方法可以通过稳定性评分检查基于注意力机制的序列到序列模型所合成的语音的发音问题,以进一步判断模型的综合合成性能。
图1示出根据本发明一个实施例的语音合成的发音稳定性评价方法100的示意性流程图。如图1所示,方法100包括步骤S110、S120、S130和S140。
在步骤S110,获取待合成文本的音子序列。
在步骤S120,将音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,语音合成模型是基于注意力机制的序列到序列模型,声学参数序列包括与合成语音所包括的n个语音帧集一一对应相关的声学参数,n个语音帧集中的每个语音帧集包括多个语音帧,注意力矩阵用于表示音子序列与声学参数序列之间的相关度,n是大于或等于1的整数。
待合成文本可以是任意合适长度的文本,例如一个单词、一个词组、一个句子、或更长的文本等。比较可取的是,待合成文本可以是单个句子,发音稳定性评价可以是句子级别的。待合成文本可以属于任意语种,包括但不限于中文、英文、日文、德文等等。可以对待合成本文进行预处理,获得对应的音子序列。本领域技术人员可以理解,语音合成是将待合成文本合成为目标发音人的语音,在本文中,将基于待合成文本合成获得的目标发音人的语音称为合成语音。
为了便于理解本发明,下面对本文涉及的音子序列、注意力矩阵和声学参数序列进行简单描述。
传统的语音合成方法一般输入的是一个音子的上下文特征,输出的是一个音子的声学参数或者音库片段。而序列到序列模型的输入是一个序列,例如一整句话的音子序列,输出也是一个序列,例如一整句话的各个音子所对应的声学参数组成的声学参数序列。这种序列预测的方式比单个音子预测方法的合成效果要更流畅。
图2示出根据本发明一个实施例的基于注意力机制的序列到序列模型的处理流程示意图。如图2所示,基于注意力机制的序列到序列模型通常包含编码器和解码器两部分,并主要涉及输入序列、注意力矩阵、输出序列三类数据。
输入序列即为本文所述的音子序列。音子序列可以是音子或者音子的一些变种的嵌入(embedding)变换序列,所述音子的变种可以是例如音子拆分、音子组合、音子加韵律、音子加音标等。音子也称做音素。在中文中,拼音可以拆分成声韵母,拆分开的声韵母(可以是带调的声韵母)就是音子,一个句子的声韵母序列也就是音子序列。例如,“你好”的拼音,可以拆分成“n i 3h a o 3”或者“ni3 hao3”等等。
输出序列即为本文所述的声学参数序列。一般输出序列的每个元素为单个语音帧集所对应的声学参数,单个语音帧集包括若干语音帧。本文所述的声学参数可以是例如梅尔谱参数、基频参数、线性预测系数(LPC)参数等等。
输入序列经过编码器之后会转为能表征语言上下文的一些向量(图2示出为音子上下文编码结果),这些向量被送往解码器和具体的声学参数做关联,得到各音子向量与声学参数的相关度向量,解码步骤的各向广度向量拼合在一起就成了注意力矩阵。换句话说,在生成输出序列的时候每个输出序列会和所有的输入序列转换出来的声学参数进行softmax相关度计算,得到相关度矩阵,即本文所述的注意力矩阵。
下面以句子“你好”为例描述输入序列、输出序列和注意力矩阵。图3示出根据本发明一个实施例的句子“你好”所对应的声学参数序列的可视化示意图。在本文中,均以声学参数为梅尔谱参数作为示例来描述本发明,但是如上所述,这并非对本发明的限制,声学参数可以具有其他参数形式。
在本实施例中,句子“你好”转换为带调音子序列,即转换为“n、i3、h、ao3”。基于音子序列“n、i3、h、ao3”进行语音合成之后,获得输出序列。如图3所示,输出序列为梅尔谱帧集序列,该梅尔谱帧集序列分为6个语音帧集,每个语音帧集包括若干语音帧。
图4示出根据本发明一个实施例的音子序列在解码过程中与声学参数互相作用得到的注意力矩阵的可视化示意图。如图4所示,注意力矩阵,其可以理解为基于注意力机制的序列到序列模型在语音合成过程中生成的对齐信息,是一个二维矩阵。该二维矩阵可以理解为一个二维图像,横轴可以是例如输出的声学参数序列,纵轴可以是例如输入的音子序列。在这种情况下,注意力矩阵中的第i行第j列的元素代表第i个音子与第j个语音帧集所对应的声学参数的相关性。
需注意,虽然图4将注意力矩阵的横轴示出为声学参数序列,纵轴示出为音子序列,但是可以理解,这仅是示例而非对本发明的限制,声学参数序列和音子序列可以具有其他排列方式,例如将横轴设置为音子序列,纵轴设置为声学参数序列。在这种情况下,注意力矩阵中的第i行第j列的元素代表第i个语音帧集所对应的声学参数与第j个音子的相关性。在下文中,均以图4示出的注意力矩阵的形式描述本发明,但是如上所述,横轴和纵轴颠倒的注意力矩阵也是可行的,本领域技术人员可以理解这种注意力矩阵形式下稳定性评价方法、装置、系统和存储介质的实现方式,本文不做赘述。
在步骤S130,基于注意力矩阵中的元素计算稳定性评分,其中,稳定性评分用于反映音子序列与声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况。
在步骤S140,基于稳定性评分确定合成语音的发音稳定性。
在语音合成系统中,所合成的语音片段和音子序列通常存在着单调对应关系,所以在正常的序列到序列模型解码过程中,注意力矩阵的每列的取值应该是一个宽度较窄的单峰值分布,列与列之间的最值的行号是单调平滑增大(或减小)的,看起来是一条连接着两个对角的明亮线条。图5示出根据本发明一个实施例的正常注意力矩阵的可视化示意图。
如果一个语音帧集(如连续5帧)的声学参数和多个输入音子都产生很低的响应或者和多个非连续音子产生强响应,那说明解码器没有找到与声学参数明确对应的音子,或者模棱两可地认为该声学参数可能属于多个非连续的音子,这是解码不够自信的表现,那么解码的结果(梅尔谱)也不会太好,进而产生怪音。在注意力矩阵上的表现就是存在多峰值或者宽峰值的列(或行)。图6示出根据本发明一个实施例的解码不自信的发音含糊的句子的注意力矩阵的可视化示意图。参见图6,用方框标出了部分存在解码不自信问题的列。
如果一个输入音子在整个解码过程中都没有被响应到或者响应程度非常低,那么该音子在解码过程中存在感会偏低,进而出现吞音的问题。该问题在注意力矩阵上的表现是某些行(或列)整行(或列)取值都非常小。图7示出根据本发明一个实施例的出现吞音的句子的注意力矩阵的可视化示意图。参见图7,用方框标出了存在吞音问题的行。
合成语音的发音存在问题,例如出现上述解码不自信、吞音等,即说明合成语音的发音稳定性不够好,这也反映了基于注意力机制的序列到序列模型的合成效果不够好。合成语音的发音存在问题会反映在注意力矩阵中,其音子序列与声学参数序列之间的相关度与正常注意力矩阵中音子序列与声学参数序列之间的相关度明显偏离。因此,通过注意力矩阵中的元素的取值,可以计算稳定性评分,其可以反映音子序列与声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况。因此,通过计算稳定性评分,可以方便地判断合成语音的发音稳定性,进而还可以帮助判断基于注意力机制的序列到序列模型的合成性能。这种方案可以自动化、智能化地实现对语音合成的发音稳定性的客观评价,无需人工参与,可以大大节省人力,并有助于有效地提高基于注意力机制的序列到序列模型的训练和测试效率。
计算稳定性评分的过程可以称为打分,打分可以在例如句子级别上进行。打分可以示例性地分为行打分和列打分,行打分和列打分可以单独使用,分别用于判断含糊音(解码不自信)和吞音,也可以结合使用,用于综合评价发音稳定性。
根据本发明实施例,注意力矩阵中的第一向量组包括与音子序列所包括的m个音子一一对应的m个向量,注意力矩阵中的第二向量组包括与n个语音帧集一一对应的n个向量,其中,第一向量组是行向量组并且第二向量组是列向量组,或者第一向量组是列向量组并且第二向量组是行向量组,m是大于或等于1的整数,
基于注意力矩阵中的元素计算稳定性评分包括:
对于第一向量组中的第i个向量,对第i个向量中的元素求和,以获得第i个向量的求和结果,其中,i=1,2,……,m;
基于求和结果与第一阈值之间的差值确定第i个向量的第一向量评分,稳定性评分包括第一向量评分;
基于稳定性评分确定合成语音的发音稳定性包括:
基于第i个向量的第一向量评分确定合成语音中与第i个向量相对应的音子的吞音情况。
第i个向量的求和结果可以用于代表与第i个向量相对应的音子在解码中的体现程度。上述第一阈值可以用于代表正常注意力矩阵中求和结果的最低期望值,如果求和结果大于第一阈值,可以确定与第i个向量相对应的音子基本可以正常发音,如果求和结果小于第一阈值,可以确定与第i个向量相对应的音子在合成语音中可能被吞音。第一阈值可以根据需要设定,其可以是任何合适的值。在一个示例中,第一阈值可以是预先测试获得的值。在另一个示例中,第一阈值可以根据当前注意力矩阵中的元素计算,下文将描述第一阈值的一种示例性算法。
如上所述,注意力矩阵的横轴(列向量组)和纵轴(行向量组)所对应的内容可以颠倒,只要其中一个对应音子序列,一个对应声学参数序列即可。下面以横轴为声学参数序列及纵轴为音子序列为例描述吞音的检测方式,可以通过该示例理解横轴和纵轴颠倒情况下吞音的检测方式,本文不赘述。
返回参考图4、图5和图7,在注意力矩阵中,输入的音子序列中的每个音子对应注意力矩阵中的一行,每行所对应的值的和,代表该输入音子在解码中的体现程度,如果一行对应的和过小,说明该输入音子在解码中没有得到足够的体现,也就是可能出现吞音现象。
因此,可以通过计算每个行向量中的所有元素的和,并将该和与一定的阈值相比较来确定该行向量所对应的音子在解码中的体现程度是大还是小,从而确定该音子是否会被吞音。可选地,可以采用第一向量评分表示对应音子被吞音的可能性,即第一向量评分越高,代表音子被吞音的可能性越大。此外,可选地,可以进一步将整句话的所有音子的第一向量评分综合起来,以确定整句话的吞音情况,例如是否存在吞音,吞音可能性大小,吞音比例等等。
根据本发明实施例,在基于求和结果与第一阈值之间的差值确定第i个向量的第一向量评分之前,基于注意力矩阵中的元素计算稳定性评分还包括:取第一向量组中的所有向量的求和结果的中位数或三分数;对中位数求平均或计算三分数的三分之一,以获得第一阈值。
通过所有向量的求和结果的中位数或三分数求取第一阈值的方式仅是示例而非对本发明的限制,可以采用其他合适的算法基于注意力矩阵的元素计算第一阈值。所有向量的求和结果的中位数或三分数可以作为所有向量的求和结果这一分布数列的代表,来计算自身专用的第一阈值。这种阈值计算方式可以随着待合成文本不同而改变第一阈值。与采用预先设定的固定第一阈值相比,这种方案可以提高稳定性评价的可靠性。
根据本发明实施例,基于求和结果与第一阈值之间的差值确定第i个向量的第一向量评分包括:计算第一阈值减去第i个向量的求和结果获得的差值;在差值小于或等于0的情况下,将第i个向量的第一向量评分取为0,并在差值大于0的情况下,将第i个向量的第一向量评分取为差值。
对于第i个向量的求和结果大于第一阈值的情况,可以直接将第一向量评分取为0,不再考虑其出现吞音的可能性。而对于第i个向量的求和结果小于第一阈值的情况,可以记录第一阈值与求和结果之间的差值。通过上述第一向量评分取值方式,可以使得第一向量评分越高,代表音子被吞音的可能性越大。因此,通过以上计算第一向量评分的方式,可以使得计算获得的第一向量评分能够用于表示对应音子被吞音的可能性。
根据本发明实施例,基于注意力矩阵中的元素计算稳定性评分还包括:基于第一向量组中的所有向量的第一向量评分计算第一组评分,稳定性评分还包括第一组评分;基于稳定性评分确定合成语音的发音稳定性还包括:基于第一组评分确定合成语音中所有音子的综合吞音情况。
根据本发明实施例,基于第一向量组中的所有向量的第一向量评分计算第一组评分包括:对第一向量组中的所有向量的第一向量评分求和,以获得第一组评分。
如上所述,可以将第一向量组中的所有向量的第一向量评分综合起来判断合成语音中所有音子的综合吞音情况。这种综合方式包括但不限于对所有向量的第一向量评分求和或求平均等。可选地,在第一向量评分用于表示对应音子被吞音的可能性的情况下,第一组评分可以用于表示合成语音中整体出现吞音的可能性。
图8示出根据本发明一个实施例的行打分的示意图。行打分的流程如下:
1)、统计每行的所有元素的和;
2)、对所有行的和进行排序,求中位数,并将中位数的一半作为第一阈值;
3)、将第一阈值与每行的和相减,差值为正则保留该差值作为第一向量评分,否则将0作为第一向量评分;
4)、针对各行的第一向量评分求和,获得第一组评分(行打分)。
行打分流程可以用公式表示如下:
fReLU(x)=max(0,x);
thrd_r=median(sumi)/2;
在以上公式中,align(i,j)表示注意力矩阵中第i行第j列的元素,sumi表示第i行求和的结果,thrd_r表示第一阈值,score_r表示第一组评分。参见图8,所有行的和的中位数为(1.4+1.5)/2=1.45,中位数的一半为1.45/2=0.725,获得第一阈值thrd_r,当sumi比第一阈值thrd_r小的时候,差值累加到行打分score_r。行打分越低,该句子的发音越稳定,行打分越高,则句子中出现吞音的可能性就越高。
根据本发明实施例,注意力矩阵中的第一向量组包括与音子序列所包括的m个音子一一对应的m个向量,注意力矩阵中的第二向量组包括与n个语音帧集一一对应的n个向量,其中,第一向量组是行向量组并且第二向量组是列向量组,或者第一向量组是列向量组并且第二向量组是行向量组,m是大于或等于1的整数,
基于注意力矩阵中的元素计算稳定性评分包括:
对于第二向量组中的第j个向量,取第j个向量中的元素的最大值,其中,j=1,2,……,n;
基于最大值与第二阈值之间的差值确定第j个向量的第二向量评分,稳定性评分包括第二向量评分;
基于稳定性评分确定合成语音的发音稳定性包括:
基于第j个向量的第二向量评分确定合成语音中与第j个向量相对应的语音帧集的解码不自信情况。
第j个向量中的元素的最大值可以表示与第j个向量相对应的语音帧集与音子的最大响应程度。上述第二阈值可以用于代表正常注意力矩阵中第二向量中的元素的最大值的期望值,如果该最大值大于第二阈值,可以确定与第j个向量相对应的语音帧集基本可以正常发音,如果该最大值小于第二阈值,可以确定与第j个向量相对应的语音帧集可能存在解码不自信问题,从而可能存在含糊音等问题。第二阈值可以根据需要设定,其可以是任何合适的值。在一个示例中,第二阈值可以是预先测试获得的值。在另一个示例中,第二阈值可以根据当前注意力矩阵中的元素计算,下文将描述第二阈值的一种示例性算法。
如上所述,注意力矩阵的横轴(列向量组)和纵轴(行向量组)所对应的内容可以颠倒,只要其中一个对应音子序列,一个对应声学参数序列即可。下面以横轴为声学参数序列及纵轴为音子序列为例描述解码不自信的检测方式,可以通过该示例理解横轴和纵轴颠倒情况下解码不自信的检测方式,本文不赘述。
返回参考图4、图5和图6,在所示的注意力矩阵中,输出的声学参数序列中的每个语音帧集的声学参数对应注意力矩阵中的一列,每列所对应的元素,代表该语音帧集对各音子的响应程度。每个解码步需要强输入对应,即至少有一个输入音子和该解码步获得的语音帧集产生较大响应,各输入音子与该解码步都联系小或者太分散说明该解码步的解码结果不够好。
因此,可以通过将每个列向量中的元素的最大值与一定的阈值相比较来确定该列向量所对应的语音帧集的响应程度是大还是小,从而确定该语音帧集的解码不自信情况。可选地,可以采用第二向量评分表示对应语音帧集的解码不自信程度,即第二向量评分越高,代表语音帧集的解码不自信程度越高。此外,可选地,可以进一步将整句话合成的所有语音帧集的第二向量评分综合起来,以确定整句话的解码不自信情况,例如是否存在解码不自信,解码不自信程度等等。
根据本发明实施例,在基于最大值与第二阈值之间的差值确定第j个向量的第二向量评分之前,基于注意力矩阵中的元素计算稳定性评分还包括:取第j个向量中前预设数目个最大的元素,并对取出的元素求平均,以获得第j个向量的平均结果;对第二向量组中的所有向量的平均结果求平均,以获得第二阈值。
预设数目可以是任何合适的数目,其可以根据需要设定。例如,预设数目可以是2、3、4等等。通过前预设数目个最大的元素的平均结果求取第二阈值的方式仅是示例而非对本发明的限制,可以采用其他合适的算法基于注意力矩阵的元素计算第二阈值。这种阈值计算方式可以随着待合成文本不同而改变第二阈值。与采用预先设定的固定第二阈值相比,这种方案可以提高稳定性评价的可靠性。
根据本发明实施例,基于最大值与第二阈值之间的差值确定第j个向量的第二向量评分包括:计算第二阈值减去第j个向量的最大值获得的差值;在差值小于或等于0的情况下,将第j个向量的第二向量评分取为0,并在差值大于0的情况下,将第j个向量的第二向量评分取为差值。
对于第j个向量中的元素的最大值大于第二阈值的情况,可以直接将第二向量评分取为0,不再考虑其出现解码不自信的可能性。而对于第j个向量中的元素的最大值小于第二阈值的情况,可以记录第二阈值与最大值之间的差值。通过上述第二向量评分取值方式,可以使得第二向量评分越高,代表解码不自信程度越高。因此,通过以上计算第二向量评分的方式,可以使得计算获得的第二向量评分能够用于表示对应语音帧集的解码不自信程度。
根据本发明实施例,基于注意力矩阵中的元素计算稳定性评分还包括:基于第二向量组中的所有向量的第二向量评分计算第二组评分,稳定性评分还包括第二组评分;基于稳定性评分确定合成语音的发音稳定性还包括:基于第二组评分确定合成语音中所有语音帧集的综合解码不自信情况。
根据本发明实施例,基于第二向量组中的所有向量的第二向量评分计算第二组评分包括:对第二向量组中的所有向量的第二向量评分求和,以获得第二组评分。
如上所述,可以将第二向量组中的所有向量的第二向量评分综合起来判断合成语音中所有语音帧集的综合解码不自信情况。这种综合方式包括但不限于对所有向量的第二向量评分求和或求平均等。可选地,在第二向量评分用于表示对应语音帧集的解码不自信程度的情况下,第二组评分可以用于表示合成语音整体的综合解码不自信程度。
图9示出根据本发明一个实施例的列打分的示意图。列打分的流程如下:
1)、每列取最大top2值求平均;
2)、再次对所有列的top2平均值求平均,得到第二阈值;
3)、将第二阈值与每列的最大值相减,差值为正则保留该差值作为第二向量评分,否则将0作为第二向量评分;
4)、针对各列的第二向量评分求和,获得第二组评分(列打分)。
列打分流程可以用公式表示如下:
maxj=max(align(i,j),i∈{0,…m});
fReLU(x)=max(0,x);
在以上公式中,align(i,j)表示注意力矩阵中第i行第j列的元素,maxj表示第j列的最大值,thrd_c表示第二阈值,score_c表示第二组评分。参见图9,第一步得到align矩阵中每列top2的值(加粗),然后求每列top2的平均值avg(top2),然后对所有avg(top2)求平均,获得第二阈值thrd_c(其为0.45)。当每列的最大值低于第二阈值时,差值就累加到列打分score_c。列打分越低,该句子的发音越稳定,列打分越高,则句子中解码不自信程度就越高。
根据本发明实施例,基于注意力矩阵中的元素计算稳定性评分还包括:对第一组评分和第二组评分按照预设权重加权求和,以获得总评分,稳定性评分还包括总评分;基于稳定性评分确定合成语音的发音稳定性还包括:基于总评分确定合成语音的综合稳定性。
可以进一步对第一组评分和第二组评分进行加权求和,获得综合评分,以评价合成语音的综合稳定性。预设权重可以根据需要设定为任何合适的值。例如,可以通过实验找出针对同一合成语音其行打分和列打分之间的比重,并为行打分和列打分分配合适的权重(即预设权重),以使得对于同一合成语音来说,行打分在总打分中所占比重与列打分在总打分中所占比重尽量相差不大,这样可以平衡两种打分的比重,以避免其中一方对总打分的贡献过小而使得总打分的参考意义降低。例如,假设通过实验发现,对于同一问题句来说,行打分通常是列打分的三倍左右,则可以将列打分的权重设为1,行打分的权重设为1/3,并进行加权求和,获得总打分。
可选地,合成语音的总评分越低,可以确定整个合成语音越稳定,合成语音的总评分越高,可以确定整个合成语音的发音稳定性越差,其可能出现例如含糊音、吞音等问题中的一种或多种。
可以理解,第一组评分和第二组评分各自可以单独反映合成语音的稳定性,也可以综合起来反映合成语音的稳定性。例如,可以通过第一组评分和第二组评分中任一者分析一句合成语音出对应问题的概率,还可以通过总评分分析该合成语音出问题的概率。
根据本发明实施例,方法还包括:获取预设数目的文本;将预设数目的文本分别确定为待合成文本,步骤S110-S140针对每个待合成文本执行;对预设数目的文本所对应的所有稳定性评分求和,以判断语音合成模型的综合合成性能。
此处的预设数目可以是任何合适的数目,其可以根据需要设定。例如,预设数目可以是100、500、1000等等。可以将预设数目的文本中的每个文本分别作为待合成文本,针对每个待合成文本各自执行步骤S110-S140。通过上述操作,可以获得与预设数目的文本一一对应的预设数目的合成语音,并获得该预设数目的合成语音各自的发音稳定性评价结果。可以将预设数目的合成语音各自的发音稳定性评价结果综合起来,判断语音合成模型的综合合成性能。例如,可以将预设数目的文本所对应的(即预设数目的合成语音所对应的)稳定性评分求和或求平均,获得综合稳定性评分。随后,可以将综合稳定性评分作为语音合成模型的性能衡量标准。可以理解,对稳定性评分求和或求平均的操作是针对稳定性评分中的每类评分单独求和的。例如,预设数目的文本所对应的所有第一组评分求和或求平均获得综合第一组评分,预设数目的文本所对应的所有第二组评分求和或求平均获得综合第二组评分,预设数目的文本所对应的所有总评分求和或求平均获得综合总评分。综合第一组评分、综合第二组评分和综合总评分中任一者均可以反映语音合成模型的综合合成性能的好坏程度。可选地,通过求和获得的综合总评分越低,可以确定语音合成模型的综合合成性能越好,反之,通过求和获得的综合总评分越高,可以确定语音合成模型的综合合成性能越差。
根据本发明实施例,设计以下实验。使用上述方法100在某一基于单调注意力机制的序列到序列模型上合成1000句中文的语音,对这1000句文本的注意力矩阵分别计算行打分、列打分、总打分。同时,两个听测专家对模型产生的1000句音频进行听测,并给每个句子标上发音问题句和正常句的标签。
结果显示,1000个句子中有255个句子被两位听测专家都认为是发音问题句,有525个句子同时被两位听测专家认为是正常句。分别对问题句、正常句、所有句的行打分、列打分、总打分进行了统计,表1是统计的结果。
表1.发音问题句、发音正常句、所有测试句的列打分、行打分、总打分
测试句 | 平均列打分 | 平均行打分 | 平均总打分 | 句子数量 |
问题句 | 0.249 | 0.059 | 0.308 | 255 |
正常句 | 0.069 | 0.035 | 0.103 | 525 |
所有句子 | 0.127 | 0.043 | 0.171 | 1000 |
从表1中可以看到问题句的平均不稳定打分(行打分、列打分、总打分)明显高于正常句,正常句的平均不稳定打分又明显低于所有句。由此可以表明,根据本发明实施例的发音稳定性评价方法对合成语音的发音稳定性的评价还是比较准确的。因此,通过本发明的打分机制,可以比较快速准确地检测出合成语音中的发音问题,从而可以有效地节省人力。
根据本发明另一方面,提供一种语音合成的发音稳定性评价装置。图10示出了根据本发明一个实施例的语音合成的发音稳定性评价装置1000的示意性框图。如图10所示,根据本发明实施例的语音合成的发音稳定性评价装置1000包括获取模块1010、合成模块1020、计算模块1030、确定模块1040。所述各个模块可分别执行上文中结合图1描述的语音合成的发音稳定性评价方法100的各个步骤/功能。以下仅对该语音合成的发音稳定性评价装置1000的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块1010用于获取待合成文本的音子序列。
合成模块1020用于将所述音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,所述语音合成模型是基于注意力机制的序列到序列模型,所述声学参数序列包括与所述合成语音所包括的n个语音帧集一一对应相关的声学参数,所述n个语音帧集中的每个语音帧集包括多个语音帧,所述注意力矩阵用于表示所述音子序列与所述声学参数序列之间的相关度,n是大于或等于1的整数。
计算模块1030用于基于所述注意力矩阵中的元素计算稳定性评分,其中,所述稳定性评分用于反映所述音子序列与所述声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况。
确定模块1040用于基于所述稳定性评分确定所述合成语音的发音稳定性。
根据本发明另一方面,提供一种语音合成的发音稳定性评价系统。图11示出了根据本发明一个实施例的语音合成的发音稳定性评价系统1100的示意性框图。语音合成的发音稳定性评价系统1100包括处理器1110和存储器1120。
所述存储器1120存储用于实现根据本发明实施例的语音合成的发音稳定性评价方法100中的相应步骤的计算机程序指令。
所述处理器1110用于运行所述存储器1120中存储的计算机程序指令,以执行根据本发明实施例的语音合成的发音稳定性评价方法100的相应步骤。
在一个实施例中,所述计算机程序指令被所述处理器1110运行时用于执行以下步骤:步骤S110:获取待合成文本的音子序列;步骤S120:将所述音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,所述语音合成模型是基于注意力机制的序列到序列模型,所述声学参数序列包括与所述合成语音所包括的n个语音帧集一一对应相关的声学参数,所述n个语音帧集中的每个语音帧集包括多个语音帧,所述注意力矩阵用于表示所述音子序列与所述声学参数序列之间的相关度,n是大于或等于1的整数;步骤S130:基于所述注意力矩阵中的元素计算稳定性评分,其中,所述稳定性评分用于反映所述音子序列与所述声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况;以及步骤S140:基于所述稳定性评分确定所述合成语音的发音稳定性。
根据本发明另一方面,提供一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的语音合成的发音稳定性评价方法100的相应步骤,并且用于实现根据本发明实施例的语音合成的发音稳定性评价装置500中的相应模块。
在一个实施例中,所述程序指令在运行时用于执行以下步骤:步骤S110:获取待合成文本的音子序列;步骤S120:将所述音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,所述语音合成模型是基于注意力机制的序列到序列模型,所述声学参数序列包括与所述合成语音所包括的n个语音帧集一一对应相关的声学参数,所述n个语音帧集中的每个语音帧集包括多个语音帧,所述注意力矩阵用于表示所述音子序列与所述声学参数序列之间的相关度,n是大于或等于1的整数;步骤S130:基于所述注意力矩阵中的元素计算稳定性评分,其中,所述稳定性评分用于反映所述音子序列与所述声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况;以及步骤S140:基于所述稳定性评分确定所述合成语音的发音稳定性。
所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语音合成的发音稳定性评价系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种语音合成的发音稳定性评价方法,包括:
步骤S110:获取待合成文本的音子序列;
步骤S120:将所述音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,所述语音合成模型是基于注意力机制的序列到序列模型,所述声学参数序列包括与所述合成语音所包括的n个语音帧集一一对应相关的声学参数,所述n个语音帧集中的每个语音帧集包括多个语音帧,所述注意力矩阵用于表示所述音子序列与所述声学参数序列之间的相关度,n是大于或等于1的整数;
步骤S130:基于所述注意力矩阵中的元素计算稳定性评分,其中,所述稳定性评分用于反映所述音子序列与所述声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况;以及
步骤S140:基于所述稳定性评分确定所述合成语音的发音稳定性。
2.根据权利要求1所述的方法,其中,所述注意力矩阵中的第一向量组包括与所述音子序列所包括的m个音子一一对应的m个向量,所述注意力矩阵中的第二向量组包括与所述n个语音帧集一一对应的n个向量,其中,所述第一向量组是行向量组并且所述第二向量组是列向量组,或者所述第一向量组是列向量组并且所述第二向量组是行向量组,m是大于或等于1的整数,
所述基于所述注意力矩阵中的元素计算稳定性评分包括:
对于所述第一向量组中的第i个向量,对所述第i个向量中的元素求和,以获得所述第i个向量的求和结果,其中,i=1,2,……,m;
基于所述求和结果与第一阈值之间的差值确定所述第i个向量的第一向量评分,所述稳定性评分包括所述第一向量评分;
所述基于所述稳定性评分确定所述合成语音的发音稳定性包括:
基于所述第i个向量的第一向量评分确定所述合成语音中与所述第i个向量相对应的音子的吞音情况。
3.根据权利要求2所述的方法,其中,在所述基于所述求和结果与第一阈值之间的差值确定所述第i个向量的第一向量评分之前,所述基于所述注意力矩阵中的元素计算稳定性评分还包括:
取所述第一向量组中的所有向量的求和结果的中位数或三分数;
对所述中位数求平均或计算所述三分数的三分之一,以获得所述第一阈值。
4.根据权利要求2所述的方法,其中,所述基于所述求和结果与第一阈值之间的差值确定所述第i个向量的第一向量评分包括:
计算所述第一阈值减去所述第i个向量的求和结果获得的差值;
在所述差值小于或等于0的情况下,将所述第i个向量的第一向量评分取为0,并在所述差值大于0的情况下,将所述第i个向量的第一向量评分取为所述差值。
5.根据权利要求2至4任一项所述的方法,其中,
所述基于所述注意力矩阵中的元素计算稳定性评分还包括:
基于所述第一向量组中的所有向量的第一向量评分计算第一组评分,所述稳定性评分还包括所述第一组评分;
所述基于所述稳定性评分确定所述合成语音的发音稳定性还包括:
基于所述第一组评分确定所述合成语音中所有音子的综合吞音情况。
6.根据权利要求5所述的方法,其中,所述基于所述第一向量组中的所有向量的第一向量评分计算第一组评分包括:
对所述第一向量组中的所有向量的第一向量评分求和,以获得所述第一组评分。
7.根据权利要求1至6任一项所述的方法,其中,所述注意力矩阵中的第一向量组包括与所述音子序列所包括的m个音子一一对应的m个向量,所述注意力矩阵中的第二向量组包括与所述n个语音帧集一一对应的n个向量,其中,所述第一向量组是行向量组并且所述第二向量组是列向量组,或者所述第一向量组是列向量组并且所述第二向量组是行向量组,m是大于或等于1的整数,
所述基于所述注意力矩阵中的元素计算稳定性评分包括:
对于所述第二向量组中的第j个向量,取所述第j个向量中的元素的最大值,其中,j=1,2,……,n;
基于所述最大值与第二阈值之间的差值确定所述第j个向量的第二向量评分,所述稳定性评分包括所述第二向量评分;
所述基于所述稳定性评分确定所述合成语音的发音稳定性包括:
基于所述第j个向量的第二向量评分确定所述合成语音中与所述第j个向量相对应的语音帧集的解码不自信情况。
8.根据权利要求7所述的方法,其中,在所述基于所述最大值与第二阈值之间的差值确定所述第j个向量的第二向量评分之前,所述基于所述注意力矩阵中的元素计算稳定性评分还包括:
取所述第j个向量中前预设数目个最大的元素,并对取出的元素求平均,以获得所述第j个向量的平均结果;
对所述第二向量组中的所有向量的平均结果求平均,以获得所述第二阈值。
9.根据权利要求7所述的方法,其中,所述基于所述最大值与第二阈值之间的差值确定所述第j个向量的第二向量评分包括:
计算所述第二阈值减去所述第j个向量的最大值获得的差值;
在所述差值小于或等于0的情况下,将所述第j个向量的第二向量评分取为0,并在所述差值大于0的情况下,将所述第j个向量的第二向量评分取为所述差值。
10.根据权利要求7所述的方法,其中,所述基于所述注意力矩阵中的元素计算稳定性评分还包括:
基于所述第二向量组中的所有向量的第二向量评分计算第二组评分,所述稳定性评分还包括所述第二组评分;
所述基于所述稳定性评分确定所述合成语音的发音稳定性还包括:
基于所述第二组评分确定所述合成语音中所有语音帧集的综合解码不自信情况。
11.根据权利要求10所述的方法,其中,所述基于所述第二向量组中的所有向量的第二向量评分计算第二组评分包括:
对所述第二向量组中的所有向量的第二向量评分求和,以获得所述第二组评分。
12.根据引用权利要求5的权利要求10所述的方法,其中,
所述基于所述注意力矩阵中的元素计算稳定性评分还包括:
对所述第一组评分和所述第二组评分按照预设权重加权求和,以获得总评分,所述稳定性评分还包括所述总评分;
所述基于所述稳定性评分确定所述合成语音的发音稳定性还包括:
基于所述总评分确定所述合成语音的综合稳定性。
13.根据权利要求1所述的方法,其中,所述方法还包括:
获取预设数目的文本;
将所述预设数目的文本分别确定为所述待合成文本,所述步骤S110-S140针对每个所述待合成文本执行;
对所述预设数目的文本所对应的所有稳定性评分求和,以判断所述语音合成模型的综合合成性能。
14.一种语音合成的发音稳定性评价装置,包括:
获取模块,用于获取待合成文本的音子序列;
合成模块,用于将所述音子序列输入语音合成模型进行语音合成,以获得注意力矩阵和用于表示合成语音的声学参数序列,其中,所述语音合成模型是基于注意力机制的序列到序列模型,所述声学参数序列包括与所述合成语音所包括的n个语音帧集一一对应相关的声学参数,所述n个语音帧集中的每个语音帧集包括多个语音帧,所述注意力矩阵用于表示所述音子序列与所述声学参数序列之间的相关度,n是大于或等于1的整数;
计算模块,用于基于所述注意力矩阵中的元素计算稳定性评分,其中,所述稳定性评分用于反映所述音子序列与所述声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况;以及
确定模块,用于基于所述稳定性评分确定所述合成语音的发音稳定性。
15.一种语音合成的发音稳定性评价系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至13任一项所述的语音合成的发音稳定性评价方法。
16.一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求1至13任一项所述的语音合成的发音稳定性评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011451192.XA CN112397048B (zh) | 2020-12-10 | 2020-12-10 | 语音合成的发音稳定性评价方法、装置和系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011451192.XA CN112397048B (zh) | 2020-12-10 | 2020-12-10 | 语音合成的发音稳定性评价方法、装置和系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112397048A CN112397048A (zh) | 2021-02-23 |
CN112397048B true CN112397048B (zh) | 2023-07-14 |
Family
ID=74625458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011451192.XA Active CN112397048B (zh) | 2020-12-10 | 2020-12-10 | 语音合成的发音稳定性评价方法、装置和系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112397048B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230037892A1 (en) * | 2021-07-28 | 2023-02-09 | Xinapse Co., Ltd. | Method and apparatus for generating speech training data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256152A (zh) * | 2018-11-08 | 2019-01-22 | 上海起作业信息科技有限公司 | 语音评分方法及装置、电子设备、存储介质 |
CN110797018A (zh) * | 2019-08-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、介质和设备 |
CN110992926A (zh) * | 2019-12-26 | 2020-04-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN111583904A (zh) * | 2020-05-13 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN111666482A (zh) * | 2019-03-06 | 2020-09-15 | 珠海格力电器股份有限公司 | 查询方法及装置、存储介质和处理器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE212016000292U1 (de) * | 2016-11-03 | 2019-07-03 | Bayerische Motoren Werke Aktiengesellschaft | System zur Text-zu-Sprache-Leistungsbewertung |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2020
- 2020-12-10 CN CN202011451192.XA patent/CN112397048B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256152A (zh) * | 2018-11-08 | 2019-01-22 | 上海起作业信息科技有限公司 | 语音评分方法及装置、电子设备、存储介质 |
CN111666482A (zh) * | 2019-03-06 | 2020-09-15 | 珠海格力电器股份有限公司 | 查询方法及装置、存储介质和处理器 |
CN110797018A (zh) * | 2019-08-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、介质和设备 |
CN110992926A (zh) * | 2019-12-26 | 2020-04-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN111583904A (zh) * | 2020-05-13 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112397048A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
Kochanski et al. | Loudness predicts prominence: Fundamental frequency lends little | |
CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
US9196240B2 (en) | Automated text to speech voice development | |
US7024362B2 (en) | Objective measure for estimating mean opinion score of synthesized speech | |
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
Turk et al. | Robust processing techniques for voice conversion | |
JP2011065120A (ja) | すべての言語の音声識別及び音声識別を利用した単字入力の方法 | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
Furui et al. | Analysis and recognition of spontaneous speech using Corpus of Spontaneous Japanese | |
CN112802494B (zh) | 语音评测方法、装置、计算机设备和介质 | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
CN112397048B (zh) | 语音合成的发音稳定性评价方法、装置和系统及存储介质 | |
Toivanen et al. | Emotions in [a]: a perceptual and acoustic study | |
US6823304B2 (en) | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
Hansakunbuntheung et al. | Space reduction of speech corpus based on quality perception for unit selection speech synthesis | |
Lu et al. | Automatic error detection for unit selection speech synthesis using log likelihood ratio based SVM classifier. | |
Yarra et al. | Noise robust speech rate estimation using signal-to-noise ratio dependent sub-band selection and peak detection strategy | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
Yarra et al. | Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation | |
Hsu et al. | Speaker-dependent model interpolation for statistical emotional speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 1201, Building B, Phase 1, Innovation Park, No. 1 Keyuan Weiyi Road, Laoshan District, Qingdao City, Shandong Province, 266101 Patentee after: Beibei (Qingdao) Technology Co.,Ltd. Address before: 100192 a203a, 2 / F, building B-2, Dongsheng Science Park, Zhongguancun, 66 xixiaokou Road, Haidian District, Beijing Patentee before: DATABAKER (BEIJNG) TECHNOLOGY Co.,Ltd. |