CN112466272B - 一种语音合成模型的评价方法、装置、设备及存储介质 - Google Patents
一种语音合成模型的评价方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112466272B CN112466272B CN202011148521.3A CN202011148521A CN112466272B CN 112466272 B CN112466272 B CN 112466272B CN 202011148521 A CN202011148521 A CN 202011148521A CN 112466272 B CN112466272 B CN 112466272B
- Authority
- CN
- China
- Prior art keywords
- weight matrix
- model
- score
- current
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 78
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000011159 matrix material Substances 0.000 claims abstract description 132
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000000694 effects Effects 0.000 claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 13
- 230000002194 synthesizing effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 abstract description 32
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音合成模型的评价方法、装置、设备及存储介质。其中,该方法包括:当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率;确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵;通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。本发明实施例提供的技术方案,不需要额外的语音识别模块,提高了语音合成模型评价结果的准确性,有利于提高预设模型的训练效率。
Description
技术领域
本发明实施例涉及语音合成技术,尤其涉及一种语音合成模型的评价方法、装置、设备及存储介质。
背景技术
近年来,语音合成技术取得了飞速发展。而语音合成模型的效果评估仍然以人工评价方式为主,对于一些有自动化要求的场景难以满足需求。
现有方案除了主观的人工评估外,一般使用如下客观评估方法:将测试文本通过模型合成语音,然后利用语音识别模块对合成语音进行识别,识别结果的准确率作为模型评价结果。
上述方案存在的问题是,需要额外的语音识别模块,且评价结果依赖于语音识别模块的效果,无法保证模型评价结果的准确性。
发明内容
本发明实施例提供了一种语音合成模型的评价方法、装置、设备及存储介质,不需要额外的语音识别模块,有利于提高预设模型的训练效率。
第一方面,本发明实施例提供了一种语音合成模型的评价方法,该方法包括:
当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率;
确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵;
通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。
第二方面,本发明实施例提供了一种语音合成模型的评价装置,该装置包括:
第一权重矩阵生成模块,用于当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率;
第二权重矩阵形成模块,用于确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵;
模型得分确定模块,用于通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。
第三方面,本发明实施例提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的语音合成模型的评价方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的语音合成模型的评价方法。
本发明实施例提供了一种语音合成模型的评价方法、装置、设备及存储介质,首先当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,然后确定第一权重矩阵中每个权重的重要程度指数,并根据每个权重的重要程度指数形成第二权重矩阵,最后通过第一权重矩阵和第二权重矩阵确定预设模型的得分,得分用于表征预设模型的效果,本发明实施例提供的技术方案,不需要额外的语音识别模块,提高了语音合成模型评价结果的准确性,有利于提高预设模型的训练效率。
附图说明
图1A为本发明实施例一提供的一种语音合成模型的评价方法的流程图;
图1B为本发明实施例一提供的方法中第一权重矩阵的可视化显示示意图;
图2为本发明实施例二提供的一种语音合成模型的评价方法的流程图;
图3为本发明实施例三提供的一种语音合成模型的评价方法的流程图;
图4为本发明实施例四提供的一种语音合成模型的评价装置的结构示意图;
图5为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1A为本发明实施例一提供的一种语音合成模型的评价方法的流程图,本实施例可适用于对语音合成模型的效果进行评价的情况,尤其是基于注意力机制的端到端语音合成模型。本实施例提供的语音合成模型的评价方法可以由本发明实施例提供的语音合成模型的评价装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在执行本方法的计算机设备中。
参见图1A,本实施例的方法包括但不限于如下步骤:
S101,当输入文本通过预设模型合成语音输出时,生成第一权重矩阵。
其中,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率。
语音合成,通常是基于模型将任意输入文本转换成相应语音的技术,那么语音合成的效果也就与语音合成模型的评价有关。为了对语音合成模型的效果进行评价,当输入文本通过预设模型(一般是基于注意力机制的端到端语音合成模型)合成语音进行输出时(即输入文本通过预设模型得到输出语音),会生成第一权重矩阵,以便后续确定第一权重矩阵中每个权重的重要程度指数,并根据每个权重的重要程度指数形成第二权重矩阵。其中,输入文本可以是任意选取的句文本,句文本中可以包括汉字和符号等。
示例性的,图1B为本发明实施例一提供的方法中第一权重矩阵的可视化显示示意图,如图1B所示:
横轴(即解码器时间步长,Decoder timestep)表示输出语音的语音帧,纵轴(即编码器时间步长,Encoder timestep)表示输入文本的字符,第一权重矩阵中的每个权重对应图1B中的一个方格,方格的颜色表示了权重的大小,范围在0到1之间。
S102,确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵。
在得到第一权重矩阵之后,可以通过相应的计算方式得到第一权重矩阵中每个权重的重要程度指数,具体的计算方式不做限定,可以根据实际情况进行设置,例如可以建立评价空间和单位评价空间的映射,得到模糊关系方程并用模糊关系方程来确定第一权重矩阵中每个权重的重要程度指数。在实施例二中会针对其中一种方式进行示意性的详细说明。然后根据每个权重的重要程度指数能够形成第二权重矩阵,第二权重矩阵中的元素与第一权重矩阵中的元素一一对应,以便后续通过第一权重矩阵和第二权重矩阵确定预设模型的得分。
S103,通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。
在得到第一权重矩阵和第二权重矩阵之后,可以通过第一权重矩阵和第二权重矩阵进行相应的计算,进而确定预设模型的得分,该得分用于表征预设模型的效果。本发明实施例通过计算的预设模型的得分对预设模型的效果进行评价,不需要额外的语音识别模块,预设模型的评价结果也就不依赖于语音识别模块的效果,使得最终的评价结果更为客观。
本实施例提供的技术方案,首先当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,然后确定第一权重矩阵中每个权重的重要程度指数,并根据每个权重的重要程度指数形成第二权重矩阵,最后通过第一权重矩阵和第二权重矩阵确定预设模型的得分,得分用于表征预设模型的效果,不需要额外的语音识别模块,通过将预设模型的得分作为语音合成模型的评价指标,提高了语音合成模型评价结果的准确性,有利于提高预设模型的训练效率。
实施例二
图2为本发明实施例二提供的一种语音合成模型的评价方法的流程图。本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例对确定预设模型得分的过程进行详细的解释说明。
参见图2,本实施例的方法包括但不限于如下步骤:
S201,当输入文本通过预设模型合成语音输出时,生成第一权重矩阵。
可选的,所述输入文本通过预设模型合成语音输出时,按照语音帧输出;在所述当输入文本通过预设模型合成语音输出时,生成第一权重矩阵之时,还可以具体包括:将所述输入文本转换为字符。
在输入文本通过预设模型合成语音输出时,会自动按照语音帧输出(即自动逐帧输出)。为了便于确定第一权重矩阵中的每个元素,可以将输入文本转换为字符,例如将输入文本中的汉字转化为拼音,从而能够得到语音的语音帧对齐输入文本的字符的概率。
S202,确定所述字符的总个数以及所述语音帧的总帧数。
由于输入文本中包含了很多个字符以及输出语音中包含了多个语音帧,此时可以确定出字符的总个数以及语音帧的总帧数,以便更准确的得到第一权重矩阵中每个权重的重要程度指数。
S203,确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵。
可选的,所述确定第一权重矩阵中每个权重的重要程度指数,可以具体包括:根据当前语音帧的帧序号、所述语音帧的总帧数以及所述字符的总个数当前语音帧所对应字符的理想位置,所述当前语音帧所对应字符的理想位置为当前语音帧对应在第一权重矩阵分布图中对角线上的字符位置;比较当前语音帧所对应字符的理想位置与对应的第一差值的大小关系,并根据所述大小关系,确定当前语音帧所对应字符的位置与所对应字符的理想位置的最大距离,得到第一距离,其中,所述第一差值为所述字符的总个数与当前语音帧所对应字符的理想位置的差值;将当前语音帧所对应字符的位置与当前语音帧所对应字符的理想位置相减,得到第二差值,并对所述第二差值取绝对值,所述绝对值为当前语音帧所对应字符的位置与所对应字符理想位置的实际距离,记为第二距离;根据所述第二距离和所述第一距离的比值确定当前权重的重要程度指数,所述当前权重为当前语音帧对齐对应的输入文本的字符的概率。
具体的,由于语音合成的输入文本和语音帧对齐的特性,训练良好的语音合成模型,得到的第一权重矩阵中较大的权重应该分布在第一权重矩阵分布图中对角线上。因此,首先将当前语音帧的帧序号(即第几帧语音帧)与语音帧的总帧数相除,得到第一商值,再将第一商值与字符的总个数相乘,得到的就是当前语音帧所对应字符的理想位置,也就是当前语音帧对应在第一权重矩阵分布图中对角线上的字符位置。接着计算第一距离和第二距离,最后将第二距离与第一距离相除,得到第二商值,再用1减去第二商值就可以得到当前权重的重要程度指数,具体的计算公式如下式所示:
其中,表示第t帧语音帧的理想位置,T表示语音帧的总帧数,N表示字符的总个数,表示第t帧语音帧所对应字符的位置与所对应字符的理想位置的最大距离,也是第一距离,abs表示取绝对值,gnt表示第t帧语音帧所对应字符的位置与所对应字符的理想位置的实际距离,也是第二距离,Wnt表示第t帧语音帧对齐第n个字符的概率的重要程度指数。
S204,根据所述字符的总个数、所述语音帧的总帧数、第一权重矩阵和第二权重矩阵计算所述预设模型的得分。
根据字符的总个数、语音帧的总帧数、第一权重矩阵和第二权重矩阵可以计算预设模型的得分,具体计算公式如下式所示:
其中,score表示得分,Ant表示第一权重矩阵中第t帧语音帧对齐第n个字符的概率。
本实施例提供的技术方案,首先当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,接着确定字符的总个数以及语音帧的总帧数,然后确定第一权重矩阵中每个权重的重要程度指数,并根据每个权重的重要程度指数形成第二权重矩阵,最后根据字符的总个数、语音帧的总帧数、第一权重矩阵和第二权重矩阵计算预设模型的得分,通过每个权重的重要程度指数来表征每个权重在最终计算的得分里所占的重要性,使得语音合成模型的评价结果更为客观,并且不需要额外的语音识别模块,提高了语音合成模型评价结果的准确性,有利于提高预设模型的训练效率。
实施例三
图3为本发明实施例三提供的一种语音合成模型的评价方法的流程图。本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例对当语音合成模型的评价方法应用于语音克隆训练过程的步骤进行详细的解释说明。
参考图3,本实施例的方法包括但不限于如下步骤:
S301,构建测试集,所述测试集包括第一预设数的句文本。
当语音合成模型的评价方法应用于语音克隆训练过程时,首先要构建测试集,测试集中可以包括第一预设数的句文本,第一预设数可以人为设置。该测试集用于对语音合成模型进行测试,进而确定该语音合成模型是否满足要求。现有技术中将测试文本通过模型合成语音,利用距离准则,例如梅尔倒谱失真(Mel Cepstral Distortion,简称MCD)方法,来测量合成语音和测试文本所对应的原始语音的距离,并将该距离作为模型评价结果,但是这种方案存在的问题是需要将训练集中的部分样本作为测试集,对于语音克隆等训练样本很少的应用场景存在很大的限制,且模型的通用性不高。
本申请中的语音合成模型的评价方法在应用于语音克隆训练过程时,测试集中的句文本可以任意选取,不受训练样本的影响,并且最终得到的模型适用性更强。
S302,在预设模型训练过程中每达到一次预设训练步数,则利用当前预设模型对测试集中的句文本进行语音合成,并计算每个句文本对应的得分。
其中,预设训练步数可以是设计人员预先设定的,可以根据经验设置,例如一千步。
在预设模型训练过程中每达到一次预设训练步数,则可以通过前述实施例中所述的语音合成模型的评价方法,利用当前预设模型对测试集中的每一个句文本(即输入文本)进行语音合成,并计算每个句文本对应的得分。以一个句文本作为输入文本为例,将该句文本输入到预设模型合成语音输出时,通过第一权重矩阵和第二权重矩阵确定的预设模型的得分,这个得分就是该句文本对应的得分,以便后续根据每个句文本对应的得分,确定测试集中的句文本所对应的最低分和平均分。
S303,根据所述每个句文本对应的得分,确定测试集中的句文本所对应的最低分和平均分。
由于测试集中包括第一预设数的句文本,即句文本的个数不止一个,那么计算出的得分也不止一个,那么可以根据每个句文本对应的得分,确定测试集中的句文本所对应的最低分和平均分,以便后续根据最低分和平均分,确定当前预设模型的效果是否满足要求。
S304,根据所述最低分和平均分,确定当前预设模型的效果是否满足要求。
在得到最低分和平均分之后,可以判断最低分是否达到第一预设最低阈值以及平均分是否达到第二预设最低阈值,进而确定出当前预设模型的效果是否满足要求,也就是确定当前预设模型是否可以停止训练。
可选的,所述根据所述最低分和平均分,确定当前预设模型的效果是否满足要求,可以具体包括:当所述最低分达到第一预设最低阈值、所述平均分达到第二预设最低阈值且连续预设安全次数的得分不再增加,则停止模型训练,当前预设模型的效果满足要求。
其中,第一预设最低阈值和第二预设最低阈值可以人为设置,例如凭经验设定,预设安全次数也是人为设定的,例如三次。
具体的,当最低分达到第一预设最低阈值、平均分达到第二预设最低阈值且连续预设安全次数的得分不再增加,说明当前预设模型的效果满足要求,模型训练可以结束。
现有的语音克隆模型训练过程中,模型训练何时结束,没有一个统一的方案,除了人工评价,往往是根据经验设定固定的训练步数,但是如果设定固定的训练步数容易导致一部分模型训练不充分,一部分模型训练充分后占用资源继续训练,需要人工介入。而本发明实施例通过最低分达到第一预设最低阈值、平均分达到第二预设最低阈值以及连续预设安全次数的得分不再增加可以准确的得到停止模型训练的时机,节省了人力物力,同时还可以提高模型训练的效率。
进一步的,当预设模型训练达到预设的最大步数,且所述最低分未达到第一预设最低阈值或者所述平均分未达到第二预设最低阈值,则停止模型训练,当前预设模型的效果不满足要求,所述预设的最大步数包含第二预设数的预设训练步数,所述第二预设数大于或等于所述预设安全次数。
其中,预设的最大步数可以是预先设置好的,例如五千步或者一万步等,预设的最大步数可以是预设训练步数的整数倍。
具体的,在预设模型训练达到预设的最大步数的条件下,如果最低分未达到第一预设最低阈值或者平均分未达到第二预设最低阈值,说明当前预设模型的效果不满足要求,此时可以停止模型训练,对当前预设模型进行相应的修改,避免造成资源的浪费,能够合理利用计算资源。
本实施例提供的技术方案,首先构建测试集,测试集包括第一预设数的句文本,接着在预设模型训练过程中每达到一次预设训练步数,则利用当前预设模型对测试集中的句文本进行语音合成,并计算每个句文本对应的得分,然后根据每个句文本对应的得分,确定测试集中的句文本所对应的最低分和平均分,最后根据最低分和平均分,确定当前预设模型的效果是否满足要求,通过该方案可以确定预设模型停止训练的时机,合理利用计算资源,避免资源的浪费同时提高模型训练的效率。
实施例四
图4为本发明实施例四提供的一种语音合成模型的评价装置的结构示意图,如图4所示,该装置可以包括:
第一权重矩阵生成模块401,用于当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率;
第二权重矩阵形成模块402,用于确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵;
模型得分确定模块403,用于通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。
本实施例提供的技术方案,首先当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,然后确定第一权重矩阵中每个权重的重要程度指数,并根据每个权重的重要程度指数形成第二权重矩阵,最后通过第一权重矩阵和第二权重矩阵确定预设模型的得分,得分用于表征预设模型的效果,不需要额外的语音识别模块,通过将预设模型的得分作为语音合成模型的评价指标,提高了语音合成模型评价结果的准确性,有利于提高预设模型的训练效率。
进一步的,所述输入文本通过预设模型合成语音输出时,按照语音帧输出;
在所述当输入文本通过预设模型合成语音输出时,生成第一权重矩阵之时,还包括:将所述输入文本转换为字符。
进一步的,在确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵之前,还包括:确定所述字符的总个数以及所述语音帧的总帧数;
上述模型得分确定模块403,可以具体用于:根据所述字符的总个数、所述语音帧的总帧数、第一权重矩阵和第二权重矩阵计算所述预设模型的得分。
进一步的,上述第二权重矩阵形成模块402,可以具体用于:
根据当前语音帧的帧序号、所述语音帧的总帧数以及所述字符的总个数确定当前语音帧所对应字符的理想位置,所述当前语音帧所对应字符的理想位置为当前语音帧对应在第一权重矩阵分布图中对角线上的字符位置;
比较当前语音帧所对应字符的理想位置与对应的第一差值的大小关系,并根据所述大小关系,确定当前语音帧所对应字符的位置与所对应字符的理想位置的最大距离,得到第一距离,其中,所述第一差值为所述字符的总个数与当前语音帧所对应字符的理想位置的差值;
将当前语音帧所对应字符的位置与当前语音帧所对应字符的理想位置相减,得到第二差值,并对所述第二差值取绝对值,所述绝对值为当前语音帧所对应字符的位置与所对应字符的理想位置的实际距离,记为第二距离;
根据所述第二距离和所述第一距离的比值确定当前权重的重要程度指数,所述当前权重为当前语音帧对齐对应的输入文本的字符的概率。
进一步的,当所述语音合成模型的评价方法应用于语音克隆训练过程时,还包括:
构建测试集,所述测试集包括第一预设数的句文本;
在预设模型训练过程中每达到一次预设训练步数,则利用当前预设模型对测试集中的句文本进行语音合成,并计算每个句文本对应的得分;
根据所述每个句文本对应的得分,确定测试集中的句文本所对应的最低分和平均分;
根据所述最低分和平均分,确定当前预设模型的效果是否满足要求。
进一步的,所述根据所述最低分和平均分,确定当前预设模型的效果是否满足要求,包括:
当所述最低分达到第一预设最低阈值、所述平均分达到第二预设最低阈值且连续预设安全次数的得分不再增加,则停止模型训练,当前预设模型的效果满足要求。
进一步的,当预设模型训练达到预设的最大步数,且所述最低分未达到第一预设最低阈值或者所述平均分未达到第二预设最低阈值,则停止模型训练,当前预设模型的效果不满足要求,所述预设的最大步数包含第二预设数的预设训练步数,所述第二预设数大于或等于所述预设安全次数。
本实施例提供的语音合成模型的评价装置可适用于上述任意实施例提供的语音合成模型的评价方法,具备相应的功能和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器501、存储装置502和通信装置503;计算机设备中处理器501的数量可以是一个或多个,图5中以一个处理器501为例;计算机设备中的处理器501、存储装置502和通信装置503可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储装置502作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音合成模型的评价方法对应的模块(例如,用于语音合成模型的评价装置中的第一权重矩阵生成模块401、第二权重矩阵形成模块402和模型得分确定模块403)。处理器501通过运行存储在存储装置502中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的语音合成模型的评价方法。
存储装置502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置502可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信装置503,用于实现服务器之间的网络连接或者移动数据连接。
本实施例提供的一种计算机设备可用于执行上述任意实施例提供的语音合成模型的评价方法,具备相应的功能和有益效果。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例中的语音合成模型的评价方法,该方法具体包括:
当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率;
确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵;
通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音合成模型的评价方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语音合成模型的评价装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种语音合成模型的评价方法,其特征在于,包括:
当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率;
根据当前语音帧的帧序号、语音帧的总帧数以及所述字符的总个数确定当前语音帧所对应字符的理想位置,所述当前语音帧所对应字符的理想位置为当前语音帧对应在第一权重矩阵分布图中对角线上的字符位置;
比较当前语音帧所对应字符的理想位置与对应的第一差值的大小关系,并根据所述大小关系,确定当前语音帧所对应字符的位置与所对应字符的理想位置的最大距离,得到第一距离;其中,所述第一差值为所述字符的总个数与当前语音帧所对应字符的理想位置的差值;
将当前语音帧所对应字符的位置与当前语音帧所对应字符的理想位置相减,得到第二差值,并对所述第二差值取绝对值,所述绝对值为当前语音帧所对应字符的位置与所对应字符的理想位置的实际距离,记为第二距离;
根据所述第二距离和所述第一距离的比值确定当前权重的重要程度指数,所述当前权重为当前语音帧对齐对应的输入文本的字符的概率,并根据所述每个权重的重要程度指数形成第二权重矩阵;
通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。
2.根据权利要求1所述的方法,其特征在于,所述输入文本通过预设模型合成语音输出时,按照语音帧输出;
在所述当输入文本通过预设模型合成语音输出时,生成第一权重矩阵之时,还包括:
将所述输入文本转换为字符。
3.根据权利要求2所述的方法,其特征在于,在所述确定第一权重矩阵中每个权重的重要程度指数,并根据所述每个权重的重要程度指数形成第二权重矩阵之前,还包括:
确定所述字符的总个数以及所述语音帧的总帧数;
所述通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,包括:
根据所述字符的总个数、所述语音帧的总帧数、所述第一权重矩阵和所述第二权重矩阵计算所述预设模型的得分。
4.根据权利要求1所述的方法,其特征在于,当所述语音合成模型的评价方法应用于语音克隆训练过程时,还包括:
构建测试集,所述测试集包括第一预设数的句文本;
在预设模型训练过程中每达到一次预设训练步数,则利用当前预设模型对测试集中的句文本进行语音合成,并计算每个句文本对应的得分;
根据所述每个句文本对应的得分,确定测试集中的句文本所对应的最低分和平均分;
根据所述最低分和平均分,确定当前预设模型的效果是否满足要求。
5.根据权利要求4所述的方法,其特征在于,所述根据所述最低分和平均分,确定当前预设模型的效果是否满足要求,包括:
当所述最低分达到第一预设最低阈值、所述平均分达到第二预设最低阈值且连续预设安全次数的得分不再增加,则停止模型训练,当前预设模型的效果满足要求。
6.根据权利要求5所述的方法,其特征在于,还包括:
当预设模型训练达到预设的最大步数,且所述最低分未达到第一预设最低阈值或者所述平均分未达到第二预设最低阈值,则停止模型训练,当前预设模型的效果不满足要求,所述预设的最大步数包含第二预设数的预设训练步数,所述第二预设数大于或等于所述预设安全次数。
7.一种语音合成模型的评价装置,其特征在于,包括:
第一权重矩阵生成模块,用于当输入文本通过预设模型合成语音输出时,生成第一权重矩阵,所述预设模型为基于注意力机制的端到端语音合成模型,所述第一权重矩阵中的元素表示所述语音的语音帧对齐所述输入文本的字符的概率;
第二权重矩阵形成模块,用于根据当前语音帧的帧序号、语音帧的总帧数以及所述字符的总个数确定当前语音帧所对应字符的理想位置,所述当前语音帧所对应字符的理想位置为当前语音帧对应在第一权重矩阵分布图中对角线上的字符位置;比较当前语音帧所对应字符的理想位置与对应的第一差值的大小关系,并根据所述大小关系,确定当前语音帧所对应字符的位置与所对应字符的理想位置的最大距离,得到第一距离;其中,所述第一差值为所述字符的总个数与当前语音帧所对应字符的理想位置的差值;将当前语音帧所对应字符的位置与当前语音帧所对应字符的理想位置相减,得到第二差值,并对所述第二差值取绝对值,所述绝对值为当前语音帧所对应字符的位置与所对应字符的理想位置的实际距离,记为第二距离;根据所述第二距离和所述第一距离的比值确定当前权重的重要程度指数,所述当前权重为当前语音帧对齐对应的输入文本的字符的概率,并根据所述每个权重的重要程度指数形成第二权重矩阵;
模型得分确定模块,用于通过第一权重矩阵和第二权重矩阵确定所述预设模型的得分,所述得分用于表征预设模型的效果。
8.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的语音合成模型的评价方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语音合成模型的评价方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148521.3A CN112466272B (zh) | 2020-10-23 | 2020-10-23 | 一种语音合成模型的评价方法、装置、设备及存储介质 |
US17/445,385 US11798527B2 (en) | 2020-08-19 | 2021-08-18 | Systems and methods for synthesizing speech |
US18/465,143 US20230419948A1 (en) | 2020-08-19 | 2023-09-11 | Systems and methods for synthesizing speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148521.3A CN112466272B (zh) | 2020-10-23 | 2020-10-23 | 一种语音合成模型的评价方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112466272A CN112466272A (zh) | 2021-03-09 |
CN112466272B true CN112466272B (zh) | 2023-01-17 |
Family
ID=74835296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011148521.3A Active CN112466272B (zh) | 2020-08-19 | 2020-10-23 | 一种语音合成模型的评价方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466272B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798868A (zh) * | 2020-09-07 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2376554B (en) * | 2001-06-12 | 2005-01-05 | Hewlett Packard Co | Artificial language generation and evaluation |
CN101271687B (zh) * | 2007-03-20 | 2012-07-18 | 株式会社东芝 | 字音转换预测以及语音合成的方法和装置 |
JP6452591B2 (ja) * | 2015-10-27 | 2019-01-16 | 日本電信電話株式会社 | 合成音声品質評価装置、合成音声品質評価方法、プログラム |
CN107657947B (zh) * | 2017-09-20 | 2020-11-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN109767752B (zh) * | 2019-02-27 | 2023-05-26 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
GB2590509B (en) * | 2019-12-20 | 2022-06-15 | Sonantic Ltd | A text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system |
CN111477251B (zh) * | 2020-05-21 | 2023-09-05 | 北京百度网讯科技有限公司 | 模型评测方法、装置及电子设备 |
-
2020
- 2020-10-23 CN CN202011148521.3A patent/CN112466272B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798868A (zh) * | 2020-09-07 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112466272A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6541673B2 (ja) | モバイル機器におけるリアルタイム音声評価システム及び方法 | |
CN109753661B (zh) | 一种机器阅读理解方法、装置、设备及存储介质 | |
CN109119067B (zh) | 语音合成方法及装置 | |
CN107357824B (zh) | 信息处理方法、服务平台及计算机存储介质 | |
CN112633003A (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN113299282B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN111694937A (zh) | 基于人工智能的面试方法、装置、计算机设备及存储介质 | |
CN112669215A (zh) | 一种训练文本图像生成模型、文本图像生成的方法和装置 | |
KR20110084402A (ko) | 스피치 모델 생성 방법 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN111737961A (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
CN111710328B (zh) | 语音识别模型的训练样本选取方法、装置及介质 | |
CN111368553B (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
CN112466272B (zh) | 一种语音合成模型的评价方法、装置、设备及存储介质 | |
CN117556057A (zh) | 知识问答方法、向量数据库构建方法及装置 | |
CN111881293A (zh) | 一种风险内容识别方法及装置、服务器、存储介质 | |
CN111126059A (zh) | 一种短文文本的生成方法、生成装置及可读存储介质 | |
CN114490969B (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN113808572B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN110245331A (zh) | 一种语句转换方法、装置、服务器及计算机存储介质 | |
CN111241843A (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN112002306B (zh) | 语音类别的识别方法、装置、电子设备及可读存储介质 | |
CN110119770B (zh) | 决策树模型构建方法、装置、电子设备及介质 | |
CN110147556B (zh) | 一种多向神经网络翻译系统的构建方法 | |
CN110782879A (zh) | 基于样本量的声纹聚类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |