CN111276121B - 语音对齐方法、装置、电子设备及存储介质 - Google Patents
语音对齐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111276121B CN111276121B CN202010076341.2A CN202010076341A CN111276121B CN 111276121 B CN111276121 B CN 111276121B CN 202010076341 A CN202010076341 A CN 202010076341A CN 111276121 B CN111276121 B CN 111276121B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- frame
- voice
- short
- average amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种语音对齐方法、装置、电子设备及存储介质。具体实现方案为:利用语音对齐算法得到待处理的语音信号的预测音素分界点;对预测音素分界点进行扩帧,得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧在内的多个连续的语音帧;计算第一扩帧结果内的每个语音帧对应的短时平均幅度值与预设的短时平均幅度阈值的差值;将最小的差值对应的语音帧确定为待处理的语音信号的精确音素分界点。本申请实施例可减少机器对齐得到的音素分界点与实际音素分界点之间存在的误差,降低人工标注消耗的时间成本。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种语音对齐方法、装置、电子设备及存储介质。
背景技术
随着深度学习技术的发展,语音合成技术也逐步成熟,并得到广泛应用。在语音合成技术中,深度学习模型训练之前需要标注样本语音信号的音素序列以及对应的音素分界点。音素分界点也就是每个音素的起止时间点。在样本语音信号中标注的音素分界点的准确与否,直接影响到训练模型的精度,进而影响语音合成的质量。
在传统的语音合成技术中,获得音素分界点一般是通过机器标注,即采用语音强制对齐技术。目前常用的语音强制对齐技术是通过样本语音信号和对应的文本标注样本集来进行建模。例如常用的强制对齐模型包括GMM(Gaussian Mixture Model,高斯混合模型)或神经网络模型。可在强制对齐模型基础上,通过解码算法确定音素分界点。但由于强制对齐模型与待对齐数据存在不匹配或强制对齐模型精度不高,往往会导致强制对齐的音素分界点与实际音素分界点存在误差。
除上述通过机器标注对齐的方法之外,也可以通过人工方式去标注每句话中每个音素的起止时间。但由于语音文件的数据量较大,人工对齐标注工作量大、难度高,会耗费大量的人工成本。
发明内容
本申请实施例提供一种语音对齐方法、装置、电子设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种语音对齐方法,包括:
利用语音对齐算法得到待处理的语音信号的预测音素分界点;
对预测音素分界点进行扩帧,得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧在内的多个连续的语音帧;
计算第一扩帧结果内的每个语音帧对应的短时平均幅度值与预设的短时平均幅度阈值的差值;
将最小的差值对应的语音帧确定为待处理的语音信号的精确音素分界点。
在一种实施方式中,对预测音素分界点进行扩帧,得到第一扩帧结果,包括:
基于预设的第一扩帧参数N得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧之前的N个语音帧和预测音素分界点所在的语音帧之后的N个语音帧,其中N为正整数。
在一种实施方式中,上述方法还包括:
识别预测音素分界点所属的音素组合类别,音素组合类别是包括当前音素以及当前音素的前后音素的组合所属的类别;
获取预测音素分界点所属的音素组合类别对应的类别参考值;
将类别参考值作为预设的短时平均幅度阈值。
在一种实施方式中,上述方法还包括:
计算样本语音信号的标注音素分界点对应的短时平均幅度参考值;
识别标注音素分界点所属的音素组合类别;
统计标注音素分界点所属的音素组合类别中对应的标注音素分界点的短时平均幅度参考值的平均值;
将平均值确定为预测音素分界点所属的音素组合类别对应的类别参考值。
在一种实施方式中,计算样本语音信号的标注音素分界点对应的短时平均幅度参考值,包括:
基于样本语音信号中的标注音素分界点和预设的第二扩帧参数M,得到第二扩帧结果;其中,第二扩帧结果包括标注音素分界点所在的语音帧,以及标注音素分界点所在的语音帧之前的M个语音帧和标注音素分界点所在的语音帧之后的M个语音帧,其中M为正整数;
计算第二扩帧结果内的每个语音帧对应的短时平均幅度值;
将第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,将排在第M+1位的短时平均幅度值确定为标注音素分界点对应的短时平均幅度参考值。
第二方面,本申请实施例提供了一种语音对齐装置,包括:
预测单元,用于利用语音对齐算法得到待处理的语音信号的预测音素分界点;
扩帧单元,用于对预测音素分界点进行扩帧,得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧在内的多个连续的语音帧;
计算单元,用于计算第一扩帧结果内的每个语音帧对应的短时平均幅度值与预设的短时平均幅度阈值的差值;
确定单元,用于将最小的差值对应的语音帧确定为待处理的语音信号的精确音素分界点。
在一种实施方式中,扩帧单元用于:
基于预设的第一扩帧参数N得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧之前的N个语音帧和预测音素分界点所在的语音帧之后的N个语音帧,其中N为正整数。
在一种实施方式中,上述装置还包括阈值获取单元,阈值获取单元用于:
识别预测音素分界点所属的音素组合类别,音素组合类别是包括当前音素以及当前音素的前后音素的组合所属的类别;
获取预测音素分界点所属的音素组合类别对应的类别参考值;
将类别参考值作为预设的短时平均幅度阈值。
在一种实施方式中,上述装置还包括参考值计算单元,参考值计算单元包括:
计算子单元,用于计算样本语音信号的标注音素分界点对应的短时平均幅度参考值;
识别子单元,用于识别标注音素分界点所属的音素组合类别;
统计子单元,用于统计标注音素分界点所属的音素组合类别中对应的标注音素分界点的短时平均幅度参考值的平均值;
确定子单元,用于将平均值确定为预测音素分界点所属的音素组合类别对应的类别参考值。
在一种实施方式中,计算子单元用于:
基于样本语音信号中的标注音素分界点和预设的第二扩帧参数M,得到第二扩帧结果;其中,第二扩帧结果包括标注音素分界点所在的语音帧,以及标注音素分界点所在的语音帧之前的M个语音帧和标注音素分界点所在的语音帧之后的M个语音帧,其中M为正整数;
计算第二扩帧结果内的每个语音帧对应的短时平均幅度值;
将第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,将排在第M+1位的短时平均幅度值确定为标注音素分界点对应的短时平均幅度参考值。
第三方面,本申请实施例提供了一种电子设备,该设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:有效减少机器对齐得到的音素分界点与实际音素分界点之间存在的误差,同时也降低了人工标注消耗的时间成本。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的语音对齐方法的流程图;
图2为根据本申请实施例的语音对齐方法的计算类别参考值的流程图;
图3为根据本申请实施例的语音对齐方法的计算短时平均幅度参考值的流程图;
图4为根据本申请实施例的语音对齐方法的获取短时平均幅度阈值的流程图;
图5为根据本申请实施例的语音对齐方法的流程图;
图6为根据本申请实施例的语音对齐装置的结构示意图;
图7为根据本申请实施例的语音对齐装置的结构示意图;
图8为根据本申请实施例的语音对齐装置的参考值计算单元的结构示意图;
图9为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为根据本申请实施例的语音对齐方法的流程图。如图1所示,该语音对齐方法可以包括:
步骤S110,利用语音对齐算法得到待处理的语音信号的预测音素分界点;
步骤S120,对预测音素分界点进行扩帧,得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧在内的多个连续的语音帧;
步骤S130,计算第一扩帧结果内的每个语音帧对应的短时平均幅度值与预设的短时平均幅度阈值的差值;
步骤S140,将最小的差值对应的语音帧确定为待处理的语音信号的精确音素分界点。
在传统语音合成技术中,由于强制对齐模型与待对齐数据存在不匹配或强制对齐模型精度不高,往往会导致强制对齐的音素分界点与实际音素分界点存在误差。例如,待对齐数据可能是儿童数据。而由于儿童数据比较少,强制对齐模型通常是利用成人数据进行训练的。因此,强制对齐模型与待对齐数据存在不匹配的问题。由于不匹配或强制对齐模型精度不高,会导致模型识别的音素分界点存在误差。
有鉴于此,本申请提出一种基于上下文语境信息的短时平均幅度值的语音对齐方法。在步骤S110中,利用现有的语音对齐算法对输入的待处理的语音信号进行处理。例如,可将待处理的语音信号输入现有的强制对齐模型,得到待处理的语音信号的音素序列和对应的预测音素分界点。预测音素分界点也就是预测的每个音素的起止时间点。在步骤S120中,对预测音素分界点进行扩帧,例如以预测音素分界点为基准做前后扩帧,将预测音素分界点之前和预测音素分界点之后的若干个语音帧纳入到第一扩帧结果中。因此,得到的第一扩帧结果包括预测音素分界点所在的语音帧在内的多个连续的语音帧。通过扩帧可将当前音素结合与上下文语境信息相结合,扩帧之后结合上下文语境信息进行进一步计算,可提高音素分界点识别的准确度。
在步骤S130中,首先在第一扩帧结果中,计算扩帧范围内的每个语音帧对应的短时平均幅度值。然后从预先设置的对齐模板库中获取短时平均幅度阈值,并计算第一扩帧结果中每个语音帧对应的短时平均幅度值与短时平均幅度阈值的差值。在步骤S140中,将第一扩帧结果中,与短时平均幅度阈值最接近的短时平均幅度值所对应的语音帧确定为待处理的语音信号的精确音素分界点。
本申请实施例在现有的语音对齐算法基础上,利用基于上下文语境信息的功率谱进行进一步地对齐判别,例如基于上下文语境信息计算短时平均幅度值,可有效减少机器对齐得到的音素分界点与实际音素分界点之间存在的误差,也降低了人工标注消耗的时间成本。
在一种实施方式中,对预测音素分界点进行扩帧,得到第一扩帧结果,包括:
基于预设的第一扩帧参数N得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧之前的N个语音帧和预测音素分界点所在的语音帧之后的N个语音帧,其中N为正整数。
在对语音信号进行分析的过程中,通常需要对语音信号进行分帧处理。分帧可以包括:将语音信号切分成一小段一小段的多段信号,每小段信号称为一帧,即一个语音帧。帧与帧之间一般是有交叠的。在一个示例中,每帧的长度可为25毫秒,每两帧之间可有25-10=15毫秒的交叠。可将以上分帧处理过程称为以“帧长25ms、帧移10ms”进行分帧处理。
在一个示例中,可设置第一扩帧参数N的值为2,则第一扩帧结果包括预测音素分界点所在的语音帧,以及预测音素分界点所在的语音帧之前的2个语音帧和预测音素分界点所在的语音帧之后的2个语音帧,共计5个语音帧。
本申请实施例中,为提升音素时间点对齐的准确性,根据语音的发音方式不同将音素组合分类,预先设置多个音素组合类别。例如,以当前音素和当前音素的前后语境音素可组成三音素组合。一个示例性的三音素组合类别如:双唇音(b,p,m)+鼻韵母(an,ang等)+唇齿音(f)。
其中,声母发音分类如表1所示,韵母发音分类如表2所示。
表1声母发音分类
表2韵母发音分类
在预先设置的对齐模板库中,按音素的发音方式进行组合分类,预先设置多个音素组合类别。在一个对齐模板库示例中,可包括以下音素组合类别:
音素组合类别(一):双唇音(b,p,m)+鼻韵母(an,ang等)+唇齿音(f)。当前音素为鼻韵母,将当前音素结合与上下文语境信息相结合,由当前音素和当前音素的前后音素相结合构成音素组合类别(一)。
音素组合类别(二):舌尖后音(zh,ch,sh,r)+复韵母(ai,ei等)+舌面音(x等)。当前音素为复韵母,将当前音素结合与上下文语境信息相结合,由当前音素和当前音素的前后音素相结合构成音素组合类别(二)。
以上是三音素组合类别的示例,具体的音素组合类别的设置可根据应用场景的需求和特定领域语境信息的特征而设定。也可以基于对语音信号的聚类分析的结果产生若干个音素组合类别。本申请实施例中不做限定。
在步骤S120的扩帧步骤中,可结合音素组合给出合适的扩帧范围。在一个示例中,输入的待处理的语音信号是一个句子。可针对该句子中包含的所有音素进行统计,统计组成各个音素的语音帧的个数,将其中的最小个数确定为该句中音素的最小帧数。可控制进行扩帧的范围小于该句中音素的最小帧数,也就是限制第一扩帧结果中包括的语音帧的个数小于最小帧数。例如该句中音素的最小帧数是20帧,则前后扩帧的范围应小于20帧。通过这个限制可将扩帧的范围限定在当前音素组合的范围内,避免扩帧之后得到的第一扩帧结果中包括当前音素组合之外的前后音素的语音帧。
因为当前音素的声学参数受前后音素的影响,所以属于同一个音素组合类别的音素组合具有类似的语境信息。可采用统计的方式计算多个音素组合类别对应的类别参考值,并将类别参考值存储在对齐模板库中。
图2为根据本申请实施例的语音对齐方法的计算类别参考值的流程图。如图2所示,在一种实施方式中,上述方法还包括:
步骤S210,计算样本语音信号的标注音素分界点对应的短时平均幅度参考值;
步骤S220,识别标注音素分界点所属的音素组合类别;
步骤S230,统计标注音素分界点所属的音素组合类别中对应的标注音素分界点的短时平均幅度参考值的平均值;
步骤S240,将平均值确定为预测音素分界点所属的音素组合类别对应的类别参考值。
图3为根据本申请实施例的语音对齐方法的计算短时平均幅度参考值的流程图。如图3所示,在一种实施方式中,步骤S210,计算样本语音信号的标注音素分界点对应的短时平均幅度参考值,包括:
步骤S310,基于样本语音信号中的标注音素分界点和预设的第二扩帧参数M,得到第二扩帧结果;其中,第二扩帧结果包括标注音素分界点所在的语音帧,以及标注音素分界点所在的语音帧之前的M个语音帧和标注音素分界点所在的语音帧之后的M个语音帧,其中M为正整数;
步骤S320,计算第二扩帧结果内的每个语音帧对应的短时平均幅度值;
步骤S330,将第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,将排在第M+1位的短时平均幅度值确定为标注音素分界点对应的短时平均幅度参考值。
步骤S310中的第二扩帧参数M的值与预设的第一扩帧参数N的值可以相同,也可以不同。与上述对预测音素分界点进行扩帧的过程类似,在对标注音素分界点进行扩帧的过程中,也可限制进行扩帧的范围小于该句中音素的最小帧数。通过这个限制可将扩帧的范围限定在当前音素组合的范围内,避免扩帧之后得到的第一扩帧结果中包括当前音素组合之外的前后音素的语音帧。可参见前文中相当描述,在此不再赘述。
在步骤S320中,在第二扩帧结果中,计算扩帧范围内的每个语音帧对应的短时平均幅度值。其中,短时平均幅度值是语音帧的能量大小的表征。能量是语音的一个重要特性,比如,清音的能量较小,浊音的能量较大。对语音能量的分析主要包括短时平均幅度值的计算。例如,作为能量的一种度量方法,可通过短时平均幅度值是否有明显的幅值变化来区别清音和浊音。在语音信号分析的应用场景中,短时平均幅度值可作为区分清浊音、区分声母韵母、区分有话段和无话段的指标。
在一个示例中,当前音素为an,当前音素的前后音素分别为b和f,则分别计算an与b、f分界点处对应的能量谱,例如可计算短时平均幅度值。其中,短时平均幅度值的计算公式(1)如下:
其中,Mn是短时平均幅度值,w(n)是窗函数,N-1≥n≥0,N是窗长,x(n)是表示待处理的语音信号的序列值的集合,m是序列延时的位数。
在步骤S330中,将扩帧后的第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,取排序序列中的中间值作为标注音素分界点对应的短时平均幅度参考值。也就是说,第二扩帧结果包括标注音素分界点所在的语音帧,以及标注音素分界点所在的语音帧之前的M个语音帧和标注音素分界点所在的语音帧之后的M个语音帧,共计2M+1个语音帧,取第M+1位的短时平均幅度值确定为标注音素分界点对应的短时平均幅度参考值。
例如,可设置第二扩帧参数M的值为2,则第二扩帧结果包括标注音素分界点所在的语音帧,以及标注音素分界点所在的语音帧之前的2个语音帧和标注音素分界点所在的语音帧之后的2个语音帧,共计5个语音帧。将第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,将排在第3位的短时平均幅度值确定为标注音素分界点对应的短时平均幅度参考值。
在步骤S210中计算出标注音素分界点对应的短时平均幅度参考值之后,在步骤S220中,识别标注音素分界点所属的音素组合类别。例如,样本语音信号对应的文本信息为:“对数据进行筛选”。则其中的“筛”字的语音由一个舌尖后音(sh)和一个复韵母(ai)组成;紧跟着“筛”字后面的“选”字的第一个音素是舌面音(x)。以上连续的三个音素构成一个三音素组合。在三音素组合中存在两个音素分界点,即音素分界点c为舌尖后音(sh)和复韵母(ai)的分界点,以及音素分界点d为复韵母(ai)与舌面音(x)的分界点。在步骤S220中,识别到音素分界点c和音素分界点d所属的音素组合类别为上述对齐模板库示例中的音素组合类别(二)。
在步骤S230中,可针对多个样本语音信号进行统计,统计所属的音素组合类别为同一类别的标注音素分界点的短时平均幅度参考值的平均值。例如,在样本语音信号中,针对多个属于音素组合类别(二)的三音素组合,分别计算三音素组合中音素分界点c所在的语音帧对应的短时平均幅度值的平均值和音素分界点d所在的语音帧对应的短时平均幅度值的平均值。在步骤S240,将计算得到的上述两个音素分界点对应的平均值确定为音素组合类别(二)对应的类别参考值,并将音素组合类别(二)对应的类别参考值存储到对齐模板库中。在后续的步骤S130中,从预先设置的对齐模板库中获取预测音素分界点所属的音素组合类别对应的类别参考值。
图4为根据本申请实施例的语音对齐方法的获取短时平均幅度阈值的流程图。如图4所示,在一种实施方式中,上述方法还包括:
步骤S410,识别预测音素分界点所属的音素组合类别,音素组合类别是包括当前音素以及当前音素的前后音素的组合所属的类别;
步骤S420,获取预测音素分界点所属的音素组合类别对应的类别参考值;
步骤S430,将类别参考值作为预设的短时平均幅度阈值。
在一个示例中,待处理的语音信号对应的文本信息为:“想办法解决问题”。则其中的“办”字的语音由一个双唇音(b)和一个鼻韵母(an)组成;紧跟着“办”字后面的“法”字的第一个音素是唇齿音(f)。以上连续的三个音素构成一个三音素组合。在三音素组合中存在两个音素分界点,即音素分界点a为双唇音(b)与鼻韵母(an)的分界点,以及音素分界点b为鼻韵母(an)与唇齿音(f)的分界点。在步骤S110中利用语音对齐算法对待处理的语音信号进行分析,可得到上述三音素组合对应的两个预测音素分界点。在步骤S120中分别对这两个预测音素分界点进行扩帧。在步骤S130中,一方面计算第一扩帧结果内的每个语音帧对应的短时平均幅度值,另一方面从预先设置的对齐模板库中获取短时平均幅度阈值。其中,第一扩帧结果内的每个语音帧对应的短时平均幅度值也可使用上述公式(1)计算得出。
从预先设置的对齐模板库中获取短时平均幅度阈值的步骤可包括上述步骤S410、步骤S420和步骤S430。在上述示例中,首先在步骤S410中,识别到音素分界点a和音素分界点b所属的音素组合类别为上述对齐模板库示例中的音素组合类别(一)。然后在步骤S420和步骤S430中,从预先设置的对齐模板库中获取音素组合类别(一)对应的类别参考值。其中,类别参考值包括:在对齐模板库中存储的音素组合类别(一)中的音素分界点a和音素分界点b所在的语音帧对应的短时平均幅度值的平均值。将类别参考值作为音素组合类别(一)对应的短时平均幅度阈值。
然后在步骤S130中,将第一扩帧结果内的每个语音帧对应的短时平均幅度值分别与对应的短时平均幅度阈值做比较。最后在步骤S140中,将与短时平均幅度阈值最接近的短时平均幅度值所对应的语音帧确定为待处理的语音信号的精确音素分界点。
图5为根据本申请实施例的语音对齐方法的流程图。参见图5,本申请实施例的语音对齐方法可包括如下步骤:首先,对待处理的语音信号进行特征识别,基于识别的特征、声学模型和语言模型对语音信号进行识别解码,得到音素序列及对应的预测音素分界点。然后针对待处理的语音信号中的多个音素组合进行音素类别聚类,得到每个音素组合所属的音素组合类别。另外,在对齐模板库中存储有预先设置的多个音素组合类别的样例。将聚类得到的音素组合类别与模板库中的音素组合类别相比较,可以得到聚类得到的音素组合类别与模板库中的音素组合类别的一一对应关系。基于预先设置的对应于各个音素组合类别的样例,通过计算功率谱得到分界点阈值,也就是每个音素组合类别对应的短时平均幅度阈值。最后,获取待处理的语音信号中每个音素组合所属的音素组合类别所对应的短时平均幅度阈值,将与短时平均幅度阈值最接近的短时平均幅度值所对应的语音帧确定为待处理的语音信号的精确音素分界点。
图6为根据本申请实施例的语音对齐装置的结构示意图。如图6所示,该装置可以包括:
预测单元100,用于利用语音对齐算法得到待处理的语音信号的预测音素分界点;
扩帧单元200,用于对预测音素分界点进行扩帧,得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧在内的多个连续的语音帧;
计算单元300,用于计算第一扩帧结果内的每个语音帧对应的短时平均幅度值与预设的短时平均幅度阈值的差值;
确定单元400,用于将最小的差值对应的语音帧确定为待处理的语音信号的精确音素分界点。
在一种实施方式中,扩帧单元200用于:
基于预设的第一扩帧参数N得到第一扩帧结果,第一扩帧结果包括预测音素分界点所在的语音帧之前的N个语音帧和预测音素分界点所在的语音帧之后的N个语音帧,其中N为正整数。
图7为根据本申请实施例的语音对齐装置的结构示意图。如图7所示,在一种实施方式中,上述装置还包括阈值获取单元500,阈值获取单元500用于:
识别预测音素分界点所属的音素组合类别,音素组合类别是包括当前音素以及当前音素的前后音素的组合所属的类别;
获取预测音素分界点所属的音素组合类别对应的类别参考值;
将类别参考值作为预设的短时平均幅度阈值。
图8为根据本申请实施例的语音对齐装置的参考值计算单元的结构示意图。参见图7和图8,在一种实施方式中,上述装置还包括参考值计算单元600,参考值计算单元600包括:
计算子单元610,用于计算样本语音信号的标注音素分界点对应的短时平均幅度参考值;
识别子单元620,用于识别标注音素分界点所属的音素组合类别;
统计子单元630,用于统计标注音素分界点所属的音素组合类别中对应的标注音素分界点的短时平均幅度参考值的平均值;
确定子单元640,用于将平均值确定为预测音素分界点所属的音素组合类别对应的类别参考值。
在一种实施方式中,计算子单元610用于:
基于样本语音信号中的标注音素分界点和预设的第二扩帧参数M,得到第二扩帧结果;其中,第二扩帧结果包括标注音素分界点所在的语音帧,以及标注音素分界点所在的语音帧之前的M个语音帧和标注音素分界点所在的语音帧之后的M个语音帧,其中M为正整数;
计算第二扩帧结果内的每个语音帧对应的短时平均幅度值;
将第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,将排在第M+1位的短时平均幅度值确定为标注音素分界点对应的短时平均幅度参考值。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图9为用来实现本申请实施例的电子设备的框图。如图9所示,该电子设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的语音对齐方法。存储器910和处理器920的数量可以为一个或多个。
该电子设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种语音对齐方法,其特征在于,包括:
利用语音对齐算法得到待处理的语音信号的预测音素分界点;
对所述预测音素分界点进行扩帧,得到第一扩帧结果,所述第一扩帧结果包括所述预测音素分界点所在的语音帧在内的多个连续的语音帧;
计算所述第一扩帧结果内的每个语音帧对应的短时平均幅度值与预设的短时平均幅度阈值的差值;
将最小的所述差值对应的语音帧确定为所述待处理的语音信号的精确音素分界点。
2.根据权利要求1所述的方法,其特征在于,对所述预测音素分界点进行扩帧,得到第一扩帧结果,包括:
基于预设的第一扩帧参数N得到第一扩帧结果,所述第一扩帧结果包括所述预测音素分界点所在的语音帧之前的N个语音帧和所述预测音素分界点所在的语音帧之后的N个语音帧,其中N为正整数。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
识别所述预测音素分界点所属的音素组合类别,所述音素组合类别是包括当前音素以及所述当前音素的前后音素的组合所属的类别;
获取所述预测音素分界点所属的音素组合类别对应的类别参考值;
将所述类别参考值作为所述预设的短时平均幅度阈值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
计算样本语音信号的标注音素分界点对应的短时平均幅度参考值;
识别所述标注音素分界点所属的音素组合类别;
统计所述标注音素分界点所属的音素组合类别中对应的标注音素分界点的所述短时平均幅度参考值的平均值;
将所述平均值确定为所述预测音素分界点所属的音素组合类别对应的类别参考值。
5.根据权利要求4所述的方法,其特征在于,计算样本语音信号的标注音素分界点对应的短时平均幅度参考值,包括:
基于样本语音信号中的标注音素分界点和预设的第二扩帧参数M,得到第二扩帧结果;其中,所述第二扩帧结果包括所述标注音素分界点所在的语音帧,以及所述标注音素分界点所在的语音帧之前的M个语音帧和所述标注音素分界点所在的语音帧之后的M个语音帧,其中M为正整数;
计算所述第二扩帧结果内的每个语音帧对应的短时平均幅度值;
将所述第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,将排在第M+1位的短时平均幅度值确定为所述标注音素分界点对应的短时平均幅度参考值。
6.一种语音对齐装置,其特征在于,包括:
预测单元,用于利用语音对齐算法得到待处理的语音信号的预测音素分界点;
扩帧单元,用于对所述预测音素分界点进行扩帧,得到第一扩帧结果,所述第一扩帧结果包括所述预测音素分界点所在的语音帧在内的多个连续的语音帧;
计算单元,用于计算所述第一扩帧结果内的每个语音帧对应的短时平均幅度值与预设的短时平均幅度阈值的差值;
确定单元,用于将最小的所述差值对应的语音帧确定为所述待处理的语音信号的精确音素分界点。
7.根据权利要求6所述的装置,其特征在于,所述扩帧单元用于:
基于预设的第一扩帧参数N得到第一扩帧结果,所述第一扩帧结果包括所述预测音素分界点所在的语音帧之前的N个语音帧和所述预测音素分界点所在的语音帧之后的N个语音帧,其中N为正整数。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括阈值获取单元,所述阈值获取单元用于:
识别所述预测音素分界点所属的音素组合类别,所述音素组合类别是包括当前音素以及所述当前音素的前后音素的组合所属的类别;
获取所述预测音素分界点所属的音素组合类别对应的类别参考值;
将所述类别参考值作为所述预设的短时平均幅度阈值。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括参考值计算单元,所述参考值计算单元包括:
计算子单元,用于计算样本语音信号的标注音素分界点对应的短时平均幅度参考值;
识别子单元,用于识别所述标注音素分界点所属的音素组合类别;
统计子单元,用于统计所述标注音素分界点所属的音素组合类别中对应的标注音素分界点的所述短时平均幅度参考值的平均值;
确定子单元,用于将所述平均值确定为所述预测音素分界点所属的音素组合类别对应的类别参考值。
10.根据权利要求9所述的装置,其特征在于,所述计算子单元用于:
基于样本语音信号中的标注音素分界点和预设的第二扩帧参数M,得到第二扩帧结果;其中,所述第二扩帧结果包括所述标注音素分界点所在的语音帧,以及所述标注音素分界点所在的语音帧之前的M个语音帧和所述标注音素分界点所在的语音帧之后的M个语音帧,其中M为正整数;
计算所述第二扩帧结果内的每个语音帧对应的短时平均幅度值;
将所述第二扩帧结果内的每个语音帧对应的短时平均幅度值排序,将排在第M+1位的短时平均幅度值确定为所述标注音素分界点对应的短时平均幅度参考值。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010076341.2A CN111276121B (zh) | 2020-01-23 | 2020-01-23 | 语音对齐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010076341.2A CN111276121B (zh) | 2020-01-23 | 2020-01-23 | 语音对齐方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111276121A CN111276121A (zh) | 2020-06-12 |
CN111276121B true CN111276121B (zh) | 2021-04-30 |
Family
ID=71001897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010076341.2A Active CN111276121B (zh) | 2020-01-23 | 2020-01-23 | 语音对齐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111276121B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317673A (en) * | 1992-06-22 | 1994-05-31 | Sri International | Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system |
CN106782536A (zh) * | 2016-12-26 | 2017-05-31 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
CN106782508A (zh) * | 2016-12-20 | 2017-05-31 | 美的集团股份有限公司 | 语音音频的切分方法和语音音频的切分装置 |
CN110033755A (zh) * | 2019-04-23 | 2019-07-19 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN110136747A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种评价语音音素正确性的方法、装置、设备及存储介质 |
CN110428811A (zh) * | 2019-09-17 | 2019-11-08 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
CN110459207A (zh) * | 2018-05-07 | 2019-11-15 | 英特尔公司 | 唤醒语音关键短语分割 |
CN110689879A (zh) * | 2019-10-10 | 2020-01-14 | 中国科学院自动化研究所 | 端到端语音转写模型的训练方法、系统、装置 |
-
2020
- 2020-01-23 CN CN202010076341.2A patent/CN111276121B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317673A (en) * | 1992-06-22 | 1994-05-31 | Sri International | Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system |
CN106782508A (zh) * | 2016-12-20 | 2017-05-31 | 美的集团股份有限公司 | 语音音频的切分方法和语音音频的切分装置 |
CN106782536A (zh) * | 2016-12-26 | 2017-05-31 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
CN110459207A (zh) * | 2018-05-07 | 2019-11-15 | 英特尔公司 | 唤醒语音关键短语分割 |
CN110033755A (zh) * | 2019-04-23 | 2019-07-19 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN110136747A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种评价语音音素正确性的方法、装置、设备及存储介质 |
CN110428811A (zh) * | 2019-09-17 | 2019-11-08 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
CN110689879A (zh) * | 2019-10-10 | 2020-01-14 | 中国科学院自动化研究所 | 端到端语音转写模型的训练方法、系统、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111276121A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
WO2020024690A1 (zh) | 语音标注方法、装置及设备 | |
Zue | The use of speech knowledge in automatic speech recognition | |
US8140330B2 (en) | System and method for detecting repeated patterns in dialog systems | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
CN107785011B (zh) | 语速估计模型的训练、语速估计方法、装置、设备及介质 | |
CN110648658A (zh) | 一种语音识别模型的生成方法、装置及电子设备 | |
CN109920449B (zh) | 节拍分析方法、音频处理方法及装置、设备、介质 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
US11810546B2 (en) | Sample generation method and apparatus | |
CN110265028B (zh) | 语音合成语料库的构建方法、装置及设备 | |
Buß et al. | Evaluation and optimisation of incremental processors | |
Rosenberg et al. | Modeling phrasing and prominence using deep recurrent learning. | |
CN109166569B (zh) | 音素误标注的检测方法和装置 | |
CN111552777A (zh) | 一种音频识别方法、装置、电子设备及存储介质 | |
Middag et al. | Robust automatic intelligibility assessment techniques evaluated on speakers treated for head and neck cancer | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112634866A (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
US20020184016A1 (en) | Method of speech recognition using empirically determined word candidates | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
CN112530405A (zh) | 一种端到端语音合成纠错方法、系统及装置 | |
Crystal et al. | Characterization and modeling of speech-segment durations | |
JP3735209B2 (ja) | 話者認識装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |