CN117079636A - 一种基于注意力变分自编码器的短视频博主风格化语音合成方法 - Google Patents
一种基于注意力变分自编码器的短视频博主风格化语音合成方法 Download PDFInfo
- Publication number
- CN117079636A CN117079636A CN202310878728.3A CN202310878728A CN117079636A CN 117079636 A CN117079636 A CN 117079636A CN 202310878728 A CN202310878728 A CN 202310878728A CN 117079636 A CN117079636 A CN 117079636A
- Authority
- CN
- China
- Prior art keywords
- face
- attribute
- stylized
- encoder
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Processing Or Creating Images (AREA)
Abstract
一种基于注意力变分自编码器的短视频博主风格化语音合成方法,属于变分自编码器网络模型技术领域。这种风格化语音合成方法将短视频博主语音合成方法分为两个部分,一部分利用短视频博主视频构建风格化语音合成数据集,第二部分为通过一种基于注意力变分自编码器合成风格化语音。该方法通过加入新的iAFF注意力机制模块,建立基于β‑VAE方法的有监督注意力机制网络,通过标签属性可以直接合成风格化博主语音。
Description
技术领域
本发明涉及变分自编码器模型技术领域,更具体地说,本发明涉及一种基于注意力变分自编码器的短视频博主风格化语音合成方法。
背景技术
语音合成技术是将文本转换为可被人类听懂的语音的技术。它利用计算机算法和声学模型的组合,将输入的文本转化为自然流畅的语音输出。随着计算机性能和语音合成算法的不断提升,语音合成系统变得更加复杂且输出质量更高。现如今,语音合成技术广泛应用于各个领域,如语音播报、虚拟博主语音合成等,为我们的日常生活带来了乐趣和便利。
传统的语音生成方法通常由前端和后端两个模块组成。前端模块负责对输入文本进行分析,提取后端模块所需的语言学信息,包括文本正则化、词性预测、多音字消歧、韵律预测等。后端根据前端的分析结果,采用特定的方法生成语音波形。
目前,语音合成通常采用端到端的方式,只需输入文本或注音字符,系统就可以直接生成相应的音频波形。然而,如果希望合成多种风格的声音,则需要具有不同说话人的声音样本以便合成,无法直接合成多种风格的声音。
发明内容
针对现有技术中出现的不足,本专利提出一种基于注意力变分自编码器的短视频博主风格化语音合成方法。基于注意力变分自编码器的短视频博主风格化语音合成方法能够生成多种风格化的声音。它根据提供的人物风格,无需提供特定说话人的声音样本,就能够合成多种风格化的语音。该方法还引入了大五人格和情感风格标签,使得可以合成具有多种不同人格和情感的声音。
本发明的基于注意力变分自编码器的短视频博主风格化语音合成分为两个部分。第一部分为利用短视频博主视频构建风格化语音合成数据集。第二部分为通过一种基于注意力变分自编码器生成短视频博主风格化语音。再采用Tacotron2生成模型从视频博主数据集中提取语音,并使用基于注意力的变分自动编码器将声音和短视频博主人物的属性相结合生成风格化的扬声器嵌入。然后使用Tacotron2模型基于这些语音嵌入合成语音。通过博主相关的属性特征,合成风格化的声音。
为实现上述目的,本发明采用的技术方案:一种基于注意力变分自编码器的短视频博主风格化语音合成方法,包括以下步骤:
S1.构建人脸-语音数据集,下载第一印象数据集,从第一印象视频数据集中提取人脸图片和对应的语音声音;
S2.获得人脸关键特征的轮廓检测图像,输入步骤S1中的人脸数据集图像,利用DeepFace多个人脸属性特征提取模型,从步骤S1中的人脸数据集图像提取人脸的情感、大无人格的属性特征,并对声音数据集采用X-Vector提取声音属性特征;
S3.构建基于β-VAE方法的有监督注意力机制网络,在编码器和解码器之间增加1个iAFF模块,结合注意力模块建立基于β-VAE方法的有监督注意力机制网络;
采用X-Vector提取的说话人嵌入特征通过编码器生成隐变量z,根据图像提取的说话人属性特征和隐变量z结合,然后经过iAFF注意力模块,再送入到解码器进行解码,经过解码器解码以后,生成说话人嵌入;
在β-VAE中添加condition,根据输入的属性条件合成风格化的语音,根据输入来进行输出,在训练集中是数据对(x,y),y是输入,即condition;x是我们期待的输出;
模型损失函数如下:
Lcβvae=-DKL(q(z|x,y)||p(z|y))+β·Eq(z|x,y)(log(p(x|z,y)))
其中,DKL是KL散度,使得编码器生成的隐变量尽可能符合标准正态分布,p代表真实向量,q代表结果向量,z代表隐向量,Eq(z|x,y)代表重构损失,是解码器解码得到的向量和输入向量之间的MSE损失,反映出VAE生成的结果和输入之间的差异,对应的目标是使VAE生成的结果和输入尽可能相似;
S4.以步骤S2得到的人脸属性特征和对应的声音特征作为训练数据集,使用Adam训练步骤S3构建的基于β-VAE方法的有监督注意力机制网络;
S5.输入属性特征值,根据步骤S2得到人脸属性特征和对应的声音特征,输入到步骤S4训练好的基于β-VAE方法的有监督注意力机制网络中生成语音嵌入;
S6.利用多说话人Tacotron2模型将步骤S5获得的风格化声音嵌入进行语音合成,合成声音。
步骤S2中,获得人脸属性特征和对应的语音特征包含如下步骤:
S2.1通过X-Vector提取声音特征:X-Vector接受任意长度的输入后将其转化为固定长度的特征表达;
S2.2根据脸型提取特征:采用MTCNN人脸检测模型来提取人脸标志以计算人脸形状,MTCNN网络结构是一个三级联级网络,分为P-Net、R-Net、和O-Net三层网络结构;在MTCNN的三层网络结构中,网络输出形式为是否是人脸、边框回归值以及人脸特征点坐标;模型的最终损失函数具体可以表示为:
Lmntcnn=αdetLdet+αboxLbox+αlandmarksLlandmarks
其中,αdetLdet是人脸分类损失使用交叉熵作为损失函数,αboxLbox是边框回归值损失使用欧氏距离作为损失函数,αlandmarksLlandmarks是人脸特征点坐标损失,使用欧氏距离作为损失函数;
S2.3根据情感、年龄、性别提取特征,采用DeepFace框架提取多个属性特征值;
S2.4根据体重提取特征,采用BMI体重预测模型,从图像中预测人物的体重属性特征;
S2.5根据大五人格提取特征,采用的是第一印象的短视频博主数据集,数据集中包含大五人格特征的标注,直接使用大五人格的属性特征。3.根据权利要求1所述的一种基于注意力变分自编码器的短视频博主风格化语音合成方法,其特征在于,步骤S6利用Tacotron2模型将步骤S5获得的说话人风格化特征嵌入进行语音合成,生成的说话人特征嵌入经过Tacotron模型合成为我们所听到的声音,根据属性标签合成不同风格的语音。
本申请与现有技术相比具有以下优点:基于注意力变分自编码器的短视频博主风格化语音合成方法通过加入新的iAFF注意力机制模块,可以学习更全面的语音特征信息。该方法通过建立基于β-VAE方法的有监督注意力机制网络,使人物属性特征和说话人声音相结合,可以根据人物属性标签合成不同风格的说话人声音。
附图说明
图1是一种基于注意力变分自编码器的短视频博主风格化语音合成方法的流程图。
图2是一种基于注意力变分自编码器的短视频博主风格化语音合成方法的网络模型结构。
图3是一种基于注意力变分自编码器的短视频博主风格化语音合成方法的生成的效果图。
图4是合成后的声音效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。显然,所描述的实施例仅仅是本发明中的一部分实施例,而不是全部实施例。
图1示出了一种基于注意力变分自编码器的短视频博主风格化语音合成方法的流程图。这种基于注意力变分自编码器的短视频博主风格化语音合成方法具体包括以下步骤:
(1)构建人脸-语音数据集,下载第一印象数据集,从第一印象视频数据集中提取人脸图片和对应的语音声音;
(2)获得人脸关键特征的轮廓检测图像,输入步骤(1)中的人脸数据集图像,利用DeepFace等多个人脸属性特征提取模型,从步骤(1)中的人脸数据集图像提取人脸的情感、大无人格等属性特征,并对声音数据集采用X-Vector提取声音属性特征;
(3)构建基于β-VAE方法的有监督注意力机制网络,在编码器和解码器之间增加1个iAFF模块,结合注意力模块建立基于β-VAE方法的有监督注意力机制网络;
(4)以步骤(2)得到的人脸属性特征和对应的声音特征作为训练数据集,使用Adam训练步骤(3)构建的基于β-VAE方法的有监督注意力机制网络;
(5)输入属性特征值,根据步骤(2)得到人脸属性特征和对应的声音特征,输入到步骤(4)训练好的基于β-VAE方法的有监督注意力机制网络中生成语音嵌入;
(6)利用多说话人Tacotron2模型将步骤(5)获得的风格化声音嵌入进行语音合成,合成声音。
步骤(2)获得人脸属性特征和对应的语音特征包含如下步骤:
(2.1)通过X-Vector提取声音特征,X-Vector得益于其网络中的StatisticsPooling层,X-Vector可接受任意长度的输入,转化为固定长度的特征表达;
(2.2)根据脸型提取特征,采用MTCNN人脸检测模型来提取人脸标志以计算人脸形状,MTCNN网络结构是一个三级联级网络,总体可分为P-Net、R-Net、和O-Net三层网络结构,该模型采用了候选框加分类器的思想,能够同时兼顾速度与精度,实现快速高效的人脸检测,在MTCNN的P、R、O三个网络中,网络输出形式基本相同,均为是否是人脸、边框回归值以及人脸特征点坐标(在P-Net和R-Net中人脸特征点坐标没有实际意义)。模型的最终损失函数具体可以表示为:
Lmtcnn=αdetLdet+αboxLbox+αlandmarksLlandmarks
其中,αdetLdet是人脸分类损失使用交叉熵作为损失函数,αboxLbox是边框回归值损失使用欧氏距离作为损失函数,αlandmarksLlandmarks是人脸特征点坐标损失,使用欧氏距离作为损失函数;
(2.3)根据情感、年龄、性别提取特征,采用DeepFace框架提取多个属性特征值,DeepFace是一个轻量级的人脸识别和面部属性分析(年龄,性别,情感)框架。它是一个混合人脸识别框架,包含最先进的模型:VGG-Face、Google FaceNet、OpenFace、DeepID、ArcFace和Dlib,在面部识别任务上的准确率为97.53%。
(2.4)根据体重提取特征,采用BMI体重预测模型,从图像中预测人物的体重属性特征。
(2.5)根据大五人格提取特征,采用的是第一印象的短视频博主数据集,这个数据集中包含大五人格特征的标注,可以直接使用大五人格的属性特征。
步骤(3)中,构建基于β-VAE方法的有监督注意力机制网络,生成器包含编码器、解码器,编码器和解码器之间增加一个iAFF模块,采用X-Vector提取的说话人嵌入特征通过编码器生成隐变量z,根据图像提取的说话人属性特征和隐变量z结合,然后经过iAFF注意力模块,再送入到解码器进行解码,经过解码器解码以后,生成说话人嵌入;在β-VAE中添加condition,可以根据输入的属性条件合成风格化的语音,根据输入来进行输出,在训练集中是数据对(x,y),y是输入,也就是condition,x是我们期待的输出。
模型损失函数如下:
Lcβvae=-DKL(q(z|x,y)||p(z|y))+β·Eq(z|x,y)(log(p(x|z,y)))
其中,DKL是KL散度,使得编码器生成的隐变量尽可能符合标准正态分布,Eq(z|x,y)代表重构损失,是解码器解码得到的向量和输入向量之间的MSE损失,反映出VAE生成的结果和输入之间的差异,对应的目标是使VAE生成的结果和输入尽可能相似。
步骤(6)利用Tacotron2模型将步骤(5)获得的说话人风格化特征嵌入进行语音合成,生成的说话人特征嵌入经过Tacotron模型合成为我们所听到的声音,可以根据属性标签合成不同风格的语音。
图2示出了一种基于注意力变分自编码器的短视频博主风格化语音合成模型结构。如图所示,该方法设计一个网络结构用于短视频博主风格化声音合成,在β-VAE的基础上,构建基于β-VAE方法的有监督注意力机制网络,在编码器和解码器之间增加1个iAFF模块,结合注意力模块建立基于β-VAE方法的有监督注意力机制网络。
将一组声音特征和对应的人物属性特征作为输入,通过基于注意力变分自编码器的短视频博主风格化语音合成的网络模型结构,得到说话人声音嵌入,再经过Tacotron模型就可以合成风格化的声音。图3显示在下层波动变化比较小的是大五人格为均值的一个声音信号图,显示在上层波动变化比较大的是调高了外向性和开放性的一个声音信号图,可以看出在调高了大五人格的开放性和外向性后,声音震动次数变多,音调变高,振幅变大,响度提高,证明了这种方法的可行性和有效性。在日常生活中男女生声音之间也是不一样的,女生声音的基频普遍是要比男生高的,图4左边是合成的男生的声音,右边是合成的女生的声音,从图中可以看出女生声音的基频要比男生声音的高。
Claims (3)
1.一种基于注意力变分自编码器的短视频博主风格化语音合成方法,其特征在于,包括以下步骤:
S1.构建人脸-语音数据集,下载第一印象数据集,从第一印象视频数据集中提取人脸图片和对应的语音声音;
S2.获得人脸关键特征的轮廓检测图像,输入步骤S1中的人脸数据集图像,利用DeepFace多个人脸属性特征提取模型,从步骤S1中的人脸数据集图像提取人脸的情感、大无人格的属性特征,并对声音数据集采用X-Vector提取声音属性特征;
S3.构建基于β-VAE方法的有监督注意力机制网络,在编码器和解码器之间增加1个iAFF模块,结合注意力模块建立基于β-VAE方法的有监督注意力机制网络;
采用X-Vector提取的说话人嵌入特征通过编码器生成隐变量z,根据图像提取的说话人属性特征和隐变量z结合,然后经过iAFF注意力模块,再送入到解码器进行解码,经过解码器解码以后,生成说话人嵌入;
在β-VAE中添加condition,根据输入的属性条件合成风格化的语音,根据输入来进行输出,在训练集中是数据对(x,y),y是输入,即condition;x是我们期待的输出;
模型损失函数如下:
Lcβvae=-DKL(q(z|x,y)||p(z|y))+β·Eq(z|x,y)(log(p(x|z,y)))
其中,DKL是KL散度,使得编码器生成的隐变量尽可能符合标准正态分布,p代表真实向量,q代表结果向量,z代表隐向量,Eq(z|x,y)代表重构损失,是解码器解码得到的向量和输入向量之间的MSE损失,反映出VAE生成的结果和输入之间的差异,对应的目标是使VAE生成的结果和输入尽可能相似;
S4.以步骤S2得到的人脸属性特征和对应的声音特征作为训练数据集,使用Adam训练步骤S3构建的基于β-VAE方法的有监督注意力机制网络;
S5.输入属性特征值,根据步骤S2得到人脸属性特征和对应的声音特征,输入到步骤S4训练好的基于β-VAE方法的有监督注意力机制网络中生成语音嵌入;
S6.利用多说话人Tacotron2模型将步骤S5获得的风格化声音嵌入进行语音合成,合成声音。
2.根据权利要求1所述的一种基于注意力变分自编码器的短视频博主风格化语音合成方法,其特征在于,步骤S2中,获得人脸属性特征和对应的语音特征包含如下步骤:
S2.1通过X-Vector提取声音特征:X-Vector接受任意长度的输入后将其转化为固定长度的特征表达;
S2.2根据脸型提取特征:采用MTCNN人脸检测模型来提取人脸标志以计算人脸形状,MTCNN网络结构是一个三级联级网络,分为P-Net、R-Net、和O-Net三层网络结构;在MTCNN的三层网络结构中,网络输出形式为是否是人脸、边框回归值以及人脸特征点坐标;模型的最终损失函数具体可以表示为:
Lmtcnn=αdetLdet+αboxLbox+αlandmarksLlandmarks
其中,αdetLdet是人脸分类损失使用交叉熵作为损失函数,αboxLbox是边框回归值损失使用欧氏距离作为损失函数,αlandmarksLlandmarks是人脸特征点坐标损失,使用欧氏距离作为损失函数;
S2.3根据情感、年龄、性别提取特征,采用DeepFace框架提取多个属性特征值;
S2.4根据体重提取特征,采用BMI体重预测模型,从图像中预测人物的体重属性特征;
S2.5根据大五人格提取特征,采用的是第一印象的短视频博主数据集,数据集中包含大五人格特征的标注,直接使用大五人格的属性特征。
3.根据权利要求1所述的一种基于注意力变分自编码器的短视频博主风格化语音合成方法,其特征在于,步骤S6利用Tacotron2模型将步骤S5获得的说话人风格化特征嵌入进行语音合成,生成的说话人特征嵌入经过Tacotron模型合成为我们所听到的声音,根据属性标签合成不同风格的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878728.3A CN117079636A (zh) | 2023-07-18 | 2023-07-18 | 一种基于注意力变分自编码器的短视频博主风格化语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878728.3A CN117079636A (zh) | 2023-07-18 | 2023-07-18 | 一种基于注意力变分自编码器的短视频博主风格化语音合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079636A true CN117079636A (zh) | 2023-11-17 |
Family
ID=88708755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310878728.3A Pending CN117079636A (zh) | 2023-07-18 | 2023-07-18 | 一种基于注意力变分自编码器的短视频博主风格化语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079636A (zh) |
-
2023
- 2023-07-18 CN CN202310878728.3A patent/CN117079636A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767958B (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
Wu et al. | End-to-end emotional speech synthesis using style tokens and semi-supervised training | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
WO2019214047A1 (zh) | 建立声纹模型的方法、装置、计算机设备和存储介质 | |
CN1835074B (zh) | 一种结合高层描述信息和模型自适应的说话人转换方法 | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
CN101578659A (zh) | 音质转换装置及音质转换方法 | |
JP2002328695A (ja) | テキストからパーソナライズ化音声を生成する方法 | |
Choi et al. | Sequence-to-sequence emotional voice conversion with strength control | |
CN112992109B (zh) | 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
Goto et al. | Face2Speech: Towards Multi-Speaker Text-to-Speech Synthesis Using an Embedding Vector Predicted from a Face Image. | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
CN116189034A (zh) | 头部姿态驱动方法及其装置、设备、介质、产品 | |
Chetouani et al. | Time-scale feature extractions for emotional speech characterization: applied to human centered interaction analysis | |
Zhang et al. | AccentSpeech: learning accent from crowd-sourced data for target speaker TTS with accents | |
Kang et al. | Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion | |
CN116564269A (zh) | 语音数据的处理方法、装置、电子设备和可读存储介质 | |
Barbulescu et al. | Audio-visual speaker conversion using prosody features | |
CN115985310A (zh) | 一种基于多级视听融合的构音障碍语音识别方法 | |
Chen et al. | Speaker-independent emotional voice conversion via disentangled representations | |
CN117079636A (zh) | 一种基于注意力变分自编码器的短视频博主风格化语音合成方法 | |
CN113241054B (zh) | 语音平滑处理模型生成方法、语音平滑处理方法及装置 | |
Li et al. | Non-Parallel Many-to-Many Voice Conversion with PSR-StarGAN. | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |