CN113127622B

CN113127622B - 一种从语音到图像的生成方法及系统

Info

Publication number: CN113127622B
Application number: CN202110472904.4A
Authority: CN
Inventors: 杨鸿武; 陈思成
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2023-06-09
Anticipated expiration: 2041-04-29
Also published as: CN113127622A

Abstract

本发明公开一种从语音到图像的生成方法及系统，涉及人工智能技术领域，方法包括：获取训练数据集；训练数据集包括中文语料库和Oxford‑102flowers数据集；对中文语料库进行预处理，得到语谱图；利用语谱图对端到端卷积神经网络模型进行训练和优化；利用Oxford‑102flowers数据集对深度卷积生成对抗网络模型进行训练和优化；获取教师教学时的语音信号；对语音信号进行预处理，得到教学语谱图；将教学语谱图输入优化后的端到端卷积神经网络模型中，得到教学文本；将教学文本输入优化后的深度卷积生成对抗网络模型中，生成教学图像。本发明能够实现将课堂上教师教学时的语音信号转换为图像。

Description

一种从语音到图像的生成方法及系统

技术领域

本发明涉及人工智能技术领域，特别是涉及一种从语音到图像的生成方法及系统。

背景技术

随着大数据、人工智能的不断发展，传统领域的大数据化、智能化将是一个必然的发展趋势，而在众多的传统领域中，教育行业的特征与人工智能的契合度非常高。人工智能与教育的结合点就是和教师成为合作伙伴。人工智能已经普遍应用于教育，不同的工具可以运用于教育的不同领域。随着人工智能教育解决方案的不断成熟，人们希望人工智能可以帮助填补学习和教学方面的需求空白，让学校和教师比以往任何时候都更有效率。研究人工智能在智慧教育中的应用，通过将课程、学生、教师和环境的有效结合，构建符合人工智能教育需求的生态模式，可以实现高效的智能课堂。人工智能可以提供高效率、个性化和简约化的管理任务，使教师有时间去从事进一步研究。通过这种最佳合作属性，人工智能在教育中的愿景是和教师共同努力，为学生带来最佳结果。由于今天的学生需要在未来工作中运用人工智能，所以让学生接触并学习人工智能也是很重要的。

在小学阶段，学生的自律能力往往比较差，研发课程时就应充分考虑如何激发学生的学习兴趣。例如可以在授课时通过有趣的故事进行情景引入，在知识点讲授环节则要注意内容不宜过多，每节课不应超过三个知识点；连续进行知识讲授的时间不宜超过15分钟，否则孩子们很难有足够的耐心听下去，同时设计紧扣知识点并且参与感与趣味性都比较强的课堂互动环节让孩子们更容易地接受和掌握知识内容。根据小学生认知发展规律，直观图像比抽象想象更适合小学生的课堂学习，但是，现在的小学科学课程仍处于传统的课堂教学中，并且在偏远的农村地区，他们面临着实验设备缺乏和教师科学素养不高的问题。因此，为了更好的实现认知教育，如果可以将课堂上教师教学时的语音描述转换为逼真的图像，即从课堂语音转换为符合语义的图片，从而将非书面语言以图像的形式表现出来，必然能够激发学生的学习兴趣，实现高效的、生动的智能课堂。基于此，本领域亟需一种从语音到图像的生成方法及系统，以解决无法将课堂上教师教学时的语音信号转换为图像的问题。

发明内容

本发明的目的是提供一种从语音到图像的生成方法及系统，能够实现将课堂上教师教学时的语音信号转换为图像。

为实现上述目的，本发明提供了如下方案：

一种从语音到图像的生成方法，所述方法包括：

获取训练数据集；所述训练数据集包括中文语料库和Oxford-102flowers数据集；

对所述中文语料库进行预处理，得到语谱图；

利用所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型；

利用所述Oxford-102flowers数据集对深度卷积生成对抗网络模型进行训练和优化，得到优化后的深度卷积生成对抗网络模型；

获取教师教学时的语音信号；

对所述语音信号进行所述预处理，得到教学语谱图；

将所述教学语谱图输入所述优化后的端到端卷积神经网络模型中，得到教学文本；

将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中，生成教学图像。

可选地，所述对所述中文语料库进行预处理，得到语谱图，具体包括：

对所述中文语料库进行分帧操作，得到多个短时的语音段；

对每一所述语音段分别进行加窗操作，得到加窗后的各语音段；

对所述加窗后的各语音段分别进行快速傅立叶变换，得到各语音段的频谱；

对各语音段的频谱进行叠加，得到语谱图。

可选地，所述利用所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型，具体包括：

采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型。

可选地，所述将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中，生成教学图像，具体包括：

将所述教学文本与随机噪声共同输入所述优化后的深度卷积生成对抗网络模型中，通过所述优化后的深度卷积生成对抗网络模型生成与所述教学文本语义一致的教学图像。

本发明还提供了如下方案：

一种从语音到图像的生成系统，所述系统包括：

训练数据集获取模块，用于获取训练数据集；所述训练数据集包括中文语料库和Oxford-102flowers数据集；

预处理模块，用于对所述中文语料库进行预处理，得到语谱图；

第一训练和优化模块，用于利用所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型；

第二训练和优化模块，用于利用所述Oxford-102flowers数据集对深度卷积生成对抗网络模型进行训练和优化，得到优化后的深度卷积生成对抗网络模型；

语音信号获取模块，用于获取教师教学时的语音信号；

语音信号预处理模块，用于对所述语音信号进行所述预处理，得到教学语谱图；

教学文本生成模块，用于将所述教学语谱图输入所述优化后的端到端卷积神经网络模型中，得到教学文本；

教学图像生成模块，用于将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中，生成教学图像。

可选地，所述预处理模块，具体包括：

分帧单元，用于对所述中文语料库进行分帧操作，得到多个短时的语音段；

加窗单元，用于对每一所述语音段分别进行加窗操作，得到加窗后的各语音段；

傅立叶变换单元，用于对所述加窗后的各语音段分别进行快速傅立叶变换，得到各语音段的频谱；

频谱叠加单元，用于对各语音段的频谱进行叠加，得到语谱图。

可选地，所述第一训练和优化模块，具体包括：

训练和优化单元，用于采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型。

可选地，所述教学图像生成模块，具体包括：

教学图像生成单元，用于将所述教学文本与随机噪声共同输入所述优化后的深度卷积生成对抗网络模型中，通过所述优化后的深度卷积生成对抗网络模型生成与所述教学文本语义一致的教学图像。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开的从语音到图像的生成方法及系统，将自然语音经过预处理，然后通过端到端卷积神经网络模型生成语音对应的文本，再将该文本与随机噪声作为深度卷积生成对抗网络模型的输入，通过深度卷积生成对抗网络模型生成与语音语义一致的图像；通过采用端到端卷积神经网络模型和深度卷积生成对抗网络模型将课堂上教师教学时的语音信号转换为图像，由于直观图像比抽象想象更适合小学生的课堂学习，因此更符合小学生认知发展规律，能更好的实现认知教育；通过将课堂语音转换为符合语义的图片，与传统的课堂不同，可以改善目前小学科学课程仍处于传统的课堂教学中，并且在偏远的农村地区，他们面临的实验设备缺乏和教师科学素养不高的现状，实现更好的智能教育，实现多样化、高效率、生动的智能课堂，实现更好的教学方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明从语音到图像的生成方法实施例的流程图；

图2为本发明语音到图片生成总体框架图；

图3为本发明从语音到图像的生成系统实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明从语音到图像的生成方法实施例的流程图。参见图1，该从语音到图像的生成方法包括：

步骤101：获取训练数据集；训练数据集包括中文语料库和Oxford-102flowers数据集。

该步骤101中，中文语料库为清华大学中文语料库，该语料库为清华大学30h的数据集，包括音频时长25h的训练集和音频时长6.15h的测试集。清华大学中文语料库和Oxford-102flowers图片数据库是公开的典型的数据集，但是本发明主要针对的是中国小学生科学课程，由于Oxford-102flowers数据集的文本数据是英文数据库，因此需要将文本翻译成中文进行训练，然后实现语音到图片针对科学课程的课堂教育。

步骤102：对中文语料库进行预处理，得到语谱图。

该步骤102对中文语料库提供的语音信号进行分帧、加窗、快速傅立叶变换、提取语谱图的预处理。具体包括：

对中文语料库进行分帧操作，得到多个短时的语音段。

对每一语音段分别进行加窗操作，得到加窗后的各语音段。

对加窗后的各语音段分别进行快速傅立叶变换，得到各语音段的频谱。

对各语音段的频谱进行叠加，得到语谱图。

该步骤102使用80-dim logMel滤波器组，窗口长度为25ms，帧移为10ms，得到中文语料库提供的语音信号的语谱图作为端到端卷积神经网络(CTC-CNN)模型的输入。为了处理语音信号，要对语音信号进行加窗，也就是一次仅处理窗中的数据。因为实际的语音信号是很长的，不能也不必对非常长的数据进行一次性处理。解决办法就是每次取一段数据，进行分析，然后再取下一段数据，再进行分析。加窗操作指的是汉明窗操作，原理就是把一帧内的数据乘以一个函数并得到新的一帧数据。因为之后会对汉明窗中的数据进行快速傅立叶变换(FFT)，它假设一个窗内的信号是代表一个周期的信号(也就是说窗的左端和右端大致可以连续)，而通常一小段音频数据没有明显的周期性，加上汉明窗后，数据就比较接近周期函数了。语音信号在时域上比较难看出其特性，所以通常转换为频域上的能量分布，对每帧经过窗函数处理的信号做快速傅立叶变换，将时域图转换成各帧的频谱，然后可以对每个窗口的频谱叠加得到语谱图。

步骤103：利用语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型。

该步骤103具体包括：

采用BN算法和CTC算法根据语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型。

在训练过程中，加入BN(BatchNormalization)来减少训练过程中的过拟合，加快模型的收敛速度。BN算法像卷积层，池化层、激活层一样，也输入一层，BN层添加在激活函数前，对激活函数的输入进行归一化，这样解决了输入数据发生偏移和增大的影响，并且可以增加训练速度，防止过拟合。通过使用CTC(ConnectionistTemporal Classification)算法将输入序列映射到输出序列，输出单元为对应的汉字(使用训练好的CTC-CNN模型将语音转化成汉字)。

该步骤103中，端到端卷积神经网络模型作为语音识别模块，用于语音识别输出文本。利用语谱图作为CTC-CNN模型的输入，训练CTC-CNN模型。使用3092汉语单词为基本建模单元，并使用训练集和验证集训练CTC-CNN模型。该模型包含10层，步幅大小为2和内核大小为3的CNN和两个完全连接层，softmax输出层具有3092个输出节点，对应3092汉语单词。

步骤104：利用Oxford-102flowers数据集对深度卷积生成对抗网络模型进行训练和优化，得到优化后的深度卷积生成对抗网络模型。

该步骤104中，深度卷积生成对抗网络模型(Deep Convolution GenerativeAdversarialNetwork，DCGAN)作为图像生成模块。深度卷积生成对抗网络模型采用《GenerativeAdversarial Textto Image Synthesis》中的DCGAN，但是经过本发明的数据进行训练得到最终模型。DCGAN包括一个生成器网络和一个鉴别器网络。生成器网络本身就具备将文字转换成图片的功能，可以根据输入的文本和随机噪声生成伪图片。其中，随机噪声指的是服从标准正态分布N(0,1)的随机数据。然后鉴别器网络输入真图片和伪图片，鉴别伪图片是否为真，即鉴别伪图片是否可以以假乱真，跟真实图片(真图片)类似，而不是模糊不清的图片。当鉴别为假时，生成器网络重新训练生成，直到鉴别器鉴别为真时，输出生成的图片。其中，真图片是从Oxford-102flowers数据集中获取的。生成器网络和鉴别器网络就是不断生成不断鉴别，直到生成的伪图片可以以假乱真为止。

深度卷积生成对抗网络模型采用的是Oxford-102flowers数据集进行训练。训练图像的大小被设置为64*64*3。本发明的方法是训练一个深度卷积生成对抗网络(DCGAN)，该网络以混合字符级卷积递归神经网络编码的文本特征为条件，即以卷积递归神经网络对字符进行编码生成的文本特征为条件。深度卷积生成对抗网络由生成器网络和鉴别器(判别器)网络组成。生成器网络和鉴别器网络都根据文本特征进行前馈推理。首先需设置训练图像的尺寸，然后使用文本编码器产生1024维的嵌入，文本编码器产生的1024维在生成器和鉴别器中投影128维的嵌入。其中，文本编码器采用《Learning Deep RepresentationsofFine-Grained Visual Descriptions》中的文本编码器。文本编码器输入的是文本序列，输出的是特征序列。文本编码器是由生成器和判别器使用，它被投射到一个更低的维数和深度，并与图像特征映射连接，以进行进一步的卷积处理。采取交替的步骤来更新生成器和鉴别器网络，使用的批量大小为64，并经过了600次的训练。也就是说，将语音识别模型生成的文本与随机噪声作为输入，通过DCGAN生成与语音语义一致的图片。

步骤105：获取教师教学时的语音信号。

步骤106：对语音信号进行预处理，得到教学语谱图。

步骤107：将教学语谱图输入优化后的端到端卷积神经网络模型中，得到教学文本。

步骤108：将教学文本输入优化后的深度卷积生成对抗网络模型中，生成教学图像。

该步骤108具体包括：

将教学文本与随机噪声共同输入优化后的深度卷积生成对抗网络模型中，通过优化后的深度卷积生成对抗网络模型生成与教学文本语义一致的教学图像。

图2为本发明语音到图片生成总体框架图。参见图2，本发明提出一种从语音到图像生成的框架，包括语音识别模块和图像生成模块。语音识别模块采用基于CTC的端到端的语音识别方法，图像生成模块包括深度卷积生成对抗网络，训练生成器模型和判别器模型。该生成对抗网络模型基于语音识别生成的文本，合成出语义上与相应语音描述一致的图像，具体为：首先将普通话语料库中的语音进行预处理：分帧、加窗、快速傅立叶变换、然后进行特征提取，即提取语谱图，语谱图作为端到端卷积神经网络的输入，训练声学模型(CTC-CNN模型)，训练后的声学模型(CTC-CNN模型)进行语音识别输出文本序列，文本序列经文本编码器输出文本序列的特征序列。再将该文本序列的特征序列和随机噪声作为DCGAN的输入，其中，随机噪声为服从标准正态分布N(0,1)的随机数据Z，即Z～N(0,1)，经过生成器网络生成伪图片，然后将伪图片与真实图片作为鉴别器网络的输入进行鉴别，当鉴别为假，重新生成，即不再获取下一个文字，而是重新生成，生成器网络的目标就是尽可能生成真实的图片去欺骗判别器网络。而鉴别器网络的目标就是尽量把生成器网络生成的图片和真实的图片分别开来，这样，生成器网络和鉴别器网络构成了一个动态的博弈过程，直到鉴别器辨别不出真假时，输出伪图片。输入的真图片数量与最后输出的所有图片的数量不一致，例如输入的是此花瓣下部是粉红色，而花药是黄色的图片，生成的是不同风格的多张图片。

图3为本发明从语音到图像的生成系统实施例的结构图。参见图3，该从语音到图像的生成系统包括：

训练数据集获取模块301，用于获取训练数据集；训练数据集包括中文语料库和Oxford-102flowers数据集。

预处理模块302，用于对中文语料库进行预处理，得到语谱图。

该预处理模块302具体包括：

分帧单元，用于对中文语料库进行分帧操作，得到多个短时的语音段。

加窗单元，用于对每一语音段分别进行加窗操作，得到加窗后的各语音段。

傅立叶变换单元，用于对加窗后的各语音段分别进行快速傅立叶变换，得到各语音段的频谱。

第一训练和优化模块303，用于利用语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型。

该第一训练和优化模块303具体包括：

训练和优化单元，用于采用BN算法和CTC算法根据语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型。

第二训练和优化模块304，用于利用Oxford-102flowers数据集对深度卷积生成对抗网络模型进行训练和优化，得到优化后的深度卷积生成对抗网络模型。

语音信号获取模块305，用于获取教师教学时的语音信号。

语音信号预处理模块306，用于对语音信号进行预处理，得到教学语谱图。

教学文本生成模块307，用于将教学语谱图输入优化后的端到端卷积神经网络模型中，得到教学文本。

教学图像生成模块308，用于将教学文本输入优化后的深度卷积生成对抗网络模型中，生成教学图像。

该教学图像生成模块308具体包括：

教学图像生成单元，用于将教学文本与随机噪声共同输入优化后的深度卷积生成对抗网络模型中，通过优化后的深度卷积生成对抗网络模型生成与教学文本语义一致的教学图像。

本发明公开的从语音到图像的生成方法及系统，将自然语音经过预处理，然后通过语音识别模型生成文本，再将该文本与随机噪声作为输入，通过DCGAN生成与语音语义一致的图片，可广泛应用于教育方面。根据小学生认知发展规律，直观图像比抽象想象更适合小学生的课堂学习，但是，现在的小学科学课程仍处于传统的课堂教学中，并且在偏远的农村地区，他们面临着实验设备缺乏和教师科学素养不高的问题，因此，本发明公开的可以将课堂语音转换为符合语义的图片的方法及系统，能更好的实现认知教育。与传统的课堂不同，本发明可以实现更好的智能教育，实现多样化、高效率的智能课堂，实现更好的教学方案。

本发明的优点：

1、与传统的方法(基于隐马尔科夫模型的方法)不同，端到端(CTC)语音识别系统，即CTC-CNN模型降低了使用单个网络架构构建语音识别系统，即声学模型的难度，它省去了传统深度学习方法中需要使用的标注、发音词典和上下文相关树，简化了复杂的建模过程。传统的语音识别模型，即DNN-HMM模型将语音识别成文本，需要语言模型，而端到端语音识别系统省略了复杂的构建语言模型过程。DNN-HMM模型需要知道每帧对应的是哪个语音，而端到端方法所在意的是输出序列与输入序列是否相同，而不是预测序列和输入序列是否在某个时间点对齐。

2、基于CTC-CNN模型和DCGAN模型，实现了将课堂上教师教学时的语音信号转换为图像，由于直观图像比抽象想象更适合小学生的课堂学习，因此更符合小学生认知发展规律，能更好的实现认知教育；通过将课堂语音转换为符合语义的图片，与传统的课堂不同，可以改善目前小学科学课程仍处于传统的课堂教学中，并且在偏远的农村地区，他们面临的实验设备缺乏和教师科学素养不高的现状，实现更好的智能教育，实现多样化、高效率、生动的智能课堂，实现更好的教学方案。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种从语音到图像的生成方法，其特征在于，所述方法包括：

对所述中文语料库进行预处理，得到语谱图；

利用所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型，具体包括：采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型；在训练过程中，加入BN，即BatchNormalization来减少训练过程中的过拟合，加快模型的收敛速度；BN算法像卷积层，池化层、激活层一样，也输入一层，BN层添加在激活函数前，对激活函数的输入进行归一化，这样解决了输入数据发生偏移和增大的影响，并且可以增加训练速度，防止过拟合；通过使用CTC，即ConnectionistTemporal Classification算法将输入序列映射到输出序列，输出单元为对应的汉字，即使用训练好的CTC-CNN模型将语音转化成汉字；CTC-CNN模型包含10层，步幅大小为2和内核大小为3的CNN和两个完全连接层，softmax输出层具有3092个输出节点；

获取教师教学时的语音信号；

对所述语音信号进行所述预处理，得到教学语谱图；

2.根据权利要求1所述的从语音到图像的生成方法，其特征在于，所述对所述中文语料库进行预处理，得到语谱图，具体包括：

对所述中文语料库进行分帧操作，得到多个短时的语音段；

对各语音段的频谱进行叠加，得到语谱图。

3.根据权利要求1所述的从语音到图像的生成方法，其特征在于，所述将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中，生成教学图像，具体包括：

4.一种从语音到图像的生成系统，其特征在于，所述系统包括：

第一训练和优化模块，用于利用所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型，具体包括：训练和优化单元，用于采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型；在训练过程中，加入BN，即BatchNormalization来减少训练过程中的过拟合，加快模型的收敛速度；BN算法像卷积层，池化层、激活层一样，也输入一层，BN层添加在激活函数前，对激活函数的输入进行归一化，这样解决了输入数据发生偏移和增大的影响，并且可以增加训练速度，防止过拟合；通过使用CTC，即Connectionist TemporalClassification算法将输入序列映射到输出序列，输出单元为对应的汉字，即使用训练好的CTC-CNN模型将语音转化成汉字；CTC-CNN模型包含10层，步幅大小为2和内核大小为3的CNN和两个完全连接层，softmax输出层具有3092个输出节点；

语音信号获取模块，用于获取教师教学时的语音信号；

5.根据权利要求4所述的从语音到图像的生成系统，其特征在于，所述预处理模块，具体包括：

6.根据权利要求4所述的从语音到图像的生成系统，其特征在于，所述教学图像生成模块，具体包括：