CN113889074A

CN113889074A - 语音生成方法、装置、设备及介质

Info

Publication number: CN113889074A
Application number: CN202111138993.5A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-04

Abstract

本申请涉及人工智能领域，尤其涉及语音生成方法、装置、设备及介质，所述方法包括：获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数；根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。由此可以提高图像理解的准确率并转换成准确的语音信息，提高用户体验度。

Description

语音生成方法、装置、设备及介质

技术领域

本申请涉及人工智能领域，尤其涉及语音生成方法、语音生成装置、计算机设备及存储介质。

背景技术

图像理解是指利用计算机系统对输入系统的图像数据进行分析，提取出可以被人理解的描述信息。典型的图像理解任务包括图像识别、目标检测、场景理解等。

随着深度学习的发展，图像理解方法逐渐成为主流，特别是对于存在视觉障碍的人，需要将图像理解生成的文本信息转换成语音，以使存在视觉障碍的人能够快速获知图像的描述信息。但是由于现有的图像理解方法往往会忽略一些边缘特征(比如场景目标以外的特征)，导致在整体的场景解释中出现理解偏差的情况，而图像理解生成的文本信息也会存在错误，最后导致生成的语音信息也与图像的描述信息出现较大偏差，从而对存在视觉障碍的人造成误导。

发明内容

本申请提供了一种语音生成方法、语音生成装置、计算机设备及存储介质，旨在现有的图像理解方法往往会忽略一些边缘特征，导致在整体的场景解释中出现理解偏差的问题。

为实现上述目的，本申请提供一种语音生成方法，所述方法包括：

获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；

将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；

对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量；

基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数；

根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。

为实现上述目的，本申请还提供一种语音生成装置，所述语音生成装置包括：

特征提取模块，用于获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；

文本生成模块，用于将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；

文本向量化模块，用于对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量；

语音参数配置模块，用于基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数；

语音合成模块，用于根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。

此外，为实现上述目的，本申请还提供一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的语音生成方法。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的语音生成方法。

本申请实施例公开的语音生成方法、语音生成装置、设备及存储介质，通过对图像进行分割处理，得到多个图像块，并对每个图像块进行特征提取以及特征筛选，从而生成对应的文本信息，最后对文本信息进行语音转换处理，生成待识别图像对应的语音信息，由此能够提高图像理解的准确率并转换成准确的语音信息，从而能够为存在视觉障碍的人群提供准确的语音信息，提高用户体验度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音生成方法的场景示意图；

图2是本申请实施例提供的一种语音生成方法的流程示意图；

图3是本申请一实施例提供的一种语音生成装置的示意性框图；

图4是本申请一实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

图像理解(image understanding,IU)就是对图像的语义理解。它是以图像为对象，知识为核心，研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的一门学科。在图像理解中，场景解释和场景中目标识别是重点，很多研究者都致力于场景解释和场景中目标识别方法的研究。

但是现有的图像理解方法往往会忽略一些边缘特征(比如场景目标以外的特征)，导致在整体的场景解释中出现理解偏差的情况，因此图像理解生成的文本信息也会存在错误，最终会导致合成得到的语音信息存在错误讯息，进而造成视觉障碍的人群对于图像理解的误导。

示例性的，对于存在视觉障碍的人，可以通过图像理解方法对图像进行识别，得到文本信息，再将文本信息转化为语音播放给存在视觉障碍的人，以便获知和理解图像内容的表述。而此时图像理解的准确性则显得至关重要。

又比如在医院的应用场景下，医生在进行手术时，往往需要专注于患者手术本身，若此时需要参考一份医疗图像比如CT图等，此时便需要通过图像理解方法对图像进行识别，得到文本信息，再将文本信息转化为语音播放给医生，以使医生快速获取到医疗图像信息，从而对手术进行进一步的判断。

为解决上述问题，本申请提供了一种语音生成方法，可以应用在服务器中，由此可以通过对图像进行图像理解处理和语音合成处理，从而提高图像理解的准确率，为存在视觉障碍的人群提供准确的语音信息，提高用户体验度。

其中，服务器例如可以为单独的服务器或服务器集群。但为了便于理解，以下实施例将以应用于服务器的语音生成方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，本申请实施例提供的语音生成方法，可以应用于如图1所示的应用环境中。该应用环境中包含有终端设备110和服务器120，其中，终端设备110可以通过网络与服务器120进行通信。具体地，服务器120获取终端设备110发送的待识别图像，服务器120对待识别图像进行图像理解处理以及语音合成处理，生成目标语音并发送给终端设备110，以便于存在视力障碍的人群对图像进行理解。其中，服务器120可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参阅图2，图2是本申请实施例提供的一种语音生成方法的示意流程图。其中，该语音生成方法可以应用在服务器中，由此可以通过对图像进行图像理解处理和语音合成处理，从而提高图像理解的准确率，为存在视觉障碍的人群提供准确的语音信息，提高用户体验度。

如图2所示，该语音生成方法包括步骤S101至步骤S105。

S101、获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息。

其中，所述待识别图像为需要进行进行图像理解的图像，具体可以是用户通过终端设备发送或上传的图像。所述图像特征信息用于进行图像识别并生成对应的文本标签，为生成针对图片的文字描述作铺垫。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一些实施例中，对所述待识别图像进行分割处理，得到多个图像块；基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到多个图像特征信息。其中，所述卷积神经网络的卷积层包含多个卷积核，每个卷积核都是一个矩阵，每一个卷积核相当于是一个滤波器，它可以输出图像特征信息。由此可以将所述待识别图像分割成多个图像块，能够更精确地提取每个图像块的特征信息。

具体地，可以基于图像分割算法对待识别图像进行分割处理，得到多个图像块，再基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到每个所述图像块对应的图像特征信息。其中，所述图像分割算法可以为基于区域的图像分割算法和基于边缘的图像分割算法等图像分割算法。

在一些实施例中，确定每个所述图像块的位置信息；根据所述卷积层的预设权重矩阵和每个所述图像块的位置信息，对每个所述图像块分别进行特征提取，得到每个所述图像块各自对应的图像特征信息。其中，所述图像特征信息还包括所述图像块的位置信息，所述图像块的位置信息为图像块在待识别图片的像素位置。

具体地，确定每个所述图像块的位置信息；根据卷积神经网络的卷积层的预设权重矩阵和每个所述图像块的位置信息，对每个所述图像块进行卷积计算，提取得到每个所述图像块对应的图像特征，通过卷积神经网络的池化层对每个图像块对应的图像特征进行池化处理，得到池化后的图像特征，通过卷积神经网络的全连接层将每个图像块对应的图像特征进行提取整合，得到每个所述图像块对应的图像特征信息。其中，可以通过非线性激活函数将每个所述图像块对应的图像特征从卷积层传递到池化层，由此可以增加学习复杂度，使特征能够突出表示出来。所述非线性激活函数可以为ReLU函数、Sigmoid函数和Tanh函数。由此可以通过卷积操作对图像块进行降维和特征抽取，通过池化操作缩减模型大小，提高计算速度，降低过拟合概率，提升特征提取鲁棒性，通过全连接层对有用的信息进行提取整合。

其中，对每个所述图像块进行卷积计算，提取得到每个所述图像块对应的图像特征可以用公式表示为：

其中，a_i，j为通过卷积计算后在图像块i行j列的图像特征，w_m，n为预设的卷积层的权重矩阵，x_i+m,j+n为所述图像块的位置信息，w_b为偏差向量，具体可以根据实际情况设置。

S102、将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息。

其中，所述预训练好的图像理解模型包括用于识别所述图像特征信息的图像识别模型和用于识别文本语义的文本生成模型。具体地，将每个图像块对应的图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息。所述文本生成模型的实质为递归神经网络模型，用于生成文本信息。

在一些实施例中，基于图像识别模型，对每个所述图像特征信息进行识别，生成每个所述图像特征信息各自对应的文本标签；基于文本生成模型，对多个所述文本标签进行语义整合处理，生成所述文本信息。其中，所述文本标签根据图像特征生成的，用于生成文本信息。不同的文本标签的标签序列长度可能不同，使用递归神经网络可以进行序列到序列的建模，不需要固定的输出长度。递归神经网络会涉及到序列划分，原始序列是一长串向量，可以按照固定步长进行分割成多个字序列，这里的步长通常可以理解为时间上的时序或者前后关系，步长的大小可以是5，7，11，13，21等。具体作用就是可以利用递归神经网络模型对划分后的时序学习上下文关系并进行语义整合为文本信息，所述文本信息为所述待识别图像的文字描述。

示例性的，基于图像识别模型，可以对每个所述图像特征信息的图像特征进行识别，生成每个图像特征对应的的文本标签，文本标签可以包括清晨、行人、街道等，整合得到每个所述图像特征信息对应的文本标签；基于文本生成模型，对多个所述文本标签进行语义整合，生成文本信息可以为“清晨，有一个在街道行走的行人”。

在一些实施例中，每个所述图像特征信息包括多个图像特征，且每个所述图像特征对应有位置信息；根据所述图像特征的位置信息，对每个所述图像特征信息中的图像特征进行筛选，得到筛选后的图像特征；对所述筛选后的图像特征进行特征识别，生成每个所述图像特征对应的文本标签。由此可以筛选掉边缘图像特征，提高文本标签内容的准确性。

具体地，确定每个所述图像特征的位置信息，并根据所述位置信息确定每个所述图像特征是否为边缘图像特征，若所述图像特征为边缘图像特征，则将该图像特征筛选掉，得到筛选后的图像特征；对所述筛选后的图像特征进行识别，生成每个所述图像特征对应的文本标签。其中，所述边缘图像特征为在待识别图像的边缘位置的图像特征，由于待识别图像的边缘位置一般与图像主要想要表现的内容无关，因此可以将边缘图像特征筛选掉，从而提高文本标签内容的准确性。

具体地，检测每个所述图像特征是否为边缘图像特征；若所述图像特征为边缘图像特征，则将该图像特征筛选掉，得到筛选后的图像特征；若所述图像特征不为边缘图像特征，则保留该图像特征。

在一些实施例中，从多个所述文本标签中，根据每个所述文本标签的位置信息确定目标文本标签；基于文本生成模型，根据所述目标文本标签生成文本信息。其中，所述目标文本标签的位置信息包括待识别图像的中心点。由于大多数图像都是将主要展现的内容体现在图像的中间部位，因此可以增强图像中心位置的文本标签对于语义的影响，提高文本信息内容识别的准确性。

具体地，可以根据每个所述文本标签的位置信息与目标文本标签的位置距离为每个文本标签分配对应的权重比例，由此可以在对多个文本标签进行语义整合时，优先考虑目标文本标签以及目标文本标签附近的语义信息进行整合，生成文本信息。

需要说明的是，递归神经网络由于过长的序列关系会产生梯度爆炸或消失，例如梯度为0.9，这个梯度会一直沿着序列向前传递，到最开始的文本标签输入时可能已经是0.9*0.9*0.9......，最终会是一个很小的值，即梯度消失了，也就是说当前的文本标签与离他较远的文本标签时刻关系影响会变得非常弱，甚至学习不到关系。因此可以利用长短期记忆模型来增强递归神经网络对于长远过去的记忆能力。

S103、对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量。

其中，所述向量化处理是将文本信息转化为对应的词向量，所述文本向量可以为词向量。

在一些实施例中，对所述文本信息进行分词处理，得到多个分词；对所述分词进行向量化处理，得到所述文本信息对应的多个文本向量。

其中，对所述文本信息进行分词处理，以得到多个分词，具体可以包括：对所述文本信息进行语句切分，以得到对应的若干语句；对若干所述语句进行分词处理，以得到多个分词。

具体地，获取文本信息后，可对该文本信息进行语句切分，例如可根据标点符号将各个文本信息切分为一条条完整的语句。然后，对各语句进行分词处理，从而得到多个分词。

具体地，可以通过字符串匹配的分词方法对各个切分的语句进行分词处理。比如，字符串匹配的分词方法可以是正向最大匹配法、反向最大匹配法、最短路径分词法和双向最大匹配法等。其中，正向最大匹配法是指把一个切分的语句中的字符串从左至右来分词。反向最大匹配法是指把一个切分的语句中的字符串从右至左来分词。双向最大匹配法是指正反向(从左到右、从右到左)同时进行分词匹配。最短路径分词法是指一个切分的语句中的字符串里面要求切出的词数是最少的。

示例性的，所述文本信息比如为清晨，有一个在街道行走的行人，对所述文本信息进行分词处理，得到多个分词包括有清晨、有、一个、街道、行走、行人，并对所述分词进行向量化处理，得到每个所述分词对应的文本向量。

在一些实施例中，对每个所述分词进行拼音转换，得到对应的拼音串；基于字符数字对应关系，将所述拼音串转换为数字序列，将所述数字序列作为文本向量。

示例性的，文本信息为“行走的行人”，经分词处理后得到两个分词“行走”和“行人”，将该两个分词“行走”、“的”和“行人”进行拼音转换，得到三个拼音串“xing2zou3”、“de0”和“xing2ren2”，其中数字2表示声调为2声，数字0为表示声调为轻声，数字3表示声调为3声。

在一些实施例中，基于字符数字对应关系，将所述拼音串转换为数字序列，将所述数字序列存储为训练文本向量之前，还包括：根据预设字符序列和预设数量的数字，建立字符数字对应关系。

具体地，字符数字对应关系中具有字符序列以及与字符序列中各字符对应的数字，每一个字符对应一个数字。其中，字符的类型可以为字母、数字和空格等。

其中，32个字符可以包括26个英文字母、声调0、声调1、声调2、声调3、声调4和空格，将26个英文字母、5个声调代表的数字和空格依次排列，采用数字0-31对该32个字符进行标记，使得每个字符对应有一个数字标签。

示例性的，文本信息为“行人”，其对应的拼音串为“xing2ren2”。基于字符数字对应关系，可以将“xing2ren2”转化为文本向量例如为(23,8,13,7,27,17,4,13,27)。

S104、基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数。

其中，所述语音参数配置模型用于根据识别得到的情感信息，为每个所述文本向量分配对应的语音参数。所述语音参数可以包括基频、共振峰频率等参数。

在一些实施例中，确定每个文本向量各自包含的分词分别对应的词性，根据所述词性从多个所述文本向量中确定目标文本向量；基于所述卷积神经网络，对所述目标文本向量进行情感极性分析，得到对应的情感信息；根据所述情感信息为对应的文本向量分配语音参数，得到每个所述文本向量各自对应的语音参数。其中，所述对进行情感极性分析用于得到对应的情感信息，所述情感信息包括但不限于生气、悲伤、高兴、害怕、中性和焦虑等情感倾向。由此可以通过分析得到每一个句子的目标文本向量对应的情感信息，并将该情感信息作为该句子包括的每个文本向量对应的情感信息。

具体地，确定每个文本向量各自包含的分词分别对应的的词性，将指定词性的文本向量确定为目标文本向量；基于卷积神经网络，对目标文本向量进行细粒度的情感极性分析，从所述目标文本向量中提取得到情感信息。为了增强情感分析的准确性，所述指定词性至少包括：名词、动词、形容词和副词。通过确定每个文本向量的词性从而筛选得到目标文本向量，由此可以更准确地确定文本信息整体对应的主要的情感信息。

示例性的，对于文本：“...今天工作很忙，但是感觉充实...”，可以得到“今天”“工作”“很”“忙”“但是”“感觉”“充实”等一系列分词对应的文本向量，分词确定上述分词的词性，将分词词性为形容词对应的文本向量确定为目标文本向量，比如将“忙”和“充实”对应的文本向量作为目标文本向量，并分析得到“忙”对应的情感为无奈，“充实”对应的情感为开心，并将无奈作为“今天工作很忙”的主要情感，将开心作为“但是感觉充实”的主要情感。

具体地，所述预设的语音参数配置模型包括卷积神经网络模型，可以通过卷积神经网络模型的池化层，采用分段池化的方式，对所述目标文本向量进行池化处理，得到所述目标文本向量的向量特征，并通过所述卷积神经网络模型的情感计算层对所述向量特征进行情感极性分析，得到对应的情感信息。由此可以更准确地挖掘文本的细粒度情感极性。其中，所述卷积神经网络模型的情感计算层能够根据向量特征确定例如生气、开心等情感信息。

对所述目标文本向量进行池化处理，得到所述目标文本向量的向量特征具体是利用句子所具有的结构特性，采用分段的方式来捕获不同结构的关键特征，即，将一个文本向量平均分为若干段，然后再在每一段中取最大值，得到向量特征。

具体地，还可以通过语音参数配置模型可以根据每个所述文本向量的文本内容和声调进行情感分析，得到每个所述文本向量对应的情感信息，再根据所述情感信息为对应的文本向量分配语音参数，得到每个所述文本向量对应的语音参数。

示例性的，对文本向量对应的文本内容和声调进行情感分析得到对应的情感信息为生气，可以为该文本向量分配对应的语音参数比如设置基频为300Hz和共振峰频率为350Hz。

S105、根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。

其中，所述目标语音为待识别图像的文字描述对应的音频数据，生成目标语音之后，还可以将目标语音发送到用户的终端设备以播放给用户，从而为存在视觉障碍的人群提供准确的语音信息，提高用户体验度。

具体地，将每个所述文本向量对应的语音参数进行波形转换，生成每个所述文本向量各自对应的语音波形；对所有语音波形进行拼接处理，生成目标语音。

具体地，基于tacotron模型，将每个所述文本向量对应的语音参数进行波形转换，生成每个所述文本向量对应的语音波形；对多段语音波形进行拼接处理，生成目标语音。其中，所述tacotron模型可以实现文本向量到梅尔频谱的转化，将梅尔频谱序列输入到声码器，通过声码器提取特征并输出语音波形，最后对所有语音波形进行拼接处理，生成目标语音。

在一些实施例中，服务器还可以将用于提示用户目标语音已经生成的提示信息发送给终端设备。

其中，所述提示信息的方式具体可以包括应用程序(APP)或Email、短信、聊天工具，聊天工具例如微信、qq等。

示例性的，当目标语音已经生成时，服务器会发送目标语音已经生成的提示信息给终端设备以提醒用户。

请参阅图3，图3是本申请一实施例提供的一种语音生成装置的示意性框图，该语音生成装置可以配置于服务器中，用于执行前述的语音生成方法。

如图3所示，该语音生成装置200包括：特征提取模块201、文本生成模块202、文本向量化模块203、语音参数配置模块204和语音合成模块205。

特征提取模块201，用于获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；

文本生成模块202，用于将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；

文本向量化模块203，用于对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量；

语音参数配置模块204，用于基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数；

语音合成模块205，用于根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。

特征提取模块201，还用于对所述待识别图像进行分割处理，得到多个图像块；基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到多个图像特征信息。

特征提取模块201，还用于确定每个所述图像块的位置信息；根据所述卷积层的预设权重矩阵和每个所述图像块的位置信息，对每个所述图像块分别进行特征提取，得到每个所述图像块各自对应的图像特征信息。

所述预训练好的图像理解模型包括用于识别所述图像特征信息的图像识别模型和用于识别文本语义的文本生成模型；

文本生成模块202，还用于基于图像识别模型，对每个所述图像特征信息进行识别，生成每个所述图像特征信息各自对应的文本标签；基于文本生成模型，对多个所述文本标签进行语义整合处理，生成所述文本信息。

文本生成模块202，还用于根据所述图像特征的位置信息，对每个所述图像特征信息中的图像特征进行筛选，得到筛选后的图像特征；对所述筛选后的图像特征进行特征识别，生成每个所述图像特征各自对应的文本标签。

文本向量化模块203，还用于对所述文本信息进行分词处理，得到多个分词；对所述多个分词进行向量化处理，得到所述文本信息对应的多个文本向量。

语音参数配置模块204，还用于确定每个文本向量各自包含的分词分别对应的词性，根据所述词性从多个所述文本向量中确定目标文本向量；基于所述卷积神经网络，对所述目标文本向量进行情感极性分析，得到对应的情感信息；根据所述情感信息为对应的文本向量分配语音参数，得到每个所述文本向量各自对应的语音参数。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器。

如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括易失性存储介质、非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音生成方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音生成方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量；基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数；根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。

在一些实施例中，所述处理器还用于：对所述待识别图像进行分割处理，得到多个图像块；基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到多个图像特征信息。

在一些实施例中，所述处理器还用于：确定每个所述图像块的位置信息；根据所述卷积层的预设权重矩阵和每个所述图像块的位置信息，对每个所述图像块分别进行特征提取，得到每个所述图像块各自对应的图像特征信息。

在一些实施例中，所述预训练好的图像理解模型包括用于识别所述图像特征信息的图像识别模型和用于识别文本语义的文本生成模型，所述处理器还用于：基于图像识别模型，对每个所述图像特征信息进行识别，生成每个所述图像特征信息各自对应的文本标签；基于文本生成模型，对多个所述文本标签进行语义整合处理，生成所述文本信息。

在一些实施例中，所述处理器还用于：根据所述图像特征的位置信息，对每个所述图像特征信息中的图像特征进行筛选，得到筛选后的图像特征；对所述筛选后的图像特征进行特征识别，生成每个所述图像特征各自对应的文本标签。

在一些实施例中，所述处理器还用于：对所述文本信息进行分词处理，得到多个分词；对所述多个分词进行向量化处理，得到所述文本信息对应的多个文本向量。

在一些实施例中，所述处理器还用于：确定每个文本向量各自包含的分词分别对应的词性，根据所述词性从多个所述文本向量中确定目标文本向量；基于所述卷积神经网络，对所述目标文本向量进行情感极性分析，得到对应的情感信息；根据所述情感信息为对应的文本向量分配语音参数，得到每个所述文本向量各自对应的语音参数。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时实现本申请实施例提供的任一种语音生成方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别图像进行特征提取，得到多个图像特征信息，包括：

对所述待识别图像进行分割处理，得到多个图像块；

基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到多个图像特征信息。

3.根据权利要求2所述的方法，其特征在于，所述基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到多个图像特征信息，包括：

确定每个所述图像块的位置信息；

根据所述卷积层的预设权重矩阵和每个所述图像块的位置信息，对每个所述图像块分别进行特征提取，得到每个所述图像块各自对应的图像特征信息。

4.根据权利要求1所述的方法，其特征在于，所述预训练好的图像理解模型包括用于识别所述图像特征信息的图像识别模型和用于识别文本语义的文本生成模型，所述将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息，包括：

基于所述图像识别模型，对每个所述图像特征信息进行识别，生成每个所述图像特征信息各自对应的文本标签；

基于所述文本生成模型，对多个所述文本标签进行语义整合处理，生成所述文本信息。

5.根据权利要求4所述的方法，其特征在于，每个所述图像特征信息包括多个图像特征且每个所述图像特征对应有位置信息，所述基于所述图像识别模型，对每个所述图像特征信息进行识别，生成每个所述图像特征信息对应的文本标签，包括：

在所述图像识别模型中根据所述图像特征的位置信息，对每个所述图像特征信息中的图像特征进行筛选，得到筛选后的图像特征；

对所述筛选后的图像特征进行特征识别，生成每个所述图像特征各自对应的文本标签。

6.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量，包括：

对所述文本信息进行分词处理，得到多个分词；

对所述多个分词进行向量化处理，得到所述文本信息对应的多个文本向量。

7.根据权利要求1所述的方法，其特征在于，所述预设的语音参数配置模型包括卷积神经网络，所述基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量对应的语音参数，包括：

确定每个文本向量各自包含的分词分别对应的词性，根据所述词性从多个所述文本向量中确定目标文本向量；

基于所述卷积神经网络，对所述目标文本向量进行情感极性分析，得到对应的情感信息；

根据所述情感信息为对应的文本向量分配语音参数，得到每个所述文本向量各自对应的语音参数。

8.一种语音生成装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现：

如权利要求1-7任一项所述的语音生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的语音生成方法。