CN110570877B

CN110570877B - 手语视频生成方法、电子设备及计算机可读存储介质

Info

Publication number: CN110570877B
Application number: CN201910677689.4A
Authority: CN
Inventors: 赵璐; 莫东松; 张进; 钟宜峰; 张健; 马晓琳; 马丹
Original assignee: MIGU Culture Technology Co Ltd
Current assignee: MIGU Culture Technology Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2022-03-22
Anticipated expiration: 2039-07-25
Also published as: CN110570877A

Abstract

本发明实施例涉及手语翻译技术领域，公开了一种手语视频生成方法、电子设备及计算机可读存储介质，所述手语视频生成方法包括：获取语音的第一类特征参数；将所述第一类特征参数输入预设神经网络模型，得到手语视频的关键帧，其中，所述预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到；根据所述关键帧生成所述语音对应的手语视频。本发明提供的手语视频生成方法、电子设备及计算机可读存储介质能够生成连贯性强的手语视频。

Description

手语视频生成方法、电子设备及计算机可读存储介质

技术领域

本发明实施例涉及手语翻译技术领域，特别涉及一种手语视频生成方法、电子设备及计算机可读存储介质。

背景技术

由于听力的原因，聋哑人的日常生活因为沟通出现了很多的不便，沟通上的障碍直接给聋哑人的生活造成了严重的影响。同时由于文字阅读上的通用性有限，许多聋哑人并不识字，而手语沟通是世界通用的聋哑人语言，如果人们在与聋哑人进行沟通时，可以将想要表达的语音信息转换为手语信息，那么可以方便的与聋哑人进行交流沟通。现有技术中一般分为三个步骤来实现语音生成手语视频：首先，制作/采集手语短视频库，针对分词后的语素，制作对应的增强现实AR手势动画，或采集对应的手语短视频片段；然后对采集的语音进行识别，得到文字并进行分词；最后，在预存储的AR手势动画或者手语短视频片段中，查询与所述语音文字信息相对应的AR手势动画或者手语短视频片段，将这些AR手势动画或者手语短视频片段串联从而得到手语视频。

然而，发明人发现现有技术中至少存在如下问题：手语视频是根据多个手语短视频片段或AR手势动画拼接而成的，由于手语短视频片段或AR手势动画根据语音的语素进行了切割和重组，导致拼接后的手语视频连贯性不强。

发明内容

本发明实施方式的目的在于提供一种手语视频生成方法、电子设备及计算机可读存储介质，使其能够生成连贯性强的手语视频。

为解决上述技术问题，本发明的实施方式提供了一种手语视频生成方法，包括：获取语音的第一类特征参数；将所述第一类特征参数输入预设神经网络模型，得到手语视频的关键帧，其中，所述预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到；根据所述关键帧生成所述语音对应的手语视频。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的手语视频生成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述手语视频生成方法。

本发明实施方式相对于现有技术而言，通过获取语音的第一类特征参数，从而能够得知需转换成手语视频的语音信息，再将第一类特征参数输入预设神经网络模型中，由于预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到，因此该预设神经网络模型能够准确的输出手语视频的关键帧，最后根据所述关键帧生成所述语音对应的手语视频，使得手语视频的生成方式不再是拼接而成，而是由关键帧扩充得到，从而达到了生成连贯性强的手语视频的目的，避免了“手语视频是根据多个手语短视频片段或AR手势动画拼接而成的，由于手语短视频片段或AR手势动画根据语音的语素进行了切割和重组，导致拼接后的手语视频连贯性不强”的情况的发生。

另外，所述预设神经网络模型通过以下方式训练得到：采集历史手语视频的特征样本参数；将所述特征样本参数输入多级神经网络模型，得到每级神经网络模型的误差值；根据所述误差值及预设的特征值，更新所述多级神经网络模型的网络权重，得到所述预设神经网络模型，其中，所述特征值用于表征所述预设神经网络模型生成关键帧的准确率。通过此种方式，能够确保语音转换为手语视频的准确率，提高手语视频生成方法的可靠性。

另外，所述特征样本参数中包括所述第一类特征样本参数及所述第二类特征样本参数；所述采集历史手语视频的特征样本参数，具体包括：采集历史手语视频中语音的梅尔声谱特征，得到所述第一类特征样本参数；采集历史手语视频中的源高清视频图像文件，并降低所述源高清视频图像文件的分辨率，得到源低清视频图像文件，其中，所述源高清视频图像文件和所述源低清视频图像文件为所述第二类特征样本参数。

另外，所述采集历史手语视频中语音的梅尔频谱特征，具体包括：将所述历史手语视频的语音分割成预设帧数的语音片段，并获取所述语音片段中用于辨识语音的特征数据；将所述特征数据的大小修改为预设值，得到所述梅尔频谱特征。

另外，所述多级神经网络模型包括第一级神经网络和第二级神经网络；所述误差值包括与所述第一级神经网络对应的第一误差值和与所述第二级神经网络对应的第二误差值；所述将所述特征样本参数输入多级神经网络模型，得到所述多级神经网络模型中每级神经网络模型的误差值，具体包括：将所述梅尔声谱特征参数输入所述第一级神经网络，得到生成的低清视频图像文件，并根据所述生成的低清视频图像文件与所述源低清视频图像文件，得到所述第一误差值；将所述生成的低清视频图像文件输入所述第二级神经网络，得到生成的高清视频图像文件，并根据所述生成的高清视频图像文件与所述源高清视频图像文件，得到所述第二误差值。

另外，所述更新所述多级神经网络模型的网络权重，具体包括：根据以下公式更新所述网络权重：

其中，L为所述特征值，p₁为所述生成的低清视频图像文件，p₃为所述生成的高清视频文件，Z₁为所述源高清视频图像文件，Z₂为所述源低清视频图像文件，E为期望，G为多级神经网络模型，D为I3D网络，D₁为第一I3D网络，D₂为第二I3D网络，I为梅尔频谱特征，dis1是P₃的帧间差，dis2是Z₁的帧间差，w是网络权重，k是权重系数，ε是常数，i是所述预设帧数的下界。

另外，所述dis1及所述dis2根据以下公式计算得到：

其中，Mi是P₃的第i帧输出，

是Z₁的第i帧输出，N是所述预设帧数。

另外，所述根据所述关键帧生成手语视频，具体包括：对所述关键帧进行视频编解码，得到所述手语视频。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式的手语视频生成方法的流程示意图；

图2是根据本发明第二实施方式的手语视频生成方法的流程示意图；

图3是根据本发明第二实施方式的预设模型训练方法的流程示意图；

图4是根据本发明第四实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种手语视频生成方法，本实施方式中的手语视频生成方法的流程示意图如图1所示，包括：

S101：获取语音的第一类特征参数。

关于步骤S101，具体地说，本实施方式中的第一类特征参数可以为语音的梅尔频谱特征，梅尔频谱特征可以作为语音辨识系统中的特征值，例如：可以自动辨认一个人透过电话说的数字；也可以作为声文辨识的特征值，用来辨识某段语音讯号的发话者。

需要说明的是，本实施方式中可以通过如下方式采集语音的梅尔频谱特征：将语音分割成预设帧数的语音片段，并获取所述语音片段中用于辨识语音的特征数据；将所述特征数据的大小修改为预设值，得到所述梅尔频谱特征。

为了便于理解，下面以时长1秒的语音为例，对本实施方式中如何提取语音的梅尔声谱特征进行详细说明：

以每125毫秒音频抽取一帧对应的视频图像，1秒的语音能够获取8帧手语视频的关键帧图像。同时将125毫秒的语音进行切断，每5毫秒切割成1段，以50％重叠率的方式切割(即前一段语音片段与后一段语音片段的重叠率为50％)，得到48段语音文件(125毫秒的语音能够切割成50段语音片段，随机取出连续的48段)语音片段，得到N维向量，从而得到(N*2)*8*3维数据，将该数据的尺寸修改为m*m*8*3，其中m*m＝N*2，尺寸为m*m*8*3的数据即为该语音的梅尔频谱特征。可以理解的是，本实施方式中梅尔频谱特征的大小(即预设值的大小)由最后期望的神经网络模型输出的图像大小决定，如在上述的例子中，由于需要神经网络模型最后输出的关键帧的图像尺寸为4m*4m*3，因此需要将数据的尺寸修改为m*m*8*3。

S102：将第一类特征参数输入预设神经网络模型，得到手语视频的关键帧。

关于步骤S102，具体地说，本实施方式中的预设神经网络模型可以为3D-GAN网络，3D-GAN网络即为3D生成式对抗网络，是一种深度学习模型，模型通过框架中(至少)两个模块：生成模型和判别模型的互相博弈学习产生预期的输出，且并不要求G和D都是神经网络，只需要是能拟合相应生成和判别的函数即可。值得一提的是，本实施方式的核心在于得到手语视频的关键帧，再将关键帧扩充为连续的手语视频，因此本实施方式并不对预设神经网络模型的训练方式作具体限定，任何能够得到手语视频的关键帧的预设神经网络模型的训练方式均在本实施方式的保护范围之内。

S103：根据关键帧生成语音对应的手语视频。

关于步骤S103，具体地说，本实施方式中可以通过对关键帧进行视频编解码方式，得到所述手语视频。较佳的，本实施方式还可以通过插帧的方法还原出完整的手语视频。

本发明的第二实施方式涉及一种手语视频生成方法。第二实施方式与第一实施方式大致相同，不同之处在于，所述预设神经网络模型通过以下方式训练得到：采集历史手语视频的特征样本参数；将所述特征样本参数输入多级神经网络模型，得到每级神经网络模型的误差值；根据所述误差值及预设的特征值，更新所述多级神经网络模型的网络权重，得到所述预设神经网络模型，其中，所述特征值用于表征所述预设神经网络模型生成关键帧的准确率。通过此种方式，能够生成连贯性强且清晰度高的手语视频。

本实施方式中的手语视频生成方法的流程示意图如图2所示，具体包括：

S201：获取语音的第一类特征参数。

S202：将第一类特征参数输入更新网络权重后的多级神经网络模型，得到手语视频的关键帧。

具体的说，本实施方式中的特征样本参数中包括第一类特征样本参数及第二类特征样本参数，将历史手语视频的音频和视频图像进行分离，得到语音和对应时间的源高清视频图像文件，第一类特征样本参数可以为语音的梅尔频谱特征，本实施方式历史手语视频语音的梅尔频谱特征提取方式与上述实施方式相同，即将所述历史手语视频的语音分割成预设帧数的语音片段，并获取所述语音片段中用于辨识语音的特征数据；将所述特征数据的大小修改为预设值，得到所述梅尔频谱特征，为了避免重复，此处不再赘述；第二类特征样本参数可以为历史手语视频的源高清视频图像文件和源低清视频图像文件，其获取方式可以为：采集历史手语视频中的源高清视频图像文件，并降低所述源高清视频图像文件的分辨率，得到源低清视频图像文件。

值得一提的是，如图3所示，以多级神经网络模型包括第一级神经网络和第二级神经网络、误差值包括与所述第一级神经网络对应的第一误差值和与所述第二级神经网络对应的第二误差值为例，预设神经网络模型的具体训练流程如下：

S2021：将梅尔声谱特征参数输入第一级神经网络，得到生成的低清视频图像文件。

S2022：将生成的低清视频图像文件、源低清视频图像文件和梅尔频谱特征输入第一判断网络，得到第一误差值。

关于步骤S2022，具体的说，第一判断网络能够判断生成的低清视频图像文件和源低清视频图像文件的差异，第一误差值为大于或等于0，且小于或等于1的数，0表示生成的低清视频图像文件不同于源低清视频图像文件，第一误差值越大，则表明生成的低清视频图像文件越接近源低清视频图像文件。

S2023：将生成的低清视频图像文件输入第二级神经网络，得到生成的高清视频图像文件。

S2024：将生成的高清视频图像文件、源高清视频图像文件和源低清视频图像文件输入第二判断网络，得到第二误差值。

关于步骤S2024，具体的说，第二判断网络能够判断生成的高清视频图像文件和源高清视频图像文件的差异，第二误差值为大于或等于0，且小于或等于1的数，0表示生成的高清视频图像文件不同于源高清视频图像文件，第二误差值越大，则表明生成的高清视频图像文件越接近源高清视频图像文件。

S2025：根据梅尔频谱特征、源高清视频图像文件、源低清视频图像文件、生成的高清视频图像文件和生成的低清视频图像文件更新多级神经网络模型的网络权重。

关于步骤S2025，具体的说，根据以下公式更新所述网络权重：

所述dis1及所述dis2根据以下公式计算得到：

其中，Mi是P₃的第i帧输出，

是Z₁的第i帧输出，N是所述预设帧数。

可以理解的是，上述算法即为反向传播算法，反向传播算法是适合于多层神经元网络的一种学习算法，建立在梯度下降法的基础上，它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力。通过采用此种算法，能够不断的训练神经网络模型，直至神经网络模型的输出符合预期要求，也就是说，此种训练方式确保了预设神经网络模型输出关键帧的准确率。

值得一提的是，训练完多级神经网络模型，从而得到预设神经网络模型后，在使用预设神经网络模型，需去掉第一判断网络以及第二判断网络，并将语音的梅尔频谱特征输入第一神经网络模型，将第一神经网络模型的输出输入第二神经网络模型，第二神经网络模型的输出即为手语视频的关键帧，最后将关键帧扩充为连续的视频即得到手语视频。

S203：根据关键帧生成语音对应的手语视频。

本实施方式的步骤S201、步骤S203与第一实施方式的步骤S101、步骤S103类似，为了避免重复，此处不再赘述。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种电子设备，如图4所示，包括至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述的手语视频生成方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述手语视频的生成方法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种手语视频生成方法，其特征在于，包括：

获取语音的第一类特征参数；

将所述第一类特征参数输入预设神经网络模型，得到手语视频的关键帧，其中，所述预设神经网络模型通过历史手语视频中语音的第一类特征样本参数及视频图像的第二类特征样本参数训练得到；

根据所述关键帧生成所述语音对应的手语视频；

其中，预设神经网络模型通过以下方式训练得到：采集历史手语视频的特征样本参数；将所述特征样本参数输入多级神经网络模型，得到每级神经网络模型的误差值；根据所述误差值及预设的特征值，更新所述多级神经网络模型的网络权重，得到所述预设神经网络模型，

其中，更新所述多级神经网络模型的网络权重，具体包括：根据以下公式更新所述网络权重：

其中，L为特征值，p₁为生成的低清视频图像文件，p₃为生成的高清视频文件，Z₁为源高清视频图像文件，Z₂为源低清视频图像文件，E为期望，G为多级神经网络模型，D为I3D网络，D₁为第一I3D网络，D₂为第二I3D网络，I为梅尔频谱特征，dis1是P₃的帧间差，dis2是Z₁的帧间差，w是网络权重，k是权重系数，ε是常数，i是预设帧数的下界。

2.根据权利要求1所述的手语视频生成方法，其特征在于，所述特征值用于表征所述预设神经网络模型生成关键帧的准确率。

3.根据权利要求2所述的手语视频生成方法，其特征在于，所述特征样本参数中包括所述第一类特征样本参数及所述第二类特征样本参数；

所述采集历史手语视频的特征样本参数，具体包括：

采集历史手语视频中语音的梅尔频谱特征，得到所述第一类特征样本参数；

采集历史手语视频中的源高清视频图像文件，并降低所述源高清视频图像文件的分辨率，得到源低清视频图像文件，其中，所述源高清视频图像文件和所述源低清视频图像文件为所述第二类特征样本参数。

4.根据权利要求3所述的手语视频生成方法，其特征在于，所述采集历史手语视频中语音的梅尔频谱特征，具体包括：

将所述历史手语视频的语音分割成预设帧数的语音片段，并获取所述语音片段中用于辨识语音的特征数据；

将所述特征数据的大小修改为预设值，得到所述梅尔频谱特征。

5.根据权利要求4所述的手语视频生成方法，其特征在于，所述多级神经网络模型包括第一级神经网络和第二级神经网络；所述误差值包括与所述第一级神经网络对应的第一误差值和与所述第二级神经网络对应的第二误差值；所述将所述特征样本参数输入多级神经网络模型，得到所述多级神经网络模型中每级神经网络模型的误差值，具体包括：

将所述梅尔声谱特征参数输入所述第一级神经网络，得到生成的低清视频图像文件，并根据所述生成的低清视频图像文件与所述源低清视频图像文件，得到所述第一误差值；

将所述生成的低清视频图像文件输入所述第二级神经网络，得到生成的高清视频图像文件，并根据所述生成的高清视频图像文件与所述源高清视频图像文件，得到所述第二误差值。

6.根据权利要求5所述的手语视频生成方法，其特征在于，所述dis1及所述dis2根据以下公式计算得到：

其中，M_i是P₃的第i帧输出，

是Z₁的第i帧输出，N是所述预设帧数。

7.根据权利要求1所述的手语视频生成方法，其特征在于，所述根据所述关键帧生成手语视频，具体包括：

对所述关键帧进行视频编解码，得到所述手语视频。

8.一种电子设备，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的手语视频生成方法。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的手语视频生成方法。