CN115174826A

CN115174826A - 一种音视频合成方法及装置

Info

Publication number: CN115174826A
Application number: CN202210796238.4A
Authority: CN
Inventors: 姚昆; 孙见青; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-11

Abstract

本发明涉及一种音视频合成方法，包括：获取经过TTS转换得到的语音信号和语音信号的属性；属性包括每个音素的类型和每个音素的时长；根据类型，在预设的视频中搜索对应的视频段；并根据时长确定视频段的时长；对视频段进行处理，得到目标视频；将目标视频和语音信号进行合并，得到音视频信息。避免了深度神经网络大模型对硬件资源的占用，不依赖于虚拟形象的设计和制作，方便低成本的快速部署，具有较好的经济社会价值。

Description

一种音视频合成方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种音视频合成方法及装置。

背景技术

现有技术中，虚拟人音视频合成方法，主要包括以下两种：第一种是基于深度学习对抗式神经网络(Generative adversarial network，GAN)的人脸生成方法，该方法由语音作为驱动，生成与语音内容相匹配的脸部图片，进而合成虚拟人的音视频内容。第二种是基于游戏引擎的动画人脸驱动方法，根据语音改变脸部关键点，再由游戏引擎进行虚拟人画面渲染，合成音视频内容。

由于端侧设备内存小，中央处理器(central processing unit，CPU)计算性能低，且往往没有图形处理器(英语：graphics processing unit，GPU)，散热性能差，对计算密集型，比如深度学习程序算法限制较大，在端侧设备这种资源受限场景下，深度学习的人脸生成和游戏引擎渲染方法均存在计算量大、功耗高、实时性差问题，难以落地，且所需数据量或形象设计工作均较大，生产周期长，成本高。

发明内容

本发明的目的是提供一种音视频合成方法及装置，以解决现有技术中的问题。

第一方面，本发明提供了一种音视频合成方法，所述方法包括：

获取经过TTS转换得到的语音信号和所述语音信号的属性；所述属性包括每个音素的类型和每个音素的时长；

根据所述类型，在预设的视频中搜索对应的视频段；并根据所述时长确定所述视频段的时长；

对所述视频段进行处理，得到目标视频；

将所述目标视频和所述语音信号进行合并，得到音视频信息。

在一种可能的实现方式中，所述类型包括静音音素和发音音素；所述预设的视频包括无声段和说话段；所述根据所述类型，在预设的视频中搜索对应的视频段具体包括：

当所述类型为静音音素时，选取所述预设的视频中的无声段；

当所述类型为发音音素时，选取所述预设的视频中的说话段。

在一种可能的实现方式中，所述对所述视频段进行处理，得到目标视频具体包括：

当得到多个音素对应的多个视频段时，根据预设的相似度矩阵，确定相邻两个视频段间的过渡图像；

保留相邻视频段中的第一视频段的过渡图像，删除相邻视频段中第二视频段中的过渡图像；

根据所述第一视频段和删除了过渡图像的第二视频段，得到目标视频。

检测相邻两个视频段之间的流畅度；

当所述流畅度不符合预设的条件时，在所述相邻视频段之间插入过渡帧；

根据相邻两个视频段和所述过渡帧，得到目标视频。

在一种可能的实现方式中，所述检测相邻两个视频段之间的流畅度具体包括：

通过三通道直方图计算相邻两个视频段的图像相似度；

当相似度小于预设阈值时，在所述相邻视频段之间插入过渡帧。

在一种可能的实现方式中，所述方法之前还包括：

获取目标用户的视频；所述视频包括设定的动作手势、面部表情、无声段和说话段；所述视频为预设的视频。

第二方面，本发明提供了一种音视频合成装置，所述装置包括：

获取模块，所述获取模块用于获取经过TTS转换得到的语音信号和所述语音信号的属性；所述属性包括每个音素的类型和每个音素的时长；

搜索模块，所述搜索模块用于根据所述类型，在预设的视频中搜索对应的视频段；

确定模块，所述确定模块用于根据所述时长确定所述视频段的时长；

处理模块，所述处理模块用于对所述视频段进行处理，得到目标视频；

合并模块，所述合并模块用于将所述目标视频和所述语音信号进行合并，得到音视频信息。

第三方面，本发明提供了一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现第一方面任一项所述的音视频合成方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行第一方面任一项所述的音视频合成方法。

第五方面，本发明提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面任一项所述的音视频合成方法。

通过应用本发明实施例提供的音视频合成方法，直接依据语音信号的属性进行虚拟人音视频的实时合成，避免了深度神经网络大模型对硬件资源的占用，不依赖于虚拟形象的设计和制作，方便低成本的快速部署，具有较好的经济社会价值。

附图说明

图1为本发明实施例一提供的音视频合成方法流程示意图之一；

图2为本发明实施例一提供的音视频合成方法流程示意图之二；

图3为本发明实施例二提供的音视频合成装置结构示意图；

图4为本发明实施例三提供的芯片系统结构示意图；

图5为本发明实施例四提供的计算机可读存储介质示意图；

图6为本发明实施例五提供的计算机程序产品示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的音视频合成方法流程示意图之一，该方法应用在虚拟人音视频合成领域。可以部署在端侧，比如，部署于RK3288端侧。如图1所示，该方法包括以下步骤：

步骤110，获取经过TTS转换得到的语音信号和语音信号的属性；

具体的，在用户实时交互的环境下，这种交互环境可以是获取用户的语音信息，此时，可以通过语音识别(Automatic Speech Recognition，ASR)将语音转换为文本，然后将文本通过文本到语音(Text To Speech，TTS)进行转换，得到语音信号和语音信号的属性。

其中，属性包括多个音素中每个音素的类型和每个音素的时长；音素的时长中还包括音素的起始点。音素的类型包括静音音素和发音音素。每个语音信号都是一连串音素构成的，音素是根据语音的自然属性划分出来的最小语音单位，可以依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素等，每个音素会有一定时间长度，加在一起就是音频的总时长。

步骤120，根据类型，在预设的视频中搜索对应的视频段；并根据时长确定视频段的时长；

具体的，在一个可选的实现方式中，如图2所示，在本申请之前还包括步骤210。

获取目标用户的视频；视频包括设定的动作手势、面部表情、无声段和说话段；视频为预设的视频。

具体的，录制目标形象真人视频约30s，包含设定的动作手势、面部表情、无声段和说话段。由于拍摄视频模板时，对真人模特有着严格要求，模特本身在镜头前不会摇晃，仅嘴唇运动，帧与帧之间差距很小，大部分的差异集中在面部嘴唇部分，后续便于视频之间的过渡，从而得到每个音素对应的多张图片。

具体的，预设的视频包括无声段和说话段；根据类型，在预设的视频中搜索对应的视频段具体包括：当类型为静音音素时，选取预设的视频中的无声段；当类型为发音音素时，选取预设的视频中的说话段。

具体的，预设的视频，会做好标注，从而标注每个音素对应的嘴型。当选取的为无声段时，由于每个音素包括起始时间和时长，比如，一个无声段的音素的起始时间为100ms，时长是50ms，则确定视频段中该无声段时长为50ms时对应的几张图片。

当选取的为有声段时，直接在录制好的视频中搜到对应的嘴型图片，例如：音素a，起始时间点为300ms，截止时间点为500ms,时长为500-300＝200ms,则去预设的视频中寻找标注好的音素a对应的几张图片。具体多少张图片，可以根据视频帧率来计算：假设帧率是25，即一秒钟视频包含25张图片，则200ms对应200/1000*25＝5张图片。

步骤130，对视频段进行处理，得到目标视频；

具体的，在一个示例中，对视频段的处理可以得到目标视频具体包括：当得到多个音素对应的多个视频段时，根据预设的相似度矩阵，确定相邻两个视频段间的过渡图像；保留相邻视频段中的第一视频段的过渡图像，删除相邻视频段中第二视频段中的过渡图像；根据第一视频段和删除了过渡图像的第二视频段，得到目标视频。

比如，音素1对应第一视频段，音素2对应第二视频段，确定第一视频段和第二视频段之间的过渡图像后，可以仅保留一个视频段中的过渡图像，删除另一个视频段中的过渡图像，从而得到目标视频段。

其中，选取视频段之间的过渡图像时采用的相似度矩阵，可以是预先训练好的，从而在音视频合成时，不用耗用计算资源来计算相似度矩阵，从而节省了合成时长，提高了合成效率。

在另一个可选的实现方式中，对视频段进行处理，得到目标视频具体包括：检测相邻两个视频段之间的流畅度；当流畅度不符合预设的条件时，在相邻视频段之间插入过渡帧；根据相邻两个视频段和过渡帧，得到目标视频。

具体的，由于视频段是从预设的视频中截取的，可能会导致插入的一段帧与另一段帧中间会出现画面跳变。因此，采用三通道直方图计算图像相似度，计算可能存在跳变的相邻两帧视频段的相似度，当相似度小于阈值时，插入一些过渡帧。过渡帧是通过面不变形(face morphing)算法生成的，起到平滑流畅视频的作用。

比如，音素a对应从预设的视频中得到的5张图片，紧跟后面的是音素o，对应从预设的视频中得到的4张图片，共5+4＝9张；这两个图片段连接处，即第5和第6张图可能存在跳变，采用face morphing在这中间插入2张图片，即可得到5+2+4＝11张图片，形成目标视频段，且流畅度大大提高。

步骤140，将目标视频和语音信号进行合并，得到音视频信息。

具体的，对于处理好的目标音频和语言信号，利用工具，示例而非限定，利用ffmpeg合成音视频信息，从而形成同步、画面流畅的最终结果进行呈现。

实施例二

本发明实施例二提供了一种音视频合成装置，如图3所示，该装置包括：获取模块310，搜索模块320，确定模块330，处理模块340和合并模块350。

获取模块310用于获取经过TTS转换得到的语音信号和语音信号的属性；属性包括每个音素的类型和每个音素的时长；

搜索模块320用于根据类型，在预设的视频中搜索对应的视频段；

确定模块330用于根据时长确定视频段的时长；

处理模块340用于对视频段进行处理，得到目标视频；

合并模块350用于将目标视频和语音信号进行合并，得到音视频信息。

进一步的，类型包括静音音素和发音音素；预设的视频包括无声段和说话段；搜索模块320根据类型，在预设的视频中搜索对应的视频段具体包括：当类型为静音音素时，选取预设的视频中的无声段；当类型为发音音素时，选取预设的视频中的说话段。

进一步的，处理模块340对视频段进行处理，得到目标视频具体包括：当得到多个音素对应的多个视频段时，根据预设的相似度矩阵，确定相邻两个视频段间的过渡图像；保留相邻视频段中的第一视频段的过渡图像，删除相邻视频段中第二视频段中的过渡图像；根据第一视频段和删除了过渡图像的第二视频段，得到目标视频。

进一步的，处理模块340对视频段进行处理，得到目标视频具体包括：检测相邻两个视频段之间的流畅度；当流畅度不符合预设的条件时，在相邻视频段之间插入过渡帧；根据相邻两个视频段和过渡帧，得到目标视频。

进一步的，获取模块310还用于获取目标用户的视频；视频包括设定的动作手势、面部表情、无声段和说话段；视频为预设的视频。

本发明实施例二提供的装置，可以执行上述方法实施例一中的方法步骤，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个微处理器(Digital Signal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line，DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

实施例三

本发明实施例三供了一种芯片系统，如图4所示，包括处理器，处理器与存储器的耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现如实施例一提供的任意一种音视频合成方法。

实施例四

本发明实施例四提供一种计算机可读存储介质，如图5所示，包括程序或指令，当所述程序或指令在计算机上运行时，实现如实施例一提供的任意一种音视频合成方法。

实施例五

实施例五提供一种包含指令的计算机程序产品，如图6所示，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如实施例一提供的任意一种音视频合成方法。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音视频合成方法，其特征在于，所述方法包括：

对所述视频段进行处理，得到目标视频；

2.根据权利要求1所述的方法，其特征在于，所述类型包括静音音素和发音音素；所述预设的视频包括无声段和说话段；所述根据所述类型，在预设的视频中搜索对应的视频段具体包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述视频段进行处理，得到目标视频具体包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述视频段进行处理，得到目标视频具体包括：

检测相邻两个视频段之间的流畅度；

根据相邻两个视频段和所述过渡帧，得到目标视频。

5.根据权利要求4所述的方法，其特征在于，所述检测相邻两个视频段之间的流畅度具体包括：

通过三通道直方图计算相邻两个视频段的图像相似度；

6.根据权利要求1所述的方法，其特征在于，所述方法之前还包括：

7.一种音视频合成装置，其特征在于，所述装置包括：

8.一种芯片系统，其特征在于，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1-6任一项所述的音视频合成方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行权利要求1-6任一项所述的音视频合成方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-6任一项所述的音视频合成方法。