CN115134655B

CN115134655B - 视频生成方法和装置、电子设备、计算机可读存储介质

Info

Publication number: CN115134655B
Application number: CN202210739699.8A
Authority: CN
Inventors: 杨丹; 王珩
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2023-08-11
Anticipated expiration: 2042-06-28
Also published as: CN115134655A

Abstract

本实施例提供了一种视频生成方法和装置、电子设备、计算机可读存储介质，属于人工智能技术领域。包括：在确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；从所述个人图像中提取图像特征；根据所述图像特征生成第一虚拟形象；从所述音频数据中提取音频特征，得到第一音频特征；根据所述第一虚拟形象、所述第一音频特征和模板视频生成目标视频。通过用户上传的个人图像和音频数据，生成用户的虚拟形象，并根据用户的虚拟形象和音频数据以及模板视频生成目标视频，通过虚拟形象的加入，有效实现了不泄露用户隐私的前提下增添了视频的互动性。

Description

视频生成方法和装置、电子设备、计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视频生成方法和装置、计算机设备、计算机可读存储介质。

背景技术

随着自媒体平台发展，越来越多人愿意在自媒体平台上创造短视频进行知识分享，一段短短的专业知识讲解就可以吸引大量的个人浏览，由此，一部分自媒体创造者也开始转型去跟拍同一类型的视频。而目前主流的跟拍方案是通过个人自主拍摄视频，再通过软件的跟拍功能与被跟拍视频结合，从而自动生成视频，创作者如果想增强视频的互动性，则需本人出镜，而部分创作者担心本人出镜会导致个人隐私泄露的问题。现有跟拍方案下，创作者需要自主拍摄一段视频与模板视频结合才能生成跟拍视频，由此导致创作者难以兼顾个人隐私和视频互动性。

发明内容

本公开实施例的主要目的在于提出一种视频生成方法和装置、电子设备、计算机可读存储介质，能帮助自媒体创作者有效兼顾个人隐私和视频互动性。

为实现上述目的，本公开实施例的第一方面提出了一种视频生成方法，所述方法包括：

在确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；

从所述个人图像中提取图像特征；

根据所述图像特征生成第一虚拟形象；

从所述音频数据中提取音频特征，得到第一音频特征；

根据所述第一虚拟形象、所述第一音频特征和模板视频生成目标视频。

在一些实施例，所述从所述个人图像中提取图像特征，包括：

检测所述个人图像中是否存在人脸区域；

若检测结果为所述个人图像中不存在人脸区域，输出提示信息，并接收基于所述提示信息返回的图像作为所述个人图像，检测所述个人图像中是否存在人脸区域；其中，所述提示信息用于提示用户当前所述个人图像中不存在人脸区域，需重新上传所述个人图像；

若检测结果为所述个人图像中存在人脸区域，提取所述人脸区域作为所述图像特征。

在一些实施例，所述根据所述图像特征生成第一虚拟形象，包括：

根据所述图像特征生成特征图像；

对所述特征图像进行角度矫正处理，得到矫正图像；

对所述矫正图像进行卡通化处理，以生成所述第一虚拟形象。

在一些实施例，所述对所述矫正图像进行卡通化处理，以生成所述第一虚拟形象，包括：

对所述矫正图像进行双边滤波，得到平滑人物图像；

根据所述矫正图像获取所述矫正图像的灰度图；

对所述灰度图进行中值滤波，得到降噪灰度图；

对所述降噪灰度图进行自适应阈值处理，得到人物轮廓图像；

根据所述人物轮廓图像和所述平滑人物图像生成所述第一虚拟形象。

在一些实施例，所述第一音频特征为用户的声纹特征。

在一些实施例，所述根据所述第一虚拟形象、所述第一音频特征和模板视频生成目标视频，包括：

提取所述模板视频中的模板音频；

从预设声音库中查找与所述声纹特征匹配的第一声音模式；其中，所述预设声音库中存储有多个对应不同音色参数和不同音调参数组合的声音模式；

根据所述第一声音模式的音色参数和音调参数调整所述模板音频的音色参数和音调参数，以生成目标音频；

根据所述第一虚拟形象、所述目标音频和所述模板视频生成所述目标视频。

在一些实施例，所述根据所述第一虚拟形象、所述目标音频和所述模板视频生成所述目标视频，包括：

调整所述第一虚拟形象的动作，以生成虚拟形象动态视频；

根据所述虚拟形象动态视频、所述目标音频和所述模板视频生成所述目标视频。

本公开实施例的第二方面提出了一种视频生成装置，包括：

获取单元：用于确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；

图像处理单元：用于从个人图像中提取图像特征，并根据图像特征生成第一虚拟形象；

音频处理单元；用于从音频数据中提取音频特征，得到第一音频特征；

视频生成单元；用于根据第一虚拟形象、第一音频特征和模板视频生成目标视频。

本公开实施例的第三方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器运行时实现如本申请第一方面实施例中任一项所述的视频生成方法。

本公开实施例的第四方面提出了一种计算机可读存储介质，用于计算机可读存储，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器运行，以实现如上述第一方面实施例中任一项所述的视频生成方法。

本公开实施例所提出的视频生成方法和装置、电子设备、计算机可读存储介质，通过在确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；从个人图像中提取图像特征；根据图像特征生成第一虚拟形象；从音频数据中提取音频特征，得到第一音频特征；根据第一虚拟形象、第一音频特征和模板视频生成目标视频。本公开实施例通过获取用户上传的个人图像，并提取个人图像中的图像特征，生成用户的第一虚拟形象，通过用户上传的音频，提取出用户的音频特征，再通过音频特征生成与模板视频中文案对应的语音，通过在让第一虚拟形象在视频中出现，并且用根据用户音频特征生成的语音取代用户自己录制的语音，在增加了视频互动性的同时，还有效兼顾了用户的个人隐私。

附图说明

图1是本公开实施例提供的视频生成方法的流程图；

图2是图1中的步骤S200的流程图；

图3是图1中的步骤S300的流程图；

图4是图1中的步骤S330的流程图；

图5是图1中的步骤S400的流程图；

图6是图1中的步骤S540的流程细化图；

图7是本公开实施例提供的视频生成装置的模块结构框图；

图8是本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序运行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序运行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际运行的顺序有可能根据实际情况改变。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

数字图像处理(Digital Image Processing)：将图像信号转换成数字信号并利用计算机对其进行处理的过程，是对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。

计算机视觉(computer vision):使用计算机及相关设备对生物视觉的一种模拟,通过各种成像系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。

图像噪声(image noise)：是图像中一种亮度或颜色信息的随机变化(被拍摄物体本身并没有)，通常是电子噪声的表现。它一般是由扫描仪或数码相机的传感器和电路产生的，也可能是受胶片颗粒或者理想光电探测器中不可避免的的散粒噪声影响产生的，CCD和CMOS感光元件都存在有热稳定性(hot pixel)的问题，就是对成像的质量和温度有关，如果机器的温度升高，噪音信号过强，会在画面上不应该有的地方形成杂色的斑点，这些点就是我们所讲的噪点，也就是图像噪声。图像噪声是图像拍摄过程中不希望存在的副产品，给图像带来了错误和额外的信息。

灰度图(Gray Scale Image)：使用黑色调表示物体，即用黑色为基准色，不同的饱和度的黑色来显示图像，每个灰度对象都具有从0％(白色)到100％(黑色)的亮度值。

声纹(Voiceprint)：是用电声学仪器显示的携带言语信息的声波频谱，人的发声器官实际上存在着大小、形态及功能上的差异。发声控制器官包括声带、软颚、舌头、牙齿、唇等；发声共鸣器包括咽腔、口腔、鼻腔。这些器官的微小差异都会导致发声气流的改变，造成音质、音色的差别。此外，人发声的习惯亦有快有慢，用力有大有小，也造成音强、音长的差别。音高、音强、音长、音色在语言学中被称为语音“四要素”，这些因素又可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。语图仪可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化，仪器又把这些电讯号的变化绘制成波谱图形，这就是声纹图。

自适应阈值算法(adaptive threshold)：利用图像局部阈值替换全局阈值进行图像计算的一种方法，具体针对光影变化过大的图片，或者范围内颜色差异不太明显的图片。自适应是指保证计算机能够通过判断和计算取得该图像区域的平均阈值进行迭代。其思想是根据图像不同区域的亮度分布，计算局部阈值，由此对于图像的不同区域，能够自适应计算不同的阈值，因此被称作自适应阈值算法。

双边滤波(Bilateral filter)：一种非线性的滤波方法，是结合图像的空间邻近度和像素值相似度的一种折中处理，同时考虑空域信息和灰度相似性，达到保边去噪的目的，使影像平滑化的非线性滤波方法。和传统的影像平滑化算法不同，双边滤波器除了使用像素之间几何上的靠近程度之外，还多考虑了像素之间的光度/色彩差异，使得双边滤波器能够有效的将影像上的噪声去除，同时保存影像上的边缘资讯。具有简单、非迭代、局部的特点。双边滤波器的好处是可以做边缘保存(edge preserving)，一般过去用的维纳滤波或者高斯滤波去降噪，都会较明显地模糊边缘，对于高频细节的保护效果并不明显。

中值滤波(Median filtering)：一种非线性平滑技术，它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术，中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替，让周围的像素值接近真实值，从而消除孤立的噪声点，可以有效消除斑点噪声(speckle noise)和椒盐噪声(salt-and-peppernoise)。方法是用某种结构的二维滑动模板，将板内像素按照像素值的大小进行排序，生成单调上升(或下降)的为二维数据序列。二维中值滤波输出为g(x,y)＝med{f(x-k,y-l),(k,l∈W)}，其中，f(x,y)，g(x,y)分别为原始图像和处理后图像。

霍夫变换(Hough Transform)：一种特征提取(feature extraction)，被广泛应用在图像分析(image analysis)、计算机视觉(computer vision)以及数位影像处理(digital image processing)。霍夫变换是用来辨别找出物件中的特征，例如：线条。他的算法流程大致如下，给定一个物件、要辨别的形状的种类，算法会在参数空间(parameterspace)中执行投票来决定物体的形状，而这是由累加空间(accumulator space)里的局部最大值(local maximum)来决定。

OpenCV:一个基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和MacOS操作系统上

边缘提取(edge detection)：指数字图像处理中，对于图片轮廓的一个处理。对于边界处，灰度值变化比较剧烈的地方，就定义为边缘。也就是拐点，拐点是指函数发生凹凸性变化的点。二阶导数为零的地方。并不是一阶导数，因为一阶导数为零，表示是极值点。边缘提取：边缘检测的基本思想首先是利用边缘增强算子，突出图像中的局部边缘，然后定义象素的“边缘强度”，通过设置阈值的方法提取边缘点集。由于噪声和模糊的存在，监测到的边界可能会变宽或在某点处发生间断。因此，边界检测包括两个基本内容：(1)用边缘算子提取出反映灰度变化的边缘点集。(2)在边缘点集合中剔除某些边界点或填补边界间断点，并将这些边缘连接成完整的线。

阈值分割(threshold segmentation)：一种基于区域的图像分割技术，原理是把图像像素点分为若干类。图像阈值化分割是一种传统的最常用的图像分割方法，因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量，而且也大大简化了分析和处理步骤，因此在很多情况下，是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图像阈值化的目的是要按照灰度级，对像素集合进行一个划分，得到的每个子集形成一个与现实景物相对应的区域，各个区域内部具有一致的属性，而相邻区域不具有这种一致属性。

最小外接矩形(Minimum Bounding Rectangle,MBR)：指以二维坐标表示的若干二维形状(例如点、直线、多边形)的最大范围，即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。这样的一个矩形包含给定的二维形状，且边与坐标轴平行。最小外接矩形是最小外接框(minimum bounding box)的二维形式。

透视变换(Perspective Transformation)：指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。

二值化(Thresholding)：就是将图像上的像素点的灰度值设置为0或255，使整个图像呈现出明显的只有黑和白的视觉效果。

随着自媒体行业的不断发展，越来越多的媒体从业者开始在网上通过短视频的形式进行知识分享，一段短短数分钟的知识讲解视频就可以吸引大量观众的浏览，由此，部分创作者为了获取流量也开始跟拍这一类型的知识讲解视频，然而，由于知识讲解视频需要创作者本身内容偏向专业化，比较缺乏和观众之间的互动性，为了弥补这一缺陷，创作者们往往需要自身出镜，在讲解的同时也通过创作者自身的一些肢体语言，面部表情等增添视频的互动性。然而，创作者自身出镜往往容易造成隐私泄露的问题，这就导致在创作知识讲解视频时，创作者往往难以同时兼顾视频的互动性以及创作者个人的隐私。

基于此，本公开实施例提出一种视频生成方法和装置、电子设备、计算机可读存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的视频生成方法。

本公开实施例提供的视频生成方法，涉及人工智能领域。本公开实施例提供的视频生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现视频生成方法的应用等，但并不局限于以上形式。

本公开实施例可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程存储介质中。

参照图1，根据本公开实施例第一方面实施例的视频生成方法，包括但不限于步骤S100至步骤S500。

步骤S100，在确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；

步骤S200，从个人图像中提取图像特征；

步骤S300，根据图像特征生成第一虚拟形象；

步骤S400，从音频数据中提取音频特征，得到第一音频特征；

步骤S500，根据第一虚拟形象、第一音频特征和模板视频生成目标视频。

在一些实施例的步骤S100中，在确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据，其中个人图像是带有用户人脸的图像，音频数据是一段用户个人录制的语音，语音内容可以是任意的，比如跟读模板视频中一段音频，语音录制设置有最短时长(比如3秒)，实际录制时长需大于最短时长以确保音频中包含足够多的数据用于后续提取音频特征。

在一些实施例的步骤S200中，从个人图像提取图像特征，个人图像是用于后续生成用户的第一虚拟形象的，而用户上传的个人图像中包括除了用户人脸区域外，还包括有背景部分，在生成用户的第一虚拟形象时，背景部分会对生成结果造成一定的干扰，比如用户上传的个人图像是旅游照，背景中可能包括了景点的一些人流以及山水景观等背景因素，而这些背景因素在生成用户的第一虚拟形象时，是不被需要的，基于此，在步骤S200中，将个人图像中的人脸区域提取出来，过滤掉背景部分，保证后续对图像进行处理，从而生成用户第一虚拟形象的过程中不受背景因素的干扰。

在一些实施例的步骤S300中，根据图像特征生成第一虚拟形象，在上述步骤S200中，得到用户上传的个人图像中的人脸区域后，将这部分人脸区域作为特征图像，并对特征图像进行一系列的数字图像处理，比如，比如，特征图像中可能存在一些椒盐噪声，此时则需对特征图像进行降噪处理，消除图像噪声，之后再对图像进行一系列的卡通化处理，从而生成卡通模型作为用户的第一虚拟形象，再比如，步骤S200中提取到的人脸区域中的人脸可能存在一定的倾斜度，此时则需对特征图像进行角度矫正处理，之后再对矫正后的图像进行卡通化处理，生成用户的第一虚拟形象。

在一些实施例的步骤S400中，从所述音频数据中提取音频特征，得到第一音频特征，所述音频数据是用户录制并上传的一段语音，由于人的发声器官实际上存在着大小、形态及功能上的差异，每个不同用户录制的语音其音色、音调、音长等要素总是存在差异，而这些因素共同构成了每个人的声纹特征，由于对用户录制的音频进行波谱分析，便能获取到带有用户特定声纹特征的音频特征。

在一些实施例的步骤S500中，根据所述第一虚拟形象、所述第一音频特征和模板视频生成目标视频，在上述步骤S100至步骤S400中得到用户的第一虚拟形象、第一音频特征之后，通过一定的逻辑调整第一虚拟形象的动作参数，从而生成第一虚拟的动作视频，并将该动作视频图层覆盖到模板视频图层上，再通过第一音频特征对模板视频中的音频进行调音，由此就可以得到一个包含有用户虚拟形象以及用户音频特征的目标视频，其中，所述模板视频可以是用户个人录制的模板视频，也可以是用户从互联网上获取的模板视频，还可以是软件的预设视频库中预先存储的模板视频。

在一些实施例中，如图2所述，步骤S200包括但不限于步骤S210至步骤S230。

步骤S210，检测个人图像中是否存在人脸区域；

步骤S220，若检测结果为个人图像中不存在人脸区域，输出提示信息，并接收基于提示信息返回的图像作为个人图像，检测个人图像中是否存在人脸区域；其中，提示信息用于提示用户当前个人图像中不存在人脸区域，需重新上传个人图像；

步骤S230，若检测结果为个人图像中存在人脸区域，提取人脸区域作为图像特征。

在一些实施例的步骤S210中，检测个人图像中是否存在人脸区域，通过人脸检测算法，检测用户上传的图像中，是否包含存在人脸区域，其中，人脸检测算法可以是基于知识或基于规则的方法根据规则描述人脸，也可以是人眼来检测面部的特征不变方法、通过与预先存储的标准面部特征进行比较的模板匹配方法、通过统计分析和机器学习查找人脸图像的相关特征的方法中的任一项。

在一些实施例的步骤S220中，若检测结果为个人图像中不存在人脸区域，输出提示信息，并接收基于提示信息返回的图像作为个人图像，检测个人图像中是否存在人脸区域；其中，提示信息用于提示用户当前个人图像中不存在人脸区域，需重新上传个人图像。考虑到用户可能由于各种原因导致上传的个人图像中无法检测到可用的人脸区域，比如，由于上传过程中对图像进行编码和解码时出现错误，导致图像中部分数据丢失，或者用户上传的图像中的人脸是侧脸而无法提取出完整人脸等一系列原因导致无法检测出完整的可用人脸图像，此时，系统会输出相关的提示信息，提醒用户当前图像不可用，用户需重新上传个人图像，在获取到用户重新上传的个人图像之后，再对其重新进行人脸检测，直至可以检测到图像中存在完整人脸区域。

在一些实施例的步骤S230中，若检测结果为个人图像中存在人脸区域，提取人脸区域作为图像特征，可以理解的，当在图像中检测到完整的人脸区域后，将该部分区域提取出来，从而得到图像中的人脸而滤除了图片中的其他因素，将其作为图像的特征。

在一些实施例中，如图3所述，步骤S300包括但不限于步骤S310至步骤S330。

步骤S310，根据图像特征生成特征图像；

步骤S320，对特征图像进行角度矫正处理，得到矫正图像；

步骤S330，对矫正图像进行卡通化处理，以生成第一虚拟形象。

在一些实施例的步骤S310中，根据图像特征生成特征图像，可以理解的，在得到用户上传的个人图像中的特征部分之后，将这特征部分独立出来，生成特征图像以方便后续对该部分进行图像处理，生成用户的第一虚拟形象。

在一些实施例的步骤S320中，对特征图像进行角度矫正处理，得到矫正图像，由于用户上传的个人图像中，用户的人脸可能存在一定的倾斜度，需要将图像的角度进行矫正，以保证后续生成的第一虚拟形象并不是东倒西歪的，而且由于图像背景颜色，光线亮度等因素的影响，人脸边缘的明显程度可能也存在一定的区别，基于此，针对人脸边缘轮廓比较的明显的图像，采用基于轮廓的矫正算法，对图像进行灰度化以及二值化处理，得到人脸轮廓，再计算该人脸轮廓的最小外接矩形，并获取该最小外接矩形的四个顶点，再定义角度矫正后图像的最小外接矩形的四个顶点，根据校正后图像的最小外接矩形的四个顶点对当前人脸轮廓的最小外接矩形的四个顶点进行透视变换，从而将图像角度矫正；进一步的，对于人脸边缘轮廓不明显的图像，采用基于霍夫直线探测的矫正算法，通过霍夫变换探测出图像中的所有霍夫直线，再计算每条霍夫直线的倾斜角，求出各个倾斜角的平均值，根据该倾斜角平均值，对图像进行旋转矫正。

在一些实施例的步骤S330中，对矫正图像进行卡通化处理，以生成第一虚拟形象。具体的，通过对矫正图像中的人脸进行一系列数字图像处理，使得人脸区域中平滑的地方更平滑，边缘更粗，由此，可以生成在一定程度上保留了用户面部特征，而又与用户真人照片之间存在较大差异的用户的第一虚拟形象，使得第一虚拟形象可以较好地保留用户特色而又无需担心隐私泄露的问题。

在一些实施例中，如图4所示，步骤S330包括但不限于步骤S410至步骤S450。

步骤S410，对矫正图像进行双边滤波，得到平滑人物图像；

步骤S420，根据矫正图像获取矫正图像的灰度图；

步骤S430，对灰度图进行中值滤波，得到降噪灰度图；

步骤S440，对降噪灰度图进行自适应阈值处理，得到人物轮廓图像；

步骤S450，根据,人物轮廓图像和平滑人物图像生成所述第一虚拟形象。

在一些实施例的步骤S410中，对矫正图像进行双边滤波，得到平滑人物图像，对双边滤波而言，在平坦区域，临近像素的像素值的差值较小，对应值域权重接近于1，此时空域权重起主要作用，相当于直接对此区域进行高斯模糊。此外，由于矫正图像是一张彩色图像，而对于彩色图，由于任意两种颜色间会存在完全不同的颜色，由此，对彩色图进行双边滤波时还会产生一种额外的复杂度，导致图像产生一种彩色频带，使得滤波后的图像不仅平滑了，还会自带一种彩色光环。

在一些实施例的步骤S420中，根据矫正图像获取矫正图像的灰度图，对矫正图像进行灰度化处理，由此得到矫正图像的灰度图。

在一些实施例的步骤S430中，对灰度图进行中值滤波，得到降噪灰度图，考虑到矫正图像中可能存在一些斑点噪声或椒盐噪声等影响，由此，根据矫正图像生成的灰度图也会存在一些噪点，通过中值滤波，将这些零星噪点的像素值用周围领域中各点灰度值的中值代替，由于这些噪点是孤立存在的，不可能作为领域中各点值的中值，由此通过中值滤波便可以很好地消去这些噪点。

在一些实施例的步骤S440中，对降噪灰度图进行自适应阈值处理，得到人物轮廓图像，考虑到用户上传的个人图像可能存在光照不均，各个部分亮度有差异的问题，比如鼻子一侧亮另一侧的光线就会比较暗，在这种情况下，如果通过全局阈值的方法，设置全局阈值对大于阈值和小于阈值的部分进行分割，可能会出现部分区域由于光线较暗，而导致该区域全部像素点灰度值被赋予255，也就是纯黑的情况，而不能很好地针对不同光线强调的区域提取出人脸轮廓，为避免这种情况出现，本公开实施例采用自适应阈值处理，即根据图像不同区域亮度分布，计算其局部的阈值，由此，当在光线强度较高，比较亮的区域，其图像整体灰度值较小，其分割阈值也较小，而对于光线强度较低，整体较暗的区域，由于这部分区域的整体灰度值偏大，所设置的分割阈值也更大，由此可以针对不同光线强度的区域都有一个较好的轮廓提取效果。

在一些实施例的步骤S450中，根据,人物轮廓图像和平滑人物图像生成所述第一虚拟形象。在步骤S410中，通过双边滤波获取到了更为平滑的人物图像，而在步骤S440中，通过自适应阈值分割后，提取到了被适当加粗的人脸的轮廓，将这两个图层叠加后，便得到了用户的卡通化图像。

在一些实施例中，如图5所示，步骤S400包括但不限于步骤S510至步骤S540。

步骤S510，提取模板视频中的模板音频；

步骤S520，从预设声音库中查找与声纹特征匹配的第一声音模式；其中，预设声音库中存储有多个对应不同音色参数和不同音调参数组合的声音模式；

步骤S530，根据第一声音模式的音色参数和音调参数调整模板音频的音色参数和音调参数，以生成目标音频；

步骤S540，根据第一虚拟形象、目标音频和模板视频生成所述目标视频。

在一些实施例的步骤S510中，提取模板视频中的模板音频，具体的，可以通过从模板视频中分离出音频信号。

在一些实施例的步骤S520中，从预设声音库中查找与声纹特征匹配的第一声音模式；其中，预设声音库中存储有多个对应不同音色参数和不同音调参数组合的声音模式，由于不同人的声纹特征或多或少都存在差异，在获取到用户的声纹特征后，生成声纹图，并与预设声音库中多个声音模式的声纹图进行比对，从而查找到声纹图重叠区域最大，即声纹特征最接近的声音模式。

在一些实施例的步骤S530中，根据第一声音模式的音色参数和音调参数调整模板音频的音色参数和音调参数，以生成目标音频；在上述步骤S520中，获取到与用户声纹特征最匹配的声音模式之后，根据该声音模式的音调参数和音色参数对模板音频的整体音调和音色进行调整。

在一些实施例的步骤S540中，根据第一虚拟形象、目标音频和模板视频生成所述目标视频。其中，所述模板视频可以是用户个人录制的模板视频，也可以是用户从互联网上获取的模板视频，还可以是软件的预设视频库中预先存储的模板视频。在上述步骤S510至步骤S530中，通过对模板视频中模板音频进行一定处理后，得到了带有用户声纹特征的目标音频，将模板视频中模板音频替换为目标音频后，并将用户第一虚拟形象的视频图层覆盖到模板视频中的指定区域，由此便得到了包括用户第一虚拟形象，以及带有用户声纹特征的音频的目标视频。

在一些实施例中，如图6所示，步骤S540包括但不限于步骤S610至步骤S620。

步骤S610，调整第一虚拟形象的动作，以生成虚拟形象动态视频；

步骤S620，根据虚拟形象动态视频、目标音频和模板视频生成目标视频。

在一些实施例的步骤S610中，调整第一虚拟形象的动作，以生成虚拟形象动态视频，可以理解，在本公开实施上述步骤中，通过对用户的个人图像进行一系列处理之后，得到了用户的第一虚拟形象，在此基础上，通过一定的算法确定第一虚拟形象的动作逻辑，从而调整第一虚拟形象的动作，比如通过自然语音处理，对目标音频进行语义分析，信息意图识别等处理，获取目标音频中的特征数据，比如说话人情绪变化，结合唇语模型等，以此调整第一虚拟形象的唇动，面部表情变化等动作，由此得到一个虚拟形象动态视频。

在一些实施例的步骤S620中，根据虚拟形象动态视频、目标音频和模板视频生成目标视频，其中，所述模板视频可以是用户个人录制的模板视频，也可以是用户从互联网上获取的模板视频，还可以是软件的预设视频库中预先存储的模板视频。将上述步骤S610中得到的虚拟形象动态视频图层覆盖到模板视频图层上，并在模板视频中的特定区域展示虚拟形象动态视频，由此得到了包括用户的第一虚拟形象以及带有用户声纹特征的目标视频。

本公开实施例所提出的视频生成方法，通过在确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；从所述个人图像中提取图像特征；根据所述图像特征生成第一虚拟形象；从所述音频数据中提取音频特征，得到第一音频特征；根据所述第一虚拟形象、所述第一音频特征和模板视频生成目标视频。本公开实施例通过获取用户上传的个人图像和音频数据，从而生成用户个人的虚拟形象和带有用户声纹特征的目标音频，再根据虚拟形象、目标音频和模板视频生成目标视频。有效地增加视频的互动性而又不会造成用户泄露的风险。

本公开实施例还提供一种视频生成装置，如图7所示，可以实现上述视频生成方法，该视频生成装置包括：获取单元710、图像处理单元720、音频处理单元730以及视频生成单元740；其中，获取单元用于确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；图像处理单元用于从个人图像中提取图像特征，并根据图像特征生成第一虚拟形象；音频处理单元用于从音频数据中提取音频特征，得到第一音频特征；视频生成单元用于根据第一虚拟形象、第一音频特征和模板视频生成目标视频。

本公开实施例的视频生成装置用于执行上述实施例中的视频生成方法，其具体处理过程与上述实施例中的视频生成方法相同，此处不再一一赘述。

本公开实施例还提供了一种电子设备800，包括：

至少一个处理器，以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如本申请第一方面实施例中任一项的方法。

下面结合图8对电子设备800的硬件结构进行详细说明。该计算机设备包括：处理器810、存储器820、输入/输出接口830、通信接口840和总线850。

处理器810，可以采用通用的中央处理器(Central Processin Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器820，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器820可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行本公开实施例的视频生成方法；

输入/输出接口830，用于实现信息输入及输出；

通信接口840，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线850，在设备的各个组件(例如处理器810、存储器820、输入/输出接口830和通信接口840)之间传输信息；

其中处理器810、存储器820、输入/输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1至图6中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不运行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)运行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本公开实施例的优选实施例，并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本公开实施例的权利范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

从所述个人图像中提取图像特征；

根据所述图像特征生成第一虚拟形象；

从所述音频数据中提取音频特征，得到第一音频特征；其中，所述第一音频特征是用户的声纹特征；

根据所述第一虚拟形象、所述第一音频特征和模板视频生成带有用户的声纹特征的目标视频；

其中，根据所述第一虚拟形象、所述第一音频特征和模板视频生成带有用户的声纹特征的目标视频，包括：

提取所述模板视频中的模板音频；

根据所述第一虚拟形象、所述目标音频和所述模板视频生成所述目标视频；

其中，所述从预设声音库中查找与所述声纹特征匹配的第一声音模式，包括：

生成所述声纹特征的声纹图并与所述预设声音库中多个声音模式的声纹图进行比对，将声纹图重叠区域最大的声音模式作为所述第一声音模式。

2.根据权利要求1所述的视频生成方法，其特征在于，所述从所述个人图像中提取图像特征，包括：

检测所述个人图像中是否存在人脸区域；

3.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述图像特征生成第一虚拟形象，包括：

根据所述图像特征生成特征图像；

对所述特征图像进行角度矫正处理，得到矫正图像；

4.根据权利要求3所述的视频生成方法，其特征在于，所述对所述矫正图像进行卡通化处理，以生成所述第一虚拟形象，包括：

对所述矫正图像进行双边滤波，得到平滑人物图像；

根据所述矫正图像获取所述矫正图像的灰度图；

对所述灰度图进行中值滤波，得到降噪灰度图；

5.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述第一虚拟形象、所述目标音频和所述模板视频生成所述目标视频，包括：

调整所述第一虚拟形象的动作，以生成虚拟形象动态视频；

6.一种视频生成装置，其特征在于，所述装置包括：

获取单元，用于在确定不存在用户虚拟形象和用户音频数据的情况下，获取用户上传的个人图像和音频数据；

图像处理单元，用于从个人图像中提取图像特征，并根据图像特征生成第一虚拟形象；

音频处理单元，用于从音频数据中提取音频特征，得到第一音频特征，其中，所述第一音频特征为用户的声纹特征；

视频生成单元，用于根据第一虚拟形象、第一音频特征和模板视频生成带有用户的声纹特征的目标视频；

其中，所述根据所述第一虚拟形象、所述第一音频特征和模板视频生成带有用户的声纹特征的目标视频，包括：

提取所述模板视频中的模板音频；

7.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器运行时实现如权利要求1至5中任一项所述的视频生成方法。

8.一种计算机可读存储介质，用于计算机可读存储，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器运行，以实现如权利要求1至5中任一项所述的视频生成方法。