CN115914772A

CN115914772A - 视频合成方法、装置、电子设备及存储介质

Info

Publication number: CN115914772A
Application number: CN202211633724.0A
Authority: CN
Inventors: 王珩
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-04

Abstract

本申请实施例提供了一种视频合成方法、装置、电子设备及存储介质，属于计算机技术领域。该方法包括：接收用户的拍摄请求，其中，拍摄请求携带用户的性别信息；根据拍摄请求从预设的图片库中确定用户的原始照片；对原始照片进行形象转换，生成与原始照片对应的虚拟形象；获取用户输入的原始音频信息，并对原始音频信息进行特征提取，确定原始音频信息的声纹特征；根据声纹特征以及用户的性别信息，确定用户的音素信息；根据虚拟形象与音素信息对预设的模板视频进行调整，生成目标视频。本申请实施例实现视频声音和虚拟形象相匹配，提高展业效率。

Description

视频合成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频合成方法、装置、电子设备及存储介质。

背景技术

虚拟形象是一种随着数据处理技术快速发展而出现的新的交互展示媒介，例如，语音合成技术、视频生成技术等，由于虚拟形象能够极大提升人机交互自然度和体验感，所以，虚拟形象被广泛应用于主播播报，客户服务、知识讲解等场合，其中，在保险展业或者保险推销等场合，很多代理人通过视频分享一些保险专业的知识讲解,从而达到引流的目的，为了提高视频制作效率，视频的制作素材大多出自于同一公司的官方平台，材料同质化严重。为了避免材料同质化严重难以过审，市面上主要的处理方式是修改视频的名字或者插入对应的封面来实现视频初始的差异，之后再通过变声软件进行声音的合成。但是在视频制作过程中，可能会出现视频声音和虚拟形象不符的问题，从而导致用户体验感变差，降低视频的点击率从而导致保险展业效率降低。

发明内容

本申请实施例的主要目的在于提出一种视频合成方法、装置、电子设备及存储介质，实现视频声音和虚拟形象相匹配，提高展业效率。

为实现上述目的，本申请实施例的第一方面提出了一种视频合成方法，所述方法包括：

接收用户的拍摄请求，其中，所述拍摄请求携带所述用户的性别信息；

根据所述拍摄请求从预设的图片库中确定用户的原始照片；

对所述原始照片进行形象转换，生成与所述原始照片对应的虚拟形象；

获取所述用户输入的原始音频信息，并对所述原始音频信息进行特征提取，确定所述原始音频信息的声纹特征；

根据所述声纹特征以及所述用户的性别信息，确定所述用户的音素信息；

根据所述虚拟形象与所述音素信息对预设的模板视频进行调整，生成目标视频。

在一些实施例，所述对所述原始照片进行形象转换，生成与所述原始照片对应的虚拟形象，包括：

对所述原始照片进行面部特征提取，得到所述原始照片的面部照片；

基于预设的矫正算法对所述面部照片进行角度矫正，得到矫正图像；

将所述矫正图像输入预设的虚拟形象模型进行形象转换，生成与所述原始照片对应的虚拟形象。

在一些实施例，所述对所述原始照片进行面部特征提取，得到所述原始照片的面部照片，包括：

根据预设的全身分割算法对所述原始照片进行人像分割，得到所述原始照片的人像区域；

基于预设的人脸检测算法对所述人像区域进行特征提取，得到人脸特征参数；

根据所述人脸特征参数对所述原始照片进行划分，得到所述原始照片的面部区域；

根据所述面部区域对所述原始照片进行裁剪，得到所述原始照片的面部照片。

在一些实施例，所述根据所述声纹特征以及所述用户的性别信息，确定所述用户的音素信息，包括：

根据所述声纹特征确定所述原始音频信息的声音频率；

将所述声音频率与预设的音色频率区间进行对比，得到对比结果；

根据所述对比结果和所述用户的性别信息确定所述用户的音素信息。

在一些实施例，所述根据所述对比结果和所述用户的性别信息确定所述用户的音素信息，包括：

当所述对比结果为所述声音频率超出所述音色频率区间，根据所述声音频率确定所述用户的目标音色，并根据所述目标音色生成所述音素信息；

当所述对比结果为所述声音频率位于所述音色频率区间，根据所述用户的性别信息确定用户的目标音色，并根据所述目标音色生成所述音素信息。

在一些实施例，所述点击模型包括反向传播神经网络，所述虚拟形象模型包括双边滤波器和中值滤波器；所述将所述矫正图像输入预设的虚拟形象模型进行形象转换，生成与所述原始照片对应的虚拟形象，包括：

将所述矫正图像输入所述双边滤波器进行色彩处理，得到所述矫正图像的色彩弱化图像；

基于所述中值滤波器对所述矫正图像进行灰度处理，得到所述矫正图像的灰度图，并对所述灰度图进行降噪处理，得到目标灰度图；

根据预设的自适应阈值对所述目标灰度图进行轮廓创建，得到所述目标灰度图的轮廓信息；

将所述色彩弱化图像与所述轮廓信息进行合并，生成与所述原始照片对应的虚拟形象。

在一些实施例，还包括：

将所述虚拟形象以及所述声纹特征存储至数据库；

在所述接收用户的拍摄请求之后，还包括：

根据所述拍摄请求对所述数据库进行查询，确定与所述拍摄请求对应的虚拟形象以及声纹特征。

为实现上述目的，本申请实施例的第二方面提出了一种视频合成装置，所述装置包括：

信息获取模块，用于接收用户的拍摄请求，其中，所述拍摄请求携带所述用户的性别信息；

照片确定模块，用于根据所述拍摄请求从预设的图片库中确定用户的原始照片；

形象转换模块，用于对所述原始照片进行形象转换，生成与所述原始照片对应的虚拟形象；

特征提取模块，用于获取所述用户输入的原始音频信息，并对所述原始音频信息进行特征提取，确定所述原始音频信息的声纹特征；

音频确定模块，用于根据所述声纹特征以及所述用户的性别信息，确定所述用户的音素信息；

视频合成模块，用于根据所述虚拟形象与所述音素信息对预设的模板视频进行调整，生成目标视频。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的视频合成方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视频合成方法。

本申请提出的视频合成方法、装置、电子设备及存储介质,首先，接收用户的拍摄请求，并根据拍摄请求从预设的图片库中确定用户用于视频合成的原始照片，之后，对原始照片进行形象转换，得到与原始照片对应的虚拟形象，从而实现用户虚拟形象的转换，再获取用户输入的原始音频信息，并对原始音频信息进行特征提取，从而能够确定原始音频信息的声纹特征，便于后续进行声音的转换，最后，根据声纹特征以及用户的性别信息，确定用户的音素信息，从而得到与用户的虚拟形象匹配的声音，再根据虚拟形象与音素信息对预设的模板视频进行调整，生成目标视频，能够避免模板视频的同质化，实现目标视频的差异化，使得视频声音和虚拟形象相匹配，从而提高展业效率。

附图说明

图1是本申请实施例提供的视频合成方法的流程图；

图2是图1中的步骤S103的流程图；

图3是图2中的步骤S201的流程图；

图4是图2中的步骤S105的流程图；

图5是图1中的步骤S403的流程图；

图6是图1中的步骤S203的流程图；

图7是本申请另一实施例提供的视频合成方法的流程图；

图8是本申请实施例提供的视频合成装置的结构示意图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

全身分割算法(Body Segmentation Algorithm)：基于灰度值的不连续和相似的性质对图像进行分割，在前者中，算法以灰度突变为基础分割一幅图像，如图像边缘分割。假设图像不同区域的边界彼此完全不同，且与背景不同，从而允许基于灰度的局部不连续性来进行边界检测。后者是根据一组预定义的准则将一幅图像分割为相似区域，如阈值处理、区域生长、区域分裂和区域聚合都是基于这种方法形成的。

霍夫变换直线检测(Hough Line Detection)：霍夫直线检测的基本原理在于利用点与线的对偶性，在我们的直线检测任务中，即图像空间中的直线与参数空间中的点是一一对应的，参数空间中的直线与图像空间中的点也是一一对应的。这意味着图像空间中的每条直线在参数空间中都对应着单独一个点来表示；图像空间中的直线上任何一部分线段在参数空间对应的是同一个点，因此霍夫直线检测算法就是把在图像空间中的直线检测问题转换到参数空间中对点的检测问题，通过在参数空间里寻找峰值来完成直线检测任务。

局部二值模式算法(Local Binary Patterns，LBP)：LBP指局部二值模式,是一种用来描述图像局部特征的算子,LBP特征具有灰度不变性和旋转不变性等显著优点，LBP是一种图像纹理特征提取算法,是一种局部特征,是照片分类和人脸检索研究中采用较多的特征提取算法之一，在图像物体识别领域，常用的特征描述子包括：HOG、SIFT、SURT、Wavelet、Gabor、DCT等，具体选择哪种算子需要根据目标对象决定。人脸识别中，LBP和Gabor是效果较好的两组特征。Gabor效果比LBP效果鲁棒，但是LBP运算速度快，编译在嵌入式等平台运行。一般如果条件允许，二者会进行结合，包括定义结合特征(比如LGBP,LGXP等)，特征级融合和决策级融合。

线性判别分析算法(Linear Discriminant Analysis，LDA)：是一种经典的线性学习方法，它既可以用于分类问题，也可以用于有监督的特征降维。它的思想非常朴素：给定训练样本，设法将样本特征投影到一个向量上，并且希望同类样本的投影点越近越好，异类样本的投影点越远越好。在对新样本进行分类时，照样将新样本的特征投影到这个向量上，再根据投影点的位置来确定新样本的类别。

分水岭分割算法(Watershed Algorithm)：所谓分水岭算法有好多种实现算法，拓扑学，形态学，浸水模拟和降水模拟等方式。分水岭算法(Watershed Algorithm)，是根据分水岭的构成来考虑图像的分割。现实中我们可以或者说可以想象有山有湖的景象，那么那一定是水绕山，山围水的情形。当然在需要的时候，要人工构筑分水岭，以防集水盆之间的互相穿透。而区分高山(plateaus)与水的界线，以及湖与湖之间的间隔或都是连通的关系，就是分水岭(watershed)。

基于此，本申请实施例提供了一种视频合成方法和装置、电子设备及存储介质，能够避免模板视频的同质化，实现目标视频的差异化，使得视频声音和虚拟形象相匹配，从而提高展业效率。

本申请实施例提供的视频合成方法和装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的视频合成方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、视频合成技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的视频合成方法，涉及计算机技术领域。本申请实施例提供的视频合成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现视频合成方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的视频合成方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S106。

步骤S101，接收用户的拍摄请求；

需要说明的是，拍摄请求携带用户的性别信息。

在一些实施例的步骤S101中，接收用户的拍摄请求，其中，拍摄请求中携带用户开始选定的性别信息，例如，当用户点击按钮进行拍摄的过程中，用户会首先选择自己的性别为“男性”或者“女性”，便于后续进行音色的判断。

步骤S102，根据拍摄请求从预设的图片库中确定用户的原始照片；

在一些实施例的步骤S102中，根据用户的拍摄请求从预设的图片库中确定用户的原始照片，便于后续进行虚拟形象的转换。

需要说明的是，图片库可以网上开源的数据库、用户自己的图库或者用户拍摄的照片等，本实施例不做具体限制，其中，在确定用户输入的原始照片的过程中，都会先获得用户的许可或者同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

步骤S103，对原始照片进行形象转换，生成与原始照片对应的虚拟形象；

在一些实施例的步骤S103中，对用户输入的原始照片进行形象转换，生成与原始照片对应的虚拟形象，从而实现对虚拟形象的转换，增添展业过程中的趣味性。

需要说明的是，虚拟形象可以根据用户的需求自行选择，例如，卡通形象、动物形象等等，本实施例不做具体限制。

步骤S104，获取用户输入的原始音频信息，并对原始音频信息进行特征提取，确定原始音频信息的声纹特征；

在一些实施例的步骤S104中，获取用户输入的原始音频信息，并对原始音频信息进行特征提取，确定原始音频信息的声纹特征，从而能够辨别出用户的音色特征，便于后续进行语音合成。

需要说明的是，用户输入的原始音频信息中的音频内容随意，例如，用户可以跟读页面设计的文案、朗读诗歌、即兴创作等，本实施例不做具体限制。

步骤S105，根据声纹特征以及用户的性别信息，确定用户的音素信息；

在一些实施例的步骤S105中，根据声纹特征以及用户开始输入的性别信息，确定用户的音素信息，从而确定后续目标视频中的虚拟形象的音色。

需要说明的是，在用户录制原始音频信息的过程中，可能会出现录制现场噪音过大、用户吐字不清、用户操作失误未录音、音频音色难以识别等情况，从而导致原始音频信息无法辨别，此时可以根据用户之前选择的性别直接判定结果，从而确定对应的音素信息。

步骤S106，根据虚拟形象与音素信息对预设的模板视频进行调整，生成目标视频。

在一些实施例的步骤S106中，根据转换后的虚拟形象以及音素信息对预设的模板视频进行调整，生成目标视频，从而使得虚拟形象与音素信息相匹配，增加模板视频的趣味性，从而提高展业效率。

需要说明的是，预设的模板视频为平台或者页面上已经设置好的视频，其中，模板视频里面包括预设的视频播报内容，将步骤S103得到的虚拟形象添加至模板视频进行展示，并将步骤S105确定的音素信息与模板视频中的视频播报内容进行合成，使得音素信息与视频播报内容相同步，最后根据合成后的语音内容与虚拟形象生成目标视频，从而能够在目标视频上展示与用户对应的虚拟形象，并且能够使用与虚拟形象对应的音素信息进行视频播放，从而实现目标视频的差异性。

本申请实施例所示意的步骤S101至步骤S106，首先，接收用户的拍摄请求，并根据拍摄请求从预设的图片库中确定用户用于视频合成的原始照片，之后，对原始照片进行形象转换，得到与原始照片对应的虚拟形象，从而实现用户虚拟形象的转换，再获取用户输入的原始音频信息，并对原始音频信息进行特征提取，从而能够确定原始音频信息的声纹特征，便于后续进行声音的转换，最后，根据声纹特征以及用户的性别信息，确定用户的音素信息，从而得到与用户的虚拟形象匹配的声音，再根据虚拟形象与音素信息对预设的模板视频进行调整，生成目标视频，能够避免模板视频的同质化，实现目标视频的差异化，使得视频声音和虚拟形象相匹配，从而提高展业效率。

请参阅图2，在一些实施例中，步骤S103可以包括但不限于包括步骤S201至步骤S203：

步骤S201，对原始照片进行面部特征提取，得到原始照片的面部照片；

步骤S202，基于预设的矫正算法对面部照片进行角度矫正，得到矫正图像；

步骤S203，将矫正图像输入预设的虚拟形象模型进行形象转换，生成与原始照片对应的虚拟形象。

本申请实施例所示意的步骤S201至步骤S203，在对原始照片进行形象转换的过程中，首先需要对原始照片进行面部特征提取，的殴打原始照片的面部照片，便于后续准确生成与原始照片对应的虚拟形象，再基于预设的矫正算法对面部照片进行角度矫正，得到矫正图像，从而避免出现图像倾斜或者偏移的情况，最后将矫正图像输入预设的虚拟形象模型进行形象转换，从而生成与原始照片对应的虚拟形象，增添展业过程中的趣味性。

需要说明的是，在面部照片的图像边缘明显的情况下，基于轮廓提取的矫正算法对面部照片进行角度矫正，得到矫正图像，在面部照片的图像边缘不明显的情况下，基于霍夫直线探测的矫正算法对面部照片进行角度矫正，得到矫正图像，本实施例不做具体限制。

请参阅图3，在一些实施例中，步骤S201可以包括但不限于包括步骤S301至步骤S304：

步骤S301，根据预设的全身分割算法对原始照片进行人像分割，得到原始照片的人像区域；

在一些实施例的步骤S301中，根据预设的全身分割算法对原始照片进行人像分割，从而得到多个图像区域，并对多个图像区域进行筛选，得到原始照片的人像区域，从而实现对人像区域的精准划分，提高虚拟形象转换的效率。

需要说明的是，在根据预设的全身分割算法对原始照片进行人像分割的过程中，需要对原始照片的背景进行去除，从而避免在面部特征提取过程中照片背景的干扰，实现对人像区域的精准划分，提高虚拟形象转换的效率。

可以理解的是，全身分割算法包括但不限于包括神经网络分割算法、阈值分割算法、分水岭分割算法等等，本实施例不做具体限制。

步骤S302，基于预设的人脸检测算法对人像区域进行特征提取，得到人脸特征参数；

在一些实施例的步骤S302中，基于预设的人脸检测算法对人像区域进行特征提取，得到人脸特征参数，从而能够根据人脸特征参数准确提取出原始照片的面部照片。

需要说明的是，在基于预设的人脸检测算法对人像区域进行特征提取的过程中，可以通过设置人脸关键点、人脸坐标参数的方式进行特征提取，例如，将人像区域均等的划分在坐标系中，通过人脸检测算法分别计算坐标系中鼻子、眼睛、嘴巴等器官的坐标，从而得到人脸特征参数，提高虚拟形象转换的准确性。

可以理解的是，人脸检测算法可以为局部二值模式算法、线性判别分析算法或者特征脸法(Eigenface)等等，本实施例不做具体限制。

步骤S303，根据人脸特征参数对原始照片进行划分，得到原始照片的面部区域；

在一些实施例的步骤S303中，根据人脸特征参数对原始照片进行划分，得到原始照片的面部区域，从而实现对面部区域的精准划分。

需要说明的是，根据人脸特征参数，例如，嘴巴坐标、鼻子坐标、眼睛坐标等，计算嘴巴到鼻子以及眼睛的位置、鼻子到眼睛的位置等，从而得到原始照片的多个面部区域，例如，眼睛区域、嘴巴区域、鼻子区域等等，便于后续确定原始照片的面部照片。

步骤S304，根据面部区域对原始照片进行裁剪，得到原始照片的面部照片。

在一些实施例的步骤S304中，根据面部区域对原始照片进行裁剪，得到原始照片的面部照片，从而能够将原始照片中的面部照片精准的提取出来，避免照片背景的干扰，避免裁剪面部照片的过程中出现器官的移位等现象。

请参阅图4，在一些实施例中，步骤S105可以包括但不限于包括步骤S401至步骤S403：

步骤S401，根据声纹特征确定原始音频信息的声音频率；

步骤S402，将声音频率与预设的音色频率区间进行对比，得到对比结果；

步骤S403，根据对比结果和用户的性别信息确定用户的音素信息。

本申请实施例所示意的步骤S401至步骤S403，在根据声纹特征以及用户的性别信息确定用户的音素信息的过程中，需要先根据声纹特征确定原始音频信息的声音频率，其中，声纹特征包括用户的声音音色、声音频率、声音强度等，之后将声音频率和预设的音色频率区间进行对比，得到对比结果，最后根据对比结果和用户的性别信息确定用户的音素信息，从而确定用户最终想要合成的声音音色，避免出现录制现场噪音过大、用户吐字不清、用户操作失误未录音、音频音色难以识别等情况，从而导致原始音频信息无法辨别的情况。

需要说明的是，预设的音色频率区间根据男性和女性的声音频率进行设置，例如，男性的声音频率在50赫兹至250赫兹之间，女性的声音频率在100赫兹至350赫兹之间，如果声音频率落在100赫兹至250赫兹的区间，则无法准确分辨出声音频率为男性还是女性，其中，本实施例中的音色频率区间设置为100赫兹至250赫兹即可。

请参阅图5，在一些实施例中，步骤S403还可以包括但不限于包括步骤S501至步骤S502：

步骤S501，当对比结果为声音频率超出音色频率区间，根据声音频率确定用户的目标音色，并根据目标音色生成音素信息；

在一些实施例的步骤S501中，当对比结果为声音频率超出音色频率区间，则可以直接根据声音频率确定用户的目标音色，并根据目标音色生成音素信息。

需要说明的是，声音频率超出音色频率区间包括声音频率低于音色频率区间的最小声音频率，以及声音频率高于音色频率区间的最大声音频率；当声音频率低于音色频率区间的最小声音频率，则判断此时用户的声音频率为男性的声音频率，直接根据声音频率确定用户的目标音色，并根据目标音色生成音素信息即可；当声音频率高于音色频率区间的最大声音频率，则判断此时用户的声音频率为女性的声音频率，直接根据声音频率确定用户的目标音色，并根据目标音色生成音素信息即可。

步骤S502，当对比结果为声音频率位于音色频率区间，根据用户的性别信息确定用户的目标音色，并根据目标音色生成所述音素信息。

在一些实施例的步骤S502中，当对比结果为声音频率位于音色频率区间，则说明此时的声音频率难以辨别出用户的音色，需要根据用户的性别信息确定用户的目标音色，并根据目标音色生成所述音素信息。

需要说明的是，当对比结果为声音频率位于音色频率区间，说明声音频率难以辨别出用户的音色，则此时用户的性别信息的优先级高于声音频率的优先级，可以根据用户开始选择的性别信息进行音素信息的确定。

请参阅图6，在一些实施例，步骤S203包括但不限于包括步骤S601至步骤S604：

需要说明的是，虚拟形象模型包括双边滤波器和中值滤波器。

步骤S601，将矫正图像输入双边滤波器进行色彩处理，得到矫正图像的色彩弱化图像；

在一些实施例的步骤S601中，将矫正图像输入双边滤波器进行色彩处理，得到矫正图像的色彩弱化图像，从而能够让矫正图像色彩弱化的同时保持矫正图像的边缘清晰，从而减少数据开销。

步骤S602，基于中值滤波器对矫正图像进行灰度处理，得到矫正图像的灰度图，并对灰度图进行降噪处理，得到目标灰度图；

在一些实施例的步骤S602中，基于中值滤波器对矫正图像进行灰度处理，得到矫正图像的灰度图，并对灰度图进行降噪处理，得到目标灰度图，从而减少灰度图像中的噪声，避免图像失真，保持图像的清晰度。

步骤S603，根据预设的自适应阈值对目标灰度图进行轮廓创建，得到目标灰度图的轮廓信息；

在一些实施例的步骤S603中，根据预设的自适应阈值对目标灰度图进行轮廓创建，从而能够得到目标灰度图中每个小领域中的突出特征，并根据多个突出特征得到目标灰度图的轮廓信息，从而保证图像的边缘轮廓清晰。

步骤S604，将色彩弱化图像与轮廓信息进行合并，生成与原始照片对应的虚拟形象。

在一些实施例的步骤S604中，将色彩弱化图像与轮廓信息进行合并，生成与原始照片对应的虚拟形象，从而实现原始照片到虚拟形象的转变。

需要说明的是，将色彩弱化图像与轮廓信息进行合并为将色彩弱化图像与轮廓信息的边缘掩码进行合并，从而能够将色彩弱化图像与轮廓信息进行叠加，生成与原始照片对应的虚拟形象。

图7是本申请另一实施例提供的视频合成方法的流程图，图7中的方法可以包括但不限于包括步骤S701至步骤S702。

步骤S701，将虚拟形象以及声纹特征存储至数据库；

在一些实施例的步骤S701中，将虚拟形象以及声纹特征存储至数据库，便于用户在拍摄过程中直接从数据库中调用对应的虚拟形象和声纹特征。

步骤S702，根据拍摄请求对数据库进行查询，确定与拍摄请求对应的虚拟形象以及声纹特征。

在一些实施例的步骤S702中，在接收用户的拍摄请求之后，根据拍摄请求对数据库进行查询，确定与拍摄请求对应的虚拟形象以及声纹特征，从而直接实现对虚拟形象以及声纹特征的调用，提高生成目标视频的效率。

为了更加清楚的说明视频合成方法的流程，下面以具体的示例进行说明。

示例一：

步骤一：用户在视频浏览页看到想要拍摄的模版视频，开启一键拍摄的功能，接收用户的拍摄请求，查询当前数据库中是否存在与用户对应的虚拟形象和声纹特征；

步骤二：若数据库中不存在对应的虚拟形象和声纹特征，则进入一键拍摄照片上传逻辑，接收用户从预设的图片库中上传的一张个人照片；

步骤三：提取图片特征，并对图片进行角度矫正，矫正图片角度后，对图片进行形象转换，从而以卡通形象模型生成对应虚拟形象；

需要说明的是，若步骤二的数据库中存在虚拟形象和声纹特征，则直接根据模版视频内容生成虚拟视频，若步骤二的数据库中只存在虚拟形象或声纹特征其中之一，则会自动调起未完成的流程。

步骤四：虚拟形象生成后进入音频录制流程，可在这里预览刚才生成的虚拟形象，点击开始录制按钮，获取用户输入的原始音频信息，并将原始音频信息上传算法服务器端识别声纹特征，辨别男声还是女声，当音频信息无法辨别时可根据之前用户选择的性别直接判定结果；

步骤五：查询一键拍摄生成的目标视频，若目标视频生成成功用户可直接预览生成的目标视频，若目标视频生成失败则会弹窗提示用户，用户可以自主选择是要重新生成或是放弃生成视频。

需要说明的是，在生成目标视频之后，代理人可以预览生成的目标视频，并通过集成算视频的软件开发工具包(Software Development Kit，SDK)，实现对目标视频的一键分享，从而达到保险展业的目的。

请参阅图8，本申请实施例还提供一种视频合成装置，可以实现上述视频合成方法，该装置包括：

信息获取模块801，用于接收用户的拍摄请求，其中，拍摄请求携带用户的性别信息；

照片确定模块802，用于根据拍摄请求从预设的图片库中确定用户的原始照片；

形象转换模块803，用于对原始照片进行形象转换，生成与原始照片对应的虚拟形象；

特征提取模块804，用于获取用户输入的原始音频信息，并对原始音频信息进行特征提取，确定原始音频信息的声纹特征；

音频确定模块805，用于根据声纹特征以及用户的性别信息，确定用户的音素信息；

视频合成模块806，用于根据虚拟形象与音素信息对预设的模板视频进行调整，生成目标视频。

该视频合成装置的具体实施方式与上述视频合成方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述视频合成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application SpecificIntegrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器902，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本申请实施例的视频合成方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述视频合成方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的视频合成方法、装置、电子设备及存储介质，首先，接收用户的拍摄请求，并根据拍摄请求从预设的图片库中确定用户用于视频合成的原始照片，之后，对原始照片进行形象转换，得到与原始照片对应的虚拟形象，从而实现用户虚拟形象的转换，再获取用户输入的原始音频信息，并对原始音频信息进行特征提取，从而能够确定原始音频信息的声纹特征，便于后续进行声音的转换，最后，根据声纹特征以及用户的性别信息，确定用户的音素信息，从而得到与用户的虚拟形象匹配的声音，再根据虚拟形象与音素信息对预设的模板视频进行调整，生成目标视频，能够避免模板视频的同质化，实现目标视频的差异化，使得视频声音和虚拟形象相匹配，从而提高展业效率。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-7中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种视频合成方法，其特征在于，所述方法包括：

根据所述拍摄请求从预设的图片库中确定用户的原始照片；

2.根据权利要求1所述的视频合成方法，其特征在于，所述对所述原始照片进行形象转换，生成与所述原始照片对应的虚拟形象，包括：

3.根据权利要求2所述的视频合成方法，其特征在于，所述对所述原始照片进行面部特征提取，得到所述原始照片的面部照片，包括：

4.根据权利要求1所述的视频合成方法，其特征在于，所述根据所述声纹特征以及所述用户的性别信息，确定所述用户的音素信息，包括：

根据所述声纹特征确定所述原始音频信息的声音频率；

5.根据权利要求4所述的视频合成方法，其特征在于，所述根据所述对比结果和所述用户的性别信息确定所述用户的音素信息，包括：

6.根据权利要求2所述的视频合成方法，其特征在于，所述虚拟形象模型包括双边滤波器和中值滤波器；所述将所述矫正图像输入预设的虚拟形象模型进行形象转换，生成与所述原始照片对应的虚拟形象，包括：

7.根据权利要求1所述的视频合成方法，其特征在于，还包括：

将所述虚拟形象以及所述声纹特征存储至数据库；

在所述接收用户的拍摄请求之后，还包括：

8.一种视频合成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的视频合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的视频合成方法。