CN116320222B

CN116320222B - 音频处理方法、装置及存储介质

Info

Publication number: CN116320222B
Application number: CN202310303380.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Shengshu Technology Co ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2024-01-30
Anticipated expiration: 2043-03-24
Also published as: CN116320222A

Abstract

本申请实施例涉及人工智能技术领域，并提供一种音频处理方法、装置及存储介质，该方法包括：获取目标对象在第一场景下录制的根视频；获取驱动生成虚拟形象的音频文件；对该音频文件中分贝小于预设阈值且播放时长大干预设时长的异常分片对应的音频数据进行第一过滤处理，获得第一音频数据；根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据；利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。本方案能够解决语音识别结果与人物唇形不一致的现象，提高虚拟形象的视觉效果。

Description

音频处理方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域，进一步涉及计算机视觉技术领域，尤其涉及一种音频处理方法、装置及存储介质。

背景技术

目前，虚拟形象合成可以应用在不同的场合，例如：在线教育过程中，由虚拟老师提供教学服务，不仅可以大大减轻老师的负担，还可以降低教学成本，比单纯的录播课等有更好的教学体验。除此之外，虚拟形象还可以应用在更广泛的场合中，例如：人工智能(Artificial Intelligence，AI)新闻主播、游戏、动画和应用程序等实际的商业场景中具有极大的商业价值。目前对虚拟形象的合成，往往采用自然人在特定环境下录制的音频文件驱动根视频生成虚拟视频，但在特定环境下可能存在噪声，例如说话的时候夹杂着拍桌子、跺脚、鸟叫、咳嗽等影响(即混合音)，导致后续音频驱动根视频时，语音识别的结果与人物唇形不一致，影响后期虚拟形象的视觉效果。

发明内容

本申请实施例提供了一种音频处理方法、装置及存储介质，能够解决语音识别结果与人物唇形不一致的现象，提高虚拟形象的视觉效果。

第一方面中，本申请实施例提供一种音频处理方法，该方法包括：

获取目标对象在第一场景下录制的根视频；

获取驱动生成虚拟形象的音频文件；

对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，其中，该异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；

根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据；

利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。

一些实施方式中，该根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据，包括：

根据信号质量对该第一音频数据进行第二过滤处理，将该第一音频数据中信号质量不符合预设要求的音频数据滤除，以获得该第二音频数据。

一些实施方式中，该根据信号质量对该第一音频数据进行第二过滤处理，包括：

提取该第一音频数据中声音的波形；

将该第一音频数据中声音的波形与预置的噪音类型的波形进行比对，将与该预置的噪音类型的波形匹配的音频数据进行滤除。

提取该第一音频数据中声音的信噪比和/或波段长度；

将该第一音频数据中声音的信噪比和/或波段长度达到预设阈值的音频数据进行滤除。

根据音色识别对该第一音频数据进行第二过滤处理，将该第一音频数据中确定为噪音类型的音频数据滤除，以获得该第二音频数据。

一些实施方式中，该根据音色识别对该第一音频数据进行第二过滤处理，包括：

提取该第一音频数据中声音的谐波成分；

将该第一音频数据中声音的谐波成分的幅度达到预设阈值的音频数据进行滤除。

一些实施方式中，该获得第二音频数据后，该方法还包括：

对该第二音频数据进行特征提取以得到该第二音频数据的特征；基于该第二音频数据的特征，利用训练好的音频重构神经网络将该第二音频数据重构为音质接近于无损音频的输出音频数据。

第二方面中，本申请实施例提供了一种音频处理装置，该音频处理装置具有实现对应于上述第一方面提供的音频处理方法的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。

一些实施方式中，该音频处理装置包括：

获取模块，用于获取目标对象在第一场景下录制的根视频，以及获取驱动生成虚拟形象的音频文件；

处理模块，用于对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，其中，该异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据；以及利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。

一些实施方式中，上述处理模块具体用于：

提取该第一音频数据中声音的波形；

一些实施方式中，上述处理模块具体用于：

提取该第一音频数据中声音的信噪比和/或波段长度；

一些实施方式中，上述处理模块具体用于：

提取该第一音频数据中声音的谐波成分；

一些实施方式中，上述处理模块还用于：

第三方面中，本申请实施例提供一种电子设备，该电子设备包括：至少一个处理器和存储器；其中，该存储器用于存储计算机程序，该处理器用于调用该存储器中存储的计算机程序来执行上述第一方面或者第一方面的任一种实施方式提供的任一种音频处理方法中的步骤。

第四方面中，本申请实施例提供一种计算机可读存储介质，具有实现对应于上述第一方面提供的音频处理方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，该模块可以是软件和/或硬件。具体的，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请实施例中第一方面或者第一方面的任一种实施方式提供的任一种音频处理方法中的步骤。

本申请实施例提供了一种新的方案来提高虚拟形象的视觉效果。与现有技术相比，该方案通过对音频文件中分贝小于预设阈值且播放时长大于预设时长的异常分片对应的音频数据的过滤处理，可以有效地去除空白音，从而避免了在音频文件中夹杂的空白音的干扰。然后，根据该音频文件中音频数据的信号属性对经异常分片过滤后的音频数据进行环境杂音的过滤处理，从而进一步筛除掉音频文件中的环境杂音，提高音频文件中音频数据的质量，同时提高后续语音识别的准确性。最后，利用经过上述过滤处理后的音频数据来驱动根视频，从而获得更加逼真的语音识别结果和虚拟形象。提高虚拟形象的视觉效果，使其更加真实、自然，增强了用户体验。

附图说明

图1为本申请实施例提供的一种服务器示意图；

图2为本申请实施例中音频处理方法的一种流程示意图；

图3为本申请实施例中语音驱动视频处理视频的过程示意图；

图4是本申请实施例中音频处理装置的一种结构示意图；

图5是本申请实施例中实施音频处理方法的电子设备的一种结构示意图；

图6是本申请实施例中实施音频处理方法的手机的一种结构示意图；

图7是本申请实施例中实施音频处理方法的服务器的一种结构示意图；

图8是本申请实施例中生成的虚拟形象的一个示意图；

图9是本申请实施例中生成的虚拟形象中音视频对应的一个示意图；

图10是本申请实施例中生成的虚拟形象中音视频对应的另一示意图；

图11是本申请实施例中生成的虚拟形象中音视频对应的另一示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如本申请实施例中的第一区域、第二区域分别表示初始人脸图像中不同的区域)，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、自然语言处理(Nature Language processing，NLP)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明：

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

数字人技术需要使用不同的嘴形去同步不同的音频信息，以便生成逼真的数字人视频。具体地，需要将音频信号和数字人的口型之间建立起联系。例如，可以将音频特征(如音素、能量等)映射到视频特征(如嘴形特征)。人工智能(Artificial Intelligence，简称AI)可以自动学习音频特征和视频型特征之间的映射关系。例如，可以基于机器学习技术来构建音频特征和视频特征之间的映射关系。

为了提升数字人视频中的目标人的真实度，如提升授课老师的面容的真实还原度，可以采用包括目标人的背景视频生成数字人视频。数字人视频中音频的长度可以是由录制时长决定的，也可以是由特定文本的文本长度来决定的。音频的长度可以比较长，如40分钟、1小时或者更长等。为了保证背景视频的长度不短于音频的长度，以便合成数字人视频，在录制背景视频过程中需要目标人持续保持特定姿势。这种录制背景视频的方式给目标人带来了很大的身体和精神负担。此外，背景视频拍摄时对拍摄环境要求也较高，如尽量避免视频背景改变，需要租用的拍摄场地等的成本较高。

为了降低背景视频的拍摄难度和拍摄成本，可以拍摄长度较短的视频片段，如播放时长10秒、30秒、1分钟、3分钟或者10分钟等，然后通过视频片段拼接的方式生成所需背景视频。然而，不同的视频分片中人物的姿态可能不同，尤其是待拼接的当前视频分片的结束时段和下一视频分片的开始时段的拍摄对象的姿态不同，导致不便于进行视频频拼接。此外，背景视频中目标人的姿态不可避免的会发生改变(如轻微的晃动等)，拼接后的视频片段在进行播放时，拼接处的视频展示效果较差，如容易出现图像抖动、图像跳变等。

本申请实施例供了一种音频处理方法、装置及存储介质，可用于服务器或者终端设备。通过对音频文件中分贝小于预设阈值且播放时长大于预设时长的异常分片对应的音频数据进行第一过滤处理，获得第一音频数据，从而筛除掉音频文件中夹杂的空白音；然后根据音频数据对应的信号属性对第一音频数据进行第二过滤处理，获得第二音频数据，从而进一步筛除掉音频文件中的环境杂音；最后，利用经噪声处理后的第二音频数据驱动根视频，从而获得语音识别结果与人物唇形保持一致的目标对象的虚拟形象，提高虚拟形象的视觉效果。

本申请实施例的方案可基于云技术和人工智能技术等来实现，具体来说涉及云技术中的云计算、云存储和数据库等技术领域，下面将分别进行介绍。

图1为本申请实施例提供的一种服务器示意图。需要注意的是，图1所示仅为可以应用本申请实施例的系统架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。

参见图1，根据本实施例的系统架构100可以包括多个服务器101、102、103。其中，不同的服务器101、102、103各自可以提供不同种类的服务。例如，服务器101可以提供文字识别服务，服务器102可以提供语音合成服务，服务器103可以提供图像处理服务。

例如，服务器101可以将从图像中识别的文字发送给服务器102，以便合成与文字对应的音频分片。服务器103可以对接收的视频分片进行图像处理。如服务器103可以接收至少两个视频分片，并且根据至少两个视频分片得到目标分片。此外，服务器103还可以生成针对动作视频分片和动作视频分片的补帧视频分片，以降低视频分片拼接处的图像跳变等问题。另外，利用接收的音频分片驱动目标分片，得到经驱动的目标分片等功能。服务器103还可以发送经驱动的目标分片、生成的嘴部图像、经驱动的视频帧等给终端设备，以便在终端设备上展示上述信息。例如，终端设备上可以展示经驱动的视频，实现视频教学等。例如，服务器103可以为后台管理服务器、服务器集群、云服务器等。

其中，需要特别说明的是，本申请实施例涉及的服务器(例如业务服务器、搜索引擎)可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例涉及的图像处理装置可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、个人数字助理等，但并不局限于此。图像处理装置以及服务端可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

云服务器能够实现云计算(cloud computing)，云技术指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

例如，云服务器可以提供人工智能云服务，也被称作是AI即服务(AI as aService，简称AIaaS)。AIaaS平台可以把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

以下结合图2-图7对本申请实施例的技术方案进行示例性说明。

如图2所示，图2为本申请实施例的一种音频处理方法流程示意图，该方法流程包括：

201、获取目标对象在第一场景下录制的根视频。

本实施例中，上述目标对象可以是不同年龄段或性别的人，例如儿童、成人或者老人，可以是男性或者女性。

第一场景可以是在室内或者室外的任何场景，例如，可以是在线授课、在线直播或者在线卖货等场景。场景中的背景或者人物姿态可以切换。

根视频可以为用户的移动端正在直播的视频。其中，根视频中目标对象的唇形可以保持完全闭合状态，例如，根视频可以是在录制的过程中，要求自然人的唇形保持闭合，在计算公差允许的范围内可以有轻微的小浮动；根视频中目标对象的唇形还可以保持一定幅度的张开状态，该实施例中，则要求自然人的唇形微微张开，张开的幅度可根据具体需求调整，也可以通过后期的视频处理统一调整，本申请实施例不对唇形的张开幅度、唇形张开幅度的处理时机作限定。

本实施例中，可以由带处理功能的电子设备获取获取目标对象在第一场景下录制的根视频。其中，该根视频的录制时长可以根据需求来定。

在某些实施例中，该目标对象的唇形保持完全闭合状态包括：嘴唇保持闭合状态且人脸的俯仰角和偏航角均不超过20度。如此，通过将目标对象的唇形保持完全闭合状态，以便于后续音频驱动基础根视频合成虚拟形象时，能够给予唇形更大的调整尺度，使得与音频对应的口型更加准确，且不易产生较大的变形。例如录制时，人脸保持静默自然状态，嘴巴可以是自然闭合的状态，在整个录制的过程中，嘴巴无明显变化，以便提高后续唇形驱动的可视效果。其中，眼神可以向正前方左右偏移范围为20度角的方向扫视，扫视速度缓慢，人物可以不需讲话，也不需走动，脸部表情可以是正常状态，即不带情绪的自然状态。录制过程中，可以轻微点头或者摇头，但尽量保持偏移不超过20度。

目标对象的唇形保持一定幅度的张开状态包括：嘴唇保持微微张开状态且人脸的俯仰角和偏航角均不超过20度。同理，在录制根视频阶段，通过将目标对象的唇形保持一定幅度的张开状态，以便于后续音频驱动基础根视频合成虚拟形象时，能够给予唇形更大的调整尺度，使得与音频对应的口型更加准确，且不易产生较大的变形。

202、获取驱动生成虚拟形象的音频文件。

本实施例中，可以由带处理功能的电子设备获取驱动生成虚拟形象的音频文件。需要说明的是，该音频文件是通过专业降噪设备录制的使用者的播报音频，用于驱动视频中的唇形，名称为“驱动音频”。可以由带处理功能的电子设备获取驱动生成虚拟形象的音频文件。由于该驱动生成虚拟形象的音频文件用于后续虚拟形象的生成，因此，该音频文件所对应的文本内容需要与待驱动的根视频进行匹配，具体来说，在时间上，文本内容中各个字对应的位置也是时间位置，该时间位置与根视频中对应的时间位置是匹配的。如图8所示，在6-8s的时间位置对应的文本内容是“大家好，我是...”，在15-20s的时间位置对应的文本内容是“第一个方面...”，在25-28s的时间位置对应的文本内容是“第二方面...”。需要说明的是，目标对象可以是老师，驱动生成虚拟形象的音频文件可以是这位老师在线上授课的音频文件，该目标对象也可以是平台上做直播卖货、提供技能展现、或表演的人，驱动生成虚拟形象的音频文件可以是这类人说话的音频文件。

203、对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据。

本实施例中，可以由带处理功能的电子设备对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，其中，该异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片。

需要说明的是，音频文件的录制过程中，除了人正常说话的声音外，一般会夹杂着环境噪声或者异常分片等干扰数据，会影响后续语音识别的结果与人物唇形不匹配，影响后期虚拟形象的效果。异常分片一般存在一段预设时长的空白区域，其分贝一般较正常分片小。一种实现方式中，可以通过人工标注的方式进行筛除，通过将音频文件中大于预设时长且分贝小于预设阈值的空白区域标记出来，然后通过第一过滤处理剔除掉，除去异常分片，获得第一音频数据，通过人工标注的方式能够减少系统运算量。另一种实现方式中，可以通过语音提取模型对音频文件中包括的异常分片进行过滤，得到经第一过滤处理的第一音频数据，语音提取模型能够高效准确的过滤掉异常分片，可以获得更“纯净”的音频数据，从而生成更准确的虚拟形象的唇形，提高视觉效果。人工标注的方式需要耗费较多的时间和人力成本，但可以减少系统的运算量，适用于数据量较小的情况。而采用语音提取模型的方式可以高效准确地过滤掉异常分片，适用于处理大规模音频数据的场景。以上方式可根据具体实际情况进行选择。

需要说明的是，对异常分片进行过滤处理的方式还有很多种，包括但不限于：

短时能量和短时平均幅度差法(Short-time Energy and Zero-crossing Rate)：根据音频信号的短时能量和短时平均幅度差，判断音频信号是否为静默或噪声，如果是，将其过滤掉。该方法简单易行，但在存在较多噪声的情况下，过滤效果可能不佳。

基于自适应门限的方法(Adaptive Thresholding)：根据音频信号的动态范围，采用自适应门限的方式判断音频信号是否为静默或噪声，如果是，将其过滤掉。该方法相对较为准确，需要根据具体场景进行参数调整。

基于频域分析的方法(Frequency-domain Filtering)：采用频域分析技术，对音频信号进行滤波处理，去除频谱上的低能量噪声和静默区域。该方法需要进行复杂的算法实现，计算量较大，但能够更为准确地过滤空白音。

基于机器学习的方法(Machine Learning-based)：采用机器学习技术，训练模型对音频信号进行分类，区分出空白音和语音信号，将空白音过滤掉。该方法需要大量的训练数据和计算资源，但在准确率方面有较大提升空间。

除上述方法外，还有一些其他的空白音过滤处理方法，如基于时域和频域联合的方法、基于小波变换的方法等，本申请不做限制。

204、根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据。

本实施例中，可以由带处理功能的电子设备根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据。需要说明的是，音频文件的录制过程中，除了人正常说话的声音外，一般会夹杂着环境噪声或者空白音频等干扰数据，会影响后续语音识别的结果与人物唇形不匹配，影响后期虚拟形象的效果。环境噪声可以根据声音的信号属性进行识别，从而将环境噪声过滤掉，获得第二音频数据。根据过滤后更“纯净”的音频数据生成的虚拟形象的唇形更加准确，从而获得语音识别结果与人物唇形保持一致的目标对象的虚拟形象，提高虚拟形象的视觉效果。具体而言，环境噪声可以通过信号质量评估、频域分析、时域分析等信号属性的识别方法进行识别。通过对这些方法得到的结果进行判断和过滤，可以将环境噪声从音频数据中滤除。例如，通过信号质量评估判断信号的信噪比，将信噪比小于预设阈值的信号过滤掉。再比如，通过频域分析得到信号的频率，通过设置有合适的截止频率的滤波器，对大于该截止频率的信号进行过滤，其中，滤波器类型可包括低通滤波器、高通滤波器、带通滤波器或带阻滤波器等。又比如，通过对信号的时域分析，将大于预设滑动时间窗口大小的信号进行滤波，实现对噪声的滤波。将环境噪声从音频数据中滤除后，可以提高语音识别的准确度，同时使得生成的虚拟形象更加准确，提高视觉效果。需要注意的是，不同的环境噪声可能需要采用不同的过滤方法，需要根据具体实际情况进行选择。

在某些实施例中，可以通过信号质量来识别哪些是环境噪声，然后将环境噪声进行过滤。也就是说，通过对信号质量的评估，识别出信号质量不符合预设要求的环境噪声，并将其从音频数据中滤除，以获得更纯净的音频数据。这样做可以提高语音识别的准确度，同时使得生成的虚拟形象更加准确，提高视觉效果。该方法的实现需要先对信号质量进行评估，通常可以采用短时能量、短时平均幅度差等指标对信号进行分析。然后根据预设的信号质量要求，选择合适的阈值对信号进行判断和过滤。该方法的优点是简单易行，可以实时处理音频数据，适用于多种场景和任务需求。

具体的，一个实施例中，信号质量可以是声音的波形，即通过提取该第一音频数据中声音的波形；将该第一音频数据中声音的波形与预置的噪音类型的波形进行比对，将与该预置的噪音类型的波形匹配的音频数据进行滤除。需要说明的是，可以首先提取音频文件中声音的波形来判别信号质量，通过库中提前预制好的某个噪音类型的波形进行对比判别，可以知道是什么噪音类型，例如环境噪声(如说话的时候夹杂着拍桌子、跺脚、鸟叫、咳嗽等)。音频文件中夹杂的噪音是嘈杂的波形，还可以通过一个专门的噪音数据集去训练一个滤波模型，通过该滤波模型中预设的过滤条件去滤掉噪音。滤波模型的训练需要一个专门的噪音数据集，通过该数据集训练出一组预设的过滤条件，用于过滤不同类型的噪音。在实际应用中，可以根据需要选择不同的滤波模型，并根据具体情况进行优化和调整。需要注意的是，不同的噪音类型可能需要使用不同的判别方法和滤波模型，同时模型的训练质量也会影响过滤效果，需要进行充分的测试和优化。

具体的，一个实施例中，信号质量可以是声音的信噪比和/或波段长度，即通过提取该第一音频数据中声音的信噪比和/或波段长度；将该第一音频数据中声音的信噪比和/或波段长度达到预设阈值的音频数据进行滤除。需要说明的是，一种方式可以判断音频文件中声音信号的信噪比，当声音信号的信噪比或波段长度达到预设阈值时，说明存在噪音或其他干扰，需要进行过滤处理。其中，信噪比是指声音信号与背景噪声信号之比，是衡量声音质量的重要指标之一。通过设置信噪比阈值识别出环境噪声，声音信号的信噪比达到某个阈值(到达该阈值，则会有声音影响唇形的问题出现)则对此处噪音进行过滤调整。另一种方式可以是判断音频文件中声音信号的波段长度，波段长度则是指声音信号中一个连续的波动的长度，也是一种反映声音质量的指标。通过设置波段长度阈值识别出环境噪声，声音信号的波段长度达到某个阈值(到达该阈值，则会有声音影响唇形的问题出现)则对此处噪音进行过滤调整。上述两种方式还可以结合考虑，首先提取音频文件中声音信号的波形，通过库中提前预制好的某个噪音类型的波形进行对比判别，在知道是什么噪音类型之后判断其信噪比，声音信号的波段长度达到某个阈值(到达该阈值，则会有声音影响唇形的问题出现)则对此处噪音进行过滤调整。在实际应用中，可以根据具体实际情况选择不同的判别方法和阈值。需要注意的是，声音信号的信噪比和波段长度并不是唯一的判别标准，还可以考虑其他因素，如频率响应、失真程度等，以全面评估信号质量。频率响应是指声音信号在不同频率下的响应能力，即声音信号对不同频率的声波的反应程度。一个质量高的声音信号应该具有平坦的频率响应，即在不同频率下具有相似的响应能力。如果频率响应不平坦，会导致某些频率的声音信号被削弱或放大，从而影响信号的质量。失真程度是指声音信号在传输和处理过程中发生的变形程度，即原始信号和接收信号之间的差异。失真程度越小，说明信号越接近原始信号，信号质量越高。因此，在评估信号质量时，还需要考虑失真程度这一因素。综上所述，评估声音信号质量可以考虑多个方面的因素，从而更准确地判断信号是否适合后续的过滤处理。

在某些实施例中，还可以通过音色来识别哪些是环境噪声，音色是指声音在频率、振动、波形等方面的特征，不同的声音具有不同的音色，因此可以通过分析音色来识别环境噪声并进行过滤。本实施例中，可以根据音色识别对该第一音频数据进行第二过滤处理，将该第一音频数据中确定为噪音类型的音频数据滤除，以获得该第二音频数据。具体而言，可以通过预先采集一些环境噪声的音频样本，并提取其音色特征，然后将第一音频数据中的声音信号与这些样本进行对比，以识别并过滤出环境噪声。在实际应用中，还可以利用音色分析技术，对环境中的噪声进行识别和分类。例如，通过分析环境中的噪声音色特征，可以确定噪声的来源，如机器噪声、交通噪声、人声噪声等，并据此选择相应的降噪算法进行噪声过滤。此外，还可以通过分析音色的频谱特征，来判断噪声的频率分布情况，以更精准地过滤噪声。因此，通过分析音色，可以更好地识别和过滤环境噪声，得到更加“纯净”的音频数据，根据过滤后更“纯净”的音频数据生成的虚拟形象的唇形更加准确，在语音识别和唇形追踪等方面，这样的过滤处理可以提高语音识别和唇形追踪的准确性，从而获得更加自然、逼真的虚拟形象。

具体的，一个实施例中，音色识别的方法可以是识别声音中的谐波成分，从而提取出环境噪声，然后进行过滤。即提取该第一音频数据中声音的谐波成分；将该第一音频数据中声音的谐波成分的幅度达到预设阈值的音频数据进行滤除。过滤条件可以根据最终效果进行判断与界定，如果出现唇形影响可以通过人眼明确看出，则改音频噪音的阈值为需要过滤的界限阈值。需要说明的是，音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性，或者说是人耳对各种频率、各种强度的声波的综合反应。音色与声波的振动波形有关，或者说与声音的频谱结构有关。音叉(一种乐器)可产生一个单一频率的声波，其波形为正弦波。但实际上人们在自然界中听到的绝大部分声音都具有非常复杂的波形，这些波形由基波和多种谐波构成。谐波的多少和强弱构成了不同的音色。各种发声物体在发出同一音调声音时，其基波成分相同。但由于谐波的多少不同，并且各谐波的幅度各异，因而产生了不同的音色。所以对于音色中的波形进行判断，将波形进行匹配，来识别音色。

在某些实施例中，经过过滤处理后的音频数据仍然存在一定的信噪比和失真程度，因此需要进行增强处理以达到无损音频的效果，在后续驱动根视频生成虚拟形象的过程中，语音识别的准确性更高、效果更好。即对该第二音频数据进行特征提取以得到该第二音频数据的特征；基于该第二音频数据的特征，利用训练好的音频重构神经网络将该第二音频数据重构为音质接近于无损音频的输出音频数据。需要说明的是，凡是音质都是在传播的过程中出现的损失，通过音频重构神经网络训练，获取无损音频样本和有损失的样本分别进行特征提取以分别得到该有损音频样本的特征和无损音频样本的特征，只需要将对比特征值进行记录下来后，根据模型深度学习的原理，来回溯原音频的质量即可拿到音频原本质量，即所谓的音频增强。在实现上，可以通过训练神经网络来获取无损音频样本和有损失的样本的特征，并记录下对比特征值。然后根据模型深度学习的原理，来回溯原音频的质量，即可实现音频增强。通过音频增强处理，可以提高音频的质量，从而在后续的虚拟形象生成过程中，语音识别的准确性更高、效果更好。同时，增强后的音频数据也更加逼真、自然，可以提升虚拟形象的真实感和用户体验。

205、利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。

本实施例中，可以由带处理功能的电子设备利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。

需要说明的是，关于音频文件驱动根视频的具体方式，可以参见图3进行理解，图3所示，可以由多个目标分片，如根视频(root_video)，生成目标分片。用于驱动目标分片的音频分片，可以为驱动生成虚拟形象的音频文件(driving_audio)，音频分片可以包括多个音频帧。

为了便于理解本申请的技术方案，如音频帧和视频帧之间的对应关系，在此对音频帧的长度等进行示例性说明。

例如，一帧音频帧的播放时间长度为图像的帧率的倒数。如果图像的帧率为50fps，则表示一秒传输50帧画面，每帧视频帧需要20ms的播放时长，因此一个20ms的音频可以对应一帧视频帧。据此，将预设时间长度设置为帧率的倒数，可使分片段输出的音频与画面对应，即实现二者在时间上的对齐。

但是，在一些场景中，音频分片中音频帧的帧率和视频分片中视频帧的帧率不同。

例如，正常人听觉的频率范围大约在20Hz～20kHz之间。采样频率(samplerate)是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。例如，为了降低声音的失真率，采样频率可以大于16kHz。常用的音频采样频率有8kHz、11.025kHz、16kHz、22.05kHz、37.8kHz、44.1kHz、48kHz等。例如，可以按200个采样点形成一帧音频帧。

采样率为16KHz，表示每秒16000个采样点，音频帧的播放时长＝一个高级音频编码(AdvancedAudio Coding，简称ACC)帧对应的采样点个数/采样频率，则对于80fps的音频帧的帧率而言，当前一帧音频帧的播放时长＝200*1000/16000＝12.5毫秒(ms)。视频帧的帧率可以为25fps左右即可满足视频播放效果，一秒传输25帧画面，那么每帧画面需要1000÷25＝40ms的时长。可以看出，两者之间的播放时长不同。

为了便于生成包括等播放时长音频和视频的数字人信息，可以按照如下方式确定视频帧和音频帧之间的对应关系：

在某些实施例中，至少两个视频分片中的各视频分片的帧率为第一帧率f1，音频分片的帧率为第二帧率f2，第二帧率f2大于第一帧率f1。

相应地，视频分片的一帧对应音频分片的N帧，其中，为上取整，或者，为下取整。

如果第一帧率f1和第二帧率f2之间是整数倍关系，则按照整数倍关系确定音频帧和视频帧之间的关系即可。如果第一帧率f1和第二帧率f2之间不是整数倍关系，则可以通过取整的方式来确定音频帧和视频帧之间的对应关系。

在某些实施例中，在利用音频分片驱动目标分片之前，上述方法还可以包括：如果f2/f1是大于1的小数，并且则确定第一播放时段的结束播放时刻的音频帧与第二播放时段的起始播放时刻的音频帧之间存在重叠。

相应地，利用音频分片驱动目标分片可以包括如下操作。

首先，确定第一对应关系，第一对应关系包括：音频分片的第i×N个音频帧至第(N×(i+1)-1)个音频帧对应目标分片的第i个视频帧，其中，第(N×(i+1)-1)个音频帧的重叠部分还对应目标分片的第(i+1)个视频帧。

然后，基于第一对应关系利用音频帧驱动与音频帧对应的视频帧，得到经驱动的目标视频帧，即目标对象的虚拟形象。

可见，由于该第一对应关系中音频帧和视频帧之间的对应关系，使分片段输出的音频与画面对应，即实现二者在时间上的对齐。例如，如图9所示，为第一音频帧对应的第一视频帧，如图10所示，为第二音频帧对应的第二视频帧，如图11所示，为第三音频帧对应的第三视频帧。可以理解的是，实际应用中，还可以有更多的音频帧以及对应的视频帧，此处仅做示例性说明，数量上不做限制。

本申请实施例中，通过对音频文件中分贝小于预设阈值且播放时长大于预设时长的异常分片对应的音频数据的过滤处理，可以有效地去除空白音，从而避免了在音频文件中夹杂的空白音的干扰。然后，根据该音频文件中音频数据的信号属性对经异常分片过滤后的音频数据进行环境杂音的过滤处理，从而进一步筛除掉音频文件中的环境杂音，提高音频文件中音频数据的质量，同时提高后续语音识别的准确性。最后，利用经过上述过滤处理后的音频数据来驱动根视频，从而获得更加逼真的语音识别结果和虚拟形象。提高虚拟形象的视觉效果，使其更加真实、自然，增强了用户体验。

以上对本申请实施例中一种音频处理方法进行说明，以下对执行上述音频处理方法的音频处理装置、电子设备分别进行介绍。

参阅图4，如图4所示的一种音频处理装置40的结构示意图，本申请实施例中的音频处理装置40能够实现对应于上述图2所对应的实施例中由音频处理装置40所执行的音频处理方法中的步骤。音频处理装置40实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，该模块可以是软件和/或硬件。该音频处理装置40包括：

获取模块401，用于获取目标对象在第一场景下录制的根视频，以及获取驱动生成虚拟形象的音频文件；

处理模块402，用于对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，其中，该异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据；以及利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。

一些实施方式中，上述处理模块402具体用于：

提取该第一音频数据中声音的波形；

一些实施方式中，上述处理模块402具体用于：

提取该第一音频数据中声音的信噪比和/或波段长度；

一些实施方式中，上述处理模块402具体用于：

提取该第一音频数据中声音的谐波成分；

一些实施方式中，上述处理模块402还用于：

本申请实施例提供的方案中，通过对音频文件中分贝小于预设阈值且播放时长大于预设时长的异常分片对应的音频数据的过滤处理，可以有效地去除空白音，从而避免了在音频文件中夹杂的空白音的干扰。然后，根据该音频文件中音频数据的信号属性对经异常分片过滤后的音频数据进行环境杂音的过滤处理，从而进一步筛除掉音频文件中的环境杂音，提高音频文件中音频数据的质量，同时提高后续语音识别的准确性。最后，利用经过上述过滤处理后的音频数据来驱动根视频，从而获得更加逼真的语音识别结果和虚拟形象。提高虚拟形象的视觉效果，使其更加真实、自然，增强了用户体验。

上面从模块化功能实体的角度对本申请实施例中的执行音频处理方法的音频处理装置40进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行音频处理方法的音频处理装置40进行描述。需要说明的是，在本申请实施例图4所示的实施例中的获取模块401对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输出接口等，处理模块402对应的实体设备可以为处理器。图4所示的音频处理装置40可以具有如图5所示的电子设备结构，当图4所示的音频处理装置40具有如图5所示的结构时，图5中的处理器和输入/输出单元能够实现前述对应该音频处理装置40的装置实施例提供的处理模块402相同或相似的功能，图5中的存储器存储处理器执行上述音频处理方法时需要调用的计算机程序。

本申请实施例还提供了另一种音频处理装置，如图6所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该音频处理装置可以为包括手机、平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文简称：PDA)、销售图像处理装置(英文全称：Point of Sales，英文简称：POS)、车载电脑等任意图像处理装置，以图像处理装置为手机为例：

图6示出的是与本申请实施例提供的音频处理装置相关的手机的部分结构的框图。参考图6，手机包括：射频(英文全称：Radio Frequency，英文简称：RF)电路610、存储器620、输入单元630、显示单元640、传感器680、音频电路660、无线保真(英文全称：wireless-fidelity，英文简称：Wi-Fi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文简称：LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System ofMobile communication，英文简称：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，英文简称：GPRS)、码分多址(英文全称：Code Division Multiple Access，英文简称：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access，英文简称：WCDMA)、长期演进(英文全称：LongTerm Evolution，英文简称：LTE)、电子邮件、短消息服务(英文全称：Short MessagingService，英文简称：SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(英文全称：LiquidCrystal Display，英文简称：LCD)、有机发光二极管(英文全称：Organic Light-EmittingDiode，英文简称：OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器680，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了Wi-Fi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器680还具有控制执行以上由图4所示的音频处理装置40执行的方法流程。上述实施例中由音频处理装置40所执行的步骤可以基于该图6所示的手机结构。例如，该处理器680通过调用存储器632中的指令，执行以下操作：

通过输入单元630获取目标对象在第一场景下录制的根视频，以及获取驱动生成虚拟形象的音频文件；

通过处理器680对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，其中，该异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据；以及利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。

本申请实施例还提供了另一种实施上述音频处理方法的音频处理装置，如图7所示，图7是本申请实施例提供的一种服务器结构示意图，该服务器1020可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centralprocessingunits，英文简称：CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1020上执行存储介质1030中的一系列指令操作。

服务器1020还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器1020的结构。例如上述实施例中由图4所示的音频处理装置40所执行的步骤可以基于该图7所示的服务器结构。例如，该处理器1022通过调用存储器1032中的指令，执行以下操作：

通过输入输出接口1058用于获取目标对象在第一场景下录制的根视频，以及获取驱动生成虚拟形象的音频文件；

通过该处理器1022对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，其中，该异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据；以及利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。

本申请实施例还提供了一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行上述各个实施例的音频处理方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取目标对象在第一场景下录制的根视频，所述目标对象的唇形保持预设状态，所述预设状态包括完全闭合状态或张开状态，所述完全闭合状态包括：嘴唇保持闭合状态且人脸的俯仰角和偏航角均不超过20度；

获取驱动生成虚拟形象的音频文件；

对所述音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，筛除掉音频文件中夹杂的空白音；

其中，所述异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；

根据音频数据对应的信号属性对所述第一音频数据进行第二过滤处理，获得第二音频数据；

利用所述第二音频数据驱动所述根视频，获得所述目标对象的虚拟形象；

所述根据音频数据对应的信号属性对所述第一音频数据进行第二过滤处理，获得第二音频数据，包括：

根据信号质量对所述第一音频数据进行第二过滤处理，将所述第一音频数据中信号质量不符合预设要求的音频数据滤除，以获得所述第二音频数据；

所述根据信号质量对所述第一音频数据进行第二过滤处理，具体为：

提取所述第一音频数据中声音的波形；

将所述第一音频数据中声音的波形与预置的噪音类型的波形进行比对，将与所述预置的噪音类型的波形匹配的音频数据进行滤除。

2.根据权利要求1所述的音频处理方法，其特征在于，所述根据信号质量对所述第一音频数据进行第二过滤处理，具体为：

提取所述第一音频数据中声音的信噪比和/或波段长度；

将所述第一音频数据中声音的信噪比和/或波段长度达到预设阈值的音频数据进行滤除。

3.根据权利要求1所述的音频处理方法，其特征在于，所述根据音频数据对应的信号属性对所述第一音频数据进行第二过滤处理，获得第二音频数据，替换为：

根据音色识别对所述第一音频数据进行第二过滤处理，将所述第一音频数据中确定为噪音类型的音频数据滤除，以获得所述第二音频数据。

4.根据权利要求3所述的音频处理方法，其特征在于，所述根据音色识别对所述第一音频数据进行第二过滤处理，包括：

提取所述第一音频数据中声音的谐波成分；

将所述第一音频数据中声音的谐波成分的幅度达到预设阈值的音频数据进行滤除。

5.根据权利要求1所述的音频处理方法，其特征在于，所述获得第二音频数据后，所述方法还包括：

对所述第二音频数据进行特征提取以得到所述第二音频数据的特征；基于所述第二音频数据的特征，利用训练好的音频重构神经网络将所述第二音频数据重构为音质接近于无损音频的输出音频数据。

6.一种音频处理装置，其特征在于，包括：

获取模块，用于获取目标对象在第一场景下录制的根视频，以及获取驱动生成虚拟形象的音频文件，所述目标对象的唇形保持预设状态，所述预设状态包括完全闭合状态或张开状态，所述完全闭合状态包括：嘴唇保持闭合状态且人脸的俯仰角和偏航角均不超过20度；

处理模块，用于对所述音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，筛除掉音频文件中夹杂的空白音，其中，所述异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；根据音频数据对应的信号属性对所述第一音频数据进行第二过滤处理，获得第二音频数据；以及利用所述第二音频数据驱动所述根视频，获得所述目标对象的虚拟形象；

所述处理模块具体用于：所述根据音频数据对应的信号属性对所述第一音频数据进行第二过滤处理，获得第二音频数据，包括：

所述处理模块具体用于：所述根据信号质量对所述第一音频数据进行第二过滤处理，具体为：

提取所述第一音频数据中声音的波形；

7.根据权利要求6所述的音频处理装置，其特征在于，所述处理模块具体用于：所述根据信号质量对所述第一音频数据进行第二过滤处理，具体为：

提取所述第一音频数据中声音的信噪比和/或波段长度；

8.根据权利要求6所述的音频处理装置，其特征在于，所述根据音频数据对应的信号属性对所述第一音频数据进行第二过滤处理，获得第二音频数据，替换为：

9.根据权利要求8所述的音频处理装置，其特征在于，所述处理模块具体用于：

提取所述第一音频数据中声音的谐波成分；

10.根据权利要求6所述的音频处理装置，其特征在于，所述处理模块还用于：

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-5中任一项所述的音频处理方法中的步骤。

12.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-5中任一项所述的音频处理方法。