CN117690411A

CN117690411A - 音频处理方法、装置、设备、介质和程序产品

Info

Publication number: CN117690411A
Application number: CN202311691735.9A
Authority: CN
Inventors: 黄杰雄
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-12

Abstract

本申请公开了一种音频处理方法、装置、设备、介质和程序产品，涉及人工智能领域。该方法包括如下步骤：获取目标文本内容对应的第一音频数据和第二音频数据；对所述第一音频内容和所述第二音频内容进行音效同步处理，得到所述第一音频内容对应的第一同步音频和所述第二音频内容对应的第二同步音频；基于所述第一位置标签和所述第二位置标签将所述第一同步音频和所述第二同步音频进行音频拼接，得到音频拼接结果。通过对不同音频内容自动去除混响噪声后得到多个混响效果相同的同步音频，再基于位置标签将多个同步音频进行音频拼接，不仅提高了音频处理效率，还能使得拼接得到的音频拼接结果中的多段音频内容的音效保持一致。

Description

音频处理方法、装置、设备、介质和程序产品

技术领域

本申请实施例涉及人工智能领域，特别涉及一种音频处理方法、装置、设备、介质和程序产品。

背景技术

在获取文本内容对应的多段音频内容后，通常要将多段音频内容拼接后得到用于连贯表述文本内容的完整音频。

在相关技术中，通常需要人工对多段音频内容进行音效调整后拼接得到完整音频。

然而在相关技术中，由于人工处理音频内容的方式较为繁琐，使得音频处理效率较低。

发明内容

本申请实施例提供了一种音频处理方法、装置、设备、介质和程序产品，能够自动对不同音频内容进行音效处理和音频拼接，从而提高音频处理的效率和准确率。所述技术方案如下：

一方面，提供了一种音频处理方法，所述方法包括：

获取目标文本内容对应的第一音频数据和第二音频数据，所述第一音频数据中包括第一音频内容和第一位置标签，所述第二音频数据中包括第二音频内容和第二位置标签，所述第一位置标签用于指示所述第一音频内容对应的第一文本内容在所述目标文本内容中的位置，所述第二位置标签用于指示所述第二音频内容对应的第二文本内容在所述目标文本内容中的位置；

对所述第一音频内容和所述第二音频内容进行音效同步处理，得到所述第一音频内容对应的第一同步音频和所述第二音频内容对应的第二同步音频，其中，所述音效同步处理包括去混响处理，所述去混响处理是指去除音频内容中的混响噪声；

基于所述第一位置标签和所述第二位置标签将所述第一同步音频和所述第二平衡结果进行音频拼接，得到音频拼接结果。

另一方面，提供了一种音频处理装置，所述装置包括：

获取模块，用于获取目标文本内容对应的第一音频数据和第二音频数据，所述第一音频数据中包括第一音频内容和第一位置标签，所述第二音频数据中包括第二音频内容和第二位置标签，所述第一位置标签用于指示所述第一音频内容对应的第一文本内容在所述目标文本内容中的位置，所述第二位置标签用于指示所述第二音频内容对应的第二文本内容在所述目标文本内容中的位置；

处理模块，用于对所述第一音频内容和所述第二音频内容进行音效同步处理，得到所述第一音频内容对应的第一同步音频和所述第二音频内容对应的第二同步音频，其中，所述音效同步处理包括去混响处理，所述去混响处理是指去除音频内容中的混响噪声；

拼接模块，用于基于所述第一位置标签和所述第二位置标签将所述第一同步音频和所述第二同步音频进行音频拼接，得到音频拼接结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在获取目标文本内容对应的第一音频数据和第二音频数据后，通过对第一音频数据中的第一音频内容以及第二音频数据中的第二音频内容进行去混响处理后得到第一同步音频和第二同步音频，基于第一音频数据中的第一位置标签和第二音频数据中的第二位置标签将第一同步音频和第二同步音频进行音频拼接，最终得到音频拼接结果。也即，通过对不同音频内容自动去除混响噪声后得到多个混响效果相同的同步音频，再基于位置标签将多个同步音频进行音频拼接，不仅提高了音频处理效率，还能使得拼接得到的音频拼接结果中的多段音频内容的音效保持一致。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2是本申请一个示例性实施例提供的音频处理方法的流程图；

图3是本申请一个示例性实施例提供的音频处理方法的流程图；

图4是本申请一个示例性实施例提供的去混响模型的训练过程示意图；

图5是本申请一个示例性实施例提供的音频处理方法的流程图；

图6是本申请一个示例性实施例提供的音频处理方式示意图；

图7是本申请一个示例性实施例提供的音频处理装置的结构框图；

图8是本申请另一个示例性实施例提供的音频处理装置的结构框图；

图9是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

需要说明的是，本申请所涉及的信息、数据(包括但不限于目标文本内容、第一音频数据、第二音频数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

应当理解，尽管在本申请可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是智能学科重要的组成部分，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。

首先，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及服务器120、通信网络140和终端100，其中，终端100和服务器120之间通过通信网络140连接。

终端100通过通信网络140向服务器120发送第一音频数据和第二音频数据，其中，第一音频数据中包括第一音频内容和第一位置标签，第二音频数据中包括第二音频内容和第二位置标签，第一位置标签用于指示第一音频内容对应的第一文本内容在目标文本内容中的位置，第二位置标签用于指示第二音频内容对应的第二文本内容在目标文本内容中的位置。

服务器120接收到第一音频数据和第二音频数据后，首先对第一音频内容和第二音频内容进行去混响处理，包括去除第一音频内容中的混响噪声，以及去除第二音频内容中的混响噪声，其次，再对去混响处理后的第一音频内容和第二音频内容进行音量值调整处理，得到音量值相同的第一同步音频和第二同步音频，最终基于第一位置标签和第二位置标签将第一同步音频和第二同步音频进行音频拼接，得到音频拼接结果。将音频拼接结果反馈至终端100显示。

在一些实施例中，终端100也可以直接对第一音频数据和第二音频数据进行去混响处理、音量值调整处理和音频拼接，得到音频拼接结果。

值得注意的是，上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的音频处理方法进行说明，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图2所示，图2是本申请一个示例性实施例提供的音频处理方法的流程图。该方法包括如下步骤。

步骤210，获取目标文本内容对应的第一音频数据和第二音频数据。

其中，第一音频数据中包括第一音频内容和第一位置标签，第二音频数据中包括第二音频内容和第二位置标签，第一位置标签用于指示第一音频内容对应的第一文本内容在目标文本内容中的位置，第二位置标签用于指示第二音频内容对应的第二文本内容在目标文本内容中的位置。

可选地，目标文本内容可以是小说、散文、演讲稿、诗歌、新闻等内容，目标文本内容包含至少一个句子，每个句子以标点符号等隔开，目标文本内容中可以包括中文字、标点符号、数字等字符。

示意性的，第一音频内容用于以音频形式表述目标文本内容中第一文本内容，第二音频内容用于以音频形式表述目标文本内容中第二文本内容。

其中，第一文本内容和第二文本内容是目标文本内容中的不同片段内容。

可选地，目标文本内容中包括对白文本内容和旁白文本内容；或者，目标文本内容中仅包括对白文本内容；或者，目标文本内容中仅包括旁白文本内容。

其中，对白文本内容是指角色对象所说的言语对应的文本内容，旁白文本内容是指解说语对应的文本内容，例如：目标文本内容为“(这一天，小明很早就下了课，正在校门口等待小红一起回家)小明：小红！我在这儿呢，我们一起回家吧。小红：好呀，我们走吧。”，其中，旁白文本内容为“这一天，小明很早就下了课，正在校门口等待小红一起回家”，对白文本内容包括小明对应的对白a“小红！我在这儿呢，我们一起回家吧”，以及小红对应的对白b

“好呀，我们走吧”。

在一个示例中，当目标文本内容中包括对白文本内容和旁白文本内容的情况下，第一音频内容实现为对白文本内容，第二音频内容实现为旁白文本内容；或者，第一音频内容实现为旁白文本内容，第二音频内容实现为对白文本内容。

在另一个示例中，当目标文本内容中包括对白文本内容或者旁白文本内容的情况下，第一音频内容对应的第一文本内容和第二音频内容对应的第二文本内容在目标文本内容中所处的位置不同。

在一些实施例中，位置标签是指音频内容所对应的文本内容在目标文本内容中所处的位置，例如：第一位置标签为00003-00007，第二位置标签为00003-00012，也即，第一位置标签用于表示第一音频内容对应的第一文本内容是目标文本内容中第三章第七句话，第二位置标签用于表示第二音频内容对应的第二文本内容是目标文本内容中第三章第十二句话。其中，目标文本内容中包括多个章节，每个章节中包括多句话。

可选地，以第一音频内容为例(第二音频数据同理可得)，第一音频内容的获取方式包括如下几种方式中至少一种：

1.第一音频内容是由配音主播录制得到的；

2.通过将第一文本内容输入预先训练好的音频生成模型，输出得到第一音频内容，其中，音频生成模型用于根据第一文本内容合成对应的音频内容；

3.预先获取音频内容集合，音频内容集合中包括多个在历史时段内获取的历史音频内容，根据第一文本内容，从音频内容集合中选择与第一文本内容中字符对应的音频内容，组合得到第一音频内容。

值得注意的是，上述关于第一音频内容的获取方式仅为示意性的举例，本申请实施例对此不加以限定。

可选地，以第一位置标签为例(第二位置标签同理可得)，第一位置标签的获取方式包括如下几种方式中至少一种：

1.第一文本内容在目标文本内容中标注有对应的位置标签，在得到第一文本内容对应的第一音频内容后，将第一文本内容对应的位置标签作为第一位置标签；

2.在获取第一文本内容对应的第一音频内容后，将第一音频内容和目标文本内容输入预先训练得到的切分模型，输出得到第一音频内容对应的第一位置标签，其中，切分模型用于对目标文本内容进行语句切分，得到语句切分结果，从而确定第一音频内容在语句切分结果中对应的切分文本语句，将切分为本语句在语句切分结果中所处的位置作为第一位置标签。

值得注意的是，上述关于第一位置标签的获取方式仅为示意性的举例，本申请实施例对此不加以限定。

可选地，第一音频内容和第二音频内容的音频来源相同，例如：第一音频内容和第二音频内容均由配音主播录制得到；或者，第一音频内容和第二音频内容的音频来源不同，例如：第一音频内容由配音主播录制得到，第二音频内容由音频生成模型自动合成得到。

步骤220，对第一音频内容和第二音频内容进行音效同步处理，得到第一音频内容对应的第一同步音频和第二音频内容对应的第二同步音频。

其中，音效同步处理包括去混响处理，去混响处理是指去除音频内容中的混响噪声。

在一些实施例中，音效同步处理用于将第一音频内容和第二音频内容的混响效果保持一致。

示意性的，以第一音频内容为例，在获取第一音频内容后，由于第一音频受当时录制环境的影响，会存在混响噪声(也可能不存在混响噪声)，因此，去混响处理是指去除第一音频内容中的混响噪声，得到第一音频内容对应的第一干声音频，同理可得，去混响处理包括去除第二音频内容中的混响噪声，得到第二音频内容对应的第二干声音频。

可选地，去混响处理方式包括如下几种方式中至少一种：

1.预先训练得到去混响模型，将第一音频内容和第二音频内容输入去混响模型，输出得到第一音频内容对应的第一干声音频，以及第二音频内容对应的第二干声音频；

2.预先获取混响噪声库，混响噪声库中包括多种候选混响噪声，将第一音频内容与第二音频内容与混响噪声库进行匹配，确定第一音频内容中的第一混响噪声和第二音频内容中的第二混响噪声，从而去除第一音频内容中的第一混响噪声，去除第二音频内容中的第二混响噪声；

3.由设计人员手动对第一音频内容和第二音频内容进行去混响处理。

值得注意的是，上述关于去混响处理的方式仅为示意性的举例，本申请实施例对此不加以限定。

在一个示例中，当通过去混响处理得到第一音频内容对应的第一干声音频以及第二音频内容对应的第二干声音频后，对第一干声音频和第二干声音频加入相同类型的混响音效，从而得到第一混响音频和第二混响音频。

步骤230，基于第一位置标签和第二位置标签将第一同步音频和第二同步音频进行音频拼接，得到音频拼接结果。

示意性的，音频拼接是指将前一个同步音频播放结束时刻与后一个同步音频播放起始时刻进行连接，从而能够连续播放多个同步音频。

可选地，将第一同步音频的结束时刻与第二同步音频的起始时刻连接，或者，将第二同步音频的结束时刻与第一同步音频的起始时刻连接。

可选地，音频连接包括相邻的两个同步音频之间没有时间间隔，即前一个同步音频的结束时刻即为后一个同步音频的起始时刻；或者，音频连接包括在相邻的两个同步音频之间加入一个固定时间间隔，例如：0.3秒，也即，当前一个同步音频播放结束开始，经过0.3秒后开始播放后一个同步音频。

在一些实施例中，根据第一位置标签和第二位置标签之间的排列顺序，将第一同步音频与第二同步音频进行音频拼接，从而使得音频拼接结果中各个同步音频的排列顺序，与其对应的文本内容在目标文本内容中所对应的位置相同，例如：第一同步音频对应的第一位置标签为00003-00007，第二同步音频对应的第二位置标签为00003-00012，因此，在最终音频拼接结果中，第一同步音频处于第三章第七句的位置，第二同步音频处于第三章第十二句的位置，与第一同步音频对应的第一文本内容在目标文本内容中的位置对应，并且与第二同步音频对应的第二文本内容在目标文本内容中的位置对应。

综上所述，本申请提供的方法，在获取目标文本内容对应的第一音频数据和第二音频数据后，通过对第一音频数据中的第一音频内容以及第二音频数据中的第二音频内容进行去混响处理后得到第一同步音频和第二同步音频，基于第一音频数据中的第一位置标签和第二音频数据中的第二位置标签将第一同步音频和第二同步音频进行音频拼接，最终得到音频拼接结果。也即，通过对不同音频内容自动去除混响噪声后得到多个混响效果相同的同步音频，再基于位置标签将多个同步音频进行音频拼接，不仅提高了音频处理效率，还能使得拼接得到的音频拼接结果中的多段音频内容的音效保持一致。

值得注意的是，第一音频数据和第二音频数据仅为泛指，实际应用过程中目标文本内容可对应多个不同的音频数据。

在一些实施例中，服务器中存在能够进行去混响处理的应用程序或模型，图3是本申请一个示例性实施例提供的音效生成模型的训练方法流程图，也即，步骤220中还包括步骤221和步骤222，该方法包括如下步骤。

步骤221，对第一音频内容和第二音频内容进行去混响处理，得到第一音频内容对应的第一干声音频和第二音频内容对应的第二干声音频。

可选地，对第一音频内容和第二音频内容依次进行去混响处理，得到第一干声音频和第二干声音频；或者，对第一音频内容和第二音频内容同时进行去混响处理，得到第一干声音频和第二干声音频。

可选地，对第一音频内容和第二音频内容中的一个或者多个进行去混响处理。

在一些实施例中，将第一音频内容和第二音频内容输入预先训练得到的去混响模型，输出得到第一干声音频和第二干声音频。

示意性的，预先训练得到一个神经网络模型作为去混响模型，从而将第一音频内容和第二音频内容输入该去混响模型，输出得到第一音频内容对应的第一去混响预测结果以及第二音频内容对应的第二去混响预测结果，从而将第一去混响预测结果作为第一干声音频，将第二去混响预测结果作为第二干声音频。

可选地，去混响模型包括卷积神经网络模型(Convolutional Neural Network，CNN)、用于图像分割的卷积神经网络(U-Net)模型、循环神经网络(Recurrent NeuralNetwork，RNN)模型、变换器(Transformer)模型、生成对抗网络(Generative AdversarialNetwork，GAN)等模型类型中至少一种。

下面，对去混响模型的训练过程进行详细说明。

在一些实施例中，获取样本混响音频，样本混响音频是对样本干声音频内容叠加混响效果后得到的音频内容；将样本混响音频输入样本去混响模型，输出得到干声预测结果；基于样本干声音频内容与干声预测结果之间的差异，对样本去混响模型进行训练，得到去混响模型。

本实施例中，首先初始化样本去混响模型的模型结构，其次，在获取授权的情况下，获取样本干声音频，以及混响效果库。其中，混响效果库中包括多个候选混响音效，从中随机选中至少一种候选混响音效加入样本干声音频中，从而得到样本干声音频对应的样本混响音频。

将样本混响音频输入样本去混响模型中，输出得到样本混响音频对应的干声预测结果，根据干声预测结果和样本干声音频之间的差异，对样本去混响模型的模型参数进行梯度更新，使其达到收敛，最终将达到收敛预期的样本去混响模型作为训练后的去混响模型。

本实施例中，通过损失函数计算干声预测结果和样本干声音频之间的损失值，从而根据损失值更新样本去混响模型的模型参数。

可选地，损失函数包括平方误差损失函数(L2损失)，回归损失函数(L1损失)、交叉熵损失函数等损失函数类型中至少一种。

示意性的，请参考图4，其示出了本申请一个示例性实施例提供的去混响模型的训练过程示意图，如图4所示，当前获取样本干声音频401，对样本干声音频401叠加混响效果402后，得到样本混响音频403，将样本混响音频403输入样本去混响模型404，输出得到干声预测结果405，通过L2损失函数计算干声预测结果405和样本干声音频401之间的平方误差损失，对样本去混响模型404进行训练，得到训练后的去混响模型406。

步骤222，对第一干声音频和第二干声音频进行音量值调整处理，得到第一干声音频对应的第一同步音频和第二干声音频对应的第二同步音频。

其中，音量值调整处理是指调整音频内容中的音频节点的音量值，第一同步音频和第二同步音频分别对应的音量峰值相同。

示意性的，音频节点是音频内容中的采样点，用于代表音频信号在特定时间上的幅度值，幅度值越高，音频节点所对应的音量值越高，反之，则越低。

在一些实施例中，首先，以第一音频内容为例，第一音频内容中包括多个第一音频节点，因此，从中确定音量值最大的第一音频节点，将其对应的音量值确定为第一音频内容的音量峰值，同理可得第二音频内容中的音量峰值。其次，预先设置一个调整音量峰值，将第一音频内容中的音量峰值和第二音频内容中的音量峰值调整为该调整音量峰值，最终，根据第一音频内容中原音量峰值与调整音量峰值之间的比例关系，调整第一音频内容中其他第一音频节点所对应的音量值，并且，根据第二音频内容中原音量峰值与调整音量峰值之间的比例关系，调整第二音频内容中其他第二音频节点对应的音量值。

在另一些实施例中，预先训练得到音量调整模型，从而将经过去混响处理后的第一干声音频和第二干声音频输入音量调整模型，输出得到第一同步音频和第二同步音频。

示意性的，第一同步音频和第二同步音频的音量峰值相同，并且，第一同步音频中的混响音效与第二同步音频中的混响音效相同。

在一些实施例中，获取第一干声音频中的多个第一音频节点以及第二干声音频中的多个第二音频节点，多个第一音频节点中包括第一峰值节点，第一峰值节点对应第一音量峰值，多个第二音频节点中包括第二峰值节点，第二峰值节点对应第二音量峰值；获取预设调整音量峰值，调整音量峰值用于调整第一音量峰值和第二音量峰值；基于调整音量峰值对第一音量峰值和第二音量峰值进行调整，得到第一音量峰值对应的第一调整峰值，以及第二音量峰值对应的第二调整峰值，第一调整峰值和第二调整峰值相同；基于第一音量峰值和调整音量峰值之间的比例关系对除第一峰值节点外的其他第一音频节点进行音量值调整，得到第一同步音频；基于第二音量峰值和调整音量峰值之间的比例关系对除第二峰值节点外的其他第二音频节点进行音量值调整，得到第二同步音频。

本实施例中，首先，通过对第一干声音频和第二干声音频进行音频节点采样，从而得到第一干声音频中包含的多个第一音频节点(例如：T11，T12，…，T1N)，以及第二干声音频中包含的多个第二音频节点(例如：T21，T22，…，T2M)，其中，N和M相同，或者不同，对此不限定。

本实施例中，多个第一音频节点分别对应有音量值，音量值代表着音频节点所对应的音量能量。其中，多个音量值中包括一个最大值，因此，将音量值中的最大值作为第一音量峰值，将第一音量峰值对应的第一音频节点作为第一峰值节点。同理可得多个第二音频节点分别对应的音量值中的第二音量峰值，以及第二音量峰值对应的第二峰值节点。

本实施例中，预先获取一个调整音量峰值，用于对第一音量峰值和第二音量峰值进行调整，其中，调整音量峰值为一个浮点数，可由用户自行设置，例如：设置为0.5。当调整音量峰值设置为0.5的情况下，其对应的分贝计算值为-6分贝(dB)，对于音频内容来说，-6Db在对音量值放大操作和缩小操作都具有一定的操作控件，并不会因为放大操作或者缩小操作而导致音量爆炸或者音量过小而无法被用户听到，因此设置为0.5较为合适。其中，音量爆炸也可称为音量爆幅，用于表示音频内容由于声音过大而被破坏。

可选地，在获取调整音量峰值后，将第一音量峰值和第二音量峰值直接调整为调整音量峰值，例如：调整音量峰值为0.5，第一音量峰值为0.8，第二音量峰值为0.9，将第一音量峰值和第二音量峰值都直接调整为0.5；或者，预先获取调整比例，根据调整比例和调整音量峰值对第一音量峰值和第二音量峰值进行音量值调整，例如：第一音量峰值为0.8，第二音量峰值为0.9，调整音量峰值为0.6，调整比例为80％，因此，计算调整音量峰值和调整比例之间的乘积结果0.6*80％＝0.48，将第一音量峰值和第二音量峰值都调整为0.48。最终，第一调整峰值和第二调整峰值所对应的音量值相同。

在得到第一调整峰值和第二调整峰值后，根据调整音量峰值与第一音量峰值之间的比例关系，对第一音频内容中除第一峰值节点外其他第一音频节点所对应的音量值进行调整，其调整公式可参考如下公式一。

公式一：Vn’＝Vn/音量峰值*调整音量峰值

其中，Vn’表示调整后的音频节点，Vn表示调整前的音频节点，n为正整数，且n与第一峰值节点/第二音频节点不同。

最终，根据第一峰值节点对应的第一调整峰值和其他第一音频节点经过上述方式进行音量值调整后得到的音频音量值得到第一同步音频，根据第二峰值节点对应的第二调整峰值和其他第二音频节点经过上述方式进行音量值调整后得到的音频音量值得到第二同步音频。

本实施例中，在得到第一干声音频和第二干声音频后，对第一干声音频和第二干声音频加入混响延迟参数，从而得到第一干声音频对应的第一混响音频和第二干声音频对应的第二混响音频，其中，第一混响音频对应的混响延迟参数与第二混响音频对应的混响延迟参数相同，因此，第一混响音频中的混响效果与第二混响音频中的混响效果保持一致。

示意性的，根据第一位置标签和第二位置标签对应在目标文本内容中的排列顺序，将第一同步音频和第二同步音频连接起来，得到音频拼接结果，其中，音频拼接结果能够连续播放多个同步音频。

在一些实施例中，获取第一同步音频在音频拼接结果中的第一起始时刻和第一结束时刻，第一起始时刻是在音频拼接结果播放过程中第一同步音频开始播放的时刻，第一结束时刻是在音频拼接结果播放过程中第一同步音频结束播放的时刻；获取第二同步音频在音频拼接结果中的第二起始时刻和第二结束时刻，第二起始时刻是在音频拼接结果播放过程中第二同步音频开始播放的时刻，第二结束时刻是在音频拼接结果播放过程中第二同步音频结束播放的时刻；基于第一起始时刻、第一结束时刻、第二起始时刻和第二结束时刻得到音频文本数据。

本实施例中，在得到音频拼接结果后，输出不同章节所对应的长音频文件，将其命名为：章节数.mp3，例如：例如：第3章.mp3，第4章.mp3。

在得到长音频文件后，该需要在长音频文件所对应的文本内容中记录单个章节中每个同步音频所对应的起始时刻和结束时刻，便于后续进行音效处理，例如：00003-00007|<label-role>name＝“领导”user＝“主播A”emotion＝“生气”time＝(50.50，55.00)>“这个事情一定要给我严查到底！”</label-role>。

示例中，00003-00007表示第三章第七句，time表示该句子在长音频文件中对应的时间位置，示例句子的起始时间为50.50秒，结束时间为55.00秒。

在一些实施例中，对生成的音频文本数据可进行音效处理。

示意性的，通过获取具有音效标签的文本数据，根据音效标签获取对应的音效音频，并基于文本数据中所指示的起止时间戳，自动将音效音频叠加至文本音频中，得到具有音效的文本音频。

可选地，获取第一音效音频的方式包括但不限于如下几种：

(1)直接从音效库中选择与第一音效标签匹配的音效作为第一音效音频。

(2)将第一文本数据作为输入量，输入至音效生成模型中，由音效生成模型生成第一音效音频。

(3)同时基于音效库和音效生成模型确定第一音效音频。

(4)首先基于第一音效标签从音效库中选择匹配的音效作为第一音效音频，当音效库中不存在匹配的音效时，再通过音效生成模型生成第一音效音频。

本实施例提供的方法，通过对第一音频内容和第二音频内容进行去混响处理和音量值调整处理后，使得处理后的第一同步音频和第二同步音频的混响效果一致，并且音量峰值也一致，提高了后续音频拼接结果的播放效果。

本实施例提供的方法，通过预先训练得到的去混响模型对音频内容进行去混响处理，提高了去混响处理效率。

本实施例提供的方法，通过对样本干声音频加入混响音效后输入样本去混响模型对其进行训练，能够提高模型训练的准确度以及训练效率。

本实施例提供的方法，在获取目标文本内容对应的第一音频数据和第二音频数据后，通过对第一音频数据中的第一音频内容以及第二音频数据中的第二音频内容进行去混响处理和音量值调整处理后得到第一同步音频和第二同步音频，基于第一音频数据中的第一位置标签和第二音频数据中的第二位置标签将第一同步音频和第二同步音频进行音频拼接，最终得到音频拼接结果。也即，通过对不同音频内容自动去除混响噪声后再进行音量值调整处理，从而得到音量值相同的多个同步音频，再基于位置标签将多个同步音频进行音频拼接，不仅提高了音频处理效率，还能使得拼接得到的音频拼接结果中的多段音频内容的音效保持一致。

本实施例提供的方法，通过记录音频拼接结果中各同步音频的起始时刻和结束时刻，能够明确各个同步音频在整段音频拼接结果中所处的位置，便于后续的音频处理，提高音频处理效率。

在一些实施例中，第一音频数据中包括多段对白音频数据，第二音频数据中包括旁白音频数据，示意性的，请参考图5，其示出了本申请一个示例性实施例提供的音频处理方法流程图，也即，步骤210中还包括步骤211至步骤217，如图5所示，该方法包括如下步骤。

步骤211，获取目标文本内容对应的多个对白文本数据和旁白文本数据。

对白文本数据中包括多个对白角色分别对应的角色信息要求和对白文本内容，角色信息要求包括角色名、角色性别、角色年龄、角色特点中至少一种。

本实施例中，在目标文本内容中包括多段不同文本内容类型的文本内容，包括对白文本内容和旁白文本内容，对白文本内容标注有第一位置标签，旁白音频数据中包括旁白文本内容和第二位置标签。

其中，对白文本内容需由配音主播以录制形式录制得到其对应的音频内容，称为对白音频内容，旁白文本内容既可以由配音主播以录制形式录制得到其对应的音频内容，也可以通过预先训练得到的旁白生成模型自动合成旁白文本内容对应的音频内容。

示意性的，对白文本数据a的数据格式如下：

00003-00007|<label-role name＝“领导”emotion＝“生气”>“这个事情一定要给我严查到底！”</label-role>

其中，“这个事情一定要给我严查到底！”表示对白文本内容，“00003-00007”表示对白文本内容在目标文本内容中所处的位置，即位置标签，“name”表示角色名、“emotion”表示角色情绪，也称为角色特点。

对白文本数据b的数据格式如下：

00003-00013|<label-role name＝“老板娘”emotion＝“恐惧”>“啊，这可咋整啊！”</label-role>

其中，“啊，这可咋整啊！”表示对白文本内容，“00003-00013”表示对白文本内容在目标文本内容中所处的位置，即位置标签，“name”表示角色名、“emotion”表示角色情绪，也称为角色特点。

除此以外，对白文本数据中还包括目标文本内容中角色对象对应的信息要求列表，列表内容如下：

{领导，男，青年，生气；老板娘，女，中年，焦虑哀怨}

也即，角色名包括领导和老板娘，角色性别包括男和女，角色情绪包括生气和焦虑哀怨，也即，角色特点包括生日和焦虑哀怨。

在一个可选地方案中，预先训练一个文本处理模型，将目标文本内容输入文本处理模型，输出得到上述的对白文本数据和旁白文本数据。

步骤212，获取多个主播信息数据。

其中，多个主播信息数据中包括多个配音主播分别对应的配音能力信息。

示意性的，服务器中预先存储有多个已注册主播帐号的配音主播分别对应的主播信息数据。

可选地，配音能力信息包括配音主播具备的配音音色、主播性别等信息类型中至少一种。

本实施例中，将配音音色划分为少年音色、青年音色、中年音色和老年音色。将主播性别划分为男主播和女主播，因此，主播信息数据可参考如下表一。

表一

其中，每个主播类别下包含多个标注有配音主播对应的主播编号(例如：主播19)，一个配音主播对应一个固定的主播编号，同一个配音主播可以录制不同角色对应的对白文本内容(例如：同时录制青年音色的对白文本内容和中年音色的对白文本内容)，但同一个角色对象对应的对白文本内容只能由同一个配音主播进行录制。

步骤213，基于角色信息要求从多个主播信息数据中确定与多个对白文本数据分别匹配的配音主播，并将多个对白文本数据分别发送至配音主播对应的主播终端。

本实施例中，根据上述角色信息要求，从多个主播信息数据中确定与对白文本数据匹配的配音主播，并将对白文本内容和角色信息要求发送至配音主播对应的主播终端。

在一些实施例中，基于角色性别和角色年龄从主播信息数据中确定与角色信息要求匹配的多个候选配音主播；从多个候选配音主播中确定配音主播。

本实施例中，由于多个配音主播基于上述表一进行分类，因此，根据对白文本内容所对应的角色性别和角色年龄，从上述主播信息列表中确定与角色性别以及角色年龄相符的多个候选配音主播，并从中随机选择至少一个候选配音主播作为录制对白文本内容的配音主播。

在一个示例中，确定配音主播的过程也可以由工作人员手动进行选择。

步骤214，获取多个主播终端发送的对白音频内容。

其中，对白音频内容是由配音主播以录制形式得到的音频内容。

示意性的，在确定了配音主播后，将对白文本数据发送至主播终端，因此配音主播可通过在主播终端中登录主播帐号，以录制形式朗读对白文本内容，从而得到对白文本内容所对应的音频内容，再将其上传至服务器进行审核，审核通过后，将其音频内容作为对白音频内容。

其中，配音主播根据角色特点以及对白文本内容进行对应的录制，在录制过程中，每录制一句对白文本，提交一次录音音频，或者，录制完多句对白文本后，以章节为单位提交录制音频，例如：主播A提交某一段录制音频时，选择第1章到第3章的对白内容，则系统默认主播A提交的音频包含了这个范围的对白朗读。

在一些实施例中，获取配音主播在历史时间范围内录制得到的历史音频内容；从历史音频内容中确定与对白文本内容对应的历史配音内容；将历史配音内容输入预先训练得到的对白生成模型，输出得到对白音频内容，其中，对白音频内容对应的朗读音调与历史配音内容对应的朗读音调相同。

在另一个示例中，对白音频内容可通过将配音主播的历史音频内容合成得到。首先，在确定进行录制的配音主播后，获取配音主播在历史时间范围内录制得到的历史音频内容，从历史音频内容中确定出与对白文本内容中的字符对应的历史配音内容，包括单字对应的配音内容、词语对应的配音内容以及短句对应的配音内容。

将历史配音内容输入预先训练得到的对白生成模型，从而输出得到对白音频内容。并且，对白音频内容中各字符的音调与历史配音内容的音调保持一致。

步骤215，将旁白文本数据输入预先训练得到的旁白生成模型，输出得到旁白音频内容。

示意性的，对于旁白文本数据，将旁白文本数据输入预先训练好的神经网络模型作为旁白生成模型，自动生成得到旁白文本内容对应的旁白音频内容。

步骤216，基于第一位置标签、多个主播信息数据和对白音频内容得到对白音频数据。

本实施例中，根据第一位置标签、主播名称以及对白音频内容，整合得到对白音频数据，其数据格式如下：主播11_00003-00007.mp3。

步骤217，基于第二位置标签和旁白音频内容得到旁白文本数据。

本实施例中，根据第二位置标签以及旁白音频内容，整合得到旁白音频数据，其数据格式如下：旁白_00003-00001.mp3。

本实施例提供的方法，能够在通过自动分配配音主播进行录制得到对白文本内容，从而提高音频处理效率。

示意性的，请参考图6，其示出了本申请一个示例性实施例提供的音频处理方式示意图，如图6所示，当前包括如下内容。

获取对白文本数据601，通过自动分配配音主播的方式，将对白文本数据601分配至多个不同的配音主播602，其中，每个配音主播通过主播终端603进行录制后，生成对白音频内容604，将对白音频内容604和旁白音频内容605进行音频同步处理和音频拼接，从而最终得到音频拼接结果。

图7是本申请一个示例性实施例提供的音频处理装置的结构框图，如图7所示，该装置包括如下部分。

获取模块710，用于获取目标文本内容对应的第一音频数据和第二音频数据，所述第一音频数据中包括第一音频内容和第一位置标签，所述第二音频数据中包括第二音频内容和第二位置标签，所述第一位置标签用于指示所述第一音频内容对应的第一文本内容在所述目标文本内容中的位置，所述第二位置标签用于指示所述第二音频内容对应的第二文本内容在所述目标文本内容中的位置；

处理模块720，用于对所述第一音频内容和所述第二音频内容进行音效同步处理，得到所述第一音频内容对应的第一同步音频和所述第二音频内容对应的第二同步音频，其中，所述音效同步处理包括去混响处理，所述去混响处理是指去除音频内容中的混响噪声；

拼接模块730，用于基于所述第一位置标签和所述第二位置标签将所述第一同步音频和所述第二同步音频进行音频拼接，得到音频拼接结果。

在一些实施例中，如图8所示，所述音效同步处理中还包括音量值调整处理，所述音量值调整处理是指调整音频内容中的音频节点的音量值；

所述处理模块720，包括：

去混响单元721，用于对所述第一音频内容和所述第二音频内容进行去混响处理，得到所述第一音频内容对应的第一干声音频和所述第二音频内容对应的第二干声音频；

调整单元722，用于对所述第一干声音频和所述第二干声音频进行音量值调整处理，得到所述第一干声音频对应的第一同步音频和所述第二干声音频对应的第二同步音频，所述第一同步音频和所述第二同步音频分别对应的音量峰值相同。

在一些实施例中，所述去混响单元721，还用于将所述第一音频内容和所述第二音频内容输入预先训练得到的去混响模型，输出得到所述第一干声音频所述第二干声音频。

在一些实施例中，所述去混响单元721，还用于获取样本混响音频，所述样本混响音频是对样本干声音频内容叠加混响效果后得到的音频内容；将所述样本混响音频输入样本去混响模型，输出得到干声预测结果；基于所述样本干声音频内容与所述干声预测结果之间的差异，对所述样本去混响模型进行训练，得到所述去混响模型。

在一些实施例中，所述调整单元722，还用于获取所述第一干声音频中的多个第一音频节点以及所述第二干声音频中的多个第二音频节点，所述多个第一音频节点中包括第一峰值节点，所述第一峰值节点对应第一音量峰值，所述多个第二音频节点中包括第二峰值节点，所述第二峰值节点对应第二音量峰值；获取预设调整音量峰值，所述调整音量峰值用于调整所述第一音量峰值和所述第二音量峰值；基于所述调整音量峰值对所述第一音量峰值和所述第二音量峰值进行调整，得到所述第一音量峰值对应的第一调整峰值，以及所述第二音量峰值对应的第二调整峰值，所述第一调整峰值和所述第二调整峰值相同；基于所述第一音量峰值和所述调整音量峰值之间的比例关系对除所述第一峰值节点外的其他第一音频节点进行音量值调整，得到所述第一同步音频；基于所述第二音量峰值和所述调整音量峰值之间的比例关系对除所述第二峰值节点外的其他第二音频节点进行音量值调整，得到所述第二同步音频。

在一些实施例中，所述获取模块710，用于获取所述第一同步音频在所述音频拼接结果中的第一起始时刻和第一结束时刻；获取所述第二同步音频在所述音频拼接结果中的第二起始时刻和第二结束时刻；基于所述第一起始时刻、第一结束时刻、第二起始时刻和第二结束时刻得到音频文本数据。

在一些实施例中，所述第一音频数据中包括多段对白音频数据，所述第二音频数据中包括旁白音频数据；

所述获取模块710，还用于获取所述目标文本内容对应的多个对白文本数据和旁白文本数据，所述对白文本数据中包括多个对白角色分别对应的角色信息要求和对白文本内容，所述角色信息要求包括角色名、角色性别、角色年龄、角色特点中至少一种，所述对白文本内容标注有所述第一位置标签，所述旁白音频数据中包括旁白文本内容和所述第二位置标签；获取多个主播信息数据，所述多个主播信息数据中包括多个配音主播分别对应的配音能力信息；基于所述角色信息要求从所述多个主播信息数据中确定与所述多个对白文本数据分别匹配的配音主播，并将所述多个对白文本数据分别发送至所述配音主播对应的主播终端；获取所述主播终端发送的所述对白音频内容，所述对白音频内容是由配音主播以录制形式得到的音频内容；将所述旁白文本数据输入预先训练得到的旁白生成模型，输出得到旁白音频内容；基于所述第一位置标签、所述多个主播信息数据和所述对白音频内容得到所述对白音频数据；基于所述第二位置标签和所述旁白音频内容得到所述旁白文本数据。

在一些实施例中，所述主播信息数据中包括多个配音主播分别对应的性别标签和音色标签；

所述获取模块710，还用于基于所述角色性别和所述角色年龄从所述主播信息数据中确定与所述角色信息要求匹配的多个候选配音主播；从多个候选配音主播中确定所述配音主播。

在一些实施例中，所述获取模块710，还用于获取所述配音主播在历史时间范围内录制得到的历史音频内容；从所述历史音频内容中确定与所述对白文本内容对应的历史配音内容；将所述历史配音内容输入预先训练得到的对白生成模型，输出得到所述对白音频内容，其中，所述对白音频内容对应的朗读音调与历史配音内容对应的朗读音调相同。

综上所述，本申请提供的音频处理装置，在获取目标文本内容对应的第一音频数据和第二音频数据后，通过对第一音频数据中的第一音频内容以及第二音频数据中的第二音频内容进行去混响处理后得到第一同步音频和第二同步音频，基于第一音频数据中的第一位置标签和第二音频数据中的第二位置标签将第一同步音频和第二同步音频进行音频拼接，最终得到音频拼接结果。也即，通过对不同音频内容自动去除混响噪声后得到多个混响效果相同的同步音频，再基于位置标签将多个同步音频进行音频拼接，不仅提高了音频处理效率，还能使得拼接得到的音频拼接结果中的多段音频内容的音效保持一致。

需要说明的是：上述实施例提供的音频处理装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9示出了本申请一个示例性实施例提供的计算机设备900的结构框图。该计算机设备900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、9核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，计算机设备900还包括其他组件，本领域技术人员可以理解，图9中示出的结构并不构成对计算机设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

基于所述第一位置标签和所述第二位置标签将所述第一同步音频和所述第二同步音频进行音频拼接，得到音频拼接结果。

2.根据权利要求1所述的方法，其特征在于，所述音效同步处理中还包括音量值调整处理，所述音量值调整处理是指调整音频内容中的音频节点的音量值；

所述对所述第一音频内容和所述第二音频内容进行音效同步处理，得到所述第一音频内容对应的第一同步音频和所述第二音频内容对应的第二同步音频，包括：

对所述第一音频内容和所述第二音频内容进行去混响处理，得到所述第一音频内容对应的第一干声音频和所述第二音频内容对应的第二干声音频；

对所述第一干声音频和所述第二干声音频进行音量值调整处理，得到所述第一干声音频对应的第一同步音频和所述第二干声音频对应的第二同步音频，所述第一同步音频和所述第二同步音频分别对应的音量峰值相同。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一音频内容和所述第二音频内容进行去混响处理，得到所述第一音频内容对应的第一干声音频和所述第二音频内容对应的第二干声音频，包括：

将所述第一音频内容和所述第二音频内容输入预先训练得到的去混响模型，输出得到所述第一干声音频所述第二干声音频。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一音频内容和所述第二音频内容输入预先训练得到的去混响模型，输出得到所述第一去混响音频所述第二去混响音频之前，还包括：

获取样本混响音频，所述样本混响音频是对样本干声音频内容叠加混响效果后得到的音频内容；

将所述样本混响音频输入样本去混响模型，输出得到干声预测结果；

基于所述样本干声音频内容与所述干声预测结果之间的差异，对所述样本去混响模型进行训练，得到所述去混响模型。

5.根据权利要求2所述的方法，其特征在于，所述对所述第一干声音频和所述第二干声音频进行音量值调整处理，得到所述第一干声音频对应的第一同步音频和所述第二干声音频对应的第二同步音频，包括：

获取所述第一干声音频中的多个第一音频节点以及所述第二干声音频中的多个第二音频节点，所述多个第一音频节点中包括第一峰值节点，所述第一峰值节点对应第一音量峰值，所述多个第二音频节点中包括第二峰值节点，所述第二峰值节点对应第二音量峰值；

获取预设调整音量峰值，所述调整音量峰值用于调整所述第一音量峰值和所述第二音量峰值；

基于所述调整音量峰值对所述第一音量峰值和所述第二音量峰值进行调整，得到所述第一音量峰值对应的第一调整峰值，以及所述第二音量峰值对应的第二调整峰值，所述第一调整峰值和所述第二调整峰值相同；

基于所述第一音量峰值和所述调整音量峰值之间的比例关系对除所述第一峰值节点外的其他第一音频节点进行音量值调整，得到所述第一同步音频；

基于所述第二音量峰值和所述调整音量峰值之间的比例关系对除所述第二峰值节点外的其他第二音频节点进行音量值调整，得到所述第二同步音频。

6.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述第一位置标签和所述第二位置标签将所述第一同步音频和所述第二同步音频进行音频拼接，得到音频拼接结果之后，还包括：

获取所述第一同步音频在所述音频拼接结果中的第一起始时刻和第一结束时刻，所述第一起始时刻是在所述音频拼接结果播放过程中所述第一同步音频开始播放的时刻，所述第一结束时刻是在所述音频拼接结果播放过程中所述第一同步音频结束播放的时刻；

获取所述第二同步音频在所述音频拼接结果中的第二起始时刻和第二结束时刻，所述第二起始时刻是在所述音频拼接结果播放过程中所述第二同步音频开始播放的时刻，所述第二结束时刻是在所述音频拼接结果播放过程中所述第二同步音频结束播放的时刻；

基于所述第一起始时刻、第一结束时刻、第二起始时刻和第二结束时刻得到音频文本数据。

7.根据权利要求1至3任一所述的方法，其特征在于，所述第一音频数据中包括多段对白音频数据，所述第二音频数据中包括旁白音频数据；

所述获取目标文本内容对应的第一音频数据和第二音频数据，包括：

获取所述目标文本内容对应的多个对白文本数据和旁白文本数据，所述对白文本数据中包括多个对白角色分别对应的角色信息要求和对白文本内容，所述角色信息要求包括角色名、角色性别、角色年龄、角色特点中至少一种，所述对白文本内容标注有所述第一位置标签，所述旁白音频数据中包括旁白文本内容和所述第二位置标签；

获取多个主播信息数据，所述多个主播信息数据中包括多个配音主播分别对应的配音能力信息；

基于所述角色信息要求从所述多个主播信息数据中确定与所述多个对白文本数据分别匹配的配音主播，并将所述多个对白文本数据分别发送至所述配音主播对应的主播终端；

获取所述主播终端发送的所述对白音频内容，所述对白音频内容是由配音主播以录制形式得到的音频内容；

将所述旁白文本数据输入预先训练得到的旁白生成模型，输出得到旁白音频内容；

基于所述第一位置标签、所述多个主播信息数据和所述对白音频内容得到所述对白音频数据；

基于所述第二位置标签和所述旁白音频内容得到所述旁白文本数据。

8.根据权利要求7所述的方法，其特征在于，所述主播信息数据中包括多个配音主播分别对应的性别标签和音色标签；

所述基于所述角色信息要求从所述多个主播信息数据中确定与所述多个对白文本数据分别匹配的配音主播，包括：

基于所述角色性别和所述角色年龄从所述主播信息数据中确定与所述角色信息要求匹配的多个候选配音主播；

从多个候选配音主播中确定所述配音主播。

9.根据权利要求7所述的方法，其特征在于，所述获取多个主播终端发送的所述对白音频内容，包括：

获取所述配音主播在历史时间范围内录制得到的历史音频内容；

从所述历史音频内容中确定与所述对白文本内容对应的历史配音内容；

将所述历史配音内容输入预先训练得到的对白生成模型，输出得到所述对白音频内容，其中，所述对白音频内容对应的朗读音调与历史配音内容对应的朗读音调相同。

10.一种音频处理装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的音频处理方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至9任一所述的音频处理方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一所述的音频处理方法。