CN116978381A

CN116978381A - 音频数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN116978381A
Application number: CN202310460368.5A
Authority: CN
Inventors: 方鹏; 刘恺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-10-31

Abstract

本申请涉及一种音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品，涉及语音识别技术。方法包括：对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息，文本时长信息为原始音频文本中各单词的时间节点信息；对原始音频文本进行文本修改处理，得到修改目标文本；对比原始音频文本和修改目标文本，得到文本修改信息；基于文本修改信息生成音频编辑任务；通过音频编辑任务以及文本时长信息，对原始音频数据进行音频内容编辑处理，得到目标音频数据。本申请可以有效实现对音频数据的灵活编辑，达到良好的音频编辑效果。

Description

音频数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术和音频技术的发展，出现了音频编辑技术，通过对音频进行编辑，可以实现剪贴、复制、粘贴、多文件合并和混音等常规音频处理，并实现对音频波形进行“反转”、“静音”、“放大”、“扩音”、“减弱”、“淡入”、“淡出”、“规则化”等常规处理、“混响”、“颤音”、“延迟”等特效、以及与“槽带滤波器”、“带通滤波器”、“高通滤波器”、“低通滤波器”、“高频滤波器”、“低通滤波器”、“FFT滤波器”等滤波处理。

然而目前的音频数据编辑时，无法在对音频内容灵活编辑的前提下，达到良好的音频编辑效果。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效达到良好音频编辑效果的音频数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种音频数据处理方法。所述方法包括：

对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息，所述文本时长信息为所述原始音频文本中各单词的时间节点信息；

对所述原始音频文本进行文本修改处理，得到修改目标文本；

对比所述原始音频文本和所述修改目标文本，得到文本修改信息；

基于所述文本修改信息生成音频编辑任务；

通过所述音频编辑任务以及所述文本时长信息对所述原始音频数据进行音频内容编辑处理，得到目标音频数据。

第二方面，本申请还提供了一种音频数据处理装置。所述装置包括：

语音识别模块，用于对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息，所述文本时长信息为所述原始音频文本中各单词的时间节点信息；

文本修改模块，用于对所述原始音频文本进行文本修改处理，得到修改目标文本；

文本对比模块，用于对比所述原始音频文本和所述修改目标文本，得到文本修改信息；

任务生成模块，用于基于所述文本修改信息生成音频编辑任务；

音频编辑模块，用于通过所述音频编辑任务以及所述文本时长信息对所述原始音频数据进行音频内容编辑处理，得到目标音频数据。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

基于所述文本修改信息生成音频编辑任务；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

基于所述文本修改信息生成音频编辑任务；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

基于所述文本修改信息生成音频编辑任务；

上述音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品，通过先对原始音频数据进行语音识别处理，从音频数据中提取出原始音频文本和文本时长信息，而后直接对原始音频文本进行文本修改处理，得到修改目标文本，先对从音频数据中识别出的文本进行文本修改处理，调整音频文本表述，得到调整后的修改目标，而后通过对比原始音频文本和修改目标文本，确定文本中修改部分的文本修改信息，再基于文本修改信息，生成用于对文本对应音频部分进行音频编辑处理的音频编辑任务；最后通过音频编辑任务以及文本时长信息，来对原始音频数据进行音频内容编辑处理，基于得到基于修改目标文本编辑得到的目标音频数据。本申请通过对原始音频文本进行文本修改的编辑处理，而后基于文本修改处理过程中的文本修改信息来对相应部分的音频数据进行编辑，可以有效实现对音频数据的灵活编辑，达到良好的音频编辑效果。

附图说明

图1为一个实施例中音频数据处理方法的应用环境图；

图2为一个实施例中音频数据处理方法的流程示意图；

图3为一个实施例中文本顺滑化的流程示意图；

图4为一个实施例中音频编辑合成模型的结构示意图；

图5为一个实施例中梅尔谱的示意图；

图6为一个实施例中音频数据处理方法涉及的模型框图；

图7为一个实施例中音频数据处理方法的流程框图；

图8为另一个实施例中音频数据处理方法的流程示意图；

图9为一个实施例中音频数据处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能(Artificial Intelligence,AI)技术，它是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请具体涉及人工智能技术中的语音技术(Speech Technology)和机器学习(MachineLearning,ML)技术。

其中，语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。而机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本文中，需要理解的是，所涉及的术语：

语音识别：输入音频识别出音频文字内容。

语音文本对齐：给定音频和相应文本，在时间上将他们对齐。

音频编辑合成：输入原始音频和待修改内容文本，合成符合修改文本内容的音频且音频音色韵律和原音频保持一致。

本申请实施例提供的音频数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。当用户需要对某段音频文件进行修改，以满足音频编辑类需求时，可以通过终端102提交原始音频数据至服务器104，而服务器104则开始对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息，文本时长信息为原始音频文本中各单词的时间节点信息；对原始音频文本进行文本修改处理，得到修改目标文本；对比原始音频文本和修改目标文本，得到文本修改信息；基于文本修改信息生成音频编辑任务；通过音频编辑任务以及文本时长信息，对原始音频数据进行音频内容编辑处理，得到目标音频数据。而后将所得到的目标音频数据反馈给终端102。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种音频数据处理方法，以该方法应用于图1中的服务器104为例进行说明，该方法亦可应用于终端，当应用于服务器104时，包括以下步骤：

步骤201，对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息，文本时长信息为原始音频文本中各单词的时间节点信息。

其中，原始音频数据是指需要处理的音频数据，处理具体是指对音频数据进行编辑，以使编辑后的能满足与修改后的音频文本对应。原始音频文本则是指通过语音识别得到的音频数据对应的文本数据，语音识别，又称为自动语音识别，英文是Automatic SpeechRecognition，缩写为ASR，其主要是将人类语音中的词汇内容转换为计算机可读的输入，一般都是可以理解的文本内容，也有可能是二进制编码或者字符序列。在本申请中，所得到的原始音频文本基于从原始音频数据提取得到的文本内容。文本时长信息则为原始音频文本中各单词的时间节点信息，通过文本时长信息，可以对原始音频文本中单词的位置进行定位。

具体地，本申请具体用于对终端102提交的音频数据进行编辑处理。当终端102提交原始音频数据至服务器104后，为了实现对音频数据的有效处理，服务器104端需要先确定原始音频数据中包含的具体信息。因此，可以先对原始音频数据进行语音识别处理，来得到原始音频文本和文本时长信息。语音识别的过程则可以通过语音识别模型来实现，在将原始音频文本输入到语音识别模型，通过语音识别模型提取音频特征来实现对音频的识别处理，提取出原始音频数据中的单词，从而得到原始音频文本，同时语音识别模型还可以针对每个单词进行定位，确定其在原始音频数据中的时间节点信息。例如，针对一段5秒钟的原始音频数据，从中提取到的单词包括“在”、“医院”、“里”、“我们”、“等”、“了”、“很长”、“时间”，组合得到的原始音频文本对应为“在医院里我们等了很长时间”，而对应的文本时长信息则是这些单词在5秒钟时长音频中的起始位置和终点位置，例如“在”对应的文本时长信息为0.1秒到0.5秒，“医院”对应的文本时长信息为1.5秒到2秒。

步骤203，对原始音频文本进行文本修改处理，得到修改目标文本。

其中，文本修改处理是指对原始音频文本进行编辑修改的处理过程，具体包括了主动修改处理和文本顺滑化的修改处理，其中主动修改处理是指基于工作人员的意愿主动将原始音频文本中的部分文本内容修改，例如在配音的工作过程中，如果有单词读错了，可以通过将原始音频文本中的部分文本内容修改，替换为正确的文本内容，而文本顺滑化则是指将口语化的、不连续的文本表达为正常的文本，例如将文本“你。。你好”顺滑化处理为“你好”这样的顺滑化文本，文本“在医院里我们等了很长时间”顺滑化处理为“在医院里我们等待了很长时间”。

具体地，由于直接从原始音频数据提取出的原始音频文本中可能包含错误的表述、部分口语化或者不连续的表述，而本申请的音频数据处理方法正是为了调整这部分表述，错误的表述可以通过编辑修改音频文本中的错误内容来实现对错误部分音频的修正，部分口语化或者不连续的表述，则可以通过顺滑化处理编辑修改音频文本中的错误内容，来实现对错误部分音频的修正，因此文本修改处理是为了得到用于对音频数据进行编辑的基础数据。当得到修改目标文本后，即可基于修改目标文本来实现对相应部分原始音频数据的编辑处理。在其中一个实施例中，对于文本修改处理的处理流程，可以由工作人员根据实际的修改需求来手动对原始音频文本进行文本修改处理。而在另一个实施例中，则可以通过预先训练好的自然语言处理模型来实现文本修改过程的顺滑化自动处理。

步骤205，对比原始音频文本和修改目标文本，得到文本修改信息。

其中，文本修改信息是指在原始音频文本中被修改的部分，具体包括了删除的部分、替换的部分还有增加的部分。文本修改具体可能是在原始音频文本的基础上删除、替换或者增加部分文本内容，因此文本修改信息是对应这部分文本内容的删除、替换或者增加信息。

具体地，当通过对原始音频文本的文本修改处理，得到修改目标文本后，为了确定文本修改过程对原始音频文本的修改部分，可以对比修改后前后的原始音频文本和修改目标，通过按顺序对比文本中出现的单词，可以识别修改目标文本相对于原始音频文本删除的部分、替换的部分还有增加的部分，从而得到文本修改信息。例如通过对比原始音频文本“你。。你好”和修改目标文本“你好”，可确定其中的文本修改信息为删除的“你，”这部分。又如对比“你别做了，我们出去吃”和修改目标文本“你别做饭了，我们出去吃”，可确定其中的文本修改信息为增加的“饭”这部分。

步骤207，基于文本修改信息生成音频编辑任务。

其中，音频编辑任务是指用于实现相应音频编辑处理功能的任务，通过音频编辑任务可以调用服务器104中相应的功能模块来实现对原始音频数据的编辑处理。

具体地，在得到文本修改信息后，为了对原始音频数据进行对应的修改，可以创建出文本修改信息对应的不同音频编辑任务，这些音频编辑任务调用服务器104的相应功能来实现对原始音频数据的编辑。对于音频编辑任务，在一个实施例中，与文本修改信息对应，音频编辑任务也可以分为音频删除任务、音频替换任务还有音频增加任务。其中，音频删除任务用于删除原始音频数据中与文本修改信息中删除部分对应的音频段；音频替换任务则用于将原始音频数据中与文本修改信息中替换部分对应的音频段，替换为新生成的音频段；而音频增加任务则用于在原始音频数据中，插入与文本修改信息中增加部分对应的音频段。而音频编辑任务则可以通过音频编辑的机器学习模型来实现。

步骤209，通过音频编辑任务以及文本时长信息，对原始音频数据进行音频内容编辑处理，得到目标音频数据。

具体地，当生成音频编辑任务后，就可以通过音频编辑任务以及文本时长信息，对原始音频数据进行音频内容编辑处理，其中音频编辑任务用于调用服务器104中实现音频编辑功能的模块来执行音频内容的编辑处理。而文本时长信息为原始音频文本中各单词的时间节点信息，因此可以用于对原始音频数据中需要修改的音频片段进行定位，通过文本时长信息确定需要编辑的前后时间节点后，即可以在原始音频数据中相应的部分执行删除、替换或者增加等相应的音频内容编辑处理，而后得到目标音频数据。

上述音频数据处理方法，通过先对原始音频数据进行语音识别处理，从音频数据中提取出原始音频文本和文本时长信息，而后直接对原始音频文本进行文本修改处理，得到修改目标文本，先对从音频数据中识别出的文本进行文本修改处理，调整音频文本表述，得到调整后的修改目标，而后通过对比原始音频文本和修改目标文本，确定文本中修改部分的文本修改信息，再基于文本修改信息，生成用于对文本对应音频部分进行音频编辑处理的音频编辑任务；最后通过音频编辑任务以及文本时长信息，来对原始音频数据进行音频内容编辑处理，基于得到基于修改目标文本编辑得到的目标音频数据。本申请通过对原始音频文本进行文本修改的编辑处理，而后基于文本修改处理过程中的文本修改信息来对相应部分的音频数据进行编辑，可以有效实现对音频数据的灵活编辑，达到良好的音频编辑效果。

在一个实施例中，步骤201包括：对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息包括：对原始音频数据进行预处理，得到预处理音频数据；提取预处理音频数据中的特征数据，得到音频特征数据；对音频特征数据进行向量量化处理，得到音频特征序列；基于音频特征序列进行单词识别处理，得到音频特征序列中各个音频特征对应的单词文本，和单词文本在原始音频数据中的时间节点；基于单词文本拼接得到原始音频文本，汇总单词文本在原始音频数据中的时间节点得到文本时长信息。

其中，预处理是指将需要分析的音频信号从原始音频数据中合适地提取出来的处理过程，具体包括了滤波和分帧等处理流程。特征提取就是从语音波形中提取出能反映语音特征的重要信息，去掉相对无关的信息的处理过程，而向量量化则是指通过将音频数据转化为多维特征向量的处理过程，其涉及的主要算法有线性预测倒谱系数(LPCC)或Mel倒谱系数(MFCC)，转化的音频特征序列则是按照时序排列的音频特征向量数据。而单词识别处理则是指通过声学相关的机器学习模型来计算音频特征序列中的音频特征向量和每个发音模板之间的距离，从而预测音频特征序列中各个音频特征对应的单词文本的处理过程，在预测完成后单词文本在原始音频数据中的时间节点也就确定了。在具体实施例中，可以使用高斯混合-隐马尔科夫模型(GMM-HMM)作为声学模型，也可以采用下文相关的深度神经网络-隐马尔可夫模型(context-dependent DNN-HMM，CD-DNN-HMM)。而后则可以通过语言相关的机器学习模型，将单词文本拼接得到原始音频文本，同时汇总单词文本在原始音频数据中的时间节点得到文本时长信息。

具体地，本申请的方案首先需要通过语音识别的方法来从原始音频数据提取出原始音频文本和文本时长信息。语音识别的过程具体包括了预处理、特征提取、向量量化、声学模型处理以及语言模型处理等流程。首先，可以对原始音频数据进行滤波和分帧的预处理操作。例如将首尾端的静音切除，降低对后续步骤造成的干扰。还有声音分帧处理，即把声音切开成多个小段，每小段称为一帧，分帧具体可以使用移动窗函数来实现，各帧之间存在一定的交叠区域，每帧的时间节点被同步记录。而后则是提取预处理音频数据中的特征数据，得到音频特征数据；并对音频特征数据进行向量量化处理，得到音频特征序列，例如对于采用梅尔倒谱系数的处理流程，可以对每一帧预处理音频数据做傅里叶变化，而后用特征参数MFCC得到每一帧的频谱，即可确定每一帧对应的音频特征向量，将各帧的音频特征向量组合得到的即为音频特征序列。而后则可以基于音频特征序列进行单词识别处理，得到音频特征序列中各个音频特征对应的单词文本，和单词文本在原始音频数据中的时间节点，即通过训练好的声学模型来将每一帧的短语音转化为单词。在得到单词和单词在原始音频数据中的时间节点后，则可通过训练好的语言模型来将单词文本拼接得到原始音频文本，同时汇总单词文本在原始音频数据中的时间节点得到文本时长信息。本实施例中，通过预处理、特征提取、向量量化、声学模型处理以及语言模型处理等流程，来将原始音频数据转化为原始音频文本和文本时长信息，可以有效地实现对音频数据处理过程提供基础数据保障，从而保证音频数据处理的处理效果。

在一个实施例中，对原始音频文本进行文本修改处理，得到修改目标文本包括：对原始音频文本进行文本正则过滤处理，得到正则文本序列；通过文本顺滑化模型对正则文本序列进行文本顺滑化处理，得到修改目标文本，文本顺滑化模型通过历史音频文本数据对初始长短期记忆人工神经网络进行训练得到。

其中，文本正则过滤处理是指基于规则和字典来实现文本删除的处理流程，文本正则过滤处理会将符合规则的文本以及符合字典的文本删除，以达到文本顺滑的目的。而对于文本顺滑化模型，模型输入是文本序列，模型输出为要删除的文本，通过文本顺滑化模型可以进行二次文本顺滑，从而提高文本顺滑的准确性。

具体地，本申请对原始音频文本进行文本修改处理，得到修改目标文本的流程具体可以通过文本正则过滤和文本顺滑化模型两个部分顺滑步骤组成，如图3所示，先通过文本正则过滤对原始音频文本处理，而后再将文本正则过滤处理后得到正则文本序列，输入到文本顺滑化模型中，通过文本顺滑化模型来对正则文本序列进行二次顺滑化处理，得到修改目标文本。其中文本正则过滤处理的过程主要是基于规则和字典来实现的，会将符合规则的文本以及符合字典的文本删除，以达到文本顺滑的修改目的。在其中一个实施例中，具体可以，获取原始音频文本的文本正则表达式；基于文本正则表达式识别原始音频文本的目标过滤文本；删除原始音频文本中的目标过滤文本，得到正则文本序列，从而完整对原始音频文本进行文本正则过滤处理的处理流程。而后通过文本顺滑化模型对正则文本序列进行文本顺滑化处理，文本顺滑化模型具体可以为训练完成的LSTM(Long Short-TermMemory，长短期记忆网络)模型。在其中一个实施例中，可以通过文本顺滑化模型对正则文本序列进行顺滑化地文本修改处理，确定目标删除文本；删除正则文本序列中的目标删除文本，得到修改目标文本。值得注意的是，文本正则过滤的处理流程可以和文本顺滑化模型的处理流程交换顺序，即先通过文本顺滑化模型对原始音频文本进行文本顺滑化处理，而后再对顺滑化处理后的原始音频文本进行文本正则过滤处理，即这两个部分是串联的两个部分，即使变换了顺序，通过这两个模块处理后，输入输出都与原先一致。本实施例中，通过文本正则过滤和文本顺滑化模型来对正则文本序列进行文本修改处理，可以有效地保证文本修改处理的处理效果，从而保证音频数据处理的准确性。

在一个实施例中，步骤203包括：获取针对原始音频文本的文本修改操作指令；基于文本修改操作指令对原始音频文本进行修改，得到修改目标文本。

具体地，文本修改操作指令是指直接对原始音频文本进行增加、替换以及修改等操作的处理指令，文本修改操作指令可以由工作人员手动根据原始音频文本的语义生成，为了保证对原始音频文本进行文本修改处理的准确性。除了通过自动化的正则处理和机器学习模型处理外，还可以由工作人员来直接对原始音频文本进行文本修改处理。首先，可以将识别出的原始音频文本通过显示器推送给到工作人员，而工作人员则可以直接在推送的原始音频数据文本上进行文本替换、增加和删除等文本编辑处理。而工作人员直接对原始音频文本的文本编辑处理操作，会对应生成针对原始音频文本的文本修改操作指令，而后即可基于文本修改操作指令对原始音频文本进行修改，得到修改目标文本。例如对于“你。。你好”这个原始音频文本，工作人员可以通过编辑指令去掉其中“你。。”这部分，而后得到的“你好”就是修改目标文本。本实施例中，通过文本修改操作指令来直接对原始音频文本进行修改，完成文本修改过程，可以有效保证文本修改处理的效率和准确性。

在一个实施例中，通过音频编辑任务以及文本时长信息对原始音频数据进行音频内容编辑处理，得到目标音频数据包括：识别音频编辑任务包含的任务类型；基于音频编辑任务包含的任务类型与以及文本时长信息对原始音频数据进行音频内容编辑处理，得到目标音频数据。

其中，音频编辑任务具体可以分为增加任务、替换任务和删除任务三种任务类型，具体地，不同类型的音频编辑任务对应的音频编辑处理流程各不相同，因此在对原始音频数据进行音频内容编辑处理时，需要先识别出音频编辑任务包含的任务类型，在依据任务类型调用对应的音频编辑模块来完成音频的编辑处理。在具体实施例中，每次音频编辑的处理流程只能处理一种类型的音频编辑任务，当音频编辑任务包含多种类型的音频编辑任务，例如同时包含增加类型的音频编辑任务和删除类型的音频编辑任务时，可以先处理增加类型的音频编辑任务，得到增加音频内容后的音频数据，而后再基于增加音频内容后的音频数据进行删除类型的音频编辑任务的处理，得到最终所需的目标音频数据。本实施例中，通过识别音频编辑任务包含的任务类型，而后基于音频编辑任务包含的任务类型来进行相应的音频数据编辑处理，可以有效保证音频数据编辑处理的效率与准确性。

在一个实施例中，步骤209包括：当音频编辑任务包含音频删除任务时，基于音频删除任务与文本时长信息，确定原始音频数据的目标删除片段；基于目标删除片段对原始音频数据进行音频内容删除处理，得到目标音频数据。

具体地，音频删除任务即为删除音频中需要删除的文本内容位置处的音频数据。因此，当音频编辑任务包含音频删除任务时，需要进行音频删除的处理时，可以先基于音频删除任务确定需要删除的文本内容，而后基于文本时长信息，确定这些需要删除的每个文本内容在原始音频数据中的起始节点和终止节点，得到目标删除片段。而后直接在原始音频数据删除这些目标删除片段，即可得到所需要的目标音频数据。在一个实施例中，在基于目标删除片段对原始音频数据进行音频内容删除处理后，还可以对删除后的拼接处进行淡入淡出的处理，从而保证所得目标音频数据的处理效果。本实施例中，通过对音频删除任务相应的音频内容进行删除处理，可以保证音频数据处理的准确性。

在一个实施例中，步骤209包括：当音频编辑任务包含音频增加任务时，基于音频增加任务，确定原始音频数据的新增文本；基于原始音频数据和新增文本进行音频合成处理，得到新增文本的新增音频数据；基于文本时长信息将新增音频数据合成至原始音频数据，得到目标音频数据。

具体地，音频增加任务即为在原始音频数据中对应的位置处插入新增文本对应的音频数据。而为了得到新增文本对应的音频数据，需要先基于音频增加任务，确定原始音频数据的新增文本，而后通过音频合成技术，基于原始音频数据和新增文本来合成所需要的新增音频数据。而对于音频数据的新增流程，则需要基于文本时长信息将新增音频数据合成至原始音频数据。此处可以基于文本时长信息在原始音频数据中确定各个新增文本对应的时间节点，而后在该时间节点处插入相应的新增音频数据。在一个实施例中，在插入相应的新增音频数据后，还可以对新增音频数据的前后拼接处进行淡入淡出的处理，从而保证所得目标音频数据的处理效果。本实施例中，通过对音频增加任务相应的音频内容进行增加处理，可以保证音频数据处理的准确性。

在一个实施例中，基于原始音频数据和新增文本进行音频合成处理，得到修改文本的新增音频数据包括：对新增文本进行编码处理，得到文本特征，并对原始音频数据进行说话人编码处理，得到原始音频数据的说话人音频特征；对文本特征和说话人音频特征进行特征融合处理和特征解码处理，得到梅尔谱信息；基于梅尔谱信息得到修改文本的新增音频数据。

其中，编码过程的输入为修改后的文本序列，输出为神经网络隐层特征，表示文本信息，编码过程的模型结构具体可以为卷积加lstm网络。而说话人编码过程的输入为原始音频，输出的特征为神经网络隐层特征，用来表示说话人信息，包括韵律和音色等，说话人编码过程的模型结构为卷积组和注意力的结合。解码过程的输入为编码的输出和说话人编码器的输出，输出为梅尔谱特征，该模块目的是将文本信息和说话人信息结合，恢复出对应内容的声学特征梅尔谱；模型结构为轻量卷积组，最后音频生成过程的输入为梅尔谱，输出为音频信号，该模块的作用是为了将声学特征梅尔谱转换为对应的音频信号；模型结构为卷积组结构。

具体地，如图4所示，本申请具体可以通过机器学习模型的方式，基于原始音频数据和新增文本合成出所需的新增音频数据。首先分别对新增文本和原始音频数据进行编码处理，通过对新增文本的编码处理，得到文本特征，而对原始音频数据的说话人编码处理，则可以得到原始音频数据的说话人音频特征。而后通过解码器来对文本特征和说话人音频特征进行特征融合处理和特征解码处理，得到如图5所示的梅尔谱信息。最后通过声码器，基于梅尔谱信息来合成得到修改文本的新增音频数据，得到的新增音频数据能有效地保留原始音频数据的音色、韵律，使其不发生变化。本实施例中，通过机器学习的方法来合成修改文本的新增音频数据，可以有效地保留原始音频数据的音色、韵律，从而保证音频编辑过程所得目标音频数据的准确性。

在一个实施例中，步骤209包括：当音频编辑任务包含音频替换任务时，基于音频替换任务，确定原始音频数据的替换文本；基于原始音频数据和替换文本进行音频合成处理，得到修改文本的合成音频数据；基于文本时长信息识别原始音频数据的音频替换片段；将原始音频数据的音频替换片段替换为合成音频数据，得到目标音频数据。

具体地，音频合成处理流程与音频增加任务中音频合成处理流程相似，区别在于音频替换任务是将替换文本处的音频数据替换为合成处理所得的音频数据。因此，当音频编辑任务包含音频替换任务时，需要进行音频替换的处理时，可以先基于音频替换任务确定需要替换的替换文本，而后基于文本时长信息，确定这些替换文本在原始音频数据中的起始节点和终止节点，得到音频替换片段。同时，基于原始音频数据和替换文本进行音频合成处理，得到修改文本的合成音频数据。而后直接在原始音频数据删除这些得到音频替换片段，同时在删除片段后的原始音频数据插入合成得到的合成音频数据，即可得到目标音频数据。在一个实施例中，在将音频替换片段替换为合成音频数据后，还可以对音频替换片段前后的拼接处进行淡入淡出的处理，从而保证所得目标音频数据的处理效果。本实施例中，通过对音频替换任务相应的音频内容进行删除处理，可以保证音频数据处理的准确性。

本申请还提供一种应用场景，该应用场景应用上述的音频数据处理方法。

具体地，该音频数据处理方法在该应用场景的应用如下：

在进行视频配音时，当用户配音完成后，如果用户对自己视频中的配音有修改意向，需要修改配音中的部分内容，但是不想重新配音的话，可以通过本申请的音频数据处理方法来对配音完成的原始音频数据进行处理。如图6所示，本申请的方案在应用前需要先完成三部分模型的训练，具体包括了语音识别模型、文本顺滑化模型和编辑合成模型，分别对应三个处理过程。同时，对于音频数据处理的总体流程具体如图7所示。首先对于语音识别的处理过程，通过语音识别模型实现，具体可以先对原始音频数据进行预处理，得到预处理音频数据；提取预处理音频数据中的特征数据，得到音频特征数据；对音频特征数据进行向量量化处理，得到音频特征序列；基于音频特征序列进行单词识别处理，得到音频特征序列中各个音频特征对应的单词文本，和单词文本在原始音频数据中的时间节点；基于单词文本拼接得到原始音频文本，汇总单词文本在原始音频数据中的时间节点得到文本时长信息。而后可以通过文本顺滑化模型来对识别得到的原始音频文本进行文本顺滑化处理。具体可以先获取原始音频文本的文本正则表达式；基于文本正则表达式识别原始音频文本的目标过滤文本；删除原始音频文本中的目标过滤文本，得到正则文本序列。而后通过文本顺滑化模型对正则文本序列进行文本顺滑化处理，确定目标删除文本；删除正则文本序列中的目标删除文本，得到修改目标文本。同时，用户也可以根据需要手动对原始音频文本进行编辑处理，通过获取针对原始音频文本的文本修改操作指令；而后直接基于文本修改操作指令对原始音频文本进行修改，得到修改目标文本。当原始音频文本修改完成后，则可以进一步地对比原始音频文本和修改目标文本，得到文本修改信息；基于文本修改信息生成音频编辑任务；而对于音频编辑任务，则可以根据音频编辑任务的类型来实现编辑，即识别音频编辑任务包含的任务类型；基于音频编辑任务包含的任务类型与以及文本时长信息对原始音频数据进行音频内容编辑处理，得到目标音频数据。当音频编辑任务包含音频删除任务时，基于音频删除任务与文本时长信息，确定原始音频数据的目标删除片段；基于目标删除片段对原始音频数据进行音频内容删除处理，得到目标音频数据。当音频编辑任务包含音频增加任务时，基于音频增加任务，确定原始音频数据的新增文本；基于原始音频数据和新增文本进行音频合成处理，得到新增文本的新增音频数据；基于文本时长信息将新增音频数据合成至原始音频数据，得到目标音频数据。当音频编辑任务包含音频替换任务时，基于音频替换任务，确定原始音频数据的替换文本；基于原始音频数据和替换文本进行音频合成处理，得到修改文本的合成音频数据；基于文本时长信息识别原始音频数据的音频替换片段；将原始音频数据的音频替换片段替换为合成音频数据，得到目标音频数据。而对于音频合成的处理流程，具体可以先对新增文本进行编码处理，得到文本特征，并对原始音频数据进行说话人编码处理，得到原始音频数据的说话人音频特征；对文本特征和说话人音频特征进行特征融合处理和特征解码处理，得到梅尔谱信息；基于梅尔谱信息得到修改文本的新增音频数据。在得到目标音频数据后，即可将目标音频数据作为最终的配音数据。

本申请的音频数据处理方法的完整流程可以参照图8所示，包括：步骤801，对原始音频数据进行预处理，得到预处理音频数据。步骤803，提取预处理音频数据中的特征数据，得到音频特征数据。步骤805，对音频特征数据进行向量量化处理，得到音频特征序列。步骤807，基于音频特征序列进行单词识别处理，得到音频特征序列中各个音频特征对应的单词文本，和单词文本在原始音频数据中的时间节点。步骤809，基于单词文本拼接得到原始音频文本，汇总单词文本在原始音频数据中的时间节点得到文本时长信息。步骤811，对原始音频文本进行文本正则过滤处理，得到正则文本序列。步骤813，通过文本顺滑化模型对正则文本序列进行文本顺滑化处理，得到修改目标文本。步骤815，对比原始音频文本和修改目标文本，得到文本修改信息。步骤817，基于文本修改信息生成音频编辑任务。步骤819，识别音频编辑任务包含的任务类型。步骤821，基于音频编辑任务包含的任务类型与以及文本时长信息对原始音频数据进行音频内容编辑处理，得到目标音频数据。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音频数据处理方法的音频数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频数据处理装置实施例中的具体限定可以参见上文中对于音频数据处理方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种音频数据处理装置，包括：

语音识别模块902，用于对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息，文本时长信息为原始音频文本中各单词的时间节点信息。

文本修改模块904，用于对原始音频文本进行文本修改处理，得到修改目标文本。

文本对比模块906，用于对比原始音频文本和修改目标文本，得到文本修改信息。

任务生成模块908，用于基于文本修改信息生成音频编辑任务。

音频编辑模块910，用于通过音频编辑任务以及文本时长信息对原始音频数据进行音频内容编辑处理，得到目标音频数据。

在一个实施例中，语音识别模块902具体用于：对原始音频数据进行预处理，得到预处理音频数据；提取预处理音频数据中的特征数据，得到音频特征数据；对音频特征数据进行向量量化处理，得到音频特征序列；基于音频特征序列进行单词识别处理，得到音频特征序列中各个音频特征对应的单词文本，和单词文本在原始音频数据中的时间节点；基于单词文本拼接得到原始音频文本，汇总单词文本在原始音频数据中的时间节点得到文本时长信息。

在一个实施例中，文本修改模块904具体用于：对原始音频文本进行文本正则过滤处理，得到正则文本序列；通过文本顺滑化模型对正则文本序列进行文本顺滑化处理，得到修改目标文本，文本顺滑化模型通过历史音频文本数据对初始长短期记忆人工神经网络进行训练得到。

在一个实施例中，文本修改模块904具体用于：获取原始音频文本的文本正则表达式；基于文本正则表达式识别原始音频文本的目标过滤文本；删除原始音频文本中的目标过滤文本，得到正则文本序列。

在一个实施例中，文本修改模块904具体用于：通过文本顺滑化模型对正则文本序列进行文本顺滑化处理，确定目标删除文本；删除正则文本序列中的目标删除文本，得到修改目标文本。

在一个实施例中，文本修改模块904还用于：获取针对原始音频文本的文本修改操作指令；基于文本修改操作指令对原始音频文本进行修改，得到修改目标文本。

在一个实施例中，音频编辑模块910具体用于：识别音频编辑任务包含的任务类型；基于音频编辑任务包含的任务类型与以及文本时长信息对原始音频数据进行音频内容编辑处理，得到目标音频数据。

在一个实施例中，音频编辑模块910还用于：当音频编辑任务包含音频删除任务时，基于音频删除任务与文本时长信息，确定原始音频数据的目标删除片段；基于目标删除片段对原始音频数据进行音频内容删除处理，得到目标音频数据。

在一个实施例中，音频编辑模块910还用于：当音频编辑任务包含音频增加任务时，基于音频增加任务，确定原始音频数据的新增文本；基于原始音频数据和新增文本进行音频合成处理，得到新增文本的新增音频数据；基于文本时长信息将新增音频数据合成至原始音频数据，得到目标音频数据。

在一个实施例中，音频编辑模块910还用于：对新增文本进行编码处理，得到文本特征，并对原始音频数据进行说话人编码处理，得到原始音频数据的说话人音频特征；对文本特征和说话人音频特征进行特征融合处理和特征解码处理，得到梅尔谱信息；基于梅尔谱信息得到修改文本的新增音频数据。

在一个实施例中，音频编辑模块910还用于：当音频编辑任务包含音频替换任务时，基于音频替换任务，确定原始音频数据的替换文本；基于原始音频数据和替换文本进行音频合成处理，得到修改文本的合成音频数据；基于文本时长信息识别原始音频数据的音频替换片段；将原始音频数据的音频替换片段替换为合成音频数据，得到目标音频数据。

上述音频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频数据处理数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频数据处理方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

基于所述文本修改信息生成音频编辑任务；

通过所述音频编辑任务以及所述文本时长信息，对所述原始音频数据进行音频内容编辑处理，得到目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述对原始音频数据进行语音识别处理，得到原始音频文本和文本时长信息包括：

对原始音频数据进行预处理，得到预处理音频数据；

提取所述预处理音频数据中的特征数据，得到音频特征数据；

对所述音频特征数据进行向量量化处理，得到音频特征序列；

基于所述音频特征序列进行单词识别处理，得到所述音频特征序列中各个音频特征对应的单词文本，和所述单词文本在所述原始音频数据中的时间节点；

基于所述单词文本拼接得到原始音频文本，汇总所述单词文本在所述原始音频数据中的时间节点得到文本时长信息。

3.根据权利要求1所述的方法，其特征在于，所述文本修改处理包括文本顺滑化处理，所述对所述原始音频文本进行文本修改处理，得到修改目标文本包括：

对所述原始音频文本进行文本正则过滤处理，得到正则文本序列；

通过文本顺滑化模型对所述正则文本序列进行文本顺滑化处理，得到修改目标文本，所述文本顺滑化模型通过历史音频文本数据对初始长短期记忆人工神经网络进行训练得到。

4.根据权利要求3所述的方法，其特征在于，所述对所述原始音频文本进行文本正则过滤处理，得到正则文本序列包括：

获取所述原始音频文本的文本正则表达式；

基于所述文本正则表达式识别所述原始音频文本的目标过滤文本；

删除所述原始音频文本中的目标过滤文本，得到正则文本序列。

5.根据权利要求3所述的方法，其特征在于，所述通过文本顺滑化模型对所述正则文本序列进行文本顺滑化处理，得到修改目标文本包括：

通过文本顺滑化模型对所述正则文本序列进行文本顺滑化处理，确定目标删除文本；

删除所述正则文本序列中的目标删除文本，得到修改目标文本。

6.根据权利要求1所述的方法，其特征在于，所述对所述原始音频文本进行文本修改处理，得到修改目标文本包括：

获取针对所述原始音频文本的文本修改操作指令；

基于所述文本修改操作指令对所述原始音频文本进行修改，得到修改目标文本。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述通过所述音频编辑任务以及所述文本时长信息对所述原始音频数据进行音频内容编辑处理，得到目标音频数据包括：

识别所述音频编辑任务包含的任务类型；

基于所述音频编辑任务包含的任务类型与所述以及所述文本时长信息对所述原始音频数据进行音频内容编辑处理，得到目标音频数据。

8.根据权利要求7所述的方法，其特征在于，所述基于所述音频编辑任务包含的任务类型与所述以及所述文本时长信息对所述原始音频数据进行音频内容编辑处理，得到目标音频数据包括：

当所述音频编辑任务包含音频删除任务时，基于所述音频删除任务与所述文本时长信息，确定所述原始音频数据的目标删除片段；

基于所述目标删除片段对所述原始音频数据进行音频内容删除处理，得到目标音频数据。

9.根据权利要求7所述的方法，其特征在于，所述基于所述音频编辑任务包含的任务类型与所述以及所述文本时长信息对所述原始音频数据进行音频内容编辑处理，得到目标音频数据包括：

当所述音频编辑任务包含音频增加任务时，基于所述音频增加任务，确定所述原始音频数据的新增文本；

基于所述原始音频数据和所述新增文本进行音频合成处理，得到所述新增文本的新增音频数据；

基于所述文本时长信息将所述新增音频数据合成至所述原始音频数据，得到目标音频数据。

10.根据权利要求9所述的方法，其特征在于，所述基于所述原始音频数据和所述新增文本进行音频合成处理，得到所述修改文本的新增音频数据包括：

对所述新增文本进行编码处理，得到文本特征，并对所述原始音频数据进行说话人编码处理，得到所述原始音频数据的说话人音频特征；

对所述文本特征和说话人音频特征进行特征融合处理和特征解码处理，得到梅尔谱信息；

基于所述梅尔谱信息得到所述修改文本的新增音频数据。

11.根据权利要求7所述的方法，其特征在于，所述基于所述音频编辑任务包含的任务类型与所述以及所述文本时长信息对所述原始音频数据进行音频内容编辑处理，得到目标音频数据包括：

当所述音频编辑任务包含音频替换任务时，基于所述音频替换任务，确定所述原始音频数据的替换文本；

基于所述原始音频数据和所述替换文本进行音频合成处理，得到所述修改文本的合成音频数据；

基于所述文本时长信息识别所述原始音频数据的音频替换片段；

将所述原始音频数据的音频替换片段替换为所述合成音频数据，得到目标音频数据。

12.一种音频数据处理装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。