CN113345394A

CN113345394A - 音频数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN113345394A
Application number: CN202010096420.XA
Authority: CN
Inventors: 竺烨航; 白鹤群
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2021-09-03
Anticipated expiration: 2040-02-17
Also published as: CN113345394B

Abstract

本公开实施例提供一种音频数据的处理方法、装置、电子设备及存储介质；方法包括：播放第一音频数据；在播放所述第一音频数据的过程中，进行音频数据采集，得到第二音频数据，所述第二音频数据至少包括第三音频数据，所述第三音频数据为对播放所述第一音频数据进行采集所得到的音频数据；对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据；对所述第四音频数据及所述第一音频数据进行合成，得到目标音频文件。

Description

音频数据的处理方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及数据处理技术领域，尤其涉及一种音频数据的处理方法、装置、电子设备及存储介质。

背景技术

随着人们生活节奏的加快，听音乐、K歌已经成为人们释放压力、放松心情的常见方式。相关技术中的音乐播放客户端提供K歌功能，用户在根据播放的伴奏，录制演唱的歌声后，将人声数据与伴奏数据合成待发布的音乐文件。

然而，在通过扬声器播放伴奏音乐时，终端采集到的音频数据不仅包括人声数据，还包括采集的伴奏数据。由于伴奏数据经过终端播放，然后传播到空间中，再被终端采集，导致采集的伴奏数据的音质受损，影响最终合成的音乐文件的音质。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开实施例提供了一种音频数据的处理方法，包括：

播放第一音频数据；

在播放的所述第一音频数据的过程中，进行音频数据采集，得到第二音频数据，所述第二音频数据至少包括第三音频数据，所述第三音频数据为对播放的所述第一音频数据进行采集所得到的音频数据；

对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据；

对所述第四音频数据及所述第一音频数据数据进行合成，得到目标音乐文件。

上述方案中，所述方法，还包括：

根据所述第二音频数据包括的音频数据的数据类型，对所述第二音频数据进行分段处理，得到多个分段的音频数据；

从所述多个分段的音频数据中确定所述目标分段的音频数据，所述目标分段的音频数据的数据类型仅包括对应所述第三音频数据的数据类型；

基于目标分段的音频数据，对所述自适应滤波器的系数进行更新，直至收敛；

相应的，所述对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据，包括：

将所述第二音频数据输入更新后的自适应滤波器；

通过更新后的自适应滤波器，对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据。

上述方案中，在所述对所述第四音频数据与所述第一音频数据进行合成之前，所述方法还包括：

确定所述第一音频数据与所述第四音频数据之间的时延差；

基于所述时延差，对所述第一音频数据进行延时处理。

上述方案中，所述确定所述第一音频数据与所述第四音频数据之间的时延差，包括：

获取所述第一音频数据的频域特征及所述第四音频数据的频域特征；

基于所述第一音频数据的频域特征与所述第四音频数据的频域特征，确定所述第一音频数据与所述第四音频数据之间的时延差。

上述方案中，所述获取所述第一音频数据的频域特征及所述第四音频数据的频域特征，包括：

获取所述第一音频数据对应的第一频谱，及所述第四音频数据对应的第二频谱；

分别对所述第一频谱及所述第二频谱进行数据转换，以二进制形式表示所述第一频谱及所述第二频谱；

将所述二进制形式表示的第一频谱作为所述第一音频数据的频域特征，将所述二进制形式表示的第二频谱作为所述第四音频数据的频域特征。

上述方案中，所述基于所述第一音频数据与所述第四音频数据的频域特征，获取所述第一音频数据与所述第四音频数据之间的时延差，包括：

对所述第四音频数据进行分帧处理，得到多个第一音频帧；

对于各所述第一音频帧，分别执行以下操作：

分别将第一音频帧对应的频域特征与各第二音频帧对应的频域特征进行相似度匹配，确定各所述第二音频帧中相似度最高的目标音频帧；所述第二音频帧为对所述第一音频数据进行分帧处理得到的；

获取所述第一音频帧对应的时间点及所述目标音频帧对应的时间点；

根据所述第一音频帧对应的时间点及所述目标音频帧对应的时间点，确定所述第一音频帧与所述目标音频帧的时延差。

上述方案中，所述对所述第四音频数据及所述第一音频进行合成，得到目标音频文件，包括：

确定所述第四音频数据与所述第一音频数据的合成比例；

基于所述合成比例，对所述第四音频数据与所述第一音频数据进行合成，得到所述目标音频文件。

上述方案中，所述确定所述第四音频数据与所述第一音频数据的合成比例，包括：

获取所述第二音频数据与所述第四音频数据的数据差异；

基于所述第二音频数据与所述第四音频数据的数据差异，确定对应所述十三音频数据的抑制系数；

基于所述抑制系数，确定对应所述第二音频数据及所述目标音乐的伴奏数据的合成比例。

上述方案中，所述基于所述第二音频数据与所述第四音频数据的数据差异，确定对应所述第三音频数据的抑制系数，包括：

基于所述第二音频数据与所述第四音频数据的数据差异，确定所述数据差异与所述第二音频数据的比值；

确定所述比值的平方，为对应所述第三音频数据的抑制系数。

上述方案中，所述基于所述合成比例，对所述第四音频数据与所述第一音频数据进行合成，得到所述目标音频文件，包括：

基于所述合成比例，确定所述第一音频数据的能量；

基于确定的所述第一音频数据的能量，将对应所述能量的所述第一音频数据与所述第四音频数据进行合成。

第二方面，本公开实施例提供了一种音频数据的处理装置，包括：

播放单元，用于播放第一音频数据；

采集单元，用于在播放所述第一音频数据的过程中，进行音频数据采集，得到第二音频数据，所述第二音频数据至少包括第三音频数据，所述第三音频数据为对播放的所述第一音频数据进行采集得到的音频数据；

滤波单元，用于对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据；

合成单元，用于对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据。

上述方案中，所述滤波单元，还用于根据所述第二音频数据包括的音频数据的数据类型，对所述第二音频数据进行分段处理，得到多个分段的音频数据；

将所述第二音频数据输入更新后的自适应滤波器；

上述方案中，所述装置还包括：

处理单元，还用于确定所述第一音频数据与所述第四音频数据之间的时延差；

基于所述时延差，对所述第一音频数据进行延时处理。

上述方案中，所述处理单元，还用于获取所述第一音频数据的频域特征及所述第四音频数据的频域特征；

上述方案中，所述处理单元，还用于获取所述第一音频数据对应的第一频谱，及所述第四音频数据对应的第二频谱；

上述方案中，所述处理单元，还用于对所述第四音频数据进行分帧处理，得到多个第一音频帧；

对于各所述第一音频帧，分别执行以下操作：

上述方案中，所述合成单元，还用于确定所述第四音频数据与所述第一音频数据的合成比例；

上述方案中，所述合成单元，还用于获取所述第二音频数据与所述第四音频数据的数据差异；

基于所述第二音频数据与所述第四音频数据的数据差异，确定对应所述第三音频数据的抑制系数；

基于所述抑制系数，确定对应所述第四音频数据及所述第一音频数据的合成比例。

上述方案中，所述确定单元，还用于基于所述第二音频数据与所述第四音频数据的数据差异，确定所述数据差异与所述第二音频数据的比值；

上述方案中，所述合成单元，还用于基于所述合成比例，确定所述第一音频数据的能量；

基于确定的所述目标音乐的伴奏数据的能量，将对应所述能量的所述第一音频数据与所述第四音频数据进行合成。

第三方面，本公开实施例提供了一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述可执行指令时，实现本公开实施例提供的音频数据的处理方法。

第四方面，本公开实施例提供了一种存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本公开实施例提供的音频数据的处理方法。

本公开实施例具有如下有益效果：

应用本公开上述实施例，通过对第一音频数据进行回声消除，得到第二音频数据，使得采集的伴奏信号的能量大幅度被削弱，使得后续将第二音频数据与目标音乐的伴奏数据进行合成，能够提升得到的目标音乐文件的音质。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的音频数据的处理系统的架构示意图；

图2为本公开实施例提供的电子设备20的结构示意图；

图3为本公开实施例提供的音频数据的处理方法的流程示意图；

图4为本发明实施例提供的终端播放第一音频数据及采集音频数据的示意图；

图5为本公开实施例提供的第四音频数据与第三音频数据的对比图；

图6为本公开实施例提供的音频数据的处理方法的流程示意图；

图7为本公开实施例提供的音频数据的处理装置的组成结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

对本公开进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释。

1)音乐，指具有旋律、节奏或和声的人声或乐器音响等配合所构成的一种艺术，可分为古典音乐、民间音乐、原生态音乐、现代音乐(如流行歌曲)等。

2)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

参见图1，图1为本公开实施例提供的音频数据的处理系统的架构示意图，为实现支撑一个示例性应用，终端400(包括终端400-1和终端400-2)，终端400通过网络300连接服务器200，终端上设置有播放客户端，用户可通过该播放客户端实现音乐播放及在线K歌，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

终端400(如终端400-1)，用于播放目标音乐的伴奏数据第一音频数据；在播放第一音频数据的过程中，进行音频数据采集，得到第二音频数据，第二音频数据至少包括第三音频数据，所述第三音频数据为对播放的所述第一音频数据进行采集所得到的音频数据；

服务器200，用于对第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据；并返回第四音频数据；

终端400(如终端400-1)，还用于对第四音频数据及第一音频数据进行合成，得到目标音频文件。

在一些实施例中，终端(如终端400-1)上设置有播放客户端，用户可基于播放客户端实现K歌，在实际实施时，用户通过播放客户端进行目标音乐的录唱，播放客户端播放第一音频数据；在播放第一音频数据的过程中，进行音频数据采集，得到第二音频数据，第二音频数据至少包括第三音频数据，第三音频数据为对播放的第一音频数据进行采集所得到的音频数据；对第二音频数据进行滤波，以至少滤除部分第三音频数据，得到第四音频数据；对第四音频数据及第一音频数据进行合成，得到目标音频文件。

下面参见图2，图2是本公开实施例提供的电子设备20的结构示意图。电子设备可以是各种终端，包括移动电话、笔记本电脑、数字广播接收器、个人数字助理(PDA，PersonalDigital Assistant)、平板电脑(PAD)、便携式多媒体播放器(PMP，Portable MediaPlayer)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字电视(TV)、台式计算机等等的固定终端。图2示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，电子设备20可以包括处理装置(例如中央处理器、图形处理器等)210，其可以根据存储在只读存储器(ROM，Read-Only Memory)220中的程序或者从存储装置280加载到随机访问存储器(RAM，Random Access Memory)230中的程序而执行各种适当的动作和处理。在RAM 230中，还存储有电子设备20操作所需的各种程序和数据。处理装置210、ROM220以及RAM 230通过总线240彼此相连。输入/输出(I/O，Input/Output)接口250也连接至总线240。

通常，以下装置可以连接至I/O接口250：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置260；包括例如液晶显示器(LCD，LiquidCrystal Display)、扬声器、振动器等的输出装置270；包括例如磁带、硬盘等的存储装置280；以及通信装置290。通信装置290可以允许电子设备20与其他设备进行无线或有线通信以交换数据。虽然图2示出了具有各种装置的电子设备20，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开实施例，所提供的流程图描述的过程可以被实现为计算机软件程序。例如，本公开实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，计算机程序可以通过通信装置290从网络上被下载和安装，或者从存储装置280被安装，或者从ROM 220被安装。在计算机程序被处理装置210执行时，执行本公开实施例的音频数据的处理方法中的功能。

需要说明的是，本公开实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM，ErasableProgrammable Read Only Memory)、闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括电线、光缆、射频(RF，Radio Frequency)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备20中所包含的；也可以是单独存在，而未装配入电子设备20中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被电子设备20执行时，使得电子设备执行本公开实施例提供的音频数据的处理方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例中操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN，Local Area Network))和广域网(WAN，Wide Area Network)，以连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本公开实施例提供的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，播放单元还可以被描述为“播放目标音乐的伴奏数据的单元”。

图3为本公开实施例提供的音频数据的处理方法的流程示意图，参见图3，本公开实施例的音频数据的处理方法包括：

步骤301：播放第一音频数据。

在一些实施例中，第一音频数据可以为伴奏数据。在实际应用中，终端上设置有播放客户端，用户可基于播放客户端实现音乐播放及音乐录唱(如K歌)，当用户需要采用播放客户端所提供的音乐录唱功能进行歌曲录制时，可以通过针对目标音乐的点击操作，以触发针对目标音乐的编辑指令，相应的，播放客户端接收到针对目标音乐的编辑指令后，播放目标音乐的伴奏数据。这里，终端通过扬声器播放目标音乐的伴奏数据。

步骤302：在播放所述第一音频数据的过程中，进行音频数据采集，得到第二音频数据。

这里，第二音频数据至少包括第三音频数据，第三音频数据为对播放的第一音频数据进行采集所得到的音频数据。

在实际实施时，终端在播放第一音频数据的同时，进行歌曲录制。由于第一音频数据是通过终端的扬声器播放的，播放的第一音频经过空气的传播后，会被终端的声音传感器(如，麦克风)采集，因此，终端得到第二音频数据中至少包括对播放的第一音频数据进行采集所得到的音频数据。

例如，图4为本发明实施例提供的终端播放第一音频数据及采集音频数据的示意图，参见图4，终端通过扬声器播放第一音频数据，第一音频数据经过空气传播后，被终端的麦克风采集；同时，用户基于扬声器播放的第一音频数据进行针对目标音乐的演唱，终端的麦克风采集用户演唱的人声数据。

步骤303：对第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据。

在一些实施例中，第二音频数据还包括用户演唱歌曲的人声数据，对第二音频数据进行滤波时，需要在第三音频数据与人声数据之间进行权衡，即将采集的第三音频数据完全消除，则人声数据的音质会降低；而要保证人声的音质，则会有少许第三音频数据残留。在实际实施时，选择尽可能保证人声数据的音质，而允许少量的第三音频数据残留。

在一些实施例中，终端可以通过建立一个回声数学模型，利用模型中的参数对第一音频数据进行滤波。其中，模型的输入为第二音频数据，输出为第四音频数据。

在一些实施例中，终端可以通过自适应滤波器实现对第二音频数据进行滤波。这里，自适应滤波器是以输入和输出信号的统计特性的估计为依据，采取特定算法自动地调整滤波器系数，使其达到最佳滤波特性的一种算法或装置。自适应滤波器可以是连续域的或是离散域的。离散域自适应滤波器由一组抽头延迟线、可变加权系数和自动调整系数的机构组成。对于输入信号，自适应滤波器按特定的算法，更新、调整加权系数，使输出信号与期望输出信号相比较的均方误差为最小，即输出逼近期望信号。

在一些实施例中，终端可以通过以下方式对自适应滤波器的系数进行调整：终端可以根据第二音频数据包括的音频数据的数据类型，对第二音频数据进行分段处理，得到多个分段的音频数据；从多个分段的音频数据中确定目标分段的音频数据；基于目标分段的音频数据，对自适应滤波器的系数进行更新，直至收敛。

这里，目标分段的音频数据的数据类型仅包括对应第三音频数据的数据类型。

在实际实施时，可以通过双端检测的方法，根据第一音频数据包含的音频数据的数据类型，可以分为以下四种情况：仅有第三音频数据、仅有人声数据、既有第三音频数据又有人声数据、既没有第三音频数据也没有人声数据。根据这四种情况，对音频数据进行分段处理。这里，若某一段音频数据仅有第三音频数据，而没有人声数据，则表示应该将该段音频数据完全滤除，那么将该段音频数据作为目标分段的音频数据。将目标分段的音频数据输入自适应滤波器，期望输出的数据为静音数据，那么，可以根据对应目标分段的音频数据的输出数据及期望数据，对自适应滤波器的系数进行更新，以使输出数据逼近静音数据。

相应的，在一些实施例中，终端可以通过自适应滤波器对第二音频数据进行滤波：将第二音频数据输入更新后的自适应滤波器；通过更新后的自适应滤波器，对第二音频数据进行滤波，以至少滤除部分第三音频数据，得到第四音频数据。

这里，将第二音频数据输入自适应滤波器中，输出第四音频数据，以滤除第二音频数据所包含的第三音频数据。

步骤304：对第四音频数据及第一音频数据进行合成，得到目标音频文件。

在一些实施例中，在对第四音频数据及第一音频数据进行合成，得到目标音频文件之前，方法还包括：确定第一音频数据与第四音频数据之间的时延差；基于时延差，对第一音频数据进行延时处理。

这里，第一音频数据指的是没有受损的原始伴奏数据，第一音频数据通过终端的扬声器播放后，经过空气传播，再被麦克风采集进去，然后经过终端的音频链路，到达内存；由于第三音频数据复杂的产生路径，导致第三音频数据有一定的时延差。并且，由于滤波并不能完全滤除第三音频数据，使得第四音频数据中还有少许第三音频数据残留，即第四音频数据与第一音频数据也有一定的时延差，通过对第一音频数据进行延时处理，使第一音频数据与第四音频数据的播放时间相一致，如此，能够避免由于在听感上有两个伴奏。

图5为本公开实施例提供的第四音频数据与第三音频数据的对比图，参见图5，上半部分表示第一音频数据，下半部分的灰色部分表示第四音频数据中残留的第三音频数据，可知，第一音频数据的起始时间早于第四音频数据中残留的第三音频数据的起始时间，因此，需要对第一音频数据进行延时处理。

在一些实施例中，终端可以通过以下方式确定第一音频数据与第四音频数据之间的时延差：获取第一音频数据的频域特征及第四音频数据的频域特征；基于第一音频数据的频域特征与第四音频数据的频域特征，确定第一音频数据与第四音频数据之间的时延差。

这里，在实际实施时，由于第四音频数据中包括残留的第三音频数据，残留的第三音频数据与第一音频数据的频域特征应该是相似的，通过比较第一音频数据的频域特征与第四音频数据的频域特征，能够得到第一音频数据与第四音频数据之间的时延差。

在一些实施例中，终端还可以获取第一音频数据的频域特征及第二音频数据的频域特征，基于第一音频数据的频域特征与第二音频数据的频域特征，获取第一音频数据与第二音频数据的时延差；进而基于时延差，对目标音乐的伴奏数据进行延时处理。

这里，由于第四音频数据是第二音频数据进行滤波后得到的，第二音频数据与第四音频数据之间没有时延差，也即第一音频数据与第二音频数据的时延差、和第一音频数据与第四音频数据的时延差是相同的。确定第一音频数据与第二音频数据的时延差，相当于确定了目第一音频数据与第四音频数据的时延差。

在一些实施例中，终端可以通过以下方式获取第一音频数据的频域特征及第四音频数据的频域特征：获取第一音频数据对应的第一频谱，及第四音频数据对应的第二频谱；分别对第一频谱及第二频谱进行数据转换，以二进制形式表示第一频谱及第二频谱；将二进制形式表示的第一频谱作为第一音频数据的频域特征，将二进制形式表示的第二频谱作为第四音频数据的频域特征。

这里，频谱是频率分布曲线，即将音频数据的信号在频域下进行表示，频谱可以作为一个音频数据的频域特征。在实际实施时，以二进制形式表示第一频谱及第二频谱，如此，能够降低计算量。

在一些实施例中，终端可以通过以下方式第一音频数据与第四音频数据之间的时延差：对第四音频数据进行分帧处理，得到多个第一音频帧；对于各第一音频帧，分别执行以下操作：分别将第一音频帧对应的频域特征与各第二音频帧对应的频域特征进行相似度匹配，确定各第二音频帧中相似度最高的目标音频帧；第二音频帧为对第一音频数据进行分帧处理得到的；获取所述第一音频帧对应的时间点及所述目标音频帧对应的时间点；根据第一音频帧对应的时间点及目标音频帧对应的时间点，确定第一音频帧与目标音频帧的时延差。

在实际实施时，对于各第一音频帧，分别执行以下操作：分别将第一音频帧对应的频谱、与位于第一音频帧所处时间点之前的各第二音频帧进行相似度匹配，确定对各第二音频帧的相似度值，进而确定各第二音频帧中相似度最高的目标音频帧。例如，某个第一音频帧对应的时间点为0:30，那么，将该第一音频帧对应的频谱、与位于0:30之前的各第二音频帧进行相似度匹配，其中，位于0:30之前的各第二音频帧包括正处于0:30的第二音频帧。

这里，针对每个第一音频帧均确定了一个时延差，其中，时延差为第一音频帧对应的时间点及目标音频帧对应的时间点之间的差值，在实际实施时，可以分别基于各第一音频帧所对应的时延差，对对应第一音频帧的目标音频帧进行延迟处理；也可以是基于各第一音频帧所对应的时延差，确定目标时延差，以基于目标时延差，对整个第一音频数据进行延迟处理，如将各时延差的平均值作为目标时延差，将各时延差中概率最大的时延差作为目标时延差等。

在一些实施例中，终端可以通过以下方式对第四音频数据及第一音频数据进行合成：确定所述第四音频数据与第一音频数据的合成比例；基于合成比例，对所述第四音频数据与所述第一音频数据进行合成，得到所述目标音频文件。

这里，合成比例可以是第四音频数据及第一音频数据整体的合成比例；也可以是分别确定每一帧的合成比例，即针对第四音频数据中的每个第一音频帧，确定该第一音频帧与对应该第一音频帧的第二音频帧的合成比例，如，第四音频数据中的第一音频帧A与第一音频数据的第二音频帧B是相对应的，那么，确定第一音频帧A与第二音频帧B的合成比例。

在实际实施时，终端可以分别基于每一帧的合成比例，将第一音频数据的各数据帧与对应的目标音乐的伴奏数据的数据帧进行合成；或者，终端可以整体的合成比例，对第二音频数据及目标音乐的伴奏数据进行合成。

在一些实施例中，可以根据以下方式确定对应第四音频数据与第一音频数据的合成比例：基于第二音频数据与第四音频数据的数据差异，确定对应第三音频数据的抑制系数；基于抑制系数，确定对应第四音频数据与第一音频数据的合成比例。

这里，在实际实施时，第二音频数据与第四音频数据的差异为滤波过程中所滤除的部分，根据第二音频数据与第四音频数据的数据差异，能够确定抑制了第三音频数据多少能量，进而确定对应第三音频数据的抑制系数，以根据抑制系数确定合成比例。也即，消除了多少能量的第三音频数据，则增加对应能量的第一音频数据，如此，根据抑制系数确定的合成比例更加合理。

在一些实施例中，终端可以通过以下方式确定对应采集的伴奏数据第三音频数据的抑制系数：基于第二音频数据与所述第四音频数据的数据差异，确定数据差异与第二音频数据的比值；确定比值的平方，为对应第三音频数据的抑制系数。

这里，终端根据a＝(MIC-OUT)²/MIC²确定对应第三音频数据的抑制系数，其中，a为对应第三音频数据的抑制系数，MIC为第二音频数据，OUT为第四音频数据。那么，得到的第四音频数据与第一音频数据的合成比例为1：a。

在实际实施时，可以确定对应第三音频数据的每一帧的抑制系数，以确定每一帧的合成比例。终端针对第二音频数据的每个第三音频帧数据，可以执行以下操作：获取该第三音频帧数据与第四音频数据中对应该第三音频帧数据的第四音频帧数据，第三音频帧数据与第四音频帧数据对应的能量差异，然后确定能量差异与第三音频帧数据的能量的比值，将该比值的平方作为对应该第一音频帧数据的抑制系数。

在一些实施例中，终端可以通过以下方式对第四音频数据与第一音频数据进行合成：基于合成比例，确定第一音频数据的能量；基于确定的第一音频数据的能量，将对应能量的第一音频数据与第四音频数据进行合成。

这里，由于第四音频数据中包括残留的第三音频数据，需要根据合成比例，缩小第一音频数据的能量，以使最终得到的目标音频文件中的伴奏数据的能量更为合理。

在一些实施例中，在得到目标音频文件之后，还可发布(上传)目标音频文件。

继续参见图6，图6为本公开实施例提供的音频数据的处理方法的流程示意图，该音频数据的处理方法可通过终端上设置的播放客户端实现，参见图6，本公开实施例的音频数据的处理方法包括：

步骤401：播放客户端接收到用户触发的针对目标音乐的K歌指令。

这里，在实际应用中，用户可基于播放客户端的K歌界面点击针对目标音乐的K歌按键，进而触发针对目标音乐的K歌指令。

步骤402：播放客户端播放第一音频数据，并在播放第一音频数据的过程中，进行音频数据采集，得到第二音频数据。

这里，第一音频数据为目标音乐的伴奏数据，在实际实施时，播放客户端接收到针对目标音乐的K歌指令之后，加载目标音乐的伴奏数据，播放伴奏数据的同时进行音频数据采集(录制)，这里采集到的第二音频数据中包括用户针对目标音乐的人声数据及采集的伴奏数据。

其中，采集的伴奏数据是目标音乐的伴奏数据通过终端的扬声器播放后，经过空气传播，再被麦克风采集进去，然后经过终端的音频链路，到达内存的伴奏数据。

步骤403：播放客户端将第二音频数据发送给服务器。

步骤404：服务器根据第二音频数据包含的音频数据的数据类型，对第一音频数据进行分段处理，得到多个分段的音频数据。

这里，根据仅有伴奏数据、仅有人声数据、既有伴奏数据和人声数据、既没有伴奏数据也没有人声数据四种情况对第一音频数据进行分段处理。

步骤405：服务器从多个分段的音频数据中确定仅包括采集的伴奏数据的目标分段的音频数据。

步骤406：服务器基于目标分段的音频数据，对自适应滤波器的系数进行更新，直至收敛。

步骤407：服务器将第二音频数据输入更新后的自适应滤波器。

步骤408：通过更新后的自适应滤波器，对第二音频数据包含的采集的伴奏数据进行滤波，得到第四音频数据。

步骤409：服务器返回第四音频数据给播放客户端。

步骤410：播放客户端获取第一音频数据对应的第一频谱，及第四音频数据对应的第二频谱。

步骤411：播放客户端分别对第一频谱及第二频谱进行数据转换，以二进制形式表示第一频谱及第二频谱。

这里，以二进制形式表示第一频谱及第二频谱，能够降低计算量。

步骤412：播放客户端将二进制形式表示的第一频谱作为第一音频数据的频域特征，将二进制形式表示的第二频谱作为第四音频数据的频域特征。

步骤413：播放客户端对第四音频数据进行分帧处理，得到多个第一音频帧，以及对第一音频数据进行分帧处理，得到多个第二音频帧。

步骤414：播放客户端对于各第一音频帧，分别执行以下操作：分别将第一音频帧对应的频谱与各第二音频帧的频谱进行相似度匹配，确定各第二音频帧中相似度最高的目标音频帧。

步骤415：播放客户端获取第一音频帧对应的时间点及目标音频帧对应的时间点。

步骤416：播放客户端根据第一音频帧对应的时间点及目标音频帧对应的时间点，确定第一音频帧与目标音频帧的时延差。

步骤417：播放客户端获取对应各第一音频帧的时延差的平均值，作为目标时延差。

步骤418：播放客户端基于目标时延差，对第一音频数据进行延时处理。

步骤419：播放客户端根据a＝(MIC-OUT)²/MIC²，确定对应第三音频数据的抑制系数。

这里，a为对应采集的伴奏数据的抑制系数，MIC为第二音频数据，OUT为第四音频数据。

步骤420：播放客户端基于抑制系数，确定第一音频数据的能量。

步骤421：播放客户端基于确定的第一音频数据的能量，将对应能量的第一音频数据与第四音频数据进行合成，得到目标音频文件。

继续对本公开实施例提供的音频数据的处理装置的软件实现进行说明。图7为本公开实施例提供的音频数据的处理装置的组成结构示意图，参见图7，本公开实施例音频数据的处理装置50包括：

播放单元51，用于播放第一音频数据；

采集单元52，用于在播放所述第一音频数据的过程中，进行音频数据采集，得到第二音频数据，所述第二音频数据至少包括第三音频数据，所述第三音频数据为对播放的所述第一音频数据进行采集得到的音频数据；

滤波单元53，用于对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据；

合成单元54，用于对所述第二音频数据进行滤波，以至少滤除部分所述第三音频数据，得到第四音频数据。

在一些实施例中，所述滤波单元53，还用于根据所述第二音频数据包括的音频数据的数据类型，对所述第二音频数据进行分段处理，得到多个分段的音频数据；

将所述第二音频数据输入更新后的自适应滤波器；

在一些实施例中，所述装置还包括：

基于所述时延差，对所述第一音频数据进行延时处理。

在一些实施例中，所述处理单元，还用于获取所述第一音频数据的频域特征及所述第四音频数据的频域特征；

基于所述第一音频数据的频域特征与所述第四音频数据的频域特征，确定所述第一音频数据与所述第四音频数据的时延差。

在一些实施例中，所述处理单元，还用于获取所述第一音频数据对应的第一频谱，及所述第四音频数据对应的第二频谱；

在一些实施例中，所述处理单元，还用于对所述第四音频数据进行分帧处理，得到多个第一音频帧；

对于各所述第一音频帧，分别执行以下操作：

在一些实施例中，所述合成单元54，还用于确定所述第四音频数据与所述第一音频数据的合成比例；

在一些实施例中，所述合成单元54，还用于获取所述第二音频数据与所述第四音频数据的数据差异；

在一些实施例中，所述合成单元54，还用于基于所述第二音频数据与所述第四音频数据的数据差异，确定所述数据差异与所述第二音频数据的比值；

在一些实施例中，所述合成单元54，还用于基于所述合成比例，确定所述第一音频数据的能量；

根据本公开的一个或多个实施例，提供了一种音频数据的处理方法，包括：

播放第一音频数据；

在播放所述第一音频数据的过程中，进行音频数据采集，得到第二音频数据，所述第二音频数据至少包括第三音频数据，所述第三音频数据为对播放的所述第一音频数据进行采集所得到的音频数据；

对所述第四音频数据及所述第一音频数据进行合成，得到目标音频文件。

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，还包括：

将所述第二音频数据输入更新后的自适应滤波器；

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，在所述对所述第四音频数据与所述第一音频数据进行合成之前，所述方法还包括：

确定所述第一音频数据与所述第四音频数据之间的时延差；

基于所述时延差，对所述第一音频数据进行延时处理。

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，所述确定所述第一音频数据与所述第四音频数据之间的时延差，包括：

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，所述获取所述第一音频数据的频域特征及所述第四音频数据的频域特征，包括：

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，所述基于所述第一音频数据与所述第四音频数据的频域特征，获取所述第一音频数据与所述第四音频数据之间的时延差，包括：

对所述第四音频数据进行分帧处理，得到多个第一音频帧；

对于各所述第一音频帧，分别执行以下操作：

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，所述对所述第四音频数据及所述第一音频进行合成，得到目标音频文件，包括：

确定所述第四音频数据与所述第一音频数据的合成比例；

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，所述确定所述第四音频数据与所述第一音频数据的合成比例，包括：

获取所述第二音频数据与所述第四音频数据的数据差异；

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，所述基于所述第二音频数据与所述第四音频数据的数据差异，确定对应所述第三音频数据的抑制系数，包括：

根据本公开的一个或多个实施例，提供了上述音频数据的处理方法，所述基于所述合成比例，对所述第四音频数据与所述第一音频数据进行合成，得到所述目标音频文件，包括：

基于所述合成比例，确定所述第一音频数据的能量；

根据本公开的一个或多个实施例，提供了一种音频数据的处理装置，包括：

播放单元，用于播放第一音频数据；

根据本公开的一个或多个实施例，提供了一种电子设备，包括：

存储器，用于存储可执行指令；

根据本公开的一个或多个实施例，提供了一种存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本公开实施例提供的音频数据的处理方法。

以上描述仅为本公开的实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种音频数据的处理方法，其特征在于，所述方法包括：

播放第一音频数据；

在播放所述第一音频数的过程中，进行音频数据采集，得到第二音频数据，所述第二音频数据至少包括第三音频数据，所述第三音频数据为对播放的所述第一音频数据进行采集所得到的音频数据；

2.如权利要求1所述的方法，其特征在于，所述方法，还包括：

从所述多个分段的音频数据中确定目标分段的音频数据，所述目标分段的音频数据的数据类型仅包括对应所述第三音频数据的数据类型；

基于目标分段的音频数据，对自适应滤波器的系数进行更新，直至收敛；

将所述第二音频数据输入更新后的自适应滤波器；

3.根据权利要求1所述的方法，其特征在于，在所述对所述第四音频数据与所述第一音频数据进行合成之前，所述方法还包括：

确定所述第一音频数据与所述第四音频数据之间的时延差；

基于所述时延差，对所述第一音频数据进行延时处理。

4.如权利要求3所述的方法，其特征在于，所述确定所述第一音频数据与所述第四音频数据之间的时延差，包括：

5.如权利要求4所述的方法，其特征在于，所述获取所述第一音频数据的频域特征及所述第四音频数据的频域特征，包括：

6.如权利要求4所述的方法，其特征在于，所述基于所述第一音频数据的频域特征与所述第四音频数据的频域特征，确定所述第一音频数据与所述第四音频数据之间的时延差，包括：

对所述第四音频数据进行分帧处理，得到多个第一音频帧；

对于各所述第一音频帧，分别执行以下操作：

7.根据权利要求1所述的方法，其特征在于，所述对所述第四音频数据及所述第一音频进行合成，得到目标音频文件，包括：

确定所述第四音频数据与所述第一音频数据的合成比例；

8.如权利要求7所述的方法，其特征在于，所述确定所述第四音频数据与所述第一音频数据的合成比例，包括：

基于所述抑制系数，确定对应所述第四音频数据与所述第一音频数据的合成比例。

9.如权利要求8所述的方法，其特征在于，所述基于所述第二音频数据与所述第四音频数据的数据差异，确定对应所述第三音频数据的抑制系数，包括：

10.如权利要求7所述的方法，其特征在于，所述基于所述合成比例，对所述第四音频数据与所述第一音频数据进行合成，得到所述目标音频文件，包括：

基于所述合成比例，确定所述第一音频数据的能量；

11.一种音频数据的处理装置，其特征在于，所述装置包括：

播放单元，用于播放第一音频数据；

12.如权利要求11所述的装置，其特征在于，

所述滤波单元，还用于根据所述第二音频数据包括的音频数据的数据类型，对所述第二音频数据进行分段处理，得到多个分段的音频数据；

将所述第二音频数据输入更新后的自适应滤波器；

13.如权利要求11所述的装置，其特征在于，所述装置还包括：

处理单元，用于确定获取所述第一音频数据与所述第四音频数据之间的时延差；

基于所述时延差，对所述第一音频数据进行延时处理。

14.如权利要求13所述的装置，其特征在于，

所述处理单元，还用于获取所述第一音频数据的频域特征及所述第四音频数据的频域特征；

15.如权利要求14所述的装置，其特征在于，

所述处理单元，还用于获取所述第一音频数据对应的第一频谱，及所述第四音频数据对应的第二频谱；

16.如权利要求14所述的装置，其特征在于，

所述处理单元，还用于对所述第四音频数据进行分帧处理，得到多个第一音频帧；

对于各所述第一音频帧，分别执行以下操作：

17.如权利要求11所述的装置，其特征在于，

所述合成单元，还用于确定所述第四音频数据与所述第一音频数据的合成比例；

18.如权利要求11所述的装置，其特征在于，获取所述第二音频数据与所述第四音频数据的数据差异；

19.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述可执行指令时，实现如权利要求1至11任一项所述的音频数据的处理方法。

20.一种存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至11任一项所述的音频数据的处理方法。