CN110277105B

CN110277105B - 消除背景音频数据的方法、装置和系统

Info

Publication number: CN110277105B
Application number: CN201910605628.7A
Authority: CN
Inventors: 姚郅威
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2021-08-13
Anticipated expiration: 2039-07-05
Also published as: CN110277105A

Abstract

本申请公开了一种消除背景音频数据的方法、装置和系统，属于计算机技术领域。所述方法包括：获取当前的背景音频数据的音频特征信息；向服务器发送背景音频数据的音频特征信息；对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；向服务器发送合成视频数据；提取合成视频数据中的合成音频数据；在音频库中，查找对应的音频特征信息与背景音频数据的音频特征信息相匹配的目标音频数据；基于目标音频数据，对合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。采用本申请，能够实现消除背景音频数据。

Description

消除背景音频数据的方法、装置和系统

技术领域

本申请涉及计算机技术领域，特别涉及一种消除背景音频数据的方法、装置和系统。

背景技术

近几年来直播行业迅速发展，观看直播已经是人们的一种非常常用的娱乐方式，但主播在直播中可能存在些违规内容。

目前监控主播直播内容是否违规的技术是通过把直播视频里的音频分离出来进行文字识别，再通过检测识别出的文字来确定直播内容是否违规。

在实现本申请的过程中，发明人发现相关技术存在以下问题：直播监控技术是否有效主要依赖音频转出文字是否准确，而主播直播时用的背景音乐会影响音频转为文字的结果，使音频转文字的准确率降低，进而降低直播平台对直播内容的监控有效性。从而，急需一种能够消除背景音频数据的方法。

发明内容

本申请实施例提供了一种消除直播音频流中背景音乐的方法和装置，能够准确实时的消除直播音频中的背景音乐，进而提高直播音频识别转为文字的准确率。所述技术方案如下：

一方面，提供了一种消除背景音频的方法，所述方法应用于终端，所述方法包括：

获取当前的背景音频数据的音频特征信息，向服务器发送所述背景音频数据的音频特征信息；

对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对所述合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；

向服务器发送所述合成视频数据。

可选的，获取当前的背景音频数据的音频特征信息，包括：

在开始播放背景音频数据或切换背景音频数据后，每经过预设的周期时长，对当前的周期时长内的背景音频数据进行特征提取，生成当前的周期时长内的背景音频数据的音频特征信息。

可选的，所述获取当前的背景音频数据的音频特征信息，包括：

当开始播放背景音频数据或切换背景音频数据时，获取当前的背景音频数据的歌曲信息，对所述歌曲信息进行特征提取，得到当前的背景音频数据的音频特征信息。

可选的，所述歌曲信息包括歌曲名、专辑名、歌手名、完整歌曲时长中的一种或多种信息。

另一方面，提供一种消除背景音频数据的方法，所述方法应用于服务器，所述方法包括：

接收终端发送的背景音频数据的音频特征信息，并接收终端发送的合成视频数据；

提取所述合成视频数据中的合成音频数据；

在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据；

基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

可选的，所述音频库中的音频数据是按照预设的时长对完整音频数据进行切分得到的音频数据，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据进行特征提取得到的音频特征信息；

所述接收终端发送的背景音频数据的音频特征信息，包括：

接收终端在开始播放背景音频数据或切换背景音频数据后按照预设的周期时长发送的当前周期时长内的背景音频数据的音频特征信息，其中，所述预设的周期时长等于所述预设的时长，所述当前周期时长内的背景音频数据的音频特征信息是对当前周期时长内的背景音频数据进行特征提取得到的音频特征信息。

可选的，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据的歌曲信息进行特征提取得到的音频特征信息。

所述接收终端发送的背景音频数据的音频特征信息，包括：

接收终端在开始播放背景音频数据或切换背景音频数据时发送的背景音频数据的音频特征信息，其中，所述背景音频数据的音频特征信息是对所述背景音频数据的歌曲信息进行特征提取得到的音频特征信息；

所述基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据，包括：

在所述合成音频数据中，获取接收时间在所述背景音频数据的音频特征信息的接收时间之后的合成音频数据，作为待处理的合成音频数据；

基于预设的时长，对所述待处理的合成音频数据进行切分，得到子合成音频数据，基于预设的时长，对所述目标音频数据进行切分，得到子目标音频数据；

按照子目标音频数据的时间顺序和子合成音频数据的时间顺序，基于每个子目标音频数据，分别对每个子合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

可选的，所述方法还包括：

对消除处理后的音频数据，进行违规内容分析处理。

再一方面，提供了一种消除背景音频的装置，所述装置应用于终端，包括：

获取模块，被配置为获取当前的背景音频数据的音频特征信息，向服务器发送所述背景音频数据的音频特征信息；

合成模块，被配置为对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对所述合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；

发送模块，被配置为向服务器发送所述合成视频数据，以使所述服务器提取所述合成视频数据中的合成音频数据，在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据，基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

可选的，所述获取模块，被配置为：

可选的，所述获取模块中，所述歌曲信息包括歌曲名、专辑名、歌手名、完整歌曲时长中的一种或多种信息。

另一方面，提供一种消除背景音频数据的装置，所述装置应用于服务器，所述装置包括：

接收模块，被配置为接收终端发送的背景音频数据的音频特征信息，并接收终端发送的合成视频数据；

提取模块，被配置为提取所述合成视频数据中的合成音频数据；

查找模块，被配置为在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据；

消除模块，被配置为基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

可选的，所述音频库中的音频数据是按照预设的时长对完整音频数据进行切分得到的音频数据，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据进行特征提取得到的音频特征信息。

所述接收模块，被配置为：

接收终端在开始播放背景音频数据或切换背景音频数据时发送的背景音频数据的音频特征信息，其中，所述背景音频数据的音频特征信息是对所述背景音频数据的歌曲信息进行特征提取得到的音频特征信息。

所述消除模块，被配置为：

按照子目标音频数据的时间顺序和子合成音频数据的时间顺序，基于每个子目标音频数据，分别对每个子合成音频数据进行背景音频数据消除，得到消除处理后的子音频数据。

可选的，所述装置还包括处理模块，被配置为：

对消除处理后的音频数据，进行违规内容分析处理。

再一方面，提供一种消除背景音频的系统，所述系统包括终端和服务器，其中：

所述终端，用于获取当前的背景音频数据的音频特征信息，向所述服务器发送所述背景音频数据的音频特征信息；对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对所述合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；向所述服务器发送所述合成视频数据；

所述服务器，用于接收所述终端发送的背景音频数据的音频特征信息，并接收所述终端发送的合成视频数据；提取所述合成视频数据中的合成音频数据；在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据；基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

再一方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的消除背景音频的方法所执行的操作。

再一方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上所述的消除背景音频的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例，基于背景音频数据的音频特征信息，查找与背景音频数据相同的目标音频数据，进而基于目标音频数据对合成音频数据中的背景音频数据进行消除。可见，本申请实施例提供了一种能够实现消除背景音频数据的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的消除背景音频数据的方法流程图；

图3是本申请实施例提供的消除背景音频数据的方法流程图；

图4是本申请实施例提供的消除背景音频数据的方法流程图；

图5是本申请实施例提供的消除背景音频数据的方法示意图；

图6是本申请实施例提供的消除背景音频数据的方法流程图；

图7是本申请实施例提供的消除背景音频数据的方法流程图；

图8是本申请实施例提供的消除背景音频数据的装置结构示意图；

图9是本申请实施例提供的消除背景音频数据的装置结构示意图；

图10是本申请实施例提供的终端结构示意图；

图11是本申请实施例提供的服务器结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，本申请提供的消除背景音频数据的方法可以由终端和服务器共同实现。终端可以运行有用于视频录制的应用程序，如直播应用程序，终端可以具备摄像头、麦克风、耳机等部件，终端具有通信功能，可以接入互联网，终端可以是手机、平板电脑、智能穿戴设备、台式计算机、笔记本电脑等。服务器可以是上述应用程序的后台服务器，服务器可以与终端建立通信。该服务器可以是一个单独的服务器也可以是一个服务器组，如果是单独的服务器，该服务器可以负责下述方案中的所有处理，如果是服务器组，服务器组中的不同服务器分别可以负责下述方案中的不同处理，具体的处理分配情况可以由技术人员根据实际需求任意设置，此处不再赘述。

本申请实施例提供的消除背景音频数据的方法，可以针对直播视频数据或录播视频数据消除背景音频数据。本申请实施例中直播视频数据为例进行方案的详细说明，相应的应用程序为直播应用程序，其它情况与之类似，不再赘述。直播应用程序具有在直播过程中插入背景音频的功能。终端上还可以安装有音频播放应用程序。直播应用程序中设置有用于获取背景音频数据的接口，该接口通过系统程序获取音频播放应用程序正在播放的音频数据，将音频数据作为直播过程中的背景音频数据。利用该功能，主播可以使用音频播放应用程序播放任意歌曲或音乐作为背景音乐，在背景音乐的衬托下与观众聊天互动，另外，主播也可以应用音频播放应用程序播放伴奏，自己随着伴奏演唱歌曲。

在直播过程中，直播应用程序在获取背景音频数据的同时，还会获取麦克风的采集音频数据，并获取摄像头的采集图像数据，将背景音频数据、采集音频数据和采集图像数据，合成为合成视频数据。然后将合成视频数据发送给服务器。终端向服务器传输合成视频数据，而不是将背景音频数据、采集音频数据和采集图像数据分别传输给服务器，是为了减少传输资源的浪费。然后，这样服务器得到合成视频数据之后，无法将背景音频数据从合成视频数据中分离处理。通过本申请实施例提供的消除背景音频数据的方法，就可以将背景音频数据消除，从而得到较为纯净的与主播的采集音频数据更为接近的音频数据，以方便服务器进行后续的文字识别和违规内容分析。

图2是本申请实施例提供的一种消除背景音频数据的方法中终端侧的流程图。参见图2，该实施例包括：

步骤201，获取当前的背景音频数据的音频特征信息，向服务器发送背景音频数据的音频特征信息；

步骤202，对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；

步骤203，向服务器发送合成视频数据。

图3是本申请实施例提供的一种消除背景音频数据的方法中服务器侧的流程图。参见图3，该实施例包括：

步骤301，接收终端发送的背景音频数据的音频特征信息，并接收终端发送的合成视频数据；

步骤302，提取合成视频数据中的合成音频数据；

步骤303，在音频库中，查找对应的音频特征信息与背景音频数据的音频特征信息相匹配的目标音频数据；

步骤304，基于目标音频数据，对合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

图4是本申请实施例提供的一种消除背景音频数据的方法中终端与服务器之间交互的流程图。参见图4，该实施例包括：

步骤401，终端获取当前的背景音频数据的音频特征信息。

在实施中，主播操作终端启动直播应用程序，并进行开播操作。在直播过程中，主播可以启动音频播放应用程序，在音频播放应用程序中选择自己想要播放的歌曲或者歌曲列表，并操作音频播放应用程序开始播放。此时直播应用程序可以通过用于获取背景音频数据的接口，通过系统程序，获取音频播放应用程序播放的歌曲的音频数据，此时获取音频数据是在播放过程中以数据流的形式获取。直播应用程序将获取到的音频数据作为直播视频的背景音频数据，用于合成直播视频数据。另外，该接口还可以在每次播放新的音频数据时，获取到该音频数据对应的歌曲信息，如歌曲名、专辑名、歌手名、完整歌曲时长等。

基于上述接口获取的数据，直播应用程序可以进一步生成背景音频数据的音频特征信息。这里，音频特征信息可以是对部分背景音频数据进行特征提取得到，也可以对完整的背景音频数据进行特征提取得到，还可以对背景音频数据中的歌曲信息进行特征提取得到。特征提取的方式可以多种多样，例如，可以采用哈希算法计算部分背景音频数据、完整背景音频数据或歌曲信息的哈希值，当然也可以采用其他算法。

步骤402，终端向服务器发送背景音频数据的音频特征信息。

步骤403，终端对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对合成音频数据和当前的采集图像数据进行合成，得到合成视频数据。

在实施中，在直播过程中，主播会进行表演、或者与观众互动，终端的摄像头会拍摄主播的视频，得到采集图像数据，终端的麦克风会录制主播的声音，得到采集音频数据，采集图像数据和采集音频数据都是数据流的形式。直播应用程序一方面通过上述接口获取背景音频数据，另一方面，还向系统程序获取麦克风的采集音频数据以及摄像头的采集图像数据。进一步直播应用程序对背景音频数据和采集音频数据进行实时合成，得到合成音频数据。然后对合成音频数据和采集图像数据进行实时合成，得到合成视频数据，即直播视频数据。

步骤404，终端向服务器发送合成视频数据。

在实施中，终端将合成得到的直播视频数据，实时发送给服务器，由服务器将直播视频数据发送给该主播的直播间中的各个观众的终端。

步骤405，服务器提取合成视频数据中的合成音频数据。

在实施中，服务器接收到合成视频数据后，可以通过FFmpeg（一种对视频流进行图像、音频分离的工具），从接收到的合成视频数据中，提取出合成音频数据。即得到主播使用的背景音频数据和麦克风的采集音频数据合成的合成音频数据。该合成音频数据即为终端侧主播选择的背景音频数据与麦克风的采集音频数据合成得到的音频数据。

步骤406，服务器在音频库中，查找对应的音频特征信息与背景音频数据的音频特征信息相匹配的目标音频数据。

在实施中，服务器中可以建立有音频库，音频库中存储这大量的音频数据，对于每个音频数据，还可以存储有音频特征信息。对于音频数据存储，有几种可能的情况：情况一，音频库中存储着按预设的时长对完整音频数据（即完整歌曲的音频数据）进行切分得到的音频数据；情况二，音频库中存储的音频数据均为完整音频数据。对于音频特征信息的生成，有几种可能的情况：情况一，对于每个音频数据，对音频数据的歌曲信息进行特征提取得到音频特征信息，情况二，音频数据是上述切分得到的音频数据，对音频数据进行特征提取得到音频特征信息；情况三，音频数据是上述的完整音频数据，对音频数据进行特征提取得到音频特征信息。

当服务器获取到背景音频数据的音频特征信息之后，服务器，可以在音频库中存储的各音频特征信息中，查找背景音频数据的音频特征信息，当查找到与背景音频数据的音频特征信息相同的某个音频特征信息时，确定该音频特征信息对应的音频数据（即上述目标音频数据）。

步骤407，服务器基于目标音频数据，对合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

在实施中，服务器可以基于谱减算法以及维纳滤波器算法，借助目标音频数据对合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。然后，可以对消除处理后的音频数据，进行违规内容分析处理。具体可以对消除处理后的音频数据进行文字识别，得到对应的文本数据。然后在文本数据中进行违规关键词查找，如果查找到违规关键词，则确定该直播存在违规内容，如果未查找到违规关键词，则确定该直播不存在违规内容。当确定直播存在违规内容，服务器可以向相关的管理设备发送报警消息，报警消息中可以携带有直播视频数据对应的直播间的标识和对应的主播账户的标识。图5是本申请实施例提供的一种消除背景音频数据方法的示意图，对上述的整体过程进行示意。

图6是本申请实施例提供的一种消除背景音频数据的方法中终端与服务器之间交互的流程图。参见图6，该实施例包括：

步骤601，终端在开始播放背景音频数据或切换背景音频数据后，每经过预设的周期时长，对当前的周期时长内的背景音频数据进行特征提取，生成当前的周期时长内的背景音频数据的音频特征信息。

在实施中，主播操作终端启动直播应用程序，并进行开播操作。在直播过程中，主播可以启动音频播放应用程序，在音频播放应用程序中选择自己想要播放的歌曲或者歌曲列表，并操作音频播放应用程序开始播放。此时直播应用程序可以通过用于获取背景音频数据的接口，会通过系统程序，获取音频播放应用程序播放的歌曲的音频数据，此时获取音频数据是在播放过程中以数据流的形式获取。直播应用程序将获取到的音频数据作为直播视频的背景音频数据，用于合成直播视频数据。另外，在检测到开始播放背景音频数据或切换背景音频数据时，终端可以向服务器发送播放开始消息，用于指示服务器终端开始播放背景音频数据或切换背景音频数据。

技术人员可以预先设置周期时长，并记录在直播应用程序中。当主播操作终端开始播放背景音频数据或切换背景音频数据后，每当达到一个周期时长时，对当前周期时长内背景音频数据提取特征信息。例如，可以将周期时长设置为10秒。终端首先将由上述接口获取的背景音频数据以10秒为周期时长进行实时切分，即终端每获取10秒的背景音频数据就会对背景音频数据切分，然后，对这段10秒的背景音频数据进行音频数据特征提取，并将提取到的音频特征信息实时发送给服务器。

其中，特征提取的方式可以多种多样，例如，可以采用哈希算法计算当前周期时长内背景音频数据的哈希值，当然也可以采用其他算法。

步骤602，终端向服务器发送背景音频数据的音频特征信息。

终端在提取背景音频数据的音频特征信息后，可以生成特征通知消息，将音频特征信息添加到特征通知消息中，发送给服务器。

步骤603，终端对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对合成音频数据和当前的采集图像数据进行合成，得到合成视频数据。

步骤604，终端向服务器发送合成视频数据。

需要说明的是，实时生成合成视频数据并发送给服务器的处理，与周期生成音频特征信息发送给服务器的处理，可以并行进行，所以，步骤501-502的处理与步骤603-604的处理之间没有必然的先后关系。

步骤605，服务器提取合成视频数据中的合成音频数据。

在实施中，服务器接收到合成视频数据后，可以实时通过FFmpeg（一种对视频流进行图像、音频分离的工具），从接收到的合成视频数据中，提取出合成音频数据。即得到主播使用的背景音频数据和麦克风的采集音频数据合成的合成音频数据。该合成音频数据即为终端侧主播选择的背景音频数据与麦克风的采集音频数据合成得到的音频数据。

当服务器接收到上述播放开始消息后，可以确定终端已经开始播放新的背景音频数据，此时，服务器可以开始对该时刻之后提取的合成音频数据，按照预设的周期时长进行切分，每经过一个周期时长，切分出一段合成音频数据。例如，周期时长为10秒，服务器自接收到播放开始消息开始，每经过10秒对这10秒内提取的合成音频数据进行切分，得到一段合成音频数据，然后进行后续的背景音频数据消除。

步骤606，服务器在音频库中，查找对应的音频特征信息与背景音频数据的音频特征信息相匹配的目标音频数据。

其中，音频库中的音频数据是按照预设的时长对完整音频数据进行切分得到的音频数据，音频库中的音频数据的音频特征信息是对音频库中的音频数据进行特征提取得到的音频特征信息。预设的时长等于预设的周期时长。

在实施中，服务器中建立的音频库中存储这大量的音频数据和音频特征信息技术人员可以获取大量的完整音频数据（即完整歌曲的音频数据），然后按照预设的时长对完整音频数据进行切分得到音频数据，预设的时长与上述周期时长相等，例如，预设的时长和周期时长均为10秒。这样每个音频数据是完整音频数据中的一段。然后，针对每个音频数据，进行特征提取，得到每个音频数据的音频特征信息，然后，将音频特征信息与音频数据对应存储。服务器的周期时长和终端的周期时长是预先约定好的相等的周期时长。这样，终端每生成一个周期时长的音频特征信息，服务器就会截取一个周期时长的合成音频数据。

例如，技术人员对完整歌曲音频数据，按照10秒的时长进行切分，得到0-10秒的音频数据、10-20秒的音频数据、20秒-30秒的音频数据……，然后对切分得到的每个音频数据，基于哈希算法，计算哈希值，然后，在音频库中将哈希值与音频数据，对应的进行存储。

在终端进行直播并播放背景音频数据的过程中，每当达到周期时长时，终端会向服务器发送当前周期时长内背景音频数据的音频特征信息。当服务器接收到上述播放开始消息后，可以确定终端已经开始播放新的背景音频数据，服务器可以开始计时，每当经过预设的周期时长，将该周期时长内提取的合成音频数据切分下来。此外，每当服务器接收到音频特征信息之后，服务器可以在音频库中存储的各音频特征信息中，查找背景音频数据的音频特征信息，当查找到与背景音频数据的音频特征信息相同的某个音频特征信息时，确定该音频特征信息对应的音频数据（即上述目标音频数据）。此时查找到的目标音频数据与切分下来的合成音频数据中的背景音频数据相同。

步骤607，服务器基于目标音频数据，对合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

在实施中，服务器可以基于谱减算法以及维纳滤波器算法，借助目标音频数据对当前周期时长内的合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。然后，可以对消除处理后的音频数据，进行违规内容分析处理。具体可以对消除处理后的音频数据进行文字识别，得到对应的文本数据。然后在文本数据中进行违规关键词查找，如果查找到违规关键词，则确定该直播存在违规内容，如果未查找到违规关键词，则确定该直播不存在违规内容。当确定直播存在违规内容，服务器可以向相关的管理设备发送报警消息，报警消息中可以携带有直播视频数据对应的直播间的标识和对应的主播账户的标识。

当达到下一个周期时长的时候，服务器继续进行上述处理对下一个周期时长内的合成音频数据进行背景音频音频和数据消除。

图7是本申请实施例提供的一种消除背景音频数据的方法中终端与服务器之间交互的流程图。参见图7，该实施例包括：

步骤701，终端当开始播放背景音频数据或切换背景音频数据时，获取当前的背景音频数据的歌曲信息，对所述歌曲信息进行特征提取，得到当前的背景音频数据的音频特征信息。

其中，所述歌曲信息包括歌曲名、专辑名、歌手名、完整歌曲时长中的一种或多种信息。

在实施中，主播操作终端启动直播应用程序，并进行开播操作。在直播过程中，主播可以启动音频播放应用程序，在音频播放应用程序中选择自己想要播放的歌曲或者歌曲列表，并操作音频播放应用程序开始播放。此时直播应用程序可以通过用于获取背景音频数据的接口，通过系统程序，在每次播放新的音频数据时，获取到该音频数据对应的歌曲信息，如歌曲名、专辑名、歌手名、完整歌曲时长中的一种或多种信息，然后，对获取到的歌曲信息进行特征提取。例如，主播播放了一首流行歌曲作为自己直播的背景音乐，上述接口会在主播选择播放这首流行歌曲的同时，获取该流行歌曲的歌曲信息，如歌曲名《青花瓷》、专辑名《我很忙》、歌手名周杰伦、完整歌曲时长三分钟五十九秒等。直播应用程序将获取的歌曲信息进行特征提取，从而，获得音频数据的音频特征信息。其中，特征提取的方式可以多种多样，例如，可以采用哈希算法计算当前播放音频数据对应的歌曲信息的哈希值，当然也可以采用其他算法。

步骤702，终端向服务器发送背景音频数据的音频特征信息。

步骤703，终端对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对合成音频数据和当前的采集图像数据进行合成，得到合成视频数据。

步骤704，终端向服务器发送合成视频数据。

需要说明的是，实时生成合成视频数据并发送给服务器的处理，与生成音频特征信息发送给服务器的处理，可以并行进行，所以，步骤701-702的处理与步骤703-704的处理之间没有必然的先后关系。

步骤705，服务器提取合成视频数据中的合成音频数据。

在实施中，服务器接收到合成视频数据后，可以通过实时FFmpeg（一种对视频流进行图像、音频分离的工具），从接收到的合成视频数据中，实时提取出合成音频数据。即得到主播使用的背景音频数据和麦克风的采集音频数据合成的合成音频数据。该合成音频数据即为终端侧主播选择的背景音频数据与麦克风的采集音频数据合成得到的音频数据。

步骤706，服务器在音频库中，查找对应的音频特征信息与背景音频数据的音频特征信息相匹配的目标音频数据。

其中，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据的歌曲信息进行特征提取得到的音频特征信息。

在实施中，服务器中建立有音频库，音频库中存储着大量的音频数据和音频数据的音频特征信息。其中，音频数据为完整音频数据，即没有切分过的整首歌曲的音频数据，其中音频特征信息是对音频数据的歌曲信息进行特征提取所得到的。

例如，技术人员可以获取大量的完整音频数据（即完整歌曲的音频数据）。此外，技术人员还会获取每个音频数据对应的歌曲信息，如歌曲名、专辑名、歌手名、完整歌曲时长中的一种或多种信息。将所获取的歌曲信息进行特征提取，从而，获得音频数据对应的音频特征信息，并将音频特征信息与音频数据对应存储到音频库中。

当服务器接收到终端发送的背景音频数据的音频特征信息后，可以确定终端已经开始播放新的背景音频数据，服务器可以在音频库中存储的音频特征信息中，查找背景音频数据的音频特征信息，当查找到与背景音频数据的音频特征信息相同的某个音频特征信息时，确定该音频特征信息对应的音频数据（即上述目标音频数据）。

步骤707，服务器在合成音频数据中，获取接收时间在背景音频数据的音频特征信息的接收时间之后的合成音频数据，作为待处理的合成音频数据。

当服务器接收到终端发送的背景音频数据的音频特征信息后，可以确定终端已经开始播放新的背景音频数据，此时，服务器将该时刻之后提取出来的合成音频数据作为待处理的合成音频数据。

步骤708，服务器基于预设的时长，对待处理的合成音频数据进行切分，得到子合成音频数据，基于预设的时长，对目标音频数据进行切分，得到子目标音频数据。

在实施中，服务器实时提取合成音频数据的过程中，自接收到终端发送的音频特征信息开始，每经过预设的时长就对该时长内提取的合成音频数据进行切分，切分得到的合成音频数据可称作子合成音频数据。预设时长可以由技术人员基于实时性的需求任意设置。例如，预设时长为10秒，切分得到在接收音频特征信息后0-10秒的子合成音频数据、10-20秒的子合成音频数据、20秒-30秒的子合成音频数据等。另外，可以将上述查找得到的目标音频数据，按照同样的预设时长进行切分，得到子目标音频数据。例如，按照10秒对目标音频数据进行切分，得到0-10秒的子目标音频数据、10-20秒的子目标音频数据、20秒-30秒的子目标音频数据等。

步骤709，服务器按照子目标音频数据的时间顺序和子合成音频数据的时间顺序，基于每个子目标音频数据，分别对每个子合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

当服务器接收到终端发送的音频特征信息后，即可确定终端播放背景音乐的时间点，在此时间点后，服务器每切分一个子合成音频数据，就可以获取在时间顺序上与该子合成音频数据相对应的子目标音频数据。然后，服务器可以基于谱减算法以及维纳滤波器算法，借助子目标音频数据对子合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。例如，服务器接收到终端发送的音频特征信息后，切分得到0-10秒的子合成音频数据，获取目标音频中0-10秒的子目标音频数据，进行背景音频数据消除，得到消除处理后的音频数据。基于上述处理，每经过一个预设的时长，就能够得到一段消除处理后的音频数据。

每次得到消除处理后的音频数据后，可以对消除处理后的音频数据，进行违规内容分析处理。具体可以对消除处理后的音频数据进行文字识别，得到对应的文本数据。然后在文本数据中进行违规关键词查找，如果查找到违规关键词，则确定该直播存在违规内容，如果未查找到违规关键词，则确定该直播不存在违规内容。当确定直播存在违规内容，服务器可以向相关的管理设备发送报警消息，报警消息中可以携带有直播视频数据对应的直播间的标识和对应的主播账户的标识。

本申请实施例提供一种消除背景音频数据的装置，该装置可以是上述实施例中的终端，如图8所示，所述装置包括：

获取模块810，被配置为获取当前的背景音频数据的音频特征信息，向服务器发送所述背景音频数据的音频特征信息；

合成模块820，被配置为对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对所述合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；

发送模块830，被配置为向服务器发送所述合成视频数据，以使所述服务器提取所述合成视频数据中的合成音频数据，在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据，基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

可选的，所述获取模块810，被配置为：

本申请实施例提供一种消除背景音频数据的装置，该装置可以是上述实施例中的服务器，如图9所示，所述装置包括：

接收模块910，被配置为接收终端发送的背景音频数据的音频特征信息，并接收终端发送的合成视频数据；

提取模块920，被配置为提取所述合成视频数据中的合成音频数据；

查找模块930，被配置为在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据；

消除模块940，被配置为基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

所述接收模块910，被配置为：

所述消除模块940，被配置为：

可选的，所述装置还包括处理模块，被配置为：

对消除处理后的音频数据，进行违规内容分析处理。

本申请实施例还提供一种消除背景音频的系统，其特征在于所述系统包括终端和服务器，其中：

所述终端，用于获取当前的背景音频数据的音频特征信息，向所述服务器发送所述背景音频数据的音频特征信息；对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对所述合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；向所述服务器发送所述合成视频数据。

需要说明的是：上述实施例提供的消除背景音频数据的装置在消除背景音频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的消除背景音频数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的终端1000的结构框图。该终端1000可以是：智能手机、平板电脑、MP3播放器（Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的消除背景音频数据方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi(Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1004还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS（LocationBased Service，基于位置的服务）。定位组件1008可以是基于美国的GPS（GlobalPositioning System，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processingunits，CPU）1101和一个或一个以上的存储器1102，其中，所述存储器1102中存储有至少一条指令，所述至少一条指令由所述处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中消除背景音频数据的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种消除背景音频数据的方法，其特征在于，所述方法应用于终端，所述方法包括：

在检测到开始播放背景音频数据或切换背景音频数据时，向服务器发送播放开始消息，获取当前的背景音频数据的音频特征信息，向所述服务器发送所述背景音频数据的音频特征信息；

向服务器发送所述合成视频数据，以使所述服务器提取所述合成视频数据中的合成音频数据，在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据，基于所述目标音频数据，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

2.根据权利要求1所述的方法，其特征在于，所述获取当前的背景音频数据的音频特征信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取当前的背景音频数据的音频特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述歌曲信息包括歌曲名、专辑名、歌手名、完整歌曲时长中的一种或多种信息。

5.一种消除背景音频数据的方法，其特征在于，所述方法应用于服务器，所述方法包括：

接收终端在开始播放背景音频数据或切换背景音频数据时，发送播放开始消息；

接收所述终端发送的背景音频数据的音频特征信息，并接收终端发送的合成视频数据；

提取所述合成视频数据中的合成音频数据；

基于所述目标音频数据以及接收所述播放开始消息的时间，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

6.根据权利要求5所述的方法，其特征在于，所述音频库中的音频数据是按照预设的时长对完整音频数据进行切分得到的音频数据，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据进行特征提取得到的音频特征信息；

所述接收所述终端发送的背景音频数据的音频特征信息，包括：

7.根据权利要求5所述的方法，其特征在于，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据的歌曲信息进行特征提取得到的音频特征信息；

所述基于所述目标音频数据以及接收所述播放开始消息的时间，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据，包括：

在所述合成音频数据中，获取接收时间在所述接收所述播放开始消息的时间之后的合成音频数据，作为待处理的合成音频数据；

8.根据权利要求5-7任一所述的方法，其特征在于，所述方法还包括：

对消除处理后的音频数据，进行违规内容分析处理。

9.一种消除背景音频的装置，其特征在于，所述装置包括：

获取模块，被配置为在检测到开始播放背景音频数据或切换背景音频数据时，向服务器发送播放开始消息，获取当前的背景音频数据的音频特征信息，向所述服务器发送所述背景音频数据的音频特征信息；

10.根据权利要求9所述的装置，其特征在于，所述获取模块，被配置为：

11.根据权利要求9所述的装置，其特征在于，所述获取模块，被配置为：

12.根据权利要求11所述装置，其特征在于，所述歌曲信息包括歌曲名、专辑名、歌手名、完整歌曲时长中的一种或多种信息。

13.一种消除背景音频的装置，其特征在于，所述装置包括：

接收模块，被配置为接收终端在开始播放背景音频数据或切换背景音频数据时，发送播放开始消息；接收所述终端发送的背景音频数据的音频特征信息，并接收终端发送的合成视频数据；

消除模块，被配置为基于所述目标音频数据以及接收所述播放开始消息的时间，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

14.根据权利要求13所述的装置，其特征在于，所述音频库中的音频数据是按照预设的时长对完整音频数据进行切分得到的音频数据，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据进行特征提取得到的音频特征信息；

所述接收模块，被配置为：

15.根据权利要求13所述的装置，其特征在于，所述音频库中的音频数据的音频特征信息是对所述音频库中的音频数据的歌曲信息进行特征提取得到的音频特征信息；

所述接收模块，被配置为：

所述消除模块，被配置为：

在所述合成音频数据中，获取接收时间在所述以及接收所述播放开始消息的时间之后的合成音频数据，作为待处理的合成音频数据；

16.根据权利要求13-15任一所述的装置，其特征在于，还包括处理模块，被配置为：

对消除处理后的音频数据，进行违规内容分析处理。

17.一种消除背景音频的系统，其特征在于，所述系统包括终端和服务器，其中：

所述终端，用于在检测到开始播放背景音频数据或切换背景音频数据时，向服务器发送播放开始消息，获取当前的背景音频数据的音频特征信息，向所述服务器发送所述背景音频数据的音频特征信息；对当前的背景音频数据和采集音频数据进行合成，得到合成音频数据，对所述合成音频数据和当前的采集图像数据进行合成，得到合成视频数据；向服务器发送所述合成视频数据；

所述服务器，用于接收所述终端在开始播放背景音频数据或切换背景音频数据时，发送播放开始消息；接收所述终端发送的背景音频数据的音频特征信息，并接收所述终端发送的合成视频数据；提取所述合成视频数据中的合成音频数据；在音频库中，查找对应的音频特征信息与所述背景音频数据的音频特征信息相匹配的目标音频数据；基于所述目标音频数据以及接收所述播放开始消息的时间，对所述合成音频数据进行背景音频数据消除，得到消除处理后的音频数据。

18.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的消除背景音频数据的方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的消除背景音频数据的方法。