CN113223558A

CN113223558A - 音频数据消音方法、装置、电子设备和存储介质

Info

Publication number: CN113223558A
Application number: CN202110482500.3A
Authority: CN
Inventors: 刘汉林; 张文伟; 彭俊石; 罗平峰; 陈江; 黄大江
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-06
Anticipated expiration: 2041-04-30
Also published as: CN113223558B

Abstract

本发明涉及音频处理领域，提供了一种音频数据消音方法、装置、电子设备和存储介质。本发明通过从经内容分发网络推送给移动终端的音频流数据中，获取到至少一个待确认音频帧；然后将待确认音频帧包含的文本内容数据与预设违规数据库匹配；当存在与预设违规数据库匹配的目标文本数据时，根据目标文本数据对应的目标音频帧生成消音指令，且发送给移动终端，以使移动终端对该音频流数据中的目标音频帧进行消音。从而实现对音频数据的实时消音，达到了对音频内容的实时审查，减少了人工成本，提高了审核效率。

Description

音频数据消音方法、装置、电子设备和存储介质

技术领域

本发明涉及音频处理领域，具体而言，涉及一种音频数据消音方法、装置、电子设备和存储介质。

背景技术

随着信息技术的不断发展，多媒体的播放形式也多种多样，例如，直播网站以其形式新颖、内容丰富受到人们广泛的关注。然而，在网站上发布的音频内容可能会掺杂违规内容，因此需要对音频内容进行监管。

目前通常是采用人工审核的方式对音频内容进行审查，但是由于音频内容的数量庞大，会出现审核工作量大，审查慢，发布不及时等问题，并且一般都是事后审查，不能做到实时审查，无法实时消除音频内容中的违规内容。

发明内容

有鉴于此，本发明的目的在于提供一种音频数据消音方法、装置、电子设备和存储介质。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供一种音频数据消音方法，应用于电子设备，所述电子设备与移动终端通信连接，所述方法包括：

获取音频流数据的至少一个待确认音频帧，所述音频流数据为经内容分发网络向所述移动终端推送的音频流数据；

将所述待确认音频帧包含的文本内容数据与预设违规数据库匹配；

当存在与所述预设违规数据库匹配的目标文本数据时，根据所述目标文本数据对应的目标音频帧生成消音指令；

将所述消音指令发送至所述移动终端，以使所述移动终端基于所述消音指令对所述音频流数据中的目标音频帧进行消音。

在可选的实施方式中，所述将所述待确认音频帧包含的文本内容数据与预设违规数据库匹配的步骤，包括：

获取所述待确认音频帧中的有效音频帧；所述有效音频帧包括有效的语音信号；

根据预设识别模型，对所述有效音频帧进行识别，得到所述有效音频帧包含的文本内容数据；

将所述文本内容数据与所述预设违规数据库匹配。

在可选的实施方式中，所述当存在与所述预设违规数据库匹配的目标文本数据时，根据所述目标文本数据对应的目标音频帧生成消音指令的步骤包括：

当存在与所述预设违规数据库匹配的目标文本数据时，根据所述目标文本数据对应的目标音频帧，获得所述目标音频帧的时间戳；

根据所述时间戳，生成消音指令。

在可选的实施方式中，所述方法还包括：

将所述目标音频帧存储到训练缓存区；

将所述训练缓存区中的所有目标音频帧作为训练样本，对所述预设识别模型进行训练。

第二方面，本发明提供一种音频数据消音装置，应用于电子设备，所述电子设备与移动终端通信连接，所述装置包括：

获取模块，用于获取音频流数据的至少一个待确认音频帧，所述音频流数据为经内容分发网络向所述移动终端推送的音频流数据；

匹配模块，用于将所述待确认音频帧包含的文本内容数据与预设违规数据库匹配；

发送模块，用于将所述消音指令发送至所述移动终端，以使所述移动终端基于所述消音指令对所述音频流数据中的目标音频帧进行消音。

在可选的实施方式中，所述匹配模块还用于：

将所述文本内容数据与所述预设违规数据库匹配。

在可选的实施方式中，所述匹配模块还用于：

根据所述时间戳，生成消音指令。

在可选的实施方式中，所述匹配模块还用于：

将所述目标音频帧存储到训练缓存区；

第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现前述实施方式中任一项所述的方法。

第四方面，本发明提供一种存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现前述实施方式中任一项所述的方法。

本发明实施例提供的音频数据消音方法、装置、电子设备和存储介质，通过从经内容分发网络推送给移动终端的音频流数据中，获取到至少一个待确认音频帧；然后将待确认音频帧包含的文本内容数据与预设违规数据库匹配；当存在与预设违规数据库匹配的目标文本数据时，根据目标文本数据对应的目标音频帧生成消音指令，且发送给移动终端，以使移动终端对该音频流数据中的目标音频帧进行消音。从而实现对音频数据的实时消音，达到了对音频内容的实时审查，减少了人工成本，提高了审核效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种场景示意图；

图2示出了本发明实施例提供的电子设备的方框示意图；

图3示出了本发明实施例提供的音频数据消音方法的一种流程示意图；

图4示出了本发明实施例提供的音频数据消音方法的又一种流程示意图；

图5示出了本发明实施例提供的音频数据消音方法的又一种流程示意图；

图6示出了本发明实施例提供的音频数据消音方法的又一种流程示意图；

图7示出了本发明实施例提供的音频数据消音装置的一种功能模块图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；300-音频数据消音装置；310-获取模块；330-匹配模块；350-发送模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前在直播过程中，对发布的音频内容监管主要采用的是事后审查，即通过人工抽查或者机器监控等方式对音频内容的进行审查，当违规内容已经被播出后，才会采取处罚措施。这样不仅会消耗人力成本、处理效率低，还存在滞后性，并且违规内容已经传播，会造成不良的社会影响。由此。本发明实施例提供了一种音频数据消音方法、装置、电子设备及存储介质。

请参照图1，是本发明实施例提供的一种场景示意图。其中，包括电子设备、服务器和移动终端。电子设备与移动终端通信连接。服务器与移动终端通过网络连接。其中，服务器中包含有音频流数据，其通过网络将音频流数据发送给移动终端。

电子设备用于执行本发明实施例提供的音频数据消音方法的步骤，实现相应的技术效果。可以理解的是，该电子设备可以是上述包含有音频流数据的服务器，也可以是独立的服务器或者是多个服务器组成的服务器集群。本发明实施例对此不作任何限制。

移动终端可以是智能手机、个人计算机、平板电脑、超级移动个人计算机(ultra-mobilepersonalcomputer，UMPC)、上网本、个人数字助理(personaldigitalassistant，PDA)等。本发明实施例对此不作任何限制。

请参照图2，是上述电子设备100的方框示意图。电子设备100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。存储器110可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)等。

处理器120用于读/写存储器中存储的数据或程序，并执行相应地功能。

通信模块130用于与其他节点设备进行信令或数据的通信。

可以理解的是，图2所示的结构仅为电子设备100的结构示意图，电子设备100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

下面将以上述的电子设备100作为执行主体，执行本发明实施例提供的各个方法中的各个步骤，并实现对应技术效果。下面将对本发明实施例提供的音频数据消音方法进行介绍。

请再次参阅图1，在直播领域中，主播通过移动终端将所要发布的音视频内容发送给服务器，服务器接收到音视频内容后进行解析等处理流程，然后将音视频流数据通过网络发送给观看直播的用户的移动终端。

可选地，该网络可以是内容分发网络，如CDN(Content Delivery Network)。内容分发网络是构建在现有网络基础之上的智能虚拟网络，其用于实现数据的存储和分发。由于经内容分发网络传输的音频流数据存在延迟，即服务器发送了音频流数据后，移动终端还需要一段时间才能接收到，通常存在4秒及以上的延时。

可以理解为，服务器经内容分发网络与移动终端之间的通信为主路。如果在主路上对音频内容进行审核，会产生新的延时。而直播业务对实时率的要求较高，为了不产生新的延时，不影响用户的观看体验，本发明实施例采用了旁路来执行音频内容审核的步骤，该旁路即服务器、电子设备和移动终端之间的通信。

下面请结合图1和图3，将对上述旁路中执行的步骤进行详细的阐述。图3是本发明实施例提供的音频数据消音方法的流程图。

步骤S202，获取音频流数据的至少一个待确认音频帧；

其中，音频流数据为直播过程中服务器实时发送给移动终端音频数据。

可选地，在直播过程中，服务器经内容分发网络实时向移动终端推送音频流数据，电子设备获取到的服务器当前推送的音频流数据即为待确认音频帧；电子设备将获取到的该待确认音频帧存储到电子设备的缓存区中。

步骤S204，将待确认音频帧包含的文本内容数据与预设违规数据库匹配；

其中，预设违规数据库是一个预先设置的数据库，这个数据库中包含如涉及违法、辱骂、垃圾广告等对社会有不良影响的违规词语。

可选地，可以通过音频识别技术，例如使用自动语音识别技术(Automatic SpeechRecognition，ASR)，得到待确认音频帧中所包含的文本内容数据，将文本内容数据与预设违规数据库进匹配，即检查文本内容数据中是否有预设违规数据库中的违规词语。

步骤S206，当存在与预设违规数据库匹配的目标文本数据时，根据目标文本数据对应的目标音频帧生成消音指令；

可选地，当存在与预设违规数据库匹配的目标文本数据时，表示文本内容数据中有违规词语，文本内容数据中的违规词语即为目标文本数据。可以在对待确认音频帧进行识别过程中，进行逐帧识别，当检测到含有违规词语时，可以根据该违规词语获取到对应的音频帧即目标音频帧，根据目标音频帧生成消音指令。

步骤S208，将消音指令发送至移动终端，以使移动终端基于消音指令对音频流数据中的目标音频帧进行消音；

可以理解的是，电子设备是实时获取服务器发送给移动终端的音频流数据，则在移动终端接收到的音频数据流中，存在与目标音频帧相同的音频帧。

然后，为了保证能够流畅地播放直播内容，可以在移动终端设置音视频缓存区，即移动终端接收到音频流数据后，会先存储在音视频缓存区，再进行播放。

在旁路中执行上述检查待确认音频的文本内容数据是否包含有违规词语，且生成消音指令的步骤的审查时长，小于由内容分发网络传输的音频流数据所产生的延时时长。

可选地，电子设备将消音指令发送给移动终端，移动终端接收到消音指令之后，对音视频缓存区中与目标音频帧相同的音频帧进行消音处理。

通过上述步骤，从经内容分发网络推送给移动终端的音频流数据中，获取到至少一个待确认音频帧；然后将待确认音频帧包含的文本内容数据与预设违规数据库匹配；当存在与预设违规数据库匹配的目标文本数据时，根据目标文本数据对应的目标音频帧生成消音指令，且发送给移动终端，以使移动终端对该音频流数据中的目标音频帧进行消音。从而实现对音频数据的实时消音，达到了对音频内容的实时审查，减少了人工成本，提高了审核效率。

为了进一步地减少延迟，提高审核的效率，对于上述步骤S204，本发明实施例提供了一种可能的实现方式。请参阅图4，步骤S204还包括以下步骤：

步骤S204-1，获取待确认音频帧中的有效音频帧；

其中，有效音频帧包括有效的语音信号。

可以理解的是，在直播过程中，主播所发布的音频内容包括语音信号，语音信号中可能存在一些静音期，这些静音期中没有包含有效的文本信息。

可选地，可以通过语音活动检测技术(Voice Activity Detection，VAD)对待确认音频中进行检测，识别出语音信号中静音期，并将静音期消除，得到有效音频帧。

步骤S204-3，根据预设识别模型，对有效音频帧进行识别，得到有效音频帧包含的文本内容数据；

其中，预设识别模型是预先设置的音频识别模型；

可选地，本发明实施例提供的预设模型为基于高斯混合模型(Gaussian MixtureModel，GMM)和深度神经网络(Deep Neural Network，DNN)的半传统半深度模型。

高斯混合模型是将每一帧的语言特征进行计算得到独立的参数组合形成模型参数空间。深度神经网络是将每一时刻的声学特征参数输入，对输入后产生的概率(后验概率)进行建模，将得到的概率与先前的概率(前验概率)进行相结合。

使用GMM+DNN模型，可以保证识别的准确率和识别速率，可选地，采用GMM+DNN模型，准确率可以达到95％即以上，识别速率可以达到0.2以下，即将1秒的语音信号转换为文本最多需要0.2秒。

可选地，根据GMM+DNN模型，对有效音频帧进行识别，将其转换为文本，得到文本内容数据。

步骤S204-3，将文本内容数据与预设违规数据库匹配；

可选地，检测文本内容数据中是否有预设违规数据库中的违规词语。

通过语音活动检测对待确认音频中的静音期进行抑制，可以提高对有效音频帧得识别效率；采用GMM+DNN模型可以保证识别的正确率，并且可以达到快速识别，提高了审核的效率。

进一步，针对上述步骤S206，本发明实施例提供了一种可能的实现方式，请参阅图5，步骤S206包括以下步骤：

步骤S206-1，当存在与预设违规数据库匹配的目标文本数据时，根据目标文本数据对应的目标音频帧，获得目标音频帧的时间戳；

需要说明的是，每一帧音频帧都有一个对应的时间戳，用于对该音频帧进行标记，可选地，可以采用生成音频帧的时刻作为时间戳来标记。

可选地，根据目标文本数据得到目标音频帧后，可以得到目标音频帧的时间戳。

步骤S206-3，根据时间戳，生成消音指令；

根据得到的时间戳，生成消音指令并且发送给移动终端。

可以理解的是，目标音频帧可以是一个音频帧，也可以是多个音频帧，消音指令中可以包含一个时间戳，也可以包含多个时间戳。

移动终端在接收到消音指令之后，可以在音频流数据中确定出具有相同时间戳的音频帧，然后对这些音频帧进行消音处理。由于这些音频帧还存储在音视频缓存区，可以实现先审查再发布即实时消音。

为了避免误消音，即不是违规词而被误认定为是违规词的情况，进一步地提高消音的准确性，本发明实施例提供了一种可能实现的方式，请参阅图6，在上述步骤S208之后，还包括以下步骤：

步骤S210，将目标音频帧存储到训练缓存区；

可以理解的是，在电子设备中还设置有训练缓存区；

可选地，得到目标音频帧之后，将目标音频帧存储到训练缓存区。

步骤S212，将训练缓存区中的所有目标音频帧作为训练样本，对预设识别模型进行训练；

可以理解的是，经过一段时间后，训练缓存区包括多个目标音频帧，即带有违规词语的音频帧，可以将这些音频帧作为训练预设识别模型的样本，对预设识别模型进行训练，以提高音频识别的准确率。

可选地，当训练缓存区中的音频数据达到一定的数量时，如当语音达到几千或者几万条时，可以对这些语音进行标注，即标记每条语音的文本内容，然后将这些标注后的语音作为训练样本，对预设模型进行迭代训练，以提高识别的准确率。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种音频数据消音装置的实现方式，请参照图7，图7为本发明提供的音频数据消音装置300的功能模块图。需要说明的是，本发明提供的音频数据消音装置300，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，在此不再赘述，可参考上述的实施例中相应内容。该音频数据消音装置300包括：获取模块310、匹配模块330、发送模块350。

获取模块310，用于获取音频流数据的至少一个待确认音频帧，音频流数据为经内容分发网络向移动终端推送的音频流数据；

匹配模块330，用于将待确认音频帧包含的文本内容数据与预设违规数据库匹配；

当存在与预设违规数据库匹配的目标文本数据时，根据目标文本数据对应的目标音频帧生成消音指令；

发送模块350，用于将消音指令发送至移动终端，以使移动终端基于消音指令对音频流数据中的目标音频帧进行消音。

可选地，匹配模块330还用于：获取待确认音频帧中的有效音频帧；有效音频帧包括有效的语音信号；

根据预设识别模型，对有效音频帧进行识别，得到有效音频帧包含的文本内容数据；

将文本内容数据与预设违规数据库匹配。

可选地，匹配模块330还用于：当存在与预设违规数据库匹配的目标文本数据时，根据目标文本数据对应的目标音频帧，获得目标音频帧的时间戳；

根据时间戳，生成消音指令。

可选地，匹配模块330还用于：将目标音频帧存储到训练缓存区；

将训练缓存区中的所有目标音频帧作为训练样本，对预设识别模型进行训练。

本发明还提供了一种电子设备，包括处理器120，存储器110存储有计算机程序，处理器120执行计算机程序时，实现上述实施例揭示的音频数据消音方法。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时实现本发明实施例揭示的音频数据消音方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据消音方法，其特征在于，应用于电子设备，所述电子设备与移动终端通信连接，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待确认音频帧包含的文本内容数据与预设违规数据库匹配的步骤，包括：

将所述文本内容数据与所述预设违规数据库匹配。

3.根据权利要求1所述的方法，其特征在于，所述当存在与所述预设违规数据库匹配的目标文本数据时，根据所述目标文本数据对应的目标音频帧生成消音指令的步骤包括：

根据所述时间戳，生成消音指令。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述目标音频帧存储到训练缓存区；

5.一种音频数据消音装置，其特征在于，应用于电子设备，所述电子设备与移动终端通信连接，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述匹配模块还用于：

将所述文本内容数据与所述预设违规数据库匹配。

7.根据权利要求5所述的装置，其特征在于，所述匹配模块还用于：

根据所述时间戳，生成消音指令。

8.根据权利要求6所述的装置，其特征在于，所述匹配模块还用于：

将所述目标音频帧存储到训练缓存区；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至4中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至4中任一项所述的方法。