CN112153397B

CN112153397B - 视频处理方法、装置、服务器及存储介质

Info

Publication number: CN112153397B
Application number: CN202010974580.XA
Authority: CN
Inventors: 万朝阳
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2023-03-14
Anticipated expiration: 2040-09-16
Also published as: CN112153397A

Abstract

本公开关于一种视频处理方法、装置、服务器及存储介质，该方法包括：获取直播视频中的音频信号；识别到所述音频信号中包含有预设关键词，则识别缓存库中是否存储有与所述预设关键词对应的音频片段；所述缓存库中存储有所述音频信号在预设时间段内的音频片段；若识别到所述缓存库中存储有与所述预设关键词对应的音频片段，则将所述缓存库中存储的与所述预设关键词对应的音频片段替换为目标音频，基于所述目标音频得到所述直播视频对应的新的视频；所述目标音频不包含所述预设关键词。采用本方法，实现了在检测到直播视频中的音频信号中包含有预设关键词的情况下，自动将直播视频中与预设关键词对应的音频片段替换为目标音频的目的。

Description

视频处理方法、装置、服务器及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、服务器及存储介质。

背景技术

随着互联网技术的发展，出现了各种各样的视频，比如短视频、直播视频等；由于视频生产者众多，各种背景的视频生产者均存在，故生产的直播视频中可能含有特定关键词，比如脏话、不和谐言论等，导致视频质量较低，故需要对直播视频中的特定关键词进行隐藏。

相关技术中，一般是通过相关人员手动检查直播视频中是否包含特定关键词，并将直播视频中包含的特定关键词进行屏蔽，以将其隐藏；但是，该方式需要耗费一定的时间，导致直播视频中特定关键词的隐藏效率较低。

发明内容

本公开提供一种视频处理方法、装置、服务器及存储介质，以至少解决相关技术中视频中特定关键词的隐藏效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，包括：

获取直播视频中的音频信号；

识别到所述音频信号中包含有预设关键词，则识别缓存库中是否存储有与所述预设关键词对应的音频片段；所述缓存库中存储有所述音频信号在预设时间段内的音频片段；

若识别到所述缓存库中存储有与所述预设关键词对应的音频片段，则将所述缓存库中存储的与所述预设关键词对应的音频片段替换为目标音频，基于所述目标音频得到所述直播视频对应的新的视频；所述目标音频不包含所述预设关键词。

在一示例性实施例中，所述识别到所述音频信号中包含有预设关键词，包括：

从所述音频信号中分离出人声音频；

获取所述人声音频对应的文本信息；

将所述文本信息进行分词处理，得到所述文本信息对应的分词；

若所述分词与预设关键词匹配，则确认所述音频信号中包含有所述预设关键词。

在一示例性实施例中，所述从所述音频信号中分离出人声音频，包括：

提取所述音频信号的音频特征；

根据所述音频特征将所述音频信号进行分类，得到所述音频信号的类别标签；

从所述音频信号中分离出所述类别标签为人声音频标签的音频信号，作为人声音频。

在一示例性实施例中，所述根据所述音频特征将所述音频信号进行分类，得到所述音频信号的类别标签，包括：

将所述音频特征输入预先训练的音频信号识别模型，通过所述预先训练的音频信号识别模型对所述音频特征进行特征分析，得到所述音频信号的类别预测分数；

若所述音频信号的类别预测分数大于预设分数，则确认所述音频信号的类别标签为所述人声音频标签词。

在一示例性实施例中，在识别缓存库中是否存储有与所述预设关键词对应的音频片段之后，还包括：

若识别到缓存库中未存储与所述预设关键词对应的音频片段，则确定与所述预设关键词对应的音频片段在所述直播视频中的播放时间标识；

根据所述播放时间标识生成音频静音指令，将所述音频静音指令发送至对应的观众终端；所述观众终端用于根据所述音频静音指令，在接收到所述直播视频之后，将所述直播视频中与所述播放时间标识对应的音频片段进行静音处理。

在一示例性实施例中，在将所述缓存库中存储的与所述预设关键词对应的音频片段替换为目标音频之后，还包括：

获取与所述预设关键词对应的音频片段的验证文件；所述验证文件用于验证与所述预设关键词对应的音频片段是否与所述目标音频相同；

根据所述验证文件，对与所述预设关键词对应的音频片段进行验证；

所述基于所述目标音频得到所述直播视频对应的新的视频，包括：

若与所述预设关键词对应的音频片段验证正确，则基于所述目标音频得到所述直播视频对应的新的视频。

在一示例性实施例中，在获取直播视频中的音频信号之后，还包括：

按照预设频率，获取所述音频信号在所述预设时间段内的音频片段；

将所述音频信号在所述预设时间段内的音频片段存储至所述缓存库中。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：

音频信号获取单元，被配置为执行获取直播视频中的音频信号；

音频信号识别单元，被配置为执行识别到所述音频信号中包含有预设关键词，则识别缓存库中是否存储有与所述预设关键词对应的音频片段；所述缓存库中存储有所述音频信号在预设时间段内的音频片段；

音频片段替换单元，被配置为执行若识别到所述缓存库中存储有与所述预设关键词对应的音频片段，则将所述缓存库中存储的与所述预设关键词对应的音频片段替换为目标音频，基于所述目标音频得到所述直播视频对应的新的视频；所述目标音频不包含所述预设关键词。

在一示例性实施例中，所述音频信号识别单元，还被配置为执行从所述音频信号中分离出人声音频；获取所述人声音频对应的文本信息；将所述文本信息进行分词处理，得到所述文本信息对应的分词；若所述分词与预设关键词匹配，则确认所述音频信号中包含有所述预设关键词。

在一示例性实施例中，所述音频信号识别单元，还被配置为执行提取所述音频信号的音频特征；根据所述音频特征将所述音频信号进行分类，得到所述音频信号的类别标签；从所述音频信号中分离出所述类别标签为人声音频标签的音频信号，作为人声音频。

在一示例性实施例中，所述音频信号识别单元，还被配置为执行将所述音频特征输入预先训练的音频信号识别模型，通过所述预先训练的音频信号识别模型对所述音频特征进行特征分析，得到所述音频信号的类别预测分数；若所述音频信号的类别预测分数大于预设分数，则确认所述音频信号的类别标签为所述人声音频标签。

在一示例性实施例中，所述装置还包括静音指令发送单元，被配置为执行若识别到缓存库中未存储与所述预设关键词对应的音频片段，则确定与所述预设关键词对应的音频片段在所述直播视频中的播放时间标识；根据所述播放时间标识生成音频静音指令，将所述音频静音指令发送至对应的观众终端；所述观众终端用于根据所述音频静音指令，在接收到所述直播视频之后，将所述直播视频中与所述播放时间标识对应的音频片段进行静音处理。

在一示例性实施例中，所述装置还包括音频验证单元，被配置为执行获取与所述预设关键词对应的音频片段的验证文件；所述验证文件用于验证与所述预设关键词对应的音频片段是否与所述目标音频相同；根据所述验证文件，对与所述预设关键词对应的音频片段进行验证；

所述音频片段替换单元，还被配置为执行若与所述预设关键词对应的音频片段验证正确，则基于所述目标音频得到所述直播视频对应的新的视频。

在一示例性实施例中，所述装置还包括音频片段存储单元，被配置为执行按照预设频率，获取所述音频信号在所述预设时间段内的音频片段；将所述音频信号在所述预设时间段内的音频片段存储至所述缓存库中。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的视频处理方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行第一方面的任一项实施例中所述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面任一项实施例中所述的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取直播视频中的音频信号；然后识别到音频信号中包含有预设关键词，则识别缓存库中是否存储有与预设关键词对应的音频片段；缓存库中存储有音频信号在预设时间段内的音频片段；最后若识别到缓存库中存储有与预设关键词对应的音频片段，则将缓存库中存储的与预设关键词对应的音频片段替换为目标音频，基于目标音频得到直播视频对应的新的视频；目标音频不包含预设关键词；实现了在检测到直播视频中的音频信号中包含有预设关键词，且缓存库中存储有与预设关键词对应的音频片段的情况下，自动将直播视频中的音频信号中与预设关键词对应的音频片段替换为目标音频的目的，整个过程无需用户操作，从而简化了直播视频中特定关键词的隐藏过程，进而提高了直播视频中特定关键词的隐藏效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的应用环境图。

图2是根据一示例性实施例示出的一种视频处理方法的流程图。

图3是根据一示例性实施例示出的直播视频处理方法的流程图。

图4是根据一示例性实施例示出的识别到音频信号中包含有预设关键词的步骤的流程图。

图5是根据一示例性实施例示出的从音频信号中分离出人声音频的步骤的流程图。

图6是根据一示例性实施例示出的另一种视频处理方法的流程图。

图7是根据一示例性实施例示出的一种视频处理装置的框图。

图8是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的视频处理方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互。参照图1，服务器120获取终端110上传的直播视频中的音频信号；识别到音频信号中包含有预设关键词，则识别缓存库中是否存储有与预设关键词对应的音频片段；缓存库中存储有音频信号在预设时间段内的音频片段；若识别到缓存库中存储有与预设关键词对应的音频片段，则将缓存库中存储的与预设关键词对应的音频片段替换为目标音频，基于目标音频得到直播视频对应的新的视频；目标音频不包含预设关键词。接着，服务器120还可以将新的视频推送至用户终端，通过用户终端播放新的视频，那么用户看到的则是音频信号中不包含预设关键词的直播视频。其中，终端110可以是但不限于各种智能手机、平板电脑或笔记本电脑等，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，视频处理方法用于如图1所示的服务器120中，包括以下步骤：

在步骤S210中，获取直播视频中的音频信号。

其中，直播视频是指需要识别是否包含预设关键词的视频，具体是指主播终端进行录屏直播时所对应的视频，比如唱歌直播视频、游戏直播视频、跳舞直播视频等。其中，预设关键词是指预先定义的脏词，比如“made”、“wo cao”等。

其中，直播视频中的音频信号是指直播视频中出现的声音，可以是音乐音频，也可以是人声音频，还可以是同时包含音乐音频和人声音频。

具体地，服务器获取终端上传的直播视频；获取预设的音频信号提取指令，根据预设的音频信号提取指令，提取直播视频中的音频信号。这样，通过提取直播视频中的音频信号，有利于后续识别音频信号中是否包含预设关键词，以确认是否对直播视频进行音频替换处理。

举例说明，在直播场景中，主播用户想要发起直播时，可以对主播客户端显示的直播应用程序首页界面中表示发起直播的图标进行点击操作，触发该直播应用程序进入主播用户对应的主播账户的直播间；主播客户端在检测到针对直播应用程序首页界面中表示发起直播的图标的点击操作，触发进入直播间的指令，并将直播时产生的直播视频推流至对应的服务器，通过服务器提取直播视频中的音频信号，并对音频信号进行识别，以确认音频信号中是否包含预设关键词。

进一步地，服务器还可以接收终端发送的视频检测请求，对视频检测请求进行解析，得到待处理的直播视频，并对待处理的直播视频进行音频信号提取处理，得到待处理的直播视频中的音频信号，并识别音频信号中是否包含预设关键词。

举例说明，在视频审核场景中，审核人员想要检查直播视频中是否包含脏词，可以点击终端的视频审核界面上的视频审核按钮，触发终端将审核人员选择的直播视频上传至对应的服务器，由服务器对该直播视频进行识别，以确认直播视频的音频信号中是否包含脏词。

在步骤S220中，识别到音频信号中包含有预设关键词，则识别缓存库中是否存储有与预设关键词对应的音频片段；缓存库中存储有音频信号在预设时间段内的音频片段。

其中，预设时间段用于标识缓存的音频片段的时长，比如2秒。考虑到直播视频推流到服务器之后，为了缓解服务器压力，且在识别音频信号中是否包含预设关键词的过程会有时间延迟，比如2秒之后才能识别音频信号中是否包含预设关键词，则至少需要缓存2秒的音频片段，因此服务器会有一个固定大小的缓存库，用于缓存音频信号在预设时间段内的音频片段。

其中，与预设关键词对应的音频片段，是指包含预设关键词的音频片段，比如包含脏词的音频片段。

具体地，服务器通过语音识别技术，获取音频信号对应的文本信息；检测文本信息中是否包含预设关键词，若文本信息中包含预设关键词，则确认音频信号中包含有预设关键词；接着，服务器识别缓存库中是否存储有与预设关键词对应的音频片段，若识别到缓存库中存储有与预设关键词对应的音频片段，说明与预设关键词对应的音频片段还没有出缓存库，服务器还可以直接对与预设关键词对应的音频片段进行音频替换处理。这样，在识别到直播视频的音频信号中包含预设关键词时，通过判断与预设关键词对应的音频片段是否存储在缓存库中，来执行不同的预设关键词屏蔽操作，以保证对直播视频中预设关键词的隐藏效果。

需要说明的是，若识别到直播视频的音频信号中不包含预设关键词，说明直播视频属于正常视频，则无需对直播视频进行音频替换处理。

举例说明，参考图3，直播视频的音频流经过解码后，进入一个固定时间长度的缓冲区(例如2秒)，并分小段(例如0.1秒)实时进入关键词检测流程，通过离线训练得到的关键词模型检测直播视频的音频信号中是否包含预设关键词；若检测到直播视频的音频信号中包含预设关键词，则识别缓冲区中是否存储有与预设关键词对应的音频片段。

在步骤S230中，若识别到缓存库中存储有与预设关键词对应的音频片段，则将缓存库中存储的与预设关键词对应的音频片段替换为目标音频，基于目标音频得到直播视频对应的新的视频；目标音频不包含预设关键词。

其中，目标视频是指不包含预设关键词的音频片段，比如“滴”声或者其他不包含预设关键词的声音。

具体地，在识别到缓存库中存储有与预设关键词对应的音频片段之后，服务器从缓存库中获取与预设关键词对应的音频片段；获取不包含预设关键词，且与预设关键词对应的音频片段的播放时长相同的目标音频，并构建目标音频以及与预设关键词对应的音频片段之间的替换关系，根据该替换关系，将与预设关键词对应的音频片段替换为目标音频，基于目标音频得到直播视频对应的新的视频。这样，在检测到直播视频的音频信号中包含有预设关键词，且缓存库中存储有与预设关键词对应的音频片段的情况下，自动将直播视频的音频信号中与预设关键词对应的音频片段替换为目标音频，达到了对直播视频中与预设关键词对应的音频片段进行自动屏蔽的效果；同时，整个过程无需用户手动检查直播视频中是否包含预设关键词，从而简化了直播视频中预设关键词的隐藏过程，提高了直播视频中预设关键词的隐藏效率。

举例说明，参考图3，服务器识别到直播视频的音频信号中包含预设关键词“made”，且与预设关键词“made”对应的音频片段存储在缓冲区中，则将与预设关键词“made”对应的音频片段替换成“滴”声，从而得到直播视频对应的新的视频，达到了净化社区视频的效果。需要说明的是，若直播视频的音频信号中不包含预设关键词，则使用直播视频中原始的音频信号，即无需对直播视频中的音频信号进行音频替换处理。

进一步地，服务器还可以通过内容分发网络，将新的视频推送至对应的观众终端进行播放。例如，服务器获取新的视频对应的推送账户，并将新的视频发送至这些推送账户，这样，这些推送账户对应的用户看到的则是音频信号中不包含预设关键词的直播视频。

上述视频处理方法中，通过获取直播视频中的音频信号；然后识别到音频信号中包含有预设关键词，则识别缓存库中是否存储有与预设关键词对应的音频片段；缓存库中存储有音频信号在预设时间段内的音频片段；最后若识别到缓存库中存储有与预设关键词对应的音频片段，则将缓存库中存储的与预设关键词对应的音频片段替换为目标音频，基于目标音频得到直播视频对应的新的视频；目标音频不包含预设关键词；实现了在检测到直播视频中的音频信号中包含有预设关键词，且缓存库中存储有与预设关键词对应的音频片段的情况下，自动将直播视频中的音频信号中与预设关键词对应的音频片段替换为目标音频的目的，整个过程无需用户操作，从而简化了直播视频中特定关键词的隐藏过程，进而提高了直播视频中特定关键词的隐藏效率。

在一示例性实施例中，如图4所示，在步骤S220中，识别到音频信号中包含有预设关键词，具体包括如下步骤：

在步骤S410中，从音频信号中分离出人声音频。

其中，人声音频用于表征人声对应的音频信息。

具体地，服务器获取预设的人声分离指令，根据预设的人声分离指令，从音频信号中分离出人声音频。这样，有利于后续对分离出的人声音频进行识别，以确认人声音频中是否包含有预设关键词，无需对整个音频信号进行识别，从而缩小了预设关键词的音频检测范围，进一步提高了直播视频中预设关键词的检测效率。

举例说明，服务器通过人声分离技术，对直播视频的音频信号进行人声分离处理，以从直播视频的音频信号中分离出人声音频。

进一步地，服务器还可以获取音频信号的音频特征，根据音频信号的音频特征，从音频信号中分离出人声音频。

在步骤S420中，获取人声音频对应的文本信息。

具体地，服务器通过语音识别技术，获取人声音频对应的文本信息。

在步骤S430中，将文本信息进行分词处理，得到文本信息对应的分词。

具体地，服务器根据预设的分词处理指令，对文本信息进行分词处理，得到文本信息对应的多个分词。

在步骤S440中，若分词与预设关键词匹配，则确认音频信号中包含有预设关键词。

具体地，在得到文本信息对应的分词之后，服务器分别计算文本信息对应的每个分词与预设关键词之间的匹配度，若匹配度大于预设匹配度，则确认与预设关键词之间的匹配度大于预设匹配度的分词与预设关键词匹配，进而确认音频信号中包含有预设关键词。

进一步地，服务器还可以将人声音频对应的文本信息输入预先训练的关键词检测模型，通过预先训练的关键词检测模型对人声音频对应的文本信息进行关键词检测，若检测到人声音频对应的文本信息包含预设关键词，则确认人声音频中包含有预设关键词，进而确认音频信号中包含有预设关键词。其中，预先训练的关键词检测模型，是通过预设关键词训练得到的神经网络模型，能够检测出人声音频中是否包含预设关键词。

本公开实施例提供的技术方案，通过检测人声音频对应的文本信息是否包含预设关键词，来确认人声音频中是否包含预设关键词，进而确认音频信号中是否包含预设关键词，有利于准确确认音频信号中是否包含预设关键词，避免了漏识别或者误识别，从而提高了音频信号中的关键词检测准确率。

在一示例性实施例中，如图5所示，在步骤S410中，从音频信号中分离出人声音频，具体可以通过以下步骤实现：

在步骤S510中，提取音频信号的音频特征。

其中，音频特征用于描述音频信号的特征信息，每个音频信号都具有对应的音频特征，比如人声音频对应的音频特征与音乐音频对应的音频特征不一样。

具体地，服务器获取预设的音频特征提取指令，根据预设的音频特征提取指令，提取音频信号的音频特征。

进一步地，服务器还可以将音频信号输入预先训练的音频特征提取模型，通过预先训练的音频特征提取模型，提取音频信号的音频特征。其中，预先训练的音频特征提取模型为通过预设类型的神经网络，根据采集的音频样本集训练得到的，用于对输入的音频信号进行识别，对应输出音频信号的音频特征。

在步骤S520中，根据音频特征将音频信号进行分类，得到音频信号的类别标签。

其中，音频标签用于标识音频信号所属的类别，比如音乐音频、人声音频。

具体地，服务器将音频信号的音频特征输入音频信号分类器中，通过音频信号分类器对音频信号的音频特征进行分类处理，得到音频信号的类别标签。其中，音频信号分类器是一种能够对音频信号进行分类的神经网络模型。

当然，服务器还可以通过基于决策树的多层分类方法或者基于DHMM(DiscreteHidden Markov Model，离散隐马尔可夫模型)的音频分类方法，确定音频信号的类别标签。

在步骤S530中，从音频信号中分离出类别标签为人声音频标签的音频信号，作为人声音频。

具体地，在得到音频信号的类别标签之后，服务器可以将音频信号的类别标签与人声音频标签进行匹配，若音频信号的类别标签与人声音频标签匹配成功，则将该音频信号作为人声音频；通过此方法，可以从音频信号中准确分离出人声音频。

本公开实施例提供的技术方案，通过从音频信号中分离出人声音频，有利于后续对分离出的人声音频进行识别，以确认人声音频中是否包含有预设关键词，无需对整个音频信号进行识别，从而缩小了预设关键词的音频检测范围，进一步提高了直播视频中预设关键词的识别效率。

在一示例性实施例中，根据音频特征将音频信号进行分类，得到音频信号的类别标签，包括：将音频特征输入预先训练的音频信号识别模型，通过预先训练的音频信号识别模型对音频特征进行特征分析，得到音频信号的类别预测分数；若音频信号的类别预测分数大于预设分数，则确认音频信号的类别标签为人声音频标签。

其中，音频信号识别模型是指能够对音频信号进行分类的模型，比如决策树模型、深度学习模型、卷积神经网络模型等。音频信号的类别预测分数用于衡量音频信号所属的类别标签，比如音频信号的类别预测分数处于人声音频标签对应的类别预测分数范围内，则确认音频信号的类别标签为人声音频标签。

需要说明的是，预设分数并不是固定的，可以根据实际情况进行调整，具体本公开不做限定。

具体地，服务器将音频信号的音频特征输入预先训练的音频信号识别模型，利用预先训练的音频信号识别模型对音频信号的音频特征进行一系列特征分析处理，得到音频信号的类别预测分数；将音频信号的类别预测分数与预设分数进行对比，若音频信号的类别预测分数大于预设分数，则确认音频信号的类别标签为人声音频标签；若音频信号的类别预测分数小于或者等于预设分数，则确认音频信号的类别标签为音乐音频标签，则无需对待处理视频进行音频替换处理。

进一步地，预先训练的音频信号识别模型可以通过下述方式训练得到：服务器获取样本音频信号的音频特征，将样本音频信号的音频特征输入待训练的音频信号识别模型，得到样本音频信号的预测类别标签；根据样本音频信号的预测类别标签和实际类别标签，确定待训练的音频信号识别模型的损失值；根据损失值对待训练的音频信号识别模型的模型参数进行调整，直到根据模型参数调整后的音频信号识别模型得到的损失值小于预设损失值时，则将该模型参数调整后的音频信号识别模型，作为预先训练的音频信号识别模型。

本公开实施例提供的技术方案，通过预先训练的音频信号识别模型，基于音频信号的音频特征，对音频信号进行分类，有利于准确识别出音频信号中是否包含人声音频，从而提高了人声音频的识别准确率。

在一示例性实施例中，在步骤S230中，在识别缓存库中是否存储有与预设关键词对应的音频片段之后，还包括：若识别到缓存库中未存储与预设关键词对应的音频片段，则确定与预设关键词对应的音频片段在直播视频中的播放时间标识；根据播放时间标识生成音频静音指令，将音频静音指令发送至对应的观众终端；观众终端用于根据音频静音指令，在接收到直播视频之后，将直播视频中与播放时间标识对应的音频片段进行静音处理。

其中，播放时间标识用于标识与预设关键词对应的音频片段在直播视频中的播放时间，比如30分钟30秒；此外，播放时间标识还可以用于标识与预设关键词对应的音频片段在直播视频中的播放时间段，比如30分钟30秒-35秒。

其中，音频静音指令是指用于触发观众终端对相应的音频片段进行静音处理的指令。

具体地，在识别到直播视频的音频信号中包含有预设关键词之后，服务器识别缓存库中是否存储有与预设关键词对应的音频片段，若识别到缓存库中没有与预设关键词对应的音频片段，说明与预设关键词对应的音频片段已经出缓存库，这个时候服务器无法直接对与预设关键词对应的音频片段进行音频替换处理，则确定与预设关键词对应的音频片段在直播视频中的播放时间标识；根据播放时间标识生成音频静音指令，将音频静音指令发送至对应的观众终端；观众终端根据接收到的音频静音指令，在接收到直播视频之后，将直播视频中与播放时间标识对应的音频片段进行静音处理。

举例说明，参考图3，服务器识别到直播视频的音频信号的人声音频中包含预设关键词，且与预设关键词对应的音频片段没有存储在缓冲区中，说明与预设关键词对应的音频片段已经出缓冲区，服务器无法直接对与预设关键词对应的音频片段进行音频替换处理，即只能使用直播视频中原始的音频信号；然而，由于观众终端在拉流过程中存在一定的时间延迟，可以通过给观众终端下发指令的形式，将携带有预设关键词对应的音频片段在直播视频中的播放时间标识的音频静音指令下发给观众终端；观众终端接收到该音频静音指令以后，判断当前拉取到的直播视频的播放时间与该播放时间标识是否匹配，若匹配，则通过观众终端对直播视频中与播放时间标识对应的音频片段进行静音处理，从而实现了通过观众终端对直播视频中的预设关键词的自动屏蔽效果。

本公开实施例提供的技术方案，在识别到直播视频的音频信号中包括预设关键词，且缓存库中未存储与预设关键词对应的音频片段时，通过将携带与预设关键词对应的音频片段在待处理视频中的播放时间标识的音频静音指令发送至观众终端，通过观众终端根据音频静音指令，在接收到直播视频之后，将直播视频中与播放时间标识对应的音频片段进行静音处理，进一步保证了对直播视频中的预设关键词的隐藏效果。

在一示例性实施例中，在步骤S230中，在将缓存库中存储的与预设关键词对应的音频片段替换为目标音频之后，还包括：获取与预设关键词对应的音频片段的验证文件；验证文件用于验证与预设关键词对应的音频片段是否与目标音频相同；根据验证文件，对与预设关键词对应的音频片段进行验证。

其中，验证文件是一种能够验证直播视频中与预设关键词对应的音频片段是否完全替换正确的文件，具体用于验证直播视频中与预设关键词对应的音频片段是否与目标音频相同。

具体地，服务器根据目标音频，生成与预设关键词对应的音频片段的验证文件；根据与预设关键词对应的音频片段的验证文件，验证与预设关键词对应的音频片段是否与目标音频相同，进而验证与预设关键词对应的音频片段是否完全替换正确；若与预设关键词对应的音频片段完全替换正确，则确认与预设关键词对应的音频片段验证成功；若与预设关键词对应的音频片段完全替换错误，则确认与预设关键词对应的音频片段验证失败，并重新将缓存库中存储的与预设关键词对应的音频片段替换为目标音频。

进一步地，基于目标音频得到直播视频对应的新的视频，还可以包括如下内容：若与预设关键词对应的音频片段验证正确，则基于目标音频得到直播视频对应的新的视频。

本公开实施例提供的技术方案，通过与预设关键词对应的音频片段的验证文件，对与预设关键词对应的音频片段进行验证，有利于确认与预设关键词对应的音频片段是否完全替换为目标音频，避免替换错误导致直播视频的特定关键词屏蔽失败，从而造成直播视频的特定关键词屏蔽成功率较低的缺陷。

在一示例性实施例中，在步骤S210中，在获取直播视频中的音频信号之后，还包括：按照预设频率，获取音频信号在预设时间段内的音频片段；将音频信号在预设时间段内的音频片段存储至缓存库中。

其中，预设频率是指音频信号的缓存频率。

具体地，服务器接收到主播终端上传的直播视频之后，服务器先获取直播视频中的音频信号，并将直播视频中的音频信号在预设时间段内的音频片段存储至缓存库中，延迟一小段时间后，再将直播视频推送至用户终端；这个时候，服务器可以对存储在缓存库中的音频信号进行关键词检测，比如从存储在缓存库中的音频信号中分离出人声音频，再识别人声音频中是否包含有预设关键词。

本公开实施例提供的技术方案，在获取直播视频的音频信号之后，将音频信号在预设时间段内的音频片段存储至缓存库中，有利于后续在识别到音频信号的人声音频中包含预设关键词时，通过判断与预设关键词对应的音频片段是否存储在缓存库中，来执行不同的预设关键词屏蔽操作，以保证对直播视频中预设关键词的隐藏效果。

图6是根据一示例性实施例示出的一种视频处理方法的流程图，如图6所示，视频处理方法用于如图1所示的服务器120中，包括以下步骤：

在步骤S610中，获取直播视频中的音频信号。

在步骤S620中，提取音频信号的音频特征。

在步骤S630中，将音频特征输入预先训练的音频信号识别模型，通过预先训练的音频信号识别模型对音频特征进行特征分析，得到音频信号的类别预测分数。

在步骤S640中，若音频信号的类别预测分数大于预设分数，则确认音频信号的类别标签为人声音频标签。

在步骤S650中，从音频信号中分离出类别标签为人声音频标签的音频信号，作为人声音频。

在步骤S660中，获取人声音频对应的文本信息；将文本信息进行分词处理，得到文本信息对应的分词；若分词与预设关键词匹配，则确认人声音频中包含有预设关键词。

在步骤S670中，若识别到缓存库中存储有与预设关键词对应的音频片段，则将缓存库中存储的与预设关键词对应的音频片段替换为目标音频，基于目标音频得到直播视频对应的新的视频；新的视频用于推送至对应的观众终端。

在步骤S680中，若识别到缓存库中未存储与预设关键词对应的音频片段，则确定与预设关键词对应的音频片段在直播视频中的播放时间标识。

在步骤S690中，根据播放时间标识生成音频静音指令，将音频静音指令发送至对应的观众终端；观众终端用于根据音频静音指令，在接收到直播视频之后，将直播视频中与播放时间标识对应的音频片段进行静音处理。

上述视频处理方法中，实现了在检测到直播视频中的音频信号中包含有预设关键词，且缓存库中存储有与预设关键词对应的音频片段的情况下，自动将直播视频中的音频信号中与预设关键词对应的音频片段替换为目标音频的目的，整个过程无需用户操作，从而简化了直播视频中特定关键词的隐藏过程，进而提高了直播视频中特定关键词的隐藏效率。

应该理解的是，虽然图2、4、5、6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、5、6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图7是根据一示例性实施例示出的一种视频处理装置的框图。参照图7，该装置包括音频信号获取单元710，音频信号识别单元720和音频片段替换单元730。

音频信号获取单元710，被配置为执行获取直播视频中的音频信号。

音频信号识别单元720，被配置为执行识别到音频信号中包含有预设关键词，则识别缓存库中是否存储有与预设关键词对应的音频片段；缓存库中存储有音频信号在预设时间段内的音频片段。

音频片段替换单元730，被配置为执行若识别到缓存库中存储有与预设关键词对应的音频片段，则将缓存库中存储的与预设关键词对应的音频片段替换为目标音频，基于目标音频得到直播视频对应的新的视频；目标音频不包含预设关键词。

在一示例性实施例中，音频信号识别单元720，还被配置为执行从音频信号中分离出人声音频；获取人声音频对应的文本信息；将文本信息进行分词处理，得到文本信息对应的分词；若分词与预设关键词匹配，则确认音频信号中包含有预设关键词。

在一示例性实施例中，音频信号识别单元720，还被配置为执行提取音频信号的音频特征；根据音频特征将音频信号进行分类，得到音频信号的类别标签；从音频信号中分离出类别标签为人声音频标签的音频信号，作为人声音频。

在一示例性实施例中，音频信号识别单元720，还被配置为执行将音频特征输入预先训练的音频信号识别模型，通过预先训练的音频信号识别模型对音频特征进行特征分析，得到音频信号的类别预测分数；若音频信号的类别预测分数大于预设分数，则确认音频信号的类别标签为人声音频标签。

在一示例性实施例中，本公开提供的视频处理装置还包括静音指令发送单元，被配置为执行若识别到缓存库中未存储与预设关键词对应的音频片段，则确定与预设关键词对应的音频片段在直播视频中的播放时间标识；根据播放时间标识生成音频静音指令，将音频静音指令发送至对应的观众终端；观众终端用于根据音频静音指令，在接收到直播视频之后，将直播视频中与播放时间标识对应的音频片段进行静音处理。

在一示例性实施例中，本公开提供的视频处理装置还包括音频验证单元，被配置为执行获取与预设关键词对应的音频片段的验证文件；验证文件用于验证与预设关键词对应的音频片段是否与目标音频相同；根据验证文件，对与预设关键词对应的音频片段进行验证；

音频片段替换单元730，还被配置为执行若与预设关键词对应的音频片段验证正确，则基于目标音频得到直播视频对应的新的视频。

在一示例性实施例中，本公开提供的视频处理装置还包括音频片段存储单元，被配置为执行按照预设频率，获取音频信号在预设时间段内的音频片段；将音频信号在预设时间段内的音频片段存储至缓存库中。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于执行上述视频处理方法的设备800的框图。例如，设备800可以为一服务器。参照图8，设备800包括处理组件820，其进一步包括一个或多个处理器，以及由存储器822所代表的存储器资源，用于存储可由处理组件820的执行的指令，例如应用程序。存储器822中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件820被配置为执行指令，以执行上述视频处理方法。

设备800还可以包括一个电源组件824被配置为执行设备800的电源管理，一个有线或无线网络接口826被配置为将设备800连接到网络，和一个输入输出(I/O)接口828。设备800可以操作基于存储在存储器822的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器822，上述指令可由设备800的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，程序产品包括计算机程序，计算机程序存储在可读存储介质中，设备的至少一个处理器从可读存储介质读取并执行计算机程序，使得设备执行本公开的任一项实施例中的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取直播视频中的音频信号；

识别到所述音频信号中包含有预设关键词，则识别缓存库中是否存储有与所述预设关键词对应的音频片段；所述缓存库中存储有所述音频信号在预设时间段内的音频片段；所述音频信号中包含有预设关键词，是指所述音频信号中的人声音频对应的文本信息中包含有与所述预设关键词匹配的分词；所述人声音频为所述音频信号中类别预测分数大于预设分数的音频；所述类别预测分数通过预先训练的音频信号识别模型对所述音频信号的音频特征进行特征分析得到；

若识别到所述缓存库中存储有与所述预设关键词对应的音频片段，则将所述缓存库中存储的与所述预设关键词对应的音频片段替换为目标音频，基于所述目标音频得到所述直播视频对应的新的视频；所述目标音频不包含所述预设关键词，且播放时长与所述预设关键词对应的音频片段的播放时长相同；

若识别到缓存库中未存储与所述预设关键词对应的音频片段，则确定与所述预设关键词对应的音频片段在所述直播视频中的播放时间标识；根据所述播放时间标识生成音频静音指令，将所述音频静音指令发送至对应的观众终端；所述观众终端用于根据所述音频静音指令，在接收到所述直播视频之后，将所述直播视频中与所述播放时间标识对应的音频片段进行静音处理。

2.根据权利要求1所述的视频处理方法，其特征在于，所述识别到所述音频信号中包含有预设关键词，包括：

从所述音频信号中分离出人声音频；

获取所述人声音频对应的文本信息；

3.根据权利要求2所述的视频处理方法，其特征在于，所述从所述音频信号中分离出人声音频，包括：

提取所述音频信号的音频特征；

4.根据权利要求3所述的视频处理方法，其特征在于，所述根据所述音频特征将所述音频信号进行分类，得到所述音频信号的类别标签，包括：

若所述音频信号的类别预测分数大于预设分数，则确认所述音频信号的类别标签为所述人声音频标签。

5.根据权利要求1所述的视频处理方法，其特征在于，在将所述缓存库中存储的与所述预设关键词对应的音频片段替换为目标音频之后，还包括：

6.根据权利要求1至5任一项所述的视频处理方法，其特征在于，在获取直播视频中的音频信号之后，还包括：

7.一种视频处理装置，其特征在于，包括：

音频信号识别单元，被配置为执行识别到所述音频信号中包含有预设关键词，则识别缓存库中是否存储有与所述预设关键词对应的音频片段；所述缓存库中存储有所述音频信号在预设时间段内的音频片段；所述音频信号中包含有预设关键词，是指所述音频信号中的人声音频对应的文本信息中包含有与所述预设关键词匹配的分词；所述人声音频为所述音频信号中类别预测分数大于预设分数的音频；所述类别预测分数通过预先训练的音频信号识别模型对所述音频信号的音频特征进行特征分析得到；

音频片段替换单元，被配置为执行若识别到所述缓存库中存储有与所述预设关键词对应的音频片段，则将所述缓存库中存储的与所述预设关键词对应的音频片段替换为目标音频，基于所述目标音频得到所述直播视频对应的新的视频；所述目标音频不包含所述预设关键词，且播放时长与所述预设关键词对应的音频片段的播放时长相同；

静音指令发送单元，被配置为执行若识别到缓存库中未存储与所述预设关键词对应的音频片段，则确定与所述预设关键词对应的音频片段在所述直播视频中的播放时间标识；根据所述播放时间标识生成音频静音指令，将所述音频静音指令发送至对应的观众终端；所述观众终端用于根据所述音频静音指令，在接收到所述直播视频之后，将所述直播视频中与所述播放时间标识对应的音频片段进行静音处理。

8.根据权利要求7所述的视频处理装置，其特征在于，所述音频信号识别单元，还被配置为执行从所述音频信号中分离出人声音频；获取所述人声音频对应的文本信息；将所述文本信息进行分词处理，得到所述文本信息对应的分词；若所述分词与预设关键词匹配，则确认所述音频信号中包含有所述预设关键词。

9.根据权利要求8所述的视频处理装置，其特征在于，所述音频信号识别单元，还被配置为执行提取所述音频信号的音频特征；根据所述音频特征将所述音频信号进行分类，得到所述音频信号的类别标签；从所述音频信号中分离出所述类别标签为人声音频标签的音频信号，作为人声音频。

10.根据权利要求9所述的视频处理装置，其特征在于，所述音频信号识别单元，还被配置为执行将所述音频特征输入预先训练的音频信号识别模型，通过所述预先训练的音频信号识别模型对所述音频特征进行特征分析，得到所述音频信号的类别预测分数；若所述音频信号的类别预测分数大于预设分数，则确认所述音频信号的类别标签为所述人声音频标签。

11.根据权利要求7所述的视频处理装置，其特征在于，所述装置还包括音频验证单元，被配置为执行获取与所述预设关键词对应的音频片段的验证文件；所述验证文件用于验证与所述预设关键词对应的音频片段是否与所述目标音频相同；根据所述验证文件，对与所述预设关键词对应的音频片段进行验证；

12.根据权利要求7至11任一项所述的视频处理装置，其特征在于，所述装置还包括音频片段存储单元，被配置为执行按照预设频率，获取所述音频信号在所述预设时间段内的音频片段；将所述音频信号在所述预设时间段内的音频片段存储至所述缓存库中。

13.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频处理方法。

14.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至6中任一项所述的视频处理方法。