CN115914179A

CN115914179A - 音频审核方法、装置、计算设备及存储介质

Info

Publication number: CN115914179A
Application number: CN202211572753.0A
Authority: CN
Inventors: 卢旭泽
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-04

Abstract

本申请实施例公开了一种音频审核方法、装置、计算设备及存储介质。方法包括：获取目标直播间的合并音频流；目标直播间的合并音频流为目标直播间的多个连麦音频流合并后生成的音频流，目标直播间的多个连麦音频流为目标直播间的多个连麦用户分别输出的音频流；根据目标直播间的合并音频流，判断目标直播间是否为风险直播间；若是，则获取目标直播间的多个连麦音频流，基于多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户。本方案在实现对风险直播间以及风险直播间中风险连麦用户定位的基础上，减少审核的音频流的数目，提升审核效率，降低审核成本。

Description

音频审核方法、装置、计算设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，具体涉及一种音频审核方法、装置、计算设备及存储介质。

背景技术

随着科技及社会的不断发展，直播服务的出现极大丰富了人们的工作与生活。其中，许多直播服务为了提升用户体验，为用户提供有连麦功能，通过该连麦功能可以实现主播用户与主播用户之间的连麦，还可以实现主播用户与观众用户之间的连麦。

为了保障直播服务的安全运行，需要对用户输出的连麦音频进行风险审核。现有的音频审核方式为：将每个直播间产生的各路音频流发送给人工审核平台，由审核人员逐条对各路音频进行审核。然而采用该种方式，音频的审核效率低下，审核成本高昂。

发明内容

鉴于现有技术中存在音频审核效率低下以及审核成本高的技术问题，提出了本申请实施例，以便提供一种克服上述问题或者至少部分地解决上述问题的音频审核方法、装置、计算设备及存储介质。

根据本申请第一方面，提供了一种音频审核方法，所述方法包括：

获取目标直播间的合并音频流；其中，目标直播间的合并音频流为目标直播间的多个连麦音频流合并后生成的音频流，目标直播间的多个连麦音频流为目标直播间的多个连麦用户分别输出的音频流；

根据目标直播间的合并音频流，判断目标直播间是否为风险直播间；

若是，则获取目标直播间的多个连麦音频流，基于所述多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户。

在一种可选的实施方式中，所述根据目标直播间的合并音频流，判断目标直播间是否为风险直播间进一步包括：利用预先生成的风险评估模型对目标直播间的合并音频流进行评估，以获得目标直播间的合并音频流的风险值；若目标直播间的合并音频流的风险值大于第一阈值，则确定目标直播间为风险直播间；

所述基于所述多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户进一步包括：针对于所述多个连麦音频流中的任一连麦音频流，利用预先生成的风险评估模型对该连麦音频流进行评估，以获得该连麦音频流的风险值；若该连麦音频流的风险值大于第二阈值，则确定该连麦音频流对应的连麦用户为风险连麦用户；若该连麦音频流的风险值小于或等于第二阈值，则确定该连麦音频流对应的连麦用户为安全连麦用户。

在一种可选的实施方式中，在确定目标直播间为风险直播间后，所述方法还包括：识别目标直播间的合并音频流中至少一个风险音频段，根据所述风险音频段的起止时间生成目标直播间的至少一个风险时段；

所述基于所述多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户进一步包括：针对于目标直播间的任一风险时段，分别提取所述多个连麦音频流在该风险时段的连麦音频段；基于在该风险时段的各个连麦音频段，识别目标直播间在该风险时段的风险连麦用户和/或安全连麦用户。

在一种可选的实施方式中，所述识别目标直播间的合并音频流中至少一个风险音频段进一步包括：

将目标直播间的合并音频流切分为多个合并音频段；

利用预先生成的风险评估模型对任一合并音频段进行评估，以获得该合并音频段的风险值；

若该合并音频段的风险值大于第一阈值，则确定该合并音频段为风险音频段。

在一种可选的实施方式中，在所述从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户之后，所述方法还包括：

获取目标直播间的直播间标识，以及获取目标直播间中风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识；

展示根据目标直播间的直播间标识生成的直播间标签，以及以第一样式展示根据目标直播间的第一用户标识生成的第一用户标签和/或以第二样式展示根据目标直播间的第二用户标识生成的第二用户标签；

响应于针对任一标签的触发操作，展示该标签对应的音频流。

在一种可选的实施方式中，所述获取目标直播间中风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识进一步包括：获取目标直播间在任一风险时段的风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识；

所述以第一样式展示根据目标直播间的第一用户标识生成的第一用户标签，和/或以第二样式展示根据目标直播间的第二用户标识生成的第二用户标签进一步包括：以第一样式展示目标直播间在该风险时段的第一用户标签和/或以第二样式展示目标直播间在该风险时段的第二用户标签；其中，目标直播间在该风险时段的第一用户标签根据目标直播间在该风险时段的第一用户标识生成，目标直播间在该风险时段的第二用户标签根据目标直播间在该风险时段的第二用户标识生成；

所述方法还包括：展示该风险时段的时段信息；

所述展示该标签对应的音频流进一步包括：展示该标签对应的音频段。

在一种可选的实施方式中，所述方法还包括：针对于目标直播间的任一连麦用户，统计该连麦用户作为风险连麦用户所对应的风险时段的数目，展示该连麦用户作为风险连麦用户所对应的风险时段的数目。

在一种可选的实施方式中，在所述展示该标签对应的音频流之后，所述方法还包括：

响应于惩处操作，展示该标签对应的惩处页面；其中，所述惩处页面中包含有推荐惩处方式。

在一种可选的实施方式中，若该标签为直播间标签，则所述惩处页面中包含有目标直播间的推荐惩处方式；

若该标签为用户标签，则所述惩处页面中包含有针对该用户标签对应连麦用户的推荐惩处方式。

在一种可选的实施方式中，所述目标直播间的推荐惩处方式通过如下方式确定：

获取目标直播间的合并音频流的风险值，根据所述合并音频流的风险值确定目标直播间的推荐惩处方式；

和/或，统计目标直播间的风险连麦用户的用户占比，根据所述用户占比确定所述目标直播间的推荐惩处方式；

和/或，获取目标直播间的历史惩处方式，根据所述历史惩处方式确定目标直播间的推荐惩处方式。

在一种可选的实施方式中，所述连麦用户的推荐惩处方式通过如下方式确定：

获取所述连麦用户的连麦音频流的风险值，根据所述风险值确定所述连麦用户的推荐惩处方式；

和/或，获取所述连麦用户作为风险连麦用户所对应的风险时段的数目，根据所述数目确定所述连麦用户的推荐惩处方式；

和/或，获取所述连麦用户的历史惩处方式，根据所述历史惩处方式确定所述连麦用户的推荐惩处方式。

根据本申请第二方面，提供了一种音频审核装置，所述装置包括：

获取模块，用于获取目标直播间的合并音频流以及获取目标直播间的多个连麦音频流；其中，目标直播间的合并音频流为目标直播间的多个连麦音频流合并后生成的音频流，目标直播间的多个连麦音频流为目标直播间的多个连麦用户分别输出的音频流；

第一识别模块，用于根据目标直播间的合并音频流，判断目标直播间是否为风险直播间；

第二识别模块，用于若目标直播间为风险直播间，则基于目标直播间的多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户。

在一种可选的实施方式中，第一识别模块用于：利用预先生成的风险评估模型对目标直播间的合并音频流进行评估，以获得目标直播间的合并音频流的风险值；若目标直播间的合并音频流的风险值大于第一阈值，则确定目标直播间为风险直播间；

第二识别模块用于：针对于所述多个连麦音频流中的任一连麦音频流，利用预先生成的风险评估模型对该连麦音频流进行评估，以获得该连麦音频流的风险值；若该连麦音频流的风险值大于第二阈值，则确定该连麦音频流对应的连麦用户为风险连麦用户；若该连麦音频流的风险值小于或等于第二阈值，则确定该连麦音频流对应的连麦用户为安全连麦用户。

在一种可选的实施方式中，第一识别模块用于：识别目标直播间的合并音频流中至少一个风险音频段，根据所述风险音频段的起止时间生成目标直播间的至少一个风险时段；

第二识别模块用于：针对于目标直播间的任一风险时段，分别提取所述多个连麦音频流在该风险时段的连麦音频段；基于在该风险时段的各个连麦音频段，识别目标直播间在该风险时段的风险连麦用户和/或安全连麦用户。

在一种可选的实施方式中，第一识别模块用于：将目标直播间的合并音频流切分为多个合并音频段；利用预先生成的风险评估模型对任一合并音频段进行评估，以获得该合并音频段的风险值；若该合并音频段的风险值大于第一阈值，则确定该合并音频段为风险音频段。

在一种可选的实施方式中，获取模块用于：获取目标直播间的直播间标识，以及获取目标直播间中风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识；

该装置还包括：展示模块，用于展示根据目标直播间的直播间标识生成的直播间标签，以及以第一样式展示根据目标直播间的第一用户标识生成的第一用户标签和/或以第二样式展示根据目标直播间的第二用户标识生成的第二用户标签；响应于针对任一标签的触发操作，展示该标签对应的音频流。

在一种可选的实施方式中，获取模块用于：获取目标直播间在任一风险时段的风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识；

展示模块用于：以第一样式展示目标直播间在该风险时段的第一用户标签和/或以第二样式展示目标直播间在该风险时段的第二用户标签；其中，目标直播间在该风险时段的第一用户标签根据目标直播间在该风险时段的第一用户标识生成，目标直播间在该风险时段的第二用户标签根据目标直播间在该风险时段的第二用户标识生成；

以及展示该风险时段的时段信息；以及响应于针对任一标签的触发操作，展示该标签对应的音频段。

在一种可选的实施方式中，展示模块，用于针对于目标直播间的任一连麦用户，统计该连麦用户作为风险连麦用户所对应的风险时段的数目，展示该连麦用户作为风险连麦用户所对应的风险时段的数目。

在一种可选的实施方式中，展示模块，用于响应于惩处操作，展示该标签对应的惩处页面；其中，所述惩处页面中包含有推荐惩处方式。

在一种可选的实施方式中，若该标签为直播间标签，则所述惩处页面中包含有目标直播间的推荐惩处方式；若该标签为用户标签，则所述惩处页面中包含有针对该用户标签对应连麦用户的推荐惩处方式。

在一种可选的实施方式中，所述目标直播间的推荐惩处方式通过如下方式确定：获取目标直播间的合并音频流的风险值，根据所述合并音频流的风险值确定目标直播间的推荐惩处方式；和/或，统计目标直播间的风险连麦用户的用户占比，根据所述用户占比确定所述目标直播间的推荐惩处方式；和/或，获取目标直播间的历史惩处方式，根据所述历史惩处方式确定目标直播间的推荐惩处方式。

在一种可选的实施方式中，所述连麦用户的推荐惩处方式通过如下方式确定：获取所述连麦用户的连麦音频流的风险值，根据所述风险值确定所述连麦用户的推荐惩处方式；和/或，获取所述连麦用户作为风险连麦用户所对应的风险时段的数目，根据所述数目确定所述连麦用户的推荐惩处方式；和/或，获取所述连麦用户的历史惩处方式，根据所述历史惩处方式确定所述连麦用户的推荐惩处方式。

根据本申请第三方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述音频审核方法对应的操作。

根据本申请第四方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行上述音频审核方法对应的操作。

本申请实施例先根据直播间的合并音频流识别出风险直播间，从而能够提升风险直播间的识别效率，降低审核成本；而且在识别出风险直播间后再进一步根据风险直播间的任一连麦音频流识别风险连麦用户和/或安全连麦用户，从而能够精准地定位出风险直播间中的风险连麦用户。

本申请实施例利用风险评估模型来确定合并音频流、连麦音频流的风险值，从而定量化、精准化地识别出风险直播间、风险连麦用户以及安全连麦用户。

本申请确定风险直播间的风险时段，从而仅提取风险时段对应的连麦音频段，继而确定风险时段的风险连麦用户以及安全连麦用户。从而减少数据处理量，节约处理资源以及提升安全连麦用户的识别效率。

本申请实施例利用风险评估模型来确定多个合并音频段的风险值，继而准确地确定出风险直播间的风险音频段，从而能够准确地确定出风险直播间的风险时段。

本申请实施例中还展示风险直播间的直播间标签、风险连麦用户对应的第一用户标签及安全连麦用户对应的第二用户标签，便于审核用户对风险直播间及风险连麦用户进行进一步的审核，提升审核精度以及审核效率；而且第一用户标签和第二用户标签的展示样式不同，便于审核用户直观且快速地区分该风险直播间中的风险连麦用户以及安全连麦用户，提升审核效率。

本申请实施例中再审平台展示风险直播间在风险时段的相关标签及音频段，便于审核用户定位风险直播间的核心风险时段，减少审核数据量，提升审核效率。

本申请实施例中响应于惩处操作展示标签对应的惩处页面，该惩处页面中包含有风险直播间和/或连麦用户的推荐惩处方式，从而提升惩处效率。

本申请实施例可以根据风险直播间的合并音频流的风险值、风险连麦用户的用户占比、和/或历史惩处方式来生成风险直播间的推荐惩处方式，提升推荐惩处方式与风险直播间实际情况的匹配度，提升惩处精度。

本申请实施例可以根据连麦音频流的风险值、风险连麦用户所对应的风险时段的数目、和/或连麦用户的历史惩处方式，来生成连麦用户的推荐惩处方式，提升推荐惩处方式与连麦用户实际情况的匹配度，提升惩处精度。

上述说明仅是本申请实施例技术方案的概述，为了能够更清楚了解本申请实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种音频审核方法的流程示意图；

图2示出了本申请实施例提供的又一种音频审核方法的流程示意图；

图3示出了本申请实施例提供的一种展示页面的示意图；

图4示出了本申请实施例提供的另一种展示页面的示意图；

图5示出了本申请实施例提供的又一种展示页面的示意图；

图6示出了本申请实施例提供的一种惩处页面的示意图；

图7示出了本申请实施例提供的再一种音频审核方法的流程示意图；

图8示出了本申请实施例提供的一种音频审核装置的结构示意图；

图9示出了本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请实施例的示例性实施例。虽然附图中显示了本申请实施例的示例性实施例，然而应当理解，可以以各种形式实现本申请实施例而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请实施例，并且能够将本申请实施例的范围完整的传达给本领域的技术人员。

图1示出了本申请实施例提供的一种音频审核方法的流程示意图。其中，本实施例所提供的音频审核方法可以用于对直播间中连麦音频的审核。

如图1所示，该方法包括如下步骤：

步骤S110，获取目标直播间的合并音频流；其中，目标直播间的合并音频流为目标直播间的多个连麦音频流合并后生成的音频流，目标直播间的多个连麦音频流为目标直播间的多个连麦用户分别输出的音频流。

本实施例可以应用在支持连麦功能的直播服务中。其中，连麦功能是支持多个用户在同一直播会话中进行语音交互的功能。例如，主播用户可以在直播间中与另一主播用户进行语音交互，从而实现主播用户之间的连麦；主播用户也可以在直播间中与一个或多种观众用户进行语音交互，从而实现主播用户与观众用户之间的连麦，等等。

直播间中每个进行连麦的用户便是该直播间的连麦用户，一个直播间中的连麦用户为多个，连麦用户可以为主播用户或观众用户。连麦用户在直播间连麦过程中连麦用户终端输出的音频流便是该直播间中该连麦用户对应的连麦音频流，该连麦音频流又可以称为上行音频流，一个直播间对应于多个连麦音频流。例如，主播A与观众B在直播间P中连麦，则主播A输出的音频流便是直播间P中主播A对应的连麦音频流，观众B输出的音频流便是直播间P中观众B对应的连麦音频流。

为了提升音频审核效率，本申请针对于任一直播间，将该直播间的多个连麦音频流进行合并，合并后生成的音频流便是该直播间的合并音频流。由此本申请中一个直播间可以对应于多个连麦音频流以及一个合并音频流。

本步骤中目标直播间为当前待审核的直播间，目标直播间的多个连麦音频流为目标直播间的多个连麦用户分别输出的音频流，将该多个连麦音频流合并即可生成目标直播间的合并音频流。

步骤S120，根据目标直播间的合并音频流，判断目标直播间是否为风险直播间；若是，则执行步骤S130。

与现有技术中逐条对各路连麦音频流进行识别不同，本申请是先对直播间的合并音频流进行识别，由于一个直播间通常对应于一条合并音频流，从而能够大幅减少审核的音频流的数量，提升审核效率。在一种可选的实施方式中，为了能够精准地识别出风险直播间，本实施方式可以预先生成风险评估模型，利用该风险评估模型对音频流进行风险评估，从而获得音频流的风险值。其中，风险评估模型可采用如下方式中的一种或多种生成：

生成方式一：构建包含至少一个风险词的风险词库，并建立任一风险词与风险值的映射关系；根据该风险词库以及该映射关系生成风险评估模型。则风险评估模型对音频流进行处理时，具体是通过相应的NLP(Natural Language Processing，自然语言处理)算法以及该风险词库检测音频流中出现的风险词，继而根据检测出的风险词的次数以及风险词与风险值的映射关系来得到音频流的风险值。例如，某音频流中出现风险词X的次数为3，风险词Y的次数为2，风险词X映射的风险值为5，风险词Y映射的风险值为10，则该音频流对应的风险值则为3*5+2*10。本生成方式中的风险评估模型是基于音频流中风险词的识别来得到音频流的风险值，从而能够提升音频流的风险值的确定效率。

生成方式二：基于机器学习算法构建风险评估模型，并获取样本音频流以及样本音频流的标注数据；利用样本音频流以及标注数据对构建的风险评估模型进行训练，以获得训练好的风险评估模型。例如，可以基于深度学习算法来构建风险评估模型，并获取历史的连麦音频流作为样本音频流，以及生成每个样本音频流的文本数据，并为样本音频流标注风险值，从而利用每个样本音频流的文本数据以及标注风险值对构建的风险评估模型进行模型训练，在满足相应的收敛条件时结束训练以得到训练好的风险评估模型。由于标注风险值是对音频流整体进行标注，从而本生成方式得到的风险评估模型能够对音频流整体语义进行风险评估。

在得到风险评估模型后，利用预先生成的风险评估模型对目标直播间的合并音频流进行评估，以获得该合并音频流的风险值；若该合并音频流的风险值大于第一阈值，则确定目标直播间为风险直播间。

其中，为提升识别精度以及识别效率，在利用预先生成的风险评估模型对合并音频流进行处理时，可以生成该合并音频流对应的文本数据，并利用该风险评估模型对该文本数据进行处理得到合并音频流的风险值。

在又一种可选的实施方式中，为了实现风险精准定位以及提高音频审核效率，本实施方式还识别目标风险直播间的合并音频流中的至少一个风险音频段。其中，风险音频段是风险直播间的合并音频流中存在安全风险的音频段。在具体的识别过程中，将目标直播间的合并音频流切分为多个合并音频段，例如每60秒切分一个合并音频段。并利用预先生成的风险评估模型对任一合并音频段进行评估，以获得该合并音频段的风险值；若该合并音频段的风险值大于第一阈值，则确定该合并音频段为风险音频段。风险直播间的合并音频流中可以包含一个或多个风险音频段。

继而根据风险音频段的起止时间生成目标直播间的至少一个风险时段。其中，该起止时间包括起始时间以及终止时间，每个风险音频段对应于一个起始时间以及终止时间，则根据该风险音频段的起始时间以及终止时间得到相应的风险时段。

步骤S130，获取目标直播间的多个连麦音频流，基于多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户。

本申请在确定出目标直播间是风险直播间的情况下，才进一步获取目标直播间的各个连麦音频流，并分别对各个连麦音频流进行识别，从而确定出目标直播间的风险连麦用户和/或安全连麦用户。其中，风险连麦用户是指该连麦用户输出的连麦音频流存在安全风险，安全连麦用户是指该连麦用户输出的连麦音频流未存在安全风险。在一些情况下，目标直播间的连麦用户同时存在风险连麦用户以及安全连麦用户；在另一些情况下，目标直播间的连麦用户仅存在风险连麦用户，从而安全连麦用户为空；在又一些情况下，目标直播间的连麦用户仅存在安全连麦用户，从而风险连麦用户为空，如直播间A中合并音频流存在安全风险，但各个连麦音频流未存在安全风险。

在一种可选的实施方式中，为了能够准确地识别出风险连麦用户，本实施方式针对于目标直播间的多个连麦音频流中的任一连麦音频流，利用预先生成的风险评估模型对该连麦音频流进行评估，以获得该连麦音频流的风险值；若该连麦音频流的风险值大于第二阈值，则确定该连麦音频流对应的连麦用户为风险连麦用户；若该连麦音频流的风险值小于或等于第二阈值，则确定该连麦音频流对应的连麦用户为安全连麦用户。

其中，在利用预先生成的风险评估模型对连麦音频流进行处理时，可以生成该连麦音频流对应的文本数据，并利用该风险评估模型对该文本数据进行处理得到连麦音频流的风险值。

在又一种可选的实施方式中，若步骤S120中生成有目标直播间的至少一个风险时段，则本步骤在识别风险连麦用户和/或安全连麦用户时，具体针对于目标直播间的任一风险时段，分别提取多个连麦音频流在该风险时段的连麦音频段；基于在该风险时段的各个连麦音频段，识别目标直播间在该风险时段的风险连麦用户和/或安全连麦用户。具体地，针对于目标风险直播间的任一连麦音频流，从该连麦音频流中提取出与该风险直播间的任一风险时段匹配的连麦音频段，提取出的连麦音频段的起止时间与该风险时段的起止时间相一致，从而后续仅对风险时段的连麦音频段进行处理，减少数据处理量，提升风险连麦用户的识别效率。继而基于任一连麦音频段，判断该连麦音频流对应的连麦用户是否为该风险直播间在该风险时段的风险连麦用户。具体地，若连麦音频段的风险值大于第二阈值，则确定该连麦音频流对应的连麦用户为该风险直播间在该风险时段的风险连麦用户；若连麦音频段的风险值小于或等于第二阈值，则确定该连麦音频流对应的连麦用户为该风险直播间在该风险时段的安全连麦用户。例如，直播间A中连麦用户U1输出的连麦音频流中风险时段10：00-10：01的连麦音频段的风险值大于第二阈值，则确定连麦用户U1为直播间A在10：00-10：01的风险连麦用户。从而风险连麦用户与风险时段相关联，同一风险直播间中不同风险时段对应的风险连麦用户可以相同也可以不同。

由此可见，本申请实施例先对目标直播间的合并音频流进行分析，在根据合并音频流确定出目标直播间为风险直播间的情况下，才进一步对目标直播间的连麦音频流进行分析，在实现对风险直播间以及风险直播间中风险连麦用户的定位的基础上，减少审核的音频流的数目，提升审核效率，降低审核成本。

图2示出了本申请实施例提供的又一种音频审核方法的流程示意图。其中，本实施例所提供的音频审核方法可以用于对直播间中连麦音频的审核。

如图2所示，该方法包括如下步骤：

步骤S210，若判断出目标直播间为风险直播间，则基于目标直播间的多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户。

其中，本步骤的具体实施过程可参照图1实施例中的描述，在此不作赘述。

步骤S220，获取目标直播间的直播间标识，以及获取目标直播间中风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识。

其中，第一用户标识为目标直播间中风险连麦用户的用户标识，第二用户标识为目标直播间中安全连麦用户的用户标识。

步骤S230，展示根据目标直播间的直播间标识生成的直播间标签，以及以第一样式展示根据目标直播间的第一用户标识生成的第一用户标签和/或以第二样式展示根据目标直播间的第二用户标识生成的第二用户标签。

为便于审核用户进一步地对步骤S210中的审核结果进行进一步的审核，本申请实施例在确定为风险直播间的目标直播间对应的展示页面中展示有该目标直播间对应的直播间标签、以及第一用户标签和/或第二用户标签。该审核用户是对步骤S210中结果进行进一步审核的用户。其中，直播间标签根据该目标直播间的直播间标识生成；第一用户标签根据该目标直播间的第一用户标识生成，从而第一用户标签对应于目标直播间的风险连麦用户；第二用户标签根据该目标直播间的第二用户标识生成，从而第二用户标签对应于目标直播间的安全连麦用户。其中，在目标直播间仅存在风险连麦用户的情况下，展示页面中可以仅包含直播间标签以及第一用户标签；在目标直播间仅存在安全连麦用户的情况下，展示页面中可以仅包含直播间标签以及第二用户标签；在目标直播间即存在风险连麦用户，又存在安全连麦用户的情况下，展示页面中可以包含直播间标签、第一用户标签以及第二用户标签。

其中，第一用户标签以第一样式展示，第二用户标签以第二样式展示，第一用户标签与第二用户标签的展示样式不同，便于审核用户直观且快速地区分目标直播间中的风险连麦用户以及安全连麦用户，提升审核效率。其中，本实施例对第一样式和/或第二样式的具体内容不作限定，例如第一样式可以包含红点标记，而第二样式不包含红点标记等等；又或者，第一样式可以为第一颜色(如红色、高亮色)等等，第二样式为第二颜色(如白色等)。

步骤S240，响应于针对任一标签的触发操作，展示该标签对应的音频流。

在展示页面中展示直播间标签、以及第一用户标签和/或第二用户标签后，审核用户可根据实际审核需求，选择所要查看的音频流。当检测到针对直播间标签的触发操作后，在展示页面中展示目标直播间的合并音频流；当检测到针对某一第一用户标签的触发操作后，在展示页面中展示该第一用户标签对应的风险连麦用户的连麦音频流；当检测到针对某一第二用户标签的触发操作后，在展示页面中展示该第二用户标签对应的安全连麦用户的连麦音频流。

在一种可选的实施方式中，连麦音频流以及合并音频流预先存储于相应的存储设备中，例如可以存储于视频云中等等，存储设备生成有相应音频流的播放地址。则本实施例在检测到针对展示的任一标签的触发操作之后，确定该标签对应的音频流，继而根据该音频流的播放地址从存储设备中获取该音频流，并在展示页面中展示该音频流。该方式能避免所有音频流传输而造成的资源浪费，从而节约传输资源。

在另一种可选的实施方式中，展示页面除了展示标签对应的音频流之外，还进一步展示该音频流的文本数据，提升审核效率。此外，还可以在该文本数据中以高亮等标识标示出风险词，进一步提升审核效率。

以图3为例，确定目标直播间-房间1为风险直播间，房间1中进行连麦的连麦用户包括：房间1中主播、连麦人1、连麦人2以及连麦人3。其中，连麦人1被确定为房间1中的风险连麦用户，主播、连麦人2以及连麦人3被确定为房间1中的安全连麦用户。从而在房间1对应的展示页面中分别展示直播间标签“房间1”，第一用户标签“连麦人1”，第二用户标签“主播”、“连麦人2”以及“连麦人3”。第一用户标签“连麦人1”右上角包含有标记圆点，而第二用户标签未包含该标记圆点，从而便于审核用户直观且快速地确定初步的审核结果。

再者，审核用户在点击第一用户标签“连麦人1”之后，进一步根据“连麦人1”的连麦音频流的播放地址获取“连麦人1”的连麦音频流在该展示页面中播放。并可以展示“连麦人1”的连麦音频流的音频文本。此外，还可以展示“连麦人1”的用户昵称、用户ID、以及连麦时间等等，便于审核用户全面地获取风险直播间的连麦信息。

在又一种可选的实施方式中，获取目标直播间在任一风险时段的风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识。即每个识别为风险直播间的直播间会存在至少一个风险时段，该风险时段具有对应的风险连麦用户以及安全连麦用户。在该种情况下，在展示页面中展示该目标直播间的直播间标签、以第一样式展示目标直播间在该风险时段的第一用户标签，和/或以第二样式展示目标直播间在该风险时段的第二用户标签、以及展示该风险时段的时段信息。其中，目标直播间在该风险时段的第一用户标签根据目标直播间在该风险时段的第一用户标识生成，目标直播间在该风险时段的第二用户标签根据目标直播间在该风险时段的第二用户标识生成。从而响应于针对任一标签的触发操作，展示该标签对应的风险时段的音频段。其中，若触发操作对应的标签为直播间标签，展示目标直播间的合并音频流在该风险时段的合并音频段；若触发操作对应的标签为第一用户标签或第二用户标签，则展示该标签对应的连麦用户的连麦音频流在该风险时段的连麦音频段。

以图4及图5为例，确定出房间1存在风险时段1以及风险时段2这两个风险时段。房间1的风险时段1的风险连麦用户为连麦人1，房间1的风险时段2的风险连麦用户为连麦人3。

如图4所示，页面左侧展示有各个风险直播间+风险时段的记录。当审核用户点击“房间1-风险时段1”这一记录时，展示房间1在风险时段1对应的各个标签，该标签中包括：直播间标签“房间1”，第一用户标签“连麦人1”，第二用户标签“主播”、“连麦人2”以及“连麦人3”。第一用户标签“连麦人1”右上角包含有标记圆点。当点击“连麦人2”标签时，展示的是房间1中连麦人的连麦音频流中与风险时段1匹配的连麦音频段。当点击“房间1”标签时，展示的是房间1中合并音频流中与风险时段1匹配的合并音频段。

如图5所示，当审核用户点击“房间1-风险时段2”时，展示房间1在风险时段2对应的各个标签，该标签中包括：直播间标签“房间1”，第一用户标签“连麦人3”，第二用户标签“主播”、“连麦人1”以及“连麦人2”。第一用户标签“连麦人3”右上角包含有标记圆点。当点击“连麦人2”标签时，展示的是房间1中连麦人的连麦音频流中与风险时段2匹配的连麦音频段。当点击“房间1”标签时，展示的是房间1中合并音频流中与风险时段2匹配的合并音频段。

进一步可选的，针对于目标直播间的任一连麦用户，统计该连麦用户作为风险连麦用户所对应的风险时段的数目，展示该连麦用户作为风险连麦用户所对应的风险时段的数目。具体地，为便于后续对风险连麦用户进行惩处，本实施方式中统计有各个连麦用户作为风险连麦用户的次数，该次数又可以表示为该连麦用户作为风险连麦用户所对应的风险时段的数目。例如，若房间1对应风险时段1及风险时段2，连麦人1及连麦人2为风险时段1的风险连麦用户，连麦人2及连麦人3为风险时段2的风险连麦用户，则房间1中主播作为风险连麦用户所对应的风险时段的数目为0，房间1中连麦人1作为风险连麦用户所对应的风险时段的数目为1，房间1中连麦人2作为风险连麦用户所对应的风险时段的数目为2，房间1中连麦人3作为风险连麦用户所对应的风险时段的数目为1。

在再一种可选的实施方式中，在展示该标签对应的音频流之后，进一步响应于惩处操作，展示该标签对应的惩处页面；其中，该惩处页面中包含有推荐惩处方式。如图3所示，当检测到针对页面中“惩处”控件的点击操作之后，响应于该操作展示如图6所示的惩处页面。该惩处页面中包含有惩处对象信息以及推荐惩处方式。图6中推荐惩处方式为“惩处方式1”。此外，惩处页面中还包含有惩处对象的惩处对象信息。

若该标签为直播间标签，则惩处对象为该直播间标签对应的风险直播间，本方式中具体为目标直播间。则惩处对象信息中包含目标直播间的标识信息、主播信息、目标直播间的合并音频流的风险值、目标直播间的风险连麦用户的用户占比、和/或目标直播间的历史惩处信息，等等。该用户占比具体为该目标直播间中风险连麦用户的用户数与该目标直播间中总连麦用户数的比值。并且该惩处页面中包含有针对该直播间标签对应目标直播间的推荐惩处方式。可选的，直播间的推荐惩处方式可以通过如下方式中的一种或多种确定：

确定方式一：获取目标直播间的合并音频流的风险值，根据该合并音频流的风险值确定目标直播间的推荐惩处方式。其中，风险值越高，则推荐惩处方式对应的惩处等级越高，即推荐惩处方式越严厉。例如，若风险值超出某阈值时，推荐惩处方式为“封禁直播间”；若风险值未超出该阈值，则推荐惩处方式为“警告”等等。

确定方式二：统计目标直播间的风险连麦用户的用户占比，根据该用户占比确定目标直播间的推荐惩处方式。例如，若目标直播间的风险连麦用户的用户占比大于预设占比，则推荐惩处方式为“封禁直播间”；若该用户占比小于或等于预设占比，则推荐惩处方式为“警告”等等。

确定方式三：获取目标直播间的历史惩处方式，根据目标惩处方式确定目标直播间的推荐惩处方式。若目标直播间在历史时段内已被惩处过，则可以将上一次惩处方式作为本次的推荐惩处方式；还可以将比上一次惩处方式更加严厉的惩处方式作为本次的推荐惩处方式。

通过上述推荐惩处方式的展示，能够为审核用户推荐与该风险直播间相匹配的惩处方式，提升惩处效率以及惩处精度。

若该标签为用户标签，则惩处对象为该用户标签对应的连麦用户。则惩处对象信息中包含该连麦用户的标识信息、该连麦用户的连麦音频流的风险值、该连麦用户作为风险连麦用户所对应的风险时段的数目、该连麦用户历史被惩处的次数及惩处方式等等。并且惩处页面中包含有针对该用户标签对应风险连麦用户的推荐惩处方式。通常情况下，该用户标签具体为第一用户标签，则惩处对象为第一用户标签对应的风险连麦用户；在某些情况下，在步骤S210初步识别结果存在误判的情况下，该用户标签也可以为第二用户标签，则惩处对象为第二用户标签对应的安全连麦用户。

可选的，连麦用户的推荐惩处方式可以通过如下方式中的一种或多种确定：

确定方式一：获取该连麦用户的连麦音频流的风险值，根据该风险值确定该风险连麦用户的推荐惩处方式。其中，风险值越高，则推荐惩处方式越严厉。

确定方式二：获取连麦用户作为风险连麦用户所对应的风险时段的数目，根据该数目确定连麦用户的推荐惩处方式。连麦用户作为风险连麦用户所对应的风险时段的数目表征了该连麦用户被识别为风险连麦用户的频次，该数目越高，则表明该连麦用户的安全风险越高，从而推进惩处方式越严厉。

确定方式三：获取连麦用户的历史惩处方式，根据历史惩处方式确定连麦用户的推荐惩处方式。若该连麦用户在历史时段内已被惩处过，则可以将上一次惩处方式作为本次的推荐惩处方式；还可以将比上一次惩处方式更加严厉的惩处方式作为本次的推荐惩处方式。

通过上述推荐惩处方式的展示，能够为审核用户推荐与该连麦用户相匹配的惩处方式，提升惩处效率以及惩处精度。其中，连麦用户的身份不同，所采用的惩处方式也存在差异。例如，若连麦用户为主播用户，可以采用封禁该主播对应直播间、警告等惩处方式；若连麦用户为观众用户，可以采用警告、禁用某功能等惩处方式，等等。本申请对具体的惩处方式不作限定。

由此可见，本申请实施例在确定出目标直播间为风险直播间以及目标直播间中的风险连麦用户和/或安全连麦用户的情况下，进一步地展示相应的直播间标签、风险连麦用户对应的第一用户标签及安全连麦用户对应的第二用户标签，便于审核用户进一步的审核，提升审核精度以及审核效率；而且第一用户标签和第二用户标签的展示样式不同，便于审核用户直观且快速地区分风险直播间中的风险连麦用户以及安全连麦用户，提升审核效率。

图7示出了本申请实施例提供的再一种音频审核方法的流程示意图。如图7所示，该方法包括：

步骤S710，业务API将获取到的直播间信息以及连麦用户信息发送给多媒体服务器。

该业务API可以为直播服务中获取连麦信息的相关API。直播间信息具体可以为直播间标识等；连麦用户信息可以为连麦用户标识、昵称等信息。

步骤S720，多媒体服务器获取连麦音频流以及生成合并音频流。

多媒体服务器获取与直播间信息以及连麦用户信息匹配的各个连麦音频流，并将同一直播间中的各个连麦音频流合并为合并音频流。

步骤S730，多媒体服务器将连麦音频流、合并音频流、直播间信息以及连麦用户信息发送给视频云。

步骤S740，视频云存储连麦音频流、合并音频流、直播间信息以及连麦用户信息，并生成连麦音频流及合并音频流的播放地址。

视频云将同一直播间的连麦音频流、合并音频流与直播间信息以及连麦用户信息关联存储，并生成各个音频流的播放地址。

步骤S750，视频云向初审平台发送连麦音频流、合并音频流及直播间信息。

视频云向初审平台发送连麦音频流、合并音频流，以及直播间信息、连麦用户信息等等。

步骤S760，初审平台识别风险直播间、风险连麦用户及安全连麦用户。

本步骤的具体实施过程可参照图1实施例中的描述，在此不作赘述。

步骤S770，初审平台将识别结果发送给再审平台。

该识别结果中包含风险直播间的直播间标识，风险直播间中风险连麦用户的第一用户标识以及安全连麦用户的第二用户标识等等。

步骤S780，再审平台根据识别结果从视频云获取连麦音频流、合并音频流。以供审核人员进一步审核。

由此可见，本申请实施例采用初审平台及再审平台的多级审核的方式，提升音频审核精度及审核效率。

图8示出了本申请实施例提供的一种音频审核装置的结构示意图。如图8所示，音频审核装置800包括：获取模块810、第一识别模块820以及第二识别模块830。

获取模块810，用于获取目标直播间的合并音频流以及获取目标直播间的多个连麦音频流；其中，目标直播间的合并音频流为目标直播间的多个连麦音频流合并后生成的音频流，目标直播间的多个连麦音频流为目标直播间的多个连麦用户分别输出的音频流；

第一识别模块820，用于根据目标直播间的合并音频流，判断目标直播间是否为风险直播间；

第二识别模块830，用于若目标直播间为风险直播间，则基于目标直播间的多个连麦音频流从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户。

由此可见，本申请实施例先对目标直播间的合并音频流进行分析，在根据合并音频流确定出目标直播间为风险直播间的情况下，才进一步对目标直播间的连麦音频流进行分析，在实现对风险直播间以及风险直播间中风险连麦用户的定位的基础上，减少审核的音频流的数目，提升审核效率。

图9示出了本申请实施例提供的一种计算设备的结构示意图。本申请实施例具体实施例并不对计算设备的具体实现做限定。

如图9所示，该计算设备可以包括：处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。

其中：处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。通信接口904，用于与其它设备比如客户端或其它服务器等的网元通信。处理器902，用于执行程序910，具体可以执行上述用于音频审核方法实施例中的相关步骤。具体地，程序910可以包括程序代码，该程序代码包括计算机操作指令。处理器902可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。存储器906，用于存放程序910。存储器906可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序910具体可以用于使得处理器902执行上述任一方法实施例中的方法。

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频审核方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请实施例的内容，并且上面对特定语言所做的描述是为了披露本申请实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请实施例并帮助理解各个申请方面中的一个或多个，在上面对本申请实施例的示例性实施例的描述中，本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，申请方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请实施例的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本申请实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些或者全部部件的一些或者全部功能。本申请实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请实施例进行说明而不是对本申请实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种音频审核方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据目标直播间的合并音频流，判断目标直播间是否为风险直播间进一步包括：利用预先生成的风险评估模型对目标直播间的合并音频流进行评估，以获得目标直播间的合并音频流的风险值；若目标直播间的合并音频流的风险值大于第一阈值，则确定目标直播间为风险直播间；

3.根据权利要求1或2所述的方法，其特征在于，在确定目标直播间为风险直播间后，所述方法还包括：识别目标直播间的合并音频流中至少一个风险音频段，根据所述风险音频段的起止时间生成目标直播间的至少一个风险时段；

4.根据权利要求3所述的方法，其特征在于，所述识别目标直播间的合并音频流中至少一个风险音频段进一步包括：

将目标直播间的合并音频流切分为多个合并音频段；

5.根据权利要求1-4中任一项所述的方法，其特征在于，在所述从目标直播间的多个连麦用户中识别出风险连麦用户和/或安全连麦用户之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取目标直播间中风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识进一步包括：获取目标直播间在任一风险时段的风险连麦用户的第一用户标识和/或安全连麦用户的第二用户标识；

所述方法还包括：展示该风险时段的时段信息；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：针对于目标直播间的任一连麦用户，统计该连麦用户作为风险连麦用户所对应的风险时段的数目，展示该连麦用户作为风险连麦用户所对应的风险时段的数目。

8.根据权利要求5-7中任一项所述的方法，其特征在于，在所述展示该标签对应的音频流之后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，若该标签为直播间标签，则所述惩处页面中包含有目标直播间的推荐惩处方式；

10.根据权利要求9所述的方法，其特征在于，所述目标直播间的推荐惩处方式通过如下方式确定：

11.根据权利要求9或10所述的方法，其特征在于，所述连麦用户的推荐惩处方式通过如下方式确定：

12.一种音频审核装置，其特征在于，所述装置包括：

13.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-11中任一项所述的音频审核方法对应的操作。

14.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-11中任一项所述的音频审核方法对应的操作。