CN115209174B

CN115209174B - 一种音频处理方法及系统

Info

Publication number: CN115209174B
Application number: CN202210840741.5A
Authority: CN
Inventors: 侯丰山
Original assignee: Shenzhen Shidai Xinhua Technology Co ltd
Current assignee: Shenzhen Shidai Xinhua Technology Co ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2023-12-01
Anticipated expiration: 2042-07-18
Also published as: CN115209174A

Abstract

本发明提供一种音频处理方法及系统，其中，方法包括：获取主播端的第一音频采集设备采集到主播的第一音频数据；将第一音频数据输入预设的语音识别模型，获取第一信息；对第一信息进行敏感度检测，确定敏感度；当敏感度大于预设的敏感阈值时，将第一音频数据拦截。本发明的音频处理方法，对主播的第一音频数据进行识别并进行监控和拦截，实现对主播音频的监管。

Description

一种音频处理方法及系统

技术领域

本发明涉及音频处理技术领域，特别涉及一种音频处理方法及系统。

背景技术

目前，随着移动通讯技术的发展，观看网络直播已逐渐成为人们日常的娱乐消遣方式；例如：进入网络直播间与主播互动等。现有的直播时的音频处理都是直接由主播端的音频采集设备采集，上传至服务平台，观众通过手机登录服务平台进入直播间后，即可观看主播的直播内容；音频的处理也仅仅是语音增强、声源定位、回声消除、强降噪、降混响、语音边界检测及语音识别；并无对主播的音频的监管措施，使一些因主播个人或观众引导的不当言论被直播，而造成较为严重的后果。

发明内容

本发明目的之一在于提供了一种音频处理方法，对主播的第一音频数据进行识别并进行监控和拦截，实现对主播音频的监管。

本发明实施例提供的一种音频处理方法，包括：

获取主播端的第一音频采集设备采集到主播的第一音频数据；

将第一音频数据输入预设的语音识别模型，获取第一信息；

对第一信息进行敏感度检测，确定敏感度；

当敏感度大于预设的敏感阈值时，将第一音频数据拦截。

优选的，音频处理方法，还包括：

基于第一音频数据的拦截情况，生成拦截数据；

当主播端的第一音频采集设备和图像采集设备停止工作后，通过提醒设备输出拦截数据；

当接收主播对于拦截数据的点选，输出拦截数据的明细和与拦截数据相关的事例列表；

其中，拦截数据相关的事例列表通过如下步骤确定：

对拦截数据对应的第一音频数据进行特征提取，获取多个特征值；

基于特征值，构建调取特征集；

获取预设的事例库；

将调取特征集与事例库中的事例特征集进行匹配，确定调取特征集与各个事例特征集之间的第一匹配度；

提取第一匹配度大于预设的第一阈值的事例特征集对应的事例，将提取的各个事例按照匹配度从大到小的顺序排列，构建事例列表。

优选的，对第一信息进行敏感度检测，确定敏感度，包括：

基于预设的敏感词提取模板，对第一信息进行敏感词提取，确定敏感词提取模板中各个敏感词出现的次数；

基于敏感词提取模板中各个敏感词出现的次数，构建评价向量；

获取预设的评价库；

将评价向量与评价库中各个标准向量进行匹配，确定评价向量与各个标准向量之间的第二匹配度；

当第二匹配度为评价库中最大且大于预设的第二阈值时，确定评价向量与标准向量匹配符合；

获取匹配符合的标准向量对应关联的敏感度。

优选的，音频处理方法，还包括：

接收主播的互动问答的互动指令；

确定互动指令对应的互动模式；

解析互动模式，确定观众问题的提取方式；

当提取方式为随机提取时，对观众输入在直播间内公屏的信息进行识别筛选，构建问题集；

从问题集中随机挑选问题并输出至主播端的显示屏；

接收主播的确认或拒绝操作；

当为确认操作时，将问题进行语音合成处理，并输出；

当为拒绝操作时，重新从问题集中随机挑选问题输出至显示屏；直至主播的操作为确认操作；

当提取方式为手动挑选时，对观众输入在直播间内公屏的信息进行识别筛选，构建问题列表；

依据问题的提出时间和提出的观众的权限，对问题列表中的问题进行排序；

接收主播对于问题列表中的问题的点选，确定点选的问题；

将点选的问题进行语音合成处理，并输出；

其中，依据问题的提出时间和提出的观众的权限，对问题列表中的问题进行排序，包括：

确定问题的提出时间距离当前时刻的时间差值，基于时间差值，查询第一优先值对照表，确定时间差值对应的第一优先值；

基于问题的提出的观众的权限，查询第二优先值对照标，确定权限对应的第二优先值；

基于第一优先值和第二优先值的和值从大到小的顺序对问题列表中的问题进行排序。

优选的，音频处理方法，还包括：

在观众的问题的语音播放后，采集主播的第二音频数据；

将第二音频数据输入预设的语音识别模型，获取第二信息；

将第二信息输入唤醒识别词识别模型中，进行识别；

当识别到预设的唤醒词时，再次进行观众问题的提取；

在提取观众问题时，优先提取上一个问题的观众的问题。

本发明还提供一种音频处理系统，包括：

第一音频获取模块，用于获取主播端的第一音频采集设备采集到主播的第一音频数据；

识别模块，用于将第一音频数据输入预设的语音识别模型，获取第一信息；

敏感度检测模块，用于对第一信息进行敏感度检测，确定敏感度；

拦截模块，用于当敏感度大于预设的敏感阈值时，将第一音频数据拦截。

优选的，音频处理系统，还包括：拦截记录模块；

拦截模块执行如下操作：

基于第一音频数据的拦截情况，生成拦截数据；

其中，拦截数据相关的事例列表通过如下步骤确定：

基于特征值，构建调取特征集；

获取预设的事例库；

优选的，敏感度检测模块对第一信息进行敏感度检测，确定敏感度，执行如下操作：

获取预设的评价库；

获取匹配符合的标准向量对应关联的敏感度。

优选的，音频处理系统，还包括：语音合成模块；

语音合成模块执行如下操作：

接收主播的互动问答的互动指令；

确定互动指令对应的互动模式；

解析互动模式，确定观众问题的提取方式；

从问题集中随机挑选问题并输出至主播端的显示屏；

接收主播的确认或拒绝操作；

当为确认操作时，将问题进行语音合成处理，并输出；

接收主播对于问题列表中的问题的点选，确定点选的问题；

将点选的问题进行语音合成处理，并输出；

优选的，语音合成模块还执行如下操作：

在观众的问题的语音播放后，采集主播的第二音频数据；

将第二音频数据输入预设的语音识别模型，获取第二信息；

将第二信息输入唤醒识别词识别模型中，进行识别；

当识别到预设的唤醒词时，再次进行观众问题的提取；

在提取观众问题时，优先提取上一个问题的观众的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种音频处理方法的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种音频处理方法，如图1所示，包括：

步骤S1：获取主播端的第一音频采集设备采集到主播的第一音频数据；

步骤S2：将第一音频数据输入预设的语音识别模型，获取第一信息；

步骤S3：对第一信息进行敏感度检测，确定敏感度；

步骤S4：当敏感度大于预设的敏感阈值时，将第一音频数据拦截。

上述技术方案的工作原理及有益效果为：

在直播时，主播端通过第一音频采集设备和第一图像采集设备分别采集音频和图像数据，然后发送至服务平台，观众通过观众端(例如：手机上的客户端)登录到服务平台上，可以实时收看到主播端的主播的直播；为了实现对主播直播的敏感内容的拦截，首先通过第一音频采集设备采集主播的第一音频数据，将第一音频数据识别为第一信息，对第一信息进行敏感度检测，当敏感度超出敏感阈值时，将第一音频数据拦截；通过引入敏感度监测实现对主播在直播时的敏感的言论的拦截，实现有效的监管。其中，语音识别模型是对语音进行识别，将其转换为文字类型的数据的第一信息。上述拦截步骤可以由主播端或服务平台执行，当然由主播端执行时，拦截速度更快。

在一个实施例中，音频处理方法，还包括：

基于第一音频数据的拦截情况，生成拦截数据；

当主播端的第一音频采集设备和图像采集设备停止工作后，通过提醒设备输出拦截数据；第一音频采集设备和图像采集设备停止工作可以判断为主播暂停了直播或者关闭了直播的界面；此时主播有时间通过提醒设备确认拦截情况，提醒设备包括：显示屏，显示屏显示拦截数据；

其中，拦截数据相关的事例列表通过如下步骤确定：

对拦截数据对应的第一音频数据进行特征提取，获取多个特征值；特征值包括表示预设的关键词对应的音频数据是否出现的特征值，当出现时特征值的数值为1，当未出现时数值为0；此外还有表示关键词出现的次数的特征值；

基于特征值，构建调取特征集；将特征值按照预设的顺序进行排序；

获取预设的事例库；事例库是根据过往的涉及敏感言论的直播构建的；在事例库中事例特征集与事例关联存储；事例特征集为根据事例涉及的敏感内容，通过进行特征提取后构建的；

将调取特征集与事例库中的事例特征集进行匹配，确定调取特征集与各个事例特征集之间的第一匹配度；第一匹配度的计算公式如下：其中，Z₁表示第一匹配度；A_ij表示调取特征集中第i行第j列的数据；B_ij表示事例特征集中第i行第j列的数据；n表示总行数；m表示总列数；

上述技术方案的工作原理及有益效果为：

将主播在直播时的拦截情况，生成拦截数据；拦截数据包括：被拦截的语音的时间、内容等明细数据；在主播点选拦截数据时还将与该拦截对应的事例数据一并输出；方便主播对敏感的话语进行了解总结，以便下一次直播时规避敏感言论。在输出事例列表时根据匹配度大小进行排序，方便主播的查看。

为了实现敏感度的确定，在一个实施例中，对第一信息进行敏感度检测，确定敏感度，包括：

获取预设的评价库；评价库为事先基于大量数据分析构建；

将评价向量与评价库中各个标准向量进行匹配，确定评价向量与各个标准向量之间的第二匹配度；第二匹配度为评价向量与标准向量之间的相似度；相似度计算可以采用余弦相似度计算法；

获取匹配符合的标准向量对应关联的敏感度。

在一个实施例中，音频处理方法，还包括：

接收主播的互动问答的互动指令；主播通过点选显示屏上的互动虚拟按钮发出互动指令；

确定互动指令对应的互动模式；通过主播点选的互动按钮对应的互动模式实现互动指令对应的互动模式的确定；

解析互动模式，确定观众问题的提取方式；互动模式可以分为两种，其中一种为随机提取用户问题进行回答；另一种为主播挑选问题进行回答；

从问题集中随机挑选问题并输出至主播端的显示屏；

接收主播的确认或拒绝操作；

当为确认操作时，将问题进行语音合成处理，并输出；通过将问题转变为语音输出，无需主播进行问题的复述，并且通过语音进行问题输出可以提高互动体验；

接收主播对于问题列表中的问题的点选，确定点选的问题；

将点选的问题进行语音合成处理，并输出；

基于第一优先值和第二优先值的和值从大到小的顺序对问题列表中的问题进行排序。通过将问题排序方便主播的选取。

在一个实施例中，音频处理方法，还包括：

在观众的问题的语音播放后，采集主播的第二音频数据；

将第二音频数据输入预设的语音识别模型，获取第二信息；

将第二信息输入唤醒识别词识别模型中，进行识别；

当识别到预设的唤醒词时，再次进行观众问题的提取；预设的唤醒词包括：“进行下一个问题”、“让我看看下一个问题”等

在提取观众问题时，优先提取上一个问题的观众的问题。

上述技术方案的工作原理及有益效果为：

通过对同一个观众的问题进行追踪，提高了观众的互动体验；实现了互动观众与主播的隔空对话。

本发明还提供一种音频处理系统，包括：

在一个实施例中，音频处理系统，还包括：拦截记录模块；

拦截模块执行如下操作：

基于第一音频数据的拦截情况，生成拦截数据；

其中，拦截数据相关的事例列表通过如下步骤确定：

基于特征值，构建调取特征集；

获取预设的事例库；

在一个实施例中，敏感度检测模块对第一信息进行敏感度检测，确定敏感度，执行如下操作：

获取预设的评价库；

获取匹配符合的标准向量对应关联的敏感度。

在一个实施例中，音频处理系统，还包括：语音合成模块；

语音合成模块执行如下操作：

接收主播的互动问答的互动指令；

确定互动指令对应的互动模式；

解析互动模式，确定观众问题的提取方式；

从问题集中随机挑选问题并输出至主播端的显示屏；

接收主播的确认或拒绝操作；

当为确认操作时，将问题进行语音合成处理，并输出；

接收主播对于问题列表中的问题的点选，确定点选的问题；

将点选的问题进行语音合成处理，并输出；

在一个实施例中，语音合成模块还执行如下操作：

在观众的问题的语音播放后，采集主播的第二音频数据；

将第二音频数据输入预设的语音识别模型，获取第二信息；

将第二信息输入唤醒识别词识别模型中，进行识别；

当识别到预设的唤醒词时，再次进行观众问题的提取；

在提取观众问题时，优先提取上一个问题的观众的问题。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频处理方法，其特征在于，包括：

将所述第一音频数据输入预设的语音识别模型，获取第一信息；

对所述第一信息进行敏感度检测，确定敏感度；

当所述敏感度大于预设的敏感阈值时，将所述第一音频数据拦截；

接收主播的互动问答的互动指令；

确定互动指令对应的互动模式；

解析所述互动模式，确定观众问题的提取方式；

当所述提取方式为随机提取时，对观众输入在直播间内公屏的信息进行识别筛选，构建问题集；

从所述问题集中随机挑选问题并输出至所述主播端的显示屏；

接收所述主播的确认或拒绝操作；

当为确认操作时，将所述问题进行语音合成处理，并输出；

当为拒绝操作时，重新从所述问题集中随机挑选问题输出至所述显示屏；直至所述主播的操作为确认操作；

当所述提取方式为手动挑选时，对观众输入在直播间内公屏的信息进行识别筛选，构建问题列表；

依据问题的提出时间和提出的观众的权限，对所述问题列表中的问题进行排序；

接收所述主播对于所述问题列表中的问题的点选，确定点选的问题；

将点选的问题进行语音合成处理，并输出；

其中，依据问题的提出时间和提出的观众的权限，对所述问题列表中的问题进行排序，包括：

确定问题的提出时间距离当前时刻的时间差值，基于所述时间差值，查询第一优先值对照表，确定所述时间差值对应的第一优先值；

基于问题的提出的观众的权限，查询第二优先值对照标，确定所述权限对应的第二优先值；

基于所述第一优先值和所述第二优先值的和值从大到小的顺序对所述问题列表中的问题进行排序；

音频处理方法，还包括：

基于所述第一音频数据的拦截情况，生成拦截数据；

当主播端的第一音频采集设备和图像采集设备停止工作后，通过提醒设备输出所述拦截数据；

当接收主播对于所述拦截数据的点选，输出所述拦截数据的明细和与所述拦截数据相关的事例列表；

其中，拦截数据相关的事例列表通过如下步骤确定：

对所述拦截数据对应的第一音频数据进行特征提取，获取多个特征值；

基于所述特征值，构建调取特征集；

获取预设的事例库；

将所述调取特征集与所述事例库中的事例特征集进行匹配，确定所述调取特征集与各个所述事例特征集之间的第一匹配度；

提取所述第一匹配度大于预设的第一阈值的所述事例特征集对应的事例，将提取的各个事例按照所述匹配度从大到小的顺序排列，构建事例列表。

2.如权利要求1所述的音频处理方法，其特征在于，所述对所述第一信息进行敏感度检测，确定敏感度，包括：

基于预设的敏感词提取模板，对所述第一信息进行敏感词提取，确定所述敏感词提取模板中各个敏感词出现的次数；

基于所述敏感词提取模板中各个敏感词出现的次数，构建评价向量；

获取预设的评价库；

将所述评价向量与所述评价库中各个标准向量进行匹配，确定所述评价向量与各个所述标准向量之间的第二匹配度；

当所述第二匹配度为所述评价库中最大且大于预设的第二阈值时，确定所述评价向量与所述标准向量匹配符合；

获取匹配符合的所述标准向量对应关联的所述敏感度。

3.如权利要求1所述的音频处理方法，其特征在于，还包括：

在观众的问题的语音播放后，采集所述主播的第二音频数据；

将所述第二音频数据输入预设的语音识别模型，获取第二信息；

将所述第二信息输入唤醒识别词识别模型中，进行识别；

当识别到预设的唤醒词时，再次进行观众问题的提取；

在提取观众问题时，优先提取上一个问题的观众的问题。

4.一种音频处理系统，其特征在于，包括：

识别模块，用于将所述第一音频数据输入预设的语音识别模型，获取第一信息；

敏感度检测模块，用于对所述第一信息进行敏感度检测，确定敏感度；

拦截模块，用于当所述敏感度大于预设的敏感阈值时，将所述第一音频数据拦截；

语音合成模块和拦截记录模块；

其中，所述语音合成模块执行如下操作：

接收主播的互动问答的互动指令；

确定互动指令对应的互动模式；

解析所述互动模式，确定观众问题的提取方式；

接收所述主播的确认或拒绝操作；

当为确认操作时，将所述问题进行语音合成处理，并输出；

将点选的问题进行语音合成处理，并输出；

所述拦截模块执行如下操作：

基于所述第一音频数据的拦截情况，生成拦截数据；

其中，拦截数据相关的事例列表通过如下步骤确定：

基于所述特征值，构建调取特征集；

获取预设的事例库；

5.如权利要求4所述的音频处理系统，其特征在于，所述敏感度检测模块对所述第一信息进行敏感度检测，确定敏感度，执行如下操作：

获取预设的评价库；

获取匹配符合的所述标准向量对应关联的所述敏感度。

6.如权利要求4所述的音频处理系统，其特征在于，所述语音合成模块还执行如下操作：

将所述第二信息输入唤醒识别词识别模型中，进行识别；

当识别到预设的唤醒词时，再次进行观众问题的提取；

在提取观众问题时，优先提取上一个问题的观众的问题。