CN115209174B - 一种音频处理方法及系统 - Google Patents
一种音频处理方法及系统 Download PDFInfo
- Publication number
- CN115209174B CN115209174B CN202210840741.5A CN202210840741A CN115209174B CN 115209174 B CN115209174 B CN 115209174B CN 202210840741 A CN202210840741 A CN 202210840741A CN 115209174 B CN115209174 B CN 115209174B
- Authority
- CN
- China
- Prior art keywords
- determining
- question
- questions
- preset
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 230000035945 sensitivity Effects 0.000 claims abstract description 61
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 48
- 238000011156 evaluation Methods 0.000 claims description 44
- 230000003993 interaction Effects 0.000 claims description 38
- 230000015572 biosynthetic process Effects 0.000 claims description 27
- 238000003786 synthesis reaction Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 24
- 238000012790 confirmation Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
- H04N21/2407—Monitoring of transmitted content, e.g. distribution time, number of downloads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/262—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
- H04N21/26208—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种音频处理方法及系统,其中,方法包括:获取主播端的第一音频采集设备采集到主播的第一音频数据;将第一音频数据输入预设的语音识别模型,获取第一信息;对第一信息进行敏感度检测,确定敏感度;当敏感度大于预设的敏感阈值时,将第一音频数据拦截。本发明的音频处理方法,对主播的第一音频数据进行识别并进行监控和拦截,实现对主播音频的监管。
Description
技术领域
本发明涉及音频处理技术领域,特别涉及一种音频处理方法及系统。
背景技术
目前,随着移动通讯技术的发展,观看网络直播已逐渐成为人们日常的娱乐消遣方式;例如:进入网络直播间与主播互动等。现有的直播时的音频处理都是直接由主播端的音频采集设备采集,上传至服务平台,观众通过手机登录服务平台进入直播间后,即可观看主播的直播内容;音频的处理也仅仅是语音增强、声源定位、回声消除、强降噪、降混响、语音边界检测及语音识别;并无对主播的音频的监管措施,使一些因主播个人或观众引导的不当言论被直播,而造成较为严重的后果。
发明内容
本发明目的之一在于提供了一种音频处理方法,对主播的第一音频数据进行识别并进行监控和拦截,实现对主播音频的监管。
本发明实施例提供的一种音频处理方法,包括:
获取主播端的第一音频采集设备采集到主播的第一音频数据;
将第一音频数据输入预设的语音识别模型,获取第一信息;
对第一信息进行敏感度检测,确定敏感度;
当敏感度大于预设的敏感阈值时,将第一音频数据拦截。
优选的,音频处理方法,还包括:
基于第一音频数据的拦截情况,生成拦截数据;
当主播端的第一音频采集设备和图像采集设备停止工作后,通过提醒设备输出拦截数据;
当接收主播对于拦截数据的点选,输出拦截数据的明细和与拦截数据相关的事例列表;
其中,拦截数据相关的事例列表通过如下步骤确定:
对拦截数据对应的第一音频数据进行特征提取,获取多个特征值;
基于特征值,构建调取特征集;
获取预设的事例库;
将调取特征集与事例库中的事例特征集进行匹配,确定调取特征集与各个事例特征集之间的第一匹配度;
提取第一匹配度大于预设的第一阈值的事例特征集对应的事例,将提取的各个事例按照匹配度从大到小的顺序排列,构建事例列表。
优选的,对第一信息进行敏感度检测,确定敏感度,包括:
基于预设的敏感词提取模板,对第一信息进行敏感词提取,确定敏感词提取模板中各个敏感词出现的次数;
基于敏感词提取模板中各个敏感词出现的次数,构建评价向量;
获取预设的评价库;
将评价向量与评价库中各个标准向量进行匹配,确定评价向量与各个标准向量之间的第二匹配度;
当第二匹配度为评价库中最大且大于预设的第二阈值时,确定评价向量与标准向量匹配符合;
获取匹配符合的标准向量对应关联的敏感度。
优选的,音频处理方法,还包括:
接收主播的互动问答的互动指令;
确定互动指令对应的互动模式;
解析互动模式,确定观众问题的提取方式;
当提取方式为随机提取时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题集;
从问题集中随机挑选问题并输出至主播端的显示屏;
接收主播的确认或拒绝操作;
当为确认操作时,将问题进行语音合成处理,并输出;
当为拒绝操作时,重新从问题集中随机挑选问题输出至显示屏;直至主播的操作为确认操作;
当提取方式为手动挑选时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题列表;
依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序;
接收主播对于问题列表中的问题的点选,确定点选的问题;
将点选的问题进行语音合成处理,并输出;
其中,依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序,包括:
确定问题的提出时间距离当前时刻的时间差值,基于时间差值,查询第一优先值对照表,确定时间差值对应的第一优先值;
基于问题的提出的观众的权限,查询第二优先值对照标,确定权限对应的第二优先值;
基于第一优先值和第二优先值的和值从大到小的顺序对问题列表中的问题进行排序。
优选的,音频处理方法,还包括:
在观众的问题的语音播放后,采集主播的第二音频数据;
将第二音频数据输入预设的语音识别模型,获取第二信息;
将第二信息输入唤醒识别词识别模型中,进行识别;
当识别到预设的唤醒词时,再次进行观众问题的提取;
在提取观众问题时,优先提取上一个问题的观众的问题。
本发明还提供一种音频处理系统,包括:
第一音频获取模块,用于获取主播端的第一音频采集设备采集到主播的第一音频数据;
识别模块,用于将第一音频数据输入预设的语音识别模型,获取第一信息;
敏感度检测模块,用于对第一信息进行敏感度检测,确定敏感度;
拦截模块,用于当敏感度大于预设的敏感阈值时,将第一音频数据拦截。
优选的,音频处理系统,还包括:拦截记录模块;
拦截模块执行如下操作:
基于第一音频数据的拦截情况,生成拦截数据;
当主播端的第一音频采集设备和图像采集设备停止工作后,通过提醒设备输出拦截数据;
当接收主播对于拦截数据的点选,输出拦截数据的明细和与拦截数据相关的事例列表;
其中,拦截数据相关的事例列表通过如下步骤确定:
对拦截数据对应的第一音频数据进行特征提取,获取多个特征值;
基于特征值,构建调取特征集;
获取预设的事例库;
将调取特征集与事例库中的事例特征集进行匹配,确定调取特征集与各个事例特征集之间的第一匹配度;
提取第一匹配度大于预设的第一阈值的事例特征集对应的事例,将提取的各个事例按照匹配度从大到小的顺序排列,构建事例列表。
优选的,敏感度检测模块对第一信息进行敏感度检测,确定敏感度,执行如下操作:
基于预设的敏感词提取模板,对第一信息进行敏感词提取,确定敏感词提取模板中各个敏感词出现的次数;
基于敏感词提取模板中各个敏感词出现的次数,构建评价向量;
获取预设的评价库;
将评价向量与评价库中各个标准向量进行匹配,确定评价向量与各个标准向量之间的第二匹配度;
当第二匹配度为评价库中最大且大于预设的第二阈值时,确定评价向量与标准向量匹配符合;
获取匹配符合的标准向量对应关联的敏感度。
优选的,音频处理系统,还包括:语音合成模块;
语音合成模块执行如下操作:
接收主播的互动问答的互动指令;
确定互动指令对应的互动模式;
解析互动模式,确定观众问题的提取方式;
当提取方式为随机提取时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题集;
从问题集中随机挑选问题并输出至主播端的显示屏;
接收主播的确认或拒绝操作;
当为确认操作时,将问题进行语音合成处理,并输出;
当为拒绝操作时,重新从问题集中随机挑选问题输出至显示屏;直至主播的操作为确认操作;
当提取方式为手动挑选时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题列表;
依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序;
接收主播对于问题列表中的问题的点选,确定点选的问题;
将点选的问题进行语音合成处理,并输出;
其中,依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序,包括:
确定问题的提出时间距离当前时刻的时间差值,基于时间差值,查询第一优先值对照表,确定时间差值对应的第一优先值;
基于问题的提出的观众的权限,查询第二优先值对照标,确定权限对应的第二优先值;
基于第一优先值和第二优先值的和值从大到小的顺序对问题列表中的问题进行排序。
优选的,语音合成模块还执行如下操作:
在观众的问题的语音播放后,采集主播的第二音频数据;
将第二音频数据输入预设的语音识别模型,获取第二信息;
将第二信息输入唤醒识别词识别模型中,进行识别;
当识别到预设的唤醒词时,再次进行观众问题的提取;
在提取观众问题时,优先提取上一个问题的观众的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种音频处理方法的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种音频处理方法,如图1所示,包括:
步骤S1:获取主播端的第一音频采集设备采集到主播的第一音频数据;
步骤S2:将第一音频数据输入预设的语音识别模型,获取第一信息;
步骤S3:对第一信息进行敏感度检测,确定敏感度;
步骤S4:当敏感度大于预设的敏感阈值时,将第一音频数据拦截。
上述技术方案的工作原理及有益效果为:
在直播时,主播端通过第一音频采集设备和第一图像采集设备分别采集音频和图像数据,然后发送至服务平台,观众通过观众端(例如:手机上的客户端)登录到服务平台上,可以实时收看到主播端的主播的直播;为了实现对主播直播的敏感内容的拦截,首先通过第一音频采集设备采集主播的第一音频数据,将第一音频数据识别为第一信息,对第一信息进行敏感度检测,当敏感度超出敏感阈值时,将第一音频数据拦截;通过引入敏感度监测实现对主播在直播时的敏感的言论的拦截,实现有效的监管。其中,语音识别模型是对语音进行识别,将其转换为文字类型的数据的第一信息。上述拦截步骤可以由主播端或服务平台执行,当然由主播端执行时,拦截速度更快。
在一个实施例中,音频处理方法,还包括:
基于第一音频数据的拦截情况,生成拦截数据;
当主播端的第一音频采集设备和图像采集设备停止工作后,通过提醒设备输出拦截数据;第一音频采集设备和图像采集设备停止工作可以判断为主播暂停了直播或者关闭了直播的界面;此时主播有时间通过提醒设备确认拦截情况,提醒设备包括:显示屏,显示屏显示拦截数据;
当接收主播对于拦截数据的点选,输出拦截数据的明细和与拦截数据相关的事例列表;
其中,拦截数据相关的事例列表通过如下步骤确定:
对拦截数据对应的第一音频数据进行特征提取,获取多个特征值;特征值包括表示预设的关键词对应的音频数据是否出现的特征值,当出现时特征值的数值为1,当未出现时数值为0;此外还有表示关键词出现的次数的特征值;
基于特征值,构建调取特征集;将特征值按照预设的顺序进行排序;
获取预设的事例库;事例库是根据过往的涉及敏感言论的直播构建的;在事例库中事例特征集与事例关联存储;事例特征集为根据事例涉及的敏感内容,通过进行特征提取后构建的;
将调取特征集与事例库中的事例特征集进行匹配,确定调取特征集与各个事例特征集之间的第一匹配度;第一匹配度的计算公式如下:其中,Z1表示第一匹配度;Aij表示调取特征集中第i行第j列的数据;Bij表示事例特征集中第i行第j列的数据;n表示总行数;m表示总列数;
提取第一匹配度大于预设的第一阈值的事例特征集对应的事例,将提取的各个事例按照匹配度从大到小的顺序排列,构建事例列表。
上述技术方案的工作原理及有益效果为:
将主播在直播时的拦截情况,生成拦截数据;拦截数据包括:被拦截的语音的时间、内容等明细数据;在主播点选拦截数据时还将与该拦截对应的事例数据一并输出;方便主播对敏感的话语进行了解总结,以便下一次直播时规避敏感言论。在输出事例列表时根据匹配度大小进行排序,方便主播的查看。
为了实现敏感度的确定,在一个实施例中,对第一信息进行敏感度检测,确定敏感度,包括:
基于预设的敏感词提取模板,对第一信息进行敏感词提取,确定敏感词提取模板中各个敏感词出现的次数;
基于敏感词提取模板中各个敏感词出现的次数,构建评价向量;
获取预设的评价库;评价库为事先基于大量数据分析构建;
将评价向量与评价库中各个标准向量进行匹配,确定评价向量与各个标准向量之间的第二匹配度;第二匹配度为评价向量与标准向量之间的相似度;相似度计算可以采用余弦相似度计算法;
当第二匹配度为评价库中最大且大于预设的第二阈值时,确定评价向量与标准向量匹配符合;
获取匹配符合的标准向量对应关联的敏感度。
在一个实施例中,音频处理方法,还包括:
接收主播的互动问答的互动指令;主播通过点选显示屏上的互动虚拟按钮发出互动指令;
确定互动指令对应的互动模式;通过主播点选的互动按钮对应的互动模式实现互动指令对应的互动模式的确定;
解析互动模式,确定观众问题的提取方式;互动模式可以分为两种,其中一种为随机提取用户问题进行回答;另一种为主播挑选问题进行回答;
当提取方式为随机提取时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题集;
从问题集中随机挑选问题并输出至主播端的显示屏;
接收主播的确认或拒绝操作;
当为确认操作时,将问题进行语音合成处理,并输出;通过将问题转变为语音输出,无需主播进行问题的复述,并且通过语音进行问题输出可以提高互动体验;
当为拒绝操作时,重新从问题集中随机挑选问题输出至显示屏;直至主播的操作为确认操作;
当提取方式为手动挑选时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题列表;
依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序;
接收主播对于问题列表中的问题的点选,确定点选的问题;
将点选的问题进行语音合成处理,并输出;
其中,依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序,包括:
确定问题的提出时间距离当前时刻的时间差值,基于时间差值,查询第一优先值对照表,确定时间差值对应的第一优先值;
基于问题的提出的观众的权限,查询第二优先值对照标,确定权限对应的第二优先值;
基于第一优先值和第二优先值的和值从大到小的顺序对问题列表中的问题进行排序。通过将问题排序方便主播的选取。
在一个实施例中,音频处理方法,还包括:
在观众的问题的语音播放后,采集主播的第二音频数据;
将第二音频数据输入预设的语音识别模型,获取第二信息;
将第二信息输入唤醒识别词识别模型中,进行识别;
当识别到预设的唤醒词时,再次进行观众问题的提取;预设的唤醒词包括:“进行下一个问题”、“让我看看下一个问题”等
在提取观众问题时,优先提取上一个问题的观众的问题。
上述技术方案的工作原理及有益效果为:
通过对同一个观众的问题进行追踪,提高了观众的互动体验;实现了互动观众与主播的隔空对话。
本发明还提供一种音频处理系统,包括:
第一音频获取模块,用于获取主播端的第一音频采集设备采集到主播的第一音频数据;
识别模块,用于将第一音频数据输入预设的语音识别模型,获取第一信息;
敏感度检测模块,用于对第一信息进行敏感度检测,确定敏感度;
拦截模块,用于当敏感度大于预设的敏感阈值时,将第一音频数据拦截。
在一个实施例中,音频处理系统,还包括:拦截记录模块;
拦截模块执行如下操作:
基于第一音频数据的拦截情况,生成拦截数据;
当主播端的第一音频采集设备和图像采集设备停止工作后,通过提醒设备输出拦截数据;
当接收主播对于拦截数据的点选,输出拦截数据的明细和与拦截数据相关的事例列表;
其中,拦截数据相关的事例列表通过如下步骤确定:
对拦截数据对应的第一音频数据进行特征提取,获取多个特征值;
基于特征值,构建调取特征集;
获取预设的事例库;
将调取特征集与事例库中的事例特征集进行匹配,确定调取特征集与各个事例特征集之间的第一匹配度;
提取第一匹配度大于预设的第一阈值的事例特征集对应的事例,将提取的各个事例按照匹配度从大到小的顺序排列,构建事例列表。
在一个实施例中,敏感度检测模块对第一信息进行敏感度检测,确定敏感度,执行如下操作:
基于预设的敏感词提取模板,对第一信息进行敏感词提取,确定敏感词提取模板中各个敏感词出现的次数;
基于敏感词提取模板中各个敏感词出现的次数,构建评价向量;
获取预设的评价库;
将评价向量与评价库中各个标准向量进行匹配,确定评价向量与各个标准向量之间的第二匹配度;
当第二匹配度为评价库中最大且大于预设的第二阈值时,确定评价向量与标准向量匹配符合;
获取匹配符合的标准向量对应关联的敏感度。
在一个实施例中,音频处理系统,还包括:语音合成模块;
语音合成模块执行如下操作:
接收主播的互动问答的互动指令;
确定互动指令对应的互动模式;
解析互动模式,确定观众问题的提取方式;
当提取方式为随机提取时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题集;
从问题集中随机挑选问题并输出至主播端的显示屏;
接收主播的确认或拒绝操作;
当为确认操作时,将问题进行语音合成处理,并输出;
当为拒绝操作时,重新从问题集中随机挑选问题输出至显示屏;直至主播的操作为确认操作;
当提取方式为手动挑选时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题列表;
依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序;
接收主播对于问题列表中的问题的点选,确定点选的问题;
将点选的问题进行语音合成处理,并输出;
其中,依据问题的提出时间和提出的观众的权限,对问题列表中的问题进行排序,包括:
确定问题的提出时间距离当前时刻的时间差值,基于时间差值,查询第一优先值对照表,确定时间差值对应的第一优先值;
基于问题的提出的观众的权限,查询第二优先值对照标,确定权限对应的第二优先值;
基于第一优先值和第二优先值的和值从大到小的顺序对问题列表中的问题进行排序。
在一个实施例中,语音合成模块还执行如下操作:
在观众的问题的语音播放后,采集主播的第二音频数据;
将第二音频数据输入预设的语音识别模型,获取第二信息;
将第二信息输入唤醒识别词识别模型中,进行识别;
当识别到预设的唤醒词时,再次进行观众问题的提取;
在提取观众问题时,优先提取上一个问题的观众的问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种音频处理方法,其特征在于,包括:
获取主播端的第一音频采集设备采集到主播的第一音频数据;
将所述第一音频数据输入预设的语音识别模型,获取第一信息;
对所述第一信息进行敏感度检测,确定敏感度;
当所述敏感度大于预设的敏感阈值时,将所述第一音频数据拦截;
接收主播的互动问答的互动指令;
确定互动指令对应的互动模式;
解析所述互动模式,确定观众问题的提取方式;
当所述提取方式为随机提取时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题集;
从所述问题集中随机挑选问题并输出至所述主播端的显示屏;
接收所述主播的确认或拒绝操作;
当为确认操作时,将所述问题进行语音合成处理,并输出;
当为拒绝操作时,重新从所述问题集中随机挑选问题输出至所述显示屏;直至所述主播的操作为确认操作;
当所述提取方式为手动挑选时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题列表;
依据问题的提出时间和提出的观众的权限,对所述问题列表中的问题进行排序;
接收所述主播对于所述问题列表中的问题的点选,确定点选的问题;
将点选的问题进行语音合成处理,并输出;
其中,依据问题的提出时间和提出的观众的权限,对所述问题列表中的问题进行排序,包括:
确定问题的提出时间距离当前时刻的时间差值,基于所述时间差值,查询第一优先值对照表,确定所述时间差值对应的第一优先值;
基于问题的提出的观众的权限,查询第二优先值对照标,确定所述权限对应的第二优先值;
基于所述第一优先值和所述第二优先值的和值从大到小的顺序对所述问题列表中的问题进行排序;
音频处理方法,还包括:
基于所述第一音频数据的拦截情况,生成拦截数据;
当主播端的第一音频采集设备和图像采集设备停止工作后,通过提醒设备输出所述拦截数据;
当接收主播对于所述拦截数据的点选,输出所述拦截数据的明细和与所述拦截数据相关的事例列表;
其中,拦截数据相关的事例列表通过如下步骤确定:
对所述拦截数据对应的第一音频数据进行特征提取,获取多个特征值;
基于所述特征值,构建调取特征集;
获取预设的事例库;
将所述调取特征集与所述事例库中的事例特征集进行匹配,确定所述调取特征集与各个所述事例特征集之间的第一匹配度;
提取所述第一匹配度大于预设的第一阈值的所述事例特征集对应的事例,将提取的各个事例按照所述匹配度从大到小的顺序排列,构建事例列表。
2.如权利要求1所述的音频处理方法,其特征在于,所述对所述第一信息进行敏感度检测,确定敏感度,包括:
基于预设的敏感词提取模板,对所述第一信息进行敏感词提取,确定所述敏感词提取模板中各个敏感词出现的次数;
基于所述敏感词提取模板中各个敏感词出现的次数,构建评价向量;
获取预设的评价库;
将所述评价向量与所述评价库中各个标准向量进行匹配,确定所述评价向量与各个所述标准向量之间的第二匹配度;
当所述第二匹配度为所述评价库中最大且大于预设的第二阈值时,确定所述评价向量与所述标准向量匹配符合;
获取匹配符合的所述标准向量对应关联的所述敏感度。
3.如权利要求1所述的音频处理方法,其特征在于,还包括:
在观众的问题的语音播放后,采集所述主播的第二音频数据;
将所述第二音频数据输入预设的语音识别模型,获取第二信息;
将所述第二信息输入唤醒识别词识别模型中,进行识别;
当识别到预设的唤醒词时,再次进行观众问题的提取;
在提取观众问题时,优先提取上一个问题的观众的问题。
4.一种音频处理系统,其特征在于,包括:
第一音频获取模块,用于获取主播端的第一音频采集设备采集到主播的第一音频数据;
识别模块,用于将所述第一音频数据输入预设的语音识别模型,获取第一信息;
敏感度检测模块,用于对所述第一信息进行敏感度检测,确定敏感度;
拦截模块,用于当所述敏感度大于预设的敏感阈值时,将所述第一音频数据拦截;
语音合成模块和拦截记录模块;
其中,所述语音合成模块执行如下操作:
接收主播的互动问答的互动指令;
确定互动指令对应的互动模式;
解析所述互动模式,确定观众问题的提取方式;
当所述提取方式为随机提取时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题集;
从所述问题集中随机挑选问题并输出至所述主播端的显示屏;
接收所述主播的确认或拒绝操作;
当为确认操作时,将所述问题进行语音合成处理,并输出;
当为拒绝操作时,重新从所述问题集中随机挑选问题输出至所述显示屏;直至所述主播的操作为确认操作;
当所述提取方式为手动挑选时,对观众输入在直播间内公屏的信息进行识别筛选,构建问题列表;
依据问题的提出时间和提出的观众的权限,对所述问题列表中的问题进行排序;
接收所述主播对于所述问题列表中的问题的点选,确定点选的问题;
将点选的问题进行语音合成处理,并输出;
其中,依据问题的提出时间和提出的观众的权限,对所述问题列表中的问题进行排序,包括:
确定问题的提出时间距离当前时刻的时间差值,基于所述时间差值,查询第一优先值对照表,确定所述时间差值对应的第一优先值;
基于问题的提出的观众的权限,查询第二优先值对照标,确定所述权限对应的第二优先值;
基于所述第一优先值和所述第二优先值的和值从大到小的顺序对所述问题列表中的问题进行排序;
所述拦截模块执行如下操作:
基于所述第一音频数据的拦截情况,生成拦截数据;
当主播端的第一音频采集设备和图像采集设备停止工作后,通过提醒设备输出所述拦截数据;
当接收主播对于所述拦截数据的点选,输出所述拦截数据的明细和与所述拦截数据相关的事例列表;
其中,拦截数据相关的事例列表通过如下步骤确定:
对所述拦截数据对应的第一音频数据进行特征提取,获取多个特征值;
基于所述特征值,构建调取特征集;
获取预设的事例库;
将所述调取特征集与所述事例库中的事例特征集进行匹配,确定所述调取特征集与各个所述事例特征集之间的第一匹配度;
提取所述第一匹配度大于预设的第一阈值的所述事例特征集对应的事例,将提取的各个事例按照所述匹配度从大到小的顺序排列,构建事例列表。
5.如权利要求4所述的音频处理系统,其特征在于,所述敏感度检测模块对所述第一信息进行敏感度检测,确定敏感度,执行如下操作:
基于预设的敏感词提取模板,对所述第一信息进行敏感词提取,确定所述敏感词提取模板中各个敏感词出现的次数;
基于所述敏感词提取模板中各个敏感词出现的次数,构建评价向量;
获取预设的评价库;
将所述评价向量与所述评价库中各个标准向量进行匹配,确定所述评价向量与各个所述标准向量之间的第二匹配度;
当所述第二匹配度为所述评价库中最大且大于预设的第二阈值时,确定所述评价向量与所述标准向量匹配符合;
获取匹配符合的所述标准向量对应关联的所述敏感度。
6.如权利要求4所述的音频处理系统,其特征在于,所述语音合成模块还执行如下操作:
在观众的问题的语音播放后,采集所述主播的第二音频数据;
将所述第二音频数据输入预设的语音识别模型,获取第二信息;
将所述第二信息输入唤醒识别词识别模型中,进行识别;
当识别到预设的唤醒词时,再次进行观众问题的提取;
在提取观众问题时,优先提取上一个问题的观众的问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210840741.5A CN115209174B (zh) | 2022-07-18 | 2022-07-18 | 一种音频处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210840741.5A CN115209174B (zh) | 2022-07-18 | 2022-07-18 | 一种音频处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115209174A CN115209174A (zh) | 2022-10-18 |
CN115209174B true CN115209174B (zh) | 2023-12-01 |
Family
ID=83582113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210840741.5A Active CN115209174B (zh) | 2022-07-18 | 2022-07-18 | 一种音频处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115209174B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615894A (zh) * | 2015-02-13 | 2015-05-13 | 上海中医药大学 | 一种基于k近邻标签特定权重特征的中医诊断方法及系统 |
CN105590146A (zh) * | 2016-02-29 | 2016-05-18 | 上海带来科技有限公司 | 一种基于大数据的电厂设备智能预测检修方法和系统 |
CN108259936A (zh) * | 2017-12-29 | 2018-07-06 | 平安健康互联网股份有限公司 | 基于直播技术的问答方法、服务器及存储介质 |
CN108932451A (zh) * | 2017-05-22 | 2018-12-04 | 北京金山云网络技术有限公司 | 音视频内容分析方法及装置 |
CN109508402A (zh) * | 2018-11-15 | 2019-03-22 | 上海指旺信息科技有限公司 | 违规用语检测方法及装置 |
CN109640104A (zh) * | 2018-11-27 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于人脸识别的直播互动方法、装置、设备及存储介质 |
CN110085213A (zh) * | 2019-04-30 | 2019-08-02 | 广州虎牙信息科技有限公司 | 音频的异常监控方法、装置、设备和存储介质 |
CN111586421A (zh) * | 2020-01-20 | 2020-08-25 | 全息空间(深圳)智能科技有限公司 | 直播平台信息审核方法、系统及存储介质 |
CN111680293A (zh) * | 2020-06-11 | 2020-09-18 | 王利 | 基于互联网的信息监控管理方法、装置及服务器 |
CN112218103A (zh) * | 2020-09-02 | 2021-01-12 | 北京达佳互联信息技术有限公司 | 直播间互动方法、装置、电子设备和存储介质 |
CN112995696A (zh) * | 2021-04-20 | 2021-06-18 | 共道网络科技有限公司 | 一种直播间违规检测方法及装置 |
CN113360349A (zh) * | 2021-07-28 | 2021-09-07 | 东莞市常学常玩教育科技有限公司 | 基于大数据和云业务的信息优化方法及人工智能监测系统 |
CN114007131A (zh) * | 2021-10-29 | 2022-02-01 | 平安科技(深圳)有限公司 | 视频监控方法、装置及相关设备 |
CN114022933A (zh) * | 2021-11-02 | 2022-02-08 | 上海乐项信息技术有限公司 | 一种直播话术敏感词监测方法及系统 |
CN114025186A (zh) * | 2021-10-28 | 2022-02-08 | 广州方硅信息技术有限公司 | 直播间内的虚拟语音互动方法、装置及计算机设备 |
CN114697688A (zh) * | 2020-12-29 | 2022-07-01 | 阿里巴巴集团控股有限公司 | 直播策略推荐方法、互动方法、装置、设备和存储介质 |
-
2022
- 2022-07-18 CN CN202210840741.5A patent/CN115209174B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615894A (zh) * | 2015-02-13 | 2015-05-13 | 上海中医药大学 | 一种基于k近邻标签特定权重特征的中医诊断方法及系统 |
CN105590146A (zh) * | 2016-02-29 | 2016-05-18 | 上海带来科技有限公司 | 一种基于大数据的电厂设备智能预测检修方法和系统 |
CN108932451A (zh) * | 2017-05-22 | 2018-12-04 | 北京金山云网络技术有限公司 | 音视频内容分析方法及装置 |
CN108259936A (zh) * | 2017-12-29 | 2018-07-06 | 平安健康互联网股份有限公司 | 基于直播技术的问答方法、服务器及存储介质 |
CN109508402A (zh) * | 2018-11-15 | 2019-03-22 | 上海指旺信息科技有限公司 | 违规用语检测方法及装置 |
CN109640104A (zh) * | 2018-11-27 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于人脸识别的直播互动方法、装置、设备及存储介质 |
CN110085213A (zh) * | 2019-04-30 | 2019-08-02 | 广州虎牙信息科技有限公司 | 音频的异常监控方法、装置、设备和存储介质 |
CN111586421A (zh) * | 2020-01-20 | 2020-08-25 | 全息空间(深圳)智能科技有限公司 | 直播平台信息审核方法、系统及存储介质 |
CN111680293A (zh) * | 2020-06-11 | 2020-09-18 | 王利 | 基于互联网的信息监控管理方法、装置及服务器 |
CN112218103A (zh) * | 2020-09-02 | 2021-01-12 | 北京达佳互联信息技术有限公司 | 直播间互动方法、装置、电子设备和存储介质 |
CN114697688A (zh) * | 2020-12-29 | 2022-07-01 | 阿里巴巴集团控股有限公司 | 直播策略推荐方法、互动方法、装置、设备和存储介质 |
CN112995696A (zh) * | 2021-04-20 | 2021-06-18 | 共道网络科技有限公司 | 一种直播间违规检测方法及装置 |
CN113360349A (zh) * | 2021-07-28 | 2021-09-07 | 东莞市常学常玩教育科技有限公司 | 基于大数据和云业务的信息优化方法及人工智能监测系统 |
CN114025186A (zh) * | 2021-10-28 | 2022-02-08 | 广州方硅信息技术有限公司 | 直播间内的虚拟语音互动方法、装置及计算机设备 |
CN114007131A (zh) * | 2021-10-29 | 2022-02-01 | 平安科技(深圳)有限公司 | 视频监控方法、装置及相关设备 |
CN114022933A (zh) * | 2021-11-02 | 2022-02-08 | 上海乐项信息技术有限公司 | 一种直播话术敏感词监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115209174A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109618181B (zh) | 直播交互方法及装置、电子设备、存储介质 | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
CN108566565B (zh) | 弹幕展示方法及装置 | |
EP3579140A1 (en) | Method and apparatus for processing video | |
JP2019216408A (ja) | 情報を出力するための方法、及び装置 | |
CN108449614B (zh) | 基于访客行为的直播连麦方法及装置 | |
CN112653902B (zh) | 说话人识别方法、装置及电子设备 | |
CN112040263A (zh) | 视频处理方法、视频播放方法、装置、存储介质和设备 | |
KR20160104635A (ko) | 컨텍스트 정보에 기초하여 검색 결과들을 생성하기 위한 방법들, 시스템들 및 매체들 | |
CN110784751B (zh) | 信息显示方法及装置 | |
CN109086276B (zh) | 数据翻译方法、装置、终端及存储介质 | |
CN114095749B (zh) | 推荐及直播界面展示方法、计算机存储介质、程序产品 | |
CN110347866B (zh) | 信息处理方法、装置、存储介质及电子设备 | |
US20220335949A1 (en) | Conference Data Processing Method and Related Device | |
CN109739354A (zh) | 一种基于声音的多媒体交互方法及装置 | |
CN111599359A (zh) | 人机交互方法、服务端、客户端及存储介质 | |
CN113315979A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
WO2024140430A1 (zh) | 基于多模态深度学习的文本分类方法、设备及存储介质 | |
CN114466210A (zh) | 直播质量检测处理方法及其装置、设备、介质、产品 | |
CN111479124A (zh) | 一种实时播放方法和装置 | |
CN109829691B (zh) | 基于位置和深度学习多重生物特征的c/s打卡方法和装置 | |
EP2503545A1 (en) | Arrangement and method relating to audio recognition | |
CN113470278A (zh) | 一种自助缴费方法和装置 | |
CN115209174B (zh) | 一种音频处理方法及系统 | |
JP6305538B2 (ja) | 電子機器及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231108 Address after: 518172, No. 201, Fuxin North Road, Sanxi Community, Kuiyong Street, Dapeng New District, Shenzhen City, Guangdong Province Applicant after: Shenzhen Shidai Xinhua Technology Co.,Ltd. Address before: 224000 Room 302, No. 20 Xinyuan Road, Yannan high tech Zone, Yancheng City, Jiangsu Province (CNx) Applicant before: Yiyue qihan (Yancheng) Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |