CN115394318A - 一种音频检测方法和装置 - Google Patents

一种音频检测方法和装置 Download PDF

Info

Publication number
CN115394318A
CN115394318A CN202211020912.6A CN202211020912A CN115394318A CN 115394318 A CN115394318 A CN 115394318A CN 202211020912 A CN202211020912 A CN 202211020912A CN 115394318 A CN115394318 A CN 115394318A
Authority
CN
China
Prior art keywords
audio data
voice
validity
score
violation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211020912.6A
Other languages
English (en)
Inventor
黎子骏
马金龙
吴文亮
曾锐鸿
王伟喆
盘子圣
焦南凯
邓其春
张政统
黄祥康
兰翔
徐志坚
谢睿
陈光尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Quwan Network Technology Co Ltd
Original Assignee
Guangzhou Quwan Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Quwan Network Technology Co Ltd filed Critical Guangzhou Quwan Network Technology Co Ltd
Priority to CN202211020912.6A priority Critical patent/CN115394318A/zh
Publication of CN115394318A publication Critical patent/CN115394318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

本申请公开一种音频检测方法和装置,通过获取用户产生的音频数据并对音频数据进行第一人声有效性检测,得到音频数据的第一人声有效性比例;若第一人声有效性比例小于预设的第一比例阈值,则确定音频数据不违规;若第一人声有效性比例不小于预设的第一比例阈值,则对音频数据进行第二人声有效性检测,得到音频数据的第二人声有效性分数;若第二人声有效性分数小于预设的第二有效性阈值,则确定音频数据不违规;若第二人声有效性分数不小于预设的第二有效性阈值,则判断音频数据中是否包含违规声音;若音频中包含违规声音,则确定音频数据违规。该方案通过多轮检测方式提高了音频是否违规的检测的准确率。

Description

一种音频检测方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及一种音频检测方法和装置。
背景技术
随着各种泛娱乐社交或直播等领域的推广越来越广泛,使用泛娱乐社交或直播的用户也越来越多,网络中每日都会产生几万到数十万小时不等的音频内容,但总会有人恶意传播违规或者违法的内容。因此为了确保网络的安全性和合法性,需要实时对用户产生的音频数据进行是否违规的检测。
现有的对于音频是否违规的音频检测方案由于检测规则单一,会将不违规的音频误判为违规,使得检测的准确率较低。
发明内容
有鉴于此,本申请提供了一种音频检测方法和装置,用于解决现有的对于音频是否违规的音频检测方案由于检测规则单一,会将不违规的音频误判为违规,使得检测的准确率较低的问题。
为实现以上目的,现提出的方案如下:
第一方面,一种音频检测方法,包括:
获取用户产生的音频数据;
对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;
若所述第一人声有效性比例小于预设的第一比例阈值,则确定所述音频数据不违规;若所述第一人声有效性比例不小于预设的第一比例阈值,则对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;
若所述第二人声有效性分数小于预设的第二有效性阈值,则确定所述音频数据不违规;
若所述第二人声有效性分数不小于预设的第二有效性阈值,则判断所述音频数据中是否包含违规声音;
若所述音频中包含违规声音,则确定所述音频数据违规。
优选地,所述对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例,包括:
将所述音频数据转化为频谱图;
利用预先训练的第一人声有效性检测模型处理所述频谱图,得到所述音频数据每一帧的第一人声有效性分数;所述第一人声有效性检测模型以音频数据样本的频谱图为训练样本,以所述音频数据样本每一帧的第一人声有效性分数为样本标签训练得到;
基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例。
优选地,所述基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例,包括:
针对所述音频数据的每一帧,若该帧音频数据的第一人声有效性分数小于预设的第一有效性阈值,则判定为该帧音频数据不包含人声;若该帧音频数据的第一人声有效性分数不小于所述第一有效性阈值,则判定为该帧音频数据包含人声;
获取所述音频数据的总帧数,并统计包含人声的音频数据的帧数;
基于所述音频数据的总帧数和包含人声的音频数据的帧数,确定所述音频数据的第一人声有效性比例。
优选地,所述对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数,包括:
将所述音频数据转化为频谱图;
利用预先训练的第二人声有效性检测模型处理所述频谱图,得到所述音频数据的第二人声有效性分数;所述第二人声有效性检测模型是以音频数据样本的频谱图为训练样本,以所述音频数据样本的第二人声有效性分数为样本标签训练得到。
优选地,所述利用预先训练的第二人声有效性检测模型处理所述频谱图,得到所述音频数据的第二人声有效性分数,包括:
利用所述第二人声有效性检测模型的卷积模块,对所述频谱图进行空间特征提取,得到所述音频数据的空间特征信息;
利用所述第二人声有效性检测模型的循环模块,对所述空间特征信息进行时域特征提取,得到所述音频数据的时域特征信息;
利用所述第二人声有效性检测模型的全连接模块,对所述时域特征信息进行维度调整,得到所述音频数据每一帧的第二人声有效性子分数;
利用所述第二人声有效性检测模型的池化模块,对各个帧的第二人声有效性子分数进行池化处理,得到所述音频数据的第二人声有效性分数。
优选地,所述判断所述音频数据中是否包含违规声音,包括:
利用预设的违规检测模型处理所述音频数据,以得到所述音频数据对应的第一违规分数;所述违规检测模型是以音频数据样本为训练样本,以所述音频数据的第一违规分数为样本标签训练得到;
若所述音频数据的第一违规分数不小于预设的第一违规阈值,则判定所述音频数据包含违规声音。
优选地,所述方法还包括:
若所述音频数据的第一违规分数小于所述第一违规阈值,则基于所述音频数据,确定所述音频数据对应的文本数据,判断所述文本数据中是否包含违规文本;
若所述文本数据不包含违规文本,则确定所述音频数据不违规;
若所述文本数据包含违规文本,则确定所述音频数据违规。
优选地,所述判断所述文本数据中是否包含违规文本,包括:
基于预设的违规关键词词库对所述文本数据进行关键词匹配,若关键词匹配成功,则确定所述文本数据中包含违规文本;
若关键词匹配不成功,则对所述文本数据进行语义分析,得到所述音频数据的第二违规分数;
若所述第二违规分数小于预设的第二违规阈值,则确定所述文本数据不包含违规文本;
若所述第二违规分数不小于所述第二违规分数,则确定所述文本数据包含违规文本。
第二方面,一种音频检测装置,包括:
获取模块,用于获取用户产生的音频数据;
第一有效性检测模块,用于对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;
第二有效性检测模块,用于当所述第一人声有效性比例小于预设的第一比例阈值时,确定所述音频数据不违规;当所述第一人声有效性比例不小于预设的第一比例阈值时,对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;
第一违规确定模块,用于当所述第二人声有效性分数小于预设的第二有效性阈值时,则确定所述音频数据不违规;
判断模块,用于当所述第二人声有效性分数不小于预设的第二有效性阈值时,则判断所述音频数据中是否包含违规声音;
第二违规确定模块,用于当所述音频中包含违规声音时,则确定所述音频数据违规。
优选地,所述第一有效性检测模块包括:
转化模块,用于将所述音频数据转化为频谱图;
第一人声有效性分数得到模块,用于利用预先训练的第一人声有效性检测模型处理所述频谱图,得到所述音频数据每一帧的第一人声有效性分数;所述第一人声有效性检测模型以音频数据样本的频谱图为训练样本,以所述音频数据样本每一帧的第一人声有效性分数为样本标签训练得到;
第一人声有效性比例确定模块,用于基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例。
从上述技术方案可以看出,本申请通过获取用户产生的音频数据并对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;若所述第一人声有效性比例小于预设的第一比例阈值,则确定所述音频数据不违规;若所述第一人声有效性比例不小于预设的第一比例阈值,则对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;若所述第二人声有效性分数小于预设的第二有效性阈值,则确定所述音频数据不违规;若所述第二人声有效性分数不小于预设的第二有效性阈值,则判断所述音频数据中是否包含违规声音;若所述音频中包含违规声音,则确定所述音频数据违规。该方案将用户产生的音频数据进行第一人声有效性检测,可以得到音频数据的第一人声有效性比例,并将该比例与预设的第一比例阈值进行比较,从而可以直接判断出该音频数据是否包含人声,若不包含就可以不用进入后续判断,可以缩短音频数据的检测过程。若包含就进入第二人声有效性检测,进行是否包含人声的精确判断,若经历两轮检测后,该音频数据判定为不包含人声,则确定该音频数据不包含人声,即不违规,若第二轮确定包含人声,则对该音频数据进行违规声音检测,若音频数据包含违规声音,则确定音频数据违规,从而提高了检测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种音频检测方法的可选流程图;
图2为本申请实施例提供的另一种音频检测方法的可选流程图;
图3为本申请实施例提供的一种音频检测装置的结构示意图;
图4为本申请实施例提供的一种音频检测设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着各种泛娱乐社交或直播等领域的推广越来越广泛,使用泛娱乐社交或直播的用户也越来越多,网络中每日都会产生几万到数十万小时不等的音频内容,但总会有人恶意传播违规或者违法的内容。因此为了确保网络的安全性和合法性,需要实时对用户产生的音频数据进行是否违规的检测,若检测到违规音频,则需要对违规违法信息进行删除,若涉及严重情节,则对产生违规违法音频的用户进行账号封禁等处理,维护网络环境。
对于上述问题,若使用人工校验,人力成本巨大并且枯燥,现有的音频检测方法得益于深度学习的发展,使用深度学习模型对音频等进行审核是业内常用的解决方案,但是现有的对于音频是否违规的音频检测方案由于检测规则单一,会将不违规的音频误判为违规,使得检测的准确率较低。
基于上述缺陷,本发明实施例提供一种音频检测方法,该方法可以应用于各种直播系统或是语音聊天系统中,亦可以应用在各种计算机终端或是智能终端中,其执行主体可以为计算机终端或是智能终端的处理器或服务器,所述方法的方法流程图如图1所示,具体包括:
S1:获取用户产生的音频数据。
在本发明实施例中,在获取用户产生的音频数据时,可以获取其中一个用户在一定时间段内的音频数据,也可以实时获取一个用户产生的每一帧音频数据。
S2:对音频数据进行第一人声有效性检测,得到音频数据的第一人声有效性比例。
第一人声有效性检测是一种粗略的检测音频是否包含人声的方式,根据该第一人声有效性检测方式可以粗略检测出音频中包含人声的比例,作为用户产生的音频数据的第一人声有效性比例。
S3:若第一人声有效性比例小于预设的第一比例阈值,则确定音频数据不违规;若第一人声有效性比例不小于预设的第一比例阈值,则对音频数据进行第二人声有效性检测,得到音频数据的第二人声有效性分数。
在本申请中,可以预设一个第一比例阈值,用来表示一段音频数据中包含人声的最低比例。若用户产生的音频数据的第一人声有效性比例小于第一比例阈值,则可以确定该音频数据不包含人声的概率较低,因此该音频数据违规的概率较低,可以认定为该音频数据不违规,那么就不需要进入后续的检测流程,可以缩短音频数据的检测过程。
可以理解的是,第二人声有效性检测可以比较精细的检测出音频数据中是否包含人声。若用户产生的音频数据的第一人声有效性比例不小于预设的第一比例阈值,则说明该音频数据中包含人声的概率偏高,即可以认为该音频数据有违规的可能性,因此对该音频数据进行第二人声有效性检测,以得到该音频数据的第二人声有效性分数。
S4:若第二人声有效性分数小于预设的第二有效性阈值,则确定音频数据不违规。
基于上述步骤S3,得到了用户产生的音频数据的第二人声有效性分数,可以将该第二人声有效性分数与预设的第二有效性阈值进行比较,若第二人声有效性分数小于预设的第二有效性阈值,则可以说明利用比较准确的第二人声有效性检测方式检测出该音频数据中包含人声的概率并没有那么高,因此可以将该音频数据判定为不包含人声,因此该音频数据不违规。
S5:若第二人声有效性分数不小于预设的第二有效性阈值,则判断音频数据中是否包含违规声音。
在本步骤中,若第二人声有效性分数小于预设的第二有效性阈值,则可以说明该音频数据中包含人声的概率比较高,那么接下来就可以判断音频数据中是否包含违规声音。
可选的,判断音频数据是否包含违规声音的方式包括但不限于:将预设的违规声音集合与音频数据进行比对,若比对成功则说明音频数据包含违规声音。
S6:若音频中包含违规声音,则确定音频数据违规。
从上述技术方案可以看出,本申请通过获取用户产生的音频数据并对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;若所述第一人声有效性比例小于预设的第一比例阈值,则确定所述音频数据不违规;若所述第一人声有效性比例不小于预设的第一比例阈值,则对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;若所述第二人声有效性分数小于预设的第二有效性阈值,则确定所述音频数据不违规;若所述第二人声有效性分数不小于预设的第二有效性阈值,则判断所述音频数据中是否包含违规声音;若所述音频中包含违规声音,则确定所述音频数据违规。该方案将用户产生的音频数据进行第一人声有效性检测,可以得到音频数据的第一人声有效性比例,并将该比例与预设的第一比例阈值进行比较,从而可以直接判断出该音频数据是否包含人声,若不包含就可以不用进入后续判断,可以缩短音频数据的检测过程。若包含就进入第二人声有效性检测,进行是否包含人声的精确判断,若经历两轮检测后,该音频数据判定为不包含人声,则确定该音频数据不包含人声,即不违规,若第二轮确定包含人声,则对该音频数据进行违规声音检测,若音频数据包含违规声音,则确定音频数据违规,从而提高了检测的准确率。
可以理解的是,在一个示例中,第一人声有效性检测过程可以设置在用户侧,譬如手机用户端或者用户电脑端等各种用户侧设备,第二人声有效性检测过程可以设置在服务端。若多个用户一天产生了10万个小时的音频,那么经过第一人声有效性检测后,排除掉了10万个小时中不包含人声的6万个小时,因此进入第二人声有效性检测过程的音频只有4万个小时,那么第二人声有效性检测过程中只需对这4万个小时的音频进行检测,从而有效降低了服务端的运营成本,减少压力。接下来,第二人声有效性检测过程对这4万个小时的音频进行精确检测时,又会将精准检测出不包含人声的音频进行筛除,从而进一步降低后续的检测流程,使服务端的运营成本降到最低。
本发明实施例提供的方法中,对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例的具体过程可以包括:
S21:将所述音频数据转化为频谱图。
在本步骤中,可以通过傅里叶变换将音频数据分解为一个直流分量和若干个正弦信号,并且每个正弦信号都有自己的频率和幅值。可选的,以音频数据的频率值为横轴,以音频数据的幅值为纵轴,将音频数据若干个正弦信号的幅值与对应频率进行结合,从而得出该音频数据对应的频谱图。
S22:利用预先训练的第一人声有效性检测模型处理所述频谱图,得到所述音频数据每一帧的第一人声有效性分数;所述第一人声有效性检测模型以音频数据样本的频谱图为训练样本,以所述音频数据样本每一帧的第一人声有效性分数为样本标签训练得到。
具体地,第一人声有效性检测模型中可以通过卷积神经网络来提取特征信息,其中可以使用MobileNetV2轻量化网络作为卷积神经网络,其可以提高模型运行速度,减少用户感知。该模型可以粗略检测出音频数据中是否包含人声,因此可以将各种不包含人声的音频,或者只包含背景音乐的音频等作为音频数据样本去训练第一人声有效性检测模型。第一人声有效性检测模型所需参数少,运算速度快,并且人声召回高,可以快速粗略检测出音频数据中是否包含人声。
S23:基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例。
可选的,步骤S23可以包括以下步骤:
S231:针对所述音频数据的每一帧,若该帧音频数据的第一人声有效性分数小于预设的第一有效性阈值,则判定为该帧音频数据不包含人声;若该帧音频数据的第一人声有效性分数不小于所述第一有效性阈值,则判定为该帧音频数据包含人声。
第一预设阈值可以设置为50分,本实施例对此不做限制。以50分为界限,对于音频数据的每一帧,若该镇音频数据的第一人声有效性分数小于50分,则判定该帧音频数据不包含人声;若大于50分,则判定该镇音频数据包含人声。
但是每一帧音频数据所包含的音频信息太少(可以将每25ms作为一帧音频数据),因此需要分析该音频数据总帧所包含人声的情况来判定第一人声有效性比例。
S232:获取所述音频数据的总帧数,并统计包含人声的音频数据的帧数。
S233:基于所述音频数据的总帧数和包含人声的音频数据的帧数,确定所述音频数据的第一人声有效性比例。
根据整个音频的各个帧来分析,那么获取音频数据的总帧数和包含人声的帧数后,将包含人声的帧数除以音频数据的总帧数,则得到音频数据的第一人声有效性比例,即该音频数据包含人声的概率。
上述实施例对本申请中如何对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例的过程进行了说明,下面对如何所述对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数的具体过程进行详细说明。
将所述音频数据转化为频谱图,然后利用预先训练的第二人声有效性检测模型处理所述频谱图,得到所述音频数据的第二人声有效性分数;所述第二人声有效性检测模型是以音频数据样本的频谱图为训练样本,以所述音频数据样本的第二人声有效性分数为样本标签训练得到。
具体地,该过程可以包括:
S31:利用所述第二人声有效性检测模型的卷积模块,对所述频谱图进行空间特征提取,得到所述音频数据的空间特征信息。
卷积模块中包括卷积神经网络(Convolutional Neural Network,简称CNN),用于对音频数据的频谱图进行空间上的特征提取。卷积神经网络可以选择相比于MobileNetV2轻量化网络较大的VGGISH网络,可以提高模型的精度。
S32:利用所述第二人声有效性检测模型的循环模块,对所述空间特征信息进行时域特征提取,得到所述音频数据的时域特征信息。
循环模块可以包括循环神经网络(Recurrent Neural Network,简称RNN),用于对上述步骤S31中得到的空间特征信息进行时域上的特征提取。
S33:利用所述第二人声有效性检测模型的全连接模块,对所述时域特征信息进行维度调整,得到所述音频数据每一帧的第二人声有效性子分数。
全连接模块包括全连接层(Fully Connected,,简称FC),可以用于对上述步骤中得到的时域特征信息进行维度上的调整,以得到音频数据每一帧的第二人声有效性子分数。
S34:利用所述第二人声有效性检测模型的池化模块,对各个帧的第二人声有效性子分数进行池化处理,得到所述音频数据的第二人声有效性分数。
上述步骤S33中得到了音频数据每一帧的第二人声有效性子分数,通过第二人声有效性检测模型的池化模块进行池化处理,可以得到音频数据的第二人声有效性分数。其中,池化模块可以设置为最大池化、平均池化或者linear-softmax,运用linear-softmax可以使第二人声有效性检测模型在训练中进行反向传导的时候更加合理,使训练出来的第二人声有效性检测模型更加精确。运用linear-softmax进行第二人声有效性分数Y的计算公式可以表示为:
Figure BDA0003814163480000101
其中,yi表示音频数据第i帧的第二人声有效性子分数。
可以理解的是,第二人声有效性检测模型相比于第一人声有效性检测模型检测精度更高,更准确。
优选地,在步骤S5中,判断所述音频数据中是否包含违规声音的过程,可以包括:
利用预设的违规检测模型处理所述音频数据,以得到所述音频数据对应的第一违规分数;所述违规检测模型是以音频数据样本为训练样本,以所述音频数据的第一违规分数为样本标签训练得到。
若所述音频数据的第一违规分数不小于预设的违规阈值,则判定所述音频数据包含违规声音。
若所述音频数据的第一违规分数小于所述违规阈值,则基于所述音频数据,确定所述音频数据对应的文本数据。优选地,可以利用自动语音识别模型(Automatic SpeechRecognition,简称ASR)来将音频数据转换为文本数据。
判断所述文本数据中是否包含违规文本;若所述文本数据不包含违规文本,则确定所述音频数据不违规;若所述文本数据包含违规文本,则确定所述音频数据违规。
具体地,所述判断所述文本数据中是否包含违规文本的过程,可以包括:
基于预设的违规关键词词库对所述文本数据进行关键词匹配,若关键词匹配成功,则确定所述文本数据中包含违规文本;若关键词匹配不成功,则对所述文本数据进行语义分析,得到所述音频数据的第二违规分数;若所述第二违规分数小于预设的第二违规阈值,则确定所述文本数据不包含违规文本;若所述第二违规分数不小于所述第二违规分数,则确定所述文本数据包含违规文本。
在本申请提供的实施例中,一种音频检测方法的总体方案过程可以如图2所示。
可以理解的是,若最后确定音频数据违规,则可以将音频数据中不违规的声音部分删除,然后将删除违规声音后的音频数据送至人工审核环节,若工作人员发现违规声音涉及到比较严重的情节,则可以依据具体情况对产生该违规声音的用户进行处罚处理,以维护网络文明与安全。
与图1所述的方法相对应,本发明实施例还提供了一种音频检测装置,用于对图1中方法的具体实现,本发明实施例提供的音频检测装置可以在计算机终端或各种移动设备中,结合图3,对音频检测装置进行介绍,如图3所示,该装置可以包括:
获取模块10,用于获取用户产生的音频数据。
第一有效性检测模块20,用于对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例。
第二有效性检测模块30,用于当所述第一人声有效性比例小于预设的第一比例阈值时,确定所述音频数据不违规;当所述第一人声有效性比例不小于预设的第一比例阈值时,对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数。
第一违规确定模块40,用于当所述第二人声有效性分数小于预设的第二有效性阈值时,则确定所述音频数据不违规。
判断模块50,用于当所述第二人声有效性分数不小于预设的第二有效性阈值时,则判断所述音频数据中是否包含违规声音。
第二违规确定模块60,用于当所述音频中包含违规声音时,则确定所述音频数据违规。
从上述技术方案可以看出,本申请通过获取用户产生的音频数据并对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;若所述第一人声有效性比例小于预设的第一比例阈值,则确定所述音频数据不违规;若所述第一人声有效性比例不小于预设的第一比例阈值,则对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;若所述第二人声有效性分数小于预设的第二有效性阈值,则确定所述音频数据不违规;若所述第二人声有效性分数不小于预设的第二有效性阈值,则判断所述音频数据中是否包含违规声音;若所述音频中包含违规声音,则确定所述音频数据违规。该方案将用户产生的音频数据进行第一人声有效性检测,可以得到音频数据的第一人声有效性比例,并将该比例与预设的第一比例阈值进行比较,从而可以直接判断出该音频数据是否包含人声,若不包含就可以不用进入后续判断,可以缩短音频数据的检测过程。若包含就进入第二人声有效性检测,进行是否包含人声的精确判断,若经历两轮检测后,该音频数据判定为不包含人声,则确定该音频数据不包含人声,即不违规,若第二轮确定包含人声,则对该音频数据进行违规声音检测,若音频数据包含违规声音,则确定音频数据违规,从而提高了检测的准确率。
在一个示例中,所述第一有效性检测模块20可以包括:
转化模块,用于将所述音频数据转化为频谱图。
第一人声有效性分数得到模块,用于利用预先训练的第一人声有效性检测模型处理所述频谱图,得到所述音频数据每一帧的第一人声有效性分数。所述第一人声有效性检测模型以音频数据样本的频谱图为训练样本,以所述音频数据样本每一帧的第一人声有效性分数为样本标签训练得到。
第一人声有效性比例确定模块,用于基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例。
在一个示例中,所述第一人声有效性比例确定模块可以包括:
比较模块,用于针对所述音频数据的每一帧,若该帧音频数据的第一人声有效性分数小于预设的第一有效性阈值,则判定为该帧音频数据不包含人声;若该帧音频数据的第一人声有效性分数不小于所述第一有效性阈值,则判定为该帧音频数据包含人声。
帧数确定模块,用于获取所述音频数据的总帧数,并统计包含人声的音频数据的帧数。
帧数计算模块,用于基于所述音频数据的总帧数和包含人声的音频数据的帧数,确定所述音频数据的第一人声有效性比例。
在一个示例中,所述第二有效性检测模块30可以包括:
转化模块,用于将所述音频数据转化为频谱图。
第二人声有效性分数得到模块,用于利用预先训练的第二人声有效性检测模型处理所述频谱图,得到所述音频数据的第二人声有效性分数;所述第二人声有效性检测模型是以音频数据样本的频谱图为训练样本,以所述音频数据样本的第二人声有效性分数为样本标签训练得到。
在一个示例中,所述第二人声有效性分数得到模块可以包括:
第一子模块,用于利用所述第二人声有效性检测模型的卷积模块,对所述频谱图进行空间特征提取,得到所述音频数据的空间特征信息。
第二子模块,用于利用所述第二人声有效性检测模型的循环模块,对所述空间特征信息进行时域特征提取,得到所述音频数据的时域特征信息。
第三子模块,用于利用所述第二人声有效性检测模型的全连接模块,对所述时域特征信息进行维度调整,得到所述音频数据每一帧的第二人声有效性子分数。
第四子模块,用于利用所述第二人声有效性检测模型的池化模块,对各个帧的第二人声有效性子分数进行池化处理,得到所述音频数据的第二人声有效性分数。
在一个示例中,所述判断模块50可以包括:
第一违规分数确定模块,用于利用预设的违规检测模型处理所述音频数据,以得到所述音频数据对应的第一违规分数;所述违规检测模型是以音频数据样本为训练样本,以所述音频数据的第一违规分数为样本标签训练得到。
违规声音判断模块,用于若所述音频数据的第一违规分数不小于预设的第一违规阈值,则判定所述音频数据包含违规声音。
在一个示例中,该装置可以包括:
文本数据确定模块,用于若所述音频数据的第一违规分数小于所述第一违规阈值,则基于所述音频数据,确定所述音频数据对应的文本数据,判断所述文本数据中是否包含违规文本。
第一违规文本判断模块,用于若所述文本数据不包含违规文本,则确定所述音频数据不违规。
第二违规文本判断模块,用于若所述文本数据包含违规文本,则确定所述音频数据违规。
在一个示例中,所述文本数据确定模块可以包括:
匹配模块,用于基于预设的违规关键词词库对所述文本数据进行关键词匹配,若关键词匹配成功,则确定所述文本数据中包含违规文本。
语义分析模块,用于若关键词匹配不成功,则对所述文本数据进行语义分析,得到所述音频数据的第二违规分数。
不包含违规文本确定模块,用于若所述第二违规分数小于预设的第二违规阈值,则确定所述文本数据不包含违规文本。
包含违规文本确定模块,用于若所述第二违规分数不小于所述第二违规分数,则确定所述文本数据包含违规文本。
更进一步地,本申请实施例提供了一种音频检测设备。可选的,图4示出了音频检测设备的硬件结构框图,参照图4,音频检测设备的硬件结构可以包括:至少一个处理器01,至少一个通信接口02,至少一个存储器03和至少一个通信总线04。
在本申请实施例中,处理器01、通信接口02、存储器03、通信总线04的数量为至少一个,且处理器01、通信接口02、存储器03通过通信总线04完成相互间的通信。
处理器01可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等。
存储器03可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器。
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于执行下述音频检测方法,包括:
获取用户产生的音频数据;
对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;
若所述第一人声有效性比例小于预设的第一比例阈值,则确定所述音频数据不违规;若所述第一人声有效性比例不小于预设的第一比例阈值,则对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;
若所述第二人声有效性分数小于预设的第二有效性阈值,则确定所述音频数据不违规;
若所述第二人声有效性分数不小于预设的第二有效性阈值,则判断所述音频数据中是否包含违规声音;
若所述音频中包含违规声音,则确定所述音频数据违规。可选的,程序的细化功能和扩展功能可参照方法实施例中的音频检测方法的描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,在所述程序运行时控制所述存储介质所在的设备执行下述音频检测方法,包括:
获取用户产生的音频数据;
对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;
若所述第一人声有效性比例小于预设的第一比例阈值,则确定所述音频数据不违规;若所述第一人声有效性比例不小于预设的第一比例阈值,则对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;
若所述第二人声有效性分数小于预设的第二有效性阈值,则确定所述音频数据不违规;
若所述第二人声有效性分数不小于预设的第二有效性阈值,则判断所述音频数据中是否包含违规声音;
若所述音频中包含违规声音,则确定所述音频数据违规。具体地,该存储介质可以是一种计算机可读存储介质,计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。
可选的,程序的细化功能和扩展功能可参照方法实施例中的音频检测方法的描述。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频检测方法,其特征在于,包括:
获取用户产生的音频数据;
对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;
若所述第一人声有效性比例小于预设的第一比例阈值,则确定所述音频数据不违规;若所述第一人声有效性比例不小于预设的第一比例阈值,则对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;
若所述第二人声有效性分数小于预设的第二有效性阈值,则确定所述音频数据不违规;
若所述第二人声有效性分数不小于预设的第二有效性阈值,则判断所述音频数据中是否包含违规声音;
若所述音频中包含违规声音,则确定所述音频数据违规。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例,包括:
将所述音频数据转化为频谱图;
利用预先训练的第一人声有效性检测模型处理所述频谱图,得到所述音频数据每一帧的第一人声有效性分数;所述第一人声有效性检测模型以音频数据样本的频谱图为训练样本,以所述音频数据样本每一帧的第一人声有效性分数为样本标签训练得到;
基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例。
3.根据权利要求2所述的方法,其特征在于,所述基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例,包括:
针对所述音频数据的每一帧,若该帧音频数据的第一人声有效性分数小于预设的第一有效性阈值,则判定为该帧音频数据不包含人声;若该帧音频数据的第一人声有效性分数不小于所述第一有效性阈值,则判定为该帧音频数据包含人声;
获取所述音频数据的总帧数,并统计包含人声的音频数据的帧数;
基于所述音频数据的总帧数和包含人声的音频数据的帧数,确定所述音频数据的第一人声有效性比例。
4.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数,包括:
将所述音频数据转化为频谱图;
利用预先训练的第二人声有效性检测模型处理所述频谱图,得到所述音频数据的第二人声有效性分数;所述第二人声有效性检测模型是以音频数据样本的频谱图为训练样本,以所述音频数据样本的第二人声有效性分数为样本标签训练得到。
5.根据权利要求4所述的方法,其特征在于,所述利用预先训练的第二人声有效性检测模型处理所述频谱图,得到所述音频数据的第二人声有效性分数,包括:
利用所述第二人声有效性检测模型的卷积模块,对所述频谱图进行空间特征提取,得到所述音频数据的空间特征信息;
利用所述第二人声有效性检测模型的循环模块,对所述空间特征信息进行时域特征提取,得到所述音频数据的时域特征信息;
利用所述第二人声有效性检测模型的全连接模块,对所述时域特征信息进行维度调整,得到所述音频数据每一帧的第二人声有效性子分数;
利用所述第二人声有效性检测模型的池化模块,对各个帧的第二人声有效性子分数进行池化处理,得到所述音频数据的第二人声有效性分数。
6.根据权利要求1所述的方法,其特征在于,所述判断所述音频数据中是否包含违规声音,包括:
利用预设的违规检测模型处理所述音频数据,以得到所述音频数据对应的第一违规分数;所述违规检测模型是以音频数据样本为训练样本,以所述音频数据的第一违规分数为样本标签训练得到;
若所述音频数据的第一违规分数不小于预设的第一违规阈值,则判定所述音频数据包含违规声音。
7.根据权利要求6所述的方法,其特征在于,还包括:
若所述音频数据的第一违规分数小于所述第一违规阈值,则基于所述音频数据,确定所述音频数据对应的文本数据,判断所述文本数据中是否包含违规文本;
若所述文本数据不包含违规文本,则确定所述音频数据不违规;
若所述文本数据包含违规文本,则确定所述音频数据违规。
8.根据权利要求7所述的方法,其特征在于,所述判断所述文本数据中是否包含违规文本,包括:
基于预设的违规关键词词库对所述文本数据进行关键词匹配,若关键词匹配成功,则确定所述文本数据中包含违规文本;
若关键词匹配不成功,则对所述文本数据进行语义分析,得到所述音频数据的第二违规分数;
若所述第二违规分数小于预设的第二违规阈值,则确定所述文本数据不包含违规文本;
若所述第二违规分数不小于所述第二违规分数,则确定所述文本数据包含违规文本。
9.一种音频检测装置,其特征在于,包括:
获取模块,用于获取用户产生的音频数据;
第一有效性检测模块,用于对所述音频数据进行第一人声有效性检测,得到所述音频数据的第一人声有效性比例;
第二有效性检测模块,用于当所述第一人声有效性比例小于预设的第一比例阈值时,确定所述音频数据不违规;当所述第一人声有效性比例不小于预设的第一比例阈值时,对所述音频数据进行第二人声有效性检测,得到所述音频数据的第二人声有效性分数;
第一违规确定模块,用于当所述第二人声有效性分数小于预设的第二有效性阈值时,则确定所述音频数据不违规;
判断模块,用于当所述第二人声有效性分数不小于预设的第二有效性阈值时,则判断所述音频数据中是否包含违规声音;
第二违规确定模块,用于当所述音频中包含违规声音时,则确定所述音频数据违规。
10.根据权利要求9所述的装置,其特征在于,所述第一有效性检测模块包括:
转化模块,用于将所述音频数据转化为频谱图;
第一人声有效性分数得到模块,用于利用预先训练的第一人声有效性检测模型处理所述频谱图,得到所述音频数据每一帧的第一人声有效性分数;所述第一人声有效性检测模型以音频数据样本的频谱图为训练样本,以所述音频数据样本每一帧的第一人声有效性分数为样本标签训练得到;
第一人声有效性比例确定模块,用于基于所述音频数据每一帧的第一人声有效性分数,得到所述音频数据的第一人声有效性比例。
CN202211020912.6A 2022-08-24 2022-08-24 一种音频检测方法和装置 Pending CN115394318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211020912.6A CN115394318A (zh) 2022-08-24 2022-08-24 一种音频检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211020912.6A CN115394318A (zh) 2022-08-24 2022-08-24 一种音频检测方法和装置

Publications (1)

Publication Number Publication Date
CN115394318A true CN115394318A (zh) 2022-11-25

Family

ID=84123238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211020912.6A Pending CN115394318A (zh) 2022-08-24 2022-08-24 一种音频检测方法和装置

Country Status (1)

Country Link
CN (1) CN115394318A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956897A (zh) * 2023-09-20 2023-10-27 湖南财信数字科技有限公司 隐性广告处理方法、装置、计算机设备及存储介质
CN117558296A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956897A (zh) * 2023-09-20 2023-10-27 湖南财信数字科技有限公司 隐性广告处理方法、装置、计算机设备及存储介质
CN116956897B (zh) * 2023-09-20 2023-12-15 湖南财信数字科技有限公司 隐性广告处理方法、装置、计算机设备及存储介质
CN117558296A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备
CN117558296B (zh) * 2024-01-11 2024-04-09 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备

Similar Documents

Publication Publication Date Title
US11127416B2 (en) Method and apparatus for voice activity detection
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN110415699B (zh) 一种语音唤醒的判断方法、装置及电子设备
CN115394318A (zh) 一种音频检测方法和装置
CN110047490A (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN110853648B (zh) 一种不良语音检测方法、装置、电子设备及存储介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
CN110600008A (zh) 语音唤醒的优化方法及系统
CN112509568A (zh) 一种语音唤醒方法及装置
CN114666618B (zh) 音频审核方法、装置、设备及可读存储介质
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN111312286A (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN111523317A (zh) 语音质检方法、装置、电子设备及介质
CN113516994B (zh) 实时语音识别方法、装置、设备及介质
CN113903361A (zh) 基于人工智能的语音质检方法、装置、设备及存储介质
CN112418173A (zh) 异常声音识别方法、装置及电子设备
CN112052686A (zh) 一种用户交互式教育的语音学习资源推送方法
CN115083422B (zh) 语音溯源取证方法及装置、设备及存储介质
CN113035238B (zh) 音频评测方法、装置、电子设备和介质
JPWO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
CN115331703A (zh) 一种歌曲人声检测方法及装置
CN113111855B (zh) 一种多模态情感识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination