CN113571048A - 一种音频数据检测方法、装置、设备及可读存储介质 - Google Patents

一种音频数据检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113571048A
CN113571048A CN202110826900.1A CN202110826900A CN113571048A CN 113571048 A CN113571048 A CN 113571048A CN 202110826900 A CN202110826900 A CN 202110826900A CN 113571048 A CN113571048 A CN 113571048A
Authority
CN
China
Prior art keywords
audio
audio data
abnormal
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110826900.1A
Other languages
English (en)
Other versions
CN113571048B (zh
Inventor
曹木勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110826900.1A priority Critical patent/CN113571048B/zh
Publication of CN113571048A publication Critical patent/CN113571048A/zh
Application granted granted Critical
Publication of CN113571048B publication Critical patent/CN113571048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本申请实施例公开了一种音频数据检测方法、装置、设备及可读存储介质,本申请属于计算机技术领域,方法包括:获取第一对象提供的目标音频数据,以及目标音频数据的关键音频特征,根据关键音频特征对目标音频数据进行音频检测;若检测出目标音频数据为异常音频数据,则将目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件;将标记编码文件发送至业务服务器,以使业务服务器基于标记编码文件中的异常标记获取音频转换文本,根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理。采用本申请,可以在音频检测中,减少检测成本,提高检测效率。

Description

一种音频数据检测方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频数据检测方法、装置、设备以及可读存储介质。
背景技术
目前,在任意两个或多个用户之间存在语音交互需求时,可在各自对应客户端中通过麦克风输入自己的语音数据,客户端可将获取到的语音数据上传至服务器,由服务器将这些语音数据进行转发。
在服务器将语音数据进行转发前,服务器需要将这些语音数据进行语音内容检测,在检测到语音数据为合法数据时,可将这些语音数据进行正常转发。
目前,对于语音数据进行语音内容的检测,主要依赖于人工进行检测。通常由服务器将该语音数据转换为文本,再基于人工比对方式来确定该文本是否合法,采用人工比对的方式需要大量的人力与时间,这不仅会造成大量的资源浪费,检测成本高,还会严重影响语音检测的效率。
发明内容
本申请实施例提供一种音频数据检测方法、装置、设备以及可读存储介质,可以在音频检测中,减少检测成本,提高检测效率。
本申请实施例一方面提供了一种音频数据检测方法,包括:
获取第一对象提供的目标音频数据,以及目标音频数据的关键音频特征,根据关键音频特征对目标音频数据进行音频检测;
若检测出目标音频数据为异常音频数据,则将目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件;音频编码文件为第一对象对应的第一客户端对目标音频数据进行编码处理后得到的文件;
将标记编码文件发送至业务服务器,以使业务服务器基于标记编码文件中的异常标记获取音频转换文本,根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理;音频转换文本是由业务服务器基于异常标记,对标记编码文件进行解码处理得到目标音频数据后,对目标音频数据进行音频识别所得到。
本申请实施例一方面提供了一种音频数据检测装置,包括:
音频检测模块,用于获取第一对象提供的目标音频数据,以及目标音频数据的关键音频特征;
音频检测模块,还用于根据关键音频特征对目标音频数据进行音频检测;
文件标记模块,用于若检测出目标音频数据为异常音频数据,则将目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件;音频编码文件为第一对象对应的第一客户端对目标音频数据进行编码处理后得到的文件;
文件发送模块,用于将标记编码文件发送至业务服务器,以使业务服务器基于标记编码文件中的异常标记获取音频转换文本,根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理;音频转换文本是由业务服务器基于异常标记,对标记编码文件进行解码处理得到目标音频数据后,对目标音频数据进行音频识别所得到。
在一个实施例中,音频检测模块包括:
特征匹配单元,用于获取音频检测规则库;音频检测规则库中包括异常关键词对应的配置音频特征;
特征匹配单元,还用于将关键音频特征与音频检测规则库中的配置音频特征进行匹配;
音频检测单元,用于若关键音频特征中存在与配置音频特征相匹配的目标音频特征,则将目标音频数据确定为异常音频数据;
音频检测单元,还用于若关键音频特征中不存在与配置音频特征相匹配的目标音频特征,则将目标音频数据确定为合法音频数据。
在一个实施例中,关键音频特征的数量为至少两个,至少两个关键音频特征包括关键音频特征ki;i为正整数;
该音频检测装置还包括:
相似度确定模块,用于确定关键音频特征ki与配置音频特征之间的特征相似度mi
特征检测模块,用于若特征相似度大于或等于相似度阈值,则将关键音频特征ki确定为与配置音频特征相匹配的目标音频特征;
特征检测模块,还用于若至少两个关键音频特征中,每个关键音频特征与配置音频特征之间的特征相似度均小于相似度阈值,则确定至少两个关键音频特征中不存在与配置音频特征相匹配的目标音频特征。
在一个实施例中,相似度确定模块包括:
向量获取单元,用于获取关键音频特征ki对应的第一特征向量,以及配置音频特征对应的第二特征向量;
相似度确定单元,用于获取第一特征向量与第二特征向量之间的向量角度值,获取向量角度值对应的余弦值;
相似度确定单元,还用于将余弦值确定为关键音频特征ki与配置音频特征之间的特征相似度mi
在一个实施例中,文件标记模块包括:
描述信息获取单元,用于获取目标音频数据对应的音频编码文件,以及音频编码文件对应的文件编码描述信息;
异常标记确定单元,用于获取异常音频数据对应的异常编码描述信息,将异常编码描述信息确定为异常标记;
标记添加单元,用于将异常标记添加至文件编码描述信息中,得到目标编码描述信息,将包含目标编码描述信息的音频编码文件确定为标记编码文件。
在一个实施例中,该音频数据检测装置还包括:
信息接收模块,用于接收业务服务器发送的异常提示信息;异常提示信息用于提示音频转换文本中包括异常文本,且用于提示第一对象为异常对象;
信息展示模块,用于基于异常提示信息,生成异常警告信息,向第一对象展示异常警告信息。
本申请实施例一方面提供了另一种音频数据检测方法,包括:
接收第一客户端发送的标记编码文件;标记编码文件包含由第一客户端对音频编码文件进行标记后得到的异常标记;异常标记用于表征音频编码文件对应的目标音频数据为异常音频数据;音频编码文件为第一客户端对目标音频数据进行编码处理后得到的文件;目标音频数据由第一对象所提供;
基于标记编码文件中的异常标记,对标记编码文件进行解码处理,得到目标音频数据;
对目标音频数据进行音频识别,得到目标音频数据对应的音频转换文本;
根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理。
本申请实施例一方面提供了另一种音频数据检测装置,包括:
文件接收模块,用于接收第一客户端发送的标记编码文件;标记编码文件包含由第一客户端对音频编码文件进行标记后得到的异常标记;异常标记用于表征音频编码文件对应的目标音频数据为异常音频数据;音频编码文件为第一客户端对目标音频数据进行编码处理后得到的文件;目标音频数据由第一对象所提供;
解码模块,用于基于标记编码文件中的异常标记,对标记编码文件进行解码处理,得到目标音频数据;
音频识别模块,用于对目标音频数据进行音频识别,得到目标音频数据对应的音频转换文本;
音频屏蔽模块,用于根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理。
在一个实施例中,文本合法检测结果包括合法结果与异常结果;
该音频数据检测装置还包括:
文本匹配模块,用于获取文本检测规则库;文本检测规则库中包括配置异常文本;
文本匹配模块,还用于将音频转换文本与文本检测规则库中的配置异常文本进行匹配;
结果确定模块,用于若音频转换文本中存在与配置异常文本相同的文本,则确定音频转换文本中存在第一异常文本,将文本合法检测结果确定为异常结果;
结果确定模块,还用于若音频转换文本中不存在与配置异常文本相同的文本,则确定音频转换文本中不存在第一异常文本,将文本合法检测结果确定为合法结果。
在一个实施例中,音频屏蔽模块包括:
子数据获取单元,用于在文本合法检测结果为异常结果时,获取目标音频数据中第一异常文本所对应的异常子音频数据;
沉默处理单元,用于对异常子音频数据进行沉默处理,得到沉默子音频数据;
音频确定单元,用于将沉默子音频数据与剩余子音频数据所组成的音频数据,确定为异常音频屏蔽处理后的目标音频数据;剩余子音频数据为目标音频数据中除沉默子音频数据以外的子音频数据。
在一个实施例中,该音频数据检测装置还包括:
标识添加模块,用于在文本合法检测结果为异常结果时,获取第一对象的对象标识,将第一对象的对象标识添加至异常对象集合,得到更新异常对象集合;
信息生成模块,用于根据音频转换文本中包含的第一异常文本,以及更新异常对象集合生成异常提示信息,将异常提示信息发送至第一客户端;异常提示信息用于提示音频转换文本中包括第一异常文本,且用于提示第一对象为异常对象。
在一个实施例中,该音频数据检测装置还包括:
考察文件接收模块,用于在对象考察时间段内,接收属于异常对象的第一客户端发送的考察编码文件;考察编码文件为第一客户端对考察音频数据进行音频检测,且检测出考察音频数据为合法音频数据后,对考察音频数据进行编码处理后得到的文件;考察音频数据由第一对象所提供;
考察文件检测模块,用于对考察音频数据进行音频识别,得到考察音频数据对应的考察音频转换文本;
考察文件检测模块,还用于对考察音频转换文本进行文本检测;
对象标记模块,用于若考察音频转换文本中不存在第二异常文本,则将第一对象标记为合法通信对象;
对象异常处理模块,用于若考察音频转换文本中存在第二异常文本,则获取第一对象在对象考察时间段内的异常通信记录频率,将异常通信记录频率进行递增,得到递增记录频率;
对象异常处理模块,还用于根据递增记录频率对第一对象进行异常处理。
在一个实施例中,对象异常处理模块包括:
功能关闭单元,用于若递增记录频率大于或等于频率阈值,则获取第一对象对应的账户信息,关闭第一对象对应的账户信息的音频通信功能;
标识删除单元,用于若递增记录频率小于频率阈值,则将第一对象的对象标识从更新异常对象集合中进行删除。
在一个实施例中,该音频屏蔽模块包括:
再编码单元,用于在文本合法检测结果为合法结果时,确定目标音频数据为合法音频数据,将目标音频数据进行重新编码,得到新编码文件;
文件发送单元,用于将新编码文件发送至第二对象对应的第二客户端,以使第二客户端对新编码文件进行解码处理,得到目标音频数据。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的方法。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
在本申请实施例中,客户端在获取到第一对象提供的目标音频数据后,可以先对目标音频数据进行音频检测,在检测出目标音频数据为异常音频数据后,可在将该目标音频数据编码处理得到音频编码文件后,对该音频编码文件进行标记,使得该音频编码文件可包含有异常标记;而该异常标记可用于提示业务服务器该目标音频数据为异常音频数据,由此,当业务服务器接收到包含有异常标记的标记编码文件后,可基于该异常标记对该标记编码文件进行解码处理得到该目标音频数据,对该目标音频数据进行音频识别得到音频转换文本;业务服务器可自动对该音频转换文本进行文本合法检测,基于文本合法检测结果对该目标音频数据进行异常音频屏蔽处理。应当理解,本申请通过客户端提前对音频数据进行音频检测并对异常音频数据进行标记的方式,可以使得业务服务器通过异常标记确定哪些音频数据为异常音频数据,在编码文件含有异常标记时,业务服务器会自动将这些编码文件进行解码、音频识别转换为文本、文件合法检测、重新编码处理,无需人工参与,可以减少人力与时间成本,与此同时,由于业务服务器无需对接收到的每一个编码文件均进行解码、文本转换、文本合法检测以及重新编码,可以大大节约业务服务器的资源,缓解业务服务器的压力;同时,因为只有在编码文件含有异常标记时,业务服务器才会对该编码文件进行文本合法检测,若编码文件未含有异常标记,则业务服务器会将其直接进行转发,可见,由客户端提前对音频数据进行音频检测的方式,可以使得业务服务器无需对已合法的音频数据进行无意义的检测,可以节约音频检测时间,提高音频检测效率。综上,本申请可以在音频检测中,节约服务器资源,缓解服务器压力,减少检测成本,提高音频检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2a-图2b是本申请实施例提供的一种转发音频数据的场景示意图;
图3是本申请实施例提供的一种音频数据检测方法的方法流程示意图;
图4是本申请实施例提供的另一种音频数据检测方法的方法流程示意图;
图5是本申请实施例提供的一种系统流程示意图;
图6是本申请实施例提供的一种音频数据检测装置的结构示意图;
图7是本申请实施例提供的另一种音频数据检测装置的结构示意图;
图8是本申请实施例提供的另一种音频数据检测装置的结构示意图;
图9是本申请实施例提供的另一种音频数据检测装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及到人工智能(Artificial Intelligence,AI)技术中的语音技术,为便于理解,以下将先对人工智能及其相关概念进行阐述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请实施例提供的方案涉及人工智能的语音处理技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。本申请主要涉及到语音技术中的自动语音识别技术与声纹识别技术。
请参见图1,图1是本申请实施例提供的一种网络架构图。如图1所示,该网络架构可以包括业务服务器1000和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n;如图1所示,终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与业务服务器1000进行网络连接,以便于每个终端设备可以通过该网络连接与业务服务器1000之间进行数据交互。
可以理解的是,如图1所示的每个终端设备均可以安装有目标应用,当该目标应用运行于各终端设备中时,可以分别与图1所示的业务服务器1000之间进行数据交互,使得业务服务器1000可以接收来自于每个终端设备的业务数据。其中,该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如,应用可以为多媒体类应用(例如,视频应用),该多媒体类应用可以用于使用终端设备的对象(使用终端设备的用户)播放多媒体数据(例如,视频、音频等数据)并发表评论(如通过麦克风输入语音评论);应用还可以为娱乐类应用(例如,游戏应用),可以用于使用终端设备的对象进行娱乐互动(如通过麦克风与其他对象(用户)进行语音交流互动)。本申请中的终端设备可以根据这些应用获取到业务数据,如,该业务数据可以为对象使用目标应用时,通过麦克风所输入的音频数据(如语音数据)。
随后,终端设备可将获取到的音频数据进行编码处理,得到编码文件,终端设备可将该编码文件上传至业务服务器1000,由该业务服务器1000对该编码文件中的音频数据进行合法检测。也就是说,本申请中的业务服务器1000也可以通过这些应用获取到业务数据,并对业务数据进行合法性检测。
应当理解,为节约业务服务器1000的资源,缓解业务服务器1000的压力,本申请可提出一种音频检测方法,即终端设备在获取到音频数据后,先对音频数据进行音频检测,在检测出音频数据为异常音频数据时,将音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件后再将该标记编码文件上传至业务服务器1000;而若检测出音频数据为合法音频数据,则终端设备可将音频数据进行编码处理得到音频编码文件后,不进行标记处理直接将该音频编码文件上传至业务服务器1000。
鉴于此,业务服务器在接收到终端设备上传的编码文件后,可查看该编码文件中是否含有异常标记;若编码文件是含有异常标记的标记编码文件,则业务服务器1000可将该标记编码文件进行解码处理获取到音频数据后,再对音频数据进行音频识别(即通过自动语音识别技术对音频进行语音识别)得到音频转换文本,再对该音频转换文本进行文本合法检测,以检测该音频转换文本中是否含有异常文本,若检测到该音频转换文本中含有异常文本,则可对该音频数据中异常文本对应的异常子音频数据进行屏蔽处理;而若检测到给音频转换文本中未含有异常文本,则可重新对该音频数据进行编码处理,得到新的编码文件,并将该新的编码文件转发至与该用户进行语音交互(音频互动)的其他用户对应的客户端。而其他客户端在接收到由业务服务器1000进行重新编码的编码文件时,可对该编码文件进行解码处理,得到经过屏蔽处理后的音频数据,其他用户所听到的也为经过屏蔽处理后的音频数据。
应当理解,若编码文件是未含有异常标记的合法编码文件,则业务服务器1000可直接将该合法编码文件转发至与该用户进行语音交互的其他用户对应的客户端,其他客户端对该合法编码文件进行解码处理后,可得到未经过屏蔽处理的原音频数据,其他用户所听到的也为未经过屏蔽处理的原音频数据。
通过终端设备先对音频数据进行音频检测并对异常音频数据进行标记的方式,可以使得业务服务器无需对接收到的每个音频编码文件均进行解码、音频识别、文本合法检测以及编码处理,可以大大节约业务服务器的资源,缓解业务服务器的检测压力。
本申请实施例可以在多个终端设备中选择一个终端设备作为目标终端设备,该终端设备可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表、车载设备等携带多媒体数据处理功能(例如,视频数据播放功能、音乐数据播放功能)的智能终端,但并不局限于此。例如,本申请实施例可以将图1所示的终端设备100a作为该目标终端设备,该目标终端设备中可以集成有上述目标应用,此时,该目标终端设备可以通过该目标应用与业务服务器1000之间进行数据交互。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端设备或业务服务器。其中,业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,终端设备以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为便于理解,请参见图2a-图2b,图2a-图2b是本申请实施例提供的一种转发音频数据的场景示意图。其中,如图2a-图2b所示的终端设备A可以为上述图1所对应实施例中终端设备集群中的任一终端设备,如该终端设备为终端设备100a;如图2a-图2b所示的终端设备B可以为上述图1所对应实施例中终端设备集群中的任一终端设备,如该终端设备为终端设备100b;如图2a-图2b所示的业务服务器可以为上述图1所对应实施例中的业务服务器1000。
如图2a-如图2b所示的实施例以对象a与对象b在游戏环境(虚拟环境)中进行语音互动为例进行说明,其中,终端设备A为对象a(如用户a)对应的终端,在终端设备A的显示界面中可显示游戏环境,对象a可通过终端设备A在游戏环境中与对象b(如用户b)一起组队游戏。如图2a所示,在终端设备A的显示界面中显示有听筒控件200a与话筒控件200b,对象a可通过听筒控件200a听到对象b所提供的语音数据,对象a可通过话筒控件200b向对象b发送自己的语音数据;也就是说,通过听筒控件200a与话筒控件200b,可实现对象a与对象b进行语音互动。
如图2a所示,在对象a点击听筒控件200b后,可通过麦克风发表言论(即通过麦克风输入语音数据),终端设备A可获取到对象a的语音数据,本申请可将语音数据称之为音频数据。如图2a所示,终端设备A可获取到对象a的音频数据(即音频数据200),进一步地,终端设备A可对该音频数据200进行语音关键词唤醒(Key Word Spotting,KWS)处理,语音关键词唤醒即在语音录音过程中对给定范围内词汇进行语音内容检测,当出现相关词汇时通知(也叫唤醒)系统应用层,本申请可将语音关键词唤醒称为音频检测处理,也就是说,终端设备A可对获取到的音频数据进行检测,以检测该音频数据是否包含异常词汇(如违规词汇)对应的子音频数据。
如图2a所示,终端设备A可对音频数据200进行音频检测,其具体方法可为:终端设备A可先对音频数据进行特征提取,提取出该音频数据200对应的关键音频特征,其中,该关键音频特征可以是指音频数据200中每一个子语音数据(子音频数据)对应的音频特征(语音特征,如声纹特征),以对象a通过麦克风所说的语音数据为“系统太搞笑”为例(即该音频数据200为文本内容“系统太搞笑”的中文语音),该音频数据200中包括有子语音数据“系”、子语音数据“统”、子语音数据“太”、子语音数据“搞”、子语音数据“笑”;则该音频数据200所对应的关键音频特征可包括子语音数据“系”的语音特征、子语音数据“统”的语音特征、子语音数据“太”的语音特征、子语音数据“搞”的语音特征、子语音数据“笑”的语音特征。可选的,因为词汇“系”与词汇“统”可组成新的词汇“系统”,词汇“搞”与词汇“笑”可组成新的词汇“搞笑”,则子语音数据“系”与子语音数据“统”也可以组成新的子语音数据“系统”,子语音数据“搞”与子语音数据“笑”也可以组成新的子语音数据“搞笑”,那么音频数据200中的关键音频特征还可包括子语音数据“系统”与“搞笑”分别对应的语音特征。
进一步地,终端设备A获取音频检测规则库,其中该音频检测规则库中可包括违规词汇的中文语音的语音特征,可将该音频数据200的关键音频特征中的每一个子语音数据对应的语音特征,与该音频检测规则库中的违规词汇的中文语音的语音特征分别进行匹配,例如,音频数据200的关键音频特征包括子语音数据“系”的语音特征、子语音数据“统”的语音特征、子语音数据“太”的语音特征、子语音数据“搞”的语音特征、子语音数据“笑”的语音特征、子语音数据“系统”的语音特征、子语音数据“搞笑”的语音特征,那么可将子语音数据“系”的语音特征、子语音数据“统”的语音特征、子语音数据“太”的语音特征、子语音数据“搞”的语音特征、子语音数据“笑”的语音特征、子语音数据“系统”的语音特征、子语音数据“搞笑”的语音特征分别与音频检测规则库中的违规词汇的中文语音的语音特征进行匹配,由此可以确定该关键音频特征中是否存在命中该音频检测规则库中的某一违规词汇的中文语音的语音特征。
假设该音频检测规则库中包括有违规词汇“系统”的中文语音的语音特征,因为该音频数据200中包括有子语音数据“系统”,则通过语音特征匹配,可以确定该音频数据200中的关键音频特征中所包括的子语音数据“系统”的语音特征,命中音频检测规则库中的违规词汇“系统”的语音特征,则终端设备A可确定该音频数据200中的子语音数据“系统”为违规子音频数据(即异常子音频数据),因为该音频数据200中存在违规子音频数据,则该终端设备A可确定该音频数据200为违规音频数据(即异常音频数据),则进一步地,该终端设备A可在对音频数据200进行编码处理得到音频编码文件后,对该音频编码文件进行标记,以表征该音频编码文件对应的音频数据200是违规音频数据。其中,对音频编码文件进行标记的方式可为:可在音频编码文件对应的文件编码描述信息中,添加违规音频数据对应的异常编码描述信息,该异常编码描述信息即可理解为异常标记,则在添加异常编码描述信息后,可得到包括异常标记的音频编码文件,而包括异常标记的音频编码文件可称之为标记编码文件。
如图2a所示,终端设备A在对音频编码文件进行标记后,可得到标记编码文件,随后,终端设备A可将该标记编码文件发送(即上传)至业务服务器。
进一步地,如图2b所示,业务服务器在接收到终端设备A发送的标记编码文件后,可先查看该标记编码文件中是否含有违规标记,因为该标记编码文件是终端设备A经过标记的编码文件,该编码文件是是含有违规标记的,则该业务服务器可查询到该标记编码文件中包含有违规标记。进一步地,业务服务器在确定该标记编码文件中包含有违规标记后,可基于该违规标记对该标记编码文件进行解码处理,得到音频数据200。在得到音频数据200后,业务服务器可对该音频数据200进行音频识别(即语音识别),通过音频识别可将该音频数据200转换为文本,得到转换文本2000(即文本内容“系统太搞笑”)。
进一步地,业务服务器可对该转换文本2000进行全文的文本检测,以检测该转换文本2000中是否包含有违规文本,若该转换文本中包含有违规文本,则业务服务器可将该音频数据200确定为违规音频数据,而若该转换文本中未包含有违规文本,则业务服务器可将该音频数据200确定为是合法音频数据。业务服务器对转换文本2000进行文本检测的具体方法可为:可获取文本检测规则库,其中该文本检测规则库中可包括配置违规文本,可将该转换文本2000(即文本内容“系统太搞笑”)中的每一个文本词汇与该文本检测规则库中的配置违规文本分别进行匹配,例如,可将文本词汇“系”、文本词汇“统”、文本词汇“太”、文本词汇“搞”、文本词汇“笑”、文本词汇“系统”(由文本词汇“系”与文本词汇“统”所组成的新文本词汇)、文本词汇“搞笑”(由文本词汇“搞”与文本词汇“笑”所组成的新文本词汇)分别与文本检测规则库中的配置违规文本进行匹配,由此可以确定该转换文本2000中是否存在命中该文本检测规则库中的某一配置违规文本的文本词汇。
如图2b所示,假设该文本检测规则库中包含有配置违规文本“系统”,因为该转换文本2000中包含有文本词汇“系统”,则业务服务器可确定该转换文本2000中的文本词汇“系统”为违规文本;则业务服务器可确定该转换文本2000对应的音频数据200为异常音频,进一步地,业务服务器可对该音频数据200进行异常音频屏蔽处理。例如,该业务服务器可获取该音频数据200中该违规文本“系统”所对应的违规子音频数据,业务服务器可将该音频数据200中违规文本“系统”所对应的违规子音频数据进行删除,从而可得到音频数据201,应当理解,该音频数据201实际为文本内容“太搞笑”的中文语音。
可选的,业务服务器对音频数据200进行异常音频屏蔽处理的方式还可为:可将音频数据200中违规文本“系统”所对应的违规子音频数据进行沉默处理,从而可得到音频数据201,该音频数据201实际为文本内容“--太搞笑”的中文语音,也就是说,当播放音频数据200时,“系统”二字所对应的语音,实际上为沉默效果的静音语音。
可选的,业务服务器对音频数据200进行异常音频屏蔽处理的方式还可为:可将音频数据200中违规文本“系统”所对应的违规子音频数据替换为特征词汇对应的语音数据,该特定词汇可以由人工设置,例如,该特定词汇为“啊”、“哦”、“哈哈”。以特定词汇为“哈哈”为例,可将音频数据200中违规文本“系统”所对应的违规子音频数据替换为特定词汇“哈哈”对应的语音数据,从而可得到音频数据201,该音频数据201实际为文本内容“哈哈太搞笑”的中文语音,也就是说,当播放音频数据200时,“系统”二字所对应的语音,实际为词汇“哈哈”对应的语音。
进一步地,业务服务器可将该音频数据201进行重新编码,得到新编码文件,业务服务器可将该新编码文件发送至与对象a存在语音互动行为的对象b所对应的终端设备B;终端设备B可将该新编码文件进行解码处理,得到该音频数据201,随后,终端设备B可播放该音频数据201,对象b可通过听筒控件200c,听到该音频数据201(以业务服务器将违规子音频数据进行删除为例,对象b听到的实际为文本内容“太搞笑”对应的中文语音)。同理,需要说明的是,如图2b所示,对象b可通过话筒控件200d输入自己的语音数据,以与对象a进行语音互动。
应当理解,在终端设备通过麦克风采集到语音数据后,可先对语音数据进行语音关键词唤醒(即音频检测),在检测到该语音数据中存在违规词汇对应的语音数据后,可在对该语音数据进行编码处理后对编码文件进行标记,再将包含有违规标记的编码文件发送至业务服务器。而在业务服务器中,可只对包含有违规标记的编码文件进行解码、语音识别、语音文本检测、重新编码的处理,对未含有违规标记的编码文件,业务服务器可直接转发至其他终端设备;由此可使得业务服务器无需对接收到的每一个编码文件均进行一次解码以及重新编码的流程,也无需对未违规的语音数据进行没必要的语音文本检测,可以大大节约业务服务器的资源,缓解业务服务器在语音检测中的压力,同时可以提高语音检测的效率。
进一步地,请参见图3,图3是本申请实施例提供的一种音频数据检测方法的方法流程示意图。其中,该方法可由终端设备(如上述图1所对应实施例中终端设备集群中的任一终端设备)所执行。如图3所示,该方法流程可以至少包括以下步骤S101-步骤S103:
步骤S101,获取第一对象提供的目标音频数据,以及目标音频数据的关键音频特征,根据关键音频特征对目标音频数据进行音频检测。
本申请中,对象可以是指对象,则第一对象可以是指第一对象。当第一对象在使用目标应用(如游戏应用)时,该目标应用可支持第一对象与其他对象进行在线语音互动,而第一对象对应的第一客户端(即第一终端设备)可采集到由第一对象提供的语音数据(如,第一对象通过麦克风发表语音数据,第一客户端可通过麦克风采集到),可将该第一对象提供的语音数据称之为目标音频数据。第一客户端可提取该目标音频数据的关键音频特征(即该语音数据对应的声纹特征);通过该关键音频特征(声纹特征)可对该目标音频数据进行音频检测,以检测该目标音频数据是否合法。其中,该关键音频特征可以是指目标音频数据中包括的每一个自音频数据所对应的声纹特征(也可称之为语音特征),例如,以目标音频数据为“甲乙双方签订合同”为例,该目标音频数据中可包括子音频数据“甲”、子音频数据“乙”、子音频数据“双”、子音频数据“方”、子音频数据“签”、子音频数据“订”、子音频数据“合”、子音频数据“同”;可选的,因为词汇“合”与词汇“同”可组成新的词汇“合同”,则该子音频数据还可包括子音频数据“合同”。那么,该目标音频数据“甲乙双方签订合同”所对应的关键音频特征可包括子音频数据“甲”、子音频数据“乙”、子音频数据“双”、子音频数据“方”、子音频数据“签”、子音频数据“订”、子音频数据“合”、子音频数据“同”、子音频数据“合同”分别对应的声纹特征。
其中,第一客户端根据关键音频特征对目标音频数据进行音频检测的具体方法可为:可获取音频检测规则库;其中,该音频检测规则库中包括异常关键词对应的配置音频特征;随后,可将关键音频特征与音频检测规则库中的配置音频特征进行匹配;若关键音频特征中存在与配置音频特征相匹配的目标音频特征,则可将目标音频数据确定为异常音频数据;若关键音频特征中不存在与配置音频特征相匹配的目标音频特征,则可将目标音频数据确定为合法音频数据。
以下将以关键音频特征的数量为至少两个,至少两个关键音频特征包括关键音频特征ki(i为正整数)为例,对确定关键音频特征中是否存在与配置音频特征相匹配的目标音频特征的具体方法进行说明,其具体方法可为:可确定关键音频特征ki与配置音频特征之间的特征相似度mi;若特征相似度大于或等于相似度阈值,则可将关键音频特征ki确定为与配置音频特征相匹配的目标音频特征;若至少两个关键音频特征中,每个关键音频特征与配置音频特征之间的特征相似度均小于相似度阈值,则可确定至少两个关键音频特征中不存在与配置音频特征相匹配的目标音频特征。
其中,对于确定关键音频特征ki与配置音频特征之间的特征相似度mi的具体方法可为:可获取关键音频特征ki对应的第一特征向量,以及配置音频特征对应的第二特征向量;随后,可获取第一特征向量与第二特征向量之间的向量角度值,获取向量角度值对应的余弦值;可将余弦值确定为关键音频特征ki与配置音频特征之间的特征相似度mi
应当理解,本申请可提前对音频检测规则库中配置关键词对应的配置音频特征进行预先确定,对于预设音频检测规则库的方法可为:可先预设目标应用所关注的、用户的语音数据中不宜涉及到的词汇,这些词汇可以作为违规关键词。以目标应用为游戏应用为例,游戏应用中不应涉及广告词汇、消极词汇、攻击他人的词汇,如“傻瓜”带有攻击他人的色彩,“傻瓜”这一词汇可作为一个违规关键词。进一步地,本申请组织多个用户发出这些违规关键词的语音并进行录音,随后可对每个违规关键词的录音内容进行特征提取,由此可得到每个违规关键词对应的配置音频特征(即配置声纹特征),可将每个违规关键词的配置音频特征(配置声纹特征)存储至音频检测规则库中,供客户端做语音关键词唤醒(即音频检测)所使用。
通过上述可知,在大量的违规关键词对应的声纹特征形成音频检测规则库后,第一客户端在采集到第一对象的目标音频数据后,可提取该目标音频数据的关键音频特征(如,目标音频数据中每一个子音频数据对应的声纹特征),随后,第一客户端可对目标音频数据的声纹特征与音频检测规则库中的声纹特征进行匹配,确定该目标音频数据的声纹特征中是否有与音频检测规则库中的某一违规关键词的配置声纹特征相匹配的子声纹特征(即,确定目标音频数据中是否有命中某一违规关键词的配置声纹特征的子音频数据),若该目标音频数据的声纹特征中有一子声纹特征命中了音频检测规则库中的某一违规关键词的配置声纹特征,则可确定该目标音频数据中包含违规关键词对应的违规子音频数据,该目标音频数据是违规音频数据(即异常音频数据)。
而在本申请中,可通过计算声纹特征的相似度的方式,来确定任意两个声纹特征是否匹配上。
步骤S102,若检测出目标音频数据为异常音频数据,则将目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件;音频编码文件为第一对象对应的第一客户端对目标音频数据进行编码处理后得到的文件。
本申请中,当检测出目标音频数据为异常音频数据(即违规音频数据)时,第一客户端可在对目标音频数据进行编码处理得到音频编码文件后,对该音频编码文件进行标记,以表征该目标音频数据是异常音频数据。其中,对于第一客户端对音频编码文件进行标记,得到包含异常标记的标记编码文件的具体方法可为:可获取目标音频数据对应的音频编码文件,以及音频编码文件对应的文件编码描述信息;随后,可获取异常音频数据对应的异常编码描述信息,可将异常编码描述信息确定为异常标记;随后,可将异常标记添加至文件编码描述信息中,得到目标编码描述信息,可将包含目标编码描述信息的音频编码文件确定为标记编码文件。
应当理解,第一客户端在采集到语音数据后,需要对语音数据进行编码,再将编码文件上传至业务服务器,由业务服务器对该编码文件中的语音数据进行检测后再将该语音数据转发至第二客户端(与第一对象存在语音互动行为的第二对象所对应的客户端)。而为了减缓业务服务器的压力,节约业务服务器的资源,本申请的客户端可提前对获取到的语音数据进行声纹检测,并基于检测结果对违规音频数据进行标记,由此,业务服务器可只对含有违规标记的编码文件中的语音数据进行解码、语音检测、再次编码处理,无需对所有的编码文件均进行解码、语音检测、再次编码处理。所以,第一客户端在检测出目标音频数据为违规音频数据后,可按一定格式规范进行对目标音频数据进行语音编码得到音频码流,在对该音频码流进行封装描述得到音频编码文件时,可将违规音频数据对应的违规编码描述信息添加至该音频编码文件的编码描述信息中,该违规编码描述信息即可称之为违规标记,由此该音频编码文件即可包含该违规标记,而包含违规标记的音频编码文件可称之为是标记编码文件。
步骤S103,将标记编码文件发送至业务服务器,以使业务服务器基于标记编码文件中的异常标记获取音频转换文本,根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理;音频转换文本是由业务服务器基于异常标记,对标记编码文件进行解码处理得到目标音频数据后,对目标音频数据进行音频识别所得到。
本申请中,第一客户端可将该标记编码文件上传至业务服务器,业务服务器在接收到该标记编码文件后,可先查看编码文件中是否包含有异常标记,若未包含有异常标记,则可直接将接收到的编码文件转发至第二客户端;而若文件中包含有异常标记,则业务服务器可对编码文件进行解码、语音识别、语音检测、重新编码处理。
应当理解,因为该标记编码文件中是包含异常标记的,则业务服务器可先对该标记编码文件进行解码处理,通过解码可获取到目标音频数据;随后,业务服务器可对该目标音频数据进行语音识别,通过语音识别可将该目标音频数据转换为文本,得到音频转换文本;随后,业务服务器可对该音频转换文本进行文本合法检测(即检测该音频转换文本中是否含有异常文本);基于该文本合法检测结果,业务服务器可对该目标音频数据进行异常音频屏蔽处理,得到合法音频数据,业务服务器可将该合法音频数据进行再次编码处理得到新编码文件,并将该新编码文件发送至第二客户端(第二终端设备),由此,第二对象通过第二客户端所听到的为经过处理的不含异常内容的音频数据。其中,对于业务服务器在接收到编码文件后的具体处理流程,可以参见图4所对应实施例中的描述。
应当理解,业务服务器若检测到该目标音频数据的音频转换文本中包含有异常文本,则该业务服务器可生成异常提示信息,并将该异常提示信息返回至第一客户端。而第一客户端在接收到该异常提示信息后,可生成异常警告信息并向第一对象展示该异常警告信息,以提醒第一对象规范语音行为。其具体方法可为:接收业务服务器发送的异常提示信息;异常提示信息用于提示音频转换文本中包括异常文本,且用于提示第一对象为异常对象;基于异常提示信息,生成异常警告信息,向第一对象展示异常警告信息。
在本申请实施例中,客户端在获取到对象提供的目标音频数据后,可以先对目标音频数据进行音频检测,在检测出目标音频数据为异常音频数据后,可在将该目标音频数据编码处理得到音频编码文件后,对该音频编码文件进行标记,使得该音频编码文件可包含有异常标记;而该异常标记可用于提示业务服务器该目标音频数据为异常音频数据,由此,当业务服务器接收到包含有异常标记的标记编码文件后,可基于该异常标记对该标记编码文件进行解码处理得到该目标音频数据,对该目标音频数据进行音频识别得到音频转换文本;业务服务器可自动对该音频转换文本进行文本合法检测,基于文本合法检测结果对该目标音频数据进行异常音频屏蔽处理。应当理解,本申请通过客户端提前对音频数据进行音频检测并对异常音频数据进行标记的方式,可以使得业务服务器通过异常标记确定哪些音频数据为异常音频数据,在编码文件含有异常标记时,业务服务器会自动将这些编码文件进行解码、音频识别转换为文本、文件合法检测、重新编码处理,无需人工参与,可以减少人力与时间成本,与此同时,由于业务服务器无需对接收到的每一个编码文件均进行解码、文本转换、文本合法检测以及重新编码,可以大大节约业务服务器的资源,缓解业务服务器的压力;同时,因为只有在编码文件含有异常标记时,业务服务器才会对该编码文件进行文本合法检测,若编码文件未含有异常标记,则业务服务器会将其直接进行转发,可见,由客户端提前对音频数据进行音频检测的方式,可以使得业务服务器无需对已合法的音频数据进行无意义的检测,可以节约音频检测时间,提高音频检测效率。综上,本申请可以在音频检测中,节约服务器资源,缓解服务器压力,减少检测成本,提高音频检测效率。
进一步地,请参见图4,图4是本申请实施例提供的另一种音频数据检测方法的方法流程示意图。其中,该方法可由业务服务器(如上述图1所对应实施例中的业务服务器1000)所执行。如图4所示,该方法流程可以至少包括以下步骤S201-步骤S204:
步骤S201,接收第一客户端发送的标记编码文件;标记编码文件包含由第一客户端对音频编码文件进行标记后得到的异常标记;异常标记用于表征音频编码文件对应的目标音频数据为异常音频数据;音频编码文件为第一客户端对目标音频数据进行编码处理后得到的文件;目标音频数据由第一对象所提供。
本申请中,第一客户端在采集到目标音频数据后,可对目标音频数据进行音频检测,在检测到目标音频数据为异常音频数据后,可对该目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件,并将该标记编码文件发送至业务服务器;而若检测到目标音频数据为合法音频数据,第一客户端可不对音频编码文件进行标记,而是直接将该未经标记的音频编码文件发送至业务服务器。
其中,对于第一客户端对目标音频数据进行音频检测,对音频编码文件进行标记的具体实现方式,可以参见上述图3所对应实施例中的描述,这里将不再进行赘述。
步骤S202,基于标记编码文件中的异常标记,对标记编码文件进行解码处理,得到目标音频数据。
本申请中,业务服务器在接收到第一客户端发送的编码文件后,可先查看该编码文件中是否包含异常标记;若含有异常标记,则业务服务器可对该编码文件进行解码,并进行后续的语音全文检测处理;而若未含有异常标记,则业务服务器可直接将该编码文件转发至第二客户端。应当理解,标记编码文件中包含有异常标记,则业务服务器可基于该异常标记,对第一客户端发送的标记编码文件进行解码处理,进行解码后可获取得到目标音频数据。
步骤S203,对目标音频数据进行音频识别,得到目标音频数据对应的音频转换文本。
本申请中,业务服务器可利用语音识别技术对该目标音频数据进行语音识别,通过语音识别可将该目标音频数据转换为文本数据,即可以得到目标音频数据对应的音频转换文本。
步骤S204,根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理。
本申请中,业务服务器可对该音频转换文本进行文本合法检测,以检测该音频转换文本是为合法的文本或异常(即违规或非法)的文本,则该文本合法检测结果也可包括合法结果与异常结果(违规结果或非法结果)。对于确定文本合法检测结果为合法结果或异常结果的具体方法可为:可获取文本检测规则库;其中,文本检测规则库中包括配置异常文本;可以将音频转换文本与文本检测规则库中的配置异常文本进行匹配;若音频转换文本中存在与配置异常文本相同的文本,则确定音频转换文本中存在第一异常文本,将文本合法检测结果确定为异常结果;若音频转换文本中不存在与配置异常文本相同的文本,则确定音频转换文本中不存在第一异常文本,将文本合法检测结果确定为合法结果。
应当理解,本申请可提前对文本检测规则库中的配置异常文本进行预先确定,例如:可将涉及广告词汇、消极词汇、攻击他人的词汇等均作为配置异常文本。在获取到目标音频数据对应的音频转换文本后,可将该音频转换文本与每个配置异常文本进行匹配,若命中了某一配置异常文本,则可认为该音频转换文本中包含有某一异常文本,可将该音频转换文本的文本合法检测结果确定为异常结果。
进一步地,在业务服务器检测到该音频转换文本中包含异常文本时(即文本合法检测结果为异常结果时),业务服务器对该目标音频数据进行异常音频屏蔽处理的具体方法可为:在文本合法检测结果为异常结果时,可获取目标音频数据中第一异常文本所对应的异常子音频数据;随后,可对异常子音频数据进行沉默处理,得到沉默子音频数据;随后,可将沉默子音频数据与剩余子音频数据所组成的音频数据,确定为异常音频屏蔽处理后的目标音频数据;其中,剩余子音频数据为目标音频数据中除沉默子音频数据以外的子音频数据。
也就是说,若该音频转换文本中包含有某一异常文本,则业务服务器可获取该目标音频数据中该异常文本所对应的异常子音频数据,并将该异常子音频数据进行屏蔽处理(如,删除处理、过滤处理、沉默处理、用特定子音频数据代替处理等等。例如,以屏蔽处理为删除处理为例,若目标音频数据对应的音频转换文本为“我不喜欢吃哈密瓜”,而该音频转换文本中的“哈密瓜”为异常文本,则业务服务器可获取目标音频数据中“哈密瓜”所对应的子音频数据,并将该子音频数据进行删除,在删除后,得到的音频数据即为文本内容“我不喜欢吃”所对应的语音。业务服务器可将新的音频数据(即,将目标音频数据中异常文本对应的子音频数据进行删除后得到的音频数据)进行重新编码处理,得到新的编码文件,并将新的编码文件转发至第二客户端,则第二对象通过第二客户端所听到的语音内容不是完整的“我不喜欢吃哈密瓜”,第二对象所听到的是为屏蔽处理后的语音内容“我不喜欢吃”。
而在业务服务器检测到该音频转换文本中未包含异常文本时(即文本合法检测结果为合法结果时),业务服务器对该目标音频数据进行异常音频屏蔽处理的具体方法可为:在文本合法检测结果为合法结果时,可确定目标音频数据为合法音频数据,可将目标音频数据进行重新编码,得到新编码文件;将新编码文件发送至第二对象对应的第二客户端,以使第二客户端对新编码文件进行解码处理,得到目标音频数据。也就是说,在业务服务器检测到该音频转换文本中未包含任一异常文本时,业务服务器可不对目标音频数据进行任何屏蔽处理,可直接对该目标音频数据进行重新编码处理,并将重新编码处理后得到的新编码文件转发至第二客户端,而第二对象通过该第二客户端所听到的音频即为该目标音频数据的完整的语音内容。
可选的,可以理解的是,在业务服务器检测到该音频转换文本中包含有异常文本时,业务服务器也可以选择不转发该目标音频数据至第二客户端。也就是说,第二客户端不会接收到该目标音频数据对应的任何编码文件,从而可以使得第二对象不会接收到异常音频数据的同时,减少业务服务器的编码次数,环节业务服务器的压力,也可以节约业务服务器与第二客户端之间的数据传输流量。
可选的,可以理解的是,在业务服务器检测到该音频转换文本中包含有异常文本时,业务服务器也可以选择不转发该目标音频数据至第二客户端,同时,该业务服务器可生成一个屏蔽提示信息发送至第二客户端,该屏蔽提示信息可用于提示第一对象提供的目标音频数据为异常音频数据,系统已将之进行屏蔽,那么第二对象虽然不能听到该目标音频数据,但可基于该屏蔽提示信息,确定第一对象发生了异常行为。
可选的,可以理解的是,业务服务器在检测到该音频转换文本中包含有异常文本时,可将提供该目标音频数据的第一对象添加至黑名单(即添加至异常对象集合)中,并生成异常提示信息发送至第一客户单,以提示该目标音频数据为不合法的音频数据,该第一对象已被列为异常对象。具体方法可为:在文本合法检测结果为异常结果时,获取第一对象的对象标识,将第一对象的对象标识添加至异常对象集合,得到更新异常对象集合;根据音频转换文本中包含的第一异常文本,以及更新异常对象集合生成异常提示信息,将异常提示信息发送至第一客户端;异常提示信息用于提示音频转换文本中包括第一异常文本,且用于提示第一对象为异常对象。
可选的,可以理解的是,被添加至黑名单(即异常对象集合)中的对象,业务服务器均需要对其进行语音的文本全文检测。即,对于被添加至黑名单的对象,可为其设置一个考察时间段,在此考察时间段内,若客户端对其语音数据进行语音检测后,确认该语音数据为合法语音数据,客户端所发送至业务服务器的编码文件并未包含异常标记;但因为该对象是出于黑名单中的对象,则即使该编码文件中并未包含异常标记,该业务服务器依然要对该编码文件进行解码、语音识别、文本检测、重新编码处理。当该对象在考察时间段内所提供的语音数据均为合法语音数据(客户端通过语音检测为合法,且业务服务器经文本检测也为合法)后,或对象在考察时间段内出现异常语音数据的次数(客户端通过语音检测为异常,或业务服务器经文本检测为异常)少于某个阈值(如1次)后,业务服务器可将该对象从异常对象集合中进行删除,也就是说,将该对象的身份恢复为正常对象。在后续业务服务器的语音处理流程中,可按照客户端是否添加异常标记来确定是否对该对象的语音数据进行文本检测。
以第一对象被添加至异常对象集合为例,业务服务器可在考察时间段内对第一对象的语音数据进行考察(不管编码文件中是否含有异常标记,业务服务器均会对其进行解码、语音识别、文本检测、重新编码),其具体方法可为:在对象考察时间段内,接收属于异常对象的第一客户端发送的考察编码文件;考察编码文件为第一客户端对考察音频数据进行音频检测,且检测出考察音频数据为合法音频数据后,对考察音频数据进行编码处理后得到的文件;考察音频数据由第一对象所提供;对考察音频数据进行音频识别,得到考察音频数据对应的考察音频转换文本;对考察音频转换文本进行文本检测;若考察音频转换文本中不存在第二异常文本,则将第一对象标记为合法通信对象;若考察音频转换文本中存在第二异常文本,则获取第一对象在对象考察时间段内的异常通信记录频率,将异常通信记录频率进行递增,得到递增记录频率,根据递增记录频率对第一对象进行异常处理。
其中,对于根据递增记录频率对第一对象进行异常处理的具体方法可为:若递增记录频率大于或等于频率阈值,则获取第一对象对应的账户信息,关闭第一对象对应的账户信息的音频通信功能;若递增记录频率小于频率阈值,则将第一对象的对象标识从更新异常对象集合中进行删除。
应当理解,若第一对象在考察时间段内,持续出现语音异常行为(即发表带有异常文本的言论),当该语音异常行为的行为发生次数满足某一阈值时,可将该第一对象进行禁言处理(即,该第一对象无法通过语音与其他对象进行语音互动);而若第一对象在考察时间段内,出现语音异常行为的次数小于该阈值,则可将该第一对象从异常对象集合中进行删除,将该第一对象恢复为正常对象。
可选的,可以理解的是,为保证数据的安全性与真实性,可使用区块链技术存储第一对象在对象考察时间段内发生语音异常行为的次数(即异常通信记录频率),每检测出第一对象发生了语音异常行为,则业务服务器可在区块链中获取第一对象的异常通信记录频率,并对该异常通信记录频率进行递增;随后,在递增得到递增记录频率后,可将该递增记录频率也存储至区块链中。为便于理解,以下将对区块链技术进行适当阐述:
区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式,主要用于对数据按时间顺序进行整理,并加密成账本,使其不可被篡改和伪造,同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库,该数据库中的每个节点均存储一条相同的区块链,区块链网络将节点区分为核心节点、数据节点以及轻节点,其中核心节点负责区块链全网的共识,也就是说核心节点为区块链网络中的共识节点。对于区块链网络中的共识节点进入共识业务流程的过程可以为,客户端发送交易数据至数据节点或轻节点,随后该交易数据以接力棒的方式在区块链网络中的数据节点或轻节点之间传递,直到共识节点收到该交易数据,共识节点再将该交易数据打包进区块,与其他共识节点之间进行共识。
任一核心节点在接收到由数据节点或轻节点发送的交易数据后,可以将该交易数据存储至内存池(如交易池)中,并更新其用于记录输入数据的哈希树;之后,将更新时间戳更新为接收到该交易数据的时间,并尝试不同的随机数进行特征值计算,当得到特征值时,即可确定该得到特征值的核心节点抢夺到了针对该交易数据的出块权限,该核心节点可将该交易数据对应存储,生成区块头和区块主体,得到新生成的区块;随后,核心节点可以根据区块链网络中其他核心节点(即共识节点)的节点标识,将上述新生成的区块分别发送给其所在的区块链网络中的其他核心节点,由其他核心节点对新生成的区块进行校验(即进行共识),并在完成校验后将上述新生成的区块添加至其存储的区块链中。其中,区块链网络中的每个核心节点,均具有与其对应的节点标识,而且区块链网络中的每个核心节点均可以存储有区块链网络中其他核心节点的节点标识,以便后续根据其他核心节点的节点标识,将生成的区块广播至区块链网络中的其他核心节点,使得区块链网络中全部核心节点上存储的交易数据均一致。
由于区块链的防伪造性、不可篡改性,可以保证该第一用户的违规通信记录频率是真实可靠的。
在本申请实施例中,客户端在获取到对象提供的目标音频数据后,可以先对目标音频数据进行音频检测,在检测出目标音频数据为异常音频数据后,可在将该目标音频数据编码处理得到音频编码文件后,对该音频编码文件进行标记,使得该音频编码文件可包含有异常标记;而该异常标记可用于提示业务服务器该目标音频数据为异常音频数据,由此,当业务服务器接收到包含有异常标记的标记编码文件后,可基于该异常标记对该标记编码文件进行解码处理得到该目标音频数据,对该目标音频数据进行音频识别得到音频转换文本;业务服务器可自动对该音频转换文本进行文本合法检测,基于文本合法检测结果对该目标音频数据进行异常音频屏蔽处理。应当理解,本申请通过客户端提前对音频数据进行音频检测并对异常音频数据进行标记的方式,可以使得业务服务器通过异常标记确定哪些音频数据为异常音频数据,在编码文件含有异常标记时,业务服务器会自动将这些编码文件进行解码、音频识别转换为文本、文件合法检测、重新编码处理,无需人工参与,可以减少人力与时间成本,与此同时,由于业务服务器无需对接收到的每一个编码文件均进行解码、文本转换、文本合法检测以及重新编码,可以大大节约业务服务器的资源,缓解业务服务器的压力;同时,因为只有在编码文件含有异常标记时,业务服务器才会对该编码文件进行文本合法检测,若编码文件未含有异常标记,则业务服务器会将其直接进行转发,可见,由客户端提前对音频数据进行音频检测的方式,可以使得业务服务器无需对已合法的音频数据进行无意义的检测,可以节约音频检测时间,提高音频检测效率。综上,本申请可以在音频检测中,节约服务器资源,缓解服务器压力,减少检测成本,提高音频检测效率。
为便于理解系统整体流程,请一并参见图5,图5是本申请实施例提供的一种系统流程示意图。如图5所述,该流程可以包括以下步骤501-步骤507:
步骤501,客户端采集语音数据。
步骤502,客户端对语音数据进行语音关键词唤醒处理。
具体的,语音关键词唤醒处理(KWS)即为本申请中的音频检测处理,通过对语音数据进行语音关键词唤醒处理,可以检测该语音数据中是否为异常语音。对于客户端对语音数据进行语音关键词唤醒处理的具体实现方式,可以参见上述图3所对应实施例中,第一客户端对目标音频数据进行音频检测的描述,这里将不再进行赘述。
步骤503,客户端对语音数据进行编码转码。
具体的,客户端在对语音数据进行语音关键词唤醒处理后,可对语音数据进行编码转码处理。应当理解,在对语音数据进行编码处理得到编码文件后,若客户端检测出该语音数据为合法语音数据,则该客户端可直接将该编码文件上传至业务服务器;而若客户端检测出该语音数据为异常语音数据,则客户端可对该编码文件进行标记,得到标记编码文件,客户端可将该标记编码文件发送至业务服务器。
其中,对于客户端对编码文件进行标记得到标记编码文件的具体实现方式,可以参见上述图3所对应实施例中对于第一客户端对音频编码文件进行标记的描述,这里将不再进行赘述。
应当理解,以上步骤501-步骤503为客户端侧所执行的步骤,以下步骤5040-步骤507为业务服务器侧执行。
步骤504,业务服务器确定所接收到的编码文件中是否包含异常标记。
具体的,对于接收到的编码文件,业务服务器可先查看该编码文件中是否包含有异常标记。若该编码文件中包含有异常标记,则业务服务器可执行步骤506;而若该编码文件中未包含有异常标记,则业务服务器可执行步骤505。
步骤505,业务服务器向其他客户端发送编码文件。
具体的,这里的其他客户端可是指与第一客户单存在语音互动行为的客户端。
步骤506,业务服务器对语音数据进行语音文本检测。
具体的,若编码文件中包含有异常标记,则业务服务器需要对该编码文件进行解码处理,获取到语音数据;随后,业务服务器可将该语音数据进行语音文本检测:即,将语音数据进行语音识别,得到转换文本;对转换文本进行文本检测,以检测该转换文本中是否包含异常文本。应当理解,若该转换文本中包含有异常文本,则业务服务器可对该语音数据进行异常音频屏蔽处理,得到处理后的合法的语音数据;而若该转换文本中未包含有异常文本,则业务服务器可不对语音数据进行异常音频屏蔽处理。
步骤507,业务服务器进行重新编码处理。
具体的,若该转换文本中包含有异常文本,则业务服务器可对该语音数据进行异常音频屏蔽处理,得到处理后的合法的语音数据,随后,业务服务器可将该合法的语音数据进行重新编码,得到新的编码文件;而若该转换文本中未包含有异常文本,则业务服务器可不对语音数据进行异常音频屏蔽处理,业务服务器可将该原始的语音数据进行再次编码,得到新的编码文件。应当理解,业务服务器可将新的编码文件发送至其他客户端。
在本申请实施例中,客户端在获取到对象提供的目标音频数据后,可以先对目标音频数据进行音频检测,在检测出目标音频数据为异常音频数据后,可在将该目标音频数据编码处理得到音频编码文件后,对该音频编码文件进行标记,使得该音频编码文件可包含有异常标记;而该异常标记可用于提示业务服务器该目标音频数据为异常音频数据,由此,当业务服务器接收到包含有异常标记的标记编码文件后,可基于该异常标记对该标记编码文件进行解码处理得到该目标音频数据,对该目标音频数据进行音频识别得到音频转换文本;业务服务器可自动对该音频转换文本进行文本合法检测,基于文本合法检测结果对该目标音频数据进行异常音频屏蔽处理。应当理解,本申请通过客户端提前对音频数据进行音频检测并对异常音频数据进行标记的方式,可以使得业务服务器通过异常标记确定哪些音频数据为异常音频数据,在编码文件含有异常标记时,业务服务器会自动将这些编码文件进行解码、音频识别转换为文本、文件合法检测、重新编码处理,无需人工参与,可以减少人力与时间成本,与此同时,由于业务服务器无需对接收到的每一个编码文件均进行解码、文本转换、文本合法检测以及重新编码,可以大大节约业务服务器的资源,缓解业务服务器的压力;同时,因为只有在编码文件含有异常标记时,业务服务器才会对该编码文件进行文本合法检测,若编码文件未含有异常标记,则业务服务器会将其直接进行转发,可见,由客户端提前对音频数据进行音频检测的方式,可以使得业务服务器无需对已合法的音频数据进行无意义的检测,可以节约音频检测时间,提高音频检测效率。综上,本申请可以在音频检测中,节约服务器资源,缓解服务器压力,减少检测成本,提高音频检测效率。
可选的,在一种可行的实施例中,终端设备可实时检测网络质量参数,并根据网络质量参数向业务服务器发送数据(如发送目标音频数据对应的编码文件)。例如,终端设备A在获取到对象a对应的目标音频数据(如,音频数据“你真是个笨蛋”)时,终端设备A在经过音频检测后,确定该目标音频数据“你真是个笨蛋”中的子音频数据“笨蛋”为异常音频。此时,终端设备A在对网络质量参数进行检测后,发现网络质量参数较差(即,很有可能会出现存在网络卡顿、网络延迟的情况),此时,终端设备A可将子音频数据“笨蛋”提取出来,并将该子音频数据“笨蛋”单独进行编码,得到子音频数据“笨蛋”对应的特殊编码文件。终端设备A可将该特殊编码文件进行异常标记并进行音频提取标记,随后,终端设备A可将携带有异常标记与音频提取标记的特殊编码文件发送至业务服务器。
应当理解,通过对目标音频数据进行提取得到异常子音频数据,可以使得终端设备在网络质量参数较差时,只传输异常子音频数据对应的特殊编码文件至业务服务器,因为该异常子音频数据是目标音频数据的部分音频,那么该异常子音频数据对应的数据传输量也会比目标音频数据小。那么相比于数据量较大的目标音频数据,数据传输量较小的异常子音频数据在网络质量参数较差时也可以更快的被传输至业务服务器,可以减小数据传输时间。
应当理解,该异常标记可用于提示业务服务器该特殊编码文件对应的音频数据为异常音频,该音频提取标记可用于提示业务服务器该特殊编码文件对应的音频数据为非完整的音频数据,是部分音频数据。业务服务器可基于异常标记对该特殊编码文件进行解码,在得到异常子音频数据后,对该异常子音频数据进行文本转换,并进行文本全文检测;同时,业务服务器也可基于该音频提取标记,等待终端设备所发送的完整的目标音频数据(或目标音频数据中除异常子音频数据以外的剩余子音频数据)。在终端设备发送异常子音频数据后,在业务服务器进行文本检测的过程中,终端设备可同步将目标音频数据(或目标音频数据中除异常子音频数据中的剩余子音频数据)发送至业务服务器,业务服务器可基于文本检测结果,对接收到的目标音频数据进行后续处理(如在文本检测结果为合法结果时,直接转发目标音频数据至终端设备B;或在文本检测结果为异常结果时,对异常子音频数据进行屏蔽处理,并将屏蔽处理后的音频数据发送至终端设备B)。
可选的,可以理解的是,业务服务器也可以定时向终端设备发送网络质量参数。终端设备也可以基于业务服务器的网络质量参数来确定向业务服务器发送数据的方式。如,在业务服务器的网络质量较差时,优先向业务服务器发送异常子音频数据,随后再继续发送目标音频数据。
应当理解,通过对网络质量参数进行实时检测,并基于网络质量参数发送音频数据(如,先发送异常子音频数据)的方式,可以使得在终端设备的网络质量参数较差的情况下,减小数据传输时间,业务服务器依然可以及时接收到终端设备发送的异常子音频数据;并在对异常子音频数据进行文本检测时,终端设备可同步发送目标音频数据(或目标音频数据中除异常子音频数据中的剩余子音频数据),由此可以减少业务服务器在文本检测完成后,等待终端设备发送目标音频数据的时间,从而可以在网络质量较差时,提高终端设备、业务服务器进行音频检测的整体效率。
进一步地,请参见图6,图6是本申请实施例提供的一种音频数据检测装置的结构示意图。如图6所示,该音频数据检测装置1可以包括:音频检测模块600、文件标记模块601以及文件发送模块602。
音频检测模块600,用于获取第一对象提供的目标音频数据,以及目标音频数据的关键音频特征;
音频检测模块600,还用于根据关键音频特征对目标音频数据进行音频检测;
文件标记模块601,用于若检测出目标音频数据为异常音频数据,则将目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件;音频编码文件为第一对象对应的第一客户端对目标音频数据进行编码处理后得到的文件;
文件发送模块602,用于将标记编码文件发送至业务服务器,以使业务服务器基于标记编码文件中的异常标记获取音频转换文本,根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理;音频转换文本是由业务服务器基于异常标记,对标记编码文件进行解码处理得到目标音频数据后,对目标音频数据进行音频识别所得到。
其中,音频检测模块600、文件标记模块601以及文件发送模块602的具体实现方式,可以参见上述图3所对应实施例中步骤S101-步骤S103的描述,这里将不再进行赘述。
可以理解的是,本申请实施例中的音频数据检测装置1可执行前文图3所对应实施例中对音频数据检测方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图7,图7是本申请实施例提供的另一种音频数据检测装置的结构示意图。如图7所示,该音频数据检测装置2可以包括:音频检测模块21、文件标记模块22以及文件发送模块23;进一步地,该音频数据检测装置2还可以包括相似度确定模块24、特征检测模块25、信息接收模块26以及信息展示模块27。
其中,音频检测模块21、文件标记模块22以及文件发送模块23的具体实现方式,分别与图6中的音频检测模块600、文件标记模块601以及文件发送模块602一致,这里将不再进行赘述。
请参见图7,音频检测模块21可以包括:特征匹配单元211与音频检测单元212。
特征匹配单元211,用于获取音频检测规则库;音频检测规则库中包括异常关键词对应的配置音频特征;
特征匹配单元211,还用于将关键音频特征与音频检测规则库中的配置音频特征进行匹配;
音频检测单元212,用于若关键音频特征中存在与配置音频特征相匹配的目标音频特征,则将目标音频数据确定为异常音频数据;
音频检测单元212,还用于若关键音频特征中不存在与配置音频特征相匹配的目标音频特征,则将目标音频数据确定为合法音频数据。
在一个实施例中,关键音频特征的数量为至少两个,至少两个关键音频特征包括关键音频特征ki;i为正整数;
可选的,相似度确定模块24,用于确定关键音频特征ki与配置音频特征之间的特征相似度mi
特征检测模块25,用于若特征相似度大于或等于相似度阈值,则将关键音频特征ki确定为与配置音频特征相匹配的目标音频特征;
特征检测模块25,还用于若至少两个关键音频特征中,每个关键音频特征与配置音频特征之间的特征相似度均小于相似度阈值,则确定至少两个关键音频特征中不存在与配置音频特征相匹配的目标音频特征。
请参见图7,相似度确定模块24可以包括:向量获取单元241与相似度确定单元242。
向量获取单元241,用于获取关键音频特征ki对应的第一特征向量,以及配置音频特征对应的第二特征向量;
相似度确定单元242,用于获取第一特征向量与第二特征向量之间的向量角度值,获取向量角度值对应的余弦值;
相似度确定单元242,还用于将余弦值确定为关键音频特征ki与配置音频特征之间的特征相似度mi
请参见图7,文件标记模块22可以包括:描述信息获取单元221、异常标记确定单元222以及标记添加单元223。
描述信息获取单元221,用于获取目标音频数据对应的音频编码文件,以及音频编码文件对应的文件编码描述信息;
异常标记确定单元222,用于获取异常音频数据对应的异常编码描述信息,将异常编码描述信息确定为异常标记;
标记添加单元223,用于将异常标记添加至文件编码描述信息中,得到目标编码描述信息,将包含目标编码描述信息的音频编码文件确定为标记编码文件。
可选的,信息接收模块26,用于接收业务服务器发送的异常提示信息;异常提示信息用于提示音频转换文本中包括异常文本,且用于提示第一对象为异常对象;
信息展示模块27,用于基于异常提示信息,生成异常警告信息,向第一对象展示异常警告信息。
其中,音频检测模块21、文件标记模块22以及文件发送模块23的具体实现方式可以参见图3所对应实施例中对步骤S101-步骤S103的描述,这里将不再继续进行赘述。其中,相似度确定模块24、特征检测模块25的具体实现方式可以参见图3所对应实施例中对步骤S101中的描述,这里将不再继续进行赘述。其中,信息接收模块26以及信息展示模块27的具体实现方式可以参见图3所对应实施例中对步骤S103中的描述,这里将不再继续进行赘述。
可以理解的是,本申请实施例中的音频数据检测装置2可执行前文图3所对应实施例中对音频数据检测方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图8,图8是本申请实施例提供的另一种音频数据检测装置的结构示意图。如图8所示,该音频数据检测装置3可以包括:文件接收模块3000、解码模块3001、音频识别模块3002以及音频屏蔽模块3003。
文件接收模块3000,用于接收第一客户端发送的标记编码文件;标记编码文件包含由第一客户端对音频编码文件进行标记后得到的异常标记;异常标记用于表征音频编码文件对应的目标音频数据为异常音频数据;音频编码文件为第一客户端对目标音频数据进行编码处理后得到的文件;目标音频数据由第一对象所提供;
解码模块3001,用于基于标记编码文件中的异常标记,对标记编码文件进行解码处理,得到目标音频数据;
音频识别模块3002,用于对目标音频数据进行音频识别,得到目标音频数据对应的音频转换文本;
音频屏蔽模块3003,用于根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理。
其中,文件接收模块3000、解码模块3001、音频识别模块3002以及音频屏蔽模块3003的具体实现方式,可以参见上述图4所对应实施例中步骤S201-步骤S204的描述,这里将不再进行赘述。
可以理解的是,本申请实施例中的音频数据检测装置3可执行前文图4所对应实施例中对音频数据检测方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图9,图9是本申请实施例提供的另一种音频数据检测装置的结构示意图。如图9所示,该音频数据检测装置4可以包括:文件接收模块41、解码模块42、音频识别模块43以及音频屏蔽模块44;进一步地,该音频数据检测装置4还可以包括文本匹配模块45、结果确定模块46、标识添加模块47、信息生成模块48、考察文件接收模块49、考察文件检测模块50、对象标记模块51、对象异常处理模块52。
其中,文件接收模块41、解码模块42、音频识别模块43以及音频屏蔽模块44的具体实现方式,分别与图8中的文件接收模块3000、解码模块3001、音频识别模块3002以及音频屏蔽模块3003一致,这里将不再进行赘述。
在一个实施例中,文本合法检测结果包括合法结果与异常结果;
可选的,文本匹配模块45,用于获取文本检测规则库;文本检测规则库中包括配置异常文本;
文本匹配模块45,还用于将音频转换文本与文本检测规则库中的配置异常文本进行匹配;
结果确定模块46,用于若音频转换文本中存在与配置异常文本相同的文本,则确定音频转换文本中存在第一异常文本,将文本合法检测结果确定为异常结果;
结果确定模块46,还用于若音频转换文本中不存在与配置异常文本相同的文本,则确定音频转换文本中不存在第一异常文本,将文本合法检测结果确定为合法结果。
请参见图9,音频屏蔽模块44可以包括:子数据获取单元441、沉默处理单元442以及音频确定单元443。
子数据获取单元441,用于在文本合法检测结果为异常结果时,获取目标音频数据中第一异常文本所对应的异常子音频数据;
沉默处理单元442,用于对异常子音频数据进行沉默处理,得到沉默子音频数据;
音频确定单元443,用于将沉默子音频数据与剩余子音频数据所组成的音频数据,确定为异常音频屏蔽处理后的目标音频数据;剩余子音频数据为目标音频数据中除沉默子音频数据以外的子音频数据。
可选的,标识添加模块47,用于在文本合法检测结果为异常结果时,获取第一对象的对象标识,将第一对象的对象标识添加至异常对象集合,得到更新异常对象集合;
信息生成模块48,用于根据音频转换文本中包含的第一异常文本,以及更新异常对象集合生成异常提示信息,将异常提示信息发送至第一客户端;异常提示信息用于提示音频转换文本中包括第一异常文本,且用于提示第一对象为异常对象。
可选的,考察文件接收模块49,用于在对象考察时间段内,接收属于异常对象的第一客户端发送的考察编码文件;考察编码文件为第一客户端对考察音频数据进行音频检测,且检测出考察音频数据为合法音频数据后,对考察音频数据进行编码处理后得到的文件;考察音频数据由第一对象所提供;
考察文件检测模块50,用于对考察音频数据进行音频识别,得到考察音频数据对应的考察音频转换文本;
考察文件检测模块50,还用于对考察音频转换文本进行文本检测;
对象标记模块51,用于若考察音频转换文本中不存在第二异常文本,则将第一对象标记为合法通信对象;
对象异常处理模块52,用于若考察音频转换文本中存在第二异常文本,则获取第一对象在对象考察时间段内的异常通信记录频率,将异常通信记录频率进行递增,得到递增记录频率;
对象异常处理模块52,还用于根据递增记录频率对第一对象进行异常处理。
请参见图9,对象异常处理模块52可以包括:功能关闭单元521与标识删除单元522。
功能关闭单元521,用于若递增记录频率大于或等于频率阈值,则获取第一对象对应的账户信息,关闭第一对象对应的账户信息的音频通信功能;
标识删除单元522,用于若递增记录频率小于频率阈值,则将第一对象的对象标识从更新异常对象集合中进行删除。
其中,文件接收模块41、解码模块42、音频识别模块43以及音频屏蔽模块44的具体实现方式可以参见图4所对应实施例中对步骤S201-步骤S204的描述,这里将不再继续进行赘述。其中,文本匹配模块45、结果确定模块46的具体实现方式可以参见图4所对应实施例中对步骤S204中的描述,这里将不再继续进行赘述。其中,标识添加模块47、信息生成模块48的具体实现方式可以参见图4所对应实施例中步骤S204中的描述,这里将不再继续进行赘述。其中,考察文件接收模块49、考察文件检测模块50、对象标记模块51、对象异常处理模块52的具体实现方式可以参见图4所对应实施例中步骤S204中的描述,这里将不再继续进行赘述。
可以理解的是,本申请实施例中的音频数据检测装置4可执行前文图4所对应实施例中对音频数据检测方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备4000可以为服务器,例如,图1所对应实施例中的业务服务器1000;该计算机设备还可以为终端设备,例如,图1所对应实施例中的终端设备集群中的任一终端设备。该计算机设备4000可以包括:处理器4001,网络接口4004和存储器4005,此外,该计算机设备4000还可以包括:用户接口4003,和至少一个通信总线4002。其中,通信总线4002用于实现这些组件之间的连接通信。其中,用户接口4003还可以包括标准的有线接口、无线接口。网络接口4004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器4004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器4005可选的还可以是至少一个位于远离前述处理器4001的存储装置。如图10所示,作为一种计算机存储介质的存储器4005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第一对象提供的目标音频数据,以及目标音频数据的关键音频特征,根据关键音频特征对目标音频数据进行音频检测;
若检测出目标音频数据为异常音频数据,则将目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件;音频编码文件为第一对象对应的第一客户端对目标音频数据进行编码处理后得到的文件;
将标记编码文件发送至业务服务器,以使业务服务器基于标记编码文件中的异常标记获取音频转换文本,根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理;音频转换文本是由业务服务器基于异常标记,对标记编码文件进行解码处理得到目标音频数据后,对目标音频数据进行音频识别所得到。
或实现:
接收第一客户端发送的标记编码文件;标记编码文件包含由第一客户端对音频编码文件进行标记后得到的异常标记;异常标记用于表征音频编码文件对应的目标音频数据为异常音频数据;音频编码文件为第一客户端对目标音频数据进行编码处理后得到的文件;目标音频数据由第一对象所提供;
基于标记编码文件中的异常标记,对标记编码文件进行解码处理,得到目标音频数据;
对目标音频数据进行音频识别,得到目标音频数据对应的音频转换文本;
根据音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理。
应当理解,本申请实施例中所描述的计算机设备4000可执行前文图3或图4所对应实施例中对该音频数据检测方法的描述,也可执行前文图6所对应实施例中对该音频数据检测装置1、图7所对应实施例中对该音频数据检测装置2、图8所对应实施例中对该音频数据检测装置3、图9所对应实施例中对该音频数据检测装置4的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的音频数据检测的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图3或图4所对应实施例中对上述音频数据检测方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的音频数据检测装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程音频数据检测设备的处理器以产生一个机器,使得通过计算机或其他可编程音频数据检测设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程音频数据检测设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程音频数据检测设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种音频数据检测方法,其特征在于,包括:
获取第一对象提供的目标音频数据,以及所述目标音频数据的关键音频特征,根据所述关键音频特征对所述目标音频数据进行音频检测;
若检测出所述目标音频数据为异常音频数据,则将所述目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件;所述音频编码文件为所述第一对象对应的第一客户端对所述目标音频数据进行编码处理后得到的文件;
将所述标记编码文件发送至业务服务器,以使所述业务服务器基于所述标记编码文件中的所述异常标记获取音频转换文本,根据所述音频转换文本的文本合法检测结果对所述目标音频数据进行异常音频屏蔽处理;所述音频转换文本是由所述业务服务器基于所述异常标记,对所述标记编码文件进行解码处理得到所述目标音频数据后,对所述目标音频数据进行音频识别所得到。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键音频特征对所述目标音频数据进行音频检测,包括:
获取音频检测规则库;所述音频检测规则库中包括异常关键词对应的配置音频特征;
将所述关键音频特征与所述音频检测规则库中的所述配置音频特征进行匹配;
若所述关键音频特征中存在与所述配置音频特征相匹配的目标音频特征,则将所述目标音频数据确定为异常音频数据;
若所述关键音频特征中不存在与所述配置音频特征相匹配的目标音频特征,则将所述目标音频数据确定为合法音频数据。
3.根据权利要求2所述的方法,其特征在于,所述关键音频特征的数量为至少两个,至少两个关键音频特征包括关键音频特征ki;i为正整数;
所述方法还包括:
确定所述关键音频特征ki与所述配置音频特征之间的特征相似度mi
若所述特征相似度大于或等于相似度阈值,则将所述关键音频特征ki确定为与所述配置音频特征相匹配的目标音频特征;
若所述至少两个关键音频特征中,每个关键音频特征与所述配置音频特征之间的特征相似度均小于所述相似度阈值,则确定所述至少两个关键音频特征中不存在与所述配置音频特征相匹配的目标音频特征。
4.根据权利要求3所述的方法,其特征在于,所述确定所述关键音频特征ki与所述配置音频特征之间的特征相似度mi,包括:
获取所述关键音频特征ki对应的第一特征向量,以及所述配置音频特征对应的第二特征向量;
获取所述第一特征向量与所述第二特征向量之间的向量角度值,获取所述向量角度值对应的余弦值;
将所述余弦值确定为所述关键音频特征ki与所述配置音频特征之间的特征相似度mi
5.根据权利要求1所述的方法,其特征在于,所述将所述目标音频数据对应的音频编码文件进行标记,得到包含异常标记的标记编码文件,包括:
获取所述目标音频数据对应的所述音频编码文件,以及所述音频编码文件对应的文件编码描述信息;
获取所述违规音频数据对应的异常编码描述信息,将所述异常编码描述信息确定为所述违规标记;
将所述违规标记添加至所述文件编码描述信息中,得到目标编码描述信息,将包含所述目标编码描述信息的音频编码文件确定为所述标记编码文件。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述业务服务器发送的异常提示信息;所述异常提示信息用于提示所述音频转换文本中包括异常文本,且用于提示所述第一对象为异常对象;
基于所述异常提示信息,生成异常警告信息,向所述第一对象展示所述异常警告信息。
7.一种音频数据检测方法,其特征在于,包括:
接收第一客户端发送的标记编码文件;所述标记编码文件包含由所述第一客户端对音频编码文件进行标记后得到的异常标记;所述异常标记用于表征所述音频编码文件对应的目标音频数据为异常音频数据;所述音频编码文件为所述第一客户端对所述目标音频数据进行编码处理后得到的文件;所述目标音频数据由第一对象所提供;
基于所述标记编码文件中的所述异常标记,对所述标记编码文件进行解码处理,得到目标音频数据;
对所述目标音频数据进行音频识别,得到所述目标音频数据对应的音频转换文本;
根据所述音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理。
8.根据权利要求7所述的方法,其特征在于,所述文本合法检测结果包括合法结果与异常结果;
所述方法还包括:
获取文本检测规则库;所述文本检测规则库中包括配置异常文本;
将所述音频转换文本与所述文本检测规则库中的所述配置异常文本进行匹配;
若所述音频转换文本中存在与所述配置异常文本相同的文本,则确定所述音频转换文本中存在第一异常文本,将所述文本合法检测结果确定为所述异常结果;
若所述音频转换文本中不存在与所述配置异常文本相同的文本,则确定所述音频转换文本中不存在所述第一异常文本,将所述文本合法检测结果确定为所述合法结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理,包括:
在所述文本合法检测结果为所述异常结果时,获取所述目标音频数据中所述第一异常文本所对应的异常子音频数据;
对所述异常子音频数据进行沉默处理,得到沉默子音频数据;
将所述沉默子音频数据与剩余子音频数据所组成的音频数据,确定为异常音频屏蔽处理后的目标音频数据;所述剩余子音频数据为所述目标音频数据中除所述沉默子音频数据以外的子音频数据。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在所述文本合法检测结果为所述异常结果时,获取所述第一对象的对象标识,将所述第一对象的对象标识添加至异常对象集合,得到更新异常对象集合;
根据所述音频转换文本中包含的所述第一异常文本,以及所述更新异常对象集合生成异常提示信息,将所述异常提示信息发送至所述第一客户端;所述异常提示信息用于提示所述音频转换文本中包括所述第一异常文本,且用于提示所述第一对象为异常对象。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
在对象考察时间段内,接收属于所述异常对象的所述第一客户端发送的考察编码文件;所述考察编码文件为所述第一客户端对考察音频数据进行音频检测,且检测出所述考察音频数据为合法音频数据后,对所述考察音频数据进行编码处理后得到的文件;所述考察音频数据由所述第一对象所提供;
对所述考察音频数据进行音频识别,得到所述考察音频数据对应的考察音频转换文本;
对所述考察音频转换文本进行文本检测;
若所述考察音频转换文本中不存在第二异常文本,则将所述第一对象标记为合法通信对象;
若所述考察音频转换文本中存在所述第二异常文本,则获取所述第一对象在所述对象考察时间段内的异常通信记录频率,将所述异常通信记录频率进行递增,得到递增记录频率,根据所述递增记录频率对所述第一对象进行异常处理。
12.根据权利要求11所述的方法,其特征在于,所述根据所述递增记录频率对所述第一对象进行异常处理,包括:
若所述递增记录频率大于或等于频率阈值,则获取所述第一对象对应的账户信息,关闭所述第一对象对应的账户信息的音频通信功能;
若所述递增记录频率小于所述频率阈值,则将所述第一对象的对象标识从所述更新异常对象集合中进行删除。
13.根据权利要求8所述的方法,其特征在于,所述根据所述音频转换文本的文本合法检测结果对目标音频数据进行异常音频屏蔽处理,包括:
在所述文本合法检测结果为所述合法结果时,确定所述目标音频数据为合法音频数据,将所述目标音频数据进行重新编码,得到新编码文件;
将所述新编码文件发送至第二对象对应的第二客户端,以使所述第二客户端对所述新编码文件进行解码处理,得到所述目标音频数据。
14.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以使所述计算机设备执行权利要求1-13任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-13任一项所述的方法。
CN202110826900.1A 2021-07-21 2021-07-21 一种音频数据检测方法、装置、设备及可读存储介质 Active CN113571048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110826900.1A CN113571048B (zh) 2021-07-21 2021-07-21 一种音频数据检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110826900.1A CN113571048B (zh) 2021-07-21 2021-07-21 一种音频数据检测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113571048A true CN113571048A (zh) 2021-10-29
CN113571048B CN113571048B (zh) 2023-06-23

Family

ID=78166012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110826900.1A Active CN113571048B (zh) 2021-07-21 2021-07-21 一种音频数据检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113571048B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338089A (zh) * 2021-12-06 2022-04-12 科大讯飞股份有限公司 一种防攻击方法、装置、设备和计算机可读存储介质
CN115309871A (zh) * 2022-10-12 2022-11-08 中用科技有限公司 一种基于人工智能算法的工业大数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294646A (zh) * 2016-08-02 2017-01-04 乐视控股(北京)有限公司 基于音频的数据处理方法和装置
CN106373558A (zh) * 2015-07-24 2017-02-01 科大讯飞股份有限公司 语音识别文本处理方法及系统
CN109817243A (zh) * 2017-11-21 2019-05-28 中国移动通信集团浙江有限公司 一种基于语音识别和能量检测的语音质量检测方法和系统
WO2021004128A1 (zh) * 2019-07-09 2021-01-14 深圳壹账通智能科技有限公司 语音质检的方法、装置、计算机设备和存储介质
JP2021022311A (ja) * 2019-07-30 2021-02-18 株式会社リコー 異常検知装置、異常検知システムおよびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373558A (zh) * 2015-07-24 2017-02-01 科大讯飞股份有限公司 语音识别文本处理方法及系统
CN106294646A (zh) * 2016-08-02 2017-01-04 乐视控股(北京)有限公司 基于音频的数据处理方法和装置
CN109817243A (zh) * 2017-11-21 2019-05-28 中国移动通信集团浙江有限公司 一种基于语音识别和能量检测的语音质量检测方法和系统
WO2021004128A1 (zh) * 2019-07-09 2021-01-14 深圳壹账通智能科技有限公司 语音质检的方法、装置、计算机设备和存储介质
JP2021022311A (ja) * 2019-07-30 2021-02-18 株式会社リコー 異常検知装置、異常検知システムおよびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关浩华;: "基于语音分析的智能质检关键词提取方法设计", 自动化与仪器仪表, no. 07 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338089A (zh) * 2021-12-06 2022-04-12 科大讯飞股份有限公司 一种防攻击方法、装置、设备和计算机可读存储介质
CN114338089B (zh) * 2021-12-06 2024-02-13 科大讯飞股份有限公司 一种防攻击方法、装置、设备和计算机可读存储介质
CN115309871A (zh) * 2022-10-12 2022-11-08 中用科技有限公司 一种基于人工智能算法的工业大数据处理方法及系统

Also Published As

Publication number Publication date
CN113571048B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
JP6728456B2 (ja) 複数のメディア処理ノードによる適応処理
CN107395352B (zh) 基于声纹的身份识别方法及装置
US9715873B2 (en) Method for adding realism to synthetic speech
KR102081495B1 (ko) 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
CN113571048B (zh) 一种音频数据检测方法、装置、设备及可读存储介质
CN103430234A (zh) 具有编码信息的语音变换
CN109634554B (zh) 用于输出信息的方法和装置
CN115774762A (zh) 即时通讯信息处理方法、装置、设备及存储介质
KR102269123B1 (ko) 비대면 녹취록 자동 생성 시스템
CN114095883B (zh) 固话终端通信方法、装置、计算机设备和存储介质
JP2003323190A (ja) ホームページシステム
Lu Investigating steganography in audio stream for network forensic investigations: detection & extraction
CN116844534A (zh) 一种语音识别的方法和装置
CN113010764A (zh) 一种舆情监测系统、方法、计算机设备及存储介质
CN113051902A (zh) 语音数据脱敏方法、电子设备及计算机可读存储介质
AU2015264941A1 (en) Adaptive Processing with Multiple Media Processing Nodes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant