CN106782612A - 一种逆向爆音检测方法及其装置 - Google Patents

一种逆向爆音检测方法及其装置 Download PDF

Info

Publication number
CN106782612A
CN106782612A CN201611124797.1A CN201611124797A CN106782612A CN 106782612 A CN106782612 A CN 106782612A CN 201611124797 A CN201611124797 A CN 201611124797A CN 106782612 A CN106782612 A CN 106782612A
Authority
CN
China
Prior art keywords
audio file
file
target
source
domain signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611124797.1A
Other languages
English (en)
Other versions
CN106782612B (zh
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201611124797.1A priority Critical patent/CN106782612B/zh
Publication of CN106782612A publication Critical patent/CN106782612A/zh
Application granted granted Critical
Publication of CN106782612B publication Critical patent/CN106782612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种逆向爆音检测方法及其装置,其中方法包括:确定待检测的目标音频文件存在突变时域信号以及存在突变时域信号的音频位置;查找与目标音频文件的标签信息和时长信息均相同的备选音频文件;根据目标音频文件的频谱能量数字序列和每个备选音频文件的频谱能量数字序列确定同源音频文件;从同源音频文件中确定在音频位置存在突变时域信号的第一同源音频文件;根据第一同源音频文件的数量和除第一同源音频文件之外的第二同源音频文件的数量确定目标音频文件存在的突变时域信号为逆向爆音。本发明实施例能够智能、快速、准确地检测出逆向爆音。

Description

一种逆向爆音检测方法及其装置
技术领域
本发明涉及多媒体处理技术领域,具体涉及一种逆向爆音检测方法及其装置。
背景技术
随着互联网和多媒体技术的发展,互联网为用户提供的多媒体文件的种类和数量越来越多,丰富了人们的娱乐生活。在这些多媒体文件中,音频文件随处可见,如音乐、歌曲、戏曲等曲类音频文件,相声小品、演讲、培训等语言类音频文件等。
上述各类音频文件中,由于音频在生成、处理、传输、存储等步骤的复杂性,有些音频文件可能会出现爆音。爆音,从听感上会产生一个突兀刺耳的爆点。出现爆音的原因有很多,可能是激光唱片(Compact Disk,CD)划伤验证或者音频文件损坏、能量调整时的误操作、或信号突然断开或者被引入其它强干扰。还可能是音频文件本身就存在爆音,音乐作者在创造音乐时将爆音作为一种音频手段。可以将爆音分为正向爆音和逆向爆音,正向爆音即为音乐作者故意在音频文件中添加的爆音,无需修正;逆向爆音即为音频文件在传播过程中产生的爆音,是一种错误,需要修正。
目前,有很多算法用来检测爆音,但是由于爆音可能是正向爆音,也可能是逆向爆音,这些算法能检测出音频文件存在爆音,但是无法准确区分是正向爆音还是逆向爆音,需要人工进行二次确认,以便对存在逆向爆音的音频文件进行修正。对于音频文件数量庞大的平台,人工检测逆向爆音费时、费力、成本高。
发明内容
本发明实施例提供一种逆向爆音检测方法及其装置,能够智能、快速、准确地检测出逆向爆音。
本发明实施例第一方面提供一种逆向爆音检测方法,包括:
确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;
查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;
将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;
从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;
根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
本发明实施例第二方面提供一种逆向爆音检测装置,包括:
突变信号确定单元,用于确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;
备选文件查找单元,用于查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;
频谱序列对比单元,用于将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;
同源文件确定单元,用于从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;
逆向爆音确定单元,用于根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
在本发明实施例中,通过在确定目标音频文件存在突变时域信号以及存在突变时域信号的音频位置后,查找与目标音频文件的标签信息和时长信息均相同的备选音频文件,从备选音频文件中确定同源音频文件,从同源音频文件中确定第一同源音频文件和除第一同源音频文件之外的第二同源音频文件,并根据第一同源音频文件的数量和第二同源音频文件的数量确定目标音频文件存在的突变时域信号为逆向爆音,从而智能、快速、准确地检测出音频文件中的逆向爆音。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为应用本发明实施例的网络架构示意图;
图2为本发明实施例提供的一种逆向爆音检测方法的流程示意图;
图3为本发明实施例提供的确定同源音频文件的流程示意图;
图4为本发明实施例提供的一种逆向爆音检测装置的结构示意图;
图5为图4所示实施例提供的备选文件查找单元的结构示意图;
图6为图4所示实施例提供的同源文件确定单元的结构示意图;
图7为本发明实施例提供的另一种逆向爆音检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
请参见图1,为应用本发明实施例的网络架构示意图,该网络架构示意图包括四种用户终端和服务器,用户终端可以包括但不限于图1所示的智能手机、个人计算机、平板电脑(Pad)和便携式电脑,还可以包括智能可穿戴设备等支持音频文件播放的电子设备。用户终端上可安装、运行音频文件客户端,音频文件客户端通过网络连接至服务器,建立与服务器之间的连接。其中,服务器可以是用户终端上安装、运行的音频文件客户端对应的音频服务器,也可以是若干音频文件客户端对应的音频服务器组成的服务器集群,还可以是云计算服务中心。需要说明的是,图1所示的用户终端和服务器的形态、数量仅用于举例,并不构成对本发明实施例的限定。
结合图1所示的网络架构示意图,本发明实施例提供一种逆向爆音检测方法及其装置,可以应用于检测音频文件是否存在逆向爆音,或区分音频文件中的正向爆音、逆向爆音的场景中,例如,逆向爆音检测装置确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;所述逆向爆音检测装置查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;所述逆向爆音检测装置将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;所述逆向爆音检测装置从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;所述逆向爆音检测装置根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音的场景。本发明实施例在确定存在时域突变信号的目标音频文件后,查找与目标音频文件的同源音频文件,并根据在同一音频位置存在时域突变信号的同源音频文件确定目标音频文件是否存在逆向爆音,无需人工对爆音进行辨认,从而智能、快速、准确地检测出逆向爆音。
需要说明的是,本发明实施例中的逆向爆音检测装置可以为图1所示服务器的一部分或全部,用于对音频文件的逆向爆音或正向爆音进行检测,还可以用于在检测出逆向爆音后对存在逆向爆音的音频文件进行修正。
本发明实施例中的音频文件可以为音乐、歌曲、戏曲等曲类音频文件,也可以为相声小品、演讲、培训等语言类音频文件等,其音频文件的格式支持在互联网上播放,具体的格式在本发明实施例中不做限定。
下面将基于附图1,并结合附图2-附图5对本发明实施例提供的逆向爆音检测方法进行详细介绍。
请参见图2,为本发明实施例提供的一种逆向爆音检测方法的流程示意图,该方法可包括步骤101-步骤105。
101,确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;
爆音,实际上是时域信号的突变,可以理解的是,突变时域信号即为爆音。
在第一种可能实现的方式中,逆向爆音检测装置根据音频文件客户端发送的突变指示消息确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置。具体的,音频文件客户端在检测到某个音频文件存在突变时域信号时,向所述逆向爆音检测装置发送突变指示消息,所述突变指示消息指示该音频文件存在所述突变时域信号,并携带存在所述突变时域信号的音频位置。所述逆向爆音检测装置接收所述突变指示消息,并根据所述突变指示消息确定该音频文件存在所述突变时域信号以及存在所述突变时域信号的音频位置。其中,音频文件客户端为播放音频文件的客户端,所述音频文件客户端既可以播放对应服务器提供的音频文件,也可以播放该音频文件客户端所属的本地音频文件中的音频文件。所述音频文件客户端可以将本地音频文件扫描录入,进而播放。
在第二种可能实现的方式中,逆向爆音检测装置自主检测目标音频文件是否存在突变时域信号。具体的,所述逆向爆音检测装置根据第一预设算法对所述目标音频文件进行处理得到所述目标音频文件的多帧信号。所述第一预设算法包括解码分通道、分帧、能量信息计算。所述逆向爆音检测装置将所述目标音频文件解码为44k 16bit双通道音频文件,针对左右通道分别处理。44k是指记录频率或采样频率,16bit是指以2进制为单位的记录长度,或一个采样点的长度。假设处理的通道有k个采样点xi,i∈[1,k],以t为帧移和帧长对单通道音频进行分帧,得到n帧信号,n=k/t(多余不足一帧的舍弃)。采用帧移与帧长相等的方案,这样可以减少计算量。所述逆向爆音检测装置计算所述目标音频文件的多帧信号中每帧信号的能量信息,所述能量信息包括能量均值mi,i∈[1,n]和能量标准差si,i∈[1,n],具体计算公式如下:
若目标帧信号的能量信息满足预设突变条件,则确定所述目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置,所述目标帧信号为所述多帧信号中的一个。其中,所述预设突变条件如下:
上述第一个公式中的p1、p2为常值参数,具体数值由所述逆向爆音检测装置设定,在此不做限定。该公式用于找出能量明显比左右两边的帧能量有突变的帧信号。上述第二公式中的p3为常值参数,具体数值由所述逆向爆音检测装置设定,在此不做限定。该公式用于说明该帧信号非平滑,该帧信号内有明显的非平缓突变。若某个帧信号的能量信息满足上述预设突变条件,则记录该帧信号的帧标识(IDentity),并记录对应的通道,可以将该通道确定为有问题的通道,即确定有问题的声道是左通道还是右通道,还是两个通道都有问题。
上述两种可能实现的方式均以一个突变时域信号为例进行介绍,实际情况中,一个音频文件可能存在多个突变时域信号,对于多个的情况,也可同样按照上述两种可能实现的方式进行处理,分别确定每个突变时域信号的音频位置。在第一种可能实现的方式中,音频文件客户端可按照第二种可能实现的方式中的算法检测是否存在突变时域信号。在第二种可能实现的方式中,p1、p2、p3可以设置较小,具体数值由所述逆向爆音检测装置设定,在此不做限定,设置较小可以尽量保证将可能有问题的帧信号都找出来,此时检测爆音的准确率较低,可通过后续过程提高准确率。上述两种可能实现的方式中的音频位置均用于指示所述目标音频文件在哪个声道的哪个帧信号上存在突变时域信号。
102,查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;
具体的,所述逆向爆音检测装置从所述目标音频文件所属音频文件客户端对应的音频文件数据库和/或所述目标音频文件所属的本地音频文件库中查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件。需要说明的是,此时查找的备选音频文件的数量不止一个,而是一个集合,包括所有与所述目标音频文件的标签信息和时长信息均相同的音频文件。
首先,所述逆向爆音检测装置从所述目标音频文件所属音频文件客户端对应的音频文件数据库和/或所述目标音频文件所属的本地音频文件库中查找与所述目标音频文件的标签信息相同的标签音频文件。所述标签信息包括音频文件名称(例如音乐名称、歌曲名称等)、音频文件作者(例如音乐创作者、演唱者、歌手等)和音频文件的时间长度(例如音乐的时间长度、歌曲的时间长度等)。通常,所述标签信息用于标识音频文件,可携带在对应的音频文件中,对音频文件进行识别便能获取。需要说明的是,此时查找的标签音频文件不止一个,而是一个集合,包括所有与所述目标音频文件的标签信息相同的音频文件。
接着,所述逆向爆音检测装置根据第二预设算法对每个标签音频文件和所述目标音频文件进行处理得到所述每个标签音频文件的时长信息和所述目标音频文件的时长信息,所述时长信息包括分帧信号数量。其中,所述第二预设算法包括解码、分帧。所述第二预设算法与所述第一预设算法所采用的参数存在差别。所述逆向爆音检测装置将所述目标音频文件和每个标签音频文件解码为8k 16bit脉冲编码调制(pulse-code modulation,pcm)格式的音频文件,以1024个采样点为帧长,以32个采样点为帧移进行分帧,得到所述目标音频文件的分帧信号数量和每个标签音频文件的分帧信号数量。
所述逆向爆音检测装置判断是否存在与所述目标音频文件的分帧信号数量相同的标签音频文件,并将与所述目标音频文件的分帧信号数量相同的标签音频文件确定为备选音频文件。
103,将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;
具体的,所述逆向爆音检测装置在确定备选音频文件后,根据第三预设算法对每个备选音频文件和所述目标音频文件进行处理得到所述每个备选音频文件的频谱能量数字序列和所述目标音频文件的频谱能量数字序列。其中,所述第三预设算法包括分频、能量频谱均值计算、数字序列对比。
由于每个备选音频文件的分帧信号数量与所述目标音频文件的分帧信号数量相同,因此所述逆向爆音检测装置对每个备选音频文件和所述目标音频文件的每个帧信号进行傅里叶变换得到每个备选音频文件的频谱能量和所述目标音频文件的频谱能量,该能量频谱的范围为0-4k。所述逆向爆音检测装置将每个备选音频文件的频谱能量和所述目标音频文件的频谱能量平均分到32个频段,并计算每个频段的能量频谱均值,并将能量频谱均值作为平均能量。所述逆向爆音检测装置将某个频段与上一帧信号对应的频段进行比较,比前一帧信号大则记为“1”,小则记为“0”,这样每一帧信号就会得到32个bit值,用于表示一帧信号,将所有帧信号的bit值连在一起,就得到每个备选音频文件的频谱能量数字序列和所述目标音频文件的频谱能量数字序列。此时,每个备选音频文件的频谱能量数字序列与所述目标音频文件的频谱能量数字序列的序列长度相同。频谱能量数字序列为一串“0”和“1”组成的数字序列。
所述逆向爆音检测装置将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,即将所述目标音频文件的某个位置上的bit值与备选音频文件的该位置上的bit值进行一一对比,若两者都为“1”或都为“0”,则认为相同,否则认为不相同。所述逆向爆音检测装置将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件。假设频谱能量数字序列的总个数为p,相同的个数为q,则相同概率为q/p达到所述预设概率值,则确定为同源音频文件。其中,所述预设概率值可取95%,剩余的5%的误差用于兼容编解码、爆音等问题带来的频谱差异。
104,从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;
具体的,所述逆向爆音检测装置在确定同源音频文件之后,对每个同源音频文件进行检测,判断每个同源音频文件在所述目标音频文件存在突变时域信号的音频位置是否也存在突变时域信号。
所述逆向爆音检测装置根据第四预设算法对每个同源音频文件和所述目标音频文件进行处理得到所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息。所述第四预设算法包括解码、归一化、能量信息计算。
所述目标音频文件以x为例,某个同源音频文件以y为例,所述逆向爆音检测装置将x,y解码为44k 16bit单通道音频文件,只保留有问题的那个通道。假设该通道有k个采样点将两个音频文件的采样点归一化得到xi和yi,具体如下:
其中,p4为较小的值,具体数值由所述逆向爆音检测装置设定,在此不做限定。这样便将两个音频文件的能量归一化到同一水平线上。假设x存在时域突变信号的音频位置为帧信号o,所述逆向爆音检测装置计算帧信号o上的能量信息,所述能量信息包括能量均值mo和能量标准差so,x,y的能量信息具体如下:
所述逆向爆音检测装置根据所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件。具体的,所述逆向爆音检测装置检测所述每个同源音频文件在所述音频位置的能量信息与所述目标音频文件在所述音频位置的能量信息是否满足预设差值条件;将满足所述预设差值条件的同源音频文件确定为在所述音频位置存在突变时域信号的第一同源音频文件,并确定除所述第一同源音频文件之外的第二同源音频文件。其中,所述预设差值条件为:
若某个同源音频文件的能量信息满足所述预设差值条件,则表明该同源音频文件在所述音频位置也存在突变时域信号,可认为该同源音频文件存在与所述目标音频文件同样的问题,将其确定为第一同源音频文件;反之则表明该同源音频文件在所述音频位置不存在突变时域信号,可认为该同源音频文件不存在与所述目标音频文件同样的问题,将其确定为第二同源音频文件。
需要说明的是,此时步骤103确定的同源音频文件不止一个,而是一个集合,包括相同概率达到所述预设概率值的所有的备选音频文件。同理步骤104确定的第一同源音频文件、第二同源音频文件也是一个集合。
需要说明的是,步骤103针对所述目标音频文件存在所述突变时域信号的音频位置进行介绍,即针对一个音频位置进行介绍,若存在多个突变时域信号,则音频位置有多个,只要某个同源音频文件中在与所述目标音频文件的同一音频位置存在突变时域信号,即可确定该同源音频文件为第一同源音频文件。
请参见图3,为本发明实施例提供的确定同源音频文件的流程示意图,对步骤102-104进行了概括,形象地展现从备选音频文件到第一同源音频文件和第二同源音频文件的过程,即经过层层筛选得到第一同源音频文件和第二同源音频文件。
105,根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音;
具体的,由于所述目标音频文件所属音频文件客户端对应的音频文件数据库和所述目标音频文件所属的本地音频文件库中的音频文件的数量较多,因此所述第一同源音频文件的数量和所述第二同源音频文件的数量也相对较多,使得所述逆向爆音检测装置根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定的所述目标音频文件存在的所述突变时域信号为逆向爆音的准确性较高。
在一种可能实现的方式中,所述逆向爆音检测装置检测所述第一同源音频文件的数量是否小于第一阈值且所述第二同源音频文件的数量是否大于第二阈值。其中,所述第一阈值可为k1,其具体数值大小由所述逆向爆音检测装置确定,在此不做限定。所述第二阈值可为0。可以理解的是,所述逆向爆音检测装置检测有问题的同源音频文件的数量是否比较小,且存在没有问题的同源音频文件的数量。若所述第一同源音频文件的数量小于所述第一阈值且所述第二同源音频文件的数量大于所述第二阈值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。在确定所述目标音频文件存在逆向爆音后,所述逆向爆音检测装置可向所述目标音频文件所属的音频文件客户端发送更改信息,所述更改信息包括从所述第二同源音频文件中选择的一个音频文件,所述更改信息用于指示所述目标音频文件所属的音频文件客户端将所述目标音频文件更改为所选择的音频文件,从而减少逆向爆音对目标音频文件的影响,提升用户体验。
若所述第二同源音频文件的数量等于所述第二阈值,即不存在所述第二同源音频文件,则确定所述目标音频文件存在的所述突变时域信号为正向爆音,此时所述逆向爆音检测装置可不做任何处理。
若所述第一同源音频文件的数量大于所述第一阈值且所述第二同源音频文件的数量大于所述第二阈值,即有问题的同源音频文件的数量较多,没有问题的同源音频文件的数量也较多,则可认为所述目标音频文件有可能出现多个版本,需要转人工判断。
在一种可能实现的方式中,所述逆向爆音检测装置检测所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值是否小于预设比值。可以理解的是,所述逆向爆音检测装置检测有问题的同源音频文件的数量是否比较小,且没有问题的同源音频文件的数量是否比较多。其中,所述预设比值由所述逆向爆音检测装置设定,具体数值在此不做限定。若所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值小于所述预设比值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
随着数据库中的音频文件的数量不断增大,所述第一同源音频文件的数量和所述第二同源音频文件的数量也在不断增大,由于样本越来越多,检测的效果择越来越准。当后续每次有存在突变时域信号的音频文件后,则先在对应的同源音频文件中查找是否存在第一同源音频文件,若存在,则可以利用之前保留的信息直接给出准确结果。
需要说明的是,本发明实施例以目标音频文件存在的一个突变时域信号为例进行介绍,对于多个突变时域信号的情况可在本发明实施例的基础上进行扩展。
在本发明实施例中,通过在确定目标音频文件存在突变时域信号以及存在突变时域信号的音频位置后,查找与目标音频文件的标签信息和时长信息均相同的备选音频文件,从备选音频文件中确定同源音频文件,从同源音频文件中确定第一同源音频文件和除第一同源音频文件之外的第二同源音频文件,并根据第一同源音频文件的数量和第二同源音频文件的数量确定目标音频文件存在的突变时域信号为逆向爆音,从而智能、快速、准确地检测出音频文件中的逆向爆音。
请参见图4,为本发明实施例提供的一种逆向爆音检测装置的结构示意图。图4所示的逆向爆音检测装置40包括突变信号确定单元401、备选文件查找单元402、频谱序列对比单元403、同源文件确定单元404和逆向爆音确定单元405。
突变信号确定单元401,用于确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;
在第一种可能实现的方式中,所述突变信号确定单元401具体用于根据音频文件客户端发送的突变指示消息确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置。具体的,音频文件客户端在检测到某个音频文件存在突变时域信号时,向所述逆向爆音检测装置40发送突变指示消息,所述突变指示消息指示该音频文件存在所述突变时域信号,并携带存在所述突变时域信号的音频位置。所述逆向爆音检测装置40接收所述突变指示消息,所述突变信号确定单元401根据所述突变指示消息确定该音频文件存在所述突变时域信号以及存在所述突变时域信号的音频位置。其中,音频文件客户端为播放音频文件的客户端,所述音频文件客户端既可以播放对应服务器提供的音频文件,也可以播放该音频文件客户端所属的本地音频文件中的音频文件。所述音频文件客户端可以将本地音频文件扫描录入,进而播放。
在第二种可能实现的方式中,所述突变信号确定单元401自主检测目标音频文件是否存在突变时域信号。具体的,所述突变信号确定单元401根据第一预设算法对所述目标音频文件进行处理得到所述目标音频文件的多帧信号。所述第一预设算法包括解码分通道、分帧、能量信息计算。所述突变信号确定单元401将所述目标音频文件解码为44k 16bit双通道音频文件,针对左右通道分别处理。44k是指记录频率或采样频率,16bit是指以2进制为单位的记录长度,或一个采样点的长度。假设处理的通道有k个采样点xi,i∈[1,k],以t为帧移与帧长对单通道音频进行分帧,得到n帧信号,n=k/t(多余不足一帧的舍弃)。所述突变信号确定单元401计算所述目标音频文件的多帧信号中每帧信号的能量信息,所述能量信息包括能量均值mi,i∈[1,n]和能量标准差si,i∈[1,n],具体计算公式如下:
若目标帧信号的能量信息满足预设突变条件,则确定所述目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置,所述目标帧信号为所述多帧信号中的一个。其中,所述预设突变条件如下:
上述第一个公式中的p1、p2为常值参数,具体数值由所述逆向爆音检测装置40设定,在此不做限定。该公式用于找出能量明显比左右两边的帧能量有突变的帧信号。上述第二公式中的p3为常值参数,具体数值由所述逆向爆音检测装置40设定,在此不做限定。该公式用于说明该帧信号非平滑,该帧信号内有明显的非平缓突变。若某个帧信号的能量信息满足上述预设突变条件,则记录该帧信号的帧标识(IDentity),并记录对应的通道,可以将该通道确定为有问题的通道,即确定有问题的声道是左通道还是右通道,还是两个通道都有问题。
上述两种可能实现的方式均以一个突变时域信号为例进行介绍,实际情况中,一个音频文件可能存在多个突变时域信号,对于多个的情况,也可同样按照上述两种可能实现的方式进行处理,分别确定每个突变时域信号的音频位置。在第一种可能实现的方式中,音频文件客户端可按照第二种可能实现的方式中的算法检测是否存在突变时域信号。在第二种可能实现的方式中,p1、p2、p3可以设置较小,具体数值由所述逆向爆音检测装置40设定,在此不做限定,设置较小可以尽量保证将可能有问题的帧信号都找出来,此时检测爆音的准确率较低,可通过后续过程提高准确率。上述两种可能实现的方式中的音频位置均用于指示所述目标音频文件在哪个声道的哪个帧信号上存在突变时域信号。
备选文件查找单元402,用于查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;
具体实现中,所述备选文件查找单元402从所述目标音频文件所属音频文件客户端对应的音频文件数据库和/或所述目标音频文件所属的本地音频文件库中查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件。需要说明的是,此时查找的备选音频文件的数量不止一个,而是一个集合,包括所有与所述目标音频文件的标签信息和时长信息均相同的音频文件。
请参见图5,为图4所示实施例提供的备选文件查找单元的结构示意图,所述备选文件查找单元402包括标签文件查找单元4021、标签文件处理单元4022和备选文件确定单元4023。
具体实现中,所述标签文件查找单元4021从所述目标音频文件所属音频文件客户端对应的音频文件数据库和/或所述目标音频文件所属的本地音频文件库中查找与所述目标音频文件的标签信息相同的标签音频文件。所述标签信息包括音频文件名称(例如音乐名称、歌曲名称等)、音频文件作者(例如音乐创作者、演唱者、歌手等)和音频文件的时间长度(例如音乐的时间长度、歌曲的时间长度等)。通常,所述标签信息用于标识音频文件,可携带在对应的音频文件中,对音频文件进行识别便能获取。需要说明的是,此时查找的标签音频文件不止一个,而是一个集合,包括所有与所述目标音频文件的标签信息相同的音频文件。
所述标签文件处理单元4022根据第二预设算法对每个标签音频文件和所述目标音频文件进行处理得到所述每个标签音频文件的时长信息和所述目标音频文件的时长信息,所述时长信息包括分帧信号数量。其中,所述第二预设算法包括解码、分帧。所述第二预设算法与所述第一预设算法所采用的参数存在差别。所述标签文件处理单元4022将所述目标音频文件和每个标签音频文件解码为8k 16bit脉冲编码调制(pulse-code modulation,pcm)格式的音频文件,以1024个采样点为帧长,以32个采样点为帧移进行分帧,得到所述目标音频文件的分帧信号数量和每个标签音频文件的分帧信号数量。
所述备选文件确定单元4023判断是否存在与所述目标音频文件的分帧信号数量相同的标签音频文件,并将与所述目标音频文件的分帧信号数量相同的标签音频文件确定为备选音频文件。
频谱序列对比单元403,用于将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;
具体实现中,所述逆向爆音检测装置40还包括备选文件处理单元,未在图4中标明。在确定备选音频文件后,所述备选文件处理单元根据第三预设算法对每个备选音频文件和所述目标音频文件进行处理得到所述每个备选音频文件的频谱能量数字序列和所述目标音频文件的频谱能量数字序列。其中,所述第三预设算法包括分频、能量频谱均值计算、数字序列对比。
由于每个备选音频文件的分帧信号数量与所述目标音频文件的分帧信号数量相同,因此所述备选文件处理单元对每个备选音频文件和所述目标音频文件的每个帧信号进行傅里叶变换得到每个备选音频文件的频谱能量和所述目标音频文件的频谱能量,该能量频谱的范围为0-4k。所述备选文件处理单元将每个备选音频文件的频谱能量和所述目标音频文件的频谱能量平均分到32个频段,并计算每个频段的能量频谱均值,并将能量频谱均值作为平均能量。所述逆向爆音检测装置将某个频段与上一帧信号对应的频段进行比较,比前一帧信号大则记为“1”,小则记为“0”,这样每一帧信号就会得到32个bit值,用于表示一帧信号,将所有帧信号的bit值连在一起,就得到每个备选音频文件的频谱能量数字序列和所述目标音频文件的频谱能量数字序列。此时,每个备选音频文件的频谱能量数字序列与所述目标音频文件的频谱能量数字序列的序列长度相同。频谱能量数字序列为一串“0”和“1”组成的数字序列。
具体实现中,所述频谱序列对比单元403将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,即将所述目标音频文件的某个位置上的bit值与备选音频文件的该位置上的bit值进行一一对比,若两者都为“1”或都为“0”,则认为相同,否则认为不相同。所述频谱序列对比单元403将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件。假设频谱能量数字序列的总个数为p,相同的个数为q,则相同概率为q/p达到所述预设概率值,则确定为同源音频文件。其中,所述预设概率值可取95%,剩余的5%的误差用于兼容编解码、爆音等问题带来的频谱差异。
同源文件确定单元404,用于从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;
具体实现中,所述频谱序列对比单元403在确定同源音频文件之后,所述同源文件确定单元404对每个同源音频文件进行检测,判断每个同源音频文件在所述目标音频文件存在突变时域信号的音频位置是否也存在突变时域信号。
请参见图6,为图4所示实施例提供的同源文件确定单元的结构示意图,所述同源文件确定单元404包括同源文件处理单元4041和同源突变确定单元4042。
具体实现中,所述同源文件处理单元4041根据第四预设算法对每个同源音频文件和所述目标音频文件进行处理得到所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息。所述第四预设算法包括解码、归一化、能量信息计算。
所述目标音频文件以x为例,某个同源音频文件以y为例,所述同源文件处理单元4041将x,y解码为44k 16bit单通道音频文件,只保留有问题的那个通道。假设该通道有k个采样点将两个音频文件的采样点归一化得到xi和yi,具体如下:
其中,p4为较小的值,具体数值由所述逆向爆音检测装置40设定,在此不做限定。这样便将两个音频文件的能量归一化到同一水平线上。假设x存在时域突变信号的音频位置为帧信号o,所述同源文件处理单元4041计算帧信号o上的能量信息,所述能量信息包括能量均值mo和能量标准差so,x,y的能量信息具体如下:
所述同源突变确定单元4042根据所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件。具体的,所述同源突变确定单元4042检测所述每个同源音频文件在所述音频位置的能量信息与所述目标音频文件在所述音频位置的能量信息是否满足预设差值条件;将满足所述预设差值条件的同源音频文件确定为在所述音频位置存在突变时域信号的第一同源音频文件,并确定除所述第一同源音频文件之外的第二同源音频文件。其中,所述预设差值条件为:
若某个同源音频文件的能量信息满足所述预设差值条件,则表明该同源音频文件在所述音频位置也存在突变时域信号,可认为该同源音频文件存在与所述目标音频文件同样的问题,将其确定为第一同源音频文件;反之则表明该同源音频文件在所述音频位置不存在突变时域信号,可认为该同源音频文件不存在与所述目标音频文件同样的问题,将其确定为第二同源音频文件。
逆向爆音确定单元405,用于根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音;
具体实现中,由于所述目标音频文件所属音频文件客户端对应的音频文件数据库和所述目标音频文件所属的本地音频文件库中的音频文件的数量较多,因此所述第一同源音频文件的数量和所述第二同源音频文件的数量也相对较多,使得所述逆向爆音确定单元405根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定的所述目标音频文件存在的所述突变时域信号为逆向爆音的准确性较高。
在一种可能实现的方式中,所述逆向爆音确定单元405检测所述第一同源音频文件的数量是否小于第一阈值且所述第二同源音频文件的数量是否大于第二阈值。其中,所述第一阈值可为k1,其具体数值大小由所述逆向爆音检测装置40确定,在此不做限定。所述第二阈值可为0。可以理解的是,所述逆向爆音确定单元405检测有问题的同源音频文件的数量是否比较小,且存在没有问题的同源音频文件的数量。若所述第一同源音频文件的数量小于所述第一阈值且所述第二同源音频文件的数量大于所述第二阈值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。在确定所述目标音频文件存在逆向爆音后,所述逆向爆音检测装置40可向所述目标音频文件所属的音频文件客户端发送更改信息,所述更改信息包括从所述第二同源音频文件中选择的一个音频文件,所述更改信息用于指示所述目标音频文件所属的音频文件客户端将所述目标音频文件更改为所选择的音频文件,从而减少逆向爆音对目标音频文件的影响,提升用户体验。
若所述第二同源音频文件的数量等于所述第二阈值,即不存在所述第二同源音频文件,则确定所述目标音频文件存在的所述突变时域信号为正向爆音,此时所述逆向爆音检测装置可不做任何处理。
若所述第一同源音频文件的数量大于所述第一阈值且所述第二同源音频文件的数量大于所述第二阈值,即有问题的同源音频文件的数量较多,没有问题的同源音频文件的数量也较多,则可认为所述目标音频文件有可能出现多个版本,需要转人工判断。
在一种可能实现的方式中,所述逆向爆音确定单元405检测所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值是否小于预设比值。可以理解的是,所述逆向爆音检测装置检测有问题的同源音频文件的数量是否比较小,且没有问题的同源音频文件的数量是否比较多。其中,所述预设比值由所述逆向爆音检测装置设定,具体数值在此不做限定。若所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值小于所述预设比值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
随着数据库中的音频文件的数量不断增大,所述第一同源音频文件的数量和所述第二同源音频文件的数量也在不断增大,由于样本越来越多,检测的效果择越来越准。当后续每次有存在突变时域信号的音频文件后,则先在对应的同源音频文件中查找是否存在第一同源音频文件,若存在,则可以利用之前保留的信息直接给出准确结果。
需要说明的是,本发明实施例以目标音频文件存在的一个突变时域信号为例进行介绍,对于多个突变时域信号的情况可在本发明实施例的基础上进行扩展。
在本发明实施例中,通过在确定目标音频文件存在突变时域信号以及存在突变时域信号的音频位置后,查找与目标音频文件的标签信息和时长信息均相同的备选音频文件,从备选音频文件中确定同源音频文件,从同源音频文件中确定第一同源音频文件和除第一同源音频文件之外的第二同源音频文件,并根据第一同源音频文件的数量和第二同源音频文件的数量确定目标音频文件存在的突变时域信号为逆向爆音,从而智能、快速、准确地检测出音频文件中的逆向爆音。
其中,上述各个单元可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。
当上述各个单元为处理器时,本发明实施例所涉及的逆向爆音检测装置可以为图7所示的逆向爆音检测装置。图7所示的逆向爆音检测装置包括处理器701、通信接口702、存储器703和总线704。
其中,存储器703可以是一个存储装置,也可以是多个存储元件的统称,且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器703可以包括随机存储器(Random Access Memory,RAM),也可以包括非易失性存储器(non-volatilememory),例如磁盘存储器,闪存(Flash)等。
总线704可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。该总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,处理器701用于执行如下操作步骤:
确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;
查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;
将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;
从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;
根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
其中,处理器701执行根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音时,具体执行以下步骤:
检测所述第一同源音频文件的数量是否小于第一阈值且所述第二同源音频文件的数量是否大于第二阈值;
若所述第一同源音频文件的数量小于所述第一阈值且所述第二同源音频文件的数量大于所述第二阈值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
其中,处理器701执行根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音时,具体执行以下步骤:
检测所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值是否小于预设比值;
若所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值小于所述预设比值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
其中,处理器701执行确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置时,具体执行以下步骤:
控制通信接口702接收音频文件客户端发送的针对待检测的目标音频文件的突变指示消息,所述突变指示消息指示所述目标音频文件存在突变时域信号,并携带存在所述突变时域信号的音频位置;
根据所述突变指示消息确定所述目标音频文件存在所述突变时域信号以及存在所述突变时域信号的音频位置。
其中,处理器701执行确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置时,具体执行以下步骤:
根据第一预设算法对待检测的目标音频文件进行处理得到所述目标音频文件的多帧信号;
计算所述目标音频文件的多帧信号中每帧信号的能量信息;
若目标帧信号的能量信息满足预设突变条件,则确定所述目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置,所述目标帧信号为所述多帧信号中的一个。
其中,处理器701执行查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件时,具体执行以下步骤:
从所述目标音频文件所属音频文件客户端对应的音频文件数据库和/或所述目标音频文件所属的本地音频文件库中查找与所述目标音频文件的标签信息相同的标签音频文件;
根据第二预设算法对每个标签音频文件和所述目标音频文件进行处理得到所述每个标签音频文件的时长信息和所述目标音频文件的时长信息,所述时长信息包括分帧信号数量;
将与所述目标音频文件的分帧信号数量相同的标签音频文件确定为备选音频文件。
其中,处理器701执行将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比之前,还执行以下步骤:
根据第三预设算法对每个备选音频文件和所述目标音频文件进行处理得到所述每个备选音频文件的频谱能量数字序列和所述目标音频文件的频谱能量数字序列。
其中,处理器701从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件时,具体执行以下步骤:
根据第四预设算法对每个同源音频文件和所述目标音频文件进行处理得到所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息;
根据所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件。
其中,处理器701根据所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件时,具体执行以下步骤:
检测所述每个同源音频文件在所述音频位置的能量信息与所述目标音频文件在所述音频位置的能量信息是否满足预设差值条件;
将满足所述预设差值条件的同源音频文件确定为在所述音频位置存在突变时域信号的第一同源音频文件,并确定除所述第一同源音频文件之外的第二同源音频文件。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (18)

1.一种逆向爆音检测方法,其特征在于,包括:
确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;
查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;
将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;
从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;
根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音,包括:
检测所述第一同源音频文件的数量是否小于第一阈值且所述第二同源音频文件的数量是否大于第二阈值;
若所述第一同源音频文件的数量小于所述第一阈值且所述第二同源音频文件的数量大于所述第二阈值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音,包括:
检测所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值是否小于预设比值;
若所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值小于所述预设比值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
4.根据权利要求1所述的方法,其特征在于,所述确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置,包括:
接收音频文件客户端发送的针对待检测的目标音频文件的突变指示消息,所述突变指示消息指示所述目标音频文件存在突变时域信号,并携带存在所述突变时域信号的音频位置;
根据所述突变指示消息确定所述目标音频文件存在所述突变时域信号以及存在所述突变时域信号的音频位置。
5.根据权利要求1所述的方法,其特征在于,所述确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置,包括:
根据第一预设算法对待检测的目标音频文件进行处理得到所述目标音频文件的多帧信号;
计算所述目标音频文件的多帧信号中每帧信号的能量信息;
若目标帧信号的能量信息满足预设突变条件,则确定所述目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置,所述目标帧信号为所述多帧信号中的一个。
6.根据权利要求1所述的方法,其特征在于,所述查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件,包括:
从所述目标音频文件所属音频文件客户端对应的音频文件数据库和/或所述目标音频文件所属的本地音频文件库中查找与所述目标音频文件的标签信息相同的标签音频文件;
根据第二预设算法对每个标签音频文件和所述目标音频文件进行处理得到所述每个标签音频文件的时长信息和所述目标音频文件的时长信息,所述时长信息包括分帧信号数量;
将与所述目标音频文件的分帧信号数量相同的标签音频文件确定为备选音频文件。
7.根据权利要求1所述的方法,其特征在于,所述将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比之前,还包括:
根据第三预设算法对每个备选音频文件和所述目标音频文件进行处理得到所述每个备选音频文件的频谱能量数字序列和所述目标音频文件的频谱能量数字序列。
8.根据权利要求1所述的方法,其特征在于,所述从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件,包括:
根据第四预设算法对每个同源音频文件和所述目标音频文件进行处理得到所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息;
根据所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件。
9.根据权利要求8所述的方法,其特征在于,所述根据所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件,包括:
检测所述每个同源音频文件在所述音频位置的能量信息与所述目标音频文件在所述音频位置的能量信息是否满足预设差值条件;
将满足所述预设差值条件的同源音频文件确定为在所述音频位置存在突变时域信号的第一同源音频文件,并确定除所述第一同源音频文件之外的第二同源音频文件。
10.一种逆向爆音检测装置,其特征在于,包括:
突变信号确定单元,用于确定待检测的目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置;
备选文件查找单元,用于查找与所述目标音频文件的标签信息和时长信息均相同的备选音频文件;
频谱序列对比单元,用于将所述目标音频文件的频谱能量数字序列分别与每个备选音频文件的频谱能量数字序列进行对比,将与所述目标音频文件的频谱能量数字序列的相同概率达到预设概率值的备选音频文件确定为同源音频文件;
同源文件确定单元,用于从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件;
逆向爆音确定单元,用于根据所述第一同源音频文件的数量和所述第二同源音频文件的数量确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
11.根据权利要求10所述的装置,其特征在于,所述逆向爆音确定单元具体用于检测所述第一同源音频文件的数量是否小于第一阈值且所述第二同源音频文件的数量是否大于第二阈值;若所述第一同源音频文件的数量小于所述第一阈值且所述第二同源音频文件的数量大于所述第二阈值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
12.根据权利要求10所述的装置,其特征在于,所述逆向爆音确定单元具体用于检测所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值是否小于预设比值;若所述第一同源音频文件的数量与所述第二同源音频文件的数量的比值小于所述预设比值,则确定所述目标音频文件存在的所述突变时域信号为逆向爆音。
13.根据权利要求10所述的装置,其特征在于,所述突变信号确定单元具体用于接收音频文件客户端发送的针对待检测的目标音频文件的突变指示消息,所述突变指示消息指示所述目标音频文件存在突变时域信号,并携带存在所述突变时域信号的音频位置;根据所述突变指示消息确定所述目标音频文件存在所述突变时域信号以及存在所述突变时域信号的音频位置。
14.根据权利要求10所述的装置,其特征在于,所述突变信号确定单元具体用于根据第一预设算法对待检测的目标音频文件进行处理得到所述目标音频文件的多帧信号;计算所述目标音频文件的多帧信号中每帧信号的能量信息;若目标帧信号的能量信息满足预设突变条件,则确定所述目标音频文件存在突变时域信号以及存在所述突变时域信号的音频位置,所述目标帧信号为所述多帧信号中的一个。
15.根据权利要求10所述的装置,其特征在于,所述备选文件查找单元包括:
标签文件查找单元,用于从所述目标音频文件所属音频文件客户端对应的音频文件数据库和/或所述目标音频文件所属的本地音频文件库中查找与所述目标音频文件的标签信息相同的标签音频文件;
标签文件处理单元,用于根据第二预设算法对每个标签音频文件和所述目标音频文件进行处理得到所述每个标签音频文件的时长信息和所述目标音频文件的时长信息,所述时长信息包括分帧信号数量;
备选文件确定单元,用于将与所述目标音频文件的分帧信号数量相同的标签音频文件确定为备选音频文件。
16.根据权利要求10所述的装置,其特征在于,所述装置还包括:
备选文件处理单元,用于根据第三预设算法对每个备选音频文件和所述目标音频文件进行处理得到所述每个备选音频文件的频谱能量数字序列和所述目标音频文件的频谱能量数字序列。
17.根据权利要求10所述的装置,其特征在于,所述同源文件确定单元包括:
同源文件处理单元,用于根据第四预设算法对每个同源音频文件和所述目标音频文件进行处理得到所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息;
同源突变确定单元,用于根据所述每个同源音频文件在所述音频位置的能量信息和所述目标音频文件在所述音频位置的能量信息从所述同源音频文件中确定在所述音频位置存在突变时域信号的第一同源音频文件和除所述第一同源音频文件之外的第二同源音频文件。
18.根据权利要求17所述的装置,其特征在于,所述同源突变确定单元具体用于检测所述每个同源音频文件在所述音频位置的能量信息与所述目标音频文件在所述音频位置的能量信息是否满足预设差值条件;将满足所述预设差值条件的同源音频文件确定为在所述音频位置存在突变时域信号的第一同源音频文件,并确定除所述第一同源音频文件之外的第二同源音频文件。
CN201611124797.1A 2016-12-08 2016-12-08 一种逆向爆音检测方法及其装置 Active CN106782612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611124797.1A CN106782612B (zh) 2016-12-08 2016-12-08 一种逆向爆音检测方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611124797.1A CN106782612B (zh) 2016-12-08 2016-12-08 一种逆向爆音检测方法及其装置

Publications (2)

Publication Number Publication Date
CN106782612A true CN106782612A (zh) 2017-05-31
CN106782612B CN106782612B (zh) 2019-12-13

Family

ID=58877570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611124797.1A Active CN106782612B (zh) 2016-12-08 2016-12-08 一种逆向爆音检测方法及其装置

Country Status (1)

Country Link
CN (1) CN106782612B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335703A (zh) * 2018-03-28 2018-07-27 腾讯音乐娱乐科技(深圳)有限公司 确定音频数据的重音位置的方法和装置
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3424400A (en) * 1965-06-25 1969-01-28 John P Le Bel Sonic boom and shock wave eliminator
CN1111421A (zh) * 1993-07-12 1995-11-08 莫托罗拉公司 检测信号处理器中噪涌的方法和装置
CN1128445A (zh) * 1994-09-02 1996-08-07 松下电器产业株式会社 噪声抑制装置
CN102664006A (zh) * 2012-04-14 2012-09-12 中国人民解放军国防科学技术大学 基于时频域分析的异常人声检测方法
CN104091591A (zh) * 2013-10-15 2014-10-08 腾讯科技(深圳)有限公司 一种音频处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3424400A (en) * 1965-06-25 1969-01-28 John P Le Bel Sonic boom and shock wave eliminator
CN1111421A (zh) * 1993-07-12 1995-11-08 莫托罗拉公司 检测信号处理器中噪涌的方法和装置
CN1128445A (zh) * 1994-09-02 1996-08-07 松下电器产业株式会社 噪声抑制装置
CN102664006A (zh) * 2012-04-14 2012-09-12 中国人民解放军国防科学技术大学 基于时频域分析的异常人声检测方法
CN104091591A (zh) * 2013-10-15 2014-10-08 腾讯科技(深圳)有限公司 一种音频处理方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置
CN108335703A (zh) * 2018-03-28 2018-07-27 腾讯音乐娱乐科技(深圳)有限公司 确定音频数据的重音位置的方法和装置
CN108335703B (zh) * 2018-03-28 2020-10-09 腾讯音乐娱乐科技(深圳)有限公司 确定音频数据的重音位置的方法和装置
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法

Also Published As

Publication number Publication date
CN106782612B (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
US10819811B2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
KR102128926B1 (ko) 오디오 정보 처리 방법 및 디바이스
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
US10671666B2 (en) Pattern based audio searching method and system
BR112014017708B1 (pt) Método e aparelho para detectar atividade de voz na presença de ruído de fundo, e, memória legível por computador
WO2015058651A1 (zh) 音频文件均衡器参数配置的方法和装置
CN113223485B (zh) 节拍检测模型的训练方法、节拍检测方法及装置
CN112037764B (zh) 一种音乐结构的确定方法、装置、设备及介质
WO2022083969A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN106782612A (zh) 一种逆向爆音检测方法及其装置
CN106302987A (zh) 一种音频推荐方法及设备
US11188199B2 (en) System enabling audio-based navigation and presentation of a website
US20220147558A1 (en) Methods and systems for automatically matching audio content with visual input
CN105283916A (zh) 电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序
CN111723289A (zh) 信息推荐方法及装置
CN104091594A (zh) 一种音频分类方法及装置
CN106548792A (zh) 智能音箱装置、移动终端及音乐播放处理方法
CN111477248B (zh) 一种音频噪声检测方法及装置
WO2020052135A1 (zh) 音乐推荐的方法、装置、计算装置和存储介质
EP1531457B1 (en) Apparatus and method for segmentation of audio data into meta patterns
CN104882146A (zh) 音频推广信息的处理方法及装置
CN112423019A (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
US11899713B2 (en) Music streaming, playlist creation and streaming architecture
CN114580790B (zh) 生命周期阶段预测和模型训练方法、装置、介质及设备
KR102540177B1 (ko) 화자 간 중첩되는 음성을 분리하여 대화록 서비스를 제공하는 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant