CN113488070B - 篡改音频的检测方法、装置、电子设备及存储介质 - Google Patents

篡改音频的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113488070B
CN113488070B CN202111048241.XA CN202111048241A CN113488070B CN 113488070 B CN113488070 B CN 113488070B CN 202111048241 A CN202111048241 A CN 202111048241A CN 113488070 B CN113488070 B CN 113488070B
Authority
CN
China
Prior art keywords
frequency
signal
mel
feature
frequency component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111048241.XA
Other languages
English (en)
Other versions
CN113488070A (zh
Inventor
梁山
陶建华
聂帅
易江燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111048241.XA priority Critical patent/CN113488070B/zh
Publication of CN113488070A publication Critical patent/CN113488070A/zh
Application granted granted Critical
Publication of CN113488070B publication Critical patent/CN113488070B/zh
Priority to US17/667,212 priority patent/US11636871B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开涉及一种篡改音频的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测信号,并对待检测信号进行第一预设阶数的小波变换,得到数量等于第一预设阶数的待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的第一高频系数进行小波逆变换,得到待检测信号对应的第一高频分量信号;以帧为单位计算第一高频分量信号的第一梅尔倒谱特征,并将第一高频分量信号的当前帧信号和当前帧信号之前的预设数量的帧信号的第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对第一融合特征进行篡改音频检测。

Description

篡改音频的检测方法、装置、电子设备及存储介质
技术领域
本公开涉及语音识别领域,尤其涉及一种篡改音频的检测方法、装置、电子设备及存储介质。
背景技术
检测篡改音频的主要原理是音频文件在录制过程中会记录录音设备的固有特征(比如麦克风底噪),或者音频处理(压缩、去噪)等软件的固有信息,原始没有被篡改的文件这些固有信息不会随着时间改变,统计信息稳定。目前检测篡改音频常用的方案,包括基于背景噪声的能量分布差异进行篡改取证,基于环境混响的录音环境识别进行篡改取证等。这些方法只对某种压缩格式的文件比较有效,无法推广到所有的音频格式。另外一种思路是,部分篡改音频进行了二次压缩,可以通过检测二次压缩导致采样点的帧偏移的方式,来实现篡改鉴别、定位的目的,但是有些篡改音频数据并没有通过二次压缩,所以通过帧偏移的方式无法有效处理。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种篡改音频的检测方法、装置、电子设备及存储介质,以至少解决现有技术中,现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题。
本公开的目的是通过以下技术方案实现的:
第一方面,本公开的实施例提供了一种篡改音频的检测方法,包括:获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。
在一个示例性实施例中,所述以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,包括:对所述第一高频分量信号进行快速傅里叶变换,得到变换结果;以帧为单位,计算所述变换结果的第二梅尔倒谱特征;对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征。
在一个示例性实施例中,所述以帧为单位,计算所述变换结果的第二梅尔倒谱特征,包括:根据如下公示计算所述变换结果的第二梅尔倒谱特征:
Figure 48168DEST_PATH_IMAGE001
其中,X(f)为所述变换结果,|X(f)|为对X(f)做取范数运算,F为频带数量,f为频带的序号,i为梅尔滤波器的序号,Hi(f)为第i个梅尔滤波器在第f个频带的值,a为一个大于1的正整数,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征。
在一个示例性实施例中,所述对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征,包括:通过如下公式对所述第二梅尔倒谱特征进行离散余弦变换:
Figure 177667DEST_PATH_IMAGE002
其中,i为梅尔滤波器的序号,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征,a和b均为一个大于1的正整数,l为第二梅尔倒谱特征的特征索引, XC(l)为特征索引的值为l的情况下的第一梅尔倒谱特征。
在一个示例性实施例中,获取训练信号,并对所述训练信号进行所述第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述训练信号对应的第二低频系数和第二高频系数;对阶数大于等于第二预设阶数的所述第二高频系数进行小波逆变换,得到所述训练信号对应的第二高频分量信号;以帧为单位计算所述第二高频分量信号的第三梅尔倒谱特征,并将所述第二高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第三梅尔倒谱特征融合,得到第二融合特征;根据所述训练信号对所述第二融合特征进行标注,并根据经过标注之后的第二融合特征对深度学习模型进行训练。
在一个示例性实施例中,所述对所述第一高频分量信号进行快速傅里叶变换,得到变换结果之前,所述方法还包括:使用内插算法构建降采样滤波器,其中,所述降采样滤波器以预设阈值作为降采样的倍数;根据所述降采样滤波器对所述第一高频分量信号进行滤波。
在一个示例性实施例中,所述对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号,包括:将所述第一低频系数均置为零,并且将阶数小于所述第二预设阶数的所述第一高频系数置为零;对阶数大于等于所述第二预设阶数的所述第一高频系数进行所述小波逆变换,得到所述第一高频分量信号。
第二方面,本公开的实施例提供了一种篡改音频的检测装置,包括:第一变换模块,用于获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;第二变换模块,用于对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;计算模块,用于以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;检测模块,用于通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。
第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的篡改音频的检测方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的篡改音频的检测方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。因为,本公开实施例可以对所述待检测信号依次进行小波变换和小波逆变换,最终得到所述待检测信号对应的第一高频分量信号,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将多个帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征,通过深度学习模型对所述第一融合特征进行篡改音频检测,因此,采用上述技术手段,可以解决现有技术中,现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题,进而提供一种新的检测篡改音频的方法。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本公开实施例一种篡改音频的检测方法的计算机终端的硬件结构框图;
图2示意性示出了本公开实施例的一种篡改音频的检测方法的流程图;
图3示意性示出了本公开实施例的一种篡改音频的检测方法的流程示意图;
图4示意性示出了本公开实施例的一种篡改音频的检测装置的结构框图;
图5示意性示出了本公开实施例提供的一种电子设备的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本公开。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本公开实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1示意性示出了本公开实施例的一种篡改音频的检测方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(Microprocessor Unit,简称是MPU)或可编程逻辑器件(Programmable logic device,简称是PLD)等处理装置和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本公开实施例中的篡改音频的检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本公开实施例中提供了一种篡改音频的检测方法,图2示意性示出了本公开实施例的一种篡改音频的检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;
步骤S204,对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;
步骤S206,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;
步骤S208,通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。
通过本公开,获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。因为,本公开实施例可以对所述待检测信号依次进行小波变换和小波逆变换,最终得到所述待检测信号对应的第一高频分量信号,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将多个帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征,通过深度学习模型对所述第一融合特征进行篡改音频检测,因此,采用上述技术手段,可以解决现有技术中,现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题,进而提供一种新的检测篡改音频的方法。
在步骤206中,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,包括:对所述第一高频分量信号进行快速傅里叶变换,得到变换结果;以帧为单位,计算所述变换结果的第二梅尔倒谱特征;对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征。
通过如下公式对所述第一高频分量信号进行快速傅里叶变换:
Figure DEST_PATH_IMAGE003
其中,f代表频带,j代表虚数单位,N为帧长,n为所述第一高频分量信号的时间标签,exp为以自然常数e为底数的指数函数。需要说明的是,在对所述第一高频分量信号进行快速傅里叶变换,得到变换结果之前,还可以先对所述第一高频分量信号进行分帧操作。
需要说明的是,因为做离散余弦变化,目的是去除冗余分量,不做离散余弦变化,只影响结果的准确度,所以以帧为单位,计算所述变换结果的第二梅尔倒谱特征之后,可以不对所述第二梅尔倒谱特征进行离散余弦变换,直接把第二梅尔倒谱特征当作第一梅尔倒谱特征。
以帧为单位,计算所述变换结果的第二梅尔倒谱特征,包括:根据如下公示计算所述变换结果的第二梅尔倒谱特征:
Figure 615601DEST_PATH_IMAGE004
其中,X(f)为所述变换结果,|X(f)|为对X(f)做取范数运算,F为频带数量,f为频带的序号,i为梅尔滤波器的序号,Hi(f)为第i个梅尔滤波器在第f个频带的值,a为一个大于1的正整数,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征。
计算所述变换结果的第二梅尔倒谱特征,实际上是对所述变换结果进行梅尔滤波操作,i为梅尔滤波器的序号,同时,也表示的是梅尔滤波的维度,有多少个梅尔滤波器,该滤波就可以称之为多少维度的梅尔滤波。举例说明,i等于23,说明本次滤波有23个梅尔滤波器,本次滤波可以称之为23维度的梅尔滤波。
对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征,包括:通过如下公式对所述第二梅尔倒谱特征进行离散余弦变换:
Figure 36218DEST_PATH_IMAGE002
其中,i为梅尔滤波器的序号,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征,a和b均为一个大于1的正整数,l为第二梅尔倒谱特征的特征索引,XC(l)为特征索引的值为l的情况下的第一梅尔倒谱特征。
l为第二梅尔倒谱特征的特征索引,该特征可以充分反应高频分量的能量分布情况,比如,l为12代表12维度的第二梅尔倒谱特征的特征索引。
在步骤208中,获取训练信号,并对所述训练信号进行所述第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述训练信号对应的第二低频系数和第二高频系数;对阶数大于等于第二预设阶数的所述第二高频系数进行小波逆变换,得到所述训练信号对应的第二高频分量信号;以帧为单位计算所述第二高频分量信号的第三梅尔倒谱特征,并将所述第二高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第三梅尔倒谱特征融合,得到第二融合特征;根据所述训练信号对所述第二融合特征进行标注,并根据经过标注之后的第二融合特征对深度学习模型进行训练。
本公开实施例通过标注之后的所述第二高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的第二融合特征训练深度学习模型,使得,所述深度学习模型学习到帧信号的融合特征和所述帧信号是否属于篡改音频之间的对应关系,进而实现对篡改音频的检测。其中,融合特征和所述帧信号是否属于篡改音频之间的对应关系夜里理解为融合特征和篡改音频之间的对应关系。根据所述训练信号对所述第二融合特征进行标注,可以是将无篡改音频的第二融合特征的标签标记为1,将篡改音频的第二融合特征的标签标记为0。
在执行步骤206之前,也就是对所述第一高频分量信号进行快速傅里叶变换,得到变换结果之前,所述方法还包括:使用内插算法构建降采样滤波器,其中,所述降采样滤波器以预设阈值作为降采样的倍数;根据所述降采样滤波器对所述第一高频分量信号进行滤波。
内插算法是离散时间序列的内插算法,根据所述内插算法构建以预设阈值作为降采样的倍数的降采样滤波器,根据所述降采样滤波器对所述第一高频分量信号进行滤波,去除冗余信息。
在步骤206中,对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号,包括:将所述第一低频系数均置为零,并且将阶数小于所述第二预设阶数的所述第一高频系数置为零;对阶数大于等于所述第二预设阶数的所述第一高频系数进行所述小波逆变换,得到所述第一高频分量信号。
通过如下公式对所述待检测信号进行第一预设阶数的小波变换:
Figure 446471DEST_PATH_IMAGE005
其中,y(n)是待检测信号,
Figure 559921DEST_PATH_IMAGE006
代表对信号y(n)做K阶小波变换,ak和bk分别代表信号y(n)经过小波变换在第k阶低频系数与高频系数,k取正整数,n是待检测信号的标签的序号。其中,小波基函数采用6阶Daubechies基函数, K取值范围可以为10-13之间。
通过如下公式将所述第一低频系数均置为零:
Figure 485151DEST_PATH_IMAGE007
通过如下公式将阶数小于所述第二预设阶数的所述第一高频系数置为零:
Figure 709459DEST_PATH_IMAGE008
将阶数小于所述第二预设阶数的所述第一高频系数置为零,相当于如下公式的效果:
Figure 957907DEST_PATH_IMAGE009
在将所述第一低频系数均置为零,并且将阶数小于所述第二预设阶数的所述第一高频系数置为零之后,通过如下公式对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换:
Figure 242258DEST_PATH_IMAGE010
其中,
Figure 654785DEST_PATH_IMAGE011
为所述待检测信号对应的第一高频分量信号。
为了更好的理解上述技术方案,本公开实施例还提供了一种可选实施例,用于解释说明上述技术方案。
图3示意性示出了本公开实施例的一种篡改音频的检测方法的流程示意图,如图3所示:
S302:获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;
S304:对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;
S306:使用内插算法构建降采样滤波器,根据降采样滤波器对所述第一高频分量信号进行滤波;
S308:对所述第一高频分量信号进行快速傅里叶变换,得到变换结果;
S310:以帧为单位,计算所述变换结果的第二梅尔倒谱特征;
S312:对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征;
S314:将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;
S316:通过深度学习模型对所述第一融合特征进行篡改音频检测。
通过本公开,获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。因为,本公开实施例可以对所述待检测信号依次进行小波变换和小波逆变换,最终得到所述待检测信号对应的第一高频分量信号,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将多个帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征,通过深度学习模型对所述第一融合特征进行篡改音频检测,因此,采用上述技术手段,可以解决现有技术中,现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题,进而提供一种新的检测篡改音频的方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random AccessMemory,简称为RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,组件服务端,或者网络设备等)执行本公开各个实施例的方法。
在本实施例中还提供了一种篡改音频的检测装置,该篡改音频的检测装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4示意性示出了本公开可选实施例的一种篡改音频的检测装置的结构框图,如图4所示,该装置包括:
第一变换模块402,用于获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;
第二变换模块404,用于对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;
计算模块406,用于以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;
检测模块408,用于通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。
通过本公开,获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。因为,本公开实施例可以对所述待检测信号依次进行小波变换和小波逆变换,最终得到所述待检测信号对应的第一高频分量信号,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将多个帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征,通过深度学习模型对所述第一融合特征进行篡改音频检测,因此,采用上述技术手段,可以解决现有技术中,现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题,进而提供一种新的检测篡改音频的方法。
可选地,计算模块406还用于对所述第一高频分量信号进行快速傅里叶变换,得到变换结果;以帧为单位,计算所述变换结果的第二梅尔倒谱特征;对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征。
可选地,计算模块406还用于通过如下公式对所述第一高频分量信号进行快速傅里叶变换:
Figure 682783DEST_PATH_IMAGE003
其中,f代表频带,j代表虚数单位,N为帧长,n为所述第一高频分量信号的时间标签,exp为以自然常数e为底数的指数函数。需要说明的是,在对所述第一高频分量信号进行快速傅里叶变换,得到变换结果之前,还可以先对所述第一高频分量信号进行分帧操作。
需要说明的是,因为做离散余弦变化,目的是去除冗余分量,不做离散余弦变化,只影响结果的准确度,所以以帧为单位,计算所述变换结果的第二梅尔倒谱特征之后,可以不对所述第二梅尔倒谱特征进行离散余弦变换,直接把第二梅尔倒谱特征当作第一梅尔倒谱特征。
可选地,计算模块406还用于以帧为单位,计算所述变换结果的第二梅尔倒谱特征,包括:根据如下公示计算所述变换结果的第二梅尔倒谱特征:
Figure 802049DEST_PATH_IMAGE004
其中,X(f)为所述变换结果,|X(f)|为对X(f)做取范数运算,F为频带数量,f为频带的序号,i为梅尔滤波器的序号,Hi(f)为第i个梅尔滤波器在第f个频带的值,a为一个大于1的正整数,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征。
计算所述变换结果的第二梅尔倒谱特征,实际上是对所述变换结果进行梅尔滤波操作,i为梅尔滤波器的序号,同时,也表示的是梅尔滤波的维度,有多少个梅尔滤波器,该滤波就可以称之为多少维度的梅尔滤波。举例说明,i等于23,说明本次滤波有23个梅尔滤波器,本次滤波可以称之为23维度的梅尔滤波。
可选地,计算模块406还用于通过如下公式对所述第二梅尔倒谱特征进行离散余弦变换:
Figure 991722DEST_PATH_IMAGE002
其中,i为梅尔滤波器的序号,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征,a和b均为一个大于1的正整数,l为第二梅尔倒谱特征的特征索引, XC(l)为特征索引的值为l的情况下的第一梅尔倒谱特征。
l为第二梅尔倒谱特征的特征索引,该特征可以充分反应高频分量的能量分布情况,比如,l为12代表12维度的第二梅尔倒谱特征的特征索引。
可选地,检测模块408还用于获取训练信号,并对所述训练信号进行所述第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述训练信号对应的第二低频系数和第二高频系数;对阶数大于等于第二预设阶数的所述第二高频系数进行小波逆变换,得到所述训练信号对应的第二高频分量信号;以帧为单位计算所述第二高频分量信号的第三梅尔倒谱特征,并将所述第二高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第三梅尔倒谱特征融合,得到第二融合特征;根据所述训练信号对所述第二融合特征进行标注,并根据经过标注之后的第二融合特征对深度学习模型进行训练。
本公开实施例通过标注之后的所述第二高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的第二融合特征训练深度学习模型,使得,所述深度学习模型学习到帧信号的融合特征和所述帧信号是否属于篡改音频之间的对应关系,进而实现对篡改音频的检测。其中,融合特征和所述帧信号是否属于篡改音频之间的对应关系夜里理解为融合特征和篡改音频之间的对应关系。根据所述训练信号对所述第二融合特征进行标注,可以是将无篡改音频的第二融合特征的标签标记为1,将篡改音频的第二融合特征的标签标记为0。
可选地,计算模块406还用于使用内插算法构建降采样滤波器,其中,所述降采样滤波器以预设阈值作为降采样的倍数;根据所述降采样滤波器对所述第一高频分量信号进行滤波。
内插算法是离散时间序列的内插算法,根据所述内插算法构建以预设阈值作为降采样的倍数的降采样滤波器,根据所述降采样滤波器对所述第一高频分量信号进行滤波,去除冗余信息。
可选地,计算模块406还用于将所述第一低频系数均置为零,并且将阶数小于所述第二预设阶数的所述第一高频系数置为零;对阶数大于等于所述第二预设阶数的所述第一高频系数进行所述小波逆变换,得到所述第一高频分量信号。
可选地,计算模块406还用于通过如下公式对所述待检测信号进行第一预设阶数的小波变换:
Figure 891545DEST_PATH_IMAGE005
其中,y(n)是待检测信号,
Figure 457655DEST_PATH_IMAGE006
代表对信号y(n)做K阶小波变换,ak和bk分别代表信号y(n)经过小波变换在第k阶低频系数与高频系数,k取正整数,n是待检测信号的标签的序号。其中,小波基函数采用6阶Daubechies基函数, K取值范围可以为10-13之间。
可选地,计算模块406还用于通过如下公式将所述第一低频系数均置为零:
Figure 946274DEST_PATH_IMAGE007
可选地,计算模块406还用于通过如下公式将阶数小于所述第二预设阶数的所述第一高频系数置为零:
Figure 306849DEST_PATH_IMAGE008
将阶数小于所述第二预设阶数的所述第一高频系数置为零,相当于如下公式的效果:
Figure 693968DEST_PATH_IMAGE009
可选地,计算模块406还用于在将所述第一低频系数均置为零,并且将阶数小于所述第二预设阶数的所述第一高频系数置为零之后,通过如下公式对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换:
Figure 63769DEST_PATH_IMAGE010
其中,
Figure 892048DEST_PATH_IMAGE011
为所述待检测信号对应的第一高频分量信号。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本公开的实施例提供了一种电子设备。
图5示意性示出了本公开实施例提供的一种电子设备的结构框图。
参照图5所示,本公开实施例提供的电子设备500包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信;存储器503,用于存放计算机程序;处理器501,用于执行存储器上所存放的程序时,实现上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该输入输出设备与上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;
S2,对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;
S3,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;
S4,通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;
S2,对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;
S3,以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;
S4,通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述帧信号的所述第一融合特征和所述帧信号是否属于篡改音频之间的对应关系。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本公开的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
以上所述仅为本公开的优选实施例而已,并不用于限制于本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种篡改音频的检测方法,其特征在于,包括:
获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;
对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;
以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;
通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述当前帧信号的所述第一融合特征和所述当前帧信号是否属于篡改音频之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,包括:
对所述第一高频分量信号进行快速傅里叶变换,得到变换结果;
以帧为单位,计算所述变换结果的第二梅尔倒谱特征;
对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征。
3.根据权利要求2所述的方法,其特征在于,所述以帧为单位,计算所述变换结果的第二梅尔倒谱特征,包括:
根据如下公示计算所述变换结果的第二梅尔倒谱特征:
Figure 331092DEST_PATH_IMAGE001
其中,X(f)为所述变换结果,|X(f)|为对X(f)做取范数运算,F为频带数量,f为频带的序号,i为梅尔滤波器的序号,Hi(f)为第i个梅尔滤波器在第f个频带的值,a为一个大于1的正整数,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征。
4.根据权利要求2所述的方法,其特征在于,所述对所述第二梅尔倒谱特征进行离散余弦变换,得到所述第一梅尔倒谱特征,包括:
通过如下公式对所述第二梅尔倒谱特征进行离散余弦变换:
Figure 579671DEST_PATH_IMAGE002
其中,i为梅尔滤波器的序号,XMel(i)为第i个梅尔滤波器对应的第二梅尔倒谱特征,a和b均为一个大于1的正整数,l为第二梅尔倒谱特征的特征索引, XC(l)为特征索引的值为l的情况下的第一梅尔倒谱特征。
5.根据权利要求1所述的方法,其特征在于,包括:
获取训练信号,并对所述训练信号进行所述第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述训练信号对应的第二低频系数和第二高频系数;
对阶数大于等于第二预设阶数的所述第二高频系数进行小波逆变换,得到所述训练信号对应的第二高频分量信号;
以帧为单位计算所述第二高频分量信号的第三梅尔倒谱特征,并将所述第二高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第三梅尔倒谱特征融合,得到第二融合特征;
根据所述训练信号对所述第二融合特征进行标注,并根据经过标注之后的第二融合特征对深度学习模型进行训练。
6.根据权利要求2所述的方法,其特征在于,所述对所述第一高频分量信号进行快速傅里叶变换,得到变换结果之前,所述方法还包括:
使用内插算法构建降采样滤波器,其中,所述降采样滤波器以预设阈值作为降采样的倍数;
根据所述降采样滤波器对所述第一高频分量信号进行滤波。
7.根据权利要求1所述的方法,其特征在于,所述对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号,包括:
将所述第一低频系数均置为零,并且将阶数小于所述第二预设阶数的所述第一高频系数置为零;
对阶数大于等于所述第二预设阶数的所述第一高频系数进行所述小波逆变换,得到所述第一高频分量信号。
8.一种篡改音频的检测装置,其特征在于,包括:
第一变换模块,用于获取待检测信号,并对所述待检测信号进行第一预设阶数的小波变换,得到数量等于所述第一预设阶数的所述待检测信号对应的第一低频系数和第一高频系数;
第二变换模块,用于对阶数大于等于第二预设阶数的所述第一高频系数进行小波逆变换,得到所述待检测信号对应的第一高频分量信号;
计算模块,用于以帧为单位计算所述第一高频分量信号的第一梅尔倒谱特征,并将所述第一高频分量信号的当前帧信号和所述当前帧信号之前的预设数量的帧信号的所述第一梅尔倒谱特征融合,得到第一融合特征;
检测模块,用于通过深度学习模型对所述第一融合特征进行篡改音频检测,其中,所述深度学习模型已通过训练,学习并保存有所述当前帧信号的所述第一融合特征和所述当前帧信号是否属于篡改音频之间的对应关系。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
CN202111048241.XA 2021-09-08 2021-09-08 篡改音频的检测方法、装置、电子设备及存储介质 Active CN113488070B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111048241.XA CN113488070B (zh) 2021-09-08 2021-09-08 篡改音频的检测方法、装置、电子设备及存储介质
US17/667,212 US11636871B2 (en) 2021-09-08 2022-02-08 Method and electronic apparatus for detecting tampering audio, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111048241.XA CN113488070B (zh) 2021-09-08 2021-09-08 篡改音频的检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113488070A CN113488070A (zh) 2021-10-08
CN113488070B true CN113488070B (zh) 2021-11-16

Family

ID=77946744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111048241.XA Active CN113488070B (zh) 2021-09-08 2021-09-08 篡改音频的检测方法、装置、电子设备及存储介质

Country Status (2)

Country Link
US (1) US11636871B2 (zh)
CN (1) CN113488070B (zh)

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US6665444B1 (en) * 1999-04-28 2003-12-16 Canon Kabushiki Kaisha Image processing apparatus and method, and storage medium
US7630569B2 (en) * 2002-02-26 2009-12-08 Decegama Angel Real-time software video/audio transmission and display with content protection against camcorder piracy
WO2004075093A2 (en) * 2003-02-14 2004-09-02 University Of Rochester Music feature extraction using wavelet coefficient histograms
US20060227968A1 (en) * 2005-04-08 2006-10-12 Chen Oscal T Speech watermark system
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
US9076446B2 (en) * 2012-03-22 2015-07-07 Qiguang Lin Method and apparatus for robust speaker and speech recognition
US9195649B2 (en) * 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
EP3228084A4 (en) * 2014-12-01 2018-04-25 Inscape Data, Inc. System and method for continuous media segment identification
US9508134B2 (en) * 2015-03-13 2016-11-29 The Boeing Company Apparatus, system, and method for enhancing image data
US11398243B2 (en) * 2017-02-12 2022-07-26 Cardiokol Ltd. Verbal periodic screening for heart disease
US10692502B2 (en) * 2017-03-03 2020-06-23 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US10089994B1 (en) * 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
US11217076B1 (en) * 2018-01-30 2022-01-04 Amazon Technologies, Inc. Camera tampering detection based on audio and video
JP6876641B2 (ja) * 2018-02-20 2021-05-26 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
JP6967197B2 (ja) * 2018-05-18 2021-11-17 日本電気株式会社 異常検出装置、異常検出方法及びプログラム
US10593336B2 (en) * 2018-07-26 2020-03-17 Accenture Global Solutions Limited Machine learning for authenticating voice
CN111128133A (zh) * 2018-11-01 2020-05-08 普天信息技术有限公司 一种语音端点检测的方法和装置
US10602270B1 (en) * 2018-11-30 2020-03-24 Microsoft Technology Licensing, Llc Similarity measure assisted adaptation control
KR102635469B1 (ko) * 2019-03-18 2024-02-13 한국전자통신연구원 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
CN110853668B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于多种特征融合的语音篡改检测方法
CN110808059A (zh) * 2019-10-10 2020-02-18 天津大学 一种基于谱减法和小波变换的语音降噪方法
EP4078918B1 (en) * 2019-12-20 2023-11-08 Eduworks Corporation Real-time voice phishing detection
CN111210806B (zh) * 2020-01-10 2022-06-17 东南大学 一种基于串行fft的低功耗mfcc语音特征提取电路
EP4097717A4 (en) * 2020-01-27 2024-02-21 Pindrop Security Inc ROBUST SPOOFING DETECTION SYSTEM USING DEEP RESIDUAL NEURAL NETWORKS
US20220108702A1 (en) * 2020-10-01 2022-04-07 National Yunlin University Of Science And Technology Speaker recognition method
CN112509598B (zh) * 2020-11-20 2024-06-18 北京小米松果电子有限公司 音频检测方法及装置、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Classification of voiced and non-voiced speech signals using empirical wavelet transform and multi-level local patterns;T. Sunil Kumar;Md. Azahar Hussain;Vivek Kanhangad;《2015 IEEE International Conference on Digital Signal Processing (DSP)》;20150910;第163-167页 *
Wavelet based human voice identification system;Maryam Mohammed Mubarak al Balushi等;《2017 International Conference on Infocom Technologies and Unmanned Systems (Trends and Future Directions) (ICTUS)》;20180208;第188-192页 *
基于混合映射模型的语音转换算法研究;康永国等;《声学学报(中文版)》;20061110(第06期);第77-84页 *

Also Published As

Publication number Publication date
US20230076251A1 (en) 2023-03-09
US11636871B2 (en) 2023-04-25
CN113488070A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN108172213B (zh) 娇喘音频识别方法、装置、设备及计算机可读介质
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN111477250B (zh) 音频场景识别方法、音频场景识别模型的训练方法和装置
CN110718235B (zh) 异常声音检测的方法、电子设备及存储介质
CN110265052B (zh) 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110473528B (zh) 语音识别方法和装置、存储介质及电子装置
CN111770427A (zh) 麦克风阵列的检测方法、装置、设备以及存储介质
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN109831665B (zh) 一种视频质检方法、系统及终端设备
US20230326468A1 (en) Audio processing of missing audio information
CN110428835B (zh) 一种语音设备的调节方法、装置、存储介质及语音设备
CN111508524B (zh) 语音来源设备的识别方法和系统
CN112037800A (zh) 声纹核身模型训练方法、装置、介质及电子设备
CN114387977A (zh) 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN113555007B (zh) 语音拼接点检测方法及存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN113488070B (zh) 篡改音频的检测方法、装置、电子设备及存储介质
CN107437967A (zh) 基于声波的数据传输方法、发送设备和接收设备
CN116912636B (zh) 目标识别方法及装置
EP3477632A1 (en) Method and device for audio recognition
CN113421592B (zh) 篡改音频的检测方法、装置及存储介质
CN111081222A (zh) 语音识别方法、装置、存储介质以及电子装置
CN116935903A (zh) 音频均衡器的调节方法、装置、计算机设备及存储介质
CN112132031B (zh) 车款识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant