CN113555037B - 篡改音频的篡改区域检测方法、装置及存储介质 - Google Patents

篡改音频的篡改区域检测方法、装置及存储介质 Download PDF

Info

Publication number
CN113555037B
CN113555037B CN202111103012.3A CN202111103012A CN113555037B CN 113555037 B CN113555037 B CN 113555037B CN 202111103012 A CN202111103012 A CN 202111103012A CN 113555037 B CN113555037 B CN 113555037B
Authority
CN
China
Prior art keywords
tampered
signal
detected
detection model
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111103012.3A
Other languages
English (en)
Other versions
CN113555037A (zh
Inventor
易江燕
陶建华
田正坤
傅睿博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111103012.3A priority Critical patent/CN113555037B/zh
Publication of CN113555037A publication Critical patent/CN113555037A/zh
Application granted granted Critical
Publication of CN113555037B publication Critical patent/CN113555037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Storage Device Security (AREA)

Abstract

本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。

Description

篡改音频的篡改区域检测方法、装置及存储介质
技术领域
本公开涉及语音识别领域,尤其涉及一种篡改音频的篡改区域检测方法、装置及存储介质。
背景技术
检测篡改音频的主要原理是音频文件在录制过程中会记录录音设备的固有特征(比如麦克风底噪),或者音频处理(压缩、去噪)等软件的固有信息,原始没有被篡改的文件这些固有信息不会随着时间改变,统计信息稳定。音频篡改是指根据内容和语义对语音文件进行插入、删除或替换,从而导致音频的语义与原始音频差异较大。其中,如何有效检测篡改的区域对司法取证至关重要。目前主要是采用基于信号处理的方法,鉴别音频文件是否被篡改,只有很少的工作开展音频的篡改区域边界的检测研究。最近有学者尝试采用高斯混合模型和轻量级卷积篡改区域检测模型对被篡改区域的起始和结束位置进行检测。但是现有技术在对音频篡改区域进行检测时,只考虑了音频的局部信息,没有考虑音频的全局信息,导致篡改区域边界检测准确率和召回率不高。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种篡改音频的篡改区域检测方法、装置及存储介质,以至少解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。
本公开的目的是通过以下技术方案实现的:
第一方面,本公开的实施例提供了一种篡改音频的篡改区域的检测方法,包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。
在一个示例性实施例中,所述通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,包括:将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据;以预设数值作为平滑窗口的窗口数,通过所述平滑窗口对所述检测数据进行平滑处理,得到所述待检测信号被篡改的起始位置和终止位置。
在一个示例性实施例中,所述将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据之后,所述方法还包括:通过如下公式确定所述待检测信号被篡改的起始位置和终止位置:
Figure 60670DEST_PATH_IMAGE001
pj为第j帧所述待检测信号被篡改的概率,pj是所述篡改区域检测模型输出每帧所述待检测信号的标签时,携带输出的,Pend为第j帧所述待检测信号是所述起始位置或所述终止位置的概率,∏为求乘积的运算符,j为第j帧所述待检测信号的序号,N为所述待检测信号中连续帧信号的总数;其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和每帧所述待检测信号被篡改的概率之间的对应关系。
在一个示例性实施例中,所述篡改区域检测模型,包括:输入层网络、多个隐藏层网络和输出层网络;其中,所述隐藏层网络,包括:自注意力网络层和全连接层;其中,所述自注意力网络层和所述全连接层通过残差连接。
在一个示例性实施例中,所述自注意力网络层,包括:多个注意力函数;其中,所述自注意力网络层的输出是由多个所述注意力函数的输出拼接得到的。
在一个示例性实施例中,通过如下公式对多个所述注意力函数的输出进行拼接,以得到所述自注意力网络层的输出:
Figure 646372DEST_PATH_IMAGE002
其中,SelfAtt为自注意力函数,Concat为拼接函数,用于对多个所述注意力函数的输出进行拼接操作,Wo为输出权重参数,Q为查询矩阵,K为关键词矩阵,V为键值向量,Q、K和V与所述待检测信号相关,K与V组成键值对,Oi为第i个所述注意力函数的输出,O为自注意力网络层的输出。
在一个示例性实施例中,通过如下公式得到第i个所述注意力函数的输出:
Figure DEST_PATH_IMAGE003
其中,Att为注意力函数,softmax为激活函数,Wi q为第i个所述注意力函数的查询权重参数,Wi k为第i个所述注意力函数的关键词权重参数,Wi v为第i个所述注意力函数的键值权重参数,KT为矩阵K的转置,dk为矩阵K的维度。
在一个示例性实施例中,所述获取待检测信号,并提取所述待检测信号的声学特征之前,所述方法还包括:获取训练信号,并提取所述训练信号的声学特征;对所述声学特征进行标注处理,得到所述待检测信号的标签;根据所述声学特征和所述标签对所述篡改区域检测模型进行训练。
第二方面,本公开的实施例提供了一种篡改音频的篡改区域的检测装置,包括:提取模块,用于获取待检测信号,并提取所述待检测信号的声学特征;检测模块,用于将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;处理模块,用于通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。
第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的篡改音频的篡改区域的检测方法或图像处理的方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的篡改音频的篡改区域的检测方法或图像处理的方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。因为,本公开实施例通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,得到了所述待检测信号被篡改的起始位置和终止位置,就相当于得到了所述待检测信号被篡改的篡改区域,因此,采用上述技术手段,可以解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题,进而提高检测音频的篡改区域的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本公开实施例一种篡改音频的篡改区域的检测方法的计算机终端的硬件结构框图;
图2示意性示出了本公开实施例的一种篡改音频的篡改区域的检测方法的流程图;
图3示意性示出了本公开实施例的一种篡改音频的篡改区域的检测方法的流程示意图;
图4示意性示出了本公开实施例的一种篡改音频的篡改区域的检测装置的结构框图;
图5示意性示出了本公开实施例提供的一种电子设备的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本公开。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本公开实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1示意性示出了本公开实施例的一种篡改音频的篡改区域的检测方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(MicroprocessorUnit,简称是MPU)或可编程逻辑器件(Programmable logic device,简称是PLD)等处理装置和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本公开实施例中的篡改音频的篡改区域的检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本公开实施例中提供了一种篡改音频的篡改区域的检测方法,图2示意性示出了本公开实施例的一种篡改音频的篡改区域的检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待检测信号,并提取所述待检测信号的声学特征;
步骤S204,将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;
步骤S206,通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。
通过本公开,获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。因为,本公开实施例通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,因此,采用上述技术手段,可以解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题,进而提高检测音频的篡改区域的准确率。
在步骤S206中,通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,包括:将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据;以预设数值作为平滑窗口的窗口数,通过所述平滑窗口对所述检测数据进行平滑处理,得到所述待检测信号被篡改的起始位置和终止位置。
所述篡改区域检测模型输出的顺序也就是每帧所述待检测信号在所有待检测信号中的顺序,所述待检测信号的标签所对应的值可以是1或者0,其中标签的值为0可以是标签为0,表示该帧信号没有被篡改,标签为1,表示该帧信号被篡改。举例说明,检测数据为“111100000”,其中,“111100000”表示所述待检测信号有9帧,这是帧级别的表示,其中,前四帧信号没有被篡改,后五帧信号被篡改。对所述标签进行平滑处理,就是将帧级别的表示“111100000”转为段级别语音的起始位置和终止位置“0-4-T/4-9-F”,“0-4-T/4-9-F”中0-4-T代表第0帧到第4帧为真,即没有被篡改,5-9-F代表第5帧到第9帧为假,即被篡改。需要说明的是,将所述声学特征输入篡改区域检测模型,篡改区域检测模型是以帧为单位,对所述声学特征进行检测的,同时,也是以帧为单位,输出所述待检测信号的标签。所以,所述声学特征如果不是以帧为单位,篡改区域检测模型对所述声学特征进行检测之前,还应该对所述声学特征进行分帧操作。
在步骤S206中,将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据之后,所述方法还包括:通过如下公式确定所述待检测信号被篡改的起始位置和终止位置:
Figure 76216DEST_PATH_IMAGE001
pj为第j帧所述待检测信号的序号被篡改的概率,pj是所述篡改区域检测模型输出每帧所述待检测信号的标签时,携带输出的,Pend为第j帧所述待检测信号是所述起始位置或所述终止位置的概率,∏为求乘积的运算符,j为第j帧所述待检测信号的序号,N为所述待检测信号中连续帧信号的总数;其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和每帧所述待检测信号被篡改的概率之间的对应关系。
需要说明的是,平均平滑策略是将帧级别的表示转为段级别的表示,段级别包括多个帧信号,篡改区域检测模型是检测帧级别的待检测信号,而平均平滑策略是处理段级别的待检测信号。因为所述待检测信号中帧信号是连续的,所以,N为所述待检测信号中连续帧信号的总数,实际上就是N为所述待检测信号中帧信号的总数,N为所述待检测信号有多少帧。
所述篡改区域检测模型,包括:输入层网络、多个隐藏层网络和输出层网络;其中,所述隐藏层网络,包括:自注意力网络层和全连接层;其中,所述自注意力网络层和所述全连接层通过残差连接。
现有技术中,将一个模型除了输入层网络和输出层网络之外的部分都可以归为隐藏层网络,隐藏层可以将输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征,这些特征能更好的进行线性划分。残差连接,是将输出表述为输入和输入的一个非线性变换的线性叠加,可以解决随着网络深度的增加,带来的许多问题,如梯度消散,梯度爆炸。
所述自注意力网络层,包括:多个注意力函数;其中,所述自注意力网络层的输出是由多个所述注意力函数的输出拼接得到的。
本公开实施例通过Concat拼接函数,将多个所述注意力函数的输出拼接得到所述自注意力网络层的输出。自注意力网络层相当于SelfAtt自注意力函数,注意力函数为Att。
在步骤S204中,通过如下公式对多个所述注意力函数的输出进行拼接,以得到所述自注意力网络层的输出:
Figure 380158DEST_PATH_IMAGE002
其中,SelfAtt为自注意力函数,Concat为拼接函数,用于对多个所述注意力函数的输出进行拼接操作,Wo为输出权重参数,Q为查询矩阵,K为关键词矩阵,V为键值向量,Q、K和V与所述待检测信号相关,K与V组成键值对,Oi为第i个所述注意力函数的输出,O为自注意力网络层的输出。
Q、K和V与所述待检测信号相关,可以理解的是,将所述待检测信号的声学特征输入所述输入层,输出关于所述待检测信号的声学特征的输入层映射信息,Q、K和V是所述自注意力网络层原有的矩阵或者向量,本公开实施例中的Q、K和V是根据所述输入层映射信息调整各自参数后的Q、K和V。
通过上述公式对多个所述注意力函数的输出进行拼接,是篡改区域检测模型的隐藏层网络的自注意力网络层的运算,矩阵Q,关键词K,键值向量V可以是输入层网络的输出,也可以是当前自注意力网络层的上一个自注意力网络层的输出。K与V组成的键值对是现有技术,本公开实施例,对此不作详细说明。自注意力网络层的输出O经过输出层网络处理,可以得到所述待检测信号的标签。
在步骤S204中,通过如下公式得到第i个所述注意力函数的输出:
Figure 655282DEST_PATH_IMAGE003
其中,Att为注意力函数,softmax为激活函数,Wi q为第i个所述注意力函数的查询权重参数,Wi k为第i个所述注意力函数的关键词权重参数,Wi v为第i个所述注意力函数的键值权重参数,KT为矩阵K的转置,dk为矩阵K的维度。
上述公式是篡改区域检测模型的隐藏层网络的自注意力网络层内的每一个注意力函数的运算,通过上述公式得到了第i个所述注意力函数的输出Oi
在执行步骤S202之前,获取待检测信号,并提取所述待检测信号的声学特征之前,所述方法还包括:获取训练信号,并提取所述训练信号的声学特征;对所述声学特征进行标注处理,得到所述待检测信号的标签;根据所述声学特征和所述标签对所述篡改区域检测模型进行训练。
本公开实施例中的声学特征可以是线性预测谱系数LFCC,还可以是MFCC和常数Q倒谱系数(CQCC)等声学特征,只要是现有技术存在的任意一种声学特征都可以。声学特征是分帧加窗后提取的,因为提取所述训练信号的声学特征是现有技术,本公开实施例,对此不作详细说明。对所述声学特征进行标注处理,得到所述待检测信号的标签,可以是所述待检测信号的一帧信号没有被篡改,那么标注为1,如果该帧信号被篡改,那么标注为0。根据所述声学特征和所述标签对所述篡改区域检测模型进行训练之后,所述篡改区域检测模型就可以通过所述声学特征检测出所述声学特征所在待检测信号是否被篡改。
在整个训练过程中,所述篡改区域检测模型还学习并保存有所述声学特征和每帧所述待检测信号被篡改的概率之间的对应关系。
为了更好的理解上述技术方案,本公开实施例还提供了一种可选实施例,用于解释说明上述技术方案。
图3示意性示出了本公开实施例的一种篡改音频的篡改区域的检测方法的流程示意图,如图3所示:
S302:获取待检测信号;
S304:提取所述待检测信号的声学特征;
S306:将所述声学特征输入篡改区域检测模型,输出所述待检测信号的标签;
S308:对所述标签进行平滑处理,得到所述待检测信号被篡改的起始位置和终止位置。
通过本公开,获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。因为,本公开实施例通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,因此,采用上述技术手段,可以解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题,进而提高检测音频的篡改区域的准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(RandomAccessMemory,简称为RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,组件服务端,或者网络设备等)执行本公开各个实施例的方法。
在本实施例中还提供了一种篡改音频的篡改区域的检测装置,该篡改音频的篡改区域的检测装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4示意性示出了本公开可选实施例的一种篡改音频的篡改区域的检测装置的结构框图,如图4所示,该装置包括:
提取模块402,用于获取待检测信号,并提取所述待检测信号的声学特征;
检测模块404,用于将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;
处理模块406,用于通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。
通过本公开,获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。因为,本公开实施例通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,因此,采用上述技术手段,可以解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题,进而提高检测音频的篡改区域的准确率。
可选地,处理模块406还用于将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据;以预设数值作为平滑窗口的窗口数,通过所述平滑窗口对所述检测数据进行平滑处理,得到所述待检测信号被篡改的起始位置和终止位置。
所述篡改区域检测模型输出的顺序也就是每帧所述待检测信号在所有待检测信号中的顺序,所述待检测信号的标签所对应的值可以是1或者0,其中标签的值为0可以是标签为0,表示该帧信号没有被篡改,标签为1,表示该帧信号被篡改。举例说明,检测数据为“111100000”,其中,“111100000”表示所述待检测信号有9帧,其中,前四帧信号没有被篡改,后五帧信号被篡改。对所述标签进行平滑处理,就是将“111100000”转为帧级别语音的起始位置和终止位置“0-4-T/4-9-F”,“0-4-T/4-9-F”中0-4-T代表第0帧到第4帧为真,即没有被篡改,5-9-F代表第5帧到第9帧为假,即被篡改。需要说明的是,将所述声学特征输入篡改区域检测模型,篡改区域检测模型是以帧为单位,对所述声学特征进行检测的,同时,也是以帧为单位,输出所述待检测信号的标签。所以,所述声学特征如果不是以帧为单位,篡改区域检测模型对所述声学特征进行检测之前,还应该对所述声学特征进行分帧操作。
可选地,处理模块406还用于通过如下公式确定所述待检测信号被篡改的起始位置和终止位置:
Figure 298753DEST_PATH_IMAGE001
pj为第j帧所述待检测信号的序号被篡改的概率,pj是所述篡改区域检测模型输出每帧所述待检测信号的标签时,携带输出的,Pend为第j帧所述待检测信号是所述起始位置或所述终止位置的概率,∏为求乘积的运算符,j为第j帧所述待检测信号的序号,N为所述待检测信号中连续帧信号的总数;其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和每帧所述待检测信号被篡改的概率之间的对应关系。
所述篡改区域检测模型,包括:输入层网络、多个隐藏层网络和输出层网络;其中,所述隐藏层网络,包括:自注意力网络层和全连接层;其中,所述自注意力网络层和所述全连接层通过残差连接。
现有技术中,将一个模型除了输入层网络和输出层网络之外的部分都可以归为隐藏层网络,隐藏层可以将输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征,这些特征能更好的进行线性划分。残差连接,是将输出表述为输入和输入的一个非线性变换的线性叠加,可以解决随着网络深度的增加,带来的许多问题,如梯度消散,梯度爆炸。
所述自注意力网络层,包括:多个注意力函数;其中,所述自注意力网络层的输出是由多个所述注意力函数的输出拼接得到的。
本公开实施例通过Concat拼接函数,将多个所述注意力函数的输出拼接得到所述自注意力网络层的输出。自注意力网络层相当于SelfAtt自注意力函数,注意力函数为Att。
可选地,检测模块404还用于通过如下公式对多个所述注意力函数的输出进行拼接,以得到所述自注意力网络层的输出:
Figure 696236DEST_PATH_IMAGE002
其中,SelfAtt为自注意力函数,Concat为拼接函数,用于对多个所述注意力函数的输出进行拼接操作,Wo为输出权重参数,Q为查询矩阵,K为关键词矩阵,V为键值向量,Q、K和V与所述待检测信号相关,K与V组成键值对,Oi为第i个所述注意力函数的输出,O为自注意力网络层的输出。
Q、K和V与所述待检测信号相关,可以理解的是,将所述待检测信号的声学特征输入所述输入层,输出关于所述待检测信号的声学特征的输入层映射信息,Q、K和V是所述自注意力网络层原有的矩阵或者向量,本公开实施例中的Q、K和V是根据所述输入层映射信息调整各自参数后的Q、K和V。
可选地,检测模块404还用于通过如下公式得到第i个所述注意力函数的输出:
Figure 425158DEST_PATH_IMAGE003
其中,Att为注意力函数,softmax为激活函数,Wi q为第i个所述注意力函数的查询权重参数,Wi k为第i个所述注意力函数的关键词权重参数,Wi v为第i个所述注意力函数的键值权重参数,KT为矩阵K的转置,dk为矩阵K的维度。
上述公式是篡改区域检测模型的隐藏层网络的自注意力网络层内的每一个注意力函数的运算,通过上述公式得到了第i个所述注意力函数的输出Oi
可选地,提取模块402还用于获取训练信号,并提取所述训练信号的声学特征;对所述声学特征进行标注处理,得到所述待检测信号的标签;根据所述声学特征和所述标签对所述篡改区域检测模型进行训练。
本公开实施例中的声学特征可以是线性预测谱系数LFCC,还可以是MFCC和CQCC等声学特征,只要是现有技术存在的任意一种声学特征都可以。提取所述训练信号的声学特征是现有技术,本公开实施例,对此不作详细说明。对所述声学特征进行标注处理,得到所述待检测信号的标签,可以是所述待检测信号的一帧信号没有被篡改,那么标注为1,如果该帧信号被篡改,那么标注为0。根据所述声学特征和所述标签对所述篡改区域检测模型进行训练之后,所述篡改区域检测模型就可以通过所述声学特征检测出所述声学特征所在待检测信号是否被篡改。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本公开的实施例提供了一种电子设备。
图5示意性示出了本公开实施例提供的一种电子设备的结构框图。
参照图5所示,本公开实施例提供的电子设备500包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信;存储器503,用于存放计算机程序;处理器501,用于执行存储器上所存放的程序时,实现上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该输入输出设备与上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待检测信号,并提取所述待检测信号的声学特征;
S2,将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;
S3,通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待检测信号,并提取所述待检测信号的声学特征;
S2,将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;
S3,通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本公开的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
以上所述仅为本公开的优选实施例而已,并不用于限制于本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种篡改音频的篡改区域的检测方法,其特征在于,包括:
获取待检测信号,并提取所述待检测信号的声学特征;
将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;所述篡改区域检测模型,包括:输入层网络、多个隐藏层网络和输出层网络;其中,所述隐藏层网络,包括:自注意力网络层和全连接层;所述自注意力网络层和所述全连接层通过残差连接;
通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置;
其中,所述通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,包括:
将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据;
以预设数值作为平滑窗口的窗口数,通过所述平滑窗口对所述检测数据进行平滑处理,得到所述待检测信号被篡改的起始位置和终止位置。
2.根据权利要求1所述的方法,其特征在于,所述将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据之后,所述方法还包括:
通过如下公式确定所述待检测信号被篡改的起始位置和终止位置:
Figure 854103DEST_PATH_IMAGE001
pj为第j帧所述待检测信号被篡改的概率,pj是所述篡改区域检测模型输出每帧所述待检测信号的标签时,携带输出的,Pend为第j帧所述待检测信号是所述起始位置或所述终止位置的概率,∏为求乘积的运算符,j为第j帧所述待检测信号的序号,N为所述待检测信号中连续帧信号的总数;
其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和每帧所述待检测信号被篡改的概率之间的对应关系。
3.根据权利要求1所述的方法,其特征在于,所述自注意力网络层,包括:多个注意力函数;
其中,所述自注意力网络层的输出是由多个所述注意力函数的输出拼接得到的。
4.根据权利要求3所述的方法,其特征在于,通过如下公式对多个所述注意力函数的输出进行拼接,以得到所述自注意力网络层的输出:
Figure 696157DEST_PATH_IMAGE002
其中,SelfAtt为自注意力函数,Concat为拼接函数,用于对多个所述注意力函数的输出进行拼接操作,Wo为输出权重参数,Q为查询矩阵,K为关键词矩阵,V为键值向量,Q、K和V与所述待检测信号相关,K与V组成键值对,Oi为第i个所述注意力函数的输出,O为自注意力网络层的输出。
5.根据权利要求4所述的方法,其特征在于,通过如下公式得到第i个所述注意力函数的输出:
Figure 153683DEST_PATH_IMAGE003
其中,Att为注意力函数,softmax为激活函数,Wi q为第i个所述注意力函数的查询权重参数,Wi k为第i个所述注意力函数的关键词权重参数,Wi v为第i个所述注意力函数的键值权重参数,KT为矩阵K的转置,dk为矩阵K的维度。
6.根据权利要求1所述的方法,其特征在于,所述获取待检测信号,并提取所述待检测信号的声学特征之前,所述方法还包括:
获取训练信号,并提取所述训练信号的声学特征;
对所述声学特征进行标注处理,得到所述待检测信号的标签;
根据所述声学特征和所述标签对所述篡改区域检测模型进行训练。
7.一种篡改音频的篡改区域的检测装置,其特征在于,包括:
提取模块,用于获取待检测信号,并提取所述待检测信号的声学特征;
检测模块,用于将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;所述篡改区域检测模型,包括:输入层网络、多个隐藏层网络和输出层网络;其中,所述隐藏层网络,包括:自注意力网络层和全连接层;所述自注意力网络层和所述全连接层通过残差连接;
处理模块,用于通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置;
其中,所述通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置,包括:
将所述篡改区域检测模型输出的多帧所述待检测信号的标签所对应的值按照所述篡改区域检测模型输出的顺序合并,得到检测数据;
以预设数值作为平滑窗口的窗口数,通过所述平滑窗口对所述检测数据进行平滑处理,得到所述待检测信号被篡改的起始位置和终止位置。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
CN202111103012.3A 2021-09-18 2021-09-18 篡改音频的篡改区域检测方法、装置及存储介质 Active CN113555037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111103012.3A CN113555037B (zh) 2021-09-18 2021-09-18 篡改音频的篡改区域检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111103012.3A CN113555037B (zh) 2021-09-18 2021-09-18 篡改音频的篡改区域检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113555037A CN113555037A (zh) 2021-10-26
CN113555037B true CN113555037B (zh) 2022-01-11

Family

ID=78106439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111103012.3A Active CN113555037B (zh) 2021-09-18 2021-09-18 篡改音频的篡改区域检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113555037B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117912488B (zh) * 2024-01-30 2024-08-16 合肥工业大学 通用音频篡改定位方法、系统、存储介质和电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886533B2 (en) * 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
CN108538312B (zh) * 2018-04-28 2020-06-02 华中师范大学 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN108831506B (zh) * 2018-06-25 2020-07-10 华中师范大学 基于gmm-bic的数字音频篡改点检测方法及系统
CN111785303B (zh) * 2020-06-30 2024-04-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN112447189A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 语音事件检测方法、装置、电子设备及计算机存储介质
CN112820324B (zh) * 2020-12-31 2024-06-25 平安科技(深圳)有限公司 多标签语音活动检测方法、装置及存储介质
CN113178199B (zh) * 2021-06-29 2021-08-31 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法

Also Published As

Publication number Publication date
CN113555037A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
EP3893125A1 (en) Method and apparatus for searching video segment, device, medium and computer program product
CN110473528B (zh) 语音识别方法和装置、存储介质及电子装置
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
CN113140012B (zh) 图像处理方法、装置、介质及电子设备
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN116932919B (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN113555007B (zh) 语音拼接点检测方法及存储介质
CN113555037B (zh) 篡改音频的篡改区域检测方法、装置及存储介质
CN115883878A (zh) 视频剪辑方法、装置、电子设备及存储介质
CN114005019B (zh) 一种翻拍图像识别方法及其相关设备
CN114758330A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN113223487B (zh) 一种信息识别方法及装置、电子设备和存储介质
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN113488070B (zh) 篡改音频的检测方法、装置、电子设备及存储介质
CN113724698B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN115798520A (zh) 语音检测的方法和装置、电子设备和存储介质
CN114005436A (zh) 语音端点的确定方法、装置及存储介质
US20220277761A1 (en) Impression estimation apparatus, learning apparatus, methods and programs for the same
CN115988100B (zh) 基于多协议自适应的设备智能感知物联网网关管理方法
CN112863542B (zh) 语音检测方法和装置、存储介质及电子设备
CN113808579B (zh) 生成语音的检测方法、装置、电子设备及存储介质
CN113421592B (zh) 篡改音频的检测方法、装置及存储介质
CN113782033B (zh) 一种声纹识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant