CN111916059B - 一种基于深度学习的平滑语音检测方法、装置及智能设备 - Google Patents
一种基于深度学习的平滑语音检测方法、装置及智能设备 Download PDFInfo
- Publication number
- CN111916059B CN111916059B CN202010619610.5A CN202010619610A CN111916059B CN 111916059 B CN111916059 B CN 111916059B CN 202010619610 A CN202010619610 A CN 202010619610A CN 111916059 B CN111916059 B CN 111916059B
- Authority
- CN
- China
- Prior art keywords
- voice
- smooth
- discrete cosine
- cosine transform
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 116
- 238000013135 deep learning Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims abstract description 26
- 238000010606 normalization Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000011176 pooling Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000006837 decompression Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 239000012634 fragment Substances 0.000 description 16
- 238000001914 filtration Methods 0.000 description 10
- 238000009499 grossing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于深度学习的平滑语音检测方法、装置及智能设备,方法包括:对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果。本发明能够有效地从原始语音片段中检测出经过音频编辑软件剪切的平滑语音片段,以及时发现语音片段是否篡改,为用户使用提供了方便。
Description
技术领域
本发明涉及多媒体信息安全与取证技术领域,尤其涉及的是一种基于深度学习的平滑语音检测方法、装置、智能设备及存储介质。
背景技术
近年来,随着智能手机的普及,人们能够通过手机方便地获取数字语音信号等多媒体信息。而随着数字语音信号处理技术的不断发展,Cool Edit Pro等音频编辑软件的功能也日趋完善。通过音频编辑软件,人们除了能够更专业地分析音频信号以外,还能够轻易地对语音信号进行剪切等篡改操作,并且让人难以察觉。这些被恶意伪造、篡改的语音信号很有可能会作为虚假信息散布在社会上引导大众舆论,甚至有可能会被人用作法庭举证来颠倒事实真相,这样会在一定程度上对个人以及社会带来威胁。因此,通过音频取证技术对手机录音进行篡改检测,能够用于判定手机录音的原始性和真实性,从而能够在一定程度上保障个人利益、维护社会稳定。
在语音篡改操作中,最直接的篡改方式是删除语音信号中的语音片段,从而达到改变语义的效果。当使用音频编辑软件对语音信号进行剪切时,软件会根据剪切处两端样本点的协调程度,自动地对剪切处两端的几十个样本点进行平滑处理以消除软件篡改痕迹。而软件进行自动滤波的滤波器类型以及参数通常是未知的。
现有技术中已有的方法能够检测被特定滤波器所滤波的语音片段,而无法有效地检测被音频编辑软件所自动滤波的极短语音片段,即现有技术中无法有效地检测被音频编辑软件篡改的极短语音片段,有时不方便用户使用。
因此,现有技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于深度学习的平滑语音检测方法、装置、智能设备及存储介质,本发明提供了一种基于深度学习的平滑语音检测方法,能够有效地从原始语音片段中检测出经过音频编辑软件剪切的平滑语音片段,以及时发现语音片段是否篡改,为用户使用提供了方便。
本发明解决问题所采用的技术方案如下:
一种基于深度学习的平滑语音检测方法,其中,所述方法包括:
对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;
设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;
将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;
使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果。
所述的基于深度学习的平滑语音检测方法,其中,所述对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数的步骤包括:
对接收到的语音信号进行解压缩,以原有的采样率以及位深将语音信号解压为单通道波形信号;
对波形信号进行离散余弦变换,得到语音信号的离散余弦变换系数:
所述的基于深度学习的平滑语音检测方法,其中,所述设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层的步骤包括:
设置能捕捉一维平滑信号差异的网络结构;采用5层卷积核为1x3的一维卷积层加2层全连接层的形式、进行特征提取分类;
在每层卷积层配备一个批量归一化层;
在第一、第二和第四个批量归一化层后面,使用采样核为1x3,步长为2的最大池化层来进行采样;
在第五个批量归一化层后面,使用全局平均池化层来进行降维;
全局平均池化层后面接两个节点数分别为512和2的全连接层进行分类,其中第一个全连接层后接一个批量归一化层;
除最后一层全连接层的输出使用softmax激活函数,其余各层的激活函数均为线性整流函数。
所述的基于深度学习的平滑语音检测方法,其中,所述将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型的步骤包括:
将语音信号的离散余弦变换系数输入到设置的所述平滑语音检测网络中,以监督学习的方式,通过基于梯度下降的反向传播算法来更新网络权值。
所述的基于深度学习的平滑语音检测方法,其中,所述使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果的步骤包括:
提取待测语音的离散余弦变换系数,将系数输入训练好的平滑语音检测网络中;
若所述网络输出[0,1],则判定语音信号为平滑语音;
若所述网络输出[1,0],则判定语音信号为原始语音。
所述的基于深度学习的平滑语音检测方法,其中,所述使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果的步骤包括:
将待测语音片段解压缩成对应的语音波形,对解压后的语音波形进行离散余弦变换得到离散余弦变换系数,然后将语音信号的离散余弦变换系数输入训练好的平滑语音检测网络进行测试检测,平滑语音检测网络分别输出原始语音和平滑语音。
一种基于深度学习的平滑语音检测装置,其中,所述装置包括:
解压变换模块,用于对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;
网络设置模块,用于设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;
训练模块,用于将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;
检测模块,用于使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果。
所述基于深度学习的平滑语音检测装置,其中,所述检测模块包括:
提取单元,用于提取待测语音的离散余弦变换系数,将系数输入训练好的平滑语音检测网络中;
平滑语音输出单元,用于若所述网络输出[0,1],则判定语音信号为平滑语音;
原始语音输出单元,用于若所述网络输出[1,0],则判定语音信号为原始语音。
一种智能设备,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行任意一项所述的方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行任意一项所述的方法。
本发明的有益效果:本发明提供了一种基于深度学习的平滑语音检测方法。采用一维卷积结构,对语音信号的离散余弦变换系数提取深层特征,利用提取的特征对平滑语音进行检测。与现有的方法相比,本发明不仅能够有效地检测来自相同手机设备的语音经过音频编辑软件处理后所产生的平滑语音片段,还能够有效地检测来自同一型号不同手机设备所产生的语音经过音频编辑软件处理所后产生的平滑语音片段,以及来自同意品牌不同型号的手机设备所产生的语音经过音频编辑软件处理后所产生的平滑语音片段。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于深度学习的平滑语音检测方法的流程示意图。
图2是本发明实施例提供的基于深度学习的平滑语音检测方法的平滑语音检测网络结构示意图。
图3是本发明实施例提供的基于深度学习的平滑语音检测方法的具体应用实施例流程示意图。
图4是本发明实施例提供的基于深度学习的平滑语音检测装置的原理框图。
图5是本发明实施例提供的智能设备的内部结构原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
现有技术中提出过一种检测中值滤波的一维信号的方法,其设计的算法是通过动态规划算来,来计算语音信号样本之间的相关性,从而来检测一维信号中是否存在中值滤波的样本。由于该方法主要是用于检测语音信号中值滤波的平滑处理,而对于其余滤波操作的平滑处理,未必能够有效地进行检测。
现有技术中还提出一种基于语音信号标准差的平滑处理检测方法,该方法首先提取语音信号的局部方差作为信号特征,包括差分信号的标准差、差分信号的中高频子带的标准差、以及语音信号中值滤波残差的差分信号的标准差。然后,该方法利用提取的特征去训练支持向量机等分类器,从而得到一个能够检测平滑语音信号的模型。为了能够检测音频编辑软件中的平滑处理,该方法使用六种常见的滤波模型来模拟音频编辑软件中的滤波模型,这六种滤波模型包括:三种三角滤波模型、中值滤波模型、均值滤波模型、以及高斯滤波模型。在训练时,该方法使用这六种滤波模型来对原始语音样本进行滤波,得到各种不同的平滑样本,然后将这些平滑样本以及原始样本混合在一起训练分类器。然而,由于该方法主要是通过信号的局部方差来检测平滑语音信号,因此该方法对于一些局部方差变动不大的平滑语音的检测效果不佳。此外,该方法训练的分类器本质上是捕捉了六种具体的平滑处理的语音信号与原始语音信号之间的差异,因此对实际语音编辑软件中的平滑处理的检测性能并未能让人满意。有时无法有效地检测被音频编辑软件篡改的极短语音片段,不方便用户使用。
基于现有技术所存在的问题,本发明实施例提供了一种基于深度学习的平滑语音检测方法。所述方法采用一维卷积结构,对语音信号的离散余弦变换系数提取深层特征,利用提取的特征对平滑语音进行检测。与现有的方法相比,本发明不仅能够有效地检测来自相同手机设备的语音经过音频编辑软件处理后所产生的平滑语音片段,还能够有效地检测来自同一型号不同手机设备所产生的语音经过音频编辑软件处理所后产生的平滑语音片段,以及来自同意品牌不同型号的手机设备所产生的语音经过音频编辑软件处理后所产生的平滑语音片段。
示例性方法
如图1中所示,本发明实施例提供一种基于深度学习的平滑语音检测方法,所述基于深度学习的平滑语音检测可以应用于带音频编辑检测软件的智能设备。在本发明实施例中,所述基于深度学习的平滑语音检测方法包括如下步骤:
训练阶段:
步骤S100.对接收到的语音信号解压缩,保持原有的采样率,并对语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;
步骤S200.设置基于一维卷积的平滑语音检测网络,该平滑语音检测网络主要由一维卷积层、归一化层、池化层以及全连接层组成;
步骤S300.将得到的语音信号的离散余弦变换系数输入平滑语音检测网络进行训练,得到一个具有识别平滑语音能力的模型;
检测阶段:
步骤S400.使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果。
本发明的原理在于,音频编辑软件在对语音信号剪切后,会对自动对剪切处两端的几十个样本点进行平滑处理,因此,经过音频编辑软件剪切处理的语音在剪切处附近的几十个样本点中留下篡改痕迹,而其余未经处理的位置是并不存在这种平滑痕迹。本发明提出的平滑语音检测网络,主要以一维卷积的形式,去捕捉被处理过的极短语音片段上的平滑痕迹,从而实现对极短平滑语音片段的检测。
下面结合附图和实施例对本发明的技术方案做进一步的说明
本实施例利用一个主要由5个一维卷积层以及2个全连接层组成的深度网络结构来提取语音信号的平滑差异并且根据提取的特征进行平滑语音的检测。与现有的方法相比,本发明不仅能够有效地检测来自相同手机设备的语音经过音频编辑软件处理后所产生的平滑语音片段,还能够有效地检测来自同一型号不同手机设备所产生的语音经过音频编辑软件处理所后产生的平滑语音片段,以及来自同意品牌不同型号的手机设备所产生的语音经过音频编辑软件处理后所产生的平滑语音片段。
在一些实施方式中,所述步骤S100中的对接收到的语音信号进行解压缩,保留原有的采样率,并对语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数的步骤包括:
对接收到的语音信号进行解压缩,以语音信号原本的采样率以及位深将语音信号解压为单通道波形信号,如图3所示;若原始压缩语音的采样率为44100Hz,位深为16比特,则解压后的语音波形的采样率以及位深则分别为44100Hz以及16比特;若原始压缩语音的采样率为48000Hz,位深为32比特,则解压后的语音波形的采样率以及位深则分别为48000Hz以及32比特;对波形信号进行离散余弦变换,得到语音信号的离散余弦变换系数:
其中,n表示语音时域信号中的样本点,k表示离散余弦变换系数的样本点;π,是一个数值(3.1415...)。x表示语音信号,x[n]为第n个样本点。X代表语音信号的离散余弦变换系数,X[k]代表第k个系数。小写x代表语音信号,大写的X表示离散余弦变换系数。
具体地,当使用手机进行录音时,不同手机会默认使用特定的采样率对语音信号进行采样,例如绝大部分iphone6手机都会使用44100Hz的频率对语音进行采样,而华为mate30pro则使用48000Hz的频率对语音信号进行采样,并使用不同的编解码器对语音信号进行压缩保存。而当对手机录音进行平滑处理检测时,则先需要对语音信号进行解压,从语音波形的一些变换域中进行检测。由于信号的频域能够反映不同频带的信息,因此使用网络对信号的频域信息进行特征提取以及分类。但是音频编辑软件所自动平滑的样本点数比较少,如果直接使用离散傅里叶变换,提取语音信号的傅里叶变换系数,作为网络的输入的话,有效的样本点数会比较少,这样不利于网络的学习。因此本发明实施例中采用对语音样本进行离散余弦变换,并将求得的离散余弦变换系数作为网络的输入。离散余弦变换系数可以有以下公式得到:
在一些实施方式中,所述步骤S200中的设置基于一维卷积的平滑语音检测网络,该平滑语音检测网络主要有一维卷积层、归一化层、池化层以及全连接层组成。考虑到实际中平滑的语音信号的样本点个数比较少,无法将如此短的一维平滑语音片段转化为二维的语谱图,所以本发明实施例中设置能够捕捉一维平滑信号差异的网络结构。
如图2所示,在本实施例设置的平滑语音检测网络中,使用了5层卷积核为1x3的一维卷积层加上2层全连接层的形式来进行特征提取分类。每一个卷积层的步长均为1,输入通道以及输出通道数[输入通道,输出通道]分别为:[1,128]、[128,256]、[256,384]、[384,384]以及[384,512]。在每层卷积层后面都配备一个批量归一化层。在第一、第二和第四个批量归一化层后面,都是使用了采样核为1x3,步长为2的最大池化层来进行下采样。而在第五个批量归一化层后面,则使用全局平均池化层来进行降维。全局平均池化层后面接的是两个节点数分别为512和2的全连接层来进行分类,其中第一个全连接层后面也接有一个批量归一化层。除了最后一层全连接层的输出使用了softmax激活函数外,其余各层的激活函数均为线性整流函数(ReLU)。
在一些实施方式中,步骤S300中的将语音信号的离散余弦变换系数输入平滑语音检测网络进行训练,得到一个具有识别平滑语音能力的网络模型。在本实施例中,采用的语音样本片段包含50个样本点,在计算其离散余弦变换后,能够得到50个离散余弦变换系数。这50个来自一个语音样本片段的离散余弦变换系数输入到设计的所述平滑语音检测网络中,以监督学习的方式,通过基于梯度下降的反向传播算法来更新网络的权值。本实施例将学习率设置为0.0002,批量设置为25,迭代次数设置为150,所有卷积层中的权值都使用均值为0,标准差为0.01的截断的正态分布来初始化,所有的归一化层的尺度和偏移都被初始化为0和1,而所有全连接层中的权值都使用均值为0,标准差为0.1的截断的正态分布来初始化。
在一些实施方式中,所述步骤S400中的使用训练好的网络,对待测的语音进行平滑检测,输出分类结果的步骤包括:提取待测语音的离散余弦变换系数,将系数输入训练好的平滑语音检测网络中,最后一层全连接神经网络会输出[0,1]或者[1,0];在本实施例中,输出[0,1],表示分类器将待测语音信号分类为平滑语音;输出[1,0],则表示分类器将待测语音信号判定为原始语音。
参考图3所示,为本发明一种基于深度学习的平滑语音检测方法较佳实施例的平滑语音检测流程图:如图3所示,本发明一种基于深度学习的平滑语音检测方法,在训练阶段,先将原始/平滑语音片段解压缩为语音波形,对语音波形进行离散余弦变换成离散余弦变换系数,即对接收到的语音信号解压缩,保持原有的采样率,并对语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;
然后将语音信号的离散余弦变换系数输入平滑语音检测网络进行训练,得到一个具有识别平滑语音能力的模型,即训练成平滑语音检测网络。
如图3所示,在测试阶段:
将待测语音片段解压缩成对应的语音波形,对解压后的语音波形进行离散余弦变换得到离散余弦变换系数,然后将语音信号的离散余弦变换系数输入训练好的平滑语音检测网络进行测试检测,平滑语音检测网络分别输出原始语音和平滑语音。
下面通过构造的数据库来测试本发明对从苹果手机的录音中产生的平滑处理语音信号的检测性能:
1、本实施例构造的数据库如下:
(1)首先模拟篡改者篡改语音信号的过程:先对20台苹果手机录制的MP4格式的语音进行解压,对解压之后的波形信号提取浊音片段,使用Cool Edit Pro删掉提取出来的每个浊音片段最中间的50%的语音样本点;然后将被Cool Edit Pro处理过的每一个浊音片段压缩回MP4格式。
(2)然后获取实验数据:首先将被处理过的MP4浊音片段解压,对解压后的每一个浊音片段提取最中间的50个样本点作为一个平滑样本片段,待所有浊音片段提取完毕后,则得到所有平滑样本片段;然后从同一浊音片段最中间100个样本点以外的位置,随机提取50个连续的样本点作为一个原始样本片段a,如果其余位置不足以提取50个连续的样本点,则丢弃此段浊音片段;然后从未被Cool Edit Pro处理过的每一个浊音片段中,随机提取50个连续的样本点,作为原始样本片段b。最后将提取出来的原始样本片段a和原始样本片段b混合在一起,得到所有原始样本片段。
(3)在得到所有原始样本片段以及所有平滑样本片段之后,则根据不同条件,按照正负样本1:1的比例,来选择不同的样本片段来组成训练集、验证集以及测试集。
2、检测相同来源的平滑语音信号的效果:
表1展示了从构造的数据库中,随机选择14440个原始样本片段和14440个平滑样本片段去训练平滑语音检测网络,随机选取另外3610个原始样本片段和3610个平滑样本片段作为验证集来选择训练的模型,对另外随机选取的4512个原始样本片段和4512个平滑样本片段的检测结果。
表1相同来源的平滑语音信号的检测性能(%)
TPR | TNR | ACC |
87.46 | 87.12 | 87.29 |
从表1可以看出,本发明能够有效地从原始语音片段中,检测平滑语音片段。
3、检测来自同一型号不同手机设备的平滑语音信号的效果:
在构造数据库的20台苹果手机中,有12台手机的型号是iphone6。表2展示了从构造的数据库中,随机选择其中6台iphone6手机产生的原始样本片段和平滑样本片段去训练平滑语音检测网络,并用训练完的模型去测试另外6台iphone6手机产生的样本片段的检测结果。在表2中,使用的训练数据、验证数据以及测试数据的数量分别为9026、2256和12998,其中原始样本片段和平滑样本片段的数量的比例均为1:1。
表2同一手机型号不同手机设备的平滑语音信号的检测性能(%)
TPR | TNR | ACC |
82.91 | 84.57 | 83.74 |
从表2可以看出,虽然检测的性能对比起表1的结果略有下降。但是本发明依旧能够取得83.74%的检测准确率。这表明本发明能够有效地检测来自同一型号不同手机设备的平滑语音信号。
4、检测来自相同品牌不同型号的平滑语音信号的效果:
在构造数据库的20台苹果手机中,有12台手机的型号是iphone6。另外8台设备为:4台iphone6s、2台iphone5s以及2台iphone5。表3展示了从构造的数据库中,选择其中12台iphone6手机产生的原始样本片段和平滑样本片段去训练平滑语音检测网络,并用训练完的模型去测试其余8台不同型号的手机产生的样本片段的检测结果。在表3中,使用的训练数据、验证数据以及测试数据的数量分别为17344、4336和18024,其中原始样本片段和平滑样本片段的数量的比例均为1:1。
表3同一手机品牌不同型号手机的平滑语音信号的检测性能(%)
TPR | TNR | ACC |
83.14 | 87.39 | 85.27 |
从表3可以看出,检测的性能对比起表1的结果略有下降,但是由于表3所使用的训练数据比表2使用的训练数据的多,所以其检测性能比表2中的检测性能好。由此可以看出,本发明能够有效并且鲁棒地检测对来自不同手机设备以及不同型号的手机所产生的平滑语音片段。
由上可见,本发明基于实际中音频编辑软件对语音信号处理后的自动平滑情况,设计了一个基于一维卷积的能够捕捉极短语音片段的平滑语音检测网络。为了充分发挥设计的网络的学习能力,本发明使用信号的离散余弦变换系数作为网络的输入,而设计的网络能够有效地根据输入的离散余弦变换系数捕捉到原始语音片段和平滑语音片段的差异,与现有的方法相比,本发明不仅能够有效地检测来自相同手机设备的语音经过音频编辑软件处理后所产生的平滑语音片段,还能够有效地检测来自同一型号不同手机设备所产生的语音经过音频编辑软件处理所后产生的平滑语音片段,以及来自同意品牌不同型号的手机设备所产生的语音经过音频编辑软件处理后所产生的平滑语音片段。这对于涉及音频取证领域具有重要意义。
示例性设备
如图4中所示,本发明实施例提供一种基于深度学习的平滑语音检测装置,所述装置包括:
解压变换模块510,用于对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;
网络设置模块520,用于设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;
训练模块530,用于将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;
检测模块540,用于使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果;具体如上所述。
其中,所述检测模块540包括:
提取单元,用于提取待测语音的离散余弦变换系数,将系数输入训练好的平滑语音检测网络中;
平滑语音输出单元,用于若所述网络输出[0,1],则判定语音信号为平滑语音;
原始语音输出单元,用于若所述网络输出[1,0],则判定语音信号为原始语音,具体如上所述。
基于上述实施例,本发明还提供了一种智能设备,其原理框图可以如图5所示。该智能设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中,该智能设备的处理器用于提供计算和控制能力。该智能设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的平滑语音检测方法。该智能设备的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图5中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能设备的限定,具体的智能设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;
设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;
将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;
使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明的有益效果:本发明提供了一种基于深度学习的平滑语音检测方法。采用一维卷积结构,对语音信号的离散余弦变换系数提取深层特征,利用提取的特征对平滑语音进行检测。与现有的方法相比,本发明不仅能够有效地检测来自相同手机设备的语音经过音频编辑软件处理后所产生的平滑语音片段,还能够有效地检测来自同一型号不同手机设备所产生的语音经过音频编辑软件处理所后产生的平滑语音片段,以及来自同意品牌不同型号的手机设备所产生的语音经过音频编辑软件处理后所产生的平滑语音片段。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (9)
1.一种基于深度学习的平滑语音检测方法,其特征在于,所述方法包括:
对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;
将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;
使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果;
所述对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数的步骤包括:
对接收到的语音信号进行解压缩,以原有的采样率以及位深将语音信号解压为单通道波形信号;
对波形信号进行离散余弦变换,得到语音信号的离散余弦变换系数:
2.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层的步骤包括:
设置能捕捉一维平滑信号差异的网络结构;采用5层卷积核为1x3的一维卷积层加2层全连接层的形式、进行特征提取分类;
在每层卷积层配备一个批量归一化层;
在第一、第二和第四个批量归一化层后面,使用采样核为1x3,步长为2的最大池化层来进行采样;
在第五个批量归一化层后面,使用全局平均池化层来进行降维;
全局平均池化层后面接两个节点数分别为512和2的全连接层进行分类,其中第一个全连接层后接一个批量归一化层;
除最后一层全连接层的输出使用softmax激活函数,其余各层的激活函数均为线性整流函数。
3.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型的步骤包括:
将语音信号的离散余弦变换系数输入到设置的所述平滑语音检测网络中,以监督学习的方式,通过基于梯度下降的反向传播算法来更新网络权值。
4.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果的步骤包括:
提取待测语音的离散余弦变换系数,将系数输入训练好的平滑语音检测网络中;
若所述具有识别平滑语音能力的网络模型输出[0,1],则判定语音信号为平滑语音;
若所述具有识别平滑语音能力的网络模型输出[1,0],则判定语音信号为原始语音。
5.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果的步骤包括:
将待测语音片段解压缩成对应的语音波形,对解压后的语音波形进行离散余弦变换得到离散余弦变换系数,然后将语音信号的离散余弦变换系数输入训练好的平滑语音检测网络进行测试检测,平滑语音检测网络分别输出原始语音和平滑语音。
6.一种基于深度学习的平滑语音检测装置,其特征在于,所述装置包括:
解压变换模块,用于对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;
网络设置模块,用于设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;
训练模块,用于将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;
检测模块,用于使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果;
所述对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数的步骤包括:
对接收到的语音信号进行解压缩,以原有的采样率以及位深将语音信号解压为单通道波形信号;
对波形信号进行离散余弦变换,得到语音信号的离散余弦变换系数:
7.根据权利要求6所述基于深度学习的平滑语音检测装置,其特征在于,所述检测模块包括:
提取单元,用于提取待测语音的离散余弦变换系数,将系数输入训练好的平滑语音检测网络中;
平滑语音输出单元,用于若所述具有识别平滑语音能力的网络模型输出[0,1],则判定语音信号为平滑语音;
原始语音输出单元,用于若所述具有识别平滑语音能力的网络模型输出[1,0],则判定语音信号为原始语音。
8.一种智能设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-5中任意一项所述的方法。
9.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-5中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010619610.5A CN111916059B (zh) | 2020-07-01 | 2020-07-01 | 一种基于深度学习的平滑语音检测方法、装置及智能设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010619610.5A CN111916059B (zh) | 2020-07-01 | 2020-07-01 | 一种基于深度学习的平滑语音检测方法、装置及智能设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111916059A CN111916059A (zh) | 2020-11-10 |
CN111916059B true CN111916059B (zh) | 2022-12-27 |
Family
ID=73227108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010619610.5A Active CN111916059B (zh) | 2020-07-01 | 2020-07-01 | 一种基于深度学习的平滑语音检测方法、装置及智能设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111916059B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634942B (zh) * | 2020-12-28 | 2022-05-17 | 深圳大学 | 一种手机录音原始性的鉴定方法、存储介质及设备 |
CN114387977A (zh) * | 2021-12-24 | 2022-04-22 | 深圳大学 | 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101383171A (zh) * | 2008-10-16 | 2009-03-11 | 中山大学 | 一种mp3音频的篡改盲检测方法 |
CN110060703A (zh) * | 2018-01-19 | 2019-07-26 | 深圳大学 | 一种检测并定位语音片段内的平滑处理的方法 |
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、系统、移动终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
-
2020
- 2020-07-01 CN CN202010619610.5A patent/CN111916059B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101383171A (zh) * | 2008-10-16 | 2009-03-11 | 中山大学 | 一种mp3音频的篡改盲检测方法 |
CN110060703A (zh) * | 2018-01-19 | 2019-07-26 | 深圳大学 | 一种检测并定位语音片段内的平滑处理的方法 |
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、系统、移动终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于STRAIGHT模型和人工神经网络的语音转换;张正军等;《电声技术》;20100917(第09期);第49-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111916059A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
CN111477250A (zh) | 音频场景识别方法、音频场景识别模型的训练方法和装置 | |
CN111916059B (zh) | 一种基于深度学习的平滑语音检测方法、装置及智能设备 | |
CN113327626B (zh) | 语音降噪方法、装置、设备及存储介质 | |
Zou et al. | Source cell phone verification from speech recordings using sparse representation | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN110556126A (zh) | 语音识别方法、装置以及计算机设备 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN110796000A (zh) | 基于双向lstm的唇形样本生成方法、装置和存储介质 | |
CN112767927A (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
CN114155875A (zh) | 语音场景篡改鉴别的方法、装置、电子设备及存储介质 | |
CN110310660B (zh) | 一种基于语谱图的语音重采样检测方法 | |
Chuchra et al. | A deep learning approach for splicing detection in digital audios | |
CN113838469A (zh) | 一种身份识别方法、系统及存储介质 | |
CN114420136A (zh) | 一种声纹识别模型训练的方法、装置以及存储介质 | |
CN112634942B (zh) | 一种手机录音原始性的鉴定方法、存储介质及设备 | |
CN115985347B (zh) | 基于深度学习的语音端点检测方法、装置和计算机设备 | |
CN116994590B (zh) | 一种深度伪造音频鉴别方法和系统 | |
WO2023160515A1 (zh) | 视频处理方法、装置、设备及介质 | |
CN116403585A (zh) | 一种基于鲁棒性特征的外呼客户识别方法及系统 | |
CN113920550A (zh) | 手指真伪识别方法、电子装置及存储介质 | |
CN114664327A (zh) | 语音判别方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |