CN110853656A - 基于改进神经网络的音频篡改识别算法 - Google Patents
基于改进神经网络的音频篡改识别算法 Download PDFInfo
- Publication number
- CN110853656A CN110853656A CN201910845468.3A CN201910845468A CN110853656A CN 110853656 A CN110853656 A CN 110853656A CN 201910845468 A CN201910845468 A CN 201910845468A CN 110853656 A CN110853656 A CN 110853656A
- Authority
- CN
- China
- Prior art keywords
- audio
- model
- layer
- neural network
- tampering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
本发明公开了一种基于改进神经网络的音频篡改识别算法,其将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构,将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中,综合了音频信号的频谱和时序信息;通过在CNNs结构中加入改进池化层,使得CNNs可以输入任意尺寸谱图,解决音频长度不固定问题;增加注意力机制挖掘高层特征的权重比例,最终得到优质的音频特征;并利用数据融合理论进行决策融合的算法;提高音频篡改识别的识别率和模型的鲁棒性。本发明能够有效识别出音频篡改与否,克服了传统音频篡改识别率较低的问题。
Description
技术领域
本发明属于音频篡改领域,具体涉及一种基于改进神经网络的音频篡改识别算法。
背景技术
数字音频编辑技术的日益成熟破坏了数字音频的真实性和完整性。将篡改后的音频用于法庭作为证据时,会对案情的判定产生很大的影响。因此,判定音频篡改与否是司法有关部门亟待解决的问题。
2005年,Grigoras.C发现利用市电供电的录音信号中存在着电网频率成分,并提取了待测音频中的电网频率特征与供电部门地区电网频率特征数据库中的数据进行匹配和对比,发现具有较高程度的相似性,第一次提出了可利用这个特点进行音频篡改检测,能够有效地解决以往技术无法解决的音频数据被部分抹去或拼接问题。如果音频信号中不包含电网频率特征,音频篡改检测就非常困难。目前主要有稳健水印技术、EM插值检测、噪声帧统计等方法。但现代音频编辑软件功能非常强大,当采样率相同的两段音频进行拼接,不会产生插值处理,而且软件一般会对编辑处的间断点会进行平滑处理,对周围少量的样点产生微小的影响,从而在频谱上看编辑软件将多段语音很好地拼接在一起,不跟原始音频对比,无法从时频域上进行区分。
随着机器学习和深度学习技术的发展,研究者们提出了多种有效地机器学习和深度学习识别模型。其中经典的机器学习模型主要包括:朴素贝叶斯分类器、k近邻(k-Nearest Neighbor,kNN)、支持向量机(SupportVector Machine,SVM)等等,这些方法在声音分类问题上取得了巨大的成功。二十世纪五十年代,感知机学习算法问世,感知机是一种类似于人类学习过程的算法模型,感知机的提出促进了神经网络的发展,其中深度学习是学习神经网络参数的一套强大技术。目前,深度学习已经成功地运用在人工智能中,计算机视觉、语音识别和自然语言处理的迅猛发展都离不开深度学习算法。深度学习常用的算法包括:深度神经网络(Deep Neural Networks,DNNs)、卷积神经网络 (ConvolutionalNeural Networks,CNNs)、循环神经网络(Recurrent Neural Networks, RNNs)等等,在这些经典网络基础上,研究者们针对不同任务提出了大量卓越的改进算法。
因此,针对音频篡改采用深度学习算法进行识别是未来的研究方向之一。从目前的研究情况来看,针对音频篡改识别的研究相对较少。首先是音频篡改识别的特征研究不足;其次,是音频篡改识别模型,已有的音频篡改模型均为传统信号处理模型,很少采用机器学习和深度学习进行分析。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于改进神经网络的音频篡改识别算法。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种基于改进神经网络的音频篡改识别算法,其特征在于:包括以下步骤,
步骤A:对每条待检测的音频提取语音梅尔谱图和帧级特征;
步骤B:通过在标准CNNs结构中加入改进池化层构造出模型一,模型一用于将任意大小的谱图池化成固定长度;
步骤C,利用一层双向LSTM、一层单向LSTM和一层Attention层构造模型二,模型二用于获得音频的高层特征的权重比例;
步骤D,所述步骤A中提取的语音梅尔谱图作为模型一的输入,步骤A中提取的帧级特征作为模型二的输入,采用数据融合理论进行决策融合,判断音频是否篡改并确定篡改位置。
优选地,所述步骤B中,模型一的构造方法包括顺序执行以下步骤:
步骤B1、通过两层卷积层,卷积核大小为3*3,卷积核个数为64,得到W*H*64 的特征映射图,其中,W代表帧数,H代表梅尔频率;
步骤B2、通过两层卷积层,卷积核大小为5*5,卷积核个数为64,得到W*H*128 的特征映射图;
步骤B3、连接采用步骤B2方法构造的两个两层卷积层,得到W*H*256的特征映射图,构造出三层池化层;
步骤B4、连接采用步骤B2方法构造的三层池化层,第一部分是对每个特征映射图进行最大池化操作得到一个输出结果,因此可以得到256维的输出,第二部分将每个特征映射图分为4块,每个特征映射图得到四个输出,因此可得4*256维的输出,第三部分将每个特征映射图分为16块,每个特征映射图得到16个输出,因此可得16*256 维的输出;
步骤B5、将所有输出展开拼接成21*256维的一维数据,最后连接softmax层进行分类预测。
优选地,所述步骤A中提取的帧级特征包括:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动。
优选地,步骤C中模型二最后输出softmax分类概率。
优选地,步骤D,采用数据融合理论进行决策融合,对于模型一和模型二,融合后的音频篡改概率为:
其中,K表示特征之间的冲突。
有益效果:与现有技术相比,本发明的目的是克服现有技术中音频篡改识别,识别率较低且泛化性能较差的问题,通过设计了一种将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构,并利用数据融合理论进行决策融合的算法。具体包括如下有益效果:
1)、将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中,综合了音频信号的频谱和时序信息;
2)、通过在CNNs结构中加入改进池化层,使得CNNs可以输入任意尺寸谱图,解决音频长度不固定问题;
3)、增加注意力机制挖掘高层特征的权重比例,最终得到优质的音频特征;
4)、长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是一种非线性模型,构造更大型深度神经网络;
5)、采用数据融合理论进行决策融合,此方法可以提高音频篡改识别的识别率和模型的鲁棒性,具有良好的应用前景。
附图说明
图1是本发明的基于改进神经网络的音频篡改识别算法中采用的基于改进池化层的 CNNs模型结构图;
图2是本发明采用的Attention-LSTM模型结构图;
图3是本发明的基于改进神经网络的音频篡改识别模型图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1至图3所示,本发明的基于改进神经网络的音频篡改识别模型,包括以下步骤,
步骤A,每条音频提取梅尔谱图和帧级特征,分别为模型一和模型二的输入。
在模型一中采用梅尔谱图作为输入,因为语音的梅尔谱图显示了大量与语句特性有关的信息,综合了频谱图和时域波形的特点,可以表示出语音频谱随时间的变化情况。由于每条语音的长度不同,因此提取出的谱图大小随语音长度的变化而变化,完整地保留了语音的全部信息。
此外,在模型二中先对语音进行分帧,本次发明中帧长为1024。为让两帧之间过渡变得平滑,必须使两帧之间有重叠,重叠率为25%。由于分帧会引起谱泄漏,于是对信号进行加Hanning窗处理。最后进行特征提取。对每一帧信号提取67维特征,特征为:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
混沌关联维数D(m)计算公式为:
其中,m表示重构相空间的嵌入维数,r是m维相空间的超球体半径,Cm(r)为该空间内信号的关联积分;
混沌熵定义为:
其中,σ为最大Lyapunov指数,p(i1,…,iσ)表示信号处于小空间的概率,τ为时间延迟;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动;
谐波能量特征公式如下:
其中Ep和Eap为分别为谐波成分能量和噪音成分能量;
基频扰动特征公式如下:
其中,FOi为第i帧语音的基频;
语音幅度扰动公式如下:
其中,Ai为第i帧语音的振幅。
然后将这些特征按帧组合在一起,每帧共有67维的语音特征,而每帧数据之间的先后关系亦保留了原始音频信号的时序信息。最终获得的特征维度是(帧数*67),而帧数是随原始音频长度而动态变化的,解决了固定维度的特征与变化的语音长度之间的矛盾。
步骤B,将标准CNNs模型中的池化层改进为改进池化层,构造模型一。标准CNNs 模型一般分为两个部分,第一部分为卷积层,第二部分为全连接层,卷积层不要求固定大小的输入,但是全连接层在设计时需要固定神经元个数,导致标准CNNs需要固定尺寸的输入。为解决这一问题,本次发明采用空间金字塔池化的方法接收任意尺寸的图像输入,输出固定长度的输出向量。本发明的模型一结构如图2所示。
该模型输入可以为任意尺寸的图像,首先通过两层卷积层,卷积核大小为3*3,卷积核个数为64,得到W*H*64的特征映射图;再通过两层卷积核大小为5*5的卷积层,以提取更大区域感受野的特征,得到W*H*128的特征映射图;然后,再连接两层卷积层,得到W*H*256的特征映射图;最后连接改进池化层,改进池化层分为三个部分,第一部分是对每个特征映射图进行最大池化操作得到一个输出结果,因此可以得到256 维的输出,第二部分将每个特征映射图分为4块,每个特征映射图得到四个输出,因此可得4*256维的输出,第三部分将每个特征映射图分为16块,每个特征映射图得到16 个输出,因此可得16*256维的输出。将所有输出展开拼接成21*256维的一维数据,最后连接softmax层进行分类预测。基于空间金字塔池化的CNNs结构适用于任意尺寸的梅尔谱图,保留了音频的全部信息,有利于提高音频篡改检测的识别率。
步骤(C),利用一层双向LSTM、一层单向LSTM和注意力机制构造模型二。LSTM 可以很好的处理时序信号,Attention机制可以自主学习时序信号的特征,将LSTM和 Attention机制相结合能够有效挖掘时序信号的特征参数。模型二采用一层双向LSTM、一层单向LSTM和一层Attention层,最后输出softmax分类概率,模型的输入为67维帧级特征,本发明的模型二结构如图3所示。
注意力机制(Attention)的原理是模拟人类的视觉注意力机制。当我们在关注一样东西的时候,注意力随着目光的移动也在移动,这就意味着我们视觉对目标的注意力分布是不同的。Attention机制在神经网络中最早被应用于计算机视觉领域,近几年来,有研究者将Attention机制引入到自然语言处理和语音中。迄今为止,Attention机制在文本摘要、序列标注、语音识别中取得了巨大成功。Attention机制可以为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征,提高模型的鲁棒性。模型输出为分类概率。
步骤(D),采用数据融合理论进行决策融合,结构如图3所示。
对于模型一和模型二,融合后的音频篡改概率为:
其中,m1表示模型1的输出概率,m2表示模型2的输出概率,C表示篡改,K表示特征之间的冲突,具体公式如下:
采用数据决策融合后的模型识别效果比单模型识别率更具有说服力,从而提高了音频篡改检测的识别率。
如表1所示采用不同模型识别率对比:
表1
模型 | 标准CNNs | 改进CNNs | Attention-LSTM | 本发明改进神经网络 |
平均识别率 | 80.5% | 83.4% | 85.5% | 91.2% |
基于改进神经网络的音频篡改识别算法的准确率可达到91.2%。其特点在于:1)改进的CNNs模型能够适用于任意长度的音频,保留音频的全部信息;2)提取帧级特征能够有效挖掘音频中的篡改信息;3)利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征;4)数据融合结构提升了系统的鲁棒性。因此,在实际应用中,能够有效地识别语音篡改情况。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于改进神经网络的音频篡改识别算法,其特征在于:包括以下步骤,
步骤A:对每条待检测的音频提取语音梅尔谱图和帧级特征;
步骤B:通过在标准CNNs结构中加入改进池化层构造出模型一,模型一用于将任意大小的谱图池化成固定长度;
步骤C,利用一层双向LSTM、一层单向LSTM和一层Attention层构造模型二,模型二用于获得音频的高层特征的权重比例;
步骤D,所述步骤A中提取的语音梅尔谱图作为模型一的输入,步骤A中提取的帧级特征作为模型二的输入,采用数据融合理论进行决策融合,判断音频是否篡改并确定篡改位置。
2.根据权利要求1所述的基于改进神经网络的音频篡改识别算法,其特征在于:所述步骤B中,模型一的构造方法包括顺序执行以下步骤:
步骤B1、通过两层卷积层,卷积核大小为3*3,卷积核个数为64,得到W*H*64的特征映射图,其中,W代表帧数,H代表梅尔频率;
步骤B2、通过两层卷积层,卷积核大小为5*5,卷积核个数为64,得到W*H*128的特征映射图;
步骤B3、连接采用步骤B2方法构造的两个两层卷积层,得到W*H*256的特征映射图,构造出三层池化层;
步骤B4、连接采用步骤B2方法构造的三层池化层,第一部分是对每个特征映射图进行最大池化操作得到一个输出结果,因此可以得到256维的输出,第二部分将每个特征映射图分为4块,每个特征映射图得到四个输出,因此可得4*256维的输出,第三部分将每个特征映射图分为16块,每个特征映射图得到16个输出,因此可得16*256维的输出;
步骤B5、将所有输出展开拼接成21*256维的一维数据,最后连接softmax层进行分类预测。
3.根据权利要求1所述的基于改进神经网络的音频篡改识别算法,其特征在于:所述步骤A中提取的帧级特征,包括:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动。
4.根据权利要求1所述的基于改进神经网络的音频篡改识别算法,其特征在于:步骤C中模型二最后输出softmax分类概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845468.3A CN110853656B (zh) | 2019-09-06 | 2019-09-06 | 基于改进神经网络的音频篡改识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845468.3A CN110853656B (zh) | 2019-09-06 | 2019-09-06 | 基于改进神经网络的音频篡改识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853656A true CN110853656A (zh) | 2020-02-28 |
CN110853656B CN110853656B (zh) | 2022-02-01 |
Family
ID=69594781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910845468.3A Active CN110853656B (zh) | 2019-09-06 | 2019-09-06 | 基于改进神经网络的音频篡改识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110853656B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814726A (zh) * | 2020-07-20 | 2020-10-23 | 南京工程学院 | 一种探测机器人视觉目标检测方法 |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
CN113643709A (zh) * | 2021-08-03 | 2021-11-12 | 成都理工大学 | 一种基于mean-SAP池化模型的说话人识别方法及系统 |
CN114155875A (zh) * | 2022-02-09 | 2022-03-08 | 中国科学院自动化研究所 | 语音场景篡改鉴别的方法、装置、电子设备及存储介质 |
JP2022536189A (ja) * | 2020-04-28 | 2022-08-12 | 平安科技(深▲せん▼)有限公司 | オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 |
CN115547362A (zh) * | 2022-10-24 | 2022-12-30 | 中国航空综合技术研究所 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
CN115547362B (zh) * | 2022-10-24 | 2024-05-10 | 中国航空综合技术研究所 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080144838A1 (en) * | 2005-08-25 | 2008-06-19 | Raines Janet S | Tamper resistant audio sound level detector and informative device |
US20140278447A1 (en) * | 2011-09-08 | 2014-09-18 | Japan Advanced Institute Of Science And Technology | Digital watermark detection device and digital watermark detection method, as well as tampering detection device using digital watermark and tampering detection method using digital watermark |
US20140336800A1 (en) * | 2011-05-19 | 2014-11-13 | Dolby Laboratories Licensing Corporation | Adaptive Audio Processing Based on Forensic Detection of Media Processing History |
CN105023581A (zh) * | 2015-07-24 | 2015-11-04 | 南京工程学院 | 一种基于时频域联合特征的音频篡改检测装置 |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
CN110853668A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于多种特征融合的语音篡改检测方法 |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
-
2019
- 2019-09-06 CN CN201910845468.3A patent/CN110853656B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080144838A1 (en) * | 2005-08-25 | 2008-06-19 | Raines Janet S | Tamper resistant audio sound level detector and informative device |
US20140336800A1 (en) * | 2011-05-19 | 2014-11-13 | Dolby Laboratories Licensing Corporation | Adaptive Audio Processing Based on Forensic Detection of Media Processing History |
US20140278447A1 (en) * | 2011-09-08 | 2014-09-18 | Japan Advanced Institute Of Science And Technology | Digital watermark detection device and digital watermark detection method, as well as tampering detection device using digital watermark and tampering detection method using digital watermark |
CN105023581A (zh) * | 2015-07-24 | 2015-11-04 | 南京工程学院 | 一种基于时频域联合特征的音频篡改检测装置 |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
CN110853668A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于多种特征融合的语音篡改检测方法 |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
Non-Patent Citations (4)
Title |
---|
LIANG RUIYU: ""Convolutional Bidirectional Long Short-Term Memory for Deception Detection With Acoustic Features"", 《IEEE ACCESS》 * |
SUMMRA SALEEM 等: ""Spoofed Voice Detection using Dense Features of STFT and MDCT Spectrograms"", 《2021 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (ICAI)》 * |
包永强: ""基于时域和频域的语音篡改检测算法"", 《 2014’中国西部声学学术交流会》 * |
曾春艳 等: ""数字音频篡改被动检测研究综述"", 《计算机工程与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022536189A (ja) * | 2020-04-28 | 2022-08-12 | 平安科技(深▲せん▼)有限公司 | オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 |
JP7242912B2 (ja) | 2020-04-28 | 2023-03-20 | 平安科技(深▲せん▼)有限公司 | オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 |
CN111814726A (zh) * | 2020-07-20 | 2020-10-23 | 南京工程学院 | 一种探测机器人视觉目标检测方法 |
CN111814726B (zh) * | 2020-07-20 | 2023-09-22 | 南京工程学院 | 一种探测机器人视觉目标检测方法 |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
CN113643709A (zh) * | 2021-08-03 | 2021-11-12 | 成都理工大学 | 一种基于mean-SAP池化模型的说话人识别方法及系统 |
CN113643709B (zh) * | 2021-08-03 | 2023-07-18 | 成都理工大学 | 一种基于mean-SAP池化模型的说话人识别方法及系统 |
CN114155875A (zh) * | 2022-02-09 | 2022-03-08 | 中国科学院自动化研究所 | 语音场景篡改鉴别的方法、装置、电子设备及存储介质 |
CN115547362A (zh) * | 2022-10-24 | 2022-12-30 | 中国航空综合技术研究所 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
CN115547362B (zh) * | 2022-10-24 | 2024-05-10 | 中国航空综合技术研究所 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110853656B (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853656B (zh) | 基于改进神经网络的音频篡改识别方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
EP4002362B1 (en) | Method and apparatus for training speech separation model, storage medium, and computer device | |
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
US9672811B2 (en) | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection | |
CN108717856A (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN110853668B (zh) | 基于多种特征融合的语音篡改检测方法 | |
CN113643723B (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
Jothimani et al. | MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
KR20200084443A (ko) | 음성 변조 시스템 및 방법 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
Zhang et al. | Research on feature fusion speech emotion recognition technology for smart teaching | |
CN116226372A (zh) | 基于Bi-LSTM-CNN的多模态语音情感识别方法 | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
KR102174189B1 (ko) | 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템 | |
Wu et al. | Speech synthesis with face embeddings | |
Atkar et al. | Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier | |
Li et al. | Emotion recognition from speech with StarGAN and Dense‐DCNN | |
Parekh et al. | Tackling interpretability in audio classification networks with non-negative matrix factorization | |
Liu et al. | Hierarchical component-attention based speaker turn embedding for emotion recognition | |
Hu et al. | Speech Emotion Recognition Based on Attention MCNN Combined With Gender Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |