CN110853668A - 基于多种特征融合的语音篡改检测方法 - Google Patents
基于多种特征融合的语音篡改检测方法 Download PDFInfo
- Publication number
- CN110853668A CN110853668A CN201910845466.4A CN201910845466A CN110853668A CN 110853668 A CN110853668 A CN 110853668A CN 201910845466 A CN201910845466 A CN 201910845466A CN 110853668 A CN110853668 A CN 110853668A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- voice data
- rnn
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 title claims abstract description 11
- 238000009432 framing Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 9
- 238000000034 method Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention‑RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。
Description
技术领域
本发明涉及语音篡改技术领域,具体涉及一种基于多种特征融合的语音篡改检测方 法。
背景技术
数字语音技术的迅速发展,使得其应用范围越来越广泛。但强大的语音编辑软件的 出现,破坏了语音的真实性与安全性。在法庭举证、历史文献备份等特殊场景下,要确保数字影像材料的真实性。因此,判定语音篡改与否是司法有关部门亟待解决的问题。
二十世纪九十年代以来,数字语音篡改鉴定技术兴起,并迅速发展。Farid于1999年提出了应用双谱分析检测语音信号篡改的办法;Grigoras提出利用ENF(ElectricNetwork Frequency)信息检测语音篡改的检测方法;姚秋明等人提出了基于期望最大化算法的语音重采样篡改的检测方法;Ding等人提出以子带频谱平滑方法检测语音信号是否被插值或拼接篡改,邵松年等人提出利用数字录音设备的本底噪声特性,来检测语音 信号中有无被篡改入其他录音设备录制的语音的方法;Yang等人提出基于MP3格式语 音帧位移的篡改检测方法。
随着机器学习和深度学习技术的发展,研究者们提出了多种有效地机器学习和深度 学习识别模型。这些在声音分类问题上取得了巨大的成功。因此,针对语音篡改采用深度学习算法进行识别是未来的研究方向之一。目前针对语音篡改识别的研究相对较少。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多维特征融合的 语音篡改检测方法,其能够有效地识别和区分语音篡改情况,且鲁棒性好。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,其特 征在于,包括以下步骤:
步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;
步骤S2、对每组语音数据帧提取多维特征;
步骤S3、构建基于Attention-RNN的模型作为分类器;
步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而 判断当前帧语音是否被篡改。
优选地,所述步骤S3中,Attention-RNN的模型采用两层RNN层,其中第一层是 双向RNN层,然后接入一个注意力层,随后是一个全连接Dense00层和一个用于减轻 过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器,每个输入先传 入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出。
优选地,所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动;
优选地,所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。
有益效果:与现有技术相比,本发明的有益效果如下:
(1)、提取帧级特征能够有效挖掘语音信号中前后特征的差异;
(2)、将多种特征相结合,语音特征挖掘更加丰富;
(3)、利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的 特征。
附图说明
图1为本发明的步骤S3中采用Attention-RNN的结构示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼 接而成,其特征在于,包括以下步骤:
步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;
步骤S2、对每组语音数据帧提取多维特征;
步骤S3、构建基于Attention-RNN的模型作为分类器;
步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而 判断当前帧语音是否被篡改。
所述步骤S3中,Attention-RNN的模型作为分类器的方法为:
模型首先采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层, 随后是一个全连接Dense00层和一个用于减轻过拟合的dropout,最后将输入送到一个 dense层,并送入softmax分类器,每个输入先传入bi-RNN,根据各自的状态产生中间 状态,通过加权得到输出,权重系数决定每个输入状态对输出状态的权重贡献,对双向 RNN层的输出向量分配不同的权值,使得模型可以将注意力集中在重点的语音特征上, 降低其他无关特征的作用,
假设输出向量为h,权值为α,表示每个特征的重要性,则合并后的表示为:
其中,激活函数的隐层输出为
uit=tanh(Wwhit+bw) (3)。
所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
混沌关联维数D(m)计算公式为:
其中,m表示重构相空间的嵌入维数,r是m维相空间的超球体半径,Cm(r)为 该空间内信号的关联积分;
混沌熵定义为:
其中,σ为最大Lyapunov指数,p(i1,…,iσ)表示信号处于小空间的概率,τ为时 间延迟;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动;
谐波能量特征公式如下:
其中Ep和Eap为分别为谐波成分能量和噪音成分能量;
基频扰动特征公式如下:
其中,F0i为第i帧语音的基频;
语音幅度扰动公式如下:
其中,Ai为第i帧语音的振幅。
所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。。
模型首先采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层, 随后是一个全连接Dense层和一个用于减轻过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器。
注意力机制(Attention)的原理是模拟人类的视觉注意力机制。当我们在关注一样东 西的时候,注意力随着目光的移动也在移动,这就意味着我们视觉对目标的注意力分布 是不同的。Attention机制在神经网络中最早被应用于计算机视觉领域,近几年来,有研究者将Attention机制引入到自然语言处理和语音中。迄今为止,Attention机制在文本 摘要、序列标注、语音识别中取得了巨大成功。Attention机制可以为同一样本的局部赋 予不同的重要性,自动学习出时序信号的特征,提高模型的鲁棒性。模型输出为分类概 率。
Attention-RNN网络结构的核心是在一个双向RNN层后接一层注意力层。如图1所示,每个输入先传入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出,权 重系数决定每个输入状态对输出状态的权重贡献,对双向RNN层的输出向量分配不同 的权值,使得模型可以将注意力集中在重点的语音特征上,降低其他无关特征的作用。
假设输出向量为h,权值为α,表示每个特征的重要性,则合并后的表示为:
其中,激活函数的隐层输出为
uit=tanh(Wwhit+bw) (3)
基于多种特征组合与Attention-RNN的语音篡改检测方法的准确率可达到92.6%。 其特点在于:1)提取帧级特征能够有效挖掘语音信号中前后特征的差异;2)将多种特 征相结合,语音特征挖掘更加丰富;3)利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。因此,在实际应用中,能够有效地区分不同的录 音设备。
模型 | 支撑向量机 | 标准循环神经网络 | Attention-RNN网络 |
平均识别率 | 81.5% | 83.4% | 92.6% |
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,其特征在于,包括以下步骤:
步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;
步骤S2、对每组语音数据帧提取多维特征;
步骤S3、构建基于Attention-RNN的模型作为分类器;
步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而判断当前帧语音是否被篡改。
2.根据权利要求1所述的基于多种特征融合的语音篡改检测方法,其特征在于:所述步骤S3中,Attention-RNN的模型采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层,随后是一个全连接Dense00层和一个用于减轻过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器,每个输入先传入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出。
3.根据权利要求1所述的基于多种特征融合的语音篡改检测方法,其特征在于:所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动。
4.根据权利要求1所述的基于多种特征融合的语音篡改检测方法,其特征在于:所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845466.4A CN110853668B (zh) | 2019-09-06 | 2019-09-06 | 基于多种特征融合的语音篡改检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845466.4A CN110853668B (zh) | 2019-09-06 | 2019-09-06 | 基于多种特征融合的语音篡改检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853668A true CN110853668A (zh) | 2020-02-28 |
CN110853668B CN110853668B (zh) | 2022-02-01 |
Family
ID=69594789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910845466.4A Active CN110853668B (zh) | 2019-09-06 | 2019-09-06 | 基于多种特征融合的语音篡改检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110853668B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853656A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于改进神经网络的音频篡改识别算法 |
CN112036446A (zh) * | 2020-08-06 | 2020-12-04 | 汇纳科技股份有限公司 | 目标识别特征融合的方法、系统、介质及装置 |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
CN113488070A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 篡改音频的检测方法、装置、电子设备及存储介质 |
CN113555007A (zh) * | 2021-09-23 | 2021-10-26 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
CN114219005A (zh) * | 2021-11-17 | 2022-03-22 | 太原理工大学 | 一种基于高阶谱语音特征的抑郁症分类方法 |
CN114596879A (zh) * | 2022-03-25 | 2022-06-07 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010268263A (ja) * | 2009-05-15 | 2010-11-25 | Hitachi Ltd | 改ざん検出システム、透かし情報埋込装置、改ざん検出装置、透かし情報埋込方法、および改ざん検出方法 |
CN105006230A (zh) * | 2015-06-10 | 2015-10-28 | 合肥工业大学 | 一种面向非特定人的语音敏感信息检测和过滤方法 |
CN105023581A (zh) * | 2015-07-24 | 2015-11-04 | 南京工程学院 | 一种基于时频域联合特征的音频篡改检测装置 |
CN106941008A (zh) * | 2017-04-05 | 2017-07-11 | 华南理工大学 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
CN107274915A (zh) * | 2017-07-31 | 2017-10-20 | 华中师范大学 | 一种基于特征融合的数字音频篡改自动检测方法 |
CN108538312A (zh) * | 2018-04-28 | 2018-09-14 | 华中师范大学 | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 |
CN108846048A (zh) * | 2018-05-30 | 2018-11-20 | 大连理工大学 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
US20190051299A1 (en) * | 2018-06-25 | 2019-02-14 | Intel Corporation | Method and system of audio false keyphrase rejection using speaker recognition |
CN109841219A (zh) * | 2019-03-15 | 2019-06-04 | 慧言科技(天津)有限公司 | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 |
CN110162553A (zh) * | 2019-05-21 | 2019-08-23 | 南京邮电大学 | 基于attention-RNN的用户兴趣挖掘方法 |
-
2019
- 2019-09-06 CN CN201910845466.4A patent/CN110853668B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010268263A (ja) * | 2009-05-15 | 2010-11-25 | Hitachi Ltd | 改ざん検出システム、透かし情報埋込装置、改ざん検出装置、透かし情報埋込方法、および改ざん検出方法 |
CN105006230A (zh) * | 2015-06-10 | 2015-10-28 | 合肥工业大学 | 一种面向非特定人的语音敏感信息检测和过滤方法 |
CN105023581A (zh) * | 2015-07-24 | 2015-11-04 | 南京工程学院 | 一种基于时频域联合特征的音频篡改检测装置 |
CN106941008A (zh) * | 2017-04-05 | 2017-07-11 | 华南理工大学 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
CN107274915A (zh) * | 2017-07-31 | 2017-10-20 | 华中师范大学 | 一种基于特征融合的数字音频篡改自动检测方法 |
CN108538312A (zh) * | 2018-04-28 | 2018-09-14 | 华中师范大学 | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 |
CN108846048A (zh) * | 2018-05-30 | 2018-11-20 | 大连理工大学 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
US20190051299A1 (en) * | 2018-06-25 | 2019-02-14 | Intel Corporation | Method and system of audio false keyphrase rejection using speaker recognition |
CN109841219A (zh) * | 2019-03-15 | 2019-06-04 | 慧言科技(天津)有限公司 | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 |
CN110162553A (zh) * | 2019-05-21 | 2019-08-23 | 南京邮电大学 | 基于attention-RNN的用户兴趣挖掘方法 |
Non-Patent Citations (3)
Title |
---|
JIAKANG LI ET AL.: "Attention-Based LSTM Algorithm for Audio Replay Detection in Noisy Environments", 《APPLIED SCIENCES》 * |
包永强 等: "音频取证若干关键技术研究进展", 《数据采集与处理》 * |
曾春艳 等: "数字音频篡改被动检测研究综述", 《计算机工程与应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853656A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于改进神经网络的音频篡改识别算法 |
CN112036446A (zh) * | 2020-08-06 | 2020-12-04 | 汇纳科技股份有限公司 | 目标识别特征融合的方法、系统、介质及装置 |
CN112036446B (zh) * | 2020-08-06 | 2023-12-12 | 汇纳科技股份有限公司 | 目标识别特征融合的方法、系统、介质及装置 |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
CN113488070A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 篡改音频的检测方法、装置、电子设备及存储介质 |
US11636871B2 (en) | 2021-09-08 | 2023-04-25 | Institute Of Automation, Chinese Academy Of Sciences | Method and electronic apparatus for detecting tampering audio, and storage medium |
CN113555007A (zh) * | 2021-09-23 | 2021-10-26 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
CN113555007B (zh) * | 2021-09-23 | 2021-12-14 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
US11410685B1 (en) | 2021-09-23 | 2022-08-09 | Institute Of Automation, Chinese Academy Of Sciences | Method for detecting voice splicing points and storage medium |
CN114219005A (zh) * | 2021-11-17 | 2022-03-22 | 太原理工大学 | 一种基于高阶谱语音特征的抑郁症分类方法 |
CN114596879A (zh) * | 2022-03-25 | 2022-06-07 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
CN114596879B (zh) * | 2022-03-25 | 2022-12-30 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110853668B (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853668B (zh) | 基于多种特征融合的语音篡改检测方法 | |
Chatziagapi et al. | Data Augmentation Using GANs for Speech Emotion Recognition. | |
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN112784798B (zh) | 一种基于特征-时间注意力机制的多模态情感识别方法 | |
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN110853656B (zh) | 基于改进神经网络的音频篡改识别方法 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN101299241B (zh) | 基于张量表示的多模态视频语义概念检测方法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
CN113488073B (zh) | 一种基于多特征融合的伪造语音检测方法及装置 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN113643723A (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN114678030A (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
CN116226372A (zh) | 基于Bi-LSTM-CNN的多模态语音情感识别方法 | |
Zaheer et al. | A preliminary study on deep-learning based screaming sound detection | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
Xue et al. | Physiological-physical feature fusion for automatic voice spoofing detection | |
CN113948067B (zh) | 一种具有听觉高保真度特点的语音对抗样本修复方法 | |
CN113851149A (zh) | 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 | |
Sailor et al. | Unsupervised adaptation of acoustic models for ASR using utterance-level embeddings from squeeze and excitation networks | |
CN110363074B (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |