CN110853668A - 基于多种特征融合的语音篡改检测方法 - Google Patents

基于多种特征融合的语音篡改检测方法 Download PDF

Info

Publication number
CN110853668A
CN110853668A CN201910845466.4A CN201910845466A CN110853668A CN 110853668 A CN110853668 A CN 110853668A CN 201910845466 A CN201910845466 A CN 201910845466A CN 110853668 A CN110853668 A CN 110853668A
Authority
CN
China
Prior art keywords
voice
speech
voice data
rnn
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910845466.4A
Other languages
English (en)
Other versions
CN110853668B (zh
Inventor
包永强
梁瑞宇
谢跃
唐闺臣
王青云
朱悦
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201910845466.4A priority Critical patent/CN110853668B/zh
Publication of CN110853668A publication Critical patent/CN110853668A/zh
Application granted granted Critical
Publication of CN110853668B publication Critical patent/CN110853668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention‑RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。

Description

基于多种特征融合的语音篡改检测方法
技术领域
本发明涉及语音篡改技术领域,具体涉及一种基于多种特征融合的语音篡改检测方 法。
背景技术
数字语音技术的迅速发展,使得其应用范围越来越广泛。但强大的语音编辑软件的 出现,破坏了语音的真实性与安全性。在法庭举证、历史文献备份等特殊场景下,要确保数字影像材料的真实性。因此,判定语音篡改与否是司法有关部门亟待解决的问题。
二十世纪九十年代以来,数字语音篡改鉴定技术兴起,并迅速发展。Farid于1999年提出了应用双谱分析检测语音信号篡改的办法;Grigoras提出利用ENF(ElectricNetwork Frequency)信息检测语音篡改的检测方法;姚秋明等人提出了基于期望最大化算法的语音重采样篡改的检测方法;Ding等人提出以子带频谱平滑方法检测语音信号是否被插值或拼接篡改,邵松年等人提出利用数字录音设备的本底噪声特性,来检测语音 信号中有无被篡改入其他录音设备录制的语音的方法;Yang等人提出基于MP3格式语 音帧位移的篡改检测方法。
随着机器学习和深度学习技术的发展,研究者们提出了多种有效地机器学习和深度 学习识别模型。这些在声音分类问题上取得了巨大的成功。因此,针对语音篡改采用深度学习算法进行识别是未来的研究方向之一。目前针对语音篡改识别的研究相对较少。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多维特征融合的 语音篡改检测方法,其能够有效地识别和区分语音篡改情况,且鲁棒性好。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,其特 征在于,包括以下步骤:
步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;
步骤S2、对每组语音数据帧提取多维特征;
步骤S3、构建基于Attention-RNN的模型作为分类器;
步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而 判断当前帧语音是否被篡改。
优选地,所述步骤S3中,Attention-RNN的模型采用两层RNN层,其中第一层是 双向RNN层,然后接入一个注意力层,随后是一个全连接Dense00层和一个用于减轻 过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器,每个输入先传 入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出。
优选地,所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动;
优选地,所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。
有益效果:与现有技术相比,本发明的有益效果如下:
(1)、提取帧级特征能够有效挖掘语音信号中前后特征的差异;
(2)、将多种特征相结合,语音特征挖掘更加丰富;
(3)、利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的 特征。
附图说明
图1为本发明的步骤S3中采用Attention-RNN的结构示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼 接而成,其特征在于,包括以下步骤:
步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;
步骤S2、对每组语音数据帧提取多维特征;
步骤S3、构建基于Attention-RNN的模型作为分类器;
步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而 判断当前帧语音是否被篡改。
所述步骤S3中,Attention-RNN的模型作为分类器的方法为:
模型首先采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层, 随后是一个全连接Dense00层和一个用于减轻过拟合的dropout,最后将输入送到一个 dense层,并送入softmax分类器,每个输入先传入bi-RNN,根据各自的状态产生中间 状态,通过加权得到输出,权重系数决定每个输入状态对输出状态的权重贡献,对双向 RNN层的输出向量分配不同的权值,使得模型可以将注意力集中在重点的语音特征上, 降低其他无关特征的作用,
假设输出向量为h,权值为α,表示每个特征的重要性,则合并后的表示为:
Figure BDA0002193333700000031
其中,α的计算公式为:
Figure BDA0002193333700000032
其中,激活函数的隐层输出为
uit=tanh(Wwhit+bw) (3)。
所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
混沌关联维数D(m)计算公式为:
其中,m表示重构相空间的嵌入维数,r是m维相空间的超球体半径,Cm(r)为 该空间内信号的关联积分;
混沌熵定义为:
Figure BDA0002193333700000041
其中,σ为最大Lyapunov指数,p(i1,…,iσ)表示信号处于小空间的概率,τ为时 间延迟;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动;
谐波能量特征公式如下:
Figure BDA0002193333700000042
其中Ep和Eap为分别为谐波成分能量和噪音成分能量;
基频扰动特征公式如下:
Figure BDA0002193333700000043
其中,F0i为第i帧语音的基频;
语音幅度扰动公式如下:
Figure BDA0002193333700000044
其中,Ai为第i帧语音的振幅。
所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。。
模型首先采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层, 随后是一个全连接Dense层和一个用于减轻过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器。
注意力机制(Attention)的原理是模拟人类的视觉注意力机制。当我们在关注一样东 西的时候,注意力随着目光的移动也在移动,这就意味着我们视觉对目标的注意力分布 是不同的。Attention机制在神经网络中最早被应用于计算机视觉领域,近几年来,有研究者将Attention机制引入到自然语言处理和语音中。迄今为止,Attention机制在文本 摘要、序列标注、语音识别中取得了巨大成功。Attention机制可以为同一样本的局部赋 予不同的重要性,自动学习出时序信号的特征,提高模型的鲁棒性。模型输出为分类概 率。
Attention-RNN网络结构的核心是在一个双向RNN层后接一层注意力层。如图1所示,每个输入先传入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出,权 重系数决定每个输入状态对输出状态的权重贡献,对双向RNN层的输出向量分配不同 的权值,使得模型可以将注意力集中在重点的语音特征上,降低其他无关特征的作用。
假设输出向量为h,权值为α,表示每个特征的重要性,则合并后的表示为:
Figure RE-GDA0002332504390000051
其中,α的计算公式为:
Figure RE-GDA0002332504390000052
其中,激活函数的隐层输出为
uit=tanh(Wwhit+bw) (3)
基于多种特征组合与Attention-RNN的语音篡改检测方法的准确率可达到92.6%。 其特点在于:1)提取帧级特征能够有效挖掘语音信号中前后特征的差异;2)将多种特 征相结合,语音特征挖掘更加丰富;3)利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。因此,在实际应用中,能够有效地区分不同的录 音设备。
模型 支撑向量机 标准循环神经网络 Attention-RNN网络
平均识别率 81.5% 83.4% 92.6%
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,其特征在于,包括以下步骤:
步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;
步骤S2、对每组语音数据帧提取多维特征;
步骤S3、构建基于Attention-RNN的模型作为分类器;
步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而判断当前帧语音是否被篡改。
2.根据权利要求1所述的基于多种特征融合的语音篡改检测方法,其特征在于:所述步骤S3中,Attention-RNN的模型采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层,随后是一个全连接Dense00层和一个用于减轻过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器,每个输入先传入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出。
3.根据权利要求1所述的基于多种特征融合的语音篡改检测方法,其特征在于:所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:
语音特征编号1-11:从语音信号功率频谱图计算的色度图;
语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;
语音特征编号48-49:过零率,均方根;
语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;
语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;
语音特征编号63-64:混沌关联维数,混沌熵;
语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动。
4.根据权利要求1所述的基于多种特征融合的语音篡改检测方法,其特征在于:所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。
CN201910845466.4A 2019-09-06 2019-09-06 基于多种特征融合的语音篡改检测方法 Active CN110853668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910845466.4A CN110853668B (zh) 2019-09-06 2019-09-06 基于多种特征融合的语音篡改检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910845466.4A CN110853668B (zh) 2019-09-06 2019-09-06 基于多种特征融合的语音篡改检测方法

Publications (2)

Publication Number Publication Date
CN110853668A true CN110853668A (zh) 2020-02-28
CN110853668B CN110853668B (zh) 2022-02-01

Family

ID=69594789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910845466.4A Active CN110853668B (zh) 2019-09-06 2019-09-06 基于多种特征融合的语音篡改检测方法

Country Status (1)

Country Link
CN (1) CN110853668B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法
CN112036446A (zh) * 2020-08-06 2020-12-04 汇纳科技股份有限公司 目标识别特征融合的方法、系统、介质及装置
CN112151067A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法
CN113488070A (zh) * 2021-09-08 2021-10-08 中国科学院自动化研究所 篡改音频的检测方法、装置、电子设备及存储介质
CN113555007A (zh) * 2021-09-23 2021-10-26 中国科学院自动化研究所 语音拼接点检测方法及存储介质
CN114219005A (zh) * 2021-11-17 2022-03-22 太原理工大学 一种基于高阶谱语音特征的抑郁症分类方法
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010268263A (ja) * 2009-05-15 2010-11-25 Hitachi Ltd 改ざん検出システム、透かし情報埋込装置、改ざん検出装置、透かし情報埋込方法、および改ざん検出方法
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN108538312A (zh) * 2018-04-28 2018-09-14 华中师范大学 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN108846048A (zh) * 2018-05-30 2018-11-20 大连理工大学 基于循环神经网络和注意力机制的音乐流派分类方法
US20190051299A1 (en) * 2018-06-25 2019-02-14 Intel Corporation Method and system of audio false keyphrase rejection using speaker recognition
CN109841219A (zh) * 2019-03-15 2019-06-04 慧言科技(天津)有限公司 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN110162553A (zh) * 2019-05-21 2019-08-23 南京邮电大学 基于attention-RNN的用户兴趣挖掘方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010268263A (ja) * 2009-05-15 2010-11-25 Hitachi Ltd 改ざん検出システム、透かし情報埋込装置、改ざん検出装置、透かし情報埋込方法、および改ざん検出方法
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN108538312A (zh) * 2018-04-28 2018-09-14 华中师范大学 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN108846048A (zh) * 2018-05-30 2018-11-20 大连理工大学 基于循环神经网络和注意力机制的音乐流派分类方法
US20190051299A1 (en) * 2018-06-25 2019-02-14 Intel Corporation Method and system of audio false keyphrase rejection using speaker recognition
CN109841219A (zh) * 2019-03-15 2019-06-04 慧言科技(天津)有限公司 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN110162553A (zh) * 2019-05-21 2019-08-23 南京邮电大学 基于attention-RNN的用户兴趣挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAKANG LI ET AL.: "Attention-Based LSTM Algorithm for Audio Replay Detection in Noisy Environments", 《APPLIED SCIENCES》 *
包永强 等: "音频取证若干关键技术研究进展", 《数据采集与处理》 *
曾春艳 等: "数字音频篡改被动检测研究综述", 《计算机工程与应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法
CN112036446A (zh) * 2020-08-06 2020-12-04 汇纳科技股份有限公司 目标识别特征融合的方法、系统、介质及装置
CN112036446B (zh) * 2020-08-06 2023-12-12 汇纳科技股份有限公司 目标识别特征融合的方法、系统、介质及装置
CN112151067A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法
CN113488070A (zh) * 2021-09-08 2021-10-08 中国科学院自动化研究所 篡改音频的检测方法、装置、电子设备及存储介质
US11636871B2 (en) 2021-09-08 2023-04-25 Institute Of Automation, Chinese Academy Of Sciences Method and electronic apparatus for detecting tampering audio, and storage medium
CN113555007A (zh) * 2021-09-23 2021-10-26 中国科学院自动化研究所 语音拼接点检测方法及存储介质
CN113555007B (zh) * 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质
US11410685B1 (en) 2021-09-23 2022-08-09 Institute Of Automation, Chinese Academy Of Sciences Method for detecting voice splicing points and storage medium
CN114219005A (zh) * 2021-11-17 2022-03-22 太原理工大学 一种基于高阶谱语音特征的抑郁症分类方法
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110853668B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN110853668B (zh) 基于多种特征融合的语音篡改检测方法
Chatziagapi et al. Data Augmentation Using GANs for Speech Emotion Recognition.
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN112784798B (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN101299241B (zh) 基于张量表示的多模态视频语义概念检测方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
CN113488073B (zh) 一种基于多特征融合的伪造语音检测方法及装置
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
CN113643723A (zh) 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN116226372A (zh) 基于Bi-LSTM-CNN的多模态语音情感识别方法
Zaheer et al. A preliminary study on deep-learning based screaming sound detection
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Xue et al. Physiological-physical feature fusion for automatic voice spoofing detection
CN113948067B (zh) 一种具有听觉高保真度特点的语音对抗样本修复方法
CN113851149A (zh) 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法
Sailor et al. Unsupervised adaptation of acoustic models for ASR using utterance-level embeddings from squeeze and excitation networks
CN110363074B (zh) 一种针对复杂抽象化事物的类人化识别交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant