CN115376550A - 一种语音设备源确认方法 - Google Patents

一种语音设备源确认方法 Download PDF

Info

Publication number
CN115376550A
CN115376550A CN202210990253.2A CN202210990253A CN115376550A CN 115376550 A CN115376550 A CN 115376550A CN 202210990253 A CN202210990253 A CN 202210990253A CN 115376550 A CN115376550 A CN 115376550A
Authority
CN
China
Prior art keywords
voice
recording
neural network
feature
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210990253.2A
Other languages
English (en)
Inventor
邹领
刘鑫波
陈义明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Agricultural University
Original Assignee
Hunan Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Agricultural University filed Critical Hunan Agricultural University
Priority to CN202210990253.2A priority Critical patent/CN115376550A/zh
Publication of CN115376550A publication Critical patent/CN115376550A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音设备源确认方法,包括以下步骤:S1:将训练集语料中的每一句语音录音中的语音信号进行加窗分帧,得到一个
Figure DEST_PATH_IMAGE002
的二维数组将其作为输入;S2:对于训练集语料中的所有语音录音,都按照步骤S1转换成一个二维数组,并配合其对应的录音设备标注一起构成训练集,构建训练集的同时也设定好进行神经网络训练的时候所采用的batch的大小,然后送入含有注意力机制的深度残差神经网络中进行模型训练;S3:利用已训练好的模型对待测语音进行确认检测。本发明能够从语音录音中精确的提取录音设备特征表示,从而在开集的设备源确认问题中匹配精确度高。

Description

一种语音设备源确认方法
技术领域
本发明涉及数字音频取证领域的数字语音盲取证,具体涉及一种语音设备源确认方法,特别是一种基于带有注意力机制的深度残差网络的数字语音设备源确认方法。
背景技术
数字语音作为一类重要的音频数据跟人们的生活息息相关。而且,数字语音录音还经常作为司法证据出现在法庭上和案件侦破中。由于通过使用诸如Audition等音频编辑软件就可以很方便地对录音文件进行各种编辑和篡改,因此在一段语音录音可以被接纳为法庭或相关司法机构的证据之前,从多媒体内容安全角度出发,必须对其真实性进行鉴定。
数字语音设备源取证技术就是数字语音盲取证技术的一种,该类技术尝试从语音录音中直接提取到录音设备指纹,然后根据获取到的录音设备指纹的一致性和连贯性等来进行数字语音的真实性鉴定。可以应用于伪造多媒体信息的鉴别和溯源。
目前深度学习技术在很多领域得到了应用并改善了之前的性能,并且已经应用到了数字语音设备源取证领域。但是现有的基于深度学习的设备源取证技术大都是基于常规的卷积神经网络(Convolutional Neural Network, CNN)技术,或者是常规的深度残差网络(Residual Network, ResNet)技术,没有考虑注意力机制等新的深度学习技术。此外,现有的技术一般针对的是一个闭集的设备源识别问题,也就是说给定一个语音录音以及N个已知的闭集的录音设备,判断该语音录音是来自于该N个设备中的哪一个设备,而现实生活中更常见的是开集的设备源确认问题,也就是给定两段语音录音,判断这两段语音录音是否来自同一语音设备;或者说给定一段语音录音和一个录音设备,判断这段语音录音是否来自于该录音设备,目前几乎没有基于深度学习的专门针对解决开集的设备源确认问题的技术。
发明内容
针对现有技术的缺陷,本发明提供了一种语音设备源确认方法。
一种语音设备源确认方法,包括以下步骤:
S1:将训练集语料中的每一句语音录音中的语音信号进行加窗分帧,然后进行快 速傅里叶变换(FFT)转换到频域,之后提取N维的频域特征参数,对每一句语音录音提取M 帧,得到一个
Figure 671259DEST_PATH_IMAGE001
的二维数组将其作为输入;
S2:对于训练集语料中的所有语音录音,都按照步骤S1转换成一个二维数组,并配合其对应的录音设备标注一起构成训练集,构建训练集的同时也设定好进行神经网络训练的时候所采用的batch的大小,然后送入含有注意力机制的深度残差神经网络中进行模型训练;
S3:利用已训练好的模型对待测语音进行确认检测。
可选的,所述步骤S3包括:分别将两段待测试的语音录音按照步骤S1进行转换之 后送入已训练好的深度神经网络,分别得到神经网络输出的录音设备特征表示(recorder embedding,re),然后计算这两个特征表示的距离尺度,并将该距离尺度与门限值
Figure 453094DEST_PATH_IMAGE002
相比较 以判定这两段语音是否来自于同一录音设备源。
或者,将待测试的语音录音按照步骤S1进行转换之后送入训练好的深度神经网 络,得到该待测试录音的神经网络输出的录音设备特征表示,同时也对该录音设备的已知 录音同样提取其设备特征表示,然后取算术平均值以作为该录音设备的特征表示,计算这 两个特征表示的距离,并将该距离与门限值
Figure 770506DEST_PATH_IMAGE002
相比较以判定这段语音是否来自于该录音设 备。
进一步的,所述步骤S2中所述的含有注意力机制的深度残差神经网络的结构,首先是一个二维卷积层,然后紧跟多个含有注意力机制的残差网络模块,接着是一个编码层(Encoding)将前面网络输出的帧层特征图压缩成一个单独的句子层的特征向量,最后是一个全连接层转换成指定维度的设备特征表示。
本发明针对开集的录音设备源确认问题提供一种基于含有注意力机制的深度残差神经网络的数字语音设备源确认方法,该方法基于含有注意力机制的深度残差网络,能够从语音录音中精确的提取录音设备特征表示,从而在开集的设备源确认问题中匹配精确度高。
与其他针对闭集设备源识别的相关技术不同,本发明主要针对开集的数字语音设备源确认问题,提供了一种基于含有注意力机制的深度残差网络的数字语音设备源确认方法。第一步,先以句子为单位,对每句语音录音提取一个二维的特征参数数组;第二步,将提取到的数据送入含有注意力机制的深度残差网络;第三步,输入数据经过深度神经网络输出的帧层特征图,接着再经过编码层进行编码输出一个句子层的特征向量;第四步,编码层的输出向量经过一个全连接层得到该句语音录音的设备特征表示;第五步,基于所提取到的设备特征表示计算一个距离尺度来判断两段语音录音是否来自同一录音设备或者某段语音录音是否由某个录音设备所录制。本发明的方法利用到了先进的深度学习技术,能提取精确的录音设备指纹,进行设备源确认的准确度高。
附图说明
图1是本发明基于含有注意力机制的深度残差网络的设备源确认方法的流程图。
图2是本发明提供的实施例中所采用的注意力模块的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明,使本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按比例绘制附图,重点在于示出本发明的主旨。
图1为本发明提供的方法的流程图。本实施例的训练过程需要一个设备录音库,本实施例选择了一个含有14个录音设备(具体为手机)的录音库作为训练音库,该音库中每一个手机含有240句录音,每一句长约3秒。每个设备取其一半的语料(也就是120句录音)作为训练集语料。
本实施例的实施步骤如下:
S1:对训练集语料中的每一个语音录音,对其语音信号进行加窗分帧,窗函数选择汉明(hamming)窗,帧长取25ms,帧移取10ms,对每一帧信号进行FFT转换到频域,然后提取40维的梅尔滤波器组(Mel filterbank)系数,对每一句语音录音提取200帧,这样就将每一句语音录音转换成一个40×200的二维数组作为输入。
S2:对于训练语料中的所有语音录音,都按照步骤S1转换成一个二维数组,并配合其对应的录音设备来源标注一起构成训练集,训练集中设定好的训练batch的大小为训练集种的录音设备的种类数(本实施例中为14)。然后将训练集送入含有注意力机制的深度残差神经网络中进行模型训练,神经网络训练采用Adam算法,损失函数可采用softmax函数。
带有注意力机制的深度残差网络的结构和配置如表2所示。第一个卷积层的卷积 核的大小为
Figure 100002_DEST_PATH_IMAGE003
,输出的特征图为16个,紧跟4组带有注意力机制的残差模块,这里所有的 残差模块所采用的卷积核大小都是
Figure 14406DEST_PATH_IMAGE004
,每一组残差模块的输出特征图的大小分别为16, 32,64,128。且输出特征图大小为16的残差模块组一共有3个构成一组,输出特征图大小为 32的残差模块一共有4个构成一组,输出特征图大小为64的残差模块一共有6个构成一组, 输出特征图大小为128的残差模块一共有3个构成一组。编码层采用SAP的编码方法,接着再 通过一个全连接层输出最终的特征表示,这里全连接层的输出维度设置为512。此外,在这 个网络结构中,默认在每一个2维卷积操作之后都要进行一次组归一化(Batch Normalization)操作,且网络中采用的激活函数均为Relu函数。
表2 本实施例的带有注意力机制的深度残差网络结构和配置
Figure DEST_PATH_IMAGE005
残差模块种采用的注意力机制模块采用的是
Figure 531975DEST_PATH_IMAGE006
,过程示意图如图2所示。具 体的实现是,先对输入的特征图进行全局平均值池化,将特征图变成1×1×通道数:
Figure 962956DEST_PATH_IMAGE007
(1)
然后是全连接层和sigmoid激活函数,对1×1×通道数的特征图进行调整,变成每一个特征图的权重:
Figure 60225DEST_PATH_IMAGE008
(2)
这里
Figure 893052DEST_PATH_IMAGE009
表示Relu函数,
Figure 551829DEST_PATH_IMAGE010
表示sigmoid函数。然后将得到的权重与原输入的特征图 进行相乘得到新的特征图:
Figure 470106DEST_PATH_IMAGE011
(3)
Encoding编码层采用的SAP方法的具体的实现是:将特征图序列
Figure 636645DEST_PATH_IMAGE012
送入一个全连接层得到一个对应的隐表示序列
Figure 681568DEST_PATH_IMAGE013
,该全连接层采用tanh激活 函数,也就是如下式所示:
Figure 9781DEST_PATH_IMAGE014
(4)
然后引入一个可学习的参数
Figure 998378DEST_PATH_IMAGE015
,具体通过如下的softmax函数来衡量某一帧的重 要性,得到重要性权重:
Figure 263881DEST_PATH_IMAGE016
(5)
从而,整个句子的特征表示e就可以表示为对帧层所有特征的一个加权求和:
Figure 71300DEST_PATH_IMAGE017
(6)
对于训练语料中的每一句语音录音,都按照步骤S1转换成一个二维数据,并配合其对应的录音设备源标注一起构成训练集,然后送入如表1所示的含有注意力机制的深度残差神经网络中进行模型训练。神经网络训练采用Adam算法,损失函数采用softmax损失。学习率设置为0.001,且每迭代10次学习率衰减0.05,模型训练总的迭代次数设置为200。基于经过神经网络输出的录音设备特征表示的softmax损失函数的定义如下:
Figure 835993DEST_PATH_IMAGE018
(7)
这里的C表示训练集中的录音设备种类(本实施例中为14),N表示每个batch所包 含的录音句子数(默认batch中的每一个录音句子都来自不同的录音设备,所有本实施例中
Figure 463284DEST_PATH_IMAGE019
)。这样的话,训练集中的一个batch,某一个语音录音句子经神经网络转换后得 到的设备特征表示为
Figure 971626DEST_PATH_IMAGE020
,同时,其相应的类别标注为
Figure 367972DEST_PATH_IMAGE021
S3:设备源确认场景1:给定两段语音录音T1和T2,判断其是否来自同一录音设备。 分别将两段待测试的语音录音T1和T2按照步骤S1进行转换之后送入训练好的深度神经网 络,分别得到其对应的深度残差神经网络输出的设备特征表示re1和re2,然后计算re1和 re2的平方欧式距离,并将该距离与门限值
Figure 539452DEST_PATH_IMAGE022
相比较,如果小于门限值,则判定为这两段语 音录音是否来自于同一录音设备源,否则判定为不是来自同一录音设备源。
设备源确认场景2:给定一段测试录音T1及一个录音设备D1(以及该录音设备所录 制的m句语料),判定该测试录音是否来自与该录音设备。将D1设备的N句预料按照步骤S1进 行转换之后送入训练好的深度神经网络,分别得到m个特征表示:
Figure 654039DEST_PATH_IMAGE023
然后对这m个特征表示取算术平均值来作为该录音设备的特征表示:
Figure 685447DEST_PATH_IMAGE024
Figure 467458DEST_PATH_IMAGE025
(8)
同样,将待测试录音T1按照步骤S1进行转换之后送入训练好的深度神经网络得到 其对应的深度残差神经网络输出的特征表示
Figure 308375DEST_PATH_IMAGE026
。接着计算
Figure 175837DEST_PATH_IMAGE026
Figure 760402DEST_PATH_IMAGE024
的平方欧式距离, 并将该距离与门限值
Figure 131341DEST_PATH_IMAGE022
相比较,如果小于门限值,则判定为测试语音确实来自于该录音设 备,否则判定为不是来自该录音设备。
在以上的描述中阐述了很多具体细节以便于充分理解本发明。但是以上描述仅是本发明的较佳实施例而已,本发明能够以很多不同于在此描述的其它方式来实施,因此本发明不受上面公开的具体实施的限制。同时任何熟悉本领域技术人员在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种语音设备源确认方法,其特征在于,包括以下步骤:
S1:将训练集语料中的每一句语音录音中的语音信号进行加窗分帧,然后进行快速傅 里叶变换(FFT)转换到频域,之后提取N维的频域特征参数,对每一句语音录音提取M帧,得 到一个
Figure DEST_PATH_IMAGE001
的二维数组将其作为输入;
S2:对于训练集语料中的所有语音录音,都按照步骤S1转换成一个二维数组,并配合其对应的录音设备标注一起构成训练集,构建训练集的同时也设定好进行神经网络训练的时候所采用的batch的大小,然后送入含有注意力机制的深度残差神经网络中进行模型训练;
S3:利用已训练好的模型对待测语音进行确认检测。
2.根据权利要求1所述的确认方法,其特征在于,所述步骤S3包括:分别将两段待测试的语音录音按照步骤S1进行转换之后送入已训练好的深度神经网络,分别得到神经网络输出的录音设备特征表示,然后计算这两个特征表示的距离尺度,并将该距离尺度与门限值相比较以判定这两段语音是否来自于同一录音设备源。
3.根据权利要求1所述的确认方法,其特征在于,所述步骤S3包括:将待测试的语音录 音按照步骤S1进行转换之后送入训练好的深度神经网络,得到该待测试录音的神经网络输 出的录音设备特征表示,同时也对该录音设备的已知录音同样提取其设备特征表示,然后 取算术平均值以作为该录音设备的特征表示,计算这两个特征表示的距离,并将该距离与 门限值
Figure 544047DEST_PATH_IMAGE002
相比较以判定这段语音是否来自于该录音设备。
4.根据权利要求1所述的确认方法,其特征在于,所述步骤S2中所述的含有注意力机制的深度残差神经网络的结构,首先是一个二维卷积层,然后紧跟多个含有注意力机制的残差网络模块,接着是一个编码层将前面网络输出的帧层特征图压缩成一个单独的句子层的特征向量,最后是一个全连接层转换成指定维度的设备特征表示。
5.根据权利要求4所述的确认方法,其特征在于,所述步骤S2中所述的含有注意力机制的深度残差神经网络的结构如下所示:
Figure DEST_PATH_IMAGE003
6.根据权利要求1所述的确认方法,其特征在于,所述神经网络训练采用Adam算法,损失函数采用softmax函数。
7.根据权利要求6所述的确认方法,其特征在于,所述步骤S2包括:所述残差模块种采 用的注意力机制模块采用的是
Figure 805264DEST_PATH_IMAGE004
,先对输入的特征图进行全局平均值池化,将特征图 变成1×1×通道数:
Figure 67618DEST_PATH_IMAGE006
(1)
然后是全连接层和sigmoid激活函数,对1×1×通道数的特征图进行调整,变成每一个特征图的权重:
Figure 857720DEST_PATH_IMAGE008
(2)
这里
Figure 80890DEST_PATH_IMAGE009
表示Relu函数,
Figure 411378DEST_PATH_IMAGE010
表示sigmoid函数,然后将得到的权重与原输入的特征图进行 相乘得到新的特征图:
Figure 669184DEST_PATH_IMAGE012
(3)。
8.根据权利要求7所述的确认方法,其特征在于,所述步骤S2包括:
编码层采用的SAP方法的具体的实现是:将特征图序列
Figure 895766DEST_PATH_IMAGE014
送入一个全连接层得到一个对应的隐表示序列
Figure 996446DEST_PATH_IMAGE016
,该全连接层采用tanh激活函数,也就是如下式所示:
Figure 740411DEST_PATH_IMAGE018
(4)
然后引入一个可学习的参数
Figure 201127DEST_PATH_IMAGE019
,具体通过如下的softmax函数来衡量某一帧的重要性, 得到重要性权重:
Figure 129769DEST_PATH_IMAGE021
(5)
从而,整个句子的特征表示e就可以表示为对帧层所有特征的一个加权求和:
Figure DEST_PATH_IMAGE023
(6)。
9.根据权利要求8所述的确认方法,其特征在于,所述softmax损失函数的定义如下:
Figure DEST_PATH_IMAGE025
(7)
其中,C表示训练集中的录音设备种类,N表示每个batch所包含的录音句子数。
10.根据权利要求9所述的确认方法,其特征在于,在网络结构中,在每一个2维卷积操作之后都要进行一次组归一化操作,且网络中采用的激活函数均为Relu函数。
CN202210990253.2A 2022-08-18 2022-08-18 一种语音设备源确认方法 Pending CN115376550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210990253.2A CN115376550A (zh) 2022-08-18 2022-08-18 一种语音设备源确认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210990253.2A CN115376550A (zh) 2022-08-18 2022-08-18 一种语音设备源确认方法

Publications (1)

Publication Number Publication Date
CN115376550A true CN115376550A (zh) 2022-11-22

Family

ID=84065315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210990253.2A Pending CN115376550A (zh) 2022-08-18 2022-08-18 一种语音设备源确认方法

Country Status (1)

Country Link
CN (1) CN115376550A (zh)

Similar Documents

Publication Publication Date Title
CN112199548B (zh) 一种基于卷积循环神经网络的音乐音频分类方法
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN113488058A (zh) 一种基于短语音的声纹识别方法
Xu et al. Deep multi-metric learning for text-independent speaker verification
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN118351881A (zh) 一种基于降噪水声信号的融合特征分类识别方法
Du et al. Noise-robust voice conversion with domain adversarial training
CN116705063B (zh) 一种基于流形测度的多模型融合的语音鉴伪识别方法
CN111477248B (zh) 一种音频噪声检测方法及装置
CN117976006A (zh) 音频处理方法、装置、计算机设备和存储介质
CN112035700A (zh) 一种基于cnn的语音深度哈希学习方法及系统
CN110444225B (zh) 基于特征融合网络的声源目标识别方法
CN112767951A (zh) 一种基于深度稠密网络的语音转换可视化检测方法
CN116052725B (zh) 一种基于深度神经网络的细粒度肠鸣音识别方法及装置
CN117253490A (zh) 一种基于Conformer的说话人验证方法与系统
CN112735466A (zh) 一种音频检测方法及装置
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
Naini et al. Dual Attention Pooling Network for Recording Device Classification Using Neutral and Whispered Speech
CN114302301B (zh) 频响校正方法及相关产品
CN115376550A (zh) 一种语音设备源确认方法
CN111326161B (zh) 一种声纹确定方法及装置
CN114023343A (zh) 基于半监督特征学习的语音转换方法
Shirali-Shahreza et al. Fast and scalable system for automatic artist identification
CN101853262A (zh) 基于交叉熵的音频指纹快速搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination