CN113611314A - 一种说话人识别方法及系统 - Google Patents

一种说话人识别方法及系统 Download PDF

Info

Publication number
CN113611314A
CN113611314A CN202110886484.4A CN202110886484A CN113611314A CN 113611314 A CN113611314 A CN 113611314A CN 202110886484 A CN202110886484 A CN 202110886484A CN 113611314 A CN113611314 A CN 113611314A
Authority
CN
China
Prior art keywords
mel
module
training
feature
spectrograms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110886484.4A
Other languages
English (en)
Inventor
张葛祥
方祖林
贾勇
姚光乐
杨强
焦旭
罗标
汤刚
何瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Turing Zhiyang Information Technology Co ltd
Chengdu Univeristy of Technology
Original Assignee
Chengdu Turing Zhiyang Information Technology Co ltd
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Turing Zhiyang Information Technology Co ltd, Chengdu Univeristy of Technology filed Critical Chengdu Turing Zhiyang Information Technology Co ltd
Priority to CN202110886484.4A priority Critical patent/CN113611314A/zh
Publication of CN113611314A publication Critical patent/CN113611314A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种说话人识别方法及系统,使用不同傅里叶变换窗长分别提取语音信号在不同时频分辨率下的梅尔谱图作为训练网络的特征图,将梅尔谱图分别使用ResNet34网络进行识别训练得到多个模型,并且在ResNet34网络的后端加入注意力模块使模型能够训练出每个特征通道的最优权重,然后通过加权融合的方式得到最终的融合特征向量,最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较,以确定说话人身份。本发明利用不同傅里叶变换窗长提取语音信号在不同时间、频率分辨率下的梅尔谱图特征进行训练,弥补了单一傅里叶窗长下提取特征谱图所导致的时间、频率分辨率不足的问题,提高了声纹识别的准确率。

Description

一种说话人识别方法及系统
技术领域
本发明涉及声纹识别领域,具体的说,涉及一种说话人识别方法及系统。
背景技术
声纹识别作为一种重要的生物特征识别方式广泛的应用于安全领域、医疗领域、金融领域以及智能家居中。在声纹识别中,输入到网络中的特征谱图的质量好坏在提高声纹识别的准确率上起着重要的作用,目前主流的MFCC、GFCC、LPCC等谱图通常是将在时域上的语音信息使用傅里叶变换得到线性特征谱图然后再经过不同的滤波器而得到的。
由傅里叶变换得到的特征谱图的时间分辨率与频率分辨率受到傅里叶变换窗长的长度影响较大,傅里叶变换窗长越长,生成的谱图的时间分辨率越差,频率分辨率越好,反之亦然。传统的特征谱图生成方法都是在单一恒定的傅里叶变换窗长下得到的,其时间分辨率和频率分辨率一定,因此其无法很好的表达在不同时间分辨率,频率分辨率下的信息,可能会导致时域、频域信息的流失。因此目前的声纹识别算法无法很好的满足说话人识别的需求,其识别准确率有待提高。
发明内容
本发明针对现有技术存在的不足,提供了一种说话人识别方法及系统,基于多分辨谱图特征注意力融合网络,有效的解决了在使用单一傅里叶变换窗长的情况下所造成的时间分辨率和频率分辨率精度不足的问题,提高了声纹识别的准确率。
本发明的具体技术方案如下:
本发明的其中一个技术方案是一种说话人识别方法及系统,包括以下步骤:
步骤1:对原始音频进行采样处理;
步骤2:对步骤1经采样处理后的数据进行预处理,
所述预处理包括:
端点检测,去除语音信号静音和噪声片段;
预加重,补偿语音信号高频分量;
分帧,从非稳态的长段语音中截取小段稳态的短语音;
步骤3:基于多个不同窗长的短时傅里叶变换对所述步骤2预处理后的数据进行处理得到多个线性谱图;对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
步骤4:将所述多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
步骤5:通过训练网络对所述多个梅尔谱图分别进行训练,得到多个特征向量;
步骤6:同时在所述训练网络后添加通道注意力模块,然后对所述多个梅尔谱图分别进行训练,得到多个最优的特征通道权重;
步骤7:加权融合所述多个特征向量和所述特征通道权重,得到融合特征向量
Figure BDA0003194330170000023
步骤8:将所述融合特征向量
Figure BDA0003194330170000024
与数据库中的特征向量
Figure BDA0003194330170000025
进行余弦相似度计算后与预设阈值相比较,判定出说话人。
作为优选,所述步骤3对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图中,根据以下方式获得线性谱图:
Figure BDA0003194330170000021
其中x(m)为m时刻的信号,ω(n-m)为窗函数,n代表当前位置。
作为优选,所述步骤4中的梅尔滤波器组中的梅尔刻度和频率的关系如下所示:
Figure BDA0003194330170000022
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
4.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤6中的通道注意力模块按照以下方式训练:
Figure BDA0003194330170000031
其中MC(F)为通道注意力权重,σ为sigmoid函数,MLP为多层感知机,F为输入的Feature Map,W1和W0为权值,
Figure BDA0003194330170000032
Figure BDA0003194330170000033
分别是Feature Map在通道上的平均池化和最大池化。
作为优选,多个特征向量包括特征向量
Figure BDA0003194330170000034
特征向量
Figure BDA0003194330170000035
特征向量
Figure BDA0003194330170000036
特征向量
Figure BDA0003194330170000037
多个特征通道权重包括特征通道权重
Figure BDA0003194330170000038
特征通道权重
Figure BDA0003194330170000039
特征通道权重
Figure BDA00031943301700000310
特征通道权重
Figure BDA00031943301700000311
所述步骤7中,将特征向量
Figure BDA00031943301700000312
和所述步骤6中的得到的特征通道权重
Figure BDA00031943301700000313
进行加权融合,得到融合特征向量
Figure BDA00031943301700000314
作为优选,所述步骤8中融合特征向量
Figure BDA00031943301700000315
与数据库中已有的特征向量
Figure BDA00031943301700000316
根据以下方式进行余弦相似度计算:
Figure BDA00031943301700000317
其中,d为余弦距离。
根据d与阈值的大小来判定出说话人。
本发明的另一技术方案是一种基于多分辨谱图特征注意力融合网络的说话人识别系统,包括:
采样模块:用于采样处理原始音频;
预处理模块:用于对采样模块处理后的数据进行预处理,
所述预处理模块包括:
端点检测单元,用于去除语音信号静音和噪声片段;
预加重单元,用于补偿语音信号高频分量;
分帧单元,用于从非稳态的长段语音中截取小段稳态的短语音;
傅里叶变换模块:用于对所述预处理模块处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
梅尔滤波器组:用于将多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
第一训练模块:用于对每个梅尔谱图进行训练,得到多个特征向量;
第二训练模块:用于训练出多个最优的特征通道权重;
加权融合模块:用于加权融合所述第一训练模块训练得到的特征向量和所述第二训练模块训练得到的特征通道权重,得到融合特征向量
Figure BDA0003194330170000041
判别模块:用于将融合特征向量
Figure BDA0003194330170000042
与数据库中的特征向量
Figure BDA0003194330170000043
进行余弦相似度计算后与阈值相比较,判定出说话人。
作为优选,所述梅尔滤波器组中的梅尔刻度和频率的关系如下所示:
Figure BDA0003194330170000044
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
作为优选,所述判别模块根据以下方式进行余弦相似度计算:
Figure BDA0003194330170000045
其中,d为余弦距离。
作为优选,所述第二训练模块包括第一训练模块和通道注意力模块。
有益效果在于:
本发明使用不同傅里叶窗长尺度上提取了不同时间分辨率和频率分辨率精度的梅尔谱图并进行融合,弥补了单一傅里叶窗长尺度下所照成的时间分辨率和频率分辨率精度不足的问题,从而提高了声纹识别的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明方法的总体结构图;
图2为梅尔滤波器组示意图;
图3为梅尔谱图特征提取流程图;
图4为通道注意力模块的网络结构图;
图5为多分辨谱图特征与单一分辨谱图特征的准确率变换曲线图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
本发明实施例,如图1所示,本发明提供一种说话人识别方法及系统,包括以下步骤:
1、加载原始音频,对原始音频数据进行预处理,预处理过程为:
A1:对原始语音数据采样量化,本方法的采样频率为16000Hz;
A2:端点检测,通过判断短时能量的大小来去除静音点,短时能量计算公式如公式1所示:
Figure BDA0003194330170000061
其中x(n)为语音信号,w(n)为窗函数,当En小于10dB时判定为静音片段。
A3:预加重,为了弥补声音信号在空气中辐射传播导致的高频分量的损失,本方法通过预加重的方式对声音的高频信号进行补偿,补偿公式如公式2所示:
y(n)=x(n)-a*x(n-1) (2)
其中,a为预加重系数,通常可以取0.9<a<1.0。
A4:分帧,长语音信号是不稳定的,故使用分帧的方式来截取一小段稳态语音,帧长取20ms,并且为了使特征参数平滑地变化,设置在相邻的两帧之间有重叠部分为1/2。
2、抽取预处理后的语音数据在不同短时傅里叶变换(STFT)时窗下的梅尔谱图特征,具体步骤如下:
A1:抽取语音信号在不同短时傅里叶变换(STFT)时窗下的线性频谱特征。其公式可表示为:
Figure BDA0003194330170000062
式中T为采样周期,x(k)为k时刻的信号,γ(kT-mT)为窗函数,分别取长度为LA、LB、LC、LC的窗函数长度对语音信号进行处理得到语音信号的线性谱图IA(X,Y)、IB(X,Y)、IC(X,Y)、ID(X,Y);
A2:将A1中得到的线性频谱IA(X,Y)、IB(X,Y)、IC(X,Y)、ID(X,Y)分别通过梅尔滤波器组过滤得到不同窗长的梅尔谱图MelA(X,Y)、MelB(X,Y)、MelC(X,Y)、MelD(X,Y)。梅尔刻度和频率的关系如下所示:
Figure BDA0003194330170000071
Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。梅尔滤波器组如图2所示;
3、将梅尔谱图MelA(X,Y)、MelB(X,Y)、MelC(X,Y)、MelD(X,Y)分别放入ResNet34网络训练出ResNet34_A,ResNet34_B,ResNet34_C,ResNet34_D得到特征向量
Figure BDA0003194330170000072
其中ResNet34网络的结构如表1所示:
Figure BDA0003194330170000073
表1
在ResNet34网络结构中的FC(fully connected layer)之前加入通道注意力模块,使网络能够训练出最优的特征通道权重
Figure BDA0003194330170000081
通道注意力模块训练的表达式为:
Figure BDA0003194330170000082
其中MC(F)为通道注意力权重,σ为sigmoid函数,MLP为多层感知机,F为输入的Feature Map,W1和W0为权值,
Figure BDA0003194330170000083
Figure BDA0003194330170000084
分别是Feature Map在通道上的平均池化和最大池化。
通道注意力模块的网络结构为图4所示。
4、将特征向量
Figure BDA0003194330170000085
使用通道权重
Figure BDA0003194330170000086
进行加权融合
Figure BDA0003194330170000087
得到融合特征向量
Figure BDA0003194330170000088
5、将融合特征向量
Figure BDA0003194330170000089
与数据库中已有的特征向量
Figure BDA00031943301700000810
进行余弦相似度计算如公式6所示:
Figure BDA00031943301700000811
其中d为余弦距离。
根据d与阈值的大小来判定出说话人。
本方法使用的数据集为Free ST ChineseMandarin Corpus中文数据集,数据集中共包含855人,每人120条语音,使用855人中的90%作为训练集,10%作为测试集,使用本方法后的测试结果相对于使用单一傅里叶变换窗长生成的单一分辨率谱图的准确率提高了2%~3%,其准确率变换曲线如图5所示。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种说话人识别方法及系统,其特征在于,包括以下步骤:
步骤1:对原始音频进行采样处理;
步骤2:对步骤1经采样处理后的数据进行预处理,
所述预处理包括:
端点检测,去除语音信号静音和噪声片段;
预加重,补偿语音信号高频分量;
分帧,从非稳态的长段语音中截取小段稳态的短语音;
步骤3:基于多个不同窗长的短时傅里叶变换对所述步骤2预处理后的数据进行处理得到多个线性谱图;对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
步骤4:将所述多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
步骤5:通过训练网络对所述多个梅尔谱图分别进行训练,得到多个特征向量;
步骤6:同时在所述训练网络后添加通道注意力模块,然后对所述多个梅尔谱图分别进行训练,得到多个最优的特征通道权重;
步骤7:加权融合所述多个特征向量和所述特征通道权重,得到融合特征向量
Figure FDA0003194330160000011
步骤8:将所述融合特征向量
Figure FDA0003194330160000012
与数据库中的特征向量
Figure FDA0003194330160000013
进行余弦相似度计算后与预设阈值相比较,判定出说话人。
2.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤3对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图中,根据以下方式获得线性谱图:
Figure FDA0003194330160000014
其中x(m)为m时刻的信号,ω(n-m)为窗函数,n代表当前位置。
3.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤4中的梅尔滤波器组中的梅尔刻度和频率的关系如下所示:
Figure FDA0003194330160000021
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
4.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤6中的通道注意力模块按照以下方式训练:
Figure FDA0003194330160000022
其中MC(F)为通道注意力权重,σ为sigmoid函数,MLP为多层感知机,F为输入的FeatureMap,W1和W0为权值,
Figure FDA0003194330160000023
Figure FDA0003194330160000024
分别是Feature Map在通道上的平均池化和最大池化。
5.如权利要求1所述的一种说话人识别方法及系统,其特征在于:多个特征向量包括特征向量
Figure FDA0003194330160000025
特征向量
Figure FDA0003194330160000026
特征向量
Figure FDA0003194330160000027
特征向量
Figure FDA0003194330160000028
多个特征通道权重包括特征通道权重
Figure FDA0003194330160000029
特征通道权重
Figure FDA00031943301600000210
特征通道权重
Figure FDA00031943301600000211
特征通道权重
Figure FDA00031943301600000212
所述步骤7中,将特征向量
Figure FDA00031943301600000213
和所述步骤6中的得到的特征通道权重
Figure FDA00031943301600000214
进行加权融合,得到融合特征向量
Figure FDA00031943301600000215
Figure FDA00031943301600000216
6.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤8中融合特征向量
Figure FDA00031943301600000217
与数据库中已有的特征向量
Figure FDA00031943301600000218
根据以下方式进行余弦相似度计算:
Figure FDA00031943301600000219
其中,d为余弦距离。
根据d与阈值的大小来判定出说话人。
7.一种基于多分辨谱图特征注意力融合网络的说话人识别系统,其特征在于:包括:
采样模块:用于采样处理原始音频;
预处理模块:用于对采样模块处理后的数据进行预处理,
所述预处理模块包括:
端点检测单元,用于去除语音信号静音和噪声片段;
预加重单元,用于补偿语音信号高频分量;
分帧单元,用于从非稳态的长段语音中截取小段稳态的短语音;
傅里叶变换模块:用于对所述预处理模块处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
梅尔滤波器组:用于将多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
第一训练模块:用于对每个梅尔谱图进行训练,得到多个特征向量;
第二训练模块:用于训练出多个最优的特征通道权重;
加权融合模块:用于加权融合所述第一训练模块训练得到的特征向量和所述第二训练模块训练得到的特征通道权重,得到融合特征向量
Figure FDA0003194330160000031
判别模块:用于将融合特征向量
Figure FDA0003194330160000032
与数据库中的特征向量
Figure FDA0003194330160000033
进行余弦相似度计算后与阈值相比较,判定出说话人。
8.根据权利要求7所述的一种基于多分辨谱图特征注意力融合网络的说话人识别系统,其特征在于:所述梅尔滤波器组中的梅尔刻度和频率的关系如下所示:
Figure FDA0003194330160000034
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
9.根据权利要求7所述的一种基于多分辨谱图特征注意力融合网络的说话人识别系统,其特征在于:
所述判别模块根据以下方式进行余弦相似度计算:
Figure FDA0003194330160000041
其中,d为余弦距离。
10.根据权利要求7所述的一种基于多分辨谱图特征注意力融合网络的说话人识别系统,其特征在于:所述第二训练模块包括第一训练模块和通道注意力模块。
CN202110886484.4A 2021-08-03 2021-08-03 一种说话人识别方法及系统 Pending CN113611314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110886484.4A CN113611314A (zh) 2021-08-03 2021-08-03 一种说话人识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110886484.4A CN113611314A (zh) 2021-08-03 2021-08-03 一种说话人识别方法及系统

Publications (1)

Publication Number Publication Date
CN113611314A true CN113611314A (zh) 2021-11-05

Family

ID=78339301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110886484.4A Pending CN113611314A (zh) 2021-08-03 2021-08-03 一种说话人识别方法及系统

Country Status (1)

Country Link
CN (1) CN113611314A (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730131A (zh) * 2012-10-12 2014-04-16 华为技术有限公司 语音质量评估的方法和装置
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
US20180158463A1 (en) * 2016-12-07 2018-06-07 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム
CN109783767A (zh) * 2018-12-21 2019-05-21 电子科技大学 一种短时傅里叶变换窗长的自适应选择方法
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN110459242A (zh) * 2019-08-21 2019-11-15 广州国音智能科技有限公司 变声检测方法、终端及计算机可读存储介质
WO2020073694A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN111724794A (zh) * 2020-06-17 2020-09-29 哈尔滨理工大学 一种说话人识别方法
AU2020102038A4 (en) * 2020-08-28 2020-10-08 Jia, Yichen Mr A speaker identification method based on deep learning
CN111789577A (zh) * 2020-07-15 2020-10-20 天津大学 基于cqt和stft深度语谱特征鼾声分类方法及系统
CN111968679A (zh) * 2020-10-22 2020-11-20 深圳追一科技有限公司 情感识别方法、装置、电子设备及存储介质
CN112394224A (zh) * 2020-11-04 2021-02-23 武汉大学 音频文件产生时间溯源动态匹配方法及系统
CN112669841A (zh) * 2020-12-18 2021-04-16 平安科技(深圳)有限公司 多语种语音的生成模型的训练方法、装置及计算机设备
WO2021075063A1 (en) * 2019-10-18 2021-04-22 Nec Corporation Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium
CN112908341A (zh) * 2021-02-22 2021-06-04 哈尔滨工程大学 基于多任务自注意力机制的语言学习者声纹识别方法
CN113129897A (zh) * 2021-04-08 2021-07-16 杭州电子科技大学 一种基于注意力机制循环神经网络的声纹识别方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730131A (zh) * 2012-10-12 2014-04-16 华为技术有限公司 语音质量评估的方法和装置
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
US20180158463A1 (en) * 2016-12-07 2018-06-07 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム
WO2020073694A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109783767A (zh) * 2018-12-21 2019-05-21 电子科技大学 一种短时傅里叶变换窗长的自适应选择方法
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN110459242A (zh) * 2019-08-21 2019-11-15 广州国音智能科技有限公司 变声检测方法、终端及计算机可读存储介质
WO2021075063A1 (en) * 2019-10-18 2021-04-22 Nec Corporation Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium
CN111724794A (zh) * 2020-06-17 2020-09-29 哈尔滨理工大学 一种说话人识别方法
CN111789577A (zh) * 2020-07-15 2020-10-20 天津大学 基于cqt和stft深度语谱特征鼾声分类方法及系统
AU2020102038A4 (en) * 2020-08-28 2020-10-08 Jia, Yichen Mr A speaker identification method based on deep learning
CN111968679A (zh) * 2020-10-22 2020-11-20 深圳追一科技有限公司 情感识别方法、装置、电子设备及存储介质
CN112394224A (zh) * 2020-11-04 2021-02-23 武汉大学 音频文件产生时间溯源动态匹配方法及系统
CN112669841A (zh) * 2020-12-18 2021-04-16 平安科技(深圳)有限公司 多语种语音的生成模型的训练方法、装置及计算机设备
CN112908341A (zh) * 2021-02-22 2021-06-04 哈尔滨工程大学 基于多任务自注意力机制的语言学习者声纹识别方法
CN113129897A (zh) * 2021-04-08 2021-07-16 杭州电子科技大学 一种基于注意力机制循环神经网络的声纹识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
荣海娜: "多分量信号快速时频分析方法", 《电路与系统学报》, vol. 15, no. 5 *
顾婷: "基于深度特征的说话人辨认技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2 *

Similar Documents

Publication Publication Date Title
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
KR100312919B1 (ko) 화자인식을위한방법및장치
JP2006079079A (ja) 分散音声認識システム及びその方法
CN108564956B (zh) 一种声纹识别方法和装置、服务器、存储介质
CN112927694B (zh) 一种基于融合声纹特征的语音指令合法性判别方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN108682432B (zh) 语音情感识别装置
Chaudhary et al. Gender identification based on voice signal characteristics
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN110189746A (zh) 一种应用于地空通信的话音识别方法
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Gamit et al. Isolated words recognition using mfcc lpc and neural network
Hai et al. Improved linear predictive coding method for speech recognition
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
Ranjan Speaker Recognition and Performance Comparison based on Machine Learning
CN114038469B (zh) 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN113611314A (zh) 一种说话人识别方法及系统
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
CN116052689A (zh) 一种声纹识别方法
Morales-Cordovilla et al. On the use of asymmetric windows for robust speech recognition
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination