CN113611314A - 一种说话人识别方法及系统 - Google Patents
一种说话人识别方法及系统 Download PDFInfo
- Publication number
- CN113611314A CN113611314A CN202110886484.4A CN202110886484A CN113611314A CN 113611314 A CN113611314 A CN 113611314A CN 202110886484 A CN202110886484 A CN 202110886484A CN 113611314 A CN113611314 A CN 113611314A
- Authority
- CN
- China
- Prior art keywords
- mel
- module
- training
- feature
- spectrograms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种说话人识别方法及系统,使用不同傅里叶变换窗长分别提取语音信号在不同时频分辨率下的梅尔谱图作为训练网络的特征图,将梅尔谱图分别使用ResNet34网络进行识别训练得到多个模型,并且在ResNet34网络的后端加入注意力模块使模型能够训练出每个特征通道的最优权重,然后通过加权融合的方式得到最终的融合特征向量,最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较,以确定说话人身份。本发明利用不同傅里叶变换窗长提取语音信号在不同时间、频率分辨率下的梅尔谱图特征进行训练,弥补了单一傅里叶窗长下提取特征谱图所导致的时间、频率分辨率不足的问题,提高了声纹识别的准确率。
Description
技术领域
本发明涉及声纹识别领域,具体的说,涉及一种说话人识别方法及系统。
背景技术
声纹识别作为一种重要的生物特征识别方式广泛的应用于安全领域、医疗领域、金融领域以及智能家居中。在声纹识别中,输入到网络中的特征谱图的质量好坏在提高声纹识别的准确率上起着重要的作用,目前主流的MFCC、GFCC、LPCC等谱图通常是将在时域上的语音信息使用傅里叶变换得到线性特征谱图然后再经过不同的滤波器而得到的。
由傅里叶变换得到的特征谱图的时间分辨率与频率分辨率受到傅里叶变换窗长的长度影响较大,傅里叶变换窗长越长,生成的谱图的时间分辨率越差,频率分辨率越好,反之亦然。传统的特征谱图生成方法都是在单一恒定的傅里叶变换窗长下得到的,其时间分辨率和频率分辨率一定,因此其无法很好的表达在不同时间分辨率,频率分辨率下的信息,可能会导致时域、频域信息的流失。因此目前的声纹识别算法无法很好的满足说话人识别的需求,其识别准确率有待提高。
发明内容
本发明针对现有技术存在的不足,提供了一种说话人识别方法及系统,基于多分辨谱图特征注意力融合网络,有效的解决了在使用单一傅里叶变换窗长的情况下所造成的时间分辨率和频率分辨率精度不足的问题,提高了声纹识别的准确率。
本发明的具体技术方案如下:
本发明的其中一个技术方案是一种说话人识别方法及系统,包括以下步骤:
步骤1:对原始音频进行采样处理;
步骤2:对步骤1经采样处理后的数据进行预处理,
所述预处理包括:
端点检测,去除语音信号静音和噪声片段;
预加重,补偿语音信号高频分量;
分帧,从非稳态的长段语音中截取小段稳态的短语音;
步骤3:基于多个不同窗长的短时傅里叶变换对所述步骤2预处理后的数据进行处理得到多个线性谱图;对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
步骤4:将所述多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
步骤5:通过训练网络对所述多个梅尔谱图分别进行训练,得到多个特征向量;
步骤6:同时在所述训练网络后添加通道注意力模块,然后对所述多个梅尔谱图分别进行训练,得到多个最优的特征通道权重;
作为优选,所述步骤3对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图中,根据以下方式获得线性谱图:
其中x(m)为m时刻的信号,ω(n-m)为窗函数,n代表当前位置。
作为优选,所述步骤4中的梅尔滤波器组中的梅尔刻度和频率的关系如下所示:
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
4.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤6中的通道注意力模块按照以下方式训练:
作为优选,多个特征向量包括特征向量特征向量特征向量特征向量多个特征通道权重包括特征通道权重特征通道权重特征通道权重特征通道权重所述步骤7中,将特征向量和所述步骤6中的得到的特征通道权重进行加权融合,得到融合特征向量
其中,d为余弦距离。
根据d与阈值的大小来判定出说话人。
本发明的另一技术方案是一种基于多分辨谱图特征注意力融合网络的说话人识别系统,包括:
采样模块:用于采样处理原始音频;
预处理模块:用于对采样模块处理后的数据进行预处理,
所述预处理模块包括:
端点检测单元,用于去除语音信号静音和噪声片段;
预加重单元,用于补偿语音信号高频分量;
分帧单元,用于从非稳态的长段语音中截取小段稳态的短语音;
傅里叶变换模块:用于对所述预处理模块处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
梅尔滤波器组:用于将多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
第一训练模块:用于对每个梅尔谱图进行训练,得到多个特征向量;
第二训练模块:用于训练出多个最优的特征通道权重;
作为优选,所述梅尔滤波器组中的梅尔刻度和频率的关系如下所示:
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
作为优选,所述判别模块根据以下方式进行余弦相似度计算:
其中,d为余弦距离。
作为优选,所述第二训练模块包括第一训练模块和通道注意力模块。
有益效果在于:
本发明使用不同傅里叶窗长尺度上提取了不同时间分辨率和频率分辨率精度的梅尔谱图并进行融合,弥补了单一傅里叶窗长尺度下所照成的时间分辨率和频率分辨率精度不足的问题,从而提高了声纹识别的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明方法的总体结构图;
图2为梅尔滤波器组示意图;
图3为梅尔谱图特征提取流程图;
图4为通道注意力模块的网络结构图;
图5为多分辨谱图特征与单一分辨谱图特征的准确率变换曲线图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
本发明实施例,如图1所示,本发明提供一种说话人识别方法及系统,包括以下步骤:
1、加载原始音频,对原始音频数据进行预处理,预处理过程为:
A1:对原始语音数据采样量化,本方法的采样频率为16000Hz;
A2:端点检测,通过判断短时能量的大小来去除静音点,短时能量计算公式如公式1所示:
其中x(n)为语音信号,w(n)为窗函数,当En小于10dB时判定为静音片段。
A3:预加重,为了弥补声音信号在空气中辐射传播导致的高频分量的损失,本方法通过预加重的方式对声音的高频信号进行补偿,补偿公式如公式2所示:
y(n)=x(n)-a*x(n-1) (2)
其中,a为预加重系数,通常可以取0.9<a<1.0。
A4:分帧,长语音信号是不稳定的,故使用分帧的方式来截取一小段稳态语音,帧长取20ms,并且为了使特征参数平滑地变化,设置在相邻的两帧之间有重叠部分为1/2。
2、抽取预处理后的语音数据在不同短时傅里叶变换(STFT)时窗下的梅尔谱图特征,具体步骤如下:
A1:抽取语音信号在不同短时傅里叶变换(STFT)时窗下的线性频谱特征。其公式可表示为:
式中T为采样周期,x(k)为k时刻的信号,γ(kT-mT)为窗函数,分别取长度为LA、LB、LC、LC的窗函数长度对语音信号进行处理得到语音信号的线性谱图IA(X,Y)、IB(X,Y)、IC(X,Y)、ID(X,Y);
A2:将A1中得到的线性频谱IA(X,Y)、IB(X,Y)、IC(X,Y)、ID(X,Y)分别通过梅尔滤波器组过滤得到不同窗长的梅尔谱图MelA(X,Y)、MelB(X,Y)、MelC(X,Y)、MelD(X,Y)。梅尔刻度和频率的关系如下所示:
Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。梅尔滤波器组如图2所示;
3、将梅尔谱图MelA(X,Y)、MelB(X,Y)、MelC(X,Y)、MelD(X,Y)分别放入ResNet34网络训练出ResNet34_A,ResNet34_B,ResNet34_C,ResNet34_D得到特征向量其中ResNet34网络的结构如表1所示:
表1
通道注意力模块的网络结构为图4所示。
其中d为余弦距离。
根据d与阈值的大小来判定出说话人。
本方法使用的数据集为Free ST ChineseMandarin Corpus中文数据集,数据集中共包含855人,每人120条语音,使用855人中的90%作为训练集,10%作为测试集,使用本方法后的测试结果相对于使用单一傅里叶变换窗长生成的单一分辨率谱图的准确率提高了2%~3%,其准确率变换曲线如图5所示。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种说话人识别方法及系统,其特征在于,包括以下步骤:
步骤1:对原始音频进行采样处理;
步骤2:对步骤1经采样处理后的数据进行预处理,
所述预处理包括:
端点检测,去除语音信号静音和噪声片段;
预加重,补偿语音信号高频分量;
分帧,从非稳态的长段语音中截取小段稳态的短语音;
步骤3:基于多个不同窗长的短时傅里叶变换对所述步骤2预处理后的数据进行处理得到多个线性谱图;对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
步骤4:将所述多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
步骤5:通过训练网络对所述多个梅尔谱图分别进行训练,得到多个特征向量;
步骤6:同时在所述训练网络后添加通道注意力模块,然后对所述多个梅尔谱图分别进行训练,得到多个最优的特征通道权重;
7.一种基于多分辨谱图特征注意力融合网络的说话人识别系统,其特征在于:包括:
采样模块:用于采样处理原始音频;
预处理模块:用于对采样模块处理后的数据进行预处理,
所述预处理模块包括:
端点检测单元,用于去除语音信号静音和噪声片段;
预加重单元,用于补偿语音信号高频分量;
分帧单元,用于从非稳态的长段语音中截取小段稳态的短语音;
傅里叶变换模块:用于对所述预处理模块处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
梅尔滤波器组:用于将多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
第一训练模块:用于对每个梅尔谱图进行训练,得到多个特征向量;
第二训练模块:用于训练出多个最优的特征通道权重;
10.根据权利要求7所述的一种基于多分辨谱图特征注意力融合网络的说话人识别系统,其特征在于:所述第二训练模块包括第一训练模块和通道注意力模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110886484.4A CN113611314A (zh) | 2021-08-03 | 2021-08-03 | 一种说话人识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110886484.4A CN113611314A (zh) | 2021-08-03 | 2021-08-03 | 一种说话人识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113611314A true CN113611314A (zh) | 2021-11-05 |
Family
ID=78339301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110886484.4A Pending CN113611314A (zh) | 2021-08-03 | 2021-08-03 | 一种说话人识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611314A (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730131A (zh) * | 2012-10-12 | 2014-04-16 | 华为技术有限公司 | 语音质量评估的方法和装置 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN105139857A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
US20180158463A1 (en) * | 2016-12-07 | 2018-06-07 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
CN109155132A (zh) * | 2016-03-21 | 2019-01-04 | 亚马逊技术公司 | 说话者验证方法和系统 |
JP2019074580A (ja) * | 2017-10-13 | 2019-05-16 | Kddi株式会社 | 音声認識方法、装置およびプログラム |
CN109783767A (zh) * | 2018-12-21 | 2019-05-21 | 电子科技大学 | 一种短时傅里叶变换窗长的自适应选择方法 |
CN109935233A (zh) * | 2019-01-29 | 2019-06-25 | 天津大学 | 一种基于振幅和相位信息的录音攻击检测方法 |
CN110459242A (zh) * | 2019-08-21 | 2019-11-15 | 广州国音智能科技有限公司 | 变声检测方法、终端及计算机可读存储介质 |
WO2020073694A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
AU2020102038A4 (en) * | 2020-08-28 | 2020-10-08 | Jia, Yichen Mr | A speaker identification method based on deep learning |
CN111789577A (zh) * | 2020-07-15 | 2020-10-20 | 天津大学 | 基于cqt和stft深度语谱特征鼾声分类方法及系统 |
CN111968679A (zh) * | 2020-10-22 | 2020-11-20 | 深圳追一科技有限公司 | 情感识别方法、装置、电子设备及存储介质 |
CN112394224A (zh) * | 2020-11-04 | 2021-02-23 | 武汉大学 | 音频文件产生时间溯源动态匹配方法及系统 |
CN112669841A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
WO2021075063A1 (en) * | 2019-10-18 | 2021-04-22 | Nec Corporation | Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium |
CN112908341A (zh) * | 2021-02-22 | 2021-06-04 | 哈尔滨工程大学 | 基于多任务自注意力机制的语言学习者声纹识别方法 |
CN113129897A (zh) * | 2021-04-08 | 2021-07-16 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
-
2021
- 2021-08-03 CN CN202110886484.4A patent/CN113611314A/zh active Pending
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730131A (zh) * | 2012-10-12 | 2014-04-16 | 华为技术有限公司 | 语音质量评估的方法和装置 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN105139857A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
CN109155132A (zh) * | 2016-03-21 | 2019-01-04 | 亚马逊技术公司 | 说话者验证方法和系统 |
US20180158463A1 (en) * | 2016-12-07 | 2018-06-07 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
JP2019074580A (ja) * | 2017-10-13 | 2019-05-16 | Kddi株式会社 | 音声認識方法、装置およびプログラム |
WO2020073694A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN109783767A (zh) * | 2018-12-21 | 2019-05-21 | 电子科技大学 | 一种短时傅里叶变换窗长的自适应选择方法 |
CN109935233A (zh) * | 2019-01-29 | 2019-06-25 | 天津大学 | 一种基于振幅和相位信息的录音攻击检测方法 |
CN110459242A (zh) * | 2019-08-21 | 2019-11-15 | 广州国音智能科技有限公司 | 变声检测方法、终端及计算机可读存储介质 |
WO2021075063A1 (en) * | 2019-10-18 | 2021-04-22 | Nec Corporation | Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
CN111789577A (zh) * | 2020-07-15 | 2020-10-20 | 天津大学 | 基于cqt和stft深度语谱特征鼾声分类方法及系统 |
AU2020102038A4 (en) * | 2020-08-28 | 2020-10-08 | Jia, Yichen Mr | A speaker identification method based on deep learning |
CN111968679A (zh) * | 2020-10-22 | 2020-11-20 | 深圳追一科技有限公司 | 情感识别方法、装置、电子设备及存储介质 |
CN112394224A (zh) * | 2020-11-04 | 2021-02-23 | 武汉大学 | 音频文件产生时间溯源动态匹配方法及系统 |
CN112669841A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
CN112908341A (zh) * | 2021-02-22 | 2021-06-04 | 哈尔滨工程大学 | 基于多任务自注意力机制的语言学习者声纹识别方法 |
CN113129897A (zh) * | 2021-04-08 | 2021-07-16 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
Non-Patent Citations (2)
Title |
---|
荣海娜: "多分量信号快速时频分析方法", 《电路与系统学报》, vol. 15, no. 5 * |
顾婷: "基于深度特征的说话人辨认技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139425A1 (zh) | 语音端点检测方法、装置、设备及存储介质 | |
KR100312919B1 (ko) | 화자인식을위한방법및장치 | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
CN112927694B (zh) | 一种基于融合声纹特征的语音指令合法性判别方法 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
Chaudhary et al. | Gender identification based on voice signal characteristics | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN110189746A (zh) | 一种应用于地空通信的话音识别方法 | |
CN112397074A (zh) | 基于mfcc和向量元学习的声纹识别方法 | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
Hai et al. | Improved linear predictive coding method for speech recognition | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
Ranjan | Speaker Recognition and Performance Comparison based on Machine Learning | |
CN114038469B (zh) | 一种基于多类谱图特征注意力融合网络的说话人识别方法 | |
CN113611314A (zh) | 一种说话人识别方法及系统 | |
Sorin et al. | The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation | |
CN116052689A (zh) | 一种声纹识别方法 | |
Morales-Cordovilla et al. | On the use of asymmetric windows for robust speech recognition | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |