CN107039036B - 一种基于自动编码深度置信网络的高质量说话人识别方法 - Google Patents

一种基于自动编码深度置信网络的高质量说话人识别方法 Download PDF

Info

Publication number
CN107039036B
CN107039036B CN201710088300.3A CN201710088300A CN107039036B CN 107039036 B CN107039036 B CN 107039036B CN 201710088300 A CN201710088300 A CN 201710088300A CN 107039036 B CN107039036 B CN 107039036B
Authority
CN
China
Prior art keywords
speaker
network
model
layer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710088300.3A
Other languages
English (en)
Other versions
CN107039036A (zh
Inventor
李燕萍
刘俊坤
凌云志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201710088300.3A priority Critical patent/CN107039036B/zh
Publication of CN107039036A publication Critical patent/CN107039036A/zh
Application granted granted Critical
Publication of CN107039036B publication Critical patent/CN107039036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于自动编码深度置信网络的高质量说话人识别方法,包括模型训练和说话人识别:首先对说话人语音进行预处理,提取MFCC特征参数,为不同说话人特征参数进行标记。将多名说话人特征参数输入深度置信网络进行网络训练学习,得到自动编码深度置信网络。利用训练好的自动编码深度置信网络分别对每个说话人提取的特征参数进行编码重构,输出数据作为矢量量化模型的输入,进行矢量量化模型训练。说话人识别阶段,说话人的语音特征参数经自动编码深度置信网络编码重构,输入矢量量化模型进行识别。通过深度置信网络对说话人语音特征的编码重构,提取说话人个性特征的同时,可以过滤语音中的噪声,提高了说话人识别准确性和系统鲁棒性。

Description

一种基于自动编码深度置信网络的高质量说话人识别方法
技术领域
本发明涉及信号处理、机器学习和模式识别领域,尤其涉及一种基于自动编码深度置信网络的高质量说话人识别方法别方法。
背景技术
说话人识别又称声纹识别,是一种通过对说话人的语音进行处理和分析,自动鉴别说话人身份的技术。说话人识别是根据语音波形中反映说话人生理和行为个性特征的语音参数来区分说话人的身份。说话人识别技术与其他生物识别技术相比,具有采集设备简单、认证方式友好、易于扩展等优势,在军事安全系统、银行证券系统以及司法鉴定系统等各个领域有广泛的应用。人在说话时,由于声道形状的不断变化,而发出不同的语音。声道是人体自声门、声带之后最重要的、对发音起决定性作用的器官。声道特征在一定程度上可以反映说话人的个性特征,可以采用声道特征来对说话人进行识别。梅尔倒谱系数(Mel-frequencyCepstralCoefficients,MFCC)是基于听觉系统的临界带效应,在Mel标度频率域提取的一种倒谱声道特征参数,它充分利用人耳这种特殊感知特征,具有较强的鲁棒性,得到广泛应用。说话人识别中学习模型是识别的核心,在说话人语音数据充分时,概率统计模型可以很好的拟合说话人特征,在说话人语音数据时长较短时,往往得不到较准确的模型估计参数,说话人语音时长不知时,矢量量化(VectorQuantization,VQ)可以得到较好的识别效果。
基于矢量量化的说话人识别方法是基于这样的假设,不同说话人由于个性特征使得语音特征矢量分布不同,从而这些信息可以对不同说话人区分。矢量量化是基于失真最小化原则,试图根据每个说话人的训练数据建立码本模型,然后对这一分布进行描述。识别时,提取待识别语音中特征矢量,经过每个码本矢量量化,求得平均量化误差,判别最小量化误差的码本就是说话人识别身份。矢量量化中比较成熟和常用的码本训练方法有LBG算法等。单纯的基于矢量量化的说话人识别方法存在以下几个缺陷:(1)说话人数量较多,且每人训练语音较少时,系统识别率变差。(2)干净语音下训练的模型,对带噪语音识别率极差,鲁棒性弱。因此,获取比较健壮的输入特征对整个系统识别率至关重要。
2006年,Hinton等人提出深度学习的概念,深度置信网络是由多层受限玻尔兹曼机(RBM)堆叠构成,采用贪婪逐层训练学习算法,通过逐层预训练和整体微调的方法,够充分挖掘数据中的潜在特征,克服传统多层神经网络易陷入局部最优解、需要大量数据标记等问题。深度置信网络被证明对自然界中的实际信号建模,比传统浅层结构的建模方法强。语音信号的产生和感知是一个复杂的过程,并且具有多层次和深层次处理结构。利用深度置信网络多层非线性变换可以捕捉到语音信号中的结构化信息和高层信息。说话人训练数据经过深度置信网络得到的矢量特征,可以更好地描述说话人个性特征矢量分布。
发明内容
本发明的目的在于利用深度置信网络的多层非线性结构,对说话人语音数据特征向量进行特征挖掘和数据重构,经过深度置信网络输出特征矢量作为矢量量化模型的输入数据,提升说话人识别系统的识别率和鲁棒性。
本发明的目的可以通过以下技术方案来实现:本发明公开了一种基于自动编码深度置信网络的高质量说话人识别方法,包括说话人模型训练阶段和说话人识别两个步骤,具体如下:
(1)模型训练阶段:对不同说话人语音信号进行预处理,提取语音特征,得到每个人的特征向量,并对特征向量以不同人为类别,进行标记;提取说话人语音40维MFCC参数,除去代表直流分量的第一维数据,然后每帧进行前后两帧拼接,形成195维的特征向量。
(2)用步骤(1)中所有说话人特征数据对深度置信网络进行有监督的训练,得到自动编码深度置信网络模型;将多层受限波尔兹曼机进行堆叠,构成深度置信网络;训练数据经第一层受限波尔兹曼机可视层输入,对第一层网络进行训练,第一层网络的输出作为第二层输入进行下一层的训练,按照以上方式构建深度置信网络模型。
(3)每个人未标注特征数据依次经过步骤(2)训练完成的自动编码深度置信网络进行编码重构得到的输出作为矢量量化模型输入,训练矢量量化模型;构建完成深度置信网络后,利用每层训练的参数构建其对称网络,经过反向微调,最终构建出自动编码深度置信网络模型。
(4)模型识别阶:待识别语音的特征经过自动编码深度置信网络编码重构,输入矢量量化模型进行识别。
所述步骤(3)和步骤(4)中:说话人的多帧195维特征数据经过自动编码深度置信网络编码重构后输出同样为195维特征向量。
所述步骤(3)和步骤(4)中:采用矢量量化模型作为系统的最终识别器。
有益效果
1)提取说话人语音的40维MFCC参数,除去代表直流分量的第一维数据,然后依次取每帧前后各两帧进行拼接,构成一个5*(40-1)=195维的向量,更好地表征语音数据中时序特征,提高系统识别率。
2)采用深度置信网络对说话人训练数据进行训练,克服了传统神经网络无法求出最优解等缺点,提高系统识别率。
3)利用将逐层预训练的深度置信编码网络参数,生成其对称网络,经过反向微调,进而获得自动编码深度置信网络模型,提高系统识别率。
4)采用自动编码深度置信网络,对有噪语音的特征数据具有一定噪声过滤能力,提高了系统的鲁棒性。
5)采用矢量量化模型进行识别,确保系统识别速率。
附图说明
图1是本发明说话人识别系统流程图。
图2是本发明自动编码深度置信网络模型示意图。
具体实施方式
下面结合附图对本发明实施例的一种基于深度学习与矢量量化的说话人识别方法进行详细描述。参照图1,图1示出本发明流程图,该方法分为说话人模型训练、说话人识别两个步骤:
Step1:首先说话人模型训练操作包括:
(1)提取说话人语音特征向量。本实施例采用TIMIT语音库进行实验。TIMIT是一个全英文语音数据库,由麻省理工MIT、斯坦福研究院SRI和德州仪器TI合作设计。该数据库每位话者录制10句话,声音采集频率是16000Hz,采样位数为16位。本实施例选取200名录音人,其中男128名,女72名,对每人10句语音划分为互不交叉的训练语音和识别语音,其中训练语音每人采用3句话(平均时长约10s左右)。说话人语音信号先由短时能量去除低于0.25倍平均短时能量的静音,然后经过傅里叶变换后提取40维的MFCC参数。除去代表直流分量的第一维数据,然后依次取每帧前后各两帧进行拼接,构成5*(40-1)=195维的超帧,并对每个超帧根据不同说话人进行标记。
(2)构建深度置信网络,采用(1)中训练数据进行深度置信网络训练。
(2-1)本发明实施例设置由3层受限玻尔兹曼机(RBM)堆叠构成深度置信网络。典型的RBM是由可见层和隐含层构成二部图模型,可见层或隐含层层内没有连接,只有可见层和隐含层节点间存在连接。RBM是一个能量模型,其能量函数表示为:
Figure BDA0001227324690000041
其中vi和hj表示可见层第i个节点状态和隐含层第j个节点状态,Wij是第i个可见层节点和第j个隐含层节点连接权重,ai和bj分别是可见层节点和隐含层节点的偏置。可见层v和隐含层h的联合概率分布为:
Figure BDA0001227324690000042
其中:Z为分配函数,或称归一化常量,可以通过所有可见层单元和隐含层单元分配能量计算得到,表示如下:
Figure BDA0001227324690000043
由于RBM在训练时,同一层中条件独立性,条件概率分布如下:
Figure BDA0001227324690000044
p(hj=0|v)=1-p(hj=1|v)(2-5)
Figure BDA0001227324690000045
p(vi=0|h)=1-p(vi=1|h) (2-7)
其中函数f为sigmoid函数,为f(x)=1/(1+e-x)。可以得到RBM的更新公式:
Figure BDA0001227324690000046
Figure BDA0001227324690000051
Figure BDA0001227324690000052
其中ε为学习率,设置大小为0.0002,<>data是数据的期望,<>model是模型的期望。模型期望计算比较复杂,它需要随机初始化可见层状态然后经过长时间采样。实际采用对比散度算法。
(2-2)多层RBM堆叠,依次将RBM隐含层单元的输出数据做为更高层RBM输入层数据,通过学习下一个RBM对上一个RBM隐藏单元的显著依赖关系进行建模则构成深度置信网络,结构如图2所示。本发明实施例中每层RBM节点数设置都是1024,第一层采用高斯-伯努利RBM,其他两层都是伯努利-伯努利RBM。由(1)得到的多个说话人所有带标签数据有监督的对网络逐层预训练。
(2-3)三层RBM网络初始训练完成后,利用训练好的参数,按照图2所示方式反转,构建对称网络,然后根据训练数据反向微调整个网络,完成自动编码深度置信网络训练。
对(1)中不同说话人语音提取的特征向量分别经过(2)自动编码深度置信网络进行编码重构,经过自动编码深度置信网络重构得到的深层特征向量作为矢量量化模型训练数据。矢量量化码长设置为32,码本设计采用LBG算法。
Step2:利用训练好的模型,进行说话人识别:
在(1)中选取非训练语句进行识别。不同说话人的识别语音同样经过特征提取后,分别输入深度置信网络进行编码重构,然后由矢量量化模型识别。
在相同说话人数训练数据和识别数据前提下,本发明与另外两种算法进行识别率对比,具体实施如下:
本发明是在矢量量化的说话人识别方法(VQ)进行改进,首先与该方法对比。基于矢量量化方法的实验设置为:说话人训练以及识别语音数据特征数据同样是MFCC进行拼接成每个195维特征向量,矢量量化编码长度是32,码本设计采用LBG算法。
基于高斯混合模型方法(GMM),该方法的基本原理是对说话人集合中的每一个说话人建立一个高斯混合模型,模型中的参数是由说话人的特征参数分布决定。该方法在说话人识别领域是研究人员研究的热点,所以选择该方法与本发明做对比。基于高斯混合模型方法设置是:语音特征数据采用20维MFCC参数,高斯混合度设为16。(采取的两组对比方法的实验设置都是在本实验数据集下,系统识别率最优)
表1显示了三种方法在干净语音训练下,每人在识别语音集中选取1句话(平均时长约3s)、2句话、3句话时正确识别率。表2是在识别语音数据在10dB工厂噪声条件下和10dB白噪声条件下最优识别结果。因为基于矢量量化方法和基于高斯模型方法在无噪语音数据训练条件下,识别语音加噪识别不匹配情况,导致识别率崩溃,鲁棒性测试中,该两种方法模型训练时数据加入同样的10dB噪声。
通过实验数据可以看出,在每人训练语音时长为3句话,平均时长为10s左右短时训练语音数据下,有噪声或无噪噪环境下,本发明说话人识别准确率提升很多,具有一定鲁棒性和实用价值。
表1
Figure BDA0001227324690000061
表2
Figure BDA0001227324690000062

Claims (6)

1.一种基于自动编码深度置信网络的高质量说话人识别方法,其特征在于,包括说话人模型训练阶段和说话人识别阶段,该方法包括以下步骤:
(1)模型训练阶段:对不同说话人语音信号进行预处理,提取语音特征,得到每个人的特征向量,并对特征向量以不同人为类别,进行标记;
(2)用步骤(1)中所有说话人特征数据对深度置信网络进行有监督的训练,得到自动编码深度置信网络模型;
(3)每个人未标注特征数据依次经过步骤(2)训练完成的自动编码深度置信网络进行编码重构得到的输出作为矢量量化模型输入,训练矢量量化模型;
(4)模型识别阶段:待识别语音的特征经过自动编码深度置信网络编码重构,输入矢量量化模型进行识别。
2.根据权利要求1所述方法,其特征在于,步骤(1)得到每个人的特征向量内容是:提取说话人语音40维MFCC参数,除去代表直流分量的第一维数据,然后每帧进行前后两帧拼接,形成195维的特征向量。
3.根据权利要求1所述方法,其特征在于,步骤(2)中:将多层受限波尔兹曼机进行堆叠,构成深度置信网络;训练数据经第一层受限波尔兹曼机可视层输入,对第一层网络进行训练,第一层网络的输出作为第二层输入进行下一层的训练,按照以上方式构建深度置信网络模型。
4.根据权利要求1所述方法,其特征在于,步骤(2)中:构建完成深度置信网络后,利用每层训练的参数构建其对称网络,经过反向微调,最终构建出自动编码深度置信网络模型。
5.根据权利要求1所述方法,其特征在于,步骤(3)和步骤(4)中:说话人的多帧195维特征数据经过自动编码深度置信网络编码重构后输出同样为195维特征向量。
6.根据权利要求1所述方法,其特征在于,步骤(3)和步骤(4)中:采用矢量量化模型作为系统的最终识别器。
CN201710088300.3A 2017-02-17 2017-02-17 一种基于自动编码深度置信网络的高质量说话人识别方法 Active CN107039036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710088300.3A CN107039036B (zh) 2017-02-17 2017-02-17 一种基于自动编码深度置信网络的高质量说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710088300.3A CN107039036B (zh) 2017-02-17 2017-02-17 一种基于自动编码深度置信网络的高质量说话人识别方法

Publications (2)

Publication Number Publication Date
CN107039036A CN107039036A (zh) 2017-08-11
CN107039036B true CN107039036B (zh) 2020-06-16

Family

ID=59534314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710088300.3A Active CN107039036B (zh) 2017-02-17 2017-02-17 一种基于自动编码深度置信网络的高质量说话人识别方法

Country Status (1)

Country Link
CN (1) CN107039036B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107240397A (zh) * 2017-08-14 2017-10-10 广东工业大学 一种基于声纹识别的智能锁及其语音识别方法和系统
CN109584884B (zh) * 2017-09-29 2022-09-13 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN108461085A (zh) * 2018-03-13 2018-08-28 南京邮电大学 一种短时语音条件下的说话人识别方法
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置
CN109087633A (zh) * 2018-08-23 2018-12-25 北京猎户星空科技有限公司 语音测评方法、装置及电子设备
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN113299270B (zh) * 2021-05-20 2024-05-31 平安科技(深圳)有限公司 语音合成系统的生成方法、装置、设备及存储介质
CN115083423B (zh) * 2022-07-21 2022-11-15 中国科学院自动化研究所 语音鉴别的数据处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN102572839A (zh) * 2010-12-14 2012-07-11 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
CN103531199A (zh) * 2013-10-11 2014-01-22 福州大学 基于快速稀疏分解和深度学习的生态声音识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI98162C (fi) * 1994-05-30 1997-04-25 Tecnomen Oy HMM-malliin perustuva puheentunnistusmenetelmä
US9818136B1 (en) * 2003-02-05 2017-11-14 Steven M. Hoffberg System and method for determining contingent relevance
US8209174B2 (en) * 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
CN102509547B (zh) * 2011-12-29 2013-06-19 辽宁工业大学 基于矢量量化的声纹识别方法及系统
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
CN104464727B (zh) * 2014-12-11 2018-02-09 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN106340298A (zh) * 2015-07-06 2017-01-18 南京理工大学 融合内容识别和话者识别的声纹解锁方法
CN105448302B (zh) * 2015-11-10 2019-06-25 厦门快商通科技股份有限公司 一种环境自适应的语音混响消除方法和系统
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN102572839A (zh) * 2010-12-14 2012-07-11 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
CN103531199A (zh) * 2013-10-11 2014-01-22 福州大学 基于快速稀疏分解和深度学习的生态声音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Speaker recognition using Mel frequency Cepstral Coefficients (MFCC) and Vector quantization (VQ) techniques》;Jorge MARTINEZ.etl;《IEEE CONIELECOMP 2012, 22nd International Conference on Electrical Communications and Computers》;20120426;全文 *

Also Published As

Publication number Publication date
CN107039036A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN107039036B (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN108172218A (zh) 一种语音建模方法及装置
CN107871499B (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
Nahid et al. Bengali speech recognition: A double layered LSTM-RNN approach
CN108876951A (zh) 一种基于声音识别的教学考勤方法
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
CN109754790A (zh) 一种基于混合声学模型的语音识别系统及方法
Wand et al. Deep Neural Network Frontend for Continuous EMG-Based Speech Recognition.
CN110931045A (zh) 基于卷积神经网络的音频特征生成方法
CN101436405A (zh) 说话人识别方法和系统
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN108831486B (zh) 基于dnn与gmm模型的说话人识别方法
CN118136022A (zh) 一种智能语音识别系统及方法
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
Park et al. The Second DIHARD Challenge: System Description for USC-SAIL Team.
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN118098247A (zh) 一种基于并行特征提取模型的声纹识别方法和系统
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
CN107492373B (zh) 基于特征融合的声调识别方法
Othmane et al. Enhancement of esophageal speech using voice conversion techniques
Song et al. An Intelligent Speech Multifeature Recognition Method Based on Deep Machine Learning: A Smart City Application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170811

Assignee: NANJING NANYOU INSTITUTE OF INFORMATION TECHNOVATION Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2021980014141

Denomination of invention: A high quality speaker recognition method based on automatic coding depth confidence network

Granted publication date: 20200616

License type: Common License

Record date: 20211206

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: NANJING NANYOU INSTITUTE OF INFORMATION TECHNOVATION Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2021980014141

Date of cancellation: 20231107