CN107464568B - 基于三维卷积神经网络文本无关的说话人识别方法及系统 - Google Patents

基于三维卷积神经网络文本无关的说话人识别方法及系统 Download PDF

Info

Publication number
CN107464568B
CN107464568B CN201710876391.7A CN201710876391A CN107464568B CN 107464568 B CN107464568 B CN 107464568B CN 201710876391 A CN201710876391 A CN 201710876391A CN 107464568 B CN107464568 B CN 107464568B
Authority
CN
China
Prior art keywords
speaker
module
voice
data
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710876391.7A
Other languages
English (en)
Other versions
CN107464568A (zh
Inventor
伍强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201710876391.7A priority Critical patent/CN107464568B/zh
Publication of CN107464568A publication Critical patent/CN107464568A/zh
Application granted granted Critical
Publication of CN107464568B publication Critical patent/CN107464568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于三维卷积神经网络文本无关的说话人识别系统,包括:模块一:语音采集模块,用于语音数据的采集;模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;模块四:说话人识别模块,用于实时识别说话人的身份。本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法。本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统,可以达到用户的注册和识别的文本无关,提高用户的体验度。

Description

基于三维卷积神经网络文本无关的说话人识别方法及系统
技术领域
本发明涉及一种说话人识别方法和系统,具体涉及一种基于三维卷积神经网络的文本无关的说话人识别方法及系统,属于智能识别技术领域。
背景技术
随着人工智能的发展,智能家居语音控制系统的前景开始凸显出来。不过,即使当前的语音识别技术已经基本上达到了人们所需要的标准,在智能家居语音控制系统之中,仍然有一些瑕疵的存在,例如如何准确辨认发出命令的用户的身份,说话人识别(也即声纹识别)是有效解决方式之一。智能家居系统辨别出用户的身份,便可以根据对应用户的个人喜好推送相关内容。以此,借助说话人识别能让用户体验进一步的提升,同时提高了家庭应用环境的安全系数。
因此,随着语音识别热潮的过去,说话人识别又成为了新的热门,被称为智能家居未来发展的关键,或是语音交互的下一个风口。说话人识别将改变未来的智能家居领域的操作习惯,解放用户的双手,双脚,无需走来走去或者拿着移动终端拼命按键。也让老人小孩等不方便用物理形式操控产品系统的用户人群享受智能家居生活,更有助于智能家居在大众家庭的普及落地。
现有的说话人识别技术存在的问题:(1)说话人识别算法基本都是基于文本相关的,即注册和识别的语句必须一致,大大降低了用户的体验度;(2)一些基于文本无关的说话人识别算法,都是人工设计特征,步骤繁琐,工作量大;(3)用户注册阶段,将用户的多个声纹特征求均值之后最为注册模型,这样忽略了同一个词语即使由同一人说出来也会有很大差别这一个特性。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。
本发明是这样实现的:
一种基于三维卷积神经网络文本无关的说话人识别系统,包括:
模块一:语音采集模块,用于语音数据的采集;
模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;
模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;
模块四:说话人识别模块,用于实时识别说话人的身份。
更进一步的方案是:
语音采集是采用录音的方式收集的。
更进一步的方案是:
剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。
更进一步的方案是:
语音预处理模块进一步包括以下步骤:
S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;
S1:将步骤一种的特征采用语音激活检测剔除其中的非音频数据,每个原始语音等到MxC的二维矩阵Y,其中M小于等于N;
S2:构建三维训练样本,所有数据以hd5的格式保存,假设每个三维训练数据的格式为h*n*C,其中h为数据的深度,n为数据的行,C为数据的列;
S3:假设每类别的有T(T>h)个语音数据样本,通过S0和S1可以得到每个样本的最终特征为M(M>n)个C维的二维矩阵Y;
S4:从每个类别的T个样本中随机选择h个样本,再从每个样本的特征矩阵Y中随机选择n行,这样就得到这个人的一个三维训练样本h*n*C;
S5:重复S4,就可以得到所有类别的训练样本。
更进一步的方案是:
说话人识别模型训练模块中,网络模型采用残差卷积神经网络,分类器采用softmax,这样经过训练之后得到一个离线模型。
更进一步的方案是:
说话人识别模块进一步包括以下步骤:
S0:说话人注册,收集n说话人的语音样本,没人h个样本,采用训练的离线模型提取特征作为注册模型,保存在数据库中;
S1:由于待测试的说话人只有一个样本,因此需要复制此样本为h个样本,同样采用训练的离线模型提取特征;
S2:计算S0和S1中待识别说话人特征和数据库中的所有人的特征的余弦值sim,如果sim大于某个阈值sim_,则接受,否则拒绝。
本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法,主要是使用了本发明公开的的基于三维卷积神经网络文本无关的说话人识别系统。
本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统,可以达到用户的注册和识别的文本无关,提高用户的体验度;不需要人工设计特征,利用深度学习算法实现端到端识别;直接将用户注册的多个样本在空间域和时间域同时提取特征,而不是求均值,提高注册模型的区分性,同时可以得到说话人自身的变化性。
附图说明
图1是语音预处理流程图;
图2是说话人识别模型训练流程图;
图3是说话人注册流程图;
图4是说话人识别流程图。
具体实施方式
下面结合附图及实施例详细描述本发明的技术方案。
本发明实现了一种基于三维卷积神经网络的文本无关的说话人识别方法及系统,能够高效且准确地识别说话人的身份。为了使本发明的目的、技术方案和优点更加清楚,以下对本发明实施步骤进行了进一步的详细说明。
如附图1至4所示,一种基于三维卷积神经网络文本无关的说话人识别系统,包括:
模块一:语音采集模块,用于语音数据的采集;
模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;
模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;
模块四:说话人识别模块,用于实时识别说话人的身份。
语音采集是采用录音的方式收集的。
剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。
如附图1所示,语音预处理模块进一步包括以下步骤:
S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;
S1:将步骤一种的特征采用语音激活检测剔除其中的非音频数据,每个原始语音等到MxC的二维矩阵Y,其中M小于等于N;
S2:构建三维训练样本,所有数据以hd5的格式保存,假设每个三维训练数据的格式为h*n*C,其中h为数据的深度,n为数据的行,C为数据的列;
S3:假设每类别的有T(T>h)个语音数据样本,通过S0和S1可以得到每个样本的最终特征为M(M>n)个C维的二维矩阵Y;
S4:从每个类别的T个样本中随机选择h个样本,再从每个样本的特征矩阵Y中随机选择n行,这样就得到这个人的一个三维训练样本h*n*C;
S5:重复S4,就可以得到所有类别的训练样本。
说话人识别模型训练模块中,网络模型采用残差卷积神经网络,分类器采用softmax,这样经过训练之后得到一个离线模型。
说话人识别模块进一步包括以下步骤:
S0:说话人注册,收集n说话人的语音样本,没人h个样本,采用训练的离线模型提取特征作为注册模型,保存在数据库中;
S1:由于待测试的说话人只有一个样本,因此需要复制此样本为h个样本,同样采用训练的离线模型提取特征;
S2:计算S0和S1中待识别说话人特征和数据库中的所有人的特征的余弦值sim,如果sim大于某个阈值sim_,则接受,否则拒绝。
根据系统的需要建建立说话人识别方法及系统的所有模块,下面根据系统的工作模式来阐述此系统的工作流程。
训练模式
训练模式流程如图2所示。
(1)语音样本采集
采用录音的方式收集训练样本。
(2)语音预处理
采用训练阶段生成的离线模型对预处理后的语音提取特征,生成训练数据。
(3)模型训练
采用残差神经网络结构和softmax分类训练说话人识别模型。
实施例1
以训练一个包含1000个说话人的模型为例具体说明说话人识别模型训练过程。
(1)采集每个说话人的样本,指标:样本数每人3000个样本;
(2)语音预处理模块处理所有语音数据,得到三维训练数据;
(3)将所有训练数据,并将所有的样本随机分为4:1,分别作为训练集和验证集;
(4)采用残差网络训练模型,当模型在验证集上面的识别精度基本保持不变的时候终止模型训练,得到说话人识别离线模型。
注册模式
(1)语音样本采集
采用录音的方式收集训练样本;
(2)语音预处理
采用语音预处理模块对语音进行预处理,生成注册数据;
(3)特征提取
采用训练阶段生成的离线模型对预处理后的语音提取特征,存放在数据库中。
实施例2
以注册一个包含10个说话人的数据集为例具体说明说话人注册的过程。
(1)采集10个人说话人的语音数据,每人20个语音数据样本;
(2)语音预处理模块处理所有语音数据,得到每个说话人的三维数据;
(3)采用训练阶段生成的离线模型提取特征,将每个人的特征保存在数据库中,speaker0,speaker1,...,speaker9;
识别模式
(1)语音样本采集
采用录音的方式收集训练样本。
(2)语音预处理
采用训练阶段生成的离线模型对预处理后的语音提取特征,生成测试数据。
(3)提取特征
采用训练阶段生成的离线模型对预处理后的语音提取特征。
(4)特征比对
将测试样本的特征与数据库里面注册的说话人的特征求余弦距离,如果此距离大于阈值sim_则接受,否则拒绝。
实施例3
以识别一个说话人为例具体说明说话人识别的过程。
(1)采集此说话人的语音数据一条;
(2)语音预处理模块处理所有语音数据,根据训练数据采用的三维数据的深度重复复制此测试样本,得到此样本的三维数据;
(3)采用训练阶段生成的离线模型提取特征;
(4)将此特征和数据库中注册的特征有余弦距离得到sim0,sim1,...,sim9,找到这10个相似度中的最大值sim_max和对应说话人的编号speaker_x,如果这个最大值大于阈值sim,则接受此样本为speaker_x,否者识别为未注册说话人。
综上所述,本发明通过语音采集、语音预处理、说话人模型训练、说话人注册、说话人别实现了一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (6)

1.一种基于三维卷积神经网络文本无关的说话人识别系统,其特征在于包括:
模块一:语音采集模块,用于语音数据的采集;
模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,得到最终的训练数据;
语音预处理模块进一步包括以下步骤:
S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;
S1:将SO中的特征采用语音激活检测剔除其中的非音频数据,每个原始语音得到MxC的二维矩阵Y,其中M小于等于N;
S2:构建三维训练样本,所有数据以hd5的格式保存,假设每个三维训练数据的格式为h*n*C,其中h为数据的深度,n为数据的行,C为数据的列;
S3:假设每类别的有T(T>h)个语音数据样本,通过S0和S1可以得到每个样本的最终特征为M(M>n)个C维的二维矩阵Y;
S4:从每个类别的T个样本中随机选择h个样本,再从每个样本的特征矩阵Y中随机选择n行,这样就得到这个人的一个三维训练样本h*n*C;
S5:重复S4,就可以得到所有类别的训练样本;
模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;
模块四:说话人识别模块,用于实时识别说话人的身份。
2.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
语音采集是采用录音的方式收集的。
3.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。
4.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
说话人识别模型训练模块中,网络模型采用残差卷积神经网络,分类器采用softmax,这样经过训练之后得到一个离线模型。
5.根据权利要求4所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
说话人识别模块进一步包括以下步骤:
S0:说话人注册,收集n说话人的语音样本,每人h个样本,采用训练的离线模型提取特征作为注册模型,保存在数据库中;
S1:由于待测试的说话人只有一个样本,因此需要复制此样本为h个样本,同样采用训练的离线模型提取特征;
S2:计算S0和S1中待识别说话人特征和数据库中的所有人的特征的余弦值sim,如果sim大于某个阈值sim_,则接受,否则拒绝。
6.一种基于三维卷积神经网络文本无关的说话人识别方法,其特征在于:使用了权利要求1至5任一权利要求所述的基于三维卷积神经网络文本无关的说话人识别系统。
CN201710876391.7A 2017-09-25 2017-09-25 基于三维卷积神经网络文本无关的说话人识别方法及系统 Active CN107464568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710876391.7A CN107464568B (zh) 2017-09-25 2017-09-25 基于三维卷积神经网络文本无关的说话人识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710876391.7A CN107464568B (zh) 2017-09-25 2017-09-25 基于三维卷积神经网络文本无关的说话人识别方法及系统

Publications (2)

Publication Number Publication Date
CN107464568A CN107464568A (zh) 2017-12-12
CN107464568B true CN107464568B (zh) 2020-06-30

Family

ID=60553321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710876391.7A Active CN107464568B (zh) 2017-09-25 2017-09-25 基于三维卷积神经网络文本无关的说话人识别方法及系统

Country Status (1)

Country Link
CN (1) CN107464568B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108597523B (zh) * 2018-03-23 2019-05-17 平安科技(深圳)有限公司 说话人认证方法、服务器及计算机可读存储介质
CN108694949B (zh) * 2018-03-27 2021-06-22 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN110349585B (zh) * 2018-04-04 2023-05-05 富士通株式会社 语音认证方法和信息处理设备
CN108766419B (zh) * 2018-05-04 2020-10-27 华南理工大学 一种基于深度学习的非常态语音区别方法
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN108735221A (zh) * 2018-05-28 2018-11-02 深圳市街角电子商务有限公司 一种基于深度学习的说话人识别系统及识别方法
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN108847223B (zh) * 2018-06-20 2020-09-29 陕西科技大学 一种基于深度残差神经网络的语音识别方法
CN108899037B (zh) * 2018-07-05 2024-01-26 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN110164452B (zh) * 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109582965B (zh) * 2018-11-30 2022-03-01 四川长虹电器股份有限公司 语义分析引擎的分布式平台构架方法、系统
CN110136727B (zh) * 2019-04-16 2024-04-16 平安科技(深圳)有限公司 基于说话内容的说话者身份识别方法、装置及存储介质
CN110232932B (zh) * 2019-05-09 2023-11-03 平安科技(深圳)有限公司 基于残差时延网络的说话人确认方法、装置、设备及介质
CN110415708A (zh) * 2019-07-04 2019-11-05 平安科技(深圳)有限公司 基于神经网络的说话人确认方法、装置、设备及存储介质
CN111653289B (zh) * 2020-05-29 2022-12-27 宁波大学 一种回放语音检测方法
CN111667836B (zh) * 2020-06-19 2023-05-05 南京大学 基于深度学习的文本无关多标号说话人识别方法
CN111968652B (zh) * 2020-07-14 2022-08-26 重庆邮电大学 一种基于3dcnn-lstm的说话人识别方法及存储介质
CN112420057B (zh) * 2020-10-26 2022-05-03 四川长虹电器股份有限公司 基于距离编码的声纹识别方法、装置、设备及存储介质
CN112614492A (zh) * 2020-12-09 2021-04-06 通号智慧城市研究设计院有限公司 基于时空信息融合的声纹识别方法、系统及存储介质
CN113823293B (zh) * 2021-09-28 2024-04-26 武汉理工大学 一种基于语音增强的说话人识别方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409073A (zh) * 2008-11-17 2009-04-15 浙江大学 一种基于基频包络的汉语普通话孤立词识别方法
CN104616664A (zh) * 2015-02-02 2015-05-13 合肥工业大学 一种基于声谱图显著性检测的音频识别方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
US9319357B2 (en) * 2009-01-15 2016-04-19 Social Communications Company Context based virtual area creation
CN105895082A (zh) * 2016-05-30 2016-08-24 乐视控股(北京)有限公司 声学模型训练方法、语音识别方法及装置
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1027700A4 (en) * 1997-11-03 2001-01-31 T Netix Inc MODEL ADAPTATION SYSTEM AND SPEAKER CHECKING METHOD

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409073A (zh) * 2008-11-17 2009-04-15 浙江大学 一种基于基频包络的汉语普通话孤立词识别方法
US9319357B2 (en) * 2009-01-15 2016-04-19 Social Communications Company Context based virtual area creation
CN104616664A (zh) * 2015-02-02 2015-05-13 合肥工业大学 一种基于声谱图显著性检测的音频识别方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105895082A (zh) * 2016-05-30 2016-08-24 乐视控股(北京)有限公司 声学模型训练方法、语音识别方法及装置
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于卷积神经网络的说话人识别算法》;胡青 等;《计算机应用》;20160610;全文 *

Also Published As

Publication number Publication date
CN107464568A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107464568B (zh) 基于三维卷积神经网络文本无关的说话人识别方法及系统
CN106251874B (zh) 一种语音门禁和安静环境监控方法及系统
CN107767861B (zh) 语音唤醒方法、系统及智能终端
CN108694949B (zh) 基于重排序超向量和残差网络的说话人识别方法及其装置
CN108648760B (zh) 实时声纹辨识系统与方法
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
Dennis et al. Temporal coding of local spectrogram features for robust sound recognition
CN111462729B (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN107886957A (zh) 一种结合声纹识别的语音唤醒方法及装置
CN106898355B (zh) 一种基于二次建模的说话人识别方法
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN111797696B (zh) 一种现场自主学习的人脸识别系统和方法
CN110047517A (zh) 语音情感识别方法、问答方法及计算机设备
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN111081223B (zh) 一种语音识别方法、装置、设备和存储介质
CN110070895A (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN106971737A (zh) 一种基于多人说话的声纹识别方法
Khdier et al. Deep learning algorithms based voiceprint recognition system in noisy environment
CN107481736A (zh) 一种声纹身份认证装置及其认证优化方法和系统
CN115862634A (zh) 一种声纹识别方法及嵌入式装置
CN108461085A (zh) 一种短时语音条件下的说话人识别方法
Shi et al. Visual speaker authentication by ensemble learning over static and dynamic lip details

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant