CN107464568A - 基于三维卷积神经网络文本无关的说话人识别方法及系统 - Google Patents
基于三维卷积神经网络文本无关的说话人识别方法及系统 Download PDFInfo
- Publication number
- CN107464568A CN107464568A CN201710876391.7A CN201710876391A CN107464568A CN 107464568 A CN107464568 A CN 107464568A CN 201710876391 A CN201710876391 A CN 201710876391A CN 107464568 A CN107464568 A CN 107464568A
- Authority
- CN
- China
- Prior art keywords
- speaker
- module
- data
- training
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000007935 neutral effect Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 241001269238 Data Species 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100421536 Danio rerio sim1a gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于三维卷积神经网络文本无关的说话人识别系统,包括:模块一:语音采集模块,用于语音数据的采集;模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;模块四:说话人识别模块,用于实时识别说话人的身份。本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法。本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统,可以达到用户的注册和识别的文本无关,提高用户的体验度。
Description
技术领域
本发明涉及一种说话人识别方法和系统,具体涉及一种基于三维卷积神经网络的文本无关的说话人识别方法及系统,属于智能识别技术领域。
背景技术
随着人工智能的发展,智能家居语音控制系统的前景开始凸显出来。不过,即使当前的语音识别技术已经基本上达到了人们所需要的标准,在智能家居语音控制系统之中,仍然有一些瑕疵的存在,例如如何准确辨认发出命令的用户的身份,说话人识别(也即声纹识别)是有效解决方式之一。智能家居系统辨别出用户的身份,便可以根据对应用户的个人喜好推送相关内容。以此,借助说话人识别能让用户体验进一步的提升,同时提高了家庭应用环境的安全系数。
因此,随着语音识别热潮的过去,说话人识别又成为了新的热门,被称为智能家居未来发展的关键,或是语音交互的下一个风口。说话人识别将改变未来的智能家居领域的操作习惯,解放用户的双手,双脚,无需走来走去或者拿着移动终端拼命按键。也让老人小孩等不方便用物理形式操控产品系统的用户人群享受智能家居生活,更有助于智能家居在大众家庭的普及落地。
现有的说话人识别技术存在的问题:(1)说话人识别算法基本都是基于文本相关的,即注册和识别的语句必须一致,大大降低了用户的体验度;(2)一些基于文本无关的说话人识别算法,都是人工设计特征,步骤繁琐,工作量大;(3)用户注册阶段,将用户的多个声纹特征求均值之后最为注册模型,这样忽略了同一个词语即使由同一人说出来也会有很大差别这一个特性。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。
本发明是这样实现的:
一种基于三维卷积神经网络文本无关的说话人识别系统,包括:
模块一:语音采集模块,用于语音数据的采集;
模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;
模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;
模块四:说话人识别模块,用于实时识别说话人的身份。
更进一步的方案是:
语音采集是采用录音的方式收集的。
更进一步的方案是:
剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。
更进一步的方案是:
语音预处理模块进一步包括以下步骤:
S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;
S1:将步骤一种的特征采用语音激活检测剔除其中的非音频数据,每个原始语音等到MxC的二维矩阵Y,其中M小于等于N;
S2:构建三维训练样本,所有数据以hd5的格式保存,假设每个三维训练数据的格式为h*n*C,其中h为数据的深度,n为数据的行,C为数据的列;
S3:假设每类别的有T(T>h)个语音数据样本,通过S0和S1可以得到每个样本的最终特征为M(M>n)个C维的二维矩阵Y;
S4:从每个类别的T个样本中随机选择h个样本,再从每个样本的特征矩阵Y中随机选择n行,这样就得到这个人的一个三维训练样本h*n*C;
S5:重复S4,就可以得到所有类别的训练样本。
更进一步的方案是:
说话人识别模型训练模块中,网络模型采用残差卷积神经网络,分类器采用softmax,这样经过训练之后得到一个离线模型。
更进一步的方案是:
说话人识别模块进一步包括以下步骤:
S0:说话人注册,收集n说话人的语音样本,没人h个样本,采用训练的离线模型提取特征作为注册模型,保存在数据库中;
S1:由于待测试的说话人只有一个样本,因此需要复制此样本为h个样本,同样采用训练的离线模型提取特征;
S2:计算S0和S1中待识别说话人特征和数据库中的所有人的特征的余弦值sim,如果sim大于某个阈值sim_,则接受,否则拒绝。
本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法,主要是使用了本发明公开的的基于三维卷积神经网络文本无关的说话人识别系统。
本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统,可以达到用户的注册和识别的文本无关,提高用户的体验度;不需要人工设计特征,利用深度学习算法实现端到端识别;直接将用户注册的多个样本在空间域和时间域同时提取特征,而不是求均值,提高注册模型的区分性,同时可以得到说话人自身的变化性。
附图说明
图1是语音预处理流程图;
图2是说话人识别模型训练流程图;
图3是说话人注册流程图;
图4是说话人识别流程图。
具体实施方式
下面结合附图及实施例详细描述本发明的技术方案。
本发明实现了一种基于三维卷积神经网络的文本无关的说话人识别方法及系统,能够高效且准确地识别说话人的身份。为了使本发明的目的、技术方案和优点更加清楚,以下对本发明实施步骤进行了进一步的详细说明。
如附图1至4所示,一种基于三维卷积神经网络文本无关的说话人识别系统,包括:
模块一:语音采集模块,用于语音数据的采集;
模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;
模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;
模块四:说话人识别模块,用于实时识别说话人的身份。
语音采集是采用录音的方式收集的。
剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。
如附图1所示,语音预处理模块进一步包括以下步骤:
S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;
S1:将步骤一种的特征采用语音激活检测剔除其中的非音频数据,每个原始语音等到MxC的二维矩阵Y,其中M小于等于N;
S2:构建三维训练样本,所有数据以hd5的格式保存,假设每个三维训练数据的格式为h*n*C,其中h为数据的深度,n为数据的行,C为数据的列;
S3:假设每类别的有T(T>h)个语音数据样本,通过S0和S1可以得到每个样本的最终特征为M(M>n)个C维的二维矩阵Y;
S4:从每个类别的T个样本中随机选择h个样本,再从每个样本的特征矩阵Y中随机选择n行,这样就得到这个人的一个三维训练样本h*n*C;
S5:重复S4,就可以得到所有类别的训练样本。
说话人识别模型训练模块中,网络模型采用残差卷积神经网络,分类器采用softmax,这样经过训练之后得到一个离线模型。
说话人识别模块进一步包括以下步骤:
S0:说话人注册,收集n说话人的语音样本,没人h个样本,采用训练的离线模型提取特征作为注册模型,保存在数据库中;
S1:由于待测试的说话人只有一个样本,因此需要复制此样本为h个样本,同样采用训练的离线模型提取特征;
S2:计算S0和S1中待识别说话人特征和数据库中的所有人的特征的余弦值sim,如果sim大于某个阈值sim_,则接受,否则拒绝。
根据系统的需要建建立说话人识别方法及系统的所有模块,下面根据系统的工作模式来阐述此系统的工作流程。
训练模式
训练模式流程如图2所示。
(1)语音样本采集
采用录音的方式收集训练样本。
(2)语音预处理
采用训练阶段生成的离线模型对预处理后的语音提取特征,生成训练数据。
(3)模型训练
采用残差神经网络结构和softmax分类训练说话人识别模型。
实施例1
以训练一个包含1000个说话人的模型为例具体说明说话人识别模型训练过程。
(1)采集每个说话人的样本,指标:样本数每人3000个样本;
(2)语音预处理模块处理所有语音数据,得到三维训练数据;
(3)将所有训练数据,并将所有的样本随机分为4:1,分别作为训练集和验证集;
(4)采用残差网络训练模型,当模型在验证集上面的识别精度基本保持不变的时候终止模型训练,得到说话人识别离线模型。
注册模式
(1)语音样本采集
采用录音的方式收集训练样本;
(2)语音预处理
采用语音预处理模块对语音进行预处理,生成注册数据;
(3)特征提取
采用训练阶段生成的离线模型对预处理后的语音提取特征,存放在数据库中。
实施例2
以注册一个包含10个说话人的数据集为例具体说明说话人注册的过程。
(1)采集10个人说话人的语音数据,每人20个语音数据样本;
(2)语音预处理模块处理所有语音数据,得到每个说话人的三维数据;
(3)采用训练阶段生成的离线模型提取特征,将每个人的特征保存在数据库中,speaker0,speaker1,...,speaker9;
识别模式
(1)语音样本采集
采用录音的方式收集训练样本。
(2)语音预处理
采用训练阶段生成的离线模型对预处理后的语音提取特征,生成测试数据。
(3)提取特征
采用训练阶段生成的离线模型对预处理后的语音提取特征。
(4)特征比对
将测试样本的特征与数据库里面注册的说话人的特征求余弦距离,如果此距离大于阈值sim_则接受,否则拒绝。
实施例3
以识别一个说话人为例具体说明说话人识别的过程。
(1)采集此说话人的语音数据一条;
(2)语音预处理模块处理所有语音数据,根据训练数据采用的三维数据的深度重复复制此测试样本,得到此样本的三维数据;
(3)采用训练阶段生成的离线模型提取特征;
(4)将此特征和数据库中注册的特征有余弦距离得到sim0,sim1,...,sim9,找到这10个相似度中的最大值sim_max和对应说话人的编号speaker_x,如果这个最大值大于阈值sim,则接受此样本为speaker_x,否者识别为未注册说话人。
综上所述,本发明通过语音采集、语音预处理、说话人模型训练、说话人注册、说话人别实现了一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (7)
1.一种基于三维卷积神经网络文本无关的说话人识别系统,其特征在于包括:
模块一:语音采集模块,用于语音数据的采集;
模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;
模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;
模块四:说话人识别模块,用于实时识别说话人的身份。
2.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
语音采集是采用录音的方式收集的。
3.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。
4.根据权利要求3所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
语音预处理模块进一步包括以下步骤:
S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;
S1:将步骤一种的特征采用语音激活检测剔除其中的非音频数据,每个原始语音等到MxC的二维矩阵Y,其中M小于等于N;
S2:构建三维训练样本,所有数据以hd5的格式保存,假设每个三维训练数据的格式为h*n*C,其中h为数据的深度,n为数据的行,C为数据的列;
S3:假设每类别的有T(T>h)个语音数据样本,通过S0和S1可以得到每个样本的最终特征为M(M>n)个C维的二维矩阵Y;
S4:从每个类别的T个样本中随机选择h个样本,再从每个样本的特征矩阵Y中随机选择n行,这样就得到这个人的一个三维训练样本h*n*C;
S5:重复S4,就可以得到所有类别的训练样本。
5.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
说话人识别模型训练模块中,网络模型采用残差卷积神经网络,分类器采用softmax,这样经过训练之后得到一个离线模型。
6.根据权利要求5所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:
说话人识别模块进一步包括以下步骤:
S0:说话人注册,收集n说话人的语音样本,没人h个样本,采用训练的离线模型提取特征作为注册模型,保存在数据库中;
S1:由于待测试的说话人只有一个样本,因此需要复制此样本为h个样本,同样采用训练的离线模型提取特征;
S2:计算S0和S1中待识别说话人特征和数据库中的所有人的特征的余弦值sim,如果sim大于某个阈值sim_,则接受,否则拒绝。
7.一种基于三维卷积神经网络文本无关的说话人识别方法,其特征在于:使用了权利要求1至6任一权利要求所述的基于三维卷积神经网络文本无关的说话人识别系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876391.7A CN107464568B (zh) | 2017-09-25 | 2017-09-25 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876391.7A CN107464568B (zh) | 2017-09-25 | 2017-09-25 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107464568A true CN107464568A (zh) | 2017-12-12 |
CN107464568B CN107464568B (zh) | 2020-06-30 |
Family
ID=60553321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710876391.7A Active CN107464568B (zh) | 2017-09-25 | 2017-09-25 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107464568B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN108597523A (zh) * | 2018-03-23 | 2018-09-28 | 平安科技(深圳)有限公司 | 说话人认证方法、服务器及计算机可读存储介质 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN108735221A (zh) * | 2018-05-28 | 2018-11-02 | 深圳市街角电子商务有限公司 | 一种基于深度学习的说话人识别系统及识别方法 |
CN108766445A (zh) * | 2018-05-30 | 2018-11-06 | 苏州思必驰信息科技有限公司 | 声纹识别方法及系统 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN108899037A (zh) * | 2018-07-05 | 2018-11-27 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN109582965A (zh) * | 2018-11-30 | 2019-04-05 | 四川长虹电器股份有限公司 | 语义分析引擎的分布式平台构架方法、系统 |
CN110136727A (zh) * | 2019-04-16 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110232932A (zh) * | 2019-05-09 | 2019-09-13 | 平安科技(深圳)有限公司 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
CN110289003A (zh) * | 2018-10-10 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN110349585A (zh) * | 2018-04-04 | 2019-10-18 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN110415708A (zh) * | 2019-07-04 | 2019-11-05 | 平安科技(深圳)有限公司 | 基于神经网络的说话人确认方法、装置、设备及存储介质 |
CN111653289A (zh) * | 2020-05-29 | 2020-09-11 | 宁波大学 | 一种回放语音检测方法 |
CN111667836A (zh) * | 2020-06-19 | 2020-09-15 | 南京大学 | 基于深度学习的文本无关多标号说话人识别方法 |
CN111968652A (zh) * | 2020-07-14 | 2020-11-20 | 重庆邮电大学 | 一种基于3dcnn-lstm的说话人识别方法及存储介质 |
CN112420057A (zh) * | 2020-10-26 | 2021-02-26 | 四川长虹电器股份有限公司 | 基于距离编码的声纹识别方法、装置、设备及存储介质 |
CN112614492A (zh) * | 2020-12-09 | 2021-04-06 | 通号智慧城市研究设计院有限公司 | 基于时空信息融合的声纹识别方法、系统及存储介质 |
CN113823293A (zh) * | 2021-09-28 | 2021-12-21 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1302427A (zh) * | 1997-11-03 | 2001-07-04 | T-内提克斯公司 | 用于说话者认证的模型自适应系统和方法 |
CN101409073A (zh) * | 2008-11-17 | 2009-04-15 | 浙江大学 | 一种基于基频包络的汉语普通话孤立词识别方法 |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
US9319357B2 (en) * | 2009-01-15 | 2016-04-19 | Social Communications Company | Context based virtual area creation |
CN105895082A (zh) * | 2016-05-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 声学模型训练方法、语音识别方法及装置 |
CN106128465A (zh) * | 2016-06-23 | 2016-11-16 | 成都启英泰伦科技有限公司 | 一种声纹识别系统及方法 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN107146624A (zh) * | 2017-04-01 | 2017-09-08 | 清华大学 | 一种说话人确认方法及装置 |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
-
2017
- 2017-09-25 CN CN201710876391.7A patent/CN107464568B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1302427A (zh) * | 1997-11-03 | 2001-07-04 | T-内提克斯公司 | 用于说话者认证的模型自适应系统和方法 |
CN101409073A (zh) * | 2008-11-17 | 2009-04-15 | 浙江大学 | 一种基于基频包络的汉语普通话孤立词识别方法 |
US9319357B2 (en) * | 2009-01-15 | 2016-04-19 | Social Communications Company | Context based virtual area creation |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN105895082A (zh) * | 2016-05-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 声学模型训练方法、语音识别方法及装置 |
CN106128465A (zh) * | 2016-06-23 | 2016-11-16 | 成都启英泰伦科技有限公司 | 一种声纹识别系统及方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN107146624A (zh) * | 2017-04-01 | 2017-09-08 | 清华大学 | 一种说话人确认方法及装置 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
Non-Patent Citations (1)
Title |
---|
胡青 等: "《基于卷积神经网络的说话人识别算法》", 《计算机应用》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN108597523A (zh) * | 2018-03-23 | 2018-09-28 | 平安科技(深圳)有限公司 | 说话人认证方法、服务器及计算机可读存储介质 |
WO2019179033A1 (zh) * | 2018-03-23 | 2019-09-26 | 平安科技(深圳)有限公司 | 说话人认证方法、服务器及计算机可读存储介质 |
CN108597523B (zh) * | 2018-03-23 | 2019-05-17 | 平安科技(深圳)有限公司 | 说话人认证方法、服务器及计算机可读存储介质 |
CN108694949B (zh) * | 2018-03-27 | 2021-06-22 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN110349585B (zh) * | 2018-04-04 | 2023-05-05 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN110349585A (zh) * | 2018-04-04 | 2019-10-18 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN108766419B (zh) * | 2018-05-04 | 2020-10-27 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN108735221A (zh) * | 2018-05-28 | 2018-11-02 | 深圳市街角电子商务有限公司 | 一种基于深度学习的说话人识别系统及识别方法 |
CN108766445A (zh) * | 2018-05-30 | 2018-11-06 | 苏州思必驰信息科技有限公司 | 声纹识别方法及系统 |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN108847223B (zh) * | 2018-06-20 | 2020-09-29 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN108899037B (zh) * | 2018-07-05 | 2024-01-26 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN108899037A (zh) * | 2018-07-05 | 2018-11-27 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN110289003A (zh) * | 2018-10-10 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN110289003B (zh) * | 2018-10-10 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN109582965A (zh) * | 2018-11-30 | 2019-04-05 | 四川长虹电器股份有限公司 | 语义分析引擎的分布式平台构架方法、系统 |
CN109582965B (zh) * | 2018-11-30 | 2022-03-01 | 四川长虹电器股份有限公司 | 语义分析引擎的分布式平台构架方法、系统 |
CN110136727B (zh) * | 2019-04-16 | 2024-04-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
WO2020211354A1 (zh) * | 2019-04-16 | 2020-10-22 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110136727A (zh) * | 2019-04-16 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110232932A (zh) * | 2019-05-09 | 2019-09-13 | 平安科技(深圳)有限公司 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
CN110232932B (zh) * | 2019-05-09 | 2023-11-03 | 平安科技(深圳)有限公司 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
CN110415708A (zh) * | 2019-07-04 | 2019-11-05 | 平安科技(深圳)有限公司 | 基于神经网络的说话人确认方法、装置、设备及存储介质 |
CN111653289A (zh) * | 2020-05-29 | 2020-09-11 | 宁波大学 | 一种回放语音检测方法 |
CN111667836A (zh) * | 2020-06-19 | 2020-09-15 | 南京大学 | 基于深度学习的文本无关多标号说话人识别方法 |
CN111968652B (zh) * | 2020-07-14 | 2022-08-26 | 重庆邮电大学 | 一种基于3dcnn-lstm的说话人识别方法及存储介质 |
CN111968652A (zh) * | 2020-07-14 | 2020-11-20 | 重庆邮电大学 | 一种基于3dcnn-lstm的说话人识别方法及存储介质 |
CN112420057A (zh) * | 2020-10-26 | 2021-02-26 | 四川长虹电器股份有限公司 | 基于距离编码的声纹识别方法、装置、设备及存储介质 |
CN112614492A (zh) * | 2020-12-09 | 2021-04-06 | 通号智慧城市研究设计院有限公司 | 基于时空信息融合的声纹识别方法、系统及存储介质 |
CN113823293A (zh) * | 2021-09-28 | 2021-12-21 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
CN113823293B (zh) * | 2021-09-28 | 2024-04-26 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107464568B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107464568A (zh) | 基于三维卷积神经网络文本无关的说话人识别方法及系统 | |
CN106295807B (zh) | 一种信息处理的方法及装置 | |
CN108986835B (zh) | 基于改进gan网络的语音去噪方法、装置、设备及介质 | |
CN106328166B (zh) | 人机对话异常检测系统及方法 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
CN107808659A (zh) | 智能语音信号模式识别系统装置 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN110266647A (zh) | 一种命令和控制通信检测方法及系统 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN110442718A (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN106504768A (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN109886021A (zh) | 一种基于api全局词向量和分层循环神经网络的恶意代码检测方法 | |
CN106228980A (zh) | 数据处理方法和装置 | |
CN101710490A (zh) | 语音评测的噪声补偿方法及装置 | |
CN108694949A (zh) | 基于重排序超向量和残差网络的说话人识别方法及其装置 | |
CN111597328B (zh) | 一种新事件主题提取方法 | |
CN109710748A (zh) | 一种面向智能机器人的绘本阅读交互方法和系统 | |
CN111581967B (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
CN107886231A (zh) | 客服的服务质量评价方法与系统 | |
CN106599110A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN107967302A (zh) | 基于深度神经网络的游戏客服对话系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |