CN108806696B - 建立声纹模型的方法、装置、计算机设备和存储介质 - Google Patents
建立声纹模型的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108806696B CN108806696B CN201810433792.XA CN201810433792A CN108806696B CN 108806696 B CN108806696 B CN 108806696B CN 201810433792 A CN201810433792 A CN 201810433792A CN 108806696 B CN108806696 B CN 108806696B
- Authority
- CN
- China
- Prior art keywords
- model
- voice
- voiceprint
- speech
- target user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 39
- 238000013136 deep learning model Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000012795 verification Methods 0.000 claims abstract description 25
- 230000004913 activation Effects 0.000 claims abstract description 20
- 238000009432 framing Methods 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 abstract description 28
- 230000003213 activating effect Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 210000000056 organ Anatomy 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 210000003928 nasal cavity Anatomy 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 210000002105 tongue Anatomy 0.000 description 4
- 210000000515 tooth Anatomy 0.000 description 4
- 210000001983 hard palate Anatomy 0.000 description 3
- 201000000615 hard palate cancer Diseases 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 210000000088 lip Anatomy 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 210000001331 nose Anatomy 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000013707 sensory perception of sound Effects 0.000 description 2
- 210000001584 soft palate Anatomy 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本申请揭示了一种建立声纹模型的方法、装置、计算机设备和存储介质,其中方法包括:对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;计算至少一个所述簇结构的平均值和标准差;将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型。本申请提取出的语音声学特征基于深度神经网络训练中得出簇结构,然后将簇结构进行坐标映射和激活函数计算,得出的声纹模型,可以降低声纹模型的声音识别错误率。
Description
技术领域
本申请涉及到计算机技术领域,特别是涉及到一种建立声纹模型的方法、装置、计算机设备和存储介质。
背景技术
声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。声纹识别算法通过学习声音图谱中抽取各种语音特征,建立识别模型,从而来确认说话人。目前的声纹识别方法,对于长声音文本(说话人语音长度超过1分钟以上的)效果很好,但是对于短声音文本(说话人语音长度少于1分钟,例如20s左右)来说,识别的错误率还比较高。
因此,如何建立一种可以降低短声音文本识别的错误率的声纹模型是亟需解决的问题。
发明内容
本申请的主要目的为提供一种建立降低短声音文本的识别错误率的声纹模型的方法、装置、计算机设备和存储介质。
为了实现上述发明目的,本申请提出一种建立声纹模型的方法,包括:
对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;
将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;
计算至少一个所述簇结构的平均值和标准差;
将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;
将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的。
进一步地,所述深度学习模型包括多层模型层,所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构的步骤包括:
将多个所述语音声学特征输入深度学习模型中;
选取多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层,n为正整数;
选择所述多层模型层中的目标模型层,并获取所述目标模型层上生成的至少一个簇结构。
进一步地,所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,与所述目标用户对应的得到声纹模型的步骤,包括:
将所述声纹模型的特征向量参数进行降维;
将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到声纹模型。
进一步地,所述提取分帧后的语音信号的语音声学特征的步骤包括:
将分帧后的语音信号进行快速傅里叶变换计算,得到能量谱;
将所述能量谱输入梅尔尺度的三角滤波器组,输出共振峰特征;
将所述共振峰特征经离散余弦变换,得到语音声学特征。
进一步地,所述得到声纹模型的步骤之后包括:
将待验证语音信号输入所述声纹模型中,得到所述声纹模型输出的身份验证结果。
进一步地,所述得到声纹模型的步骤之后包括:
接收用户对所述声纹模型标记的属性信息,所述属性信息包括的所述目标用户的性别、年龄、民族。
进一步地,所述提取分帧后的语音信号的语音声学特征的步骤包括:
识别输入的分帧后的语音信号的语音内容;
判断所述语音内容的发声部位;
根据所述发声部位将所述语音信号拆分;
分别对拆分后的语音信号提取语音声学特征。
本申请还提供一种建立声纹模型的装置,包括:
提取模块,用于对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;
簇结构模块,用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;
计算模块,用于计算至少一个所述簇结构的平均值和标准差;
特征向量模块,用于将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;
模型模块,用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的建立声纹模型的方法、装置、计算机设备和存储介质,将提取出的语音声学特征基于深度神经网络训练中得出簇结构,然后将簇结构进行坐标映射和激活函数计算,得出的声纹模型,可以降低声纹模型的声音识别错误率。
附图说明
图1为本申请一实施例的建立声纹模型的方法的流程示意图;
图2为本申请一实施例的建立声纹模型的方法的S2步骤的流程示意图;
图3为本申请一实施例的建立声纹模型的方法的S22步骤的流程示意图;
图4为本申请一实施例的建立声纹模型的方法的S5步骤的流程示意图;
图5为本申请一实施例的建立声纹模型的方法的S1步骤的流程示意图;
图6为本申请一实施例的建立声纹模型的方法的S11步骤的流程示意图;
图7为本申请一实施例的建立声纹模型的方法的流程示意图;
图8为本申请一实施例的建立声纹模型的方法的S1步骤的流程示意图;
图9为本申请一实施例的建立声纹模型的装置的结构示意图;
图10为本申请一实施例的建立声纹模型的装置的簇结构模块的结构示意图;
图11为本申请一实施例的建立声纹模型的装置的建立单元的结构示意图;
图12为本申请一实施例的建立声纹模型的装置的模型模块的结构示意图;
图13为本申请一实施例的建立声纹模型的装置的提取模块的结构示意图;
图14为本申请一实施例的建立声纹模型的装置的计算单元的结构示意图;
图15是本申请一实施例的建立声纹模型的装置的结构示意图;
图16是本申请一实施例的建立声纹模型的装置的提取模块的结构示意图;
图17为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种建立声纹模型的方法,包括步骤:
S1、对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;
S2、将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;
S3、计算至少一个所述簇结构的平均值和标准差;
S4、将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;
S5、将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的。
如上述步骤S1所述,声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹都有差异。语音信号是一种搭载着特定的信息模拟信号,其来源是由人发出的声音信号转换成的语音信号。每个人的声纹不一样,因而,相同的人说出同样的话产生的声音而后转换成的语音信号也是不一样的。因而,语音信号里所包含的语音声学特征也是不一样的。语音声学特征是每个人发出的声音中包含的声纹信息。分帧是指将连续的语音信号分成多段。人在正常讲话的语速下,音素的持续时间大约是50~200毫秒,所以帧长一般取为小于50毫秒。从微观上来看,它又必须包括足够多的振动周期。语音的音频,男声在100赫兹左右,女声在200赫兹左右,换算成周期就是10毫秒和5毫秒。一般一帧要包含多个周期,所以一般取至少20毫秒。所谓的语音信号包括一段连续的语音,例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数(MFCC),或感知线性预测系数(PLP),或滤波器组特征(Filter Bank Feature)等。当然,所述语音声学特征也可为所述语音片段的原始语音数据。将目标用户的语音信号中的语音声学特征提取出来,是将需要建立声纹模型的人说话的声音信号提取出来,非目标用户说话产生的语音信号则不进行提取。语音声学特征是从一段连续的语音信号中提取出来的包含有人说话的部分的语音信号,因而也是一段连续的语音信号。将语音信号分帧后,得到多段语音信号,分别提取出每段语音信号的语音声学特征,则得到多个语音声学特征。
如上述步骤S2所述,语音声学特征是从分帧的语音信号中提取出来的,是一段语音信号,将该语音信号输入到神经网络训练模型中,目的是将语音声学特征进行集合计算,方便统计与计算语音声学特征。簇结构是对一个或多个语音声学特征的集合计算结果,能体现出多个语音声学特征集合在一起的相同的共性特征。
如上述步骤S3所述,将多个语音声学特征输入基于神经网络的深度学习模型后,输出得到至少一个簇结构x1、x2、x1、...xn,假设簇结构是一个p维向量,则xn=(xi1,xi2,...,xip)T(i=1,2,...n)。计算这些簇结构的均值和标准差。得到簇结构的平均值和标准差。其中,计算多个簇结构的平均值的方法为:首先根据公式:计算每个分量的平均值,然后再根据公式:x0=(x1,x2,...,xj)T,计算出p维的平均向量,将p维的平均向量组合形成簇结构的平均值:E(x)。计算多个簇结构的标准差的公式为:D(x)=E{[x-E(x)][x-E(x)]T}。
如上述步骤S4所述,将上述的E(x)和D(x)经过a级映射和b级映射。其中,a级映射是将簇结构的平均值和标准差进行坐标变换,b级映射是将簇结构的平均值和标准差通过激活函数计算后得出一个非线性结果,该结果即为建立声纹模型的特征向量参数。
如上述步骤S5所述,系统将特征向量参数以及目标用户的身份验证结果输入到预设的基础模型,得到目标用户的声纹模型,该声纹模型接收到语音信号后,判断产生语音信号的人是否是目标用户说话的声音。基础模型是指神经网络模型,例如BP神经网络模型。BP神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是仅仅借助样本数据,无需建立系统的数学模型,就可对系统实现由m个输入神经元的模式向量p组成的pm空间到yn空间n(为输出节点数)的高度非线性映射。上述a级映射和b级映射,两个映射的过程不分先后。b级映射的激活函数可以采用Sigmoid,Sigmoid函数是一个在生物学中常见的S型的函数,也称为S型生长曲线,主要用作神经网络的阈值函数,在物理意义上最为接近生物神经元,其非线性激活函数的形式是σ(x)=1/(1+e-x),该公式中,x是输入的语音声学特征,e是自然常数,是数学科的一种法则,约为2.71828。
参照图2,本实施例中,所述深度学习模型包括多层模型层,所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构的步骤包括:
S21、将多个所述语音声学特征输入深度学习模型中;
S22、选取多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层,n为正整数;
S23、选择所述多层模型层中的目标模型层,并获取所述目标模型层上生成的至少一个簇结构。
如上述步骤S21所述,多个语音声学特征均是从一段连续的语音信号中提取出来的,因而多个语音声学特征也是连续的。将多个所述语音声学特征输入到深度学习模型中时,也是按照时间顺序来输入的。
如上述步骤S22所述,多个语音声学特征均是一段连续的声音信号,合在一起也是一段连续的声音信号,在该多个语音声学特征中,选取任一时间节点t,然后以距离t时刻在tn时间段内的语音声学特征进行集合,在其中一个模型层上形成簇结构。由于深度学习模型具有多层模型层,每个模型层上选择的时间节点t与距离t时刻的时间段tn不一样,每层模型层生成的簇结构的数量是不完全相同的。比如该多个语音声学特征一共有10秒,即10000ms,选择时间节点是第2000ms,建立第一模型层,每间隔t1(1ms)的时间内建立第一模型层,则第一模型层共有10000帧。然后建立第二模型层,取t2为2ms,每隔2ms的时间内建立第二模型层,第二模型层共有500帧。
如上述步骤S23所述,经过深度学习模型学习后,得到了多个模型层,每个模型层中均有多个簇结构,系统再选择其中一个模型层作为目标模型层,选择目标模型层上的簇结构作为后续生成声纹模型的参数。
参照图3,在一具体实施例中,建立5层模型层,上述步骤S22包括如下步骤:
S221、选择多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每t1时间内的语音声学特征建立第一模型层;
S222、在第一模型层上,以距离该时间节点t的每t2时间内的语音声学特征建立第二模型层;
S223、在第二模型层上,以距离该时间节点t的每t3时间内的语音声学特征建立第三模型层;
S224、在第三模型层上,以距离该时间节点t的每t4时间内的语音声学特征建立第四模型层;
S225、在第四模型层上,以距离该时间节点t的每t5时间内的语音声学特征建立第五模型层,其中,t1<t2<t3<t4<t5。
如上述S221步骤所述,选取任一时间节点t,比如该语音声学特征有10秒,即10000ms,选择时间节点是第2000ms,建立第一模型层,每间隔t1(1ms)的时间内建立第一模型层,则第一模型层共有10000帧。
在步骤S222中,在第一模型层的基础上,仍然是选择时间节点是第2000ms,每隔t2(2ms)的时刻内建立第二模型层,则第二模型层共有5000帧。在步骤S223中,在第二模型层的基础上,仍然是选择时间节点是第2000ms,每隔t3(3ms)的时刻内建立第三模型层,则第三模型层共有3334帧。在步骤S224中,在第三模型层的基础上,仍然是选择时间节点是第2000ms,每隔t4(4ms)的时刻内建立第四模型层,则第四模型层共有2500帧。在步骤S225中,在第四模型层的基础上,仍然是选择时间节点是第2000ms,每隔t5(8ms)的时刻内建立第二模型层,则第二模型层共有1250帧。最终,将这第五模型层上的1250帧集合成为簇结构,经过五层深度学习模型,最终得到1250个簇结构。
参照图4,进一步地,本实施例中,所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型的步骤,包括:
S51、将所述声纹模型的特征向量参数进行降维;
S52、将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到声纹模型。
上述步骤中,系统利用基于概率的线性判别分析(Linear DiscriminantAnalysis,LDA)来进行降维。之后进行目标用户的声纹的模型设计。同时,输出层采取Softmax函数计算结果,所有节点均采用[-0.05~0.05]区间的均匀随机权重初始化,偏置初始为0,得到最终的声纹模型。softmax函数的输入是一个向量,而其输出也是一个向量,向量中的每个元素都是介于0和1之间的概率值。偏置训练模型的时候,每一次训练得到的训练集预测标签与原始真实标签的偏离程度,如果此偏离程度过小,则会导致过拟合的发生,因为可能将训练集中的噪声也学习了。所以说偏置刻画了学习算法本身的拟合能力,如果拟合能力不好,偏置较大,出现欠拟合;反之拟合能力过好,偏置较小,容易出现过拟合。在训练的时候可以发现这个偏置理论上应该是逐渐变小的,表明我们的模型正在不断学习有用的东西。
参照图5,本实施例中,所述提取分帧后的语音信号的语音声学特征的步骤包括:
S11、将分帧后的语音信号进行快速傅里叶变换计算,得到能量谱;
S12、将所述能量谱输入梅尔尺度的三角滤波器组,输出共振峰特征;
S13、将所述共振峰特征经离散余弦变换,得到语音声学特征。
在上述步骤S11中,将分帧后提取出的有效语音信号进行快速傅里叶变换,将时域的语音信号转换成频域的能量谱。快速傅里叶变换(FFT),是离散傅氏变换的快速算法,它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。
在上述步骤S12中,共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。之后将能量谱输入梅尔尺度的三角滤波器计算每个滤波器组输出的对数能量,滤波器组输出的特征又称为Filter Bank(FBANK)特征。使用梅尔刻度滤波器组过滤,这一目的是因为频域信号有很多冗余,滤波器组可以对频域的幅值进行精简,每一个频段用一个值来表示;过滤的具体步骤是将快速傅里叶变换后得到的频谱分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值。
在上述步骤S13中,将共振峰特征经对数能量计算后,经离散余弦变换就可得到MFCC系数(mel frequency cepstrum coefficient),亦即MFCC声学特征。由于人耳对声音的感知并不是线性的,用log这种非线性关系更好描述。取完log以后才可以进行倒谱分析。因此,将能量值进行对数计算,得到对数能量。因为离散余弦变换的结果没有虚部,更好计算,因此,将对数能量进行离散余弦变换,最终得到MFCC系数(mel frequency cepstrumcoefficient),亦即MFCC声学特征。
进一步地,上述得到声纹模型的步骤之后包括:
S6、将待验证语音信号输入所述声纹模型中,得到所述声纹模型输出的身份验证结果。
如上述步骤S6所述,建立好声纹模型后,该声纹模型具有一个接收语音信号的端口。当接收到语音信号后,该声纹模型将该语音信号进行计算,若是目标用户的语音信号,则输出目标正确的信号;若不是目标用户的语音信号,则输出目标错误的信号。
参照图6,进一步地,所述将分帧后的语音信号进行快速傅里叶变换计算的步骤包括:
S111、将分帧后的语音信号进行预加重处理;
S112、将预加重处理后的语音信号加窗;
S113、通过语音端点检测,提取出含有说话声音的有效部分语音信号;
S114、将所述有效部分语音信号进行快速傅里叶变换计算。
在上述步骤S111中,将语音信号进行预加重处理,因语音信号里还包含有一些杂音、噪音,如果直接将语音信号进行声纹建模处理,会得到一些包含杂音、噪音的影响,建立出来的模型不准确,会导致识别错误率的提升。直接提取有效语音,就是采用语音端点检测的方法来实现,即识别该语音中是从哪一时刻开始是人开始讲话,哪一时刻开始是人结束讲话。语音端点检测的主要依据原理是:包含有人讲话语音的音频文件的语音频谱比不包含有人语音的音频文件的语音频谱高,因此,在提取出有效语音前,先将语音信号进行预加重,即放大语音信号,使含有人讲话部分的频谱更高,两者的差更明显,更好的进行语音端点检测。
在上述步骤S112中,语音信号处理常常要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的。而语音在宏观上来看是不平稳的。但是从微观上来看,语音信号就可以看成平稳的,就可以截取出来做傅里叶变换了。加窗的目的是让一帧信号的幅度在两端渐变到0。渐变到0对傅里叶变换有好处,可以提高变换结果(即频谱)的分辨率。
在上述步骤S113中,因语音信号里还包含有一些杂音、噪音,如果直接将语音信号进行声纹建模处理,会得到一些包含杂音、噪音的影响,建立出来的模型不准确,直接导致加大识别错误率。直接提取有效语音,就是采用语音端点检测的方法来实现,即识别该语音中是从哪一时刻开始是人开始讲话,哪一时刻开始是人结束讲话。通过端点检测,区分语音与噪声,并提取出有效的语音部分。人在说话时也会有停顿。提取出有效部分的语音,即将人说话时人停顿时的噪音部分去掉,只提取出人说话部分的有效语音。
在上述步骤S114中,快速傅里叶变换(FFT),是离散傅氏变换的快速算法,它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。这样可以计算得出一段语音中说话人的语音声学特征。
参照图7,进一步地,所述得到声纹模型的步骤之后包括:
S7、接收用户对所述声纹模型标记的属性信息,所述属性信息包括所述目标用户的性别、年龄、民族。
在上述S7步骤中,将声纹模型建立后,系统接收用户对声纹模型添加的标记,标记该声纹模型对应的目标用户的个人信息,包括性别、年龄、民族、身高、体重等。因为声纹信息与发声的器官有关,发声控制器官包括声带、软颚、舌头、牙齿、唇等;发声共鸣器包括咽腔、口腔、鼻腔。发声的器官相近的人,发出的声音具有一定的共性或比较接近,因此,属性信息相同的人的声纹信息会有比较相近。收集多个人的声纹信息后,将其进行归纳总结,便于找出声纹信息与人的一些关系。
参照图8,进一步地,本实施例中,所述提取分帧后的语音信号的语音声学特征的步骤包括:
S14、识别输入的分帧后的语音信号的语音内容;
S15、判断所述语音内容的发声部位;
S16、根据所述发声部位将所述语音信号拆分;
S17、分别对拆分后的语音信号提取语音声学特征。
在上述步骤S14中,识别输入的分帧后的语音信号的语音内容,即通过语音识别的手段,将语音信号识别出来,识别出说话人的具体说话文本信息。
在上述步骤S15中,判断所述语音内容的发声部位,是根据上述S14中识别出的语音内容,读取该语音内容的拼音或者是音标,根据拼音或者音标的内容来判断发声部位。常用的主要发声部位有喉、舌头、鼻、牙齿等。例如在普通话中,根据不同的声母确定对应的发声部位。具体的声母与发声部位对应的表格如下:
在上述步骤S16中,判断语音内容的发声部位后,上溯回查语音信号的发声部位,根据语音信号对应的发声部位,将语音信号拆分成多段,每一段语音信号都对应一个发声部位。例如,一段时长为10秒的语音信号,第0-2秒的语音内容中均包含有b或p或m的声母,第3-5秒的语音内容均包含有j或q或x的声母,第6-10秒的语音内容均包含有d或t或n或l的声母,那么,将该语音信号拆分成三段语音信号。第一段是第0-2秒的语音内容,第二段是第3-5秒的语音内容,第三段是第6-10秒的语音内容。
在上述步骤S17对这三段语音内容分别提取声学特征,然后分别输入后面的深度学习模型中进行计算。
综上所述,本申请的建立声纹模型的方法,将提取出的语音声学特征基于深度神经网络训练中得出簇结构,然后将簇结构进行坐标映射和激活函数计算,得出的声纹模型,可以降低声纹模型的声音识别错误率。
参照图9,本申请还提出一种建立声纹模型的装置,包括:
提取模块1,用于对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;
簇结构模块2,用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;
计算模块3,用于计算至少一个所述簇结构的平均值和标准差;
特征向量模块4,用于将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;
模型模块5,用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的。
本实施例中,提取模块1中的声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹都有差异。语音信号是一种搭载着特定的信息模拟信号,其来源是由人发出的声音信号转换成的语音信号。每个人的声纹不一样,因而,相同的人说出同样的话产生的声音而后转换成的语音信号也是不一样的。因而,语音信号里所包含的语音声学特征也是不一样的。语音声学特征是每个人发出的声音中包含的声纹信息。分帧是指将连续的语音信号分成多段。人在正常讲话的语速下,音素的持续时间大约是50~200毫秒,所以帧长一般取为小于50毫秒。从微观上来看,它又必须包括足够多的振动周期。语音的音频,男声在100赫兹左右,女声在200赫兹左右,换算成周期就是10毫秒和5毫秒。一般一帧要包含多个周期,所以一般取至少20毫秒。所谓的语音信号包括一段连续的语音,例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数(MFCC),或感知线性预测系数(PLP),或滤波器组特征(Filter Bank Feature)等。当然,所述语音声学特征也可为所述语音片段的原始语音数据。提取模块1将目标用户的语音信号中的语音声学特征提取出来,是将需要建立声纹模型的人说话的声音信号提取出来,非目标用户说话产生的语音信号则不进行提取。语音声学特征是从一段连续的语音信号中提取出来的包含有人说话的部分的语音信号,因而也是一段连续的语音信号。提取模块1将语音信号分帧后,得到多段语音信号,分别提取出每段语音信号的语音声学特征,则得到多个语音声学特征。
语音声学特征是从分帧的语音信号中提取出来的,是一段语音信号,簇结构模块2将该语音信号输入到神经网络训练模型中,目的是将语音声学特征进行集合计算,方便统计与计算语音声学特征。簇结构模块2是将该段语音声学特征的集合,能体现出多个语音声学特征集合在一起的相同的共性特征。
计算模块3将多个语音声学特征输入基于神经网络的深度学习模型后,输出得到至少一个簇结构x1、x2、x1、...xn,假设簇结构是一个p维向量,则xn=(xi1,xi2,...,xip)T(i=1,2,...n)。计算这些簇结构的均值和标准差。得到簇结构的平均值和标准差。其中,计算多个簇结构的平均值的方法为:首先计算模块3根据公式:计算每个分量的平均值,然后计算模块3再根据公式:x0=(x1,x2,...,xj)T,计算出p维的平均向量,计算模块3将p维的平均向量组合形成簇结构的平均值:E(x)。计算模块3计算多个簇结构的标准差的公式为:D(x)=E{[x-E(x)][x-E(x)]T}。
特征向量模块4将上述的E(x)和D(x)经过a级映射和b级映射。其中,a级映射是将簇结构的平均值和标准差进行坐标变换,b级映射是将簇结构的平均值和标准差通过激活函数计算后得出一个非线性结果,该结果即为建立声纹模型的特征向量参数。
然后模型模块5将特征向量参数以及目标用户的身份验证结果输入到预设的基础模型,得到目标用户的声纹模型,该声纹模型接收到语音信号后,判断产生语音信号的人是否是目标用户说话的声音。基础模型是指神经网络模型,例如BP神经网络模型。BP神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是仅仅借助样本数据,无需建立系统的数学模型,就可对系统实现由m个输入神经元的模式向量p组成的pm空间到yn空间n(为输出节点数)的高度非线性映射。上述a级映射和b级映射,两个映射的过程不分先后。b级映射的激活函数可以采用Sigmoid,Sigmoid函数是一个在生物学中常见的S型的函数,也称为S型生长曲线,主要用作神经网络的阈值函数,在物理意义上最为接近生物神经元,其非线性激活函数的形式是σ(x)=1/(1+e-x),该公式中,x是输入的语音声学特征,e是自然常数,是数学科的一种法则,约为2.71828。
参照图10,本实施例中,所述深度学习模型包括多层模型层,所述簇结构模块2包括:
输入单元21,用于将多个所述语音声学特征输入深度学习模型中;
建立单元22,用于选取多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层,n为正整数;
选择单元23,用于选择所述多层模型层中的目标模型层,并获取所述目标模型层上生成的至少一个簇结构。
本实施例中,多个语音声学特征均是从一段连续的语音信号中提取出来的,因而多个语音声学特征也是连续的。输入单元21将多个所述语音声学特征输入到深度学习模型中时,也是按照时间顺序来输入的。
多个语音声学特征均是一段连续的声音信号,合在一起也是一段连续的声音信号,在该多个语音声学特征中中,建立单元22选取任一时间节点t,然后以距离t时刻在tn时间段内的语音声学特征集合,在其中一个模型层上形成簇结构。由于深度学习模型具有多层模型层,每个模型层上选择的时间节点t与距离t时刻的时间段tn不一样,每层模型层生成的簇结构的数量是不完全相同的。比如该多个语音声学特征一共有10秒,即10000ms,选择时间节点是第2000ms,建立单元22建立第一模型层,每间隔t1(1ms)的时间内建立第一模型层,则第一模型层共有10000帧。然后建立单元22建立第二模型层,取2为2ms,每隔2ms的时间内建立第二模型层,第二模型层共有500帧。
经过深度学习模型学习后,得到了多个模型层,每个模型层中均有多个簇结构,选择单元23再选择其中一个模型层上的簇结构作为后续生成声纹模型的参数。
参照图11,在一具体实施例中,建立五层模型层,建立单元22包括:
第一子单元221,用于选择多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每t1时间内的语音声学特征建立第一模型层;
第二子单元222,用于在第一模型层上,以距离该时间节点t的每t2时间内的语音声学特征建立第二模型层;
第三子单元223,用于在第二模型层上,以距离该时间节点t的每t3时间内的语音声学特征建立第三模型层;
第四子单元224,用于在第三模型层上,以距离该时间节点t的每t4时间内的语音声学特征建立第四模型层;
第五子单元225,用于在第四模型层上,以距离该时间节点t的每t5时间内的语音声学特征建立第五模型层,其中,t1<t2<t3<t4<t5。
第一子单元221选取任一时间节点t,比如该语音声学特征有10秒,即10000ms,选择时间节点是第2000ms,建立第一模型层,每间隔t1(1ms)的时间内建立第一模型层,则第一模型层共有10000帧。
第二子单元222在第一模型层的基础上,仍然是选择时间节点是第2000ms,每隔t2(2ms)的时刻内建立第二模型层,则第二模型层共有5000帧。第三子单元223在第二模型层的基础上,仍然是选择时间节点是第2000ms,每隔t3(3ms)的时刻内建立第三模型层,则第三模型层共有3334帧。第四子单元224在第三模型层的基础上,仍然是选择时间节点是第2000ms,每隔t4(4ms)的时刻内建立第四模型层,则第四模型层共有2500帧。第五子单元225在第四模型层的基础上,仍然是选择时间节点是第2000ms,每隔t5(8ms)的时刻内建立第二模型层,则第二模型层共有1250帧。最终,集合单元将这第五模型层上的1250帧集合成为簇结构,经过五层深度学习模型,最终得到1250个簇结构。
参照图12,进一步地,所述模型模块4包括:
降维单元51,用于将所述声纹模型的特征向量参数进行降维;
模型单元52,用于将所述降维后的特征向量参数输入预设的基础模型,得到声纹模型。
本实施例中,降维单元51利用基于概率的线性判别分析(Linear DiscriminantAnalysis,LDA)来进行降维。之后模型单元52进行目标用户的声纹的模型设计。同时,输出层采取Softmax函数计算结果,所有节点均采用[-0.05~0.05]区间的均匀随机权重初始化,偏置初始为0,得到最终的声纹模型。softmax函数的输入是一个向量,而其输出也是一个向量,向量中的每个元素都是介于0和1之间的概率值。偏置训练模型的时候,每一次训练得到的训练集预测标签与原始真实标签的偏离程度,如果此偏离程度过小,则会导致过拟合的发生,因为可能将训练集中的噪声也学习了。所以说偏置刻画了学习算法本身的拟合能力,如果拟合能力不好,偏置较大,出现欠拟合;反之拟合能力过好,偏置较小,容易出现过拟合。在训练的时候可以发现这个偏置理论上应该是逐渐变小的,表明我们的模型正在不断学习有用的东西。
参照图13,进一步地,所述提取模块1包括:
计算单元11,用于将分帧后的语音信号进行快速傅里叶变换计算,得到能量谱;
输入单元12,用于将所述能量谱输入梅尔尺度的三角滤波器组,输出共振峰特征;
变换单元13,用于将所述共振峰特征经离散余弦变换,得到语音声学特征。
本实施例中,计算单元11将分帧后提取出的有效语音信号进行快速傅里叶变换,将时域的语音信号转换成频域的能量谱。快速傅里叶变换(FFT),是离散傅氏变换的快速算法,它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。之后输入模块12将能量谱输入梅尔尺度的三角滤波器组计算每个滤波器组输出的对数能量,滤波器组输出的特征又称为Filter Bank(FBANK)特征。使用梅尔刻度滤波器组过滤,这一目的是因为频域信号有很多冗余,滤波器组可以对频域的幅值进行精简,每一个频段用一个值来表示;过滤的具体步骤是将快速傅里叶变换后得到的频谱分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值。将共振峰特征经对数能量计算后,经变换单元13进行离散余弦变换就可得到MFCC系数(melfrequency cepstrum coefficient),亦即MFCC声学特征。由于人耳对声音的感知并不是线性的,用log这种非线性关系更好描述。取完log以后才可以进行倒谱分析。因此,将能量值进行对数计算,得到对数能量。因为离散余弦变换的结果没有虚部,更好计算,因此,将对数能量进行离散余弦变换,最终得到MFCC系数(mel frequency cepstrum coefficient),亦即MFCC声学特征。
进一步地,上述建立声纹模型的装置还包括:
验证模块6,用于将待验证语音信号输入所述声纹模型中,得到所述声纹模型输出的身份验证结果。
本实施例中,建立好声纹模型后,该声纹模型具有一个接收语音信号的端口。验证模块6接收到语音信号后,该声纹模型将该语音信号进行计算,若是目标用户的语音信号,则验证模块6输出目标正确的信号;若不是目标用户的语音信号,则验证模块6输出目标错误的信号。
参照图14,进一步地,所述计算单元11包括:
预加重子单元111,用于将语音信号进行预加重处理;
加窗子单元112,用于将预加重处理后的语音信号加窗;
提取子单元113,用于通过语音端点检测,提取出含有说话声音的有效部分语音信号;
计算子单元114,用于将所述有效部分语音信号进行快速傅里叶变换计算。
本实施例中,预加重子单元111将语音信号进行预加重处理,因语音信号里还包含有一些杂音、噪音,如果直接将语音信号进行声纹建模处理,会得到一些包含杂音、噪音的影响,建立出来的模型不准确,会导致识别错误率的提升。直接提取有效语音,就是采用语音端点检测的方法来实现,即识别该语音中是从哪一时刻开始是人开始讲话,哪一时刻开始是人结束讲话。语音端点检测的主要依据原理是包含有人讲话语音的音频文件的语音频谱比不包含有人语音的音频文件的语音频谱高,因此在提取出有效语音前,预加重子单元111先将语音信号进行预加重,即放大语音信号,使含有人讲话部分的频谱更高,两者的差更明显,更好的进行语音端点检测。
语音信号处理常常要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的。而语音在宏观上来看是不平稳的。但是从微观上来看,语音信号就可以看成平稳的,就可以截取出来做傅里叶变换了。加窗子单元112的目的是让一帧信号的幅度在两端渐变到0。渐变到0对傅里叶变换有好处,可以提高变换结果(即频谱)的分辨率。因此,加窗子单元112将语音信号进行加窗处理。
因语音信号里还包含有一些杂音、噪音,如果直接将语音信号进行声纹建模处理,会得到一些包含杂音、噪音的影响,建立出来的模型不准确,直接导致加大识别错误率。直接提取有效语音,就是采用语音端点检测的方法来实现,即识别该语音中是从哪一时刻开始是人开始讲话,哪一时刻开始是人结束讲话。提取子单元113通过端点检测,区分语音与噪声,并提取出有效的语音部分。人在说话时也会有停顿。提取出有效部分的语音,即将人说话时人停顿时的噪音部分去掉,只提取出人说话部分的有效语音。然后计算子单元114将提取子单元113提取出来的有效语音部分进行快速傅里叶变换计算,这样可以计算得出一段语音中说话人的语音声学特征。
参照图15,进一步地,所述建立声纹模型的装置还包括:
属性模块7,用于接收用户对所述声纹模型标记的属性信息,所述属性信息包括所述目标用户的性别、年龄、民族。
本实施例中,将声纹模型建立后,属性模块7接收用户对声纹模型添加的标记,标记该声纹模型对应的目标用户的个人信息,包括性别、年龄、民族、身高、体重等。因为声纹信息与发声的器官有关,发声控制器官包括声带、软颚、舌头、牙齿、唇等;发声共鸣器包括咽腔、口腔、鼻腔。发声的器官相近的人,发出的声音具有一定的共性或比较接近,因此,属性信息相同的人的声纹信息会有比较相近。收集多个人的声纹信息后,将其进行归纳总结,便于找出声纹信息与人的一些关系。
参照图16,进一步地,所述提取模块1还包括:
识别单元14,用于识别输入的分帧后的语音信号的语音内容;
判断单元15,用于判断所述语音内容的发声部位;
拆分单元16,用于根据所述发声部位将所述语音信号拆分;
提取单元17,用于分别对拆分后的语音信号提取语音声学特征。
本实施例中,识别单元14识别输入的语音信号的语音内容,即通过语音识别的手段,将语音信号识别出来,识别出说话人的具体说话文本信息。
判断单元15判断所述语音内容的发声部位,是根据上述识别单元14中识别出的语音内容,读取该语音内容的拼音或者是音标,根据拼音或者音标的内容来判断发声部位。常用的主要发声部位有喉、舌头、鼻、牙齿等。例如在普通话中,根据不同的声母确定对应的发声部位。具体的声母与发声部位对应的表格如下:
声母 | 发声部位 |
b p m | 上唇与下唇 |
f | 上齿与下唇 |
z c s | 舌尖前与上齿背 |
d t n l | 舌尖中与上齿龈 |
zh ch sh r | 舌尖后与硬腭前 |
j q x | 舌面与硬腭中 |
g k h | 舌根与硬腭后 |
判断单元15判断语音内容的发声部位后,拆分单元16上溯回查语音信号的发声部位,然后拆分单元16根据语音信号对应的发声部位,将语音信号拆分成多段,每一段语音信号都对应一个发声部位。例如,一段时长为10秒的语音信号,第0-2秒的语音内容中均包含有b或p或m的声母,第3-5秒的语音内容均包含有j或q或x的声母,第6-10秒的语音内容均包含有d或t或n或l的声母,那么,拆分单元16将该语音信号拆分成三段语音信号。第一段是第0-2秒的语音内容,第二段是第3-5秒的语音内容,第三段是第6-10秒的语音内容。然后提取单元17分别对这三段语音内容提取出声学特征,然后分别输入后面的深度学习模型中计算。
综上所述,本申请的建立声纹模型的装置,将提取出的语音声学特征基于深度神经网络训练中得出簇结构,然后将簇结构进行坐标映射和激活函数计算,得出的声纹模型,可以降低声纹模型的声音识别错误率。
参照图17,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储建立声纹模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种建立声纹模型的方法。
在一个实施例中,上述处理器建立声纹模型的方法的步骤,包括:对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;计算至少一个所述簇结构的平均值和标准差;将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的。
在一个实施例中,上述处理器的深度学习模型包括多层模型层,所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构的步骤包括:将多个所述语音声学特征输入深度学习模型中;选取多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层,n为正整数;选择所述多层模型层中的目标模型层,并获取所述目标模型层上生成的至少一个簇结构。
在一实施例中,上述处理器将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型的步骤包括:将所述声纹模型的特征向量参数进行降维;将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到声纹模型。
在一实施例中,上述处理器提取分帧后的语音信号的语音声学特征的步骤包括:将分帧后的语音信号进行快速傅里叶变换计算,得到能量谱;将所述能量谱输入梅尔尺度的三角滤波器组,输出共振峰特征;将所述共振峰特征经离散余弦变换,得到语音声学特征。
在一实施例中,上述处理器得到声纹模型的步骤之后包括:将待验证语音信号输入所述声纹模型中,得到所述声纹模型输出的身份验证结果。
在一实施例中,上述处理器到声纹模型的步骤之后包括:接收用户对所述声纹模型标记的属性信息,所述属性信息包括所述目标用户的性别、年龄、民族。
在一实施例中,上述处理器提取分帧后的语音信号的语音声学特征的步骤包括:识别输入的分帧后的语音信号的语音内容;判断所述语音内容的发声部位;根据所述发声部位将所述语音信号拆分;分别对拆分后的语音信号提取语音声学特征。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备将提取出的语音声学特征基于深度神经网络训练中得出簇结构,然后将簇结构进行坐标映射和激活函数计算,得出的声纹模型,可以降低声纹模型的声音识别错误率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种建立声纹模型的方法,具体为:对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;计算至少一个所述簇结构的平均值和标准差;将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的。
在一个实施例中,上述处理器的深度学习模型包括多层模型层,所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构的步骤包括:将多个所述语音声学特征输入深度学习模型中;选取多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层,n为正整数;选择所述多层模型层中的目标模型层,并获取所述目标模型层上生成的至少一个簇结构。
在一实施例中,上述处理器将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型的步骤包括:将所述声纹模型的特征向量参数进行降维;将所述降维后的特征向量以及所述目标用户的身份验证结果参数输入预设的基础模型,得到声纹模型。
在一实施例中,上述处理器提取分帧后的语音信号的语音声学特征的步骤包括:将分帧后的语音信号进行快速傅里叶变换计算,得到能量谱;将所述能量谱输入梅尔尺度的三角滤波器组,输出共振峰特征;将所述共振峰特征经离散余弦变换,得到语音声学特征。
在一实施例中,上述处理器得到声纹模型的步骤之后包括:将待验证语音信号输入所述声纹模型中,得到所述声纹模型输出的身份验证结果。
在一实施例中,上述处理器到声纹模型的步骤之后包括:接收用户对所述声纹模型标记的属性信息,所述属性信息包括所述目标用户的性别、年龄、民族。
在一实施例中,上述处理器提取分帧后的语音信号的语音声学特征的步骤包括:识别输入的分帧后的语音信号的语音内容;判断所述语音内容的发声部位;根据所述发声部位将所述语音信号拆分;分别对拆分后的语音信号提取语音声学特征。
本申请的存储介质存储的程序将提取出的语音声学特征基于深度神经网络训练中得出簇结构,然后将簇结构进行坐标映射和激活函数计算,得出的声纹模型,可以降低声纹模型的声音识别错误率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种建立声纹模型的方法,其特征在于,包括:
对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;
将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;
计算至少一个所述簇结构的平均值和标准差;
将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;
将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的,所述基础模型为神经网络模型。
2.如权利要求1所述的建立声纹模型的方法,其特征在于,所述深度学习模型包括多层模型层,所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构的步骤包括:
将多个所述语音声学特征输入深度学习模型中;
选取多个所述语音声学特征中的任一时间节点t,以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层,n为正整数;
选择所述多层模型层中的目标模型层,并获取所述目标模型层上生成的至少一个簇结构。
3.如权利要求1所述的建立声纹模型的方法,其特征在于,所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型的步骤,包括:
将所述声纹模型的特征向量参数进行降维;
将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到声纹模型。
4.如权利要求1所述的建立声纹模型的方法,其特征在于,所述提取分帧后的语音信号的语音声学特征的步骤包括:
将分帧后的语音信号进行快速傅里叶变换计算,得到能量谱;
将所述能量谱输入梅尔尺度的三角滤波器组,输出共振峰特征;
将所述共振峰特征经离散余弦变换,得到语音声学特征。
5.如权利要求1所述的建立声纹模型的方法,其特征在于,所述得到声纹模型的步骤之后包括:
将待验证语音信号输入所述声纹模型中,得到所述声纹模型输出的身份验证结果。
6.如权利要求1所述的建立声纹模型的方法,其特征在于,所述得到声纹模型的步骤之后包括:
接收用户对所述声纹模型标记的属性信息,所述属性信息包括所述目标用户的性别、年龄、民族。
7.如权利要求1所述的建立声纹模型的方法,其特征在于,所述提取分帧后的语音信号的语音声学特征的步骤包括:
识别输入的分帧后的语音信号的语音内容;
判断所述语音内容的发声部位;
根据所述发声部位将所述分帧后的语音信号拆分;
分别对拆分后的所述分帧后的语音信号提取语音声学特征。
8.一种建立声纹模型的装置,其特征在于,包括:
提取模块,用于对输入的目标用户的语音信号分帧,分别提取分帧后的语音信号的语音声学特征;
簇结构模块,用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中,集合成至少一个簇结构;
计算模块,用于计算至少一个所述簇结构的平均值和标准差;
特征向量模块,用于将所述平均值和标准差进行坐标变换以及激活函数计算,得到特征向量参数;
模型模块,用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型,得到与所述目标用户对应的声纹模型,所述声纹模型用于验证输入的语音信号是否为所述目标用户的,所述基础模型为神经网络模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810433792.XA CN108806696B (zh) | 2018-05-08 | 2018-05-08 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
US16/759,384 US11322155B2 (en) | 2018-05-08 | 2018-07-06 | Method and apparatus for establishing voiceprint model, computer device, and storage medium |
SG11202002083WA SG11202002083WA (en) | 2018-05-08 | 2018-07-06 | Method and apparatus for establishing voiceprint model, computer device, and storage medium |
PCT/CN2018/094888 WO2019214047A1 (zh) | 2018-05-08 | 2018-07-06 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
JP2019570559A JP6906067B2 (ja) | 2018-05-08 | 2018-07-06 | 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810433792.XA CN108806696B (zh) | 2018-05-08 | 2018-05-08 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108806696A CN108806696A (zh) | 2018-11-13 |
CN108806696B true CN108806696B (zh) | 2020-06-05 |
Family
ID=64092054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810433792.XA Active CN108806696B (zh) | 2018-05-08 | 2018-05-08 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11322155B2 (zh) |
JP (1) | JP6906067B2 (zh) |
CN (1) | CN108806696B (zh) |
SG (1) | SG11202002083WA (zh) |
WO (1) | WO2019214047A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246503A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 黑名单声纹库构建方法、装置、计算机设备和存储介质 |
CN110265040B (zh) * | 2019-06-20 | 2022-05-17 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
CN110491393B (zh) * | 2019-08-30 | 2022-04-22 | 科大讯飞股份有限公司 | 声纹表征模型的训练方法及相关装置 |
CN110600040B (zh) * | 2019-09-19 | 2021-05-25 | 北京三快在线科技有限公司 | 声纹特征注册方法、装置、计算机设备及存储介质 |
CN110780741B (zh) * | 2019-10-28 | 2022-03-01 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
CN111292510A (zh) * | 2020-01-16 | 2020-06-16 | 广州华铭电力科技有限公司 | 一种城市电缆被外力破坏的识别预警方法 |
CN113409793B (zh) * | 2020-02-28 | 2024-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及智能家居系统、会议设备、计算设备 |
CN111414511B (zh) * | 2020-03-25 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 自动声纹建模入库方法、装置以及设备 |
IL274741B1 (en) * | 2020-05-18 | 2024-07-01 | Cognyte Tech Israel Ltd | A system and method for obtaining voiceprints for large populations |
CN113948089B (zh) * | 2020-06-30 | 2024-06-14 | 北京猎户星空科技有限公司 | 声纹模型训练和声纹识别方法、装置、设备及介质 |
TWI807203B (zh) * | 2020-07-28 | 2023-07-01 | 華碩電腦股份有限公司 | 聲音辨識方法及使用其之電子裝置 |
CN112466311B (zh) * | 2020-12-22 | 2022-08-19 | 深圳壹账通智能科技有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
CN113011302B (zh) * | 2021-03-11 | 2022-04-01 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种基于卷积神经网络的雷声信号识别系统及方法 |
CN113077536B (zh) * | 2021-04-20 | 2024-05-28 | 深圳追一科技有限公司 | 一种基于bert模型的嘴部动作驱动模型训练方法及组件 |
CN113179442B (zh) * | 2021-04-20 | 2022-04-29 | 浙江工业大学 | 一种基于语音识别的视频中音频流替换方法 |
CN113421575B (zh) * | 2021-06-30 | 2024-02-06 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN114113837B (zh) * | 2021-11-15 | 2024-04-30 | 国网辽宁省电力有限公司朝阳供电公司 | 一种基于声学特征的变压器带电检测方法及系统 |
CN114495948B (zh) * | 2022-04-18 | 2022-09-09 | 北京快联科技有限公司 | 一种声纹识别方法及装置 |
CN115831152B (zh) * | 2022-11-28 | 2023-07-04 | 国网山东省电力公司应急管理中心 | 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法 |
CN118155463B (zh) * | 2024-05-10 | 2024-07-19 | 兰州大学 | 嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN106157959A (zh) * | 2015-03-31 | 2016-11-23 | 讯飞智元信息科技有限公司 | 声纹模型更新方法及系统 |
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN106847292B (zh) * | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN110352432A (zh) * | 2017-04-07 | 2019-10-18 | 英特尔公司 | 使用用于深度神经网络的改进的训练和学习的方法和系统 |
WO2018184192A1 (en) * | 2017-04-07 | 2018-10-11 | Intel Corporation | Methods and systems using camera devices for deep channel and convolutional neural network images and formats |
US10896669B2 (en) * | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US20180358003A1 (en) * | 2017-06-09 | 2018-12-13 | Qualcomm Incorporated | Methods and apparatus for improving speech communication and speech interface quality using neural networks |
CN107680582B (zh) * | 2017-07-28 | 2021-03-26 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
US11055604B2 (en) * | 2017-09-12 | 2021-07-06 | Intel Corporation | Per kernel Kmeans compression for neural networks |
US11264037B2 (en) * | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
CN111712874B (zh) * | 2019-10-31 | 2023-07-14 | 支付宝(杭州)信息技术有限公司 | 用于确定声音特性的方法、系统、装置和存储介质 |
-
2018
- 2018-05-08 CN CN201810433792.XA patent/CN108806696B/zh active Active
- 2018-07-06 JP JP2019570559A patent/JP6906067B2/ja active Active
- 2018-07-06 WO PCT/CN2018/094888 patent/WO2019214047A1/zh active Application Filing
- 2018-07-06 SG SG11202002083WA patent/SG11202002083WA/en unknown
- 2018-07-06 US US16/759,384 patent/US11322155B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN106157959A (zh) * | 2015-03-31 | 2016-11-23 | 讯飞智元信息科技有限公司 | 声纹模型更新方法及系统 |
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2020524308A (ja) | 2020-08-13 |
US20200294509A1 (en) | 2020-09-17 |
US11322155B2 (en) | 2022-05-03 |
SG11202002083WA (en) | 2020-04-29 |
WO2019214047A1 (zh) | 2019-11-14 |
CN108806696A (zh) | 2018-11-13 |
JP6906067B2 (ja) | 2021-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108806696B (zh) | 建立声纹模型的方法、装置、计算机设备和存储介质 | |
Kinnunen | Spectral features for automatic text-independent speaker recognition | |
US11335324B2 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
Nanavare et al. | Recognition of human emotions from speech processing | |
Xu et al. | Voice conversion based on Gaussian processes by coherent and asymmetric training with limited training data | |
Ibrahim et al. | Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition | |
Sigmund | Voice recognition by computer | |
Grewal et al. | Isolated word recognition system for English language | |
Sahoo et al. | MFCC feature with optimized frequency range: An essential step for emotion recognition | |
Vipperla | Automatic Speech Recognition for ageing voices | |
Singh et al. | Features and techniques for speaker recognition | |
Musaev et al. | Advanced feature extraction method for speaker identification using a classification algorithm | |
Dalva | Automatic speech recognition system for Turkish spoken language | |
Sinha et al. | Spectral and prosodic features-based speech pattern classification | |
Lindgren | Speech recognition using features extracted from phase space reconstructions | |
Müller | Invariant features and enhanced speaker normalization for automatic speech recognition | |
Hautamäki | Fundamental Frequency Estimation and Modeling for Speaker Recognition | |
Kelbesa | An Intelligent Text Independent Speaker Identification using VQ-GMM model based Multiple Classifier System | |
Gao | Articulatory copy synthesis based on the speech synthesizer vocaltractlab | |
Kaur et al. | Speech Recognition Fundamentals and Features | |
Sehgal | Dysarthric speech analysis and automatic recognition using phase based representations | |
Ramaboka | Automatic speech recognition system for people with speech disorders | |
Alonso et al. | Speaker adaptation using only vocalic segments via frequency warping. | |
Miyazaki et al. | Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations | |
Deo et al. | Review of Feature Extraction Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |