CN110060692A - 一种声纹识别系统及其识别方法 - Google Patents
一种声纹识别系统及其识别方法 Download PDFInfo
- Publication number
- CN110060692A CN110060692A CN201910318199.5A CN201910318199A CN110060692A CN 110060692 A CN110060692 A CN 110060692A CN 201910318199 A CN201910318199 A CN 201910318199A CN 110060692 A CN110060692 A CN 110060692A
- Authority
- CN
- China
- Prior art keywords
- module
- vocal print
- output
- signal
- output end
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000001755 vocal effect Effects 0.000 claims abstract description 35
- 238000005457 optimization Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000002068 genetic effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000035772 mutation Effects 0.000 claims description 12
- 230000001537 neural effect Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 210000001260 vocal cord Anatomy 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 claims 1
- 238000003795 desorption Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种声纹识别方法及其系统,声纹拾取设备连接到析设备,分析设备内置有识别单元,分析设备连接到语音转换器以及扬声器设备以及接收设备,语音转换器的输出端连接到显示设备,声纹拾取设备连接到识别单元的语音信号预处理模块,语音信号预处理模块连接到特征参数提取模块,特征参数提取模块连接到算法优化模块,算法优化模块连接到网络训练及识别模块,网络训练及识别模块的连接语音转换器以及扬声器设备以及接收设备。声纹识别方法包括如下步骤:(1)声纹的拾取;(2)语音信号的预处理;(3)特征参数提取;(4)算法优化;(5)网络训练及识别。本发明计算速度快,准确性更高。
Description
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种声纹识别系统及其识别方法。
背景技术
声纹是指通过专用的电声转换仪器将声波特征绘制成的波谱图形,它是各种声学特征图谱的集合。由于声纹因人而异,可以反映说话人生理和行为特征,可将其应用于自动识别说话人身份领域。声纹识别广义上分为语音内容识别和说话人识别,内容识别是根据代表语音单位的共性特征辨别出说话人所说的单词或单句,而说话人识别则是根据分离出的发音者的个性特征来来辨认说话人。目前,大多数人认为声纹识别是指说话人识别。当前主要的识别方法包括矢量量化技术、隐马尔可夫模型、动态时间规整法和人工神经网络等。其中隐马尔可夫模型已经在声纹识别领域得到了广泛应用,但存在训练时计算量较大的缺点;矢量量化用于小数据量时,方法比较简单,实时性较好,识别精度较高,但是在训练的数据量较多时,该方法效果不好;动态时间规整受外界干扰因素大。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种声纹识别系统及其识别方法,解决了现有的识别方法存在训练时计算量较大的缺点并且受外界干扰强度大的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种声纹识别系统,包括声纹拾取设备、分析设备、扬声器设备、语音转换器、显示设备以及接收设备,所述声纹拾取设备的输出端连接到所述分析设备,所述分析设备内置有识别单元,所述分析设备的输出端连接到所述语音转换器以及所述扬声器设备以及所述接收设备,所述语音转换器的输出端连接到所述显示设备,所述识别单元包括语音信号预处理模块、特征参数提取模块、算法优化模块以及网络训练及识别模块,所述声纹拾取设备的输出端连接到所述语音信号预处理模块的输入端,所述语音信号预处理模块的输出端连接到所述特征参数提取模块的输入端,所述特征参数提取模块的输出端连接到所述算法优化模块的输入端,所述算法优化模块的输出端连接到所述网络训练及识别模块的输入端,所述所述网络训练及识别模块的输出端连接所述语音转换器以及所述扬声器设备以及所述接收设备。
优选的,所述声纹拾取设备为录音设备,所述显示设备为显示屏设备,所述接收设备为声控锁、声控灯或者声控门设备,所述分析设备为微处理器设备,微处理设备为单片机控制芯片或者嵌入式处理器设备。
优选的,所述分析设备的输出端还连接有存储器设备。
一种根据上述方案所述的声纹识别系统的识别方法,包括如下步骤
(1)声纹的拾取:利用声纹拾取设备录取到声纹信号并且将声纹信号经A/D转换器转换成数字信号后传递到分析设备的语音信号预处理模块;
(2)语音信号的预处理:语音信号预处理模块接收到数字化的语音信号后,首先语音信号经过预加重、加窗分帧和端点检测,其中预加重主要是为了消除发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,将原始语音信号通过一个高通滤波器;
(3)特征参数提取:对预加重后每帧序列语音信号进行离散FFT变换,取模的平方得到离散功率谱 S(n);计算 S(n)通过M个带通滤波器后得到的功率值Pm;计算Pm的自然对数,得到Lm,计算其离散余弦变换,得到 Dm。舍去其直流分量,其余即为MFCC 参数;
(4)算法优化:根据RBF神经网络模型构建遗传优化RBF神经网络模型,RBF神经网络模型第一层是输入层,由信号源结点组成;第二层为隐藏层,其节点数目根据所描述问题的需要而确定,该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数;第三层为输出层,它对输入模式作出响应,利用已经构建完成的RBF神经网络模型构建出遗传优化RBF神经网络模型;
(5)网络训练及识别:选取多个样本进行试验,声纹拾取设备拾取到的信号传送到识别单元,经过算法匹配后识别,识别结果在显示设备和接收设备上显示。
优选的,在步骤(2)中,所述高通滤波器的计算方式为H(z)=1-0.9375z-1。
优选的,在步骤(2)中,采用一个窗长为256,窗移是128的汉明窗在语音序列上滑动,对语音进行加窗分帧处理;然后通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,剔除掉静默帧、白噪声帧和清音帧,最后保留对求取MFCC等特征参数非常有用的浊音信号。
优选的,在步骤(4)中,所述RBF 的径向基函数采用高斯函数,其激活函数表示为,式中,‖xp-ci‖为欧式范数;ci为高斯函数的中心;σ为高斯函数的方差。
优选的,在步骤(4)中,所述RBF神经网络模型的网络输出的计算公式为:,式中,xp= (x1 p,x2 p,…,xm p )T为第p个输入样本;ci为网络隐含层节点的中心;wij为隐含层到输出层的连接权值;yi为与输入样本对应的网络的第j个输出节点的实际输出。
优选的,在步骤(4)中,构建遗传优化RBF神经网络模型的方法包括如下步骤:
A种群初始化:个体编码采用实数编码,每个个体均为一个实数串,仅对应 RBF 隐藏层中一个单元;在每一代中,包含了代表隐藏层单元数中心和宽度的字符串集合;
B构建适应度函数;根据个体得到的神经网络的初始隐层中心和宽度,用训练数据训练RBF 神经网络后预测系统输出,把预测输出和期望输出之间的误差绝对值和 E作为个体适应度值 F;
C选择操作:采用轮盘赌法的选择策略;
D交叉和变异操作:将RBF神经网络模型的中心和宽度编码放在同一个个体中,因此在交叉过程中必须对它们分别进行操作,按照一定的交叉概率随机地从群体中取出两个个体,对两个个体进行交叉,交叉点分别落在宽度和中心的编码中;交叉概率在0.5-1.0之间取值,变异算子通过对所有个体随机的确定基因位以变异概率改变该基因值,变异概率取值在0.01-0.2之间。
优选的,在步骤B中,个体适应度值 F的计算公式为;其中n为网络输出节点数,yi为第i个节点的期望输出;Oi为第i个节点预测输出,k为系数;在步骤C中,概率Pi的计算公式为,式中为适应度值,N 为种群个体数目
(三)有益效果
本发明提供了一种声纹识别方法,具备有以下有益效果:本发明设置的声纹识别系统,首先声纹拾取设备进行收录声音,收录的声音经过A/D转换器转换成数字信号,这样避免被外界的声音干扰,数字后的声音信号传递到分析设备的识别单元内是,识别单元的内部的语音信号预处理模块对初始信号进行预处理,消除了发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,并且通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取 MFCC等特征参数非常有用的浊音信号,这样有效进行筛选声音,避免无关音源的干扰,经过预处理后的声音进行特征提取,提取后的MFCC参数与线性预测倒谱分析相比,突出的优点是不依赖全极点语音产生模型,因此,在与文本无关的说话人识别系统中,MFCC参数能够更好地提高系统的识别性能,利用优化后的RBF神经网络模型进行训练,加快了训练效率,运用遗传算法优化 RBF 神经网络隐层中心值和宽度,并将优化后的 RBF 神经网络用于声纹识别系统,识别的准确性更高。
附图说明
图1为本发明的框架图。
图2为本发明的识别单元的框架图。
图3为本发明的流程图图。
图4为本发明的构建遗传优化RBF神经网络模型方法的流程图。
图中:1、声纹拾取设备;2、分析设备;3、扬声器设备;4、语音转换器;5、显示设备;6、接收设备;7、识别单元;8、语音信号预处理模块;9、特征参数提取模块;10、算法优化模块;11、网络训练及识别模块;12、存储器设备。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、2、3、4所示,现提出下述实施例:一种声纹识别系统,包括声纹拾取设备1、分析设备2、扬声器设备3、语音转换器4、显示设备5以及接收设备6,所述声纹拾取设备1的输出端连接到所述分析设备2,所述分析设备2内置有识别单元7,所述分析设备2的输出端连接到所述语音转换器4以及所述扬声器设备3以及所述接收设备6,所述语音转换器4的输出端连接到所述显示设备5,所述识别单元7包括语音信号预处理模块8、特征参数提取模块9、算法优化模块10以及网络训练及识别模块11,所述声纹拾取设备1的输出端连接到所述语音信号预处理模块8的输入端,所述语音信号预处理模块8的输出端连接到所述特征参数提取模块9的输入端,所述特征参数提取模块9的输出端连接到所述算法优化模块10的输入端,所述算法优化模块10的输出端连接到所述网络训练及识别模块11的输入端,所述网络训练及识别模块11的输出端连接所述语音转换器4以及所述扬声器设备3以及所述接收设备6。所述声纹拾取设备1为录音设备,所述显示设备5为显示屏设备,所述接收设备6为声控锁、声控灯或者声控门设备,所述分析设备2为微处理器设备,微处理设备为单片机控制芯片或者嵌入式处理器设备。所述分析设备2的输出端还连接有存储器设备12。
一种根据上述方案所述的声纹识别系统的识别方法,包括如下步骤
(1)声纹的拾取:利用声纹拾取设备录取到声纹信号并且将声纹信号经A/D转换器转换成数字信号后传递到分析设备的语音信号预处理模块;
(2)语音信号的预处理:语音信号预处理模块接收到数字化的语音信号后,首先语音信号经过预加重、加窗分帧和端点检测,其中预加重主要是为了消除发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,将原始语音信号通过一个高通滤波器,所述高通滤波器的计算方式为H(z)=1-0.9375z-1;采用一个窗长为256,窗移是128的汉明窗在语音序列上滑动,对语音进行加窗分帧处理;然后通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,剔除掉静默帧、白噪声帧和清音帧,最后保留对求取MFCC等特征参数非常有用的浊音信号;
(3)特征参数提取:对预加重后每帧序列语音信号进行离散FFT变换,取模的平方得到离散功率谱 S(n);计算 S(n)通过M个带通滤波器后得到的功率值Pm;计算Pm的自然对数,得到Lm,计算其离散余弦变换,得到 Dm。舍去其直流分量,其余即为MFCC 参数;
(4)算法优化:根据RBF神经网络模型构建遗传优化RBF神经网络模型,RBF神经网络模型第一层是输入层,由信号源结点组成;第二层为隐藏层,其节点数目根据所描述问题的需要而确定,该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数;第三层为输出层,它对输入模式作出响应,所述RBF 的径向基函数采用高斯函数,其激活函数表示为,式中,‖xp-ci‖为欧式范数;ci为高斯函数的中心;σ为高斯函数的方差,所述RBF神经网络模型的网络输出的计算公式为:,式中,xp= (x1 p,x2 p,…,xm p )T为第p个输入样本;ci为网络隐含层节点的中心;wij为隐含层到输出层的连接权值;yi为与输入样本对应的网络的第j个输出节点的实际输出,利用已经构建完成的RBF神经网络模型构建出遗传优化RBF神经网络模型,构建遗传优化RBF神经网络模型的方法包括如下步骤:
A种群初始化:个体编码采用实数编码,每个个体均为一个实数串,仅对应 RBF 隐藏层中一个单元;在每一代中,包含了代表隐藏层单元数中心和宽度的字符串集合;
B构建适应度函数;根据个体得到的神经网络的初始隐层中心和宽度,用训练数据训练RBF 神经网络后预测系统输出,把预测输出和期望输出之间的误差绝对值和 E作为个体适应度值 F,个体适应度值 F的计算公式为;
C选择操作:采用轮盘赌法的选择策略;
D交叉和变异操作:将RBF神经网络模型的中心和宽度编码放在同一个个体中,因此在交叉过程中必须对它们分别进行操作,按照一定的交叉概率随机地从群体中取出两个个体,对两个个体进行交叉,交叉点分别落在宽度和中心的编码中;交叉概率在0.5-1.0之间取值,变异算子通过对所有个体随机的确定基因位以变异概率改变该基因值,变异概率取值在0.01-0.2之间;
(5)网络训练及识别:选取多个样本进行试验,声纹拾取设备拾取到的信号传送到识别单元,经过算法匹配后识别,识别结果在显示设备和接收设备上显示。
语音采集频率为11025kHz,8 bit量化编码。采集20男,20女,每人提供10语音文件。其中每人8个样本进行网络训练,2个样本用来测试。经过预加重和端点检测后,确定了语音信号的起始和结束位置后,接着进行特征提取,提取的说话人语音特征参数是50×12维的MFCC参数,在确定整个有效的语音段后,将语音段划分成50帧,每帧取12维,这样形成维的MFCC参数。RBF神经网络的中心点个数取 m =20,基函数用高斯函数,采用遗传算法来优化RBF神经网络,进化100代,试验结果表明,采用遗传算法优化 RBF 神经网络的正确率能达到98.5%,比传统的 RBF 神经网络的识别正确率提高了6%左右。
本发明设置的声纹识别系统,首先声纹拾取设备1进行收录声音,收录的声音经过A/D转换器转换成数字信号,这样避免被外界的声音干扰,数字后的声音信号传递到分析设备2的识别单元内是,识别单元7的内部的语音信号预处理模8块对初始信号进行预处理,消除了发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,并且通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取MFCC 等特征参数非常有用的浊音信号,这样有效进行筛选声音,避免无关音源的干扰,经过预处理后的声音进行特征提取,提取后的MFCC参数与线性预测倒谱分析相比,突出的优点是不依赖全极点语音产生模型,因此,在与文本无关的说话人识别系统中,MFCC参数能够更好地提高系统的识别性能,利用优化后的RBF神经网络模型进行训练,加快了训练效率,运用遗传算法优化 RBF 神经网络隐层中心值和宽度,并将优化后的 RBF 神经网络用于声纹识别系统,识别的准确性更高。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种声纹识别系统,其特征在于:包括声纹拾取设备(1)、分析设备(2)、扬声器设备(3)、语音转换器(4)、显示设备(5)以及接收设备(6),所述声纹拾取设备(1)的输出端连接到所述分析设备(2),所述分析设备(2)内置有识别单元(7),所述分析设备(2)的输出端连接到所述语音转换器(4)以及所述扬声器设备(3)以及所述接收设备(6),所述语音转换器(4)的输出端连接到所述显示设备(5),所述识别单元(7)包括语音信号预处理模块(8)、特征参数提取模块(9)、算法优化模块(10)以及网络训练及识别模块(11),所述声纹拾取设备(1)的输出端连接到所述语音信号预处理模块(8)的输入端,所述语音信号预处理模块(8)的输出端连接到所述特征参数提取模块(9)的输入端,所述特征参数提取模块(9)的输出端连接到所述算法优化模块(10)的输入端,所述算法优化模块(10)的输出端连接到所述网络训练及识别模块(11)的输入端,所述网络训练及识别模块(11)的输出端连接所述语音转换器(4)以及所述扬声器设备(3)以及所述接收设备(6)。
2.根据权利要求1所述的一种声纹识别系统,其特征在于:所述声纹拾取设备(1)为录音设备,所述显示设备(5)为显示屏设备,所述接收设备(6)为声控锁、声控灯或者声控门设备,所述分析设备(2)为微处理器设备,微处理设备为单片机控制芯片或者嵌入式处理器设备。
3.根据权利要求1所述的一种声纹识别系统,其特征在于:所述分析设备(2)的输出端还连接有存储器设备(12)。
4.一种根据上述权利要求1-3任一项所述的声纹识别系统的识别方法,其特征在于:包括如下步骤:
(1)声纹的拾取:利用声纹拾取设备录取到声纹信号并且将声纹信号经A/D转换器转换成数字信号后传递到分析设备的语音信号预处理模块;
(2)语音信号的预处理:语音信号预处理模块接收到数字化的语音信号后,首先语音信号经过预加重、加窗分帧和端点检测,其中预加重主要是为了消除发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,将原始语音信号通过一个高通滤波器;
(3)特征参数提取:对预加重后每帧序列语音信号进行离散FFT变换,取模的平方得到离散功率谱 S(n);计算 S(n)通过M个带通滤波器后得到的功率值Pm;计算Pm的自然对数,得到Lm,计算其离散余弦变换,得到 Dm;舍去其直流分量,其余即为MFCC 参数;
(4)算法优化:根据RBF神经网络模型构建遗传优化RBF神经网络模型,RBF神经网络模型第一层是输入层,由信号源结点组成;第二层为隐藏层,其节点数目根据所描述问题的需要而确定,该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数;第三层为输出层,它对输入模式作出响应,利用已经构建完成的RBF神经网络模型构建出遗传优化RBF神经网络模型;
(5)网络训练及识别:选取多个样本进行试验,声纹拾取设备拾取到的信号传送到识别单元,经过算法匹配后识别,识别结果在显示设备和接收设备上显示。
5.根据权利要求4所述的一种声纹识别方法,其特征在于:在步骤(2)中,所述高通滤波器的计算方式为。
6.根据权利要求4所述的一种声纹识别方法,其特征在于:在步骤(2)中,采用一个窗长为256,窗移是128的汉明窗在语音序列上滑动,对语音进行加窗分帧处理;然后通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,剔除掉静默帧、白噪声帧和清音帧,最后保留对求取MFCC等特征参数非常有用的浊音信号。
7.根据权利要求4所述的一种声纹识别方法,其特征在于:在步骤(4)中,所述RBF 的径向基函数采用高斯函数,其激活函数表示为,式中,‖xp-ci‖为欧式范数;ci为高斯函数的中心;σ为高斯函数的方差。
8.根据权利要求4所述的一种声纹识别方法,其特征在于:在步骤(4)中,所述RBF神经网络模型的网络输出的计算公式为:,式中,为第p个输入样本;ci为网络隐含层节点的中心;wij为隐含层到输出层的连接权值;yi为与输入样本对应的网络的第j个输出节点的实际输出。
9.根据权利要求4所述的一种声纹识别方法,其特征在于:在步骤(4)中,构建遗传优化RBF神经网络模型的方法包括如下步骤:
A种群初始化:个体编码采用实数编码,每个个体均为一个实数串,仅对应 RBF 隐藏层中一个单元;在每一代中,包含了代表隐藏层单元数中心和宽度的字符串集合;
B构建适应度函数;根据个体得到的神经网络的初始隐层中心和宽度,用训练数据训练RBF 神经网络后预测系统输出,把预测输出和期望输出之间的误差绝对值和 E作为个体适应度值 F;
C选择操作:采用轮盘赌法的选择策略;
D交叉和变异操作:将RBF神经网络模型的中心和宽度编码放在同一个个体中,因此在交叉过程中必须对它们分别进行操作,按照一定的交叉概率随机地从群体中取出两个个体,对两个个体进行交叉,交叉点分别落在宽度和中心的编码中;交叉概率在0.5-1.0之间取值,变异算子通过对所有个体随机的确定基因位以变异概率改变该基因值,变异概率取值在0.01-0.2之间。
10.根据权利要求9所述的一种声纹识别方法,其特征在于:在步骤B中,个体适应度值F的计算公式为;其中n为网络输出节点数,yi为第i个节点的期望输出;Oi为第i个节点预测输出,k为系数;在步骤C中,概率Pi的计算公式为,式中为适应度值,N 为种群个体数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910318199.5A CN110060692A (zh) | 2019-04-19 | 2019-04-19 | 一种声纹识别系统及其识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910318199.5A CN110060692A (zh) | 2019-04-19 | 2019-04-19 | 一种声纹识别系统及其识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110060692A true CN110060692A (zh) | 2019-07-26 |
Family
ID=67319704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910318199.5A Pending CN110060692A (zh) | 2019-04-19 | 2019-04-19 | 一种声纹识别系统及其识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110060692A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517696A (zh) * | 2019-08-19 | 2019-11-29 | 效生软件科技(上海)有限公司 | 一种可植入式离线声纹识别系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456302A (zh) * | 2013-09-02 | 2013-12-18 | 浙江大学 | 一种基于情感gmm模型权重合成的情感说话人识别方法 |
WO2016108961A1 (en) * | 2014-12-30 | 2016-07-07 | Battelle Memorial Institute | Anomaly detection for vehicular networks for intrusion and malfunction detection |
CN106441888A (zh) * | 2016-09-07 | 2017-02-22 | 广西大学 | 一种高速列车滚动轴承故障诊断方法 |
CN108594793A (zh) * | 2018-04-17 | 2018-09-28 | 电子科技大学 | 一种改进的rbf飞控系统故障诊断网络训练方法 |
CN108806694A (zh) * | 2018-06-13 | 2018-11-13 | 高艳艳 | 一种基于声音识别的教学考勤方法 |
CN106779063B (zh) * | 2016-11-15 | 2019-03-26 | 河南理工大学 | 一种基于rbf网络的提升机制动系统故障诊断方法 |
-
2019
- 2019-04-19 CN CN201910318199.5A patent/CN110060692A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456302A (zh) * | 2013-09-02 | 2013-12-18 | 浙江大学 | 一种基于情感gmm模型权重合成的情感说话人识别方法 |
WO2016108961A1 (en) * | 2014-12-30 | 2016-07-07 | Battelle Memorial Institute | Anomaly detection for vehicular networks for intrusion and malfunction detection |
CN106441888A (zh) * | 2016-09-07 | 2017-02-22 | 广西大学 | 一种高速列车滚动轴承故障诊断方法 |
CN106779063B (zh) * | 2016-11-15 | 2019-03-26 | 河南理工大学 | 一种基于rbf网络的提升机制动系统故障诊断方法 |
CN108594793A (zh) * | 2018-04-17 | 2018-09-28 | 电子科技大学 | 一种改进的rbf飞控系统故障诊断网络训练方法 |
CN108806694A (zh) * | 2018-06-13 | 2018-11-13 | 高艳艳 | 一种基于声音识别的教学考勤方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517696A (zh) * | 2019-08-19 | 2019-11-29 | 效生软件科技(上海)有限公司 | 一种可植入式离线声纹识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
Cosi et al. | Auditory modelling and self‐organizing neural networks for timbre classification | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN101023469B (zh) | 数字滤波方法和装置 | |
CN105321525B (zh) | 一种降低voip通信资源开销的系统和方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN104008751A (zh) | 一种基于bp神经网络的说话人识别方法 | |
CN107039036B (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN109559736A (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN109887489A (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议系统 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
CN100543840C (zh) | 基于情感迁移规则及语音修正的说话人识别方法 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN112735435A (zh) | 具备未知类别内部划分能力的声纹开集识别方法 | |
CN109452932A (zh) | 一种基于声音的体质辨识方法及设备 | |
CN112397074A (zh) | 基于mfcc和向量元学习的声纹识别方法 | |
CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN105845131A (zh) | 远讲语音识别方法及装置 | |
CN110060692A (zh) | 一种声纹识别系统及其识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190726 |