CN109979436A - 一种基于频谱自适应法的bp神经网络语音识别系统及方法 - Google Patents
一种基于频谱自适应法的bp神经网络语音识别系统及方法 Download PDFInfo
- Publication number
- CN109979436A CN109979436A CN201910294272.XA CN201910294272A CN109979436A CN 109979436 A CN109979436 A CN 109979436A CN 201910294272 A CN201910294272 A CN 201910294272A CN 109979436 A CN109979436 A CN 109979436A
- Authority
- CN
- China
- Prior art keywords
- neural network
- frequency spectrum
- vector
- feature
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 51
- 238000001228 spectrum Methods 0.000 title claims abstract description 41
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 6
- 230000008451 emotion Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 14
- 210000002569 neuron Anatomy 0.000 claims description 13
- 230000008909 emotion recognition Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 210000004205 output neuron Anatomy 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000000452 restraining effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000001149 cognitive effect Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 abstract description 7
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 230000033764 rhythmic process Effects 0.000 abstract description 4
- 230000010354 integration Effects 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 9
- 230000003068 static effect Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000007935 neutral effect Effects 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 4
- 239000002356 single layer Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 238000002834 transmittance Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
- G10L19/0216—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于语音识别技术领域,公开了一种基于频谱自适应法的BP神经网络语音识别系统及方法,基于频谱自适应法的BP神经网络语音识别方法包括:语音输入、对输入语音进行预处理/取帧、特征提取、频谱分析、BP神经网络训练、输出识别结果。本发明利用声学特征表征语音内容,不依赖于说话者或词汇内容,将韵律和音质特征整合到系统中;引入频谱变换自适应法补偿三种失真源(扬声器的差异,录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性;通过BP神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种基于频谱自适应法的BP神经网络语音识别系统及方法。
背景技术
目前,最接近的现有技术:
特征参数匹配法、隐马尔可夫法和神经网络法。现有语音识别技术多有环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等,缺乏稳定性和自适应性。
语音识别的应用往往工作环境复杂,声学特征的精确提取通常较难获得。这就需要语音识别系统具有一定的自适应性并进行BP算法训练。目前,常被用于语音识别技术的方法有HMM模型,BP神经网络算法。
然而,当周围存在较多高频噪声或说话人因情感变化而使说话口吻改变时,系统识别性能减弱,造成语音识别率不够。随科技发展,计算机和机器人需具有更强的表达、识别和理解能力,从而人机界面更为高效。
综上所述,现有技术存在的问题是:现有语音识别技术多有环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等,缺乏稳定性和自适应性。
解决上述技术问题的难度:任务过程中因环境变化、说话人距离改变、说话人因情感变化而改变说话口吻从而影响所提取特征值的有效性;任务过程中因扬声器的差异、录音通道的变化从而产生训练条件与测试条件间的不匹配;任务过程中因建立数据库差异导致某些语言无法识别等。
解决上述技术问题的意义:基于频谱自适应法的BP神经网络语音识别方法,用以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,进而令识别参数不断逼近最佳状态,提高识别率。
发明内容
针对现有技术存在的问题,本发明提供了一种基于频谱自适应法的BP神经网络语音识别方法。
本发明是这样实现的,一种基于频谱自适应法的BP神经网络语音识别方法,包括:
步骤一,语音输入;
步骤二,对输入语音进行预处理/取帧;
步骤三,特征提取;
步骤四,频谱分析;
步骤五,BP神经网络训练;
步骤六,输出识别结果。
进一步,所述步骤三特征提取具体包括:
语音输入即把语音输入设备采集的语音进行原始输入,通过扩音器将未知声音转化为电信号输入识别系统,进行预处理;预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并且每隔一定时间间隔取出部分信号处理,确定帧的尺寸以及计算重叠率;根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征,确定特征集中最佳分类的特征;在BP神经网络训练阶段,主要是对特征进行分析并得到信号归属词汇,为每个词条建立一个模型,保存为模板库。在识别阶段,使用所获得的特征集来执行情感识别,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,基于本专利算法规则生成识别结果。
进一步,步骤四频谱分析采用频谱自适应算法;频谱自适应算法包括:
令训练向量和测试向量分别是向量X(1)和X(2),假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中公式(1)x和(2)x的映射;将均方误差最小化:
D=E{(U-V)2},其中U=AX(1),V=BX(2) (2)
带约束E{U2}=E{V2}=1;做U和V的最大相关,u和v在当时不为零;
假设语音倒谱的长期均值为零,令E{X}=0,分别从训练向量和测试向量中减去信道特征;得到的E{X(1)}=E{X(2)}=0,和得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题改写为:
令得到
满足
特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ1,λ2,…λp是转换矩阵A和B的行向量;通过计算将测试向量映射到训练空间。
进一步,所述步骤五BP神经网络训练包括:采用输入层、隐藏层、输出层三层结构作为情感识别的框架;
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
BP神经网络训练包括:反向传播神经网络(BPNN)即BP网络,BPNN原则上以多层感知(MLP)为系统框架,以反向传播算法为训练规则。MLP即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类。该网络可以手动构建,在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外,两层神经元之间的信号传递模式与单层神经元相同。
本发明的另一目的在于提供一种基于频谱自适应法的BP神经网络语音识别控制系统。
综上所述,本发明的优点及积极效果为:
本发明成功对七种离散的情感状态(愤怒、厌恶、恐惧、快乐、中立、悲伤、惊讶)识别。在10dB信噪比下,以16kHz的采样率,用中文记录了7位发言者的情感语音数据库,每种情感用100个语音进行训练。
而一组每种情感100个话语的分离被用来测试。
对比实验结果如图5所示,“1”代表愤怒,“2”代表厌恶,“3”代表恐惧,“4”代表欢乐,“5”代表中立,“6”代表悲伤,“7”代表惊奇。
频谱自适应法和BP神经网络法不仅提高了识别率,而且在低信噪比情况下也提高了系统的鲁棒性,这说明频谱自适应法很好地补偿了训练集和测试集之间的不匹配,用频谱自适应法作为补偿比不用频谱自适应法更好。如图5所示。其次,本发明使用了男性语言数据库。利用DB8小波对神经网络进行了13级分解后的特征向量训练,对神经网络进行了识别四种不同情感的测试,模糊矩阵中的识别精度如表1所示。本发明可获得72.055%的整体识别精度,解决了语音识别技术的情感识别这一难题。
表1
情感分类 | 中性 | 快乐 | 悲伤 | 生气 |
中性 | 76.47% | 17.64% | 5.88% | 0% |
快乐 | 17.64% | 52.94% | 17.6% | 11.76% |
悲伤 | 17.64% | 11.76% | 70.58% | 0% |
生气 | 11.76% | 0% | 0% | 88.23% |
。
本发明述及方法利用声学特征,该特征有效表征语音内容,不依赖于说话者或词汇内容,并将韵律和音质特征整合到系统中;采用离散小波变换进行性别分析;利用统一的频谱变换自适应法补偿三种失真源(扬声器的差异,录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性;通过BP神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率。
附图说明
图1是本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法流程图。
图2是本发明实施例提供的语音识别过程图。
图3是本发明实施例提供的频谱自适应算法计算流程图。
图4是本发明实施例提供的三层神经网络框架图。
图5是本发明实施例提供的不同情感的识别错误率图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术的语音识别中,没有用以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,进而令识别参数不断逼近最佳状态,造成识别率低。
解决上述问题,下面结合具体方案对本发明作详细描述。
本发明采用神经网络作为语音识别平台,提出一种提高语音识别率的识别方法,采用频谱自适应算法以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,令识别参数不断逼近最佳状态。
如图1所示,本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法包括:
S101:语音输入。
S102:对输入语音进行预处理/取帧。
S103:特征提取。
S104:频谱分析。
S105:BP神经网络训练。
S106:输出识别结果。
所述步骤S103的特征提取具体包括:
特征提取既是大幅压缩信息量的过程,也是信号解卷的过程。将语音信号转换成一组特征矢量序列,使模式划分器能更好地划分。由于语音信号是非平稳信号,本发明假设在非常短的时间间隔内信号静止,即在此时间间隔内信号稳定,因此可每隔一定间隔取出部分信号处理。确定帧的尺寸以及计算重叠率称为取帧,计算重叠率即强化从一帧到另一帧的转换以防止信息丢失。在该阶段,根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征。特征集中的单位差异和数据的数字大小直接影响分类器的性能,采用标准化技术克服该影响;特征选择法用于确定将从特征集中,实现最佳分类的特征。最后,使用所获得的特征集来执行情感识别。
所述步骤S104的频谱分析采用频谱自适应算法。所述频谱自适应算法包括:
频谱自适应算法是一种指数平滑预测方法,可用于非平稳时间序列的预测。预处理语音信号可以表示为一系列特征向量,每个向量可以被认为是特征向量空间中的一个点,从而运用频谱自适应算法,改善训练向量和测试向量之间的差异并进行补偿,该方法没有直接将测试空间转换为训练空间,它使得训练向量和测试向量在参考空间(第三空间)中的相关性最大。令训练向量和测试向量分别是向量X(1)和X(2),可以假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中(1)x和(2)x的映射。将均方误差最小化:
D=E{(U-V)2} (2)
带约束E{U2}=E{V2}=1。做U和V的最大相关,并保证u和v在当时不能为零。通过以下步骤:如图3所示。
假设假设语音倒谱的长期均值为零,可以令E{X}=0,分别从训练向量和测试向量中减去信道特征。可以得到的E{X(1)}=E{X(2)}=0,和因此得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题可以改写为:
如果令得到
必须满足
证明方程(11)有根λ1,λ2,…,λP,求解方程(11),将典型相关问题转化为一般特征值问题。特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ1,λ2,…λp是转换矩阵A和B的行向量。最后通过计算将测试向量映射到训练空间。
所述步骤S105的BP神经网络训练包括:反向传播神经网络(BPNN)即BP网络,BPNN原则上以多层感知(MLP)为系统框架,以反向传播算法为训练规则。MLP即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类。该网络可以手动构建,在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外,两层神经元之间的信号传递模式与单层神经元相同。本发明采用三层结构(输入层、隐藏层、输出层)作为情感识别的框架。框架如图4所示。该模型中:
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
本发明将韵律和音质特征整合到系统中,利用频谱自适应算法补偿三种失真源、重建训练向量和测试向量之间的正确相关性;通过BP神经网络算法对机器进行静态训练,令识别参数不断逼近最佳状态。
本发明基于频谱自适应算法的BP神经网络语音识别方法,可以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,进而令识别参数不断逼近最佳状态,提高识别率。
下面结合具体实施例对本发明作进一步描述。
实施例:
本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法包括以下步骤:
(1)特征提取
特征提取既是大幅压缩信息量的过程,也是信号解卷的过程。将语音信号转换成一组特征矢量序列,使模式划分器能更好地划分。由于语音信号是非平稳信号,本发明假设在非常短的时间间隔内信号静止,即在此时间间隔内信号稳定,因此可每隔一定间隔取出部分信号处理。确定帧的尺寸以及计算重叠率称为取帧,计算重叠率即强化从一帧到另一帧的转换以防止信息丢失。(帧的大小在20ms到40ms之间,重叠率为50%)在该阶段,根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征。特征集中的单位差异和数据的数字大小直接影响分类器的性能,采用标准化技术克服该影响;特征选择法用于确定将从特征集中实现最佳分类的特征。通过选择特征,减小特征数据集的大小以试图提高分类性能和准确性。最后,使用所获得的特征集来执行情感识别。
1)韵律特点
使用一组37个特征,其中26个特征是对数f、能量和持续时间方面的模型。对数F:最大、最小、最大和最小位置、平均值、标准差、回归系数、回归系数的均方误差,以及第一帧和最后一帧的F。
能量:最大、最小、最大和最小位置、平均值、回归系数和回归系数的均方误差。
持续时间方面:发声和未发声区域的数量,发声和未发声帧的数量,最长发声和未发声区域,发声和未发声帧的数量比,发声和未发声区域的数量比,发声和总帧的数量比,发声和总区域的数量比。
2)质量特点
情感识别方法还包括与发音精度或声道特性有关的信息,如共振峰结构。在情感表达方面,有知觉的证据表明,发声质量参数的额外重要性,即声门刺激变化产生的听觉质量。
本发明选择了16个质量特征,描述了前三个共振峰、它们的带宽、谐波噪声比、光谱能量分布、语音与清音能量比和声门流。所有描述的质量特征都是使用语音分析软件praat获得的。
(2)频谱自适应算法
频谱自适应算法是一种指数平滑预测方法,可用于非平稳时间序列的预测。预处理语音信号可以表示为一系列特征向量,每个向量可以被认为是特征向量空间中的一个点,从而运用频谱自适应算法,改善训练向量和测试向量之间的差异并进行补偿,该方法没有直接将测试空间转换为训练空间,它使得训练向量和测试向量在参考空间(第三空间)中的相关性最大。令训练向量和测试向量分别是向量X(1)和X(2),可以假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中(1)x和(2)x的映射。将均方误差最小化:
D=E{(U-V)2} (2)
带约束E{U2}=E{V2}=1。做U和V的最大相关,并保证u和v在当时不能为零。通过以下步骤:如图3所示。
假设假设语音倒谱的长期均值为零,可以令E{X}=0,分别从训练向量和测试向量中减去信道特征。可以得到的E{X(1)}=E{X(2)}=0,和因此得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题可以改写为:
如果令得到
必须满足
本发明可以证明方程(11)有根λ1,λ2,…,λP,要求解方程(11),将典型相关问题转化为一般特征值问题。特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ1,λ2,…λp是转换矩阵A和B的行向量。最后通过计算将测试向量映射到训练空间。
本发明经测试,发现语言转换再训练具有最佳的补偿效果。但在考虑该技术的在线应用时,没有对模型进行再训练,只将测试倒谱向量转化为训练空间进行识别。
(3)、BP神经网络训练
BPNN原则上以多层感知(MLP)为系统框架,以反向传播算法为训练规则。MLP即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类。该网络可以手动构建,在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外,两层神经元之间的信号传递模式与单层神经元相同。
本发明采用三层结构(输入层、隐藏层、输出层)作为情感识别的框架。框架如图4所示。该模型中:
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
在人工神经网络的结构中,有两种输出模式。其中一个使用二进制编码来表示输出,例如,系统有32个对应的输出到5个输出神经元。因此,输出神经元的数量减少了。另一个是一对一的输出。例如,22帧需要22个输出神经元,虽然二进制编码可以使神经元的数目最小化,但它不仅识别率低,而且与一对一模式相比,实验后难以收敛。因此,这里采用了一对一的输出。参数总共包含53个特性,因此输入层中有53个单元,输出层中有7个单元。隐层神经元的数目不能太多,否则不能收敛;如果数目太小,识别误差就大。隐层中的神经元数量用以下方程式表示:
N_no=(In_number×Out_number)1/2
其中N_no表示隐藏层单元的数量,In_number和Out_number分别表示输入和输出层单元的数量。
本发明实施例提供一种基于频谱自适应法的BP神经网络语音识别控制系统。
下面结合具体实验对本发明作进一步描述。
本发明通过实验对识别系统进行了评价。在实验中,七种离散的情感状态(愤怒、厌恶、恐惧、快乐、中立、悲伤、惊讶)在整个工作中被分类。在10dB信噪比下,以16kHz的采样率,用中文记录了7位发言者的情感语音数据库,每种情感用100个语音进行训练。
而一组每种情感100个话语的分离被用来测试。
对比实验结果如图5所示,“1”代表愤怒,“2”代表厌恶,“3”代表恐惧,“4”代表欢乐,“5”代表中立,“6”代表悲伤,“7”代表惊奇。
其次,本发明使用了男性语言数据库。利用DB8小波对神经网络进行了13级分解后的特征向量训练,对神经网络进行了识别四种不同情感的测试,模糊矩阵中的识别精度如表1所示。在测试网络识别四种不同情感的同时,机器获得了最大的识别准确度,在情感愤怒的情况下,最小的识别准确度是幸福。当机器试图从四个不同的情感类别中识别出中性语言时,机器获得了76.47%的识别准确率,而机器面临17.64%的困惑,情感快乐,5.88%的困惑是悲伤,机器不再面临情感愤怒的困惑。对于快乐的情感识别,机器能达到52.94%的识别准确率,17.64%的识别准确率为中性情感,17.6%的识别准确率为悲伤情感,11.76%的识别准确率为愤怒情感。在识别情感悲伤时,机器获得70.58%的识别准确率,17.64%的识别率与情感中性相混淆,11.76%的识别率与情感悲伤相混淆,不再与情感愤怒相混淆。对于情感愤怒的识别,机器识别准确率达到88.23%,与情感中性的识别混淆率达到11.76%,在情感喜怒哀乐的情况下不再出现混淆。通过本实验,本发明可获得72.055%的整体识别精度。
表1
情感分类 | 中性 | 快乐 | 悲伤 | 生气 |
中性 | 76.47% | 17.64% | 5.88% | 0% |
快乐 | 17.64% | 52.94% | 17.6% | 11.76% |
悲伤 | 17.64% | 11.76% | 70.58% | 0% |
生气 | 11.76% | 0% | 0% | 88.23% |
。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于频谱自适应法的BP神经网络语音识别方法,其特征在于,所述基于频谱自适应法的BP神经网络语音识别方法包括:
步骤一,语音输入;
步骤二,对输入语音进行预处理/取帧;
步骤三,特征提取;
步骤四,频谱分析;
步骤五,BP神经网络训练;
步骤六,输出识别结果。
2.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法,其特征在于,所述步骤三特征提取具体包括:
语音输入即把语音输入设备采集的语音进行原始输入,通过扩音器将未知声音转化为电信号输入识别系统,进行预处理;预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响,并且每隔一定时间间隔取出部分信号处理,确定帧的尺寸以及计算重叠率;根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征,确定特征集中最佳分类的特征;在BP神经网络训练阶段,对特征进行分析并得到信号归属词汇,为每个词条建立一个模型,保存为模板库;在识别阶段,使用所获得的特征集来执行情感识别,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,生成识别结果。
3.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法,其特征在于,步骤四频谱分析采用频谱自适应算法;频谱自适应算法包括:
令训练向量和测试向量分别是向量X(1)和X(2),假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中公式(1)x和(2)x的映射;将均方误差最小化:
D=E{(U-V)2} ,其中U=AX(1),V=BX(2) (2)
带约束E{U2}=E{V2}=1;做U和V的最大相关,u和v在当时不为零;
假设语音倒谱的长期均值为零,令E{X}=0,分别从训练向量和测试向量中减去信道特征;得到的E{X(1)}=E{X(2)}=0,和得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题改写为:
令得到
满足
特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ1,λ2,…λp是转换矩阵A和B的行向量;通过计算将测试向量映射到训练空间。
4.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法,其特征在于,所述步骤五BP神经网络训练包括:采用输入层、隐藏层、输出层三层结构作为情感识别的框架;
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
5.一种实施权利要求1所述基于频谱自适应法的BP神经网络语音识别方法的基于频谱自适应法的BP神经网络语音识别控制系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294272.XA CN109979436B (zh) | 2019-04-12 | 2019-04-12 | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294272.XA CN109979436B (zh) | 2019-04-12 | 2019-04-12 | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109979436A true CN109979436A (zh) | 2019-07-05 |
CN109979436B CN109979436B (zh) | 2020-11-13 |
Family
ID=67084399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910294272.XA Expired - Fee Related CN109979436B (zh) | 2019-04-12 | 2019-04-12 | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109979436B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078937A (zh) * | 2019-12-27 | 2020-04-28 | 北京世纪好未来教育科技有限公司 | 语音信息检索方法、装置、设备和计算机可读存储介质 |
CN111268302A (zh) * | 2019-12-31 | 2020-06-12 | 南京理工大学 | 一种基于语音识别的垃圾分类器及其工作方法 |
CN112259106A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
WO2021179717A1 (zh) * | 2020-03-11 | 2021-09-16 | 平安科技(深圳)有限公司 | 一种语音识别的前端处理方法、装置及终端设备 |
CN113516180A (zh) * | 2021-06-25 | 2021-10-19 | 重庆邮电大学 | 一种针对Z-Wave智能设备识别的方法 |
CN113674756A (zh) * | 2021-10-22 | 2021-11-19 | 青岛科技大学 | 基于短时傅里叶变换和bp神经网络的频域盲源分离方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101858938A (zh) * | 2009-12-18 | 2010-10-13 | 西安电子科技大学 | 基于自适应滤波原理的瞬时频率测量方法 |
CN102800316A (zh) * | 2012-08-30 | 2012-11-28 | 重庆大学 | 基于神经网络的声纹识别系统的最优码本设计方法 |
CN103514879A (zh) * | 2013-09-18 | 2014-01-15 | 广东欧珀移动通信有限公司 | 一种基于bp神经网络的本地语音识别方法 |
CN203552694U (zh) * | 2013-10-10 | 2014-04-16 | 南京工程学院 | 基于mfcc的电台识别装置 |
CN104538027A (zh) * | 2014-12-12 | 2015-04-22 | 复旦大学 | 语音社交媒体的情绪传播计算方法及系统 |
CN106683666A (zh) * | 2016-12-23 | 2017-05-17 | 上海语知义信息技术有限公司 | 一种基于深度神经网络的领域自适应方法 |
US20180061397A1 (en) * | 2016-08-26 | 2018-03-01 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
CN108701452A (zh) * | 2016-02-02 | 2018-10-23 | 日本电信电话株式会社 | 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序 |
CN109065034A (zh) * | 2018-09-25 | 2018-12-21 | 河南理工大学 | 一种基于声音特征识别的婴儿哭声翻译方法 |
-
2019
- 2019-04-12 CN CN201910294272.XA patent/CN109979436B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101858938A (zh) * | 2009-12-18 | 2010-10-13 | 西安电子科技大学 | 基于自适应滤波原理的瞬时频率测量方法 |
CN102800316A (zh) * | 2012-08-30 | 2012-11-28 | 重庆大学 | 基于神经网络的声纹识别系统的最优码本设计方法 |
CN103514879A (zh) * | 2013-09-18 | 2014-01-15 | 广东欧珀移动通信有限公司 | 一种基于bp神经网络的本地语音识别方法 |
CN203552694U (zh) * | 2013-10-10 | 2014-04-16 | 南京工程学院 | 基于mfcc的电台识别装置 |
CN104538027A (zh) * | 2014-12-12 | 2015-04-22 | 复旦大学 | 语音社交媒体的情绪传播计算方法及系统 |
CN108701452A (zh) * | 2016-02-02 | 2018-10-23 | 日本电信电话株式会社 | 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序 |
US20180061397A1 (en) * | 2016-08-26 | 2018-03-01 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
CN106683666A (zh) * | 2016-12-23 | 2017-05-17 | 上海语知义信息技术有限公司 | 一种基于深度神经网络的领域自适应方法 |
CN109065034A (zh) * | 2018-09-25 | 2018-12-21 | 河南理工大学 | 一种基于声音特征识别的婴儿哭声翻译方法 |
Non-Patent Citations (2)
Title |
---|
JAN ZWLINKA ETC: "Neural-Network-Based Spectrum Processing for Speech Recognition and Speaker Verification", 《INTERNATIONAL CONFERENCE ON STATISTICAL LANGUAGE AND SPEECH PROCESSING》 * |
张稳: "基于神经网络的语音识别系统的实现", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078937A (zh) * | 2019-12-27 | 2020-04-28 | 北京世纪好未来教育科技有限公司 | 语音信息检索方法、装置、设备和计算机可读存储介质 |
CN111268302A (zh) * | 2019-12-31 | 2020-06-12 | 南京理工大学 | 一种基于语音识别的垃圾分类器及其工作方法 |
WO2021179717A1 (zh) * | 2020-03-11 | 2021-09-16 | 平安科技(深圳)有限公司 | 一种语音识别的前端处理方法、装置及终端设备 |
CN112259106A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN113516180A (zh) * | 2021-06-25 | 2021-10-19 | 重庆邮电大学 | 一种针对Z-Wave智能设备识别的方法 |
CN113516180B (zh) * | 2021-06-25 | 2022-07-12 | 重庆邮电大学 | 一种针对Z-Wave智能设备识别的方法 |
CN113674756A (zh) * | 2021-10-22 | 2021-11-19 | 青岛科技大学 | 基于短时傅里叶变换和bp神经网络的频域盲源分离方法 |
CN113674756B (zh) * | 2021-10-22 | 2022-01-25 | 青岛科技大学 | 基于短时傅里叶变换和bp神经网络的频域盲源分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109979436B (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109979436A (zh) | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 | |
Deshwal et al. | A language identification system using hybrid features and back-propagation neural network | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN112765323B (zh) | 基于多模态特征提取与融合的语音情感识别方法 | |
Samantaray et al. | A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages | |
Lech et al. | Amplitude-frequency analysis of emotional speech using transfer learning and classification of spectrogram images | |
Vadwala et al. | Survey paper on different speech recognition algorithm: challenges and techniques | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
AU2020102516A4 (en) | Health status monitoring system based on speech analysis | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
Kandali et al. | Vocal emotion recognition in five native languages of Assam using new wavelet features | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
Hamsa et al. | Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
Rao | Accent classification from an emotional speech in clean and noisy environments | |
Zbancioc et al. | Emotion recognition for romanian language using mfsc images with deep-learning neural networks | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system | |
CN113436607A (zh) | 一种快速语音克隆方法 | |
Ridhwan et al. | Differential Qiraat Processing Applications using Spectrogram Voice Analysis | |
Avikal et al. | Estimation of age from speech using excitation source features | |
Bohouta | Improving wake-up-word and general speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201113 |
|
CF01 | Termination of patent right due to non-payment of annual fee |