CN109979436A - 一种基于频谱自适应法的bp神经网络语音识别系统及方法 - Google Patents

一种基于频谱自适应法的bp神经网络语音识别系统及方法 Download PDF

Info

Publication number
CN109979436A
CN109979436A CN201910294272.XA CN201910294272A CN109979436A CN 109979436 A CN109979436 A CN 109979436A CN 201910294272 A CN201910294272 A CN 201910294272A CN 109979436 A CN109979436 A CN 109979436A
Authority
CN
China
Prior art keywords
neural network
frequency spectrum
vector
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910294272.XA
Other languages
English (en)
Other versions
CN109979436B (zh
Inventor
陈巍
尹伊琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201910294272.XA priority Critical patent/CN109979436B/zh
Publication of CN109979436A publication Critical patent/CN109979436A/zh
Application granted granted Critical
Publication of CN109979436B publication Critical patent/CN109979436B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于语音识别技术领域,公开了一种基于频谱自适应法的BP神经网络语音识别系统及方法,基于频谱自适应法的BP神经网络语音识别方法包括:语音输入、对输入语音进行预处理/取帧、特征提取、频谱分析、BP神经网络训练、输出识别结果。本发明利用声学特征表征语音内容,不依赖于说话者或词汇内容,将韵律和音质特征整合到系统中;引入频谱变换自适应法补偿三种失真源(扬声器的差异,录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性;通过BP神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率。

Description

一种基于频谱自适应法的BP神经网络语音识别系统及方法
技术领域
本发明属于语音识别技术领域,尤其涉及一种基于频谱自适应法的BP神经网络语音识别系统及方法。
背景技术
目前,最接近的现有技术:
特征参数匹配法、隐马尔可夫法和神经网络法。现有语音识别技术多有环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等,缺乏稳定性和自适应性。
语音识别的应用往往工作环境复杂,声学特征的精确提取通常较难获得。这就需要语音识别系统具有一定的自适应性并进行BP算法训练。目前,常被用于语音识别技术的方法有HMM模型,BP神经网络算法。
然而,当周围存在较多高频噪声或说话人因情感变化而使说话口吻改变时,系统识别性能减弱,造成语音识别率不够。随科技发展,计算机和机器人需具有更强的表达、识别和理解能力,从而人机界面更为高效。
综上所述,现有技术存在的问题是:现有语音识别技术多有环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等,缺乏稳定性和自适应性。
解决上述技术问题的难度:任务过程中因环境变化、说话人距离改变、说话人因情感变化而改变说话口吻从而影响所提取特征值的有效性;任务过程中因扬声器的差异、录音通道的变化从而产生训练条件与测试条件间的不匹配;任务过程中因建立数据库差异导致某些语言无法识别等。
解决上述技术问题的意义:基于频谱自适应法的BP神经网络语音识别方法,用以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,进而令识别参数不断逼近最佳状态,提高识别率。
发明内容
针对现有技术存在的问题,本发明提供了一种基于频谱自适应法的BP神经网络语音识别方法。
本发明是这样实现的,一种基于频谱自适应法的BP神经网络语音识别方法,包括:
步骤一,语音输入;
步骤二,对输入语音进行预处理/取帧;
步骤三,特征提取;
步骤四,频谱分析;
步骤五,BP神经网络训练;
步骤六,输出识别结果。
进一步,所述步骤三特征提取具体包括:
语音输入即把语音输入设备采集的语音进行原始输入,通过扩音器将未知声音转化为电信号输入识别系统,进行预处理;预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并且每隔一定时间间隔取出部分信号处理,确定帧的尺寸以及计算重叠率;根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征,确定特征集中最佳分类的特征;在BP神经网络训练阶段,主要是对特征进行分析并得到信号归属词汇,为每个词条建立一个模型,保存为模板库。在识别阶段,使用所获得的特征集来执行情感识别,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,基于本专利算法规则生成识别结果。
进一步,步骤四频谱分析采用频谱自适应算法;频谱自适应算法包括:
令训练向量和测试向量分别是向量X(1)和X(2),假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中公式(1)x和(2)x的映射;将均方误差最小化:
D=E{(U-V)2},其中U=AX(1),V=BX(2) (2)
带约束E{U2}=E{V2}=1;做U和V的最大相关,u和v在当时不为零;
假设语音倒谱的长期均值为零,令E{X}=0,分别从训练向量和测试向量中减去信道特征;得到的E{X(1)}=E{X(2)}=0,得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题改写为:
得到
满足
特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ12,…λp是转换矩阵A和B的行向量;通过计算将测试向量映射到训练空间。
进一步,所述步骤五BP神经网络训练包括:采用输入层、隐藏层、输出层三层结构作为情感识别的框架;
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
BP神经网络训练包括:反向传播神经网络(BPNN)即BP网络,BPNN原则上以多层感知(MLP)为系统框架,以反向传播算法为训练规则。MLP即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类。该网络可以手动构建,在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外,两层神经元之间的信号传递模式与单层神经元相同。
本发明的另一目的在于提供一种基于频谱自适应法的BP神经网络语音识别控制系统。
综上所述,本发明的优点及积极效果为:
本发明成功对七种离散的情感状态(愤怒、厌恶、恐惧、快乐、中立、悲伤、惊讶)识别。在10dB信噪比下,以16kHz的采样率,用中文记录了7位发言者的情感语音数据库,每种情感用100个语音进行训练。
而一组每种情感100个话语的分离被用来测试。
对比实验结果如图5所示,“1”代表愤怒,“2”代表厌恶,“3”代表恐惧,“4”代表欢乐,“5”代表中立,“6”代表悲伤,“7”代表惊奇。
频谱自适应法和BP神经网络法不仅提高了识别率,而且在低信噪比情况下也提高了系统的鲁棒性,这说明频谱自适应法很好地补偿了训练集和测试集之间的不匹配,用频谱自适应法作为补偿比不用频谱自适应法更好。如图5所示。其次,本发明使用了男性语言数据库。利用DB8小波对神经网络进行了13级分解后的特征向量训练,对神经网络进行了识别四种不同情感的测试,模糊矩阵中的识别精度如表1所示。本发明可获得72.055%的整体识别精度,解决了语音识别技术的情感识别这一难题。
表1
情感分类 中性 快乐 悲伤 生气
中性 76.47% 17.64% 5.88% 0%
快乐 17.64% 52.94% 17.6% 11.76%
悲伤 17.64% 11.76% 70.58% 0%
生气 11.76% 0% 0% 88.23%
本发明述及方法利用声学特征,该特征有效表征语音内容,不依赖于说话者或词汇内容,并将韵律和音质特征整合到系统中;采用离散小波变换进行性别分析;利用统一的频谱变换自适应法补偿三种失真源(扬声器的差异,录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性;通过BP神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率。
附图说明
图1是本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法流程图。
图2是本发明实施例提供的语音识别过程图。
图3是本发明实施例提供的频谱自适应算法计算流程图。
图4是本发明实施例提供的三层神经网络框架图。
图5是本发明实施例提供的不同情感的识别错误率图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术的语音识别中,没有用以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,进而令识别参数不断逼近最佳状态,造成识别率低。
解决上述问题,下面结合具体方案对本发明作详细描述。
本发明采用神经网络作为语音识别平台,提出一种提高语音识别率的识别方法,采用频谱自适应算法以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,令识别参数不断逼近最佳状态。
如图1所示,本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法包括:
S101:语音输入。
S102:对输入语音进行预处理/取帧。
S103:特征提取。
S104:频谱分析。
S105:BP神经网络训练。
S106:输出识别结果。
所述步骤S103的特征提取具体包括:
特征提取既是大幅压缩信息量的过程,也是信号解卷的过程。将语音信号转换成一组特征矢量序列,使模式划分器能更好地划分。由于语音信号是非平稳信号,本发明假设在非常短的时间间隔内信号静止,即在此时间间隔内信号稳定,因此可每隔一定间隔取出部分信号处理。确定帧的尺寸以及计算重叠率称为取帧,计算重叠率即强化从一帧到另一帧的转换以防止信息丢失。在该阶段,根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征。特征集中的单位差异和数据的数字大小直接影响分类器的性能,采用标准化技术克服该影响;特征选择法用于确定将从特征集中,实现最佳分类的特征。最后,使用所获得的特征集来执行情感识别。
所述步骤S104的频谱分析采用频谱自适应算法。所述频谱自适应算法包括:
频谱自适应算法是一种指数平滑预测方法,可用于非平稳时间序列的预测。预处理语音信号可以表示为一系列特征向量,每个向量可以被认为是特征向量空间中的一个点,从而运用频谱自适应算法,改善训练向量和测试向量之间的差异并进行补偿,该方法没有直接将测试空间转换为训练空间,它使得训练向量和测试向量在参考空间(第三空间)中的相关性最大。令训练向量和测试向量分别是向量X(1)和X(2),可以假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中(1)x和(2)x的映射。将均方误差最小化:
D=E{(U-V)2} (2)
带约束E{U2}=E{V2}=1。做U和V的最大相关,并保证u和v在当时不能为零。通过以下步骤:如图3所示。
假设假设语音倒谱的长期均值为零,可以令E{X}=0,分别从训练向量和测试向量中减去信道特征。可以得到的E{X(1)}=E{X(2)}=0,因此得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题可以改写为:
如果令得到
必须满足
证明方程(11)有根λ12,…,λP,求解方程(11),将典型相关问题转化为一般特征值问题。特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ12,…λp是转换矩阵A和B的行向量。最后通过计算将测试向量映射到训练空间。
所述步骤S105的BP神经网络训练包括:反向传播神经网络(BPNN)即BP网络,BPNN原则上以多层感知(MLP)为系统框架,以反向传播算法为训练规则。MLP即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类。该网络可以手动构建,在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外,两层神经元之间的信号传递模式与单层神经元相同。本发明采用三层结构(输入层、隐藏层、输出层)作为情感识别的框架。框架如图4所示。该模型中:
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
本发明将韵律和音质特征整合到系统中,利用频谱自适应算法补偿三种失真源、重建训练向量和测试向量之间的正确相关性;通过BP神经网络算法对机器进行静态训练,令识别参数不断逼近最佳状态。
本发明基于频谱自适应算法的BP神经网络语音识别方法,可以提高训练条件与测试条件间的匹配程度;利用BP神经网络算法对机器训练,进而令识别参数不断逼近最佳状态,提高识别率。
下面结合具体实施例对本发明作进一步描述。
实施例:
本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法包括以下步骤:
(1)特征提取
特征提取既是大幅压缩信息量的过程,也是信号解卷的过程。将语音信号转换成一组特征矢量序列,使模式划分器能更好地划分。由于语音信号是非平稳信号,本发明假设在非常短的时间间隔内信号静止,即在此时间间隔内信号稳定,因此可每隔一定间隔取出部分信号处理。确定帧的尺寸以及计算重叠率称为取帧,计算重叠率即强化从一帧到另一帧的转换以防止信息丢失。(帧的大小在20ms到40ms之间,重叠率为50%)在该阶段,根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征。特征集中的单位差异和数据的数字大小直接影响分类器的性能,采用标准化技术克服该影响;特征选择法用于确定将从特征集中实现最佳分类的特征。通过选择特征,减小特征数据集的大小以试图提高分类性能和准确性。最后,使用所获得的特征集来执行情感识别。
1)韵律特点
使用一组37个特征,其中26个特征是对数f、能量和持续时间方面的模型。对数F:最大、最小、最大和最小位置、平均值、标准差、回归系数、回归系数的均方误差,以及第一帧和最后一帧的F。
能量:最大、最小、最大和最小位置、平均值、回归系数和回归系数的均方误差。
持续时间方面:发声和未发声区域的数量,发声和未发声帧的数量,最长发声和未发声区域,发声和未发声帧的数量比,发声和未发声区域的数量比,发声和总帧的数量比,发声和总区域的数量比。
2)质量特点
情感识别方法还包括与发音精度或声道特性有关的信息,如共振峰结构。在情感表达方面,有知觉的证据表明,发声质量参数的额外重要性,即声门刺激变化产生的听觉质量。
本发明选择了16个质量特征,描述了前三个共振峰、它们的带宽、谐波噪声比、光谱能量分布、语音与清音能量比和声门流。所有描述的质量特征都是使用语音分析软件praat获得的。
(2)频谱自适应算法
频谱自适应算法是一种指数平滑预测方法,可用于非平稳时间序列的预测。预处理语音信号可以表示为一系列特征向量,每个向量可以被认为是特征向量空间中的一个点,从而运用频谱自适应算法,改善训练向量和测试向量之间的差异并进行补偿,该方法没有直接将测试空间转换为训练空间,它使得训练向量和测试向量在参考空间(第三空间)中的相关性最大。令训练向量和测试向量分别是向量X(1)和X(2),可以假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中(1)x和(2)x的映射。将均方误差最小化:
D=E{(U-V)2} (2)
带约束E{U2}=E{V2}=1。做U和V的最大相关,并保证u和v在当时不能为零。通过以下步骤:如图3所示。
假设假设语音倒谱的长期均值为零,可以令E{X}=0,分别从训练向量和测试向量中减去信道特征。可以得到的E{X(1)}=E{X(2)}=0,因此得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题可以改写为:
如果令得到
必须满足
本发明可以证明方程(11)有根λ12,…,λP,要求解方程(11),将典型相关问题转化为一般特征值问题。特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ12,…λp是转换矩阵A和B的行向量。最后通过计算将测试向量映射到训练空间。
本发明经测试,发现语言转换再训练具有最佳的补偿效果。但在考虑该技术的在线应用时,没有对模型进行再训练,只将测试倒谱向量转化为训练空间进行识别。
(3)、BP神经网络训练
BPNN原则上以多层感知(MLP)为系统框架,以反向传播算法为训练规则。MLP即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类。该网络可以手动构建,在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外,两层神经元之间的信号传递模式与单层神经元相同。
本发明采用三层结构(输入层、隐藏层、输出层)作为情感识别的框架。框架如图4所示。该模型中:
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
在人工神经网络的结构中,有两种输出模式。其中一个使用二进制编码来表示输出,例如,系统有32个对应的输出到5个输出神经元。因此,输出神经元的数量减少了。另一个是一对一的输出。例如,22帧需要22个输出神经元,虽然二进制编码可以使神经元的数目最小化,但它不仅识别率低,而且与一对一模式相比,实验后难以收敛。因此,这里采用了一对一的输出。参数总共包含53个特性,因此输入层中有53个单元,输出层中有7个单元。隐层神经元的数目不能太多,否则不能收敛;如果数目太小,识别误差就大。隐层中的神经元数量用以下方程式表示:
N_no=(In_number×Out_number)1/2
其中N_no表示隐藏层单元的数量,In_number和Out_number分别表示输入和输出层单元的数量。
本发明实施例提供一种基于频谱自适应法的BP神经网络语音识别控制系统。
下面结合具体实验对本发明作进一步描述。
本发明通过实验对识别系统进行了评价。在实验中,七种离散的情感状态(愤怒、厌恶、恐惧、快乐、中立、悲伤、惊讶)在整个工作中被分类。在10dB信噪比下,以16kHz的采样率,用中文记录了7位发言者的情感语音数据库,每种情感用100个语音进行训练。
而一组每种情感100个话语的分离被用来测试。
对比实验结果如图5所示,“1”代表愤怒,“2”代表厌恶,“3”代表恐惧,“4”代表欢乐,“5”代表中立,“6”代表悲伤,“7”代表惊奇。
其次,本发明使用了男性语言数据库。利用DB8小波对神经网络进行了13级分解后的特征向量训练,对神经网络进行了识别四种不同情感的测试,模糊矩阵中的识别精度如表1所示。在测试网络识别四种不同情感的同时,机器获得了最大的识别准确度,在情感愤怒的情况下,最小的识别准确度是幸福。当机器试图从四个不同的情感类别中识别出中性语言时,机器获得了76.47%的识别准确率,而机器面临17.64%的困惑,情感快乐,5.88%的困惑是悲伤,机器不再面临情感愤怒的困惑。对于快乐的情感识别,机器能达到52.94%的识别准确率,17.64%的识别准确率为中性情感,17.6%的识别准确率为悲伤情感,11.76%的识别准确率为愤怒情感。在识别情感悲伤时,机器获得70.58%的识别准确率,17.64%的识别率与情感中性相混淆,11.76%的识别率与情感悲伤相混淆,不再与情感愤怒相混淆。对于情感愤怒的识别,机器识别准确率达到88.23%,与情感中性的识别混淆率达到11.76%,在情感喜怒哀乐的情况下不再出现混淆。通过本实验,本发明可获得72.055%的整体识别精度。
表1
情感分类 中性 快乐 悲伤 生气
中性 76.47% 17.64% 5.88% 0%
快乐 17.64% 52.94% 17.6% 11.76%
悲伤 17.64% 11.76% 70.58% 0%
生气 11.76% 0% 0% 88.23%
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于频谱自适应法的BP神经网络语音识别方法,其特征在于,所述基于频谱自适应法的BP神经网络语音识别方法包括:
步骤一,语音输入;
步骤二,对输入语音进行预处理/取帧;
步骤三,特征提取;
步骤四,频谱分析;
步骤五,BP神经网络训练;
步骤六,输出识别结果。
2.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法,其特征在于,所述步骤三特征提取具体包括:
语音输入即把语音输入设备采集的语音进行原始输入,通过扩音器将未知声音转化为电信号输入识别系统,进行预处理;预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响,并且每隔一定时间间隔取出部分信号处理,确定帧的尺寸以及计算重叠率;根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征,确定特征集中最佳分类的特征;在BP神经网络训练阶段,对特征进行分析并得到信号归属词汇,为每个词条建立一个模型,保存为模板库;在识别阶段,使用所获得的特征集来执行情感识别,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,生成识别结果。
3.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法,其特征在于,步骤四频谱分析采用频谱自适应算法;频谱自适应算法包括:
令训练向量和测试向量分别是向量X(1)和X(2),假设:
U=AX(1),V=BX(2) (1)
其中A和B是对应于X(1)和X(2)的变换矩阵,u和v是参考空间中公式(1)x和(2)x的映射;将均方误差最小化:
D=E{(U-V)2} ,其中U=AX(1),V=BX(2) (2)
带约束E{U2}=E{V2}=1;做U和V的最大相关,u和v在当时不为零;
假设语音倒谱的长期均值为零,令E{X}=0,分别从训练向量和测试向量中减去信道特征;得到的E{X(1)}=E{X(2)}=0,得到相关矩阵:
得到关系:
I=E{U2}=E{A′X(1)X(1)′A}=A′∑11A (4)
I=E{V2}=E{B′X(2)X(2)′B}=B′∑22B (5)
E{U}=E{A′X(1)}=A′E{X(1)}=0 (6)
E{V}=E{B′X(2)}=B′E{X(2)}=0 (7)
E{UV}=E{A′X(1)X(2)B}=A′∑12B (8)
问题改写为:
得到
满足
特征向量(a(1),b(1)),(a(2),b(2)),……(a(p),b(p))对应于λ12,…λp是转换矩阵A和B的行向量;通过计算将测试向量映射到训练空间。
4.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法,其特征在于,所述步骤五BP神经网络训练包括:采用输入层、隐藏层、输出层三层结构作为情感识别的框架;
输入神经元的数量=特征数量;
隐藏层数量=(特征数量+情感数量)/2;
输出神经元数量=情感数量。
5.一种实施权利要求1所述基于频谱自适应法的BP神经网络语音识别方法的基于频谱自适应法的BP神经网络语音识别控制系统。
CN201910294272.XA 2019-04-12 2019-04-12 一种基于频谱自适应法的bp神经网络语音识别系统及方法 Expired - Fee Related CN109979436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910294272.XA CN109979436B (zh) 2019-04-12 2019-04-12 一种基于频谱自适应法的bp神经网络语音识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910294272.XA CN109979436B (zh) 2019-04-12 2019-04-12 一种基于频谱自适应法的bp神经网络语音识别系统及方法

Publications (2)

Publication Number Publication Date
CN109979436A true CN109979436A (zh) 2019-07-05
CN109979436B CN109979436B (zh) 2020-11-13

Family

ID=67084399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910294272.XA Expired - Fee Related CN109979436B (zh) 2019-04-12 2019-04-12 一种基于频谱自适应法的bp神经网络语音识别系统及方法

Country Status (1)

Country Link
CN (1) CN109979436B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078937A (zh) * 2019-12-27 2020-04-28 北京世纪好未来教育科技有限公司 语音信息检索方法、装置、设备和计算机可读存储介质
CN111268302A (zh) * 2019-12-31 2020-06-12 南京理工大学 一种基于语音识别的垃圾分类器及其工作方法
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备
WO2021179717A1 (zh) * 2020-03-11 2021-09-16 平安科技(深圳)有限公司 一种语音识别的前端处理方法、装置及终端设备
CN113516180A (zh) * 2021-06-25 2021-10-19 重庆邮电大学 一种针对Z-Wave智能设备识别的方法
CN113674756A (zh) * 2021-10-22 2021-11-19 青岛科技大学 基于短时傅里叶变换和bp神经网络的频域盲源分离方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101858938A (zh) * 2009-12-18 2010-10-13 西安电子科技大学 基于自适应滤波原理的瞬时频率测量方法
CN102800316A (zh) * 2012-08-30 2012-11-28 重庆大学 基于神经网络的声纹识别系统的最优码本设计方法
CN103514879A (zh) * 2013-09-18 2014-01-15 广东欧珀移动通信有限公司 一种基于bp神经网络的本地语音识别方法
CN203552694U (zh) * 2013-10-10 2014-04-16 南京工程学院 基于mfcc的电台识别装置
CN104538027A (zh) * 2014-12-12 2015-04-22 复旦大学 语音社交媒体的情绪传播计算方法及系统
CN106683666A (zh) * 2016-12-23 2017-05-17 上海语知义信息技术有限公司 一种基于深度神经网络的领域自适应方法
US20180061397A1 (en) * 2016-08-26 2018-03-01 Alibaba Group Holding Limited Speech recognition method and apparatus
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN109065034A (zh) * 2018-09-25 2018-12-21 河南理工大学 一种基于声音特征识别的婴儿哭声翻译方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101858938A (zh) * 2009-12-18 2010-10-13 西安电子科技大学 基于自适应滤波原理的瞬时频率测量方法
CN102800316A (zh) * 2012-08-30 2012-11-28 重庆大学 基于神经网络的声纹识别系统的最优码本设计方法
CN103514879A (zh) * 2013-09-18 2014-01-15 广东欧珀移动通信有限公司 一种基于bp神经网络的本地语音识别方法
CN203552694U (zh) * 2013-10-10 2014-04-16 南京工程学院 基于mfcc的电台识别装置
CN104538027A (zh) * 2014-12-12 2015-04-22 复旦大学 语音社交媒体的情绪传播计算方法及系统
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
US20180061397A1 (en) * 2016-08-26 2018-03-01 Alibaba Group Holding Limited Speech recognition method and apparatus
CN106683666A (zh) * 2016-12-23 2017-05-17 上海语知义信息技术有限公司 一种基于深度神经网络的领域自适应方法
CN109065034A (zh) * 2018-09-25 2018-12-21 河南理工大学 一种基于声音特征识别的婴儿哭声翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAN ZWLINKA ETC: "Neural-Network-Based Spectrum Processing for Speech Recognition and Speaker Verification", 《INTERNATIONAL CONFERENCE ON STATISTICAL LANGUAGE AND SPEECH PROCESSING》 *
张稳: "基于神经网络的语音识别系统的实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078937A (zh) * 2019-12-27 2020-04-28 北京世纪好未来教育科技有限公司 语音信息检索方法、装置、设备和计算机可读存储介质
CN111268302A (zh) * 2019-12-31 2020-06-12 南京理工大学 一种基于语音识别的垃圾分类器及其工作方法
WO2021179717A1 (zh) * 2020-03-11 2021-09-16 平安科技(深圳)有限公司 一种语音识别的前端处理方法、装置及终端设备
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备
CN113516180A (zh) * 2021-06-25 2021-10-19 重庆邮电大学 一种针对Z-Wave智能设备识别的方法
CN113516180B (zh) * 2021-06-25 2022-07-12 重庆邮电大学 一种针对Z-Wave智能设备识别的方法
CN113674756A (zh) * 2021-10-22 2021-11-19 青岛科技大学 基于短时傅里叶变换和bp神经网络的频域盲源分离方法
CN113674756B (zh) * 2021-10-22 2022-01-25 青岛科技大学 基于短时傅里叶变换和bp神经网络的频域盲源分离方法

Also Published As

Publication number Publication date
CN109979436B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN109979436A (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
Deshwal et al. A language identification system using hybrid features and back-propagation neural network
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN112765323B (zh) 基于多模态特征提取与融合的语音情感识别方法
Samantaray et al. A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages
Lech et al. Amplitude-frequency analysis of emotional speech using transfer learning and classification of spectrogram images
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
Sefara The effects of normalisation methods on speech emotion recognition
AU2020102516A4 (en) Health status monitoring system based on speech analysis
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
Kandali et al. Vocal emotion recognition in five native languages of Assam using new wavelet features
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
Hamsa et al. Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Rao Accent classification from an emotional speech in clean and noisy environments
Zbancioc et al. Emotion recognition for romanian language using mfsc images with deep-learning neural networks
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
CN113436607A (zh) 一种快速语音克隆方法
Ridhwan et al. Differential Qiraat Processing Applications using Spectrogram Voice Analysis
Avikal et al. Estimation of age from speech using excitation source features
Bohouta Improving wake-up-word and general speech recognition systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201113

CF01 Termination of patent right due to non-payment of annual fee