CN106571135A - 一种耳语音特征提取方法及系统 - Google Patents
一种耳语音特征提取方法及系统 Download PDFInfo
- Publication number
- CN106571135A CN106571135A CN201610951988.9A CN201610951988A CN106571135A CN 106571135 A CN106571135 A CN 106571135A CN 201610951988 A CN201610951988 A CN 201610951988A CN 106571135 A CN106571135 A CN 106571135A
- Authority
- CN
- China
- Prior art keywords
- feature
- whispered
- pectoriloquy
- model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000001228 spectrum Methods 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 34
- 230000009467 reduction Effects 0.000 claims abstract description 33
- 230000008447 perception Effects 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000005728 strengthening Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 21
- 238000011160 research Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 230000008451 emotion Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 210000003926 auditory cortex Anatomy 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000012804 iterative process Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000000205 computational method Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000001149 cognitive effect Effects 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 210000000959 ear middle Anatomy 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 230000036403 neuro physiology Effects 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 210000000860 cochlear nerve Anatomy 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000009897 systematic effect Effects 0.000 claims description 2
- JJLJMEJHUUYSSY-UHFFFAOYSA-L Copper hydroxide Chemical compound [OH-].[OH-].[Cu+2] JJLJMEJHUUYSSY-UHFFFAOYSA-L 0.000 claims 1
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 230000001771 impaired effect Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006757 chemical reactions by type Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种耳语特征提取方法,其特征在于:包括以下步骤:(1)耳语音听觉谱特征表示;(2)特征降维及鲁棒性能分析;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;(3)声学模型优化;所述声学模型优化采取先被动学习,后主动学习的训练机制,提高模型的自适应性能。本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征,并通过加强特征的时序权重强化耳语音特征的可区分性。本发明通过两个目标函数在极大化不同语义的特征向量间距离的同时,同时极小化相同语义的特征向量间距离,提高特征的鲁棒性。
Description
技术领域
本发明涉及语音信号处理技术,尤其涉及一种耳语音特征提取方法及系统。
背景技术
人耳接受到语音、经过听觉机制、神经系统的处理而理解语义的过程称为语音感知,是“听到”并且“听懂”的过程。其中“听懂”是关键,“听懂”的对象包含语义、个性信息、社会信息等内容,而听懂语义是语音感知最重要也是最关键问题,语音信号处理中称为语音识别。尽管目前在实验室条件下,语音识别已经取得了比较令人满意的效果,但是在特殊发音方式、强噪声背景、语音个性多样化等比较恶劣或与实验室条件不符条件下的语音识别依然是目前语音识别研究的难点与热点,而符合听觉感知机理的语音识别是未来的发展方向。
耳语是人类特有的发音方式。当人们改变发声状态,讲话时使声带完全不振动即可发出耳语音。耳语音产生可分为主动与被动两种情况:主动耳语音的产生往往是出于某种特殊场景的需求;被动耳语音的产生通常由于发声系统疾病所致的声带结构或肌肉控制方面的改变,或者由于功能性发声障碍,或者由于医疗手术操作所致的声带变化导致耳语音的产生。尽管发音方式特殊,耳语音却可以表达正常语音所能表达的绝大部分信息,尤其是语义信息。
耳语音感知的研究涉及特征分析与提取、声学模型的建立、鲁棒性等多个关键技术。这些研究内容的发展相辅相成,互相促进。耳语音感知技术具有广阔的应用前景,其潜在的应用领域主要有:(1)用于特定场合下避免影响他人和保护隐私时的手机通讯;(2)用于国家安全部门在侦察与反侦察中身份保密与信息隐秘;(3)用于金融部门保障客户的私密信息及身份认证;(4)用于嗓音病人或发音功能障碍患者的语音辅助系统。因此,对耳语音感知技术的研究具有重要的理论意义和重大应用价值。
目前,国内外研究机构和学者们对耳语音的研究逐渐从耳语音的基础语音学研究走向面向应用的研究方向。近十年来国内外对耳语音的研究侧重于声学特征的深入研究和耳语音智能系统的研究,主要内容包括:耳语增强与转换,耳语音情感特征分析与识别,耳语音说话人识别与确认研究,适于耳语传输的麦克风,耳语音声学分析和识别研究。其中对耳语音增强以及将耳语音转换为正常语音是加速耳语音走向应用的一种方式,其出发点是耳语音转换后可以直接使用现有的语音智能系统。然而已有的研究结果显示这种方式存在一些诸如:音调信息缺失引起合成语义偏差、合成音质不理想等问题,为此,耳语音的识别正成为新的研究热点。
与正常语音识别相比,耳语音识别方面的研究尚处于起步阶段。已有的报道主要集中于耳语元音和孤立字的识别。Ito等人采用耳语音训练的HMM模型对耳语音孤立字识别,获得68%的识别率,用最大似然线性回归(MLLR)自适应训练法可改善耳语音识别率至78%,而采用正常语音训练的HMM模型对耳语音数据做MLLR自适应后,对耳语音孤立字的识别率仅为62%。Morris根据耳语音的特殊性,修正耳语音的共振峰偏移,再转换为倒谱系数,采用MLLR训练方法对英语耳语元音的识别率达到77.9%。耳语音识别正确率要低于同类别的正常语音识别正确率。主要原因在于耳语音具有一些重要特点:耳语音是气声发音,能量低,它通常比正常语音弱15-20dB;耳语音的激励源为噪声,声带不振动,因而耳语音没有基音频率;声道传输函数改变,增加了额外的零极点,导致耳语音频谱较正常语音平坦,低频段衰减大,且频谱发生偏移;耳语音相对正常语音平均时长增加,浊辅音的嗓音起始时间与正常发音有显著差异;耳语发音时更易受发音者心理及环境影响,Lombard效应较明显,语音特征变化大,随机性强。因此,耳语音识别,尤其是用于识别的耳语音特征表示,不能照搬正常语音的方式。英国剑桥大学听力神经基础研究中心Roy和日本和歌山大学Toshio等人的最新成果比较了声门脉冲率与平均共振峰频率不同变化尺度下的正常语音和耳语音单词识别性能。实验结果显示,在大部分尺度变化内,耳语音的可感知率逊于正常语音,这表明耳语音感知对特征有更高的精度要求。
耳语音虽然在诸多方面有别于正常语音,但却依然可以表达语义信息,并且由于没有基频信息,耳语音谱图结构能更加细腻地展现表达语义的时频关系。因此,从谱图的角度研究语音特征的表示尤其适合耳语音,而语音结构化特征和学习的区域性原则也与人脑的学习原理更加一致。国内外学者在听觉感知领域做了许多有益的探索,最新的研究表明:听觉感知学习过程可以归纳为:听神经的刺激、听觉图像的生成、听觉图像多尺度编码、特征包的聚合。听觉感知中的学习过程加入反馈信息则有利于对感知模型做局域优化。
在特征表达方面,因耳语音基频的缺失使频谱特征如共振峰等相关参数成为表示耳语音的关键特征,而耳语发音的共振峰带宽变宽、峰点偏移、频谱较正常发音变得更平坦,这使得共振峰相关参数的有效提取也更为困难,为此,需寻求新的特征表达;在声学模型方面,由于耳语音为非正常发音,往往受环境因素和说话人心理变化等多方面的影响,发音特征变异大,因此需要根据耳语音的特征对现有声学模型进行优化提高系统的稳健性。
发明内容
本发明目的是:解决现有技术中存在的问题,提供一种耳语特征提取方法及系统,所述耳语特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。根据这一思想,本方法的核心内容是根据耳语音的特点首先采用听觉感知谱表示耳语音的语义特征,并采用局部保距投影方式对听觉谱特征降维处理得到耳语音拓扑结构听觉感知特征。进一步针对特征对识别的声学模型(HMM)构建合适的置信度表示,并将训练阶段分解为被动训练与主动训练两个阶段,增加的主动训练阶段依据识别结果的反馈信息选择合适的语料再训练对模型局部优化。
本发明的技术方案是:
一种耳语特征提取方法,其特征在于:包括以下步骤:
(1)耳语音听觉谱特征表示;耳语音的频谱特征的整体声像结构具有可辨识性,从耳语音听觉谱中提取拓扑结构特征可以提高耳语音识别率,耳语音信号经听觉外周及听神经模型的分解转换,表征为具有不同时频特性的听觉皮层声像特征,并在此基础上,研究基于听觉谱特征的耳语音声调感知方法。
(2)特征降维及鲁棒性能分析;谱特征中时频分量间的拓扑结构是表征语义的关键,表明上述听觉谱特征含有冗余信息,去冗余不仅可以保留关键特征凸显各语音单元间区分性,而且可减小运算量;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;
(3)声学模型优化采取先被动学习,后主动学习的训练机制,声学模型在经过初始语音库的被动训练之后生成的初始模型,再由主动学习方式根据识别的反馈结果有针对性地优化模型,提高模型的自适应性能。
优选的,所述听觉特征表示根据听觉感知机理,经人耳听觉外周模型的分解、转换和传输,语音谱特征由皮层的神经元细胞群组表征;初始听觉皮层对听觉谱进行分解,估计时频包络信息;某些神经元对输入的语音在特定的中心频率会达到最大的发放率;对于给定的时间窗,语音的皮层表征是一个高阶张量的结构,它包括三个独立的维度:中心频率,尺度和相位;这里尺度描述的是每个响应区域的带宽,相位描述的是神经元反应的对称程度参数;神经生理学研究表明在听觉皮层的神经元反应被调制为局部的时频包络;利用Gabor函数我们可以获得语音信号的时频包络,我们通过将Gabor函数gu,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征Gu,v(f,t)。卷积结果Gu,v(f,t)是具有不同滤波特性的时频特征;
Gu,v(f,t)=|X(f,t)*gu,v(f,t)| (1)
其中f表示频率,t表示时间,v表示Gabor函数的尺度变化,u表示Gabor函数的朝向变化。
优选的,所述耳语特征提取方法采用局部保距投影(Locality PreservingProjection,LPP)进行降维,LPP是拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法,采用近邻图来体现数据在高维空间中的结构,尤其适合于本发明中耳语音听觉皮层谱图的降维,特征降维具体研究方法和实验手段如下:
【1】LPP降维变换
拉普拉斯本征映射的近邻图中,每个节点代表高维数据空间中的一个点,近邻图中的边表示数据间的联接情况,采用给不同的边赋予不同的权值表示该点周围局部空间内数据的分布情况,构成相似矩阵;该过程由三个主要步骤构成:
首先,构建近邻图,设G表示有k个节点的图,如果节点i和j之间“近邻”,即满足就在两者之间加一条边,通常意义上,“近邻”的判断可以按照距离判断,若||xi-xj||2<D即为近邻,本发明采用加权时间近邻和距离近邻相结合的判断方法,
然后,设置权重wij,对相连的节点i和j,它们边的权重是否则wij=0,其中t表示节点i和j的时间距离,所有wij构成权重矩阵W;
第三,本征映射,该问题可以转化为通用的本征方程求解问题:
XLXTa=λXDXTa (2)
其中,X是由量xi构成的矩阵,D是对角矩阵,所述对角矩阵的对角线上的值等于W的列向量之和,L=D-W即为拉普拉斯矩阵,设a0,a1,…ak-1是上式的本征向量,即变换矩阵为A=(a0,a1,…ak-1),其对应本征值为λ0,λ1,…λk-1,则可得变换:
xi→yi=ATxi (3)
采用LPP作为拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射的根本目的在于原来特征空间中处于近邻关系的数据在变换后的空间中也处于近邻关系,其目标函数是设a是上述拉普拉斯本征映射的一个本征向量,该最小化问题可表示为采用拉格朗日乘数的方法求解并求导可得L′a=λD′a,其中L′=XTXT,D′=XDXT,该式中转换矩阵与特征维数相关,可以方便地用特征变换得到a,从而由式(3)得到降维变换特征;
下面的方法用于改善特征的可区分性和稳健性;
【2】加强特征时序性
语音数据本身具有时间高度相关特性,耳语音由于发音方式决定了说话人倾向于拖长发音时间,其时间相关性尤其明显,在选择邻域时,若加强时间轴的权重可提升耳语音特征可区分性,这基于两个假设:a)每个音素平稳缓慢变化,这符合耳语音特点;b)局部邻域时间方向权重大于空间方向权重,这一假设反映的语音时变特点。假设不同尺度、朝向、频率的N幅谱图为M×P的矩阵,那么按照采样点每个矩阵可以看做是M个向量,这样来排列向量:将每一幅的排列完毕后接着排(上标指第几幅谱图,下标指时间点),尽量保持向量的时序性;
在传统的欧氏距离邻域判定方法的基础上,我们根据向量间的时间邻域和欧氏距离共同决定权重,由下式的β来决定不同时间距离的权重,距离越近权重越大;
【3】提高特征稳健性,
针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题,提出基于非语义信息抑制的局部保距投影(Non-Semantic InformationSuppression-Locality Preserving Projection,NSIS-LPP)算法;
设某数据集,同属某一语义单元的特征向量共N1个,表示为属于另一个语义单元的特征向量共N2个,表示为设变换前X2中有M个特征向量与X1中的特征向量近邻,联合X1及其在X2中的近邻,得到X1的关联关系包,记作设经过变换后X变成变换的目标是让相同语义的特征向量尽量相近,目标函数一为:同时,变换的另一目标是不同语义的特征向量尽量远,目标函数二为:联合目标函数一和目标函数二,应用类似提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。
优选的,声学模型优化阶段分为被动训练与主动训练两部分,被动训练阶段由已标注的初始样本数据集训练产生声学模型,这是传统的声学模型生成方式,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,先主动后被动的有反馈的学习。
优选的,本发明根据耳语音的声学特征,研究主动学习方法中的初始样本选择、置信度计算和主动学习中数据处理等关键问题,
【1】初始样本选择,采用“母亲库”和“家庭库”结合的方式构成初始样本集;“母亲库”和“家庭库”是用于被动训练的初始样本,要求尽可能清晰、准确;上述语料手工标注后作为初始训练样本训练生成初始模型,后续的主动学习阶段则采用未标注的“社会库”,“母亲库”由一个发音者产生,发音内容包括全部有调汉语音节单字,其内容重复发音10遍;“家庭库”由5人(包括母亲)用不同情感产生,发音内容是包含所有汉语音节的连续语音;“社会库”来源尽可能多样化,覆盖尽可能多的人群、各种情感状态、各种语调,所述样本库的容量可扩大,用于主动学习中更新模型。
【2】主动学习中数据处理,假设“社会库”样本数据集为X,初始模型对X中的数据进行识别,并将样本数据集X划分成C类样本集,取出各集中置信度低的构成C类样本子集Xi,对这些子集中的样本做标注后再进行区分性训练,通过最大化类间散度最小化类内散度准则对模型进行训练(u和ui分别表示所有样本均值和第i类样本均值)。通过多次这样的“低置信度样本反馈—标注—训练”的迭代过程提高模型区分性和稳健性,每次投入迭代过程的“社会库”规模可变,它的原则是提供尽可能多样化的样本,目标是对含该样本类别的声学模型进行更新优化;
【3】置信度计算,置信度计算主要解决如何对未标注的“社会库”中的样本进行评价,从而选择出最具信息量的样本作标注并进行训练的问题,由于耳语音的音量极低,在语音检测中难免会有误判,本发明在置信度计算时分两个方面:一是针对语音段;二是针对非语音段;语音段的置信度计算着重考虑如何降低替代错误,我们以字为单元对声学模型的输出序列计算置信度,设Os为声学观测序列,则识别结果字序列Cs的后验概率为P(Cs)是各字序列的先验语音模型得分,P(Os|Cs)是由字序列Cs生成观测值Os的声学模型得分,低得分样本即为低置信度的样本,对于低置信度样本,同时给出距离目标模型较近的几个些竞争模型,在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度;
非语音段的置信度计算着重研究如何降低删除错误,分别对纯语音数据和纯静音数据得到一个语音模型Λs和静音模型Λn,设On是来自被判为非语音段的观测量,则其置信度按下式计算:t表示非语音段时长。
一种耳语音特征提取系统,所述耳语音特征提取系统由三大模块组成:系统前端的语音信号处理模块,系统中心的声学模型训练与识别模块,后处理模块;耳语音特征提取系统基于听觉感知模型的耳语音特征提取和声学模型优化方法,一方面,依据人耳听觉感知机理,提取耳语音听觉感知谱特征,进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征;另一方面,设计基于被动学习和主动学习的声学模型学习方法,结合听觉谱特征,构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。
本发明的优点:
1、本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征,并通过加强特征的时序权重强化耳语音特征的可区分性。
2、本发明所述的耳语音特征提取方法提出非语义信息抑制的局部保距投影方法。通过两个目标函数在极大化不同语义的特征向量间距离的同时,同时极小化相同语义的特征向量间距离,提高特征的鲁棒性。
3、本发明所述的耳语音特征提取方法提出用于耳语音感知声学模型优化方法。提出“母亲库”、“家庭库”、“社会库”的建库方式,并根据耳语音特征提出语音段、非语音段置信度计算方法。将声学模型的训练分为初级被动训练与次级主动训练两个阶段。初级训练阶段由已标注的数据集训练生成初始模型,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,以达到降低样本标注的工作量和模型区域优化的目的。
4、本发明所述的耳语音特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。
5、本发明所述的耳语音特征提取方法提高了耳语音感知的精度,为耳语音的应用提供了应用基础和可能。
6、本发明有利于特定场合下避免影响他人和保护隐私时的手机通讯;本发明有利于国家安全部门在侦察与反侦察中身份保密与信息隐秘;有利于金融部门保障客户的私密信息及身份认证;有利于嗓音病人或发音功能障碍患者的语音辅助系统。
附图说明
图1是本发明所述的耳语音特征提取系统的框架示意图。
图2是本发明所述的耳语音特征提取方法的NSIS-LPP原理图。
具体实施方式
下面结合优选实施方式对本发明技术方案进行详细说明。
一种耳语特征提取方法,其特征在于:包括以下步骤:
(1)耳语音听觉谱特征表示;耳语音的频谱特征的整体声像结构具有可辨识性,从耳语音听觉谱中提取拓扑结构特征可以提高耳语音识别率,耳语音信号经听觉外周及听神经模型的分解转换,表征为具有不同时频特性的听觉皮层声像特征,并在此基础上,研究基于听觉谱特征的耳语音声调感知方法;
(2)特征降维及鲁棒性能分析;谱特征中时频分量间的拓扑结构是表征语义的关键,表明上述听觉谱特征含有冗余信息,去冗余不仅可以保留关键特征凸显各语音单元间区分性,而且可减小运算量;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;
(3)声学模型优化(反馈式训练),单纯的被动式训练确实可以在训练数据库足够大的条件下取得比较好的识别效果。但受语音多变性影响,训练往往面临数据量大和语音单元间区分性不强的问题。采取先被动学习,后主动学习的训练机制,声学模型在经过初始语音库的被动训练之后生成的初始模型,再由主动学习方式根据识别的反馈结果有针对性地优化模型,提高模型的自适应性能。
优选的,所述听觉特征表示根据听觉感知机理,经人耳听觉外周模型的分解、转换和传输,语音谱特征由皮层的神经元细胞群组表征;初始听觉皮层对听觉谱进行分解,估计时频包络信息;某些神经元对输入的语音在特定的中心频率会达到最大的发放率;对于给定的时间窗,语音的皮层表征是一个高阶张量的结构,它包括三个独立的维度:中心频率,尺度和相位;这里尺度描述的是每个响应区域的带宽,相位描述的是神经元反应的对称程度参数;神经生理学研究表明在听觉皮层的神经元反应被调制为局部的时频包络;利用Gabor函数我们可以获得语音信号的时频包络,我们通过将Gabor函数gu,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征Gu,v(f,t)。卷积结果Gu,v(f,t)是具有不同滤波特性的时频特征;
Gu,v(f,t)=|X(f,t)*gu,v(f,t)| (1)
其中f表示频率,t表示时间,v表示Gabor函数的尺度变化,u表示Gabor函数的朝向变化。基于Gabor的皮层特征可以看成是初始听觉皮层的神经元响应结果。本文采用Gu,v(f,t)作为语音信号的听觉谱特征。与传统语谱图相比,该听觉特征能反映出更丰富的语音频率特性。但高辨识度同时意味着特征过于敏感易造成鲁棒性差的问题。由于Gu,v(f,t)是多维高阶矩阵,且具有一定量冗余信息,为此可进一步对该特征进行降维表示。本发明所述的耳语音特征提取方法提出非语义信息抑制的局部保距投影方法。通过两个目标函数在极大化不同语义的特征向量间距离的同时,同时极小化相同语义的特征向量间距离,提高特征的鲁棒性。
优选的,所述耳语特征提取方法采用局部保距投影(Locality PreservingProjection,LPP)进行降维,LPP是拉普拉斯本征映射的线性实现形式,拉普拉斯本征映射在日语的元音识别中已有成功应用。由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法,采用近邻图来体现数据在高维空间中的结构,尤其适合于本发明中耳语音听觉皮层谱图的降维,特征降维具体研究方法和实验手段如下:
【1】LPP降维变换
拉普拉斯本征映射的近邻图中,每个节点代表高维数据空间中的一个点,近邻图中的边表示数据间的联接情况,采用给不同的边赋予不同的权值表示该点周围局部空间内数据的分布情况,构成相似矩阵;该过程由三个主要步骤构成:
首先,构建近邻图,设G表示有k个节点的图,如果节点i和j之间“近邻”,即满足就在两者之间加一条边,通常意义上,“近邻”的判断可以按照距离判断,若||xi-xj||2<D即为近邻,本发明采用加权时间近邻和距离近邻相结合的判断方法,具体论述见②加强特征时序性部分;
然后,设置权重wij,对相连的节点i和j,它们边的权重是否则wij=0,其中t表示节点i和j的时间距离,所有wij构成权重矩阵W;
第三,本征映射,该问题可以转化为通用的本征方程求解问题:
XLXTa=λXDXTa (2)
其中,X是由量xi构成的矩阵,D是对角矩阵,所述对角矩阵的对角线上的值等于W的列向量之和,L=D-W即为拉普拉斯矩阵,设a0,a1,…ak-1是上式的本征向量,即变换矩阵为A=(a0,a1,…ak-1),其对应本征值为λ0,λ1,…λk-1,则可得变换:
xi→yi=ATxi (3)
实际应用中一般采用LPP作为拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射的根本目的在于原来特征空间中处于近邻关系的数据在变换后的空间中也处于近邻关系,其目标函数是设a是上述拉普拉斯本征映射的一个本征向量,该最小化问题可表示为采用拉格朗日乘数的方法求解并求导可得L′a=λD′a,其中L′=XTXT,D′=XDXT,该式中转换矩阵与特征维数相关,可以方便地用特征变换得到a,从而由式(3)得到降维变换特征;
在耳语音识别系统中,特征的可区分性和稳健性是衡量特征的两个重要指标。可区分度主要指各语音识别单元对应特征的拓扑结构的差异性,稳健性主要指相同语音识别单元在不同说话人、不同情感状态下的特征相似性。下面的方法用于改善特征的可区分性和稳健性;
【2】加强特征时序性
语音数据本身具有时间高度相关特性,耳语音由于发音方式决定了说话人倾向于拖长发音时间,其时间相关性尤其明显,在选择邻域时,若加强时间轴的权重可提升耳语音特征可区分性,这基于两个假设:a)每个音素平稳缓慢变化,这符合耳语音特点;b)局部邻域时间方向权重大于空间方向权重,这一假设反映的语音时变特点。假设不同尺度、朝向、频率的N幅谱图为M×P的矩阵,那么按照采样点每个矩阵可以看做是M个向量,这样来排列向量:将每一幅的排列完毕后接着排(上标指第几幅谱图,下标指时间点),尽量保持向量的时序性;
在传统的欧氏距离邻域判定方法的基础上,我们根据向量间的时间邻域和欧氏距离共同决定权重,由下式的β来决定不同时间距离的权重,距离越近权重越大;
【3】提高特征稳健性,
在耳语音识别系统中,特征的稳健性是提高系统性能的重要保障,针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题,提出基于非语义信息抑制的局部保距投影(Non-Semantic Information Suppression-LocalityPreserving Projection,NSIS-LPP)算法;其基本原理如图2所示。
图2中不同颜色的立方体表示不同说话人或不同情感时的某一语义特征,不同颜色的三角形表示不同说话人或不同情感时的另一语义特征。在语义的差异性和说话人或情感等个性特征的相似性共同作用下,不同语义的特征之间可能会产生混淆。本文的目的是使同一语义的特征间的距离尽量缩小,同时使不同语义的处于近邻关系的特征距离更远。
设某数据集,同属某一语义单元的特征向量共N1个,表示为属于另一个语义单元的特征向量共N2个,表示为设变换前X2中有M个特征向量与X1中的特征向量近邻,联合X1及其在X2中的近邻,得到X1的关联关系包,记作设经过变换后X变成变换的目标是让相同语义的特征向量尽量相近,目标函数一为:同时,变换的另一目标是不同语义的特征向量与尽量远,目标函数二为:联合目标函数一和目标函数二,应用类似提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。
优选的,特征的有效性不仅决定于特征提取方法,同时依赖于声学模型对特征的表达。声学模型优化阶段,声学模型的训练阶段分为被动训练与主动训练两部分,被动训练阶段由已标注的初始样本数据集训练产生声学模型,这是传统的声学模型生成方式,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,先主动后被动的有反馈的学习。这样一种先主动后被动的有反馈的学习过程不仅降低了样本标注的工作量,而且可以改善声学模型的稳健性。本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征,并通过加强特征的时序权重强化耳语音特征的可区分性。
优选的,本发明根据耳语音的声学特征,研究主动学习方法中的初始样本选择、置信度计算和主动学习中数据处理等关键问题,
【1】初始样本选择,传统的主动学习方法中,初始样本集合是由未标注样本集中随机产生一定数量的样本进行标注后组成的,但这种方式存在风险。初始样本应兼顾数据的准确、覆盖均衡、充分等方面,以使声学模型在初始训练后尽可能准确地表达特征数据。为此,我们采用“母亲库”和“家庭库”结合的方式构成初始样本集;“母亲库”和“家庭库”是用于被动训练的初始样本,要求尽可能清晰、准确;上述语料手工标注后作为初始训练样本训练生成初始模型,后续的主动学习阶段则采用未标注的“社会库”,“母亲库”由一个发音者产生,发音内容包括全部有调汉语音节单字,其内容重复发音10遍;“家庭库”由5人(包括母亲)用不同情感产生,发音内容是包含所有汉语音节的连续语音;“社会库”来源尽可能多样化,覆盖尽可能多的人群、各种情感状态、各种语调,所述样本库的容量可扩大,用于主动学习中更新模型。本发明所述的耳语音特征提取方法提出用于耳语音感知声学模型优化方法。提出“母亲库”、“家庭库”、“社会库”的建库方式,并根据耳语音特征提出语音段、非语音段置信度计算方法。将声学模型的训练分为初级被动训练与次级主动训练两个阶段。初级训练阶段由已标注的数据集训练生成初始模型,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,以达到降低样本标注的工作量和模型区域优化的目的。
【2】主动学习中数据处理,假设“社会库”样本数据集为X,初始模型对X中的数据进行识别,并将样本数据集X划分成C类样本集,取出各集中置信度低的构成C类样本子集Xi,对这些子集中的样本做标注后再进行区分性训练,通过最大化类间散度最小化类内散度准则对模型进行训练(u和ui分别表示所有样本均值和第i类样本均值)。通过多次这样的“低置信度样本反馈—标注—训练”的迭代过程提高模型区分性和稳健性,每次投入迭代过程的“社会库”规模可变,它的原则是提供尽可能多样化的样本,目标是对含该样本类别的声学模型进行更新优化;
【3】置信度计算,置信度在有反馈的主动学习型系统中是一个关键问题。置信度计算主要解决如何对未标注的“社会库”中的样本进行评价,从而选择出最具信息量的样本作标注并进行训练的问题。由于耳语音的音量极低,在语音检测中难免会有误判,本项目在置信度计算时分两个方面:一是针对语音段;二是针对非语音段;语音段的置信度计算着重考虑如何降低替代错误,我们以字为单元对声学模型的输出序列计算置信度,设Os为声学观测序列,则识别结果字序列Cs的后验概率为P(Cs)是各字序列的先验语音模型得分,P(Os|Cs)是由字序列Cs生成观测值Os的声学模型得分,低得分样本即为低置信度的样本,对于低置信度样本,同时给出距离目标模型较近的几个些竞争模型,在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度;
非语音段的置信度计算着重研究如何降低删除错误,分别对纯语音数据和纯静音数据得到一个语音模型Λs和静音模型Λn,设On是来自被判为非语音段的观测量,则其置信度按下式计算:t表示非语音段时长。
一种耳语音特征提取系统,所述耳语音特征提取系统由三大模块组成:系统前端的语音信号处理模块,系统中心的声学模型训练与识别模块,后处理模块;由于耳语特殊的发音方式,系统的声学处理模块和声学模型模块与正常语音相比有其特殊性,而大大增加了难度。本项目着眼于基于听觉感知模型的耳语音特征提取和声学模型优化方法。一方面,依据人耳听觉感知机理,提取耳语音听觉感知谱特征,进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征;另一方面,设计基于被动学习和主动学习的声学模型学习方法,结合听觉谱特征,构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。
本发明所述的耳语音特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。本发明所述的耳语音特征提取方法提高了耳语音感知的精度,为耳语音的应用提供了应用基础和可能。本发明有利于特定场合下避免影响他人和保护隐私时的手机通讯;本发明有利于国家安全部门在侦察与反侦察中身份保密与信息隐秘;有利于金融部门保障客户的私密信息及身份认证;有利于嗓音病人或发音功能障碍患者的语音辅助系统。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。
Claims (6)
1.一种耳语特征提取方法,其特征在于:包括以下步骤:
(1)耳语音听觉谱特征表示;耳语音的频谱特征的整体声像结构具有可辨识性,从耳语音听觉谱中提取拓扑结构特征可以提高耳语音识别率,耳语音信号经听觉外周及听神经模型的分解转换,表征为具有不同时频特性的听觉皮层声像特征,并在此基础上,研究基于听觉谱特征的耳语音声调感知方法;
(2)特征降维及鲁棒性能分析;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;
(3)声学模型优化;所述声学模型优化采取先被动学习,后主动学习的训练机制,声学模型在经过初始语音库的被动训练之后生成的初始模型,再由主动学习方式根据识别的反馈结果有针对性地优化模型,提高模型的自适应性能。
2.根据权利要求1所述的耳语特征提取方法,其特征在于:所述听觉特征表示根据听觉感知机理,经人耳听觉外周模型的分解、转换和传输,语音谱特征由皮层的神经元细胞群组表征;初始听觉皮层对听觉谱进行分解,估计时频包络信息;某些神经元对输入的语音在特定的中心频率会达到最大的发放率;对于给定的时间窗,语音的皮层表征是一个高阶张量的结构,它包括三个独立的维度:中心频率,尺度和相位;这里尺度描述的是每个响应区域的带宽,相位描述的是神经元反应的对称程度参数;神经生理学研究表明在听觉皮层的神经元反应被调制为局部的时频包络;利用Gabor函数我们可以获得语音信号的时频包络,我们通过将Gabor函数gu,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征Gu,v(f,t)。卷积结果Gu,v(f,t)是具有不同滤波特性的时频特征;
Gu,v(f,t)=|X(f,t)*gu,v(f,t)|(1)
其中f表示频率,t表示时间,v表示Gabor函数的尺度变化,u表示Gabor函数的朝向变化。
3.根据权利要求1所述的耳语特征提取方法,其特征在于:所述耳语特征提取方法采用局部保距投影(Locality Preserving Projection,LPP)进行降维,LPP是拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法,采用近邻图来体现数据在高维空间中的结构,尤其适合于所述耳语特征提取方法中耳语音听觉皮层谱图的降维,特征降维具体研究方法和实验手段如下:
【1】LPP降维变换
拉普拉斯本征映射的近邻图中,每个节点代表高维数据空间中的一个点,近邻图中的边表示数据间的联接情况,采用给不同的边赋予不同的权值表示该点周围局部空间内数据的分布情况,构成相似矩阵;该过程由三个主要步骤构成:
首先,构建近邻图,设G表示有k个节点的图,如果节点i和j之间“近邻”,即满足就在两者之间加一条边,通常意义上,“近邻”的判断可以按照距离判断,若||xi-xj||2<D即为近邻,本发明采用加权时间近邻和距离近邻相结合的判断方法,
然后,设置权重wij,对相连的节点i和j,它们边的权重是否则wij=0,其中t表示节点i和j的时间距离,所有wij构成权重矩阵W;
第三,本征映射,该问题可以转化为通用的本征方程求解问题:
XLXTa=λXDXTa (2)
其中,X是由量xi构成的矩阵,D是对角矩阵,所述对角矩阵的对角线上的值等于W的列向量之和,L=D-W即为拉普拉斯矩阵,设a0,a1,…ak-1是上式的本征向量,即变换矩阵为A=(a0,a1,…ak-1),其对应本征值为λ0,λ1,…λk-1,则可得变换:
xi→yi=ATxi (3)
采用LPP作为拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射的根本目的在于原来特征空间中处于近邻关系的数据在变换后的空间中也处于近邻关系,其目标函数是设a是上述拉普拉斯本征映射的一个本征向量,该最小化问题可表示为采用拉格朗日乘数的方法求解并求导可得L′a=λD′a,其中L′=XTXT,D′=XDXT,该式中转换矩阵与特征维数相关,可以方便地用特征变换得到a,从而由式(3)得到降维变换特征;
下面的方法用于改善特征的可区分性和稳健性;
【2】加强特征时序性
语音数据本身具有时间高度相关特性,耳语音由于发音方式决定了说话人倾向于拖长发音时间,其时间相关性尤其明显,在选择邻域时,若加强时间轴的权重可提升耳语音特征可区分性,这基于两个假设:a)每个音素平稳缓慢变化,这符合耳语音特点;b)局部邻域时间方向权重大于空间方向权重,这一假设反映的语音时变特点。假设不同尺度、朝向、频率的N幅谱图为M×P的矩阵,那么按照采样点每个矩阵可以看做是M个向量,这样来排列向量:将每一幅的排列完毕后接着排(上标指第几幅谱图,下标指时间点),尽量保持向量的时序性;
在传统的欧氏距离邻域判定方法的基础上,我们根据向量间的时间邻域和欧氏距离共同决定权重,由下式的β来决定不同时间距离的权重,距离越近权重越大;
【3】提高特征稳健性,
在耳语音识别系统中,特征的稳健性是提高系统性能的重要保障,针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题,提出基于非语义信息抑制的局部保距投影(Non-Semantic Information Suppression-LocalityPreserving Projection,NSIS-LPP)算法;
设某数据集,同属某一语义单元的特征向量共N1个,表示为属于另一个语义单元的特征向量共N2个,表示为设变换前X2中有M个特征向量与X1中的特征向量近邻,联合X1及其在X2中的近邻,得到X1的关联关系包,记作设经过变换后X变成变换的目标是让相同语义的特征向量尽量相近,目标函数一为:同时,变换的另一目标是不同语义的特征向量与尽量远,目标函数二为:联合目标函数一和目标函数二,应用类似提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。
4.根据权利要求1所述的耳语特征提取方法,其特征在于:声学模型优化阶段,声学模型的训练阶段分为被动训练与主动训练两部分,被动训练阶段由已标注的初始样本数据集训练产生声学模型,这是传统的声学模型生成方式,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,先主动后被动的有反馈的学习。
5.根据权利要求4所述的耳语特征提取方法,其特征在于:所述耳语特征提取方法根据耳语音的声学特征,研究主动学习方法中的初始样本选择、置信度计算和主动学习中数据处理等关键问题,
【1】初始样本选择,采用“母亲库”和“家庭库”结合的方式构成初始样本集;“母亲库”和“家庭库”是用于被动训练的初始样本,要求尽可能清晰、准确;上述语料手工标注后作为初始训练样本训练生成初始模型,后续的主动学习阶段则采用未标注的“社会库”,“母亲库”由一个发音者产生,发音内容包括全部有调汉语音节单字,其内容重复发音10遍;“家庭库”由5人用不同情感产生,发音内容是包含所有汉语音节的连续语音;“社会库”来源尽可能多样化,覆盖尽可能多的人群、各种情感状态、各种语调,所述样本库的容量可扩大,用于主动学习中更新模型;
【2】主动学习中数据处理,假设“社会库”样本数据集为X,初始模型对X中的数据进行识别,并将样本数据集X划分成C类样本集,取出各集中置信度低的构成C类样本子集Xi,对这些子集中的样本做标注后再进行区分性训练,通过最大化类间散度最小化类内散度准则对模型进行训练(u和ui分别表示所有样本均值和第i类样本均值)。通过多次这样的“低置信度样本反馈—标注—训练”的迭代过程提高模型区分性和稳健性,每次投入迭代过程的“社会库”规模可变,它的原则是提供尽可能多样化的样本,目标是对含该样本类别的声学模型进行更新优化;
【3】置信度计算,由于耳语音的音量极低,在语音检测中难免会有误判,在置信度计算时分两个方面:一是针对语音段;二是针对非语音段;语音段的置信度计算着重考虑如何降低替代错误,我们以字为单元对声学模型的输出序列计算置信度,设Os为声学观测序列,则识别结果字序列Cs的后验概率为P(Cs)是各字序列的先验语音模型得分,P(Os|Cs)是由字序列Cs生成观测值Os的声学模型得分,低得分样本即为低置信度的样本,对于低置信度样本,同时给出距离目标模型较近的几个些竞争模型,在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度;
非语音段的置信度计算着重研究如何降低删除错误,分别对纯语音数据和纯静音数据得到一个语音模型Λs和静音模型Λn,设On是来自被判为非语音段的观测量,则其置信度按下式计算:t表示非语音段时长。
6.一种耳语音特征提取系统,其特征在于:所述耳语音特征提取系统由三大模块组成:系统前端的语音信号处理模块,系统中心的声学模型训练与识别模块,后处理模块;耳语音特征提取系统基于听觉感知模型的耳语音特征提取和声学模型优化方法,一方面,依据人耳听觉感知机理,提取耳语音听觉感知谱特征,进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征;另一方面,设计基于被动学习和主动学习的声学模型学习方法,结合听觉谱特征,构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610951988.9A CN106571135B (zh) | 2016-10-27 | 2016-10-27 | 一种耳语音特征提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610951988.9A CN106571135B (zh) | 2016-10-27 | 2016-10-27 | 一种耳语音特征提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106571135A true CN106571135A (zh) | 2017-04-19 |
CN106571135B CN106571135B (zh) | 2020-06-09 |
Family
ID=58535256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610951988.9A Active CN106571135B (zh) | 2016-10-27 | 2016-10-27 | 一种耳语音特征提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106571135B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633845A (zh) * | 2017-09-11 | 2018-01-26 | 清华大学 | 一种鉴别式局部信息距离保持映射的说话人确认方法 |
CN107808166A (zh) * | 2017-10-26 | 2018-03-16 | 杭州电子科技大学 | 一种memd张量线性拉普拉斯判别的肌电特征提取方法 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN108053822A (zh) * | 2017-11-03 | 2018-05-18 | 深圳和而泰智能控制股份有限公司 | 一种语音信号处理方法、装置、终端设备及介质 |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN108649961A (zh) * | 2018-05-08 | 2018-10-12 | 北京理工大学 | 一种基于边信息先验的多导联心电信号重构估计方法 |
CN108735199A (zh) * | 2018-04-17 | 2018-11-02 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
CN109448707A (zh) * | 2018-12-18 | 2019-03-08 | 北京嘉楠捷思信息技术有限公司 | 一种语音识别方法及装置、设备、介质 |
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
CN110148428A (zh) * | 2019-05-27 | 2019-08-20 | 哈尔滨工业大学 | 一种基于子空间表示学习的声学事件识别方法 |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
CN110728993A (zh) * | 2019-10-29 | 2020-01-24 | 维沃移动通信有限公司 | 一种变声识别方法及电子设备 |
CN112201227A (zh) * | 2020-09-28 | 2021-01-08 | 海尔优家智能科技(北京)有限公司 | 语音样本生成方法及装置、存储介质、电子装置 |
US20210042603A1 (en) * | 2018-09-04 | 2021-02-11 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, and storage medium for generating network representation for neural network |
TWI719304B (zh) * | 2017-06-13 | 2021-02-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於說話者驗證的方法、設備及系統 |
CN112863517A (zh) * | 2021-01-19 | 2021-05-28 | 苏州大学 | 基于感知谱收敛率的语音识别方法 |
CN117437367A (zh) * | 2023-12-22 | 2024-01-23 | 天津大学 | 一种基于耳廓关联函数预警耳机滑动及动态修正方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007114355A (ja) * | 2005-10-19 | 2007-05-10 | Univ Of Tokyo | 音声合成方法及び装置 |
CN102737643A (zh) * | 2011-04-14 | 2012-10-17 | 东南大学 | 一种基于Gabor时频分析的耳语增强方法 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
CN103680495A (zh) * | 2012-09-26 | 2014-03-26 | 中国移动通信集团公司 | 语音识别模型训练方法和装置及终端 |
CN104376850A (zh) * | 2014-11-28 | 2015-02-25 | 苏州大学 | 一种汉语耳语音的基频估计方法 |
CN105047194A (zh) * | 2015-07-28 | 2015-11-11 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
-
2016
- 2016-10-27 CN CN201610951988.9A patent/CN106571135B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007114355A (ja) * | 2005-10-19 | 2007-05-10 | Univ Of Tokyo | 音声合成方法及び装置 |
CN102737643A (zh) * | 2011-04-14 | 2012-10-17 | 东南大学 | 一种基于Gabor时频分析的耳语增强方法 |
CN103680495A (zh) * | 2012-09-26 | 2014-03-26 | 中国移动通信集团公司 | 语音识别模型训练方法和装置及终端 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
CN104376850A (zh) * | 2014-11-28 | 2015-02-25 | 苏州大学 | 一种汉语耳语音的基频估计方法 |
CN105047194A (zh) * | 2015-07-28 | 2015-11-11 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
Non-Patent Citations (3)
Title |
---|
吴强: "基于听觉感知与张量模型的鲁棒语音特征提取方法研究", 《中国博士学位论文全文数据库信息科技辑》 * |
季伟等: "基于流形学习LPP算法的语音特征提取应用", 《通信技术》 * |
陈雪勤等: "蚁群聚类神经网络的耳语音声调识别", 《应用科学学报》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10937430B2 (en) | 2017-06-13 | 2021-03-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Method, apparatus and system for speaker verification |
TWI719304B (zh) * | 2017-06-13 | 2021-02-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於說話者驗證的方法、設備及系統 |
CN107633845A (zh) * | 2017-09-11 | 2018-01-26 | 清华大学 | 一种鉴别式局部信息距离保持映射的说话人确认方法 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN107808166B (zh) * | 2017-10-26 | 2020-08-11 | 杭州电子科技大学 | 一种memd张量线性拉普拉斯判别的肌电特征提取方法 |
CN107808166A (zh) * | 2017-10-26 | 2018-03-16 | 杭州电子科技大学 | 一种memd张量线性拉普拉斯判别的肌电特征提取方法 |
CN108053822A (zh) * | 2017-11-03 | 2018-05-18 | 深圳和而泰智能控制股份有限公司 | 一种语音信号处理方法、装置、终端设备及介质 |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
US11508366B2 (en) | 2018-04-12 | 2022-11-22 | Iflytek Co., Ltd. | Whispering voice recovery method, apparatus and device, and readable storage medium |
CN108520741B (zh) * | 2018-04-12 | 2021-05-04 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN108735199A (zh) * | 2018-04-17 | 2018-11-02 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN108735199B (zh) * | 2018-04-17 | 2021-05-28 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN108649961A (zh) * | 2018-05-08 | 2018-10-12 | 北京理工大学 | 一种基于边信息先验的多导联心电信号重构估计方法 |
CN108649961B (zh) * | 2018-05-08 | 2019-04-02 | 北京理工大学 | 一种基于边信息先验的多导联心电信号重构估计方法 |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
US20210042603A1 (en) * | 2018-09-04 | 2021-02-11 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, and storage medium for generating network representation for neural network |
CN109448707A (zh) * | 2018-12-18 | 2019-03-08 | 北京嘉楠捷思信息技术有限公司 | 一种语音识别方法及装置、设备、介质 |
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
CN110148428B (zh) * | 2019-05-27 | 2021-04-02 | 哈尔滨工业大学 | 一种基于子空间表示学习的声学事件识别方法 |
CN110148428A (zh) * | 2019-05-27 | 2019-08-20 | 哈尔滨工业大学 | 一种基于子空间表示学习的声学事件识别方法 |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
CN110728993A (zh) * | 2019-10-29 | 2020-01-24 | 维沃移动通信有限公司 | 一种变声识别方法及电子设备 |
CN112201227A (zh) * | 2020-09-28 | 2021-01-08 | 海尔优家智能科技(北京)有限公司 | 语音样本生成方法及装置、存储介质、电子装置 |
CN112863517A (zh) * | 2021-01-19 | 2021-05-28 | 苏州大学 | 基于感知谱收敛率的语音识别方法 |
CN112863517B (zh) * | 2021-01-19 | 2023-01-06 | 苏州大学 | 基于感知谱收敛率的语音识别方法 |
CN117437367A (zh) * | 2023-12-22 | 2024-01-23 | 天津大学 | 一种基于耳廓关联函数预警耳机滑动及动态修正方法 |
CN117437367B (zh) * | 2023-12-22 | 2024-02-23 | 天津大学 | 一种基于耳廓关联函数预警耳机滑动及动态修正方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106571135B (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106571135A (zh) | 一种耳语音特征提取方法及系统 | |
Cummins et al. | Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
Chen et al. | Speech emotion recognition: Features and classification models | |
US20200294509A1 (en) | Method and apparatus for establishing voiceprint model, computer device, and storage medium | |
Wu et al. | Audio classification using attention-augmented convolutional neural network | |
Kadi et al. | Fully automated speaker identification and intelligibility assessment in dysarthria disease using auditory knowledge | |
CN103366618A (zh) | 基于人工智能与虚拟现实用于汉语学习培训的场景设备 | |
Caponetti et al. | Biologically inspired emotion recognition from speech | |
Wand et al. | Domain-Adversarial Training for Session Independent EMG-based Speech Recognition. | |
Chen et al. | Mandarin emotion recognition combining acoustic and emotional point information | |
Joshy et al. | Dysarthria severity classification using multi-head attention and multi-task learning | |
Joshy et al. | Dysarthria severity assessment using squeeze-and-excitation networks | |
Abderrazek et al. | Interpreting deep representations of phonetic features via neuro-based concept detector: application to speech disorders due to head and neck cancer | |
CN102880906A (zh) | 一种基于diva神经网络模型的汉语元音发音方法 | |
Selouani et al. | Native and non-native class discrimination using speech rhythm-and auditory-based cues | |
Wand | Advancing electromyographic continuous speech recognition: Signal preprocessing and modeling | |
CN108447470A (zh) | 一种基于声道和韵律特征的情感语音转换方法 | |
Padmini et al. | Age-Based Automatic Voice Conversion Using Blood Relation for Voice Impaired. | |
Plummer et al. | Computing low-dimensional representations of speech from socio-auditory structures for phonetic analyses | |
Lapteva | Speaker Perception and Recognition. An Integrative Framework for Computational Speech Processing: An Integrative Framework for Computational Speech Processing | |
Safdar et al. | Prediction of Specific Language Impairment in Children using Cepstral Domain Coefficients | |
Meghraoui et al. | Features dimensionality reduction and multi-dimensional voice processing program to Parkinson disease discrimination | |
Paikrao et al. | Data Driven Neural Speech Enhancement for Smart Healthcare in Consumer Electronics Applications | |
Kadi et al. | Distinctive auditory-based cues and rhythm metrics to assess the severity level of dysarthria |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |