CN106571135B - 一种耳语音特征提取方法及系统 - Google Patents

一种耳语音特征提取方法及系统 Download PDF

Info

Publication number
CN106571135B
CN106571135B CN201610951988.9A CN201610951988A CN106571135B CN 106571135 B CN106571135 B CN 106571135B CN 201610951988 A CN201610951988 A CN 201610951988A CN 106571135 B CN106571135 B CN 106571135B
Authority
CN
China
Prior art keywords
feature
voice
sample
auditory
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610951988.9A
Other languages
English (en)
Other versions
CN106571135A (zh
Inventor
陈雪勤
赵鹤鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610951988.9A priority Critical patent/CN106571135B/zh
Publication of CN106571135A publication Critical patent/CN106571135A/zh
Application granted granted Critical
Publication of CN106571135B publication Critical patent/CN106571135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种耳语特征提取方法,其特征在于:包括以下步骤:(1)耳语音听觉谱特征表示;(2)特征降维及鲁棒性能分析;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;(3)声学模型优化;所述声学模型优化采取先被动学习,后主动学习的训练机制,提高模型的自适应性能。本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征,并通过加强特征的时序权重强化耳语音特征的可区分性。本发明通过两个目标函数在极大化不同语义的特征向量间距离的同时,同时极小化相同语义的特征向量间距离,提高特征的鲁棒性。

Description

一种耳语音特征提取方法及系统
技术领域
本发明涉及语音信号处理技术,尤其涉及一种耳语音特征提取方法及系统。
背景技术
人耳接受到语音、经过听觉机制、神经系统的处理而理解语义的过程称为语音感知,是“听到”并且“听懂”的过程。其中“听懂”是关键,“听懂”的对象包含语义、个性信息、社会信息等内容,而听懂语义是语音感知最重要也是最关键问题,语音信号处理中称为语音识别。尽管目前在实验室条件下,语音识别已经取得了比较令人满意的效果,但是在特殊发音方式、强噪声背景、语音个性多样化等比较恶劣或与实验室条件不符条件下的语音识别依然是目前语音识别研究的难点与热点,而符合听觉感知机理的语音识别是未来的发展方向。
耳语是人类特有的发音方式。当人们改变发声状态,讲话时使声带完全不振动即可发出耳语音。耳语音产生可分为主动与被动两种情况:主动耳语音的产生往往是出于某种特殊场景的需求;被动耳语音的产生通常由于发声系统疾病所致的声带结构或肌肉控制方面的改变,或者由于功能性发声障碍,或者由于医疗手术操作所致的声带变化导致耳语音的产生。尽管发音方式特殊,耳语音却可以表达正常语音所能表达的绝大部分信息,尤其是语义信息。
耳语音感知的研究涉及特征分析与提取、声学模型的建立、鲁棒性等多个关键技术。这些研究内容的发展相辅相成,互相促进。耳语音感知技术具有广阔的应用前景,其潜在的应用领域主要有:(1)用于特定场合下避免影响他人和保护隐私时的手机通讯;(2)用于国家安全部门在侦察与反侦察中身份保密与信息隐秘;(3)用于金融部门保障客户的私密信息及身份认证;(4)用于嗓音病人或发音功能障碍患者的语音辅助系统。因此,对耳语音感知技术的研究具有重要的理论意义和重大应用价值。
目前,国内外研究机构和学者们对耳语音的研究逐渐从耳语音的基础语音学研究走向面向应用的研究方向。近十年来国内外对耳语音的研究侧重于声学特征的深入研究和耳语音智能系统的研究,主要内容包括:耳语增强与转换,耳语音情感特征分析与识别,耳语音说话人识别与确认研究,适于耳语传输的麦克风,耳语音声学分析和识别研究。其中对耳语音增强以及将耳语音转换为正常语音是加速耳语音走向应用的一种方式,其出发点是耳语音转换后可以直接使用现有的语音智能系统。然而已有的研究结果显示这种方式存在一些诸如:音调信息缺失引起合成语义偏差、合成音质不理想等问题,为此,耳语音的识别正成为新的研究热点。
与正常语音识别相比,耳语音识别方面的研究尚处于起步阶段。已有的报道主要集中于耳语元音和孤立字的识别。Ito等人采用耳语音训练的HMM模型对耳语音孤立字识别,获得68%的识别率,用最大似然线性回归(MLLR)自适应训练法可改善耳语音识别率至78%,而采用正常语音训练的HMM模型对耳语音数据做MLLR自适应后,对耳语音孤立字的识别率仅为62%。Morris根据耳语音的特殊性,修正耳语音的共振峰偏移,再转换为倒谱系数,采用MLLR训练方法对英语耳语元音的识别率达到77.9%。耳语音识别正确率要低于同类别的正常语音识别正确率。主要原因在于耳语音具有一些重要特点:耳语音是气声发音,能量低,它通常比正常语音弱15-20dB;耳语音的激励源为噪声,声带不振动,因而耳语音没有基音频率;声道传输函数改变,增加了额外的零极点,导致耳语音频谱较正常语音平坦,低频段衰减大,且频谱发生偏移;耳语音相对正常语音平均时长增加,浊辅音的嗓音起始时间与正常发音有显著差异;耳语发音时更易受发音者心理及环境影响,Lombard效应较明显,语音特征变化大,随机性强。因此,耳语音识别,尤其是用于识别的耳语音特征表示,不能照搬正常语音的方式。英国剑桥大学听力神经基础研究中心Roy和日本和歌山大学Toshio等人的最新成果比较了声门脉冲率与平均共振峰频率不同变化尺度下的正常语音和耳语音单词识别性能。实验结果显示,在大部分尺度变化内,耳语音的可感知率逊于正常语音,这表明耳语音感知对特征有更高的精度要求。
耳语音虽然在诸多方面有别于正常语音,但却依然可以表达语义信息,并且由于没有基频信息,耳语音谱图结构能更加细腻地展现表达语义的时频关系。因此,从谱图的角度研究语音特征的表示尤其适合耳语音,而语音结构化特征和学习的区域性原则也与人脑的学习原理更加一致。国内外学者在听觉感知领域做了许多有益的探索,最新的研究表明:听觉感知学习过程可以归纳为:听神经的刺激、听觉图像的生成、听觉图像多尺度编码、特征包的聚合。听觉感知中的学习过程加入反馈信息则有利于对感知模型做局域优化。
在特征表达方面,因耳语音基频的缺失使频谱特征如共振峰等相关参数成为表示耳语音的关键特征,而耳语发音的共振峰带宽变宽、峰点偏移、频谱较正常发音变得更平坦,这使得共振峰相关参数的有效提取也更为困难,为此,需寻求新的特征表达;在声学模型方面,由于耳语音为非正常发音,往往受环境因素和说话人心理变化等多方面的影响,发音特征变异大,因此需要根据耳语音的特征对现有声学模型进行优化提高系统的稳健性。
发明内容
本发明目的是:解决现有技术中存在的问题,提供一种耳语特征提取方法及系统,所述耳语特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。根据这一思想,本方法的核心内容是根据耳语音的特点首先采用听觉感知谱表示耳语音的语义特征,并采用局部保距投影方式对听觉谱特征降维处理得到耳语音拓扑结构听觉感知特征。进一步针对特征对识别的声学模型(HMM)构建合适的置信度表示,并将训练阶段分解为被动训练与主动训练两个阶段,增加的主动训练阶段依据识别结果的反馈信息选择合适的样本再训练对模型局部优化。
本发明的技术方案是:
一种耳语特征提取方法,其特征在于:包括以下步骤:
(1)耳语音听觉谱特征表示;耳语音的频谱特征的整体声像结构具有可辨识性,从耳语音听觉谱中提取拓扑结构特征可以提高耳语音识别率,耳语音信号经听觉外周及听神经模型的分解转换,表征为具有不同时频特性的听觉皮层声像特征,并在此基础上,研究基于听觉谱特征的耳语音声调感知方法。
(2)特征降维及鲁棒性能分析;谱特征中时频分量间的拓扑结构是表征语义的关键,表明上述听觉谱特征含有冗余信息,去冗余不仅可以保留关键特征凸显各语音单元间区分性,而且可减小运算量;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;
(3)声学模型优化采取先被动学习,后主动学习的训练机制,声学模型在经过初始语音库的被动训练之后生成的初始模型,再由主动学习方式根据识别的反馈结果有针对性地优化模型,提高模型的自适应性能。
优选的,所述听觉特征表示根据听觉感知机理,经人耳听觉外周模型的分解、转换和传输,语音谱特征由皮层的神经元细胞群组表征;初始听觉皮层对听觉谱进行分解,估计时频包络信息;某些神经元对输入的语音在特定的中心频率会达到最大的发放率;对于给定的时间窗,语音的皮层表征是一个高阶张量的结构,它包括三个独立的维度:中心频率,尺度和相位;这里尺度描述的是每个响应区域的带宽,相位描述的是神经元反应的对称程度参数;神经生理学研究表明在听觉皮层的神经元反应被调制为局部的时频包络;利用Gabor函数我们可以获得语音信号的时频包络,我们通过将Gabor函数gu,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征Gu,v(f,t)。卷积结果Gu,v(f,t)是具有不同滤波特性的时频特征;
Gu,v(f,t)=|X(f,t)*gu,v(f,t)| (1)
其中f表示频率,t表示时间,v表示Gabor函数的尺度变化,u表示Gabor函数的相位变化。
优选的,所述耳语特征提取方法采用局部保距投影(Locality PreservingProjection,LPP)进行降维,LPP是拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法,采用近邻图来体现数据在高维空间中的结构,尤其适合于本发明中耳语音听觉皮层谱图的降维,特征降维具体研究方法和实验手段如下:
【1】LPP降维变换
拉普拉斯本征映射的近邻图中,每个节点代表高维数据空间中的一个点,近邻图中的边表示数据间的联接情况,采用给不同的边赋予不同的权值表示该点周围局部空间内数据的分布情况,构成相似矩阵;过程由三个主要步骤构成:
首先,构建近邻图,设G表示有k个节点的图,如果节点i和j之间“近邻”,即满足就在两者之间加一条边,通常意义上,“近邻”的判断可以按照距离判断,若||xi-xj||2<D即为近邻,本发明采用加权时间近邻和距离近邻相结合的判断方法,
然后,设置权重wij,对相连的节点i和j,它们边的权重是
Figure GDA0002370989980000071
否则wij=0,其中t表示节点i和j的时间距离,所有wij构成权重矩阵W;
第三,本征映射,问题可以转化为通用的本征方程求解问题:
XLXTa=λXDXTa (2)
其中,X是由向量xi构成的矩阵,D是对角矩阵,所述对角矩阵的对角线上的值等于W的列向量之和,L=D-W即为拉普拉斯矩阵,设a0,a1,…ak-1是上式的本征向量,即变换矩阵为A=(a0,a1,…ak-1),其对应本征值为λ01,…λk-1,则可得变换:
xi→yi=ATxi (3)
采用LPP作为拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射的根本目的在于原来特征空间中处于近邻关系的数据在变换后的空间中也处于近邻关系,其目标函数是
Figure GDA0002370989980000072
设a是上述拉普拉斯本征映射的一个本征向量,该最小化问题可表示为
Figure GDA0002370989980000073
采用拉格朗日乘数的方法求解并求导可得L′a=λD′a,其中L′=XTXT,D′=XDXT,该式中转换矩阵与特征维数相关,可以方便地用特征变换得到a,从而由式(3)得到降维变换特征;
下面的方法用于改善特征的可区分性和稳健性;
【2】加强特征时序性
语音数据本身具有时间高度相关特性,耳语音由于发音方式决定了说话人倾向于拖长发音时间,其时间相关性尤其明显,在选择邻域时,若加强时间轴的权重可提升耳语音特征可区分性,这基于两个假设:a)每个音素平稳缓慢变化,这符合耳语音特点;b)局部邻域时间方向权重大于空间方向权重,这一假设反映的语音时变特点。假设不同尺度、相位、频率的N幅谱图为M×P的矩阵,那么按照采样点每个矩阵可以看做是M个向量,这样来排列向量:将每一幅的
Figure GDA0002370989980000081
排列完毕后接着排
Figure GDA0002370989980000082
(上标指第几幅谱图,下标指时间点),尽量保持向量的时序性;
在传统的欧氏距离邻域判定方法的基础上,我们根据向量间的时间邻域和欧氏距离共同决定权重,由下式的β来决定不同时间距离的权重,距离越近权重越大;
Figure GDA0002370989980000083
【3】提高特征稳健性,
针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题,提出基于非语义信息抑制的局部保距投影(Non-Semantic InformationSuppression-Locality Preserving Projection,NSIS-LPP)算法;
设某数据集,同属某一语义单元的特征向量共N1个,表示为
Figure GDA0002370989980000084
属于另一个语义单元的特征向量共N2个,表示为
Figure GDA0002370989980000085
设变换前X2中有M个特征向量与X1中的特征向量近邻,联合X1及其在X2中的近邻,得到X1的关联关系包,记作
Figure GDA0002370989980000091
设经过变换后X变成
Figure GDA0002370989980000092
变换的目标是让相同语义的特征向量
Figure GDA0002370989980000093
尽量相近,目标函数一为:
Figure GDA0002370989980000094
同时,变换的另一目标是不同语义的特征向量
Figure GDA0002370989980000095
Figure GDA0002370989980000096
远,目标函数二为:
Figure GDA0002370989980000097
联合目标函数一和目标函数二,应用类似提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。
优选的,声学模型优化阶段分为被动训练与主动训练两部分,被动训练阶段由已标注的初始样本数据集训练产生声学模型,这是传统的声学模型生成方式,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,先主动后被动的有反馈的学习。
优选的,本发明根据耳语音的声学特征,研究主动学习方法中的初始样本选择、置信度计算和主动学习中数据处理等关键问题,
【1】初始样本选择,采用“母亲库”和“家庭库”结合的方式构成初始样本集;“母亲库”和“家庭库”是用于被动训练的初始样本,要求尽可能清晰、准确;上述样本手工标注后作为初始训练样本训练生成初始模型,后续的主动学习阶段则采用未标注的“社会库”,“母亲库”由一个发音者产生,发音内容包括全部有调汉语音节单字,其内容重复发音10遍;“家庭库”由5人(包括母亲)用不同情感产生,发音内容是包含所有汉语音节的连续语音;“社会库”来源尽可能多样化,覆盖尽可能多的人群、各种情感状态、各种语调,所述样本库的容量可扩大,用于主动学习中更新模型。
【2】主动学习中数据处理,假设“社会库”样本数据集为X,初始模型对X中的数据进行识别,并将样本数据集X划分成C类样本集,取出各集中置信度低的构成C类样本子集Xi,对这些子集中的样本做标注后再进行区分性训练,通过最大化类间散度
Figure GDA0002370989980000101
最小化类内散度
Figure GDA0002370989980000102
准则对模型进行训练(u和ui分别表示所有样本均值和第i类样本均值)。通过多次这样的“低置信度样本反馈—标注—训练”的迭代过程提高模型区分性和稳健性,每次投入迭代过程的“社会库”规模可变,它的原则是提供尽可能多样化的样本,目标是对含该样本类别的声学模型进行更新优化;
【3】置信度计算,置信度计算主要解决如何对未标注的“社会库”中的样本进行评价,从而选择出最具信息量的样本作标注并进行训练的问题,由于耳语音的音量极低,在语音检测中难免会有误判,本发明在置信度计算时分两个方面:一是针对语音段;二是针对非语音段;语音段的置信度计算着重考虑如何降低替代错误,我们以字为单元对声学模型的输出序列计算置信度,设Os为声学观测序列,则识别结果字序列Cs的后验概率为
Figure GDA0002370989980000103
P(Cs)是各字序列的先验语音模型得分,P(Os|Cs)是由字序列Cs生成观测值Os的声学模型得分,低得分样本即为低置信度的样本,对于低置信度样本,同时给出距离目标模型近的几个些竞争模型,在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度;
非语音段的置信度计算着重研究如何降低删除错误,分别对纯语音数据和纯静音数据得到一个语音模型Λs和静音模型Λn,设On是来自被判为非语音段的观测量,则其置信度按下式计算:
Figure GDA0002370989980000111
t表示非语音段时长。
一种耳语音特征提取系统,所述耳语音特征提取系统由三大模块组成:系统前端的语音信号处理模块,系统中心的声学模型训练与识别模块,后处理模块;耳语音特征提取系统基于听觉感知模型的耳语音特征提取和声学模型优化方法,一方面,依据人耳听觉感知机理,提取耳语音听觉感知谱特征,进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征;另一方面,设计基于被动学习和主动学习的声学模型学习方法,结合听觉谱特征,构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。
本发明的优点:
1、本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征,并通过加强特征的时序权重强化耳语音特征的可区分性。
2、本发明所述的耳语音特征提取方法提出非语义信息抑制的局部保距投影方法。通过两个目标函数在极大化不同语义的特征向量间距离的同时,同时极小化相同语义的特征向量间距离,提高特征的鲁棒性。
3、本发明所述的耳语音特征提取方法提出用于耳语音感知声学模型优化方法。提出“母亲库”、“家庭库”、“社会库”的建库方式,并根据耳语音特征提出语音段、非语音段置信度计算方法。将声学模型的训练分为初级被动训练与次级主动训练两个阶段。初级训练阶段由已标注的数据集训练生成初始模型,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,以达到降低样本标注的工作量和模型区域优化的目的。
4、本发明所述的耳语音特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。
5、本发明所述的耳语音特征提取方法提高了耳语音感知的精度,为耳语音的应用提供了应用基础和可能。
6、本发明有利于特定场合下避免影响他人和保护隐私时的手机通讯;本发明有利于国家安全部门在侦察与反侦察中身份保密与信息隐秘;有利于金融部门保障客户的私密信息及身份认证;有利于嗓音病人或发音功能障碍患者的语音辅助系统。
附图说明
图1是本发明所述的耳语音特征提取系统的框架示意图。
图2是本发明所述的耳语音特征提取方法的NSIS-LPP原理图。
具体实施方式
下面结合优选实施方式对本发明技术方案进行详细说明。
一种耳语特征提取方法,其特征在于:包括以下步骤:
(1)耳语音听觉谱特征表示;耳语音的频谱特征的整体声像结构具有可辨识性,从耳语音听觉谱中提取拓扑结构特征可以提高耳语音识别率,耳语音信号经听觉外周及听神经模型的分解转换,表征为具有不同时频特性的听觉皮层声像特征,并在此基础上,研究基于听觉谱特征的耳语音声调感知方法;
(2)特征降维及鲁棒性能分析;谱特征中时频分量间的拓扑结构是表征语义的关键,表明上述听觉谱特征含有冗余信息,去冗余不仅可以保留关键特征凸显各语音单元间区分性,而且可减小运算量;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;
(3)声学模型优化(反馈式训练),单纯的被动式训练确实可以在训练数据库足够大的条件下取得比较好的识别效果。但受语音多变性影响,训练往往面临数据量大和语音单元间区分性不强的问题。采取先被动学习,后主动学习的训练机制,声学模型在经过初始语音库的被动训练之后生成的初始模型,再由主动学习方式根据识别的反馈结果有针对性地优化模型,提高模型的自适应性能。
优选的,所述听觉特征表示根据听觉感知机理,经人耳听觉外周模型的分解、转换和传输,语音谱特征由皮层的神经元细胞群组表征;初始听觉皮层对听觉谱进行分解,估计时频包络信息;某些神经元对输入的语音在特定的中心频率会达到最大的发放率;对于给定的时间窗,语音的皮层表征是一个高阶张量的结构,它包括三个独立的维度:中心频率,尺度和相位;这里尺度描述的是每个响应区域的带宽,相位描述的是神经元反应的对称程度参数;神经生理学研究表明在听觉皮层的神经元反应被调制为局部的时频包络;利用Gabor函数我们可以获得语音信号的时频包络,我们通过将Gabor函数gu,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征Gu,v(f,t)。卷积结果Gu,v(f,t)是具有不同滤波特性的时频特征;
Gu,v(f,t)=|X(f,t)*gu,v(f,t)| (1)
其中f表示频率,t表示时间,v表示Gabor函数的尺度变化,u表示Gabor函数的相位变化。基于Gabor的皮层特征可以看成是初始听觉皮层的神经元响应结果。本文采用Gu,v(f,t)作为语音信号的听觉谱特征。与传统语谱图相比,该听觉特征能反映出更丰富的语音频率特性。但高辨识度同时意味着特征过于敏感易造成鲁棒性差的问题。由于Gu,v(f,t)是多维高阶矩阵,且具有一定量冗余信息,为此可进一步对该特征进行降维表示。本发明所述的耳语音特征提取方法提出非语义信息抑制的局部保距投影方法。通过两个目标函数在极大化不同语义的特征向量间距离的同时,同时极小化相同语义的特征向量间距离,提高特征的鲁棒性。
优选的,所述耳语特征提取方法采用局部保距投影(Locality PreservingProjection,LPP)进行降维,LPP是拉普拉斯本征映射的线性实现形式,拉普拉斯本征映射在日语的元音识别中已有成功应用。由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法,采用近邻图来体现数据在高维空间中的结构,尤其适合于本发明中耳语音听觉皮层谱图的降维,特征降维具体研究方法和实验手段如下:
【1】LPP降维变换
拉普拉斯本征映射的近邻图中,每个节点代表高维数据空间中的一个点,近邻图中的边表示数据间的联接情况,采用给不同的边赋予不同的权值表示该点周围局部空间内数据的分布情况,构成相似矩阵;该过程由三个主要步骤构成:
首先,构建近邻图,设G表示有k个节点的图,如果节点i和j之间“近邻”,即满足就在两者之间加一条边,通常意义上,“近邻”的判断可以按照距离判断,若||xi-xj||2<D即为近邻,本发明采用加权时间近邻和距离近邻相结合的判断方法,具体论述见②加强特征时序性部分;
然后,设置权重wij,对相连的节点i和j,它们边的权重是
Figure GDA0002370989980000151
否则wij=0,其中t表示节点i和j的时间距离,所有wij构成权重矩阵W;
第三,本征映射,该问题可以转化为通用的本征方程求解问题:
XLXTa=λXDXTa (2)
其中,X是由向量xi构成的矩阵,D是对角矩阵,所述对角矩阵的对角线上的值等于W的列向量之和,L=D-W即为拉普拉斯矩阵,设a0,a1,…ak-1是上式的本征向量,即变换矩阵为A=(a0,a1,…ak-1),其对应本征值为λ01,…λk-1,则可得变换:
xi→yi=ATxi (3)
实际应用中一般采用LPP作为拉普拉斯本征映射的线性实现形式,由于拉普拉斯本征映射的根本目的在于原来特征空间中处于近邻关系的数据在变换后的空间中也处于近邻关系,其目标函数是
Figure GDA0002370989980000161
设a是上述拉普拉斯本征映射的一个本征向量,该最小化问题可表示为
Figure GDA0002370989980000162
采用拉格朗日乘数的方法求解并求导可得L′a=λD′a,其中L′=XTXT,D′=XDXT,该式中转换矩阵与特征维数相关,可以方便地用特征变换得到a,从而由式(3)得到降维变换特征;
在耳语音识别系统中,特征的可区分性和稳健性是衡量特征的两个重要指标。可区分度主要指各语音识别单元对应特征的拓扑结构的差异性,稳健性主要指相同语音识别单元在不同说话人、不同情感状态下的特征相似性。下面的方法用于改善特征的可区分性和稳健性;
【2】加强特征时序性
语音数据本身具有时间高度相关特性,耳语音由于发音方式决定了说话人倾向于拖长发音时间,其时间相关性尤其明显,在选择邻域时,若加强时间轴的权重可提升耳语音特征可区分性,这基于两个假设:a)每个音素平稳缓慢变化,这符合耳语音特点;b)局部邻域时间方向权重大于空间方向权重,这一假设反映的语音时变特点。假设不同尺度、相位、频率的N幅谱图为M×P的矩阵,那么按照采样点每个矩阵可以看做是M个向量,这样来排列向量:将每一幅的
Figure GDA0002370989980000171
排列完毕后接着排
Figure GDA0002370989980000172
(上标指第几幅谱图,下标指时间点),尽量保持向量的时序性;
在传统的欧氏距离邻域判定方法的基础上,我们根据向量间的时间邻域和欧氏距离共同决定权重,由下式的β来决定不同时间距离的权重,距离越近权重越大;
Figure GDA0002370989980000173
【3】提高特征稳健性,
在耳语音识别系统中,特征的稳健性是提高系统性能的重要保障,针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题,提出基于非语义信息抑制的局部保距投影(Non-Semantic Information Suppression-LocalityPreserving Projection,NSIS-LPP)算法;其基本原理如图2所示。
图2中不同颜色的立方体表示不同说话人或不同情感时的某一语义特征,不同颜色的三角形表示不同说话人或不同情感时的另一语义特征。在语义的差异性和说话人或情感等个性特征的相似性共同作用下,不同语义的特征之间可能会产生混淆。本文的目的是使同一语义的特征间的距离尽量缩小,同时使不同语义的处于近邻关系的特征距离更远。
设某数据集,同属某一语义单元的特征向量共N1个,表示为
Figure GDA0002370989980000181
属于另一个语义单元的特征向量共N2个,表示为
Figure GDA0002370989980000182
设变换前X2中有M个特征向量与X1中的特征向量近邻,联合X1及其在X2中的近邻,得到X1的关联关系包,记作
Figure GDA0002370989980000183
设经过变换后X变成
Figure GDA0002370989980000184
变换的目标是让相同语义的特征向量
Figure GDA0002370989980000185
尽量相近,目标函数一为:
Figure GDA0002370989980000186
同时,变换的另一目标是不同语义的特征向量
Figure GDA0002370989980000187
Figure GDA0002370989980000188
尽量远,目标函数二为:
Figure GDA0002370989980000189
联合目标函数一和目标函数二,应用类似提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。
优选的,特征的有效性不仅决定于特征提取方法,同时依赖于声学模型对特征的表达。声学模型优化阶段,声学模型的训练阶段分为被动训练与主动训练两部分,被动训练阶段由已标注的初始样本数据集训练产生声学模型,这是传统的声学模型生成方式,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,先主动后被动的有反馈的学习。这样一种先主动后被动的有反馈的学习过程不仅降低了样本标注的工作量,而且可以改善声学模型的稳健性。本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征,并通过加强特征的时序权重强化耳语音特征的可区分性。
优选的,本发明根据耳语音的声学特征,研究主动学习方法中的初始样本选择、置信度计算和主动学习中数据处理等关键问题,
【1】初始样本选择,传统的主动学习方法中,初始样本集合是由未标注样本集中随机产生一定数量的样本进行标注后组成的,但这种方式存在风险。初始样本应兼顾数据的准确、覆盖均衡、充分等方面,以使声学模型在初始训练后尽可能准确地表达特征数据。为此,我们采用“母亲库”和“家庭库”结合的方式构成初始样本集;“母亲库”和“家庭库”是用于被动训练的初始样本,要求尽可能清晰、准确;上述样本手工标注后作为初始训练样本训练生成初始模型,后续的主动学习阶段则采用未标注的“社会库”,“母亲库”由一个发音者产生,发音内容包括全部有调汉语音节单字,其内容重复发音10遍;“家庭库”由5人(包括母亲)用不同情感产生,发音内容是包含所有汉语音节的连续语音;“社会库”来源尽可能多样化,覆盖尽可能多的人群、各种情感状态、各种语调,所述样本库的容量可扩大,用于主动学习中更新模型。本发明所述的耳语音特征提取方法提出用于耳语音感知声学模型优化方法。提出“母亲库”、“家庭库”、“社会库”的建库方式,并根据耳语音特征提出语音段、非语音段置信度计算方法。将声学模型的训练分为初级被动训练与次级主动训练两个阶段。初级训练阶段由已标注的数据集训练生成初始模型,进一步的主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,以达到降低样本标注的工作量和模型区域优化的目的。
【2】主动学习中数据处理,假设“社会库”样本数据集为X,初始模型对X中的数据进行识别,并将样本数据集X划分成C类样本集,取出各集中置信度低的构成C类样本子集Xi,对这些子集中的样本做标注后再进行区分性训练,通过最大化类间散度
Figure GDA0002370989980000201
最小化类内散度
Figure GDA0002370989980000202
准则对模型进行训练(u和ui分别表示所有样本均值和第i类样本均值)。通过多次这样的“低置信度样本反馈—标注—训练”的迭代过程提高模型区分性和稳健性,每次投入迭代过程的“社会库”规模可变,它的原则是提供尽可能多样化的样本,目标是对含该样本类别的声学模型进行更新优化;
【3】置信度计算,置信度在有反馈的主动学习型系统中是一个关键问题。置信度计算主要解决如何对未标注的“社会库”中的样本进行评价,从而选择出最具信息量的样本作标注并进行训练的问题。由于耳语音的音量极低,在语音检测中难免会有误判,本项目在置信度计算时分两个方面:一是针对语音段;二是针对非语音段;语音段的置信度计算着重考虑如何降低替代错误,我们以字为单元对声学模型的输出序列计算置信度,设Os为声学观测序列,则识别结果字序列Cs的后验概率为
Figure GDA0002370989980000203
P(Cs)是各字序列的先验语音模型得分,P(Os|Cs)是由字序列Cs生成观测值Os的声学模型得分,低得分样本即为低置信度的样本,对于低置信度样本,同时给出距离目标模型近的几个些竞争模型,在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度;
非语音段的置信度计算着重研究如何降低删除错误,分别对纯语音数据和纯静音数据得到一个语音模型Λs和静音模型Λn,设On是来自被判为非语音段的观测量,则其置信度按下式计算:
Figure GDA0002370989980000211
t表示非语音段时长。
一种耳语音特征提取系统,所述耳语音特征提取系统由三大模块组成:系统前端的语音信号处理模块,系统中心的声学模型训练与识别模块,后处理模块;由于耳语特殊的发音方式,系统的声学处理模块和声学模型模块与正常语音相比有其特殊性,而大大增加了难度。本项目着眼于基于听觉感知模型的耳语音特征提取和声学模型优化方法。一方面,依据人耳听觉感知机理,提取耳语音听觉感知谱特征,进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征;另一方面,设计基于被动学习和主动学习的声学模型学习方法,结合听觉谱特征,构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。
本发明所述的耳语音特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。本发明所述的耳语音特征提取方法提高了耳语音感知的精度,为耳语音的应用提供了应用基础和可能。本发明有利于特定场合下避免影响他人和保护隐私时的手机通讯;本发明有利于国家安全部门在侦察与反侦察中身份保密与信息隐秘;有利于金融部门保障客户的私密信息及身份认证;有利于嗓音病人或发音功能障碍患者的语音辅助系统。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

Claims (5)

1.一种耳语特征提取方法,其特征在于:包括以下步骤:
第一步,耳语音听觉谱特征表示;耳语音信号经听觉外周及听神经模型的分解转换,表征为具有不同时频特性的听觉皮层声像特征,耳语音的频谱特征的整体声像结构具有可辨识性,从耳语音听觉谱中提取拓扑结构特征;第二步,特征降维及鲁棒性能分析;所述特征降维及鲁棒性能分析包括三个内容:(a)从高维的听觉谱中提取低维的拓扑结构特征;(b)拓扑结构特征时序性分析;(c)拓扑结构特征稳定性分析;
第三步,声学模型优化;所述声学模型优化采取先被动学习,后主动学习的训练机制,声学模型在经过初始语音库的被动训练之后生成的初始模型,再由主动学习方式根据识别的反馈结果有针对性地优化模型,提高模型的自适应性能;所述耳语特征提取方法采用局部保距投影进行降维,特征降维及鲁棒性能分析采取如下步骤:
【1】LPP降维变换
拉普拉斯本征映射的近邻图中,每个节点代表高维数据空间中的一个点,近邻图中的边表示数据间的联接情况,采用给不同的边赋予不同的权值表示该点周围局部空间内数据的分布情况,构成相似矩阵;这个过程由三个主要步骤构成:
首先,采用加权时间近邻和距离近邻相结合的判断方法构建近邻图,设G表示有k个节点的图,如果节点i和j之间“近邻”,即满足就在两者之间加一条边,“近邻”的判断按照距离判断,若||xi-xj||2<D即为近邻,X是由向量xi构成的矩阵,D是对角矩阵,然后,设置权重wij,对相连的节点i和j,它们边的权重是
Figure FDA0002441519370000021
否则wij=0,其中t表示节点i和j的时间距离,所有wij构成权重矩阵W;
第三,本征映射,这个问题能够转化为通用的本征方程求解问题:
XLXTa=λXDXTa (2)
其中,X是由向量xi构成的矩阵,D是对角矩阵,所述对角矩阵的对角线上的值等于W的列向量之和,L=D-W即为拉普拉斯矩阵,设a0,a1,…ak-1是上式的本征向量,a是上述拉普拉斯本征映射的一个本征向量,即变换矩阵为a=(a0,a1,…ak-1),其对应本征值为λ01,…λk-1,则可得变换:
xi→yi=ATxi (3)
y为特征向量,
采用LPP作为拉普拉斯本征映射的线性实现形式,其目标函数是
Figure FDA0002441519370000022
设a是上述拉普拉斯本征映射的一个本征向量,最小化问题可表示为
Figure FDA0002441519370000023
采用拉格朗日乘数的方法求解并求导可得L′a=λD′a,其中L′=XTXT,D′=XDXT,该式中转换矩阵与特征维数相关,能够用特征变换得到a,从而由式(3)得到降维变换特征;
【2】加强特征时序性
在选择邻域时,加强时间轴的权重提升耳语音特征可区分性,假设不同尺度、相位、频率的N幅谱图为M×P的矩阵,那么按照采样点每个矩阵能够看做是M个向量,这样来排列向量:将每一幅的
Figure FDA0002441519370000031
排列完毕后接着排
Figure FDA0002441519370000032
上标指第几幅谱图,下标指时间点,保持向量的时序性;
在传统的欧氏距离邻域判定方法的基础上,根据向量间的时间邻域和欧氏距离共同决定权重,由下式的β来决定不同时间距离的权重,距离越近权重越大;
Figure FDA0002441519370000033
【3】提高特征稳健性,
采用基于非语义信息抑制的局部保距投影算法提高特征稳健性;
设某数据集,同属某一语义单元的特征向量共N1个,表示为
Figure FDA0002441519370000034
属于另一个语义单元的特征向量共N2个,表示为
Figure FDA0002441519370000035
设变换前X2中有M个特征向量与X1中的特征向量近邻,联合X1及其在X2中的近邻,得到X1的关联关系包,记作
Figure FDA0002441519370000036
设经过变换后X变成
Figure FDA0002441519370000037
变换的目标是让相同语义的特征向量
Figure FDA0002441519370000038
相近,目标函数一为:
Figure FDA0002441519370000039
同时,变换的另一目标是不同语义的特征向量
Figure FDA00024415193700000310
Figure FDA00024415193700000311
远,目标函数二为:
Figure FDA00024415193700000312
联合目标函数一和目标函数二,应用提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。
2.根据权利要求1所述的耳语特征提取方法,其特征在于:提取所述听觉特征包括:利用Gabor函数获得语音信号的时频包络,通过将Gabor函数gu,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征Gu,v(f,t);卷积结果Gu,v(f,t)是具有不同滤波特性的时频特征;
Gu,v(f,t)=|X(f,t)*gu,v(f,t)| (1)
其中f表示频率,t表示时间,v表示Gabor函数的尺度变化,u表示Gabor函数的相位变化。
3.根据权利要求1所述的耳语特征提取方法,其特征在于:声学模型优化阶段,声学模型的训练阶段分为被动训练与主动训练两部分,被动训练阶段由已标注的初始样本数据集训练产生声学模型,主动训练阶段则是对未标注的样本数据集进行识别,计算置信度,将置信度低的样本反馈作标注后再重新训练,先主动后被动的有反馈的学习。
4.根据权利要求3所述的耳语特征提取方法,其特征在于:声学模型优化具体包括以下步骤:
第一步,初始样本选择,采用“母亲库”和“家庭库”结合的方式构成初始样本集;“母亲库”和“家庭库”是用于被动训练的初始样本,要求清晰、准确;样本手工标注后作为初始训练样本训练生成初始模型,后续的主动学习阶段则采用未标注的“社会库”,“母亲库”由一个发音者产生,发音内容包括全部有调汉语音节单字,其内容重复发音10遍;“家庭库”由5人用不同情感产生,发音内容是包含所有汉语音节的连续语音;“社会库”来源多样化,覆盖尽可能多的人群、各种情感状态、各种语调,样本库的容量可扩大,用于主动学习中更新模型;
第二步,主动学习中的数据处理,假设“社会库”样本数据集为X,初始模型对X中的数据进行识别,并将样本数据集X划分成C类样本集,取出各集中置信度低的构成C类样本子集Xi,对这些子集中的样本做标注后再进行区分性训练,通过最大化类间散度
Figure FDA0002441519370000051
最小化类内散度
Figure FDA0002441519370000052
准则对模型进行训练,u和ui分别表示所有样本均值和第i类样本均值;通过多次这样的“低置信度样本反馈—标注—训练”的迭代过程提高模型区分性和稳健性,每次投入迭代过程的“社会库”规模可变,它的原则是提供尽可能多样化的样本,目标是对含该样本类别的声学模型进行更新优化;
第三步,置信度计算,在置信度计算时分两个方面:一是针对语音段;二是针对非语音段;语音段的置信度计算着重考虑如何降低替代错误,以字为单元对声学模型的输出序列计算置信度,设Os为声学观测序列,则识别结果字序列Cs的后验概率为
Figure FDA0002441519370000053
P(Cs)是各字序列的先验语音模型得分,P(Os|Cs)是由字序列Cs生成观测值Os的声学模型得分,低得分样本即为低置信度的样本,对于低置信度样本,同时给出距离目标模型近的竞争模型,在下一次迭代训练时提供合适的“社会库”以加大模型之间的散度;
非语音段的置信度计算着重研究如何降低删除错误,分别对纯语音数据和纯静音数据得到一个语音模型Λs和静音模型Λn,设On是来自被判为非语音段的观测量,则其置信度按下式计算:
Figure FDA0002441519370000061
t表示非语音段时长。
5.一种耳语音特征提取系统,其特征在于:所述耳语音特征提取系统使用中采用权利要求1-4任一项所述的耳语特征提取方法,所述耳语音特征提取系统由三大模块组成:系统前端的语音信号处理模块,系统中心的声学模型训练与识别模块,后处理模块;耳语音特征提取系统基于听觉感知模型的耳语音特征提取和声学模型优化方法,一方面,依据人耳听觉感知机理,提取耳语音听觉感知谱特征,进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征;另一方面,设计基于被动学习和主动学习的声学模型学习方法,结合听觉谱特征,构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。
CN201610951988.9A 2016-10-27 2016-10-27 一种耳语音特征提取方法及系统 Active CN106571135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610951988.9A CN106571135B (zh) 2016-10-27 2016-10-27 一种耳语音特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610951988.9A CN106571135B (zh) 2016-10-27 2016-10-27 一种耳语音特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN106571135A CN106571135A (zh) 2017-04-19
CN106571135B true CN106571135B (zh) 2020-06-09

Family

ID=58535256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610951988.9A Active CN106571135B (zh) 2016-10-27 2016-10-27 一种耳语音特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN106571135B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520741A (zh) * 2018-04-12 2018-09-11 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
US11875220B2 (en) * 2018-09-04 2024-01-16 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for generating network representation for neural network

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3706118B1 (en) * 2017-06-13 2023-05-31 Beijing Didi Infinity Technology and Development Co., Ltd. Method and system for speaker verification
CN107633845A (zh) * 2017-09-11 2018-01-26 清华大学 一种鉴别式局部信息距离保持映射的说话人确认方法
CN107808661B (zh) * 2017-10-23 2020-12-11 中央民族大学 一种基于协作式批量主动学习的藏语语音语料标注方法及系统
CN107808166B (zh) * 2017-10-26 2020-08-11 杭州电子科技大学 一种memd张量线性拉普拉斯判别的肌电特征提取方法
CN108053822B (zh) * 2017-11-03 2021-01-15 深圳和而泰智能控制股份有限公司 一种语音信号处理方法、装置、终端设备及介质
CN108735199B (zh) * 2018-04-17 2021-05-28 北京声智科技有限公司 一种声学模型的自适应训练方法及系统
CN108649961B (zh) * 2018-05-08 2019-04-02 北京理工大学 一种基于边信息先验的多导联心电信号重构估计方法
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
CN109448707A (zh) * 2018-12-18 2019-03-08 北京嘉楠捷思信息技术有限公司 一种语音识别方法及装置、设备、介质
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
CN110148428B (zh) * 2019-05-27 2021-04-02 哈尔滨工业大学 一种基于子空间表示学习的声学事件识别方法
CN110211574B (zh) * 2019-06-03 2022-03-11 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110728993A (zh) * 2019-10-29 2020-01-24 维沃移动通信有限公司 一种变声识别方法及电子设备
CN112201227A (zh) * 2020-09-28 2021-01-08 海尔优家智能科技(北京)有限公司 语音样本生成方法及装置、存储介质、电子装置
CN112863517B (zh) * 2021-01-19 2023-01-06 苏州大学 基于感知谱收敛率的语音识别方法
CN117437367B (zh) * 2023-12-22 2024-02-23 天津大学 一种基于耳廓关联函数预警耳机滑动及动态修正方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114355A (ja) * 2005-10-19 2007-05-10 Univ Of Tokyo 音声合成方法及び装置
CN102737643A (zh) * 2011-04-14 2012-10-17 东南大学 一种基于Gabor时频分析的耳语增强方法
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN103680495A (zh) * 2012-09-26 2014-03-26 中国移动通信集团公司 语音识别模型训练方法和装置及终端
CN104376850A (zh) * 2014-11-28 2015-02-25 苏州大学 一种汉语耳语音的基频估计方法
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114355A (ja) * 2005-10-19 2007-05-10 Univ Of Tokyo 音声合成方法及び装置
CN102737643A (zh) * 2011-04-14 2012-10-17 东南大学 一种基于Gabor时频分析的耳语增强方法
CN103680495A (zh) * 2012-09-26 2014-03-26 中国移动通信集团公司 语音识别模型训练方法和装置及终端
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN104376850A (zh) * 2014-11-28 2015-02-25 苏州大学 一种汉语耳语音的基频估计方法
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于听觉感知与张量模型的鲁棒语音特征提取方法研究;吴强;《中国博士学位论文全文数据库信息科技辑》;20110715;第45-47页 *
基于流形学习LPP算法的语音特征提取应用;季伟等;《通信技术》;20131231;第46卷(第12期);第15-18页 *
蚁群聚类神经网络的耳语音声调识别;陈雪勤等;《应用科学学报》;20081231;第26卷(第5期);第511-515页 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520741A (zh) * 2018-04-12 2018-09-11 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN108520741B (zh) * 2018-04-12 2021-05-04 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
US11875220B2 (en) * 2018-09-04 2024-01-16 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for generating network representation for neural network

Also Published As

Publication number Publication date
CN106571135A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106571135B (zh) 一种耳语音特征提取方法及系统
CN103928023B (zh) 一种语音评分方法及系统
US11322155B2 (en) Method and apparatus for establishing voiceprint model, computer device, and storage medium
Schultz et al. Modeling coarticulation in EMG-based continuous speech recognition
Schuller et al. Emotion recognition in the noise applying large acoustic feature sets
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN108172218A (zh) 一种语音建模方法及装置
Wand et al. Domain-Adversarial Training for Session Independent EMG-based Speech Recognition.
Wand et al. Deep neural network frontend for continuous emg-based speech recognition.
Carney et al. Nonlinear auditory models yield new insights into representations of vowels
CN102880906B (zh) 一种基于diva神经网络模型的汉语元音发音方法
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
Liu et al. Exploring a unified attention-based pooling framework for speaker verification
Zhou et al. Improved phoneme-based myoelectric speech recognition
Wand Advancing electromyographic continuous speech recognition: Signal preprocessing and modeling
Zezario et al. Speech enhancement with zero-shot model selection
Ekpenyong et al. Unsupervised mining of under-resourced speech corpora for tone features classification
CN113724687A (zh) 基于脑电信号的语音生成方法、装置、终端及存储介质
Xiwen et al. Speaker recognition system with limited data based on LightGBM and fusion features
Hamza et al. Representations of fricatives in subcortical model responses: Comparisons with human consonant perception
Musaev et al. Advanced feature extraction method for speaker identification using a classification algorithm
Mehrabani et al. Dimensionality analysis of singing speech based on locality preserving projections.
Jeyalakshmi et al. Transcribing deaf and hard of hearing speech using Hidden markov model
Fukuda et al. Convolutional neural network pre-trained with projection matrices on linear discriminant analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant