CN106571135A

CN106571135A - 一种耳语音特征提取方法及系统

Info

Publication number: CN106571135A
Application number: CN201610951988.9A
Authority: CN
Inventors: 陈雪勤; 赵鹤鸣
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-04-19
Anticipated expiration: 2036-10-27
Also published as: CN106571135B

Abstract

本发明公开了一种耳语特征提取方法，其特征在于：包括以下步骤：(1)耳语音听觉谱特征表示；(2)特征降维及鲁棒性能分析；所述特征降维及鲁棒性能分析包括三个内容：(a)从高维的听觉谱中提取低维的拓扑结构特征；(b)拓扑结构特征时序性分析；(c)拓扑结构特征稳定性分析；(3)声学模型优化；所述声学模型优化采取先被动学习，后主动学习的训练机制，提高模型的自适应性能。本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征，并通过加强特征的时序权重强化耳语音特征的可区分性。本发明通过两个目标函数在极大化不同语义的特征向量间距离的同时，同时极小化相同语义的特征向量间距离，提高特征的鲁棒性。

Description

一种耳语音特征提取方法及系统

技术领域

本发明涉及语音信号处理技术，尤其涉及一种耳语音特征提取方法及系统。

背景技术

人耳接受到语音、经过听觉机制、神经系统的处理而理解语义的过程称为语音感知，是“听到”并且“听懂”的过程。其中“听懂”是关键，“听懂”的对象包含语义、个性信息、社会信息等内容，而听懂语义是语音感知最重要也是最关键问题，语音信号处理中称为语音识别。尽管目前在实验室条件下，语音识别已经取得了比较令人满意的效果，但是在特殊发音方式、强噪声背景、语音个性多样化等比较恶劣或与实验室条件不符条件下的语音识别依然是目前语音识别研究的难点与热点，而符合听觉感知机理的语音识别是未来的发展方向。

耳语是人类特有的发音方式。当人们改变发声状态，讲话时使声带完全不振动即可发出耳语音。耳语音产生可分为主动与被动两种情况：主动耳语音的产生往往是出于某种特殊场景的需求；被动耳语音的产生通常由于发声系统疾病所致的声带结构或肌肉控制方面的改变，或者由于功能性发声障碍，或者由于医疗手术操作所致的声带变化导致耳语音的产生。尽管发音方式特殊，耳语音却可以表达正常语音所能表达的绝大部分信息，尤其是语义信息。

耳语音感知的研究涉及特征分析与提取、声学模型的建立、鲁棒性等多个关键技术。这些研究内容的发展相辅相成，互相促进。耳语音感知技术具有广阔的应用前景，其潜在的应用领域主要有：(1)用于特定场合下避免影响他人和保护隐私时的手机通讯；(2)用于国家安全部门在侦察与反侦察中身份保密与信息隐秘；(3)用于金融部门保障客户的私密信息及身份认证；(4)用于嗓音病人或发音功能障碍患者的语音辅助系统。因此，对耳语音感知技术的研究具有重要的理论意义和重大应用价值。

目前，国内外研究机构和学者们对耳语音的研究逐渐从耳语音的基础语音学研究走向面向应用的研究方向。近十年来国内外对耳语音的研究侧重于声学特征的深入研究和耳语音智能系统的研究，主要内容包括：耳语增强与转换，耳语音情感特征分析与识别，耳语音说话人识别与确认研究,适于耳语传输的麦克风，耳语音声学分析和识别研究。其中对耳语音增强以及将耳语音转换为正常语音是加速耳语音走向应用的一种方式，其出发点是耳语音转换后可以直接使用现有的语音智能系统。然而已有的研究结果显示这种方式存在一些诸如：音调信息缺失引起合成语义偏差、合成音质不理想等问题，为此，耳语音的识别正成为新的研究热点。

与正常语音识别相比，耳语音识别方面的研究尚处于起步阶段。已有的报道主要集中于耳语元音和孤立字的识别。Ito等人采用耳语音训练的HMM模型对耳语音孤立字识别，获得68％的识别率，用最大似然线性回归(MLLR)自适应训练法可改善耳语音识别率至78％，而采用正常语音训练的HMM模型对耳语音数据做MLLR自适应后，对耳语音孤立字的识别率仅为62％。Morris根据耳语音的特殊性，修正耳语音的共振峰偏移，再转换为倒谱系数，采用MLLR训练方法对英语耳语元音的识别率达到77.9％。耳语音识别正确率要低于同类别的正常语音识别正确率。主要原因在于耳语音具有一些重要特点：耳语音是气声发音，能量低，它通常比正常语音弱15-20dB；耳语音的激励源为噪声，声带不振动，因而耳语音没有基音频率；声道传输函数改变，增加了额外的零极点，导致耳语音频谱较正常语音平坦，低频段衰减大，且频谱发生偏移；耳语音相对正常语音平均时长增加，浊辅音的嗓音起始时间与正常发音有显著差异；耳语发音时更易受发音者心理及环境影响，Lombard效应较明显，语音特征变化大，随机性强。因此，耳语音识别，尤其是用于识别的耳语音特征表示，不能照搬正常语音的方式。英国剑桥大学听力神经基础研究中心Roy和日本和歌山大学Toshio等人的最新成果比较了声门脉冲率与平均共振峰频率不同变化尺度下的正常语音和耳语音单词识别性能。实验结果显示，在大部分尺度变化内，耳语音的可感知率逊于正常语音，这表明耳语音感知对特征有更高的精度要求。

耳语音虽然在诸多方面有别于正常语音，但却依然可以表达语义信息，并且由于没有基频信息，耳语音谱图结构能更加细腻地展现表达语义的时频关系。因此，从谱图的角度研究语音特征的表示尤其适合耳语音，而语音结构化特征和学习的区域性原则也与人脑的学习原理更加一致。国内外学者在听觉感知领域做了许多有益的探索，最新的研究表明：听觉感知学习过程可以归纳为：听神经的刺激、听觉图像的生成、听觉图像多尺度编码、特征包的聚合。听觉感知中的学习过程加入反馈信息则有利于对感知模型做局域优化。

在特征表达方面，因耳语音基频的缺失使频谱特征如共振峰等相关参数成为表示耳语音的关键特征，而耳语发音的共振峰带宽变宽、峰点偏移、频谱较正常发音变得更平坦，这使得共振峰相关参数的有效提取也更为困难，为此，需寻求新的特征表达；在声学模型方面，由于耳语音为非正常发音，往往受环境因素和说话人心理变化等多方面的影响，发音特征变异大，因此需要根据耳语音的特征对现有声学模型进行优化提高系统的稳健性。

发明内容

本发明目的是：解决现有技术中存在的问题，提供一种耳语特征提取方法及系统，所述耳语特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。根据这一思想，本方法的核心内容是根据耳语音的特点首先采用听觉感知谱表示耳语音的语义特征，并采用局部保距投影方式对听觉谱特征降维处理得到耳语音拓扑结构听觉感知特征。进一步针对特征对识别的声学模型(HMM)构建合适的置信度表示，并将训练阶段分解为被动训练与主动训练两个阶段，增加的主动训练阶段依据识别结果的反馈信息选择合适的语料再训练对模型局部优化。

本发明的技术方案是：

一种耳语特征提取方法，其特征在于：包括以下步骤：

(1)耳语音听觉谱特征表示；耳语音的频谱特征的整体声像结构具有可辨识性，从耳语音听觉谱中提取拓扑结构特征可以提高耳语音识别率，耳语音信号经听觉外周及听神经模型的分解转换，表征为具有不同时频特性的听觉皮层声像特征，并在此基础上，研究基于听觉谱特征的耳语音声调感知方法。

(2)特征降维及鲁棒性能分析；谱特征中时频分量间的拓扑结构是表征语义的关键，表明上述听觉谱特征含有冗余信息，去冗余不仅可以保留关键特征凸显各语音单元间区分性，而且可减小运算量；所述特征降维及鲁棒性能分析包括三个内容：(a)从高维的听觉谱中提取低维的拓扑结构特征；(b)拓扑结构特征时序性分析；(c)拓扑结构特征稳定性分析；

(3)声学模型优化采取先被动学习，后主动学习的训练机制，声学模型在经过初始语音库的被动训练之后生成的初始模型，再由主动学习方式根据识别的反馈结果有针对性地优化模型，提高模型的自适应性能。

优选的，所述听觉特征表示根据听觉感知机理，经人耳听觉外周模型的分解、转换和传输，语音谱特征由皮层的神经元细胞群组表征；初始听觉皮层对听觉谱进行分解，估计时频包络信息；某些神经元对输入的语音在特定的中心频率会达到最大的发放率；对于给定的时间窗，语音的皮层表征是一个高阶张量的结构，它包括三个独立的维度：中心频率，尺度和相位；这里尺度描述的是每个响应区域的带宽，相位描述的是神经元反应的对称程度参数；神经生理学研究表明在听觉皮层的神经元反应被调制为局部的时频包络；利用Gabor函数我们可以获得语音信号的时频包络，我们通过将Gabor函数g_u,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征G_u,v(f,t)。卷积结果G_u,v(f,t)是具有不同滤波特性的时频特征；

G_u,v(f,t)＝|X(f,t)*g_u,v(f,t)| (1)

其中f表示频率，t表示时间，v表示Gabor函数的尺度变化，u表示Gabor函数的朝向变化。

优选的，所述耳语特征提取方法采用局部保距投影(Locality PreservingProjection,LPP)进行降维，LPP是拉普拉斯本征映射的线性实现形式，由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法，采用近邻图来体现数据在高维空间中的结构，尤其适合于本发明中耳语音听觉皮层谱图的降维，特征降维具体研究方法和实验手段如下：

【1】LPP降维变换

拉普拉斯本征映射的近邻图中，每个节点代表高维数据空间中的一个点，近邻图中的边表示数据间的联接情况，采用给不同的边赋予不同的权值表示该点周围局部空间内数据的分布情况，构成相似矩阵；该过程由三个主要步骤构成：

首先，构建近邻图，设G表示有k个节点的图，如果节点i和j之间“近邻”，即满足就在两者之间加一条边，通常意义上，“近邻”的判断可以按照距离判断，若||x_i-x_j||²<D即为近邻，本发明采用加权时间近邻和距离近邻相结合的判断方法，

然后，设置权重w_ij，对相连的节点i和j，它们边的权重是否则w_ij＝0，其中t表示节点i和j的时间距离，所有w_ij构成权重矩阵W；

第三，本征映射，该问题可以转化为通用的本征方程求解问题：

XLX^Ta＝λXDX^Ta (2)

其中，X是由量x_i构成的矩阵，D是对角矩阵，所述对角矩阵的对角线上的值等于W的列向量之和，L＝D-W即为拉普拉斯矩阵，设a₀,a₁,…a_k-1是上式的本征向量，即变换矩阵为A＝(a₀,a₁,…a_k-1)，其对应本征值为λ₀,λ₁,…λ_k-1，则可得变换：

x_i→y_i＝A^Tx_i (3)

采用LPP作为拉普拉斯本征映射的线性实现形式，由于拉普拉斯本征映射的根本目的在于原来特征空间中处于近邻关系的数据在变换后的空间中也处于近邻关系，其目标函数是设a是上述拉普拉斯本征映射的一个本征向量，该最小化问题可表示为采用拉格朗日乘数的方法求解并求导可得L′a＝λD′a，其中L′＝XTX^T，D′＝XDX^T，该式中转换矩阵与特征维数相关，可以方便地用特征变换得到a，从而由式(3)得到降维变换特征；

下面的方法用于改善特征的可区分性和稳健性；

【2】加强特征时序性

语音数据本身具有时间高度相关特性，耳语音由于发音方式决定了说话人倾向于拖长发音时间，其时间相关性尤其明显，在选择邻域时，若加强时间轴的权重可提升耳语音特征可区分性，这基于两个假设：a)每个音素平稳缓慢变化，这符合耳语音特点；b)局部邻域时间方向权重大于空间方向权重，这一假设反映的语音时变特点。假设不同尺度、朝向、频率的N幅谱图为M×P的矩阵，那么按照采样点每个矩阵可以看做是M个向量，这样来排列向量：将每一幅的排列完毕后接着排(上标指第几幅谱图，下标指时间点)，尽量保持向量的时序性；

在传统的欧氏距离邻域判定方法的基础上，我们根据向量间的时间邻域和欧氏距离共同决定权重，由下式的β来决定不同时间距离的权重，距离越近权重越大；

【3】提高特征稳健性，

针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题，提出基于非语义信息抑制的局部保距投影(Non-Semantic InformationSuppression-Locality Preserving Projection，NSIS-LPP)算法；

设某数据集，同属某一语义单元的特征向量共N1个，表示为属于另一个语义单元的特征向量共N2个，表示为设变换前X2中有M个特征向量与X1中的特征向量近邻，联合X1及其在X2中的近邻，得到X1的关联关系包，记作设经过变换后X变成变换的目标是让相同语义的特征向量尽量相近，目标函数一为：同时，变换的另一目标是不同语义的特征向量尽量远，目标函数二为：联合目标函数一和目标函数二，应用类似提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。

优选的，声学模型优化阶段分为被动训练与主动训练两部分，被动训练阶段由已标注的初始样本数据集训练产生声学模型，这是传统的声学模型生成方式，进一步的主动训练阶段则是对未标注的样本数据集进行识别，计算置信度，将置信度低的样本反馈作标注后再重新训练，先主动后被动的有反馈的学习。

优选的，本发明根据耳语音的声学特征，研究主动学习方法中的初始样本选择、置信度计算和主动学习中数据处理等关键问题，

【1】初始样本选择，采用“母亲库”和“家庭库”结合的方式构成初始样本集；“母亲库”和“家庭库”是用于被动训练的初始样本，要求尽可能清晰、准确；上述语料手工标注后作为初始训练样本训练生成初始模型，后续的主动学习阶段则采用未标注的“社会库”，“母亲库”由一个发音者产生，发音内容包括全部有调汉语音节单字，其内容重复发音10遍；“家庭库”由5人(包括母亲)用不同情感产生，发音内容是包含所有汉语音节的连续语音；“社会库”来源尽可能多样化，覆盖尽可能多的人群、各种情感状态、各种语调，所述样本库的容量可扩大，用于主动学习中更新模型。

【2】主动学习中数据处理，假设“社会库”样本数据集为X，初始模型对X中的数据进行识别，并将样本数据集X划分成C类样本集，取出各集中置信度低的构成C类样本子集X_i，对这些子集中的样本做标注后再进行区分性训练，通过最大化类间散度最小化类内散度准则对模型进行训练(u和u_i分别表示所有样本均值和第i类样本均值)。通过多次这样的“低置信度样本反馈—标注—训练”的迭代过程提高模型区分性和稳健性，每次投入迭代过程的“社会库”规模可变，它的原则是提供尽可能多样化的样本，目标是对含该样本类别的声学模型进行更新优化；

【3】置信度计算，置信度计算主要解决如何对未标注的“社会库”中的样本进行评价，从而选择出最具信息量的样本作标注并进行训练的问题，由于耳语音的音量极低，在语音检测中难免会有误判，本发明在置信度计算时分两个方面：一是针对语音段；二是针对非语音段；语音段的置信度计算着重考虑如何降低替代错误，我们以字为单元对声学模型的输出序列计算置信度，设O_s为声学观测序列，则识别结果字序列C_s的后验概率为P(C_s)是各字序列的先验语音模型得分，P(O_s|C_s)是由字序列C_s生成观测值O_s的声学模型得分，低得分样本即为低置信度的样本，对于低置信度样本，同时给出距离目标模型较近的几个些竞争模型，在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度；

非语音段的置信度计算着重研究如何降低删除错误，分别对纯语音数据和纯静音数据得到一个语音模型Λ_s和静音模型Λ_n，设O_n是来自被判为非语音段的观测量，则其置信度按下式计算：t表示非语音段时长。

一种耳语音特征提取系统，所述耳语音特征提取系统由三大模块组成：系统前端的语音信号处理模块，系统中心的声学模型训练与识别模块，后处理模块；耳语音特征提取系统基于听觉感知模型的耳语音特征提取和声学模型优化方法，一方面，依据人耳听觉感知机理，提取耳语音听觉感知谱特征，进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征；另一方面，设计基于被动学习和主动学习的声学模型学习方法，结合听觉谱特征，构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。

本发明的优点：

1、本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征，并通过加强特征的时序权重强化耳语音特征的可区分性。

2、本发明所述的耳语音特征提取方法提出非语义信息抑制的局部保距投影方法。通过两个目标函数在极大化不同语义的特征向量间距离的同时，同时极小化相同语义的特征向量间距离，提高特征的鲁棒性。

3、本发明所述的耳语音特征提取方法提出用于耳语音感知声学模型优化方法。提出“母亲库”、“家庭库”、“社会库”的建库方式，并根据耳语音特征提出语音段、非语音段置信度计算方法。将声学模型的训练分为初级被动训练与次级主动训练两个阶段。初级训练阶段由已标注的数据集训练生成初始模型，进一步的主动训练阶段则是对未标注的样本数据集进行识别，计算置信度，将置信度低的样本反馈作标注后再重新训练，以达到降低样本标注的工作量和模型区域优化的目的。

4、本发明所述的耳语音特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。

5、本发明所述的耳语音特征提取方法提高了耳语音感知的精度，为耳语音的应用提供了应用基础和可能。

6、本发明有利于特定场合下避免影响他人和保护隐私时的手机通讯；本发明有利于国家安全部门在侦察与反侦察中身份保密与信息隐秘；有利于金融部门保障客户的私密信息及身份认证；有利于嗓音病人或发音功能障碍患者的语音辅助系统。

附图说明

图1是本发明所述的耳语音特征提取系统的框架示意图。

图2是本发明所述的耳语音特征提取方法的NSIS-LPP原理图。

具体实施方式

下面结合优选实施方式对本发明技术方案进行详细说明。

一种耳语特征提取方法，其特征在于：包括以下步骤：

(1)耳语音听觉谱特征表示；耳语音的频谱特征的整体声像结构具有可辨识性，从耳语音听觉谱中提取拓扑结构特征可以提高耳语音识别率，耳语音信号经听觉外周及听神经模型的分解转换，表征为具有不同时频特性的听觉皮层声像特征，并在此基础上，研究基于听觉谱特征的耳语音声调感知方法；

(3)声学模型优化(反馈式训练)，单纯的被动式训练确实可以在训练数据库足够大的条件下取得比较好的识别效果。但受语音多变性影响，训练往往面临数据量大和语音单元间区分性不强的问题。采取先被动学习，后主动学习的训练机制，声学模型在经过初始语音库的被动训练之后生成的初始模型，再由主动学习方式根据识别的反馈结果有针对性地优化模型，提高模型的自适应性能。

G_u,v(f,t)＝|X(f,t)*g_u,v(f,t)| (1)

其中f表示频率，t表示时间，v表示Gabor函数的尺度变化，u表示Gabor函数的朝向变化。基于Gabor的皮层特征可以看成是初始听觉皮层的神经元响应结果。本文采用G_u,v(f,t)作为语音信号的听觉谱特征。与传统语谱图相比，该听觉特征能反映出更丰富的语音频率特性。但高辨识度同时意味着特征过于敏感易造成鲁棒性差的问题。由于G_u,v(f,t)是多维高阶矩阵，且具有一定量冗余信息，为此可进一步对该特征进行降维表示。本发明所述的耳语音特征提取方法提出非语义信息抑制的局部保距投影方法。通过两个目标函数在极大化不同语义的特征向量间距离的同时，同时极小化相同语义的特征向量间距离，提高特征的鲁棒性。

优选的，所述耳语特征提取方法采用局部保距投影(Locality PreservingProjection,LPP)进行降维，LPP是拉普拉斯本征映射的线性实现形式，拉普拉斯本征映射在日语的元音识别中已有成功应用。由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法，采用近邻图来体现数据在高维空间中的结构，尤其适合于本发明中耳语音听觉皮层谱图的降维，特征降维具体研究方法和实验手段如下：

【1】LPP降维变换

首先，构建近邻图，设G表示有k个节点的图，如果节点i和j之间“近邻”，即满足就在两者之间加一条边，通常意义上，“近邻”的判断可以按照距离判断，若||x_i-x_j||²<D即为近邻，本发明采用加权时间近邻和距离近邻相结合的判断方法，具体论述见②加强特征时序性部分；

XLX^Ta＝λXDX^Ta (2)

x_i→y_i＝A^Tx_i (3)

实际应用中一般采用LPP作为拉普拉斯本征映射的线性实现形式，由于拉普拉斯本征映射的根本目的在于原来特征空间中处于近邻关系的数据在变换后的空间中也处于近邻关系，其目标函数是设a是上述拉普拉斯本征映射的一个本征向量，该最小化问题可表示为采用拉格朗日乘数的方法求解并求导可得L′a＝λD′a，其中L′＝XTX^T，D′＝XDX^T，该式中转换矩阵与特征维数相关，可以方便地用特征变换得到a，从而由式(3)得到降维变换特征；

在耳语音识别系统中，特征的可区分性和稳健性是衡量特征的两个重要指标。可区分度主要指各语音识别单元对应特征的拓扑结构的差异性，稳健性主要指相同语音识别单元在不同说话人、不同情感状态下的特征相似性。下面的方法用于改善特征的可区分性和稳健性；

【2】加强特征时序性

【3】提高特征稳健性，

在耳语音识别系统中，特征的稳健性是提高系统性能的重要保障，针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题，提出基于非语义信息抑制的局部保距投影(Non-Semantic Information Suppression-LocalityPreserving Projection，NSIS-LPP)算法；其基本原理如图2所示。

图2中不同颜色的立方体表示不同说话人或不同情感时的某一语义特征，不同颜色的三角形表示不同说话人或不同情感时的另一语义特征。在语义的差异性和说话人或情感等个性特征的相似性共同作用下，不同语义的特征之间可能会产生混淆。本文的目的是使同一语义的特征间的距离尽量缩小，同时使不同语义的处于近邻关系的特征距离更远。

设某数据集，同属某一语义单元的特征向量共N1个，表示为属于另一个语义单元的特征向量共N2个，表示为设变换前X2中有M个特征向量与X1中的特征向量近邻，联合X1及其在X2中的近邻，得到X1的关联关系包，记作设经过变换后X变成变换的目标是让相同语义的特征向量尽量相近，目标函数一为：同时，变换的另一目标是不同语义的特征向量与尽量远，目标函数二为：联合目标函数一和目标函数二，应用类似提取听觉特征谱图中的变换矩阵的解法可解得到更高稳健性的降维特征。

优选的，特征的有效性不仅决定于特征提取方法，同时依赖于声学模型对特征的表达。声学模型优化阶段，声学模型的训练阶段分为被动训练与主动训练两部分，被动训练阶段由已标注的初始样本数据集训练产生声学模型，这是传统的声学模型生成方式，进一步的主动训练阶段则是对未标注的样本数据集进行识别，计算置信度，将置信度低的样本反馈作标注后再重新训练，先主动后被动的有反馈的学习。这样一种先主动后被动的有反馈的学习过程不仅降低了样本标注的工作量，而且可以改善声学模型的稳健性。本发明所述的耳语音特征提取方法将听觉感知谱特征降维得到拓扑结构特征，并通过加强特征的时序权重强化耳语音特征的可区分性。

【1】初始样本选择，传统的主动学习方法中，初始样本集合是由未标注样本集中随机产生一定数量的样本进行标注后组成的，但这种方式存在风险。初始样本应兼顾数据的准确、覆盖均衡、充分等方面，以使声学模型在初始训练后尽可能准确地表达特征数据。为此，我们采用“母亲库”和“家庭库”结合的方式构成初始样本集；“母亲库”和“家庭库”是用于被动训练的初始样本，要求尽可能清晰、准确；上述语料手工标注后作为初始训练样本训练生成初始模型，后续的主动学习阶段则采用未标注的“社会库”，“母亲库”由一个发音者产生，发音内容包括全部有调汉语音节单字，其内容重复发音10遍；“家庭库”由5人(包括母亲)用不同情感产生，发音内容是包含所有汉语音节的连续语音；“社会库”来源尽可能多样化，覆盖尽可能多的人群、各种情感状态、各种语调，所述样本库的容量可扩大，用于主动学习中更新模型。本发明所述的耳语音特征提取方法提出用于耳语音感知声学模型优化方法。提出“母亲库”、“家庭库”、“社会库”的建库方式，并根据耳语音特征提出语音段、非语音段置信度计算方法。将声学模型的训练分为初级被动训练与次级主动训练两个阶段。初级训练阶段由已标注的数据集训练生成初始模型，进一步的主动训练阶段则是对未标注的样本数据集进行识别，计算置信度，将置信度低的样本反馈作标注后再重新训练，以达到降低样本标注的工作量和模型区域优化的目的。

【3】置信度计算，置信度在有反馈的主动学习型系统中是一个关键问题。置信度计算主要解决如何对未标注的“社会库”中的样本进行评价，从而选择出最具信息量的样本作标注并进行训练的问题。由于耳语音的音量极低，在语音检测中难免会有误判，本项目在置信度计算时分两个方面：一是针对语音段；二是针对非语音段；语音段的置信度计算着重考虑如何降低替代错误，我们以字为单元对声学模型的输出序列计算置信度，设O_s为声学观测序列，则识别结果字序列C_s的后验概率为P(C_s)是各字序列的先验语音模型得分，P(O_s|C_s)是由字序列C_s生成观测值O_s的声学模型得分，低得分样本即为低置信度的样本，对于低置信度样本，同时给出距离目标模型较近的几个些竞争模型，在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度；

一种耳语音特征提取系统，所述耳语音特征提取系统由三大模块组成：系统前端的语音信号处理模块，系统中心的声学模型训练与识别模块，后处理模块；由于耳语特殊的发音方式，系统的声学处理模块和声学模型模块与正常语音相比有其特殊性，而大大增加了难度。本项目着眼于基于听觉感知模型的耳语音特征提取和声学模型优化方法。一方面，依据人耳听觉感知机理，提取耳语音听觉感知谱特征，进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征；另一方面，设计基于被动学习和主动学习的声学模型学习方法，结合听觉谱特征，构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。

本发明所述的耳语音特征提取方法依据听觉感知机理研究耳语音感知中的耳语音特征表示方法以及相关声学模型的优化。本发明所述的耳语音特征提取方法提高了耳语音感知的精度，为耳语音的应用提供了应用基础和可能。本发明有利于特定场合下避免影响他人和保护隐私时的手机通讯；本发明有利于国家安全部门在侦察与反侦察中身份保密与信息隐秘；有利于金融部门保障客户的私密信息及身份认证；有利于嗓音病人或发音功能障碍患者的语音辅助系统。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种耳语特征提取方法，其特征在于：包括以下步骤：

(2)特征降维及鲁棒性能分析；所述特征降维及鲁棒性能分析包括三个内容：(a)从高维的听觉谱中提取低维的拓扑结构特征；(b)拓扑结构特征时序性分析；(c)拓扑结构特征稳定性分析；

(3)声学模型优化；所述声学模型优化采取先被动学习，后主动学习的训练机制，声学模型在经过初始语音库的被动训练之后生成的初始模型，再由主动学习方式根据识别的反馈结果有针对性地优化模型，提高模型的自适应性能。

2.根据权利要求1所述的耳语特征提取方法，其特征在于：所述听觉特征表示根据听觉感知机理，经人耳听觉外周模型的分解、转换和传输，语音谱特征由皮层的神经元细胞群组表征；初始听觉皮层对听觉谱进行分解，估计时频包络信息；某些神经元对输入的语音在特定的中心频率会达到最大的发放率；对于给定的时间窗，语音的皮层表征是一个高阶张量的结构，它包括三个独立的维度：中心频率，尺度和相位；这里尺度描述的是每个响应区域的带宽，相位描述的是神经元反应的对称程度参数；神经生理学研究表明在听觉皮层的神经元反应被调制为局部的时频包络；利用Gabor函数我们可以获得语音信号的时频包络，我们通过将Gabor函数g_u,v(f,t)与耳语音信号能量谱X(f,t)进行卷积运算得到皮层表征G_u,v(f,t)。卷积结果G_u,v(f,t)是具有不同滤波特性的时频特征；

G_u,v(f,t)＝|X(f,t)*g_u,v(f,t)|(1)

3.根据权利要求1所述的耳语特征提取方法，其特征在于：所述耳语特征提取方法采用局部保距投影(Locality Preserving Projection,LPP)进行降维，LPP是拉普拉斯本征映射的线性实现形式，由于拉普拉斯本征映射是一种基于谱图理论的流形学习方法，采用近邻图来体现数据在高维空间中的结构，尤其适合于所述耳语特征提取方法中耳语音听觉皮层谱图的降维，特征降维具体研究方法和实验手段如下：

【1】LPP降维变换

XLX^Ta＝λXDX^Ta (2)

x_i→y_i＝A^Tx_i (3)

下面的方法用于改善特征的可区分性和稳健性；

【2】加强特征时序性

w_{i j} = \exp (- \frac{| | x_{i} - x_{j} | |^{2}}{β t}) - - - (4)

【3】提高特征稳健性，

在耳语音识别系统中，特征的稳健性是提高系统性能的重要保障，针对耳语音识别中要解决的使不同说话人、不同情感下的同一语义的特征单元更加聚集的问题，提出基于非语义信息抑制的局部保距投影(Non-Semantic Information Suppression-LocalityPreserving Projection，NSIS-LPP)算法；

4.根据权利要求1所述的耳语特征提取方法，其特征在于：声学模型优化阶段，声学模型的训练阶段分为被动训练与主动训练两部分，被动训练阶段由已标注的初始样本数据集训练产生声学模型，这是传统的声学模型生成方式，进一步的主动训练阶段则是对未标注的样本数据集进行识别，计算置信度，将置信度低的样本反馈作标注后再重新训练，先主动后被动的有反馈的学习。

5.根据权利要求4所述的耳语特征提取方法，其特征在于：所述耳语特征提取方法根据耳语音的声学特征，研究主动学习方法中的初始样本选择、置信度计算和主动学习中数据处理等关键问题，

【1】初始样本选择，采用“母亲库”和“家庭库”结合的方式构成初始样本集；“母亲库”和“家庭库”是用于被动训练的初始样本，要求尽可能清晰、准确；上述语料手工标注后作为初始训练样本训练生成初始模型，后续的主动学习阶段则采用未标注的“社会库”，“母亲库”由一个发音者产生，发音内容包括全部有调汉语音节单字，其内容重复发音10遍；“家庭库”由5人用不同情感产生，发音内容是包含所有汉语音节的连续语音；“社会库”来源尽可能多样化，覆盖尽可能多的人群、各种情感状态、各种语调，所述样本库的容量可扩大，用于主动学习中更新模型；

【3】置信度计算，由于耳语音的音量极低，在语音检测中难免会有误判，在置信度计算时分两个方面：一是针对语音段；二是针对非语音段；语音段的置信度计算着重考虑如何降低替代错误，我们以字为单元对声学模型的输出序列计算置信度，设O_s为声学观测序列，则识别结果字序列C_s的后验概率为P(C_s)是各字序列的先验语音模型得分，P(O_s|C_s)是由字序列C_s生成观测值O_s的声学模型得分，低得分样本即为低置信度的样本，对于低置信度样本，同时给出距离目标模型较近的几个些竞争模型，在下一次迭代训练时提供合适的“社会库”以加大相关模型之间的散度；

6.一种耳语音特征提取系统，其特征在于：所述耳语音特征提取系统由三大模块组成：系统前端的语音信号处理模块，系统中心的声学模型训练与识别模块，后处理模块；耳语音特征提取系统基于听觉感知模型的耳语音特征提取和声学模型优化方法，一方面，依据人耳听觉感知机理，提取耳语音听觉感知谱特征，进一步采用局部保距投影得到降维后的耳语音听觉谱拓扑结构特征；另一方面，设计基于被动学习和主动学习的声学模型学习方法，结合听觉谱特征，构建适合于耳语音听觉特征的识别置信度计算方法并依据反馈信息选择样本进行声学模型优化。