CN106683666B - 一种基于深度神经网络的领域自适应方法 - Google Patents

一种基于深度神经网络的领域自适应方法 Download PDF

Info

Publication number
CN106683666B
CN106683666B CN201611201651.2A CN201611201651A CN106683666B CN 106683666 B CN106683666 B CN 106683666B CN 201611201651 A CN201611201651 A CN 201611201651A CN 106683666 B CN106683666 B CN 106683666B
Authority
CN
China
Prior art keywords
neural network
field
deep neural
domain
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611201651.2A
Other languages
English (en)
Other versions
CN106683666A (zh
Inventor
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Shanghai Intelligent Technology Co Ltd filed Critical Unisound Shanghai Intelligent Technology Co Ltd
Priority to CN201611201651.2A priority Critical patent/CN106683666B/zh
Publication of CN106683666A publication Critical patent/CN106683666A/zh
Application granted granted Critical
Publication of CN106683666B publication Critical patent/CN106683666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度神经网络的领域自适应方法,是基于深度神经网络模型,利用原有的网络参数(大数据训练生成,缺少领域数据),在有少量领域数据的情况下,利用领域数据训练单独的隐层,同时在输出层进行融合,最终生成领域模型;利用同时进行多项任务(Multi‑Task)的思想,结合少量的有监督领域数据(如5H‑10H的领域数据),同时对领域数据进行模拟,采用不同的特征,对神经网络参数进行更新,对新领域测试集合效果提升明显,又不影响旧领域性能。

Description

一种基于深度神经网络的领域自适应方法
技术领域
本发明涉及语音识别领域,尤其涉及一种基于深度神经网络的领域自适应方法。
背景技术
在语音评测(识别)系统中,难免会遇到训练数据和测试数据不匹配的情况,自适应作为一种有效的系统补偿方法,近年来已经提出了很多方法,比如,在早期的高斯混合模型(HMM-GMM)系统中,采用MAP(Maximun A Posteriori,最大似然算法),MLLR(MaximumLikelihood Linear Regression,最大似然线性回归算法)等方法,而深度神经网络作为一种鉴别性模型,现有的高斯混合模型技术不能直接运用到深度神经网络中;基于神经网络的自适应技术包括有监督和无监督训练,可以在特征端,也可以在模型端进行自适应,比如,输入线性特征变换、基于BN(BottleNetwork,深度网络)的特征变化、利用说话人的特征矢量(ivector,描述说话人信息的向量)信息、基于深度神经网络(neural network,简称NN)的KL(Kullback-Leibler,正则)技术等等,目前提出的大部分方法基本都是基于单个说话人的NN自适应技术,真正解决实际问题,还有一定的局限。
发明内容
本发明所要解决的技术问题是提供一种基于深度神经网络的领域自适应方法,用于解决在不同领域,在数据量较少的情况下(包含不同的说话人),提高语音评测性能的问题。
为实现上述技术效果,本发明公开了一种基于深度神经网络的领域自适应方法,包括步骤:
对领域数据进行模拟和扩展,得到扩展后的领域数据;
提取扩展后的领域数据的领域特征;
利用深度神经网络模型的基线神经网络对所述领域数据进行切分对齐,得到每帧领域特征对应的状态级别的标注和音素级别的标注;
利用深度神经网络模型对所述领域特征进行训练,得到领域神经网络;
利用每帧领域特征的音素级别的标注进行扩展,得到领域扩展特征;
利用深度神经网络模型对所述领域扩展特征进行训练,得到领域扩展网络;
在深度神经网络模型的输出层对所述领域神经网络、所述基线神经网络及所述领域扩展网络利用融合网络目标函数进行融合,利用梯度下降法对所述领域神经网络进行参数更新;融合网络目标函数为:
其中,t为时序,t’为累加的时序,st为输出音素状态,xt为输入特征向量,pbase函数为基线神经网络的目标函数P(st/xt),yt为对应的标注,pdomain函数为领域神经网络的目标函数P(st/xt);E(cost)为代价函数,为领域扩展网络的隐层输出和领域标注之前的均方误差,α、β设置为(0,1)之间,γ设置为(0,5)之间。
所述基于深度神经网络的领域自适应方法进一步的改进在于,通过以下方法对领域数据进行模拟和扩展,包括:
获取领域数据;
对获取的领域数据进行加噪和去噪,得到扩展后的领域数据。
所述基于深度神经网络的领域自适应方法进一步的改进在于,在对获取的领域数据进行加噪和去噪的过程中,采用添加不同的噪声进行加噪,采用不同的滤噪方式进行去噪。
所述基于深度神经网络的领域自适应方法进一步的改进在于,扩展后的领域数据的领域特征包括梅尔频谱倒谱系数、线性预测系数、梅尔滤波系数或三者的任意拼接特征。
所述基于深度神经网络的领域自适应方法进一步的改进在于,通过以下方法利用深度神经网络模型对所述领域特征进行训练,得到领域神经网络,包括步骤:
以每帧领域特征的特征向量作为深度神经网络模型的输入;
以每帧领域特征对应的状态级别的标注或音素级别的标注作为深度神经网络模型的输出;
采用非线性激活函数或分段线性激活函数训练深度神经网络模型的领域隐层,得到领域特征的领域神经网络。
所述基于深度神经网络的领域自适应方法进一步的改进在于,通过以下方法利用深度神经网络模型的基线神经网络对所述领域数据进行切分对齐,得到每帧领域特征对应的状态级别的标注和音素级别的标注,包括步骤:
基于深度神经网络模型,将领域数据的每帧领域特征的特征向量作为输入,将领域数据的每帧领域特征的状态级别的标注作为状态输出,对所述输入和所述状态输出进行切分对齐;
基于深度神经网络模型,将领域数据的每帧领域特征的特征向量作为输入,将领域数据的每帧领域特征的音素级别的标注作为音素输出,对输入和音素输出进行切分对齐。
所述基于深度神经网络的领域自适应方法进一步的改进在于,通过以下方法利用每帧领域特征的音素级别的标注进行扩展,得到领域扩展特征,包括步骤:
提取某一时刻的某帧领域特征的音素级别的标注;
对提取的所述领域特征的音素级别的标注的发音特点进行扩展。
所述基于深度神经网络的领域自适应方法进一步的改进在于,所述领域扩展特征为包含上下文相关音素、是否元音或双元音、音素平均统计时长、是否鼻音、声门特点、唇音中的一种或多种发音特点组成的特征向量。
所述基于深度神经网络的领域自适应方法进一步的改进在于,通过以下方法利用深度神经网络模型对所述领域扩展特征进行训练,得到领域扩展网络,包括步骤:
以领域扩展特征作为深度神经网络模型的输入;
以领域数据的领域特征作为领域标注,作为深度神经网络模型的输出;
采用非线性激活函数或分段线性激活函数训练深度神经网络模型的领域扩展隐层,得到领域扩展特征的领域扩展网络。
所述基于深度神经网络的领域自适应方法进一步的改进在于,所述领域标注为对应所述某一时刻提取的领域数据的领域特征,取前后n维,归一化到[0,1]范围后规整得到的领域规整特征。
本发明由于采用了以上技术方案,使其具有以下有益效果:
本发明基于深度神经网络模型,利用原有的网络参数(大数据训练生成,缺少领域数据),在有少量领域数据的情况下,利用领域数据训练单独的隐层,同时在输出层进行融合,最终生成领域模型;
利用同时进行多项任务(Multi-Task)的思想,结合少量的有监督领域数据(如5H-10H的领域数据),同时对领域数据进行模拟,采用不同的特征,对神经网络参数进行更新,对新领域测试集合效果提升明显,又不影响旧领域性能。
附图说明
图1为本发明一种基于深度神经网络的领域自适应方法的模块示意图。
具体实施方式
下面结合附图及具体实施方式对本发明作进一步详细的说明。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
本发明一种基于深度神经网络的领域自适应方法旨在提出一种基于领域数据的自适应技术,用于解决在不同领域,在数据量较少的情况下(包含不同的说话人),提高语音评测性能的问题。比如,在日常英语口语评测中,训练数据大部分都是人们日常正常交流用语,若针对初、高中口语水平进行评测,就会出现训练和测试失配问题,而想获取大量的类似考试类型的数据比较困难,同时对数据进行文本标注的成本也很高,但搜集到10个小时(10H)的数据还是比较容易的,采用本发明的基于深度神经网络的领域自适应方法可以在仅搜集少量领域数据,如10H数据的基础上进行自适应以提高考试评测的性能。
请配合图1所示,图1为本发明基于深度神经网络的领域自适应方法的模块示意图。本发明基于深度神经网络的领域自适应方法采用的方案是:深度神经网络利用原有的网络参数(大数据训练生成,缺少领域数据),在有少量领域数据的情况下,利用领域数据训练单独的隐层,同时在输出层进行融合,最终生成领域模型。具体的,本发明采用了如下方法,包含以下步骤:
S001:对领域数据进行模拟和扩展,得到扩展后的领域数据;如将10小时的领域数据扩展到50小时~100小时。
其主要通过以下步骤对领域数据进行模拟和扩展:
(一)获取领域数据;
(二)对获取的领域数据进行加噪和去噪,得到扩展后的领域数据。
其中,在对获取的领域数据进行加噪和去噪的过程中,采用添加不同的噪声进行加噪,加噪后再采用不同的滤噪方式进行去噪。
加噪,就是采集到实际的噪声数据(食堂环境、公交车环境、办公室环境等等),和原始领域数据进行线性叠加。
去噪,就是通过自适应滤波等算法对加噪的数据进行增强,滤噪方式可采用自适应滤波、小波去噪等。目前小波去噪的方法,大概可以分为三大类:第一类方法是利用小波变换模极大值原理去噪,即根据信号和噪声在小波变换各尺度上的不同传播特性,剔除由噪声产生的模极大值点,保留信号所对应的模极大值点,然后利用所余模极大值点重构小波系数,进而恢复信号;第二类方法是对含噪信号作小波变换之后,计算相邻尺度间小波系数的相关性,根据相关性的大小区别小波系数的类型,从而进行取舍,然后直接重构信号;第三类是小波阈值去噪方法,该方法认为信号对应的小波系数包含有信号的重要信息,其幅值较大,但数目较少,而噪声对应的小波系数是一致分布的,个数较多,但幅值小。基于这一思想,在众多小波系数中,把绝对值较小的系数置为零,而让绝对值较大的系数保留或收缩,得到估计小波系数,然后利用估计小波系数直接进行信号重构,即可达到去噪的目的。
S002:提取扩展后的领域数据的领域特征;
例如梅尔频谱倒谱系数(mfcc)、线性预测系数(plp)、梅尔滤波系数(filterbank)等等,也可以采用拼接特征。
梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,简称MFCCs)就是组成梅尔频率倒谱的系数。他们派生自音频片段的倒谱(cepstrum)表示(anonlinear"spectrum-of-a-spectrum")。倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这种频率弯曲可以更好的表示声音,例如音频压缩。
线性预测(linear prediction)根据随机信号过去的p个已知抽样值序列为Sn-1,Sn-2,…Sn-p,预测现时样值Sn的估计值的方法。预测公式是一个线性方程,所以这种预测称为线性预测。
S003:利用深度神经网络模型的基线神经网络对领域数据进行切分对齐(forcealignment),得到每帧领域特征对应的状态(state)级别的标注和音素(phone)级别的标注(Lab),以形成深度神经网络模型的训练网络的输入和输出。
其主要通过以下方法利用深度神经网络模型的基线神经网络对领域数据进行切分对齐,包括步骤:
基于深度神经网络模型,将领域数据的每帧领域特征的特征向量作为输入,将领域数据的每帧领域特征的状态级别的标注作为状态输出,对所述输入和所述状态输出进行切分对齐;
基于深度神经网络模型,将领域数据的每帧领域特征的特征向量作为输入,将领域数据的每帧领域特征的音素级别的标注作为音素输出,对输入和音素输出进行切分对齐。
从而基于深度神经网络模型,使得每帧领域特征的特征向量与每帧领域特征对应的状态级别的标注和音素级别相对齐;以实现在网络训练之前,对领域数据的输入和输出进行对齐切分。
其中,音素级别的标注就是在某一时刻,如t时刻,每个领域特征对应的音素发音;状态级别的标注就是上下文相关的音素,通过聚类后的状态单元来表示,t时刻特征对应的状态。
S004:利用深度神经网络模型对领域特征进行训练,得到领域神经网络;
其主要为通过以下方法利用深度神经网络模型对领域特征进行训练,得到领域神经网络,包括如下步骤:
(一)以每帧领域特征的特征向量作为深度神经网络模型的输入11(domaininput);
(二)以每帧领域特征对应的状态级别的标注或音素级别的标注作为深度神经网络模型的输出(domain input)12;
(三)采用非线性激活函数(sigmoid)或分段线性激活函数(relu)训练深度神经网络模型的领域隐层(Hidden layer)13,得到领域特征的领域神经网络,在图1中,领域神经网络为位于左侧的网络,位于中间的网络为深度神经网络模型的原始的基线神经网络。
S005:利用每帧领域特征的音素(phone)级别的标注(Lab)进行扩展,得到领域扩展特征(domain expand input vector)14;
其主要为通过以下方法利用每帧领域特征的音素级别的标注进行扩展,得到领域扩展特征,包括如下步骤:
提取某一时刻(t时刻)的某帧领域特征的音素级别的标注;
对提取的该领域特征的音素级别的标注的发音特点进行扩展。
扩展得到的领域扩展特征可为包含上下文相关音素、是否元音或双元音、音素平均统计时长、是否鼻音、声门特点、唇音中的一种或多种语言学的发音特点组成的特征向量,不同领域会有不同的发音特征。
S006:利用深度神经网络模型对领域扩展特征14进行训练,得到领域扩展网络;
其主要为通过以下方法利用深度神经网络模型对领域扩展特征进行训练,得到领域扩展网络,包括如下步骤:
(一)以领域扩展特征14作为深度神经网络模型的输入;
(二)以领域数据的领域特征作为领域标注(Domain Lab)15,作为深度神经网络模型的输出;
(三)采用非线性激活函数(sigmoid)或分段线性激活函数(relu)训练深度神经网络模型的领域扩展隐层(Domain Hidden layer)16,得到领域扩展特征的领域扩展网络,在图1中,领域扩展网络为位于基线神经网络右侧的网络。
其中,领域标注为对应某一时刻,如t时刻,提取的领域数据的领域特征,取前后n维,归一化到[0,1]后规整得到的领域规整特征。
比如:领域扩展网络的输入,是由t时刻提取的领域数据的领域特征的音素级别的标注所扩展得到领域扩展特征;那么,领域扩展网络的输出(即领域标注)就是对应之前输入时(t时刻)提取的输入特征,在t时刻前后取n维(n的范围取5~10),归一化到[0,1],从而规整得到的领域规整特征。举例来说,比如特征向量[0,1,2,3,4,5,6,7,8,9,10],对于6,我们可以取前后的5维,对这11维数据,进行标准差归一化,标准差计算可以是减均值,除方差得到。
S007:在深度神经网络模型的输出层对领域神经网络(左侧网络)、基线神经网络(中间网络)及领域扩展网络(右侧网络)利用下面的融合网络目标函数进行融合,利用梯度下降法(Back Propagation,反向误差传播)以对领域神经网络进行参数更新;
该融合网络目标函数为:
其中,t为时序,t’为累加的时序,st为输出音素状态,xt为输入特征向量;OBJ融合网络目标函数是训练领域神经网络时的总的目标函数,pbase函数为基线神经网络的目标函数P(st/xt)(如上公式所示),yt为对应的标注,exp为指数运算符,pdomain函数为领域神经网络的目标函数P(st/xt)(如上公式所示),单个的pbase函数和单个的pdomain函数的目标函数的表达式相同,仅代入的状态级别的标注和音素级别的标注(yt)不同;E(cost)为代价函数,为领域扩展网络的隐层输出和领域标注之前的均方误差,α、β设置为(0,1)之间,γ设置为(0,5)之间。
进一步的,
其中,t为时序,s为代表音素的状态,x代表输入的特征向量,p1domain函数为领域神经网络的目标函数,P1(input)是领域扩展网络的输入。
进行领域相关任务测试时,只需要右边的网络(领域扩展网络)的参数即可;整个网络训练过程中,中间的网络(基线神经网络)的参数不需要更新,更新左侧的网络(领域神经网络)即可。
本发明的基于深度神经网络的领域自适应方法,是基于深度神经网络模型,利用原有的网络参数(大数据训练生成,缺少领域数据),在有少量领域数据的情况下,利用领域数据训练单独的隐层,同时在输出层进行融合,最终生成领域模型;利用同时进行多项任务(Multi-Task)的思想,结合少量的有监督领域数据(如5H-10H的领域数据),同时对领域数据进行模拟,采用不同的特征,对神经网络参数进行更新,对新领域测试集合效果提升明显,又不影响旧领域性能。
需要说明的是,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上所述仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案的范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于深度神经网络的领域自适应方法,其特征在于,包括步骤:
对领域数据进行模拟和扩展,得到扩展后的领域数据;
提取扩展后的领域数据的领域特征;
利用深度神经网络模型的基线神经网络对所述领域数据进行切分对齐,得到每帧领域特征对应的状态级别的标注和音素级别的标注;
利用深度神经网络模型对所述领域特征进行训练,得到领域神经网络;
利用每帧领域特征的音素级别的标注进行扩展,得到领域扩展特征;
利用深度神经网络模型对所述领域扩展特征进行训练,得到领域扩展网络;
在深度神经网络模型的输出层对所述领域神经网络、所述基线神经网络及所述领域扩展网络利用融合网络目标函数进行融合,利用梯度下降法对所述领域神经网络进行参数更新;融合网络目标函数为:
其中,t为时序,t’为累加的时序,st为输出音素状态,xt为输入特征向量,pbase函数为基线神经网络的目标函数P(st/xt),yt为对应的标注,pdomain函数为领域神经网络的目标函数P(st/xt);E(cost)为代价函数,为领域扩展网络的隐层输出和领域标注之前的均方误差,α、β设置为(0,1)之间,γ设置为(0,5)之间。
2.如权利要求1所述的一种基于深度神经网络的领域自适应方法,其特征在于,通过以下方法对领域数据进行模拟和扩展,包括:
获取领域数据;
对获取的领域数据进行加噪和去噪,得到扩展后的领域数据。
3.如权利要求2所述的一种基于深度神经网络的领域自适应方法,其特征在于:在对获取的领域数据进行加噪和去噪的过程中,采用添加不同的噪声进行加噪,采用不同的滤噪方式进行去噪。
4.如权利要求1所述的一种基于深度神经网络的领域自适应方法,其特征在于:扩展后的领域数据的领域特征包括梅尔频谱倒谱系数、线性预测系数、梅尔滤波系数或三者的任意拼接特征。
5.如权利要求1所述的一种基于深度神经网络的领域自适应方法,其特征在于,通过以下方法利用深度神经网络模型对所述领域特征进行训练,得到领域神经网络,包括步骤:
以每帧领域特征的特征向量作为深度神经网络模型的输入;
以每帧领域特征对应的状态级别的标注或音素级别的标注作为深度神经网络模型的输出;
采用非线性激活函数或分段线性激活函数训练深度神经网络模型的领域隐层,得到领域特征的领域神经网络。
6.如权利要求1所述的一种基于深度神经网络的领域自适应方法,其特征在于,通过以下方法利用深度神经网络模型的基线神经网络对所述领域数据进行切分对齐,得到每帧领域特征对应的状态级别的标注和音素级别的标注,包括步骤:
基于深度神经网络模型,将领域数据的每帧领域特征的特征向量作为输入,将领域数据的每帧领域特征的状态级别的标注作为状态输出,对所述输入和所述状态输出进行切分对齐;
基于深度神经网络模型,将领域数据的每帧领域特征的特征向量作为输入,将领域数据的每帧领域特征的音素级别的标注作为音素输出,对输入和音素输出进行切分对齐。
7.如权利要求1所述的一种基于深度神经网络的领域自适应方法,其特征在于,通过以下方法利用每帧领域特征的音素级别的标注进行扩展,得到领域扩展特征,包括步骤:
提取某一时刻的某帧领域特征的音素级别的标注;
对提取的所述领域特征的音素级别的标注的发音特点进行扩展。
8.如权利要求7所述的一种基于深度神经网络的领域自适应方法,其特征在于,所述领域扩展特征为包含上下文相关音素、是否元音或双元音、音素平均统计时长、是否鼻音、声门特点、唇音中的一种或多种发音特点组成的特征向量。
9.如权利要求7所述的一种基于深度神经网络的领域自适应方法,其特征在于,通过以下方法利用深度神经网络模型对所述领域扩展特征进行训练,得到领域扩展网络,包括步骤:
以领域扩展特征作为深度神经网络模型的输入;
以领域数据的领域特征作为领域标注,作为深度神经网络模型的输出;
采用非线性激活函数或分段线性激活函数训练深度神经网络模型的领域扩展隐层,得到领域扩展特征的领域扩展网络。
10.如权利要求9所述的一种基于深度神经网络的领域自适应方法,其特征在于:所述领域标注为对应所述某一时刻提取的领域数据的领域特征,取前后n维,归一化到[0,1]范围后规整得到的领域规整特征。
CN201611201651.2A 2016-12-23 2016-12-23 一种基于深度神经网络的领域自适应方法 Active CN106683666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611201651.2A CN106683666B (zh) 2016-12-23 2016-12-23 一种基于深度神经网络的领域自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611201651.2A CN106683666B (zh) 2016-12-23 2016-12-23 一种基于深度神经网络的领域自适应方法

Publications (2)

Publication Number Publication Date
CN106683666A CN106683666A (zh) 2017-05-17
CN106683666B true CN106683666B (zh) 2019-11-08

Family

ID=58870974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611201651.2A Active CN106683666B (zh) 2016-12-23 2016-12-23 一种基于深度神经网络的领域自适应方法

Country Status (1)

Country Link
CN (1) CN106683666B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN108134979B (zh) * 2017-12-04 2020-04-14 东南大学 基于深度神经网络的小基站开关控制方法
CN108847249B (zh) * 2018-05-30 2020-06-05 苏州思必驰信息科技有限公司 声音转换优化方法和系统
CN109145815B (zh) * 2018-08-21 2022-05-03 深圳大学 一种sar目标识别方法、装置、计算机设备及存储介质
CN109934081A (zh) * 2018-08-29 2019-06-25 厦门安胜网络科技有限公司 一种基于深度神经网络的行人属性识别方法、装置及存储介质
CN109840691B (zh) * 2018-12-31 2023-04-28 天津求实智源科技有限公司 基于深度神经网络的非侵入式分项电量估计方法
CN109979436B (zh) * 2019-04-12 2020-11-13 南京工程学院 一种基于频谱自适应法的bp神经网络语音识别系统及方法
CN110007265A (zh) * 2019-04-30 2019-07-12 哈尔滨工业大学 一种基于深度神经网络的波达方向估计方法
CN111508470B (zh) * 2020-04-26 2024-04-12 北京声智科技有限公司 一种语音合成模型的训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727903A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN102760153A (zh) * 2011-04-21 2012-10-31 帕洛阿尔托研究中心公司 将词典知识合并入svm学习以改进情感分类
CN103729648A (zh) * 2014-01-07 2014-04-16 中国科学院计算技术研究所 领域自适应模式识别方法及系统
WO2016045810A1 (en) * 2014-09-26 2016-03-31 Nokia Solutions And Networks Oy Lower and upper bounds for flow-control data requests between network nodes
CN105931650A (zh) * 2016-04-20 2016-09-07 深圳市航盛电子股份有限公司 一种基于音频特征提取的自适应降噪方法
CN106104673A (zh) * 2014-03-07 2016-11-09 微软技术许可有限责任公司 深度神经网络的低资源占用适配和个性化
WO2016182674A1 (en) * 2015-05-08 2016-11-17 Qualcomm Incorporated Adaptive selection of artificial neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727903A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN102760153A (zh) * 2011-04-21 2012-10-31 帕洛阿尔托研究中心公司 将词典知识合并入svm学习以改进情感分类
CN103729648A (zh) * 2014-01-07 2014-04-16 中国科学院计算技术研究所 领域自适应模式识别方法及系统
CN106104673A (zh) * 2014-03-07 2016-11-09 微软技术许可有限责任公司 深度神经网络的低资源占用适配和个性化
WO2016045810A1 (en) * 2014-09-26 2016-03-31 Nokia Solutions And Networks Oy Lower and upper bounds for flow-control data requests between network nodes
WO2016182674A1 (en) * 2015-05-08 2016-11-17 Qualcomm Incorporated Adaptive selection of artificial neural networks
CN105931650A (zh) * 2016-04-20 2016-09-07 深圳市航盛电子股份有限公司 一种基于音频特征提取的自适应降噪方法

Also Published As

Publication number Publication date
CN106683666A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106683666B (zh) 一种基于深度神经网络的领域自适应方法
Yin et al. Speech-based cognitive load monitoring system
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN107633842A (zh) 语音识别方法、装置、计算机设备及存储介质
CN112006697B (zh) 一种基于语音信号的梯度提升决策树抑郁程度识别系统
CN106297773A (zh) 一种神经网络声学模型训练方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN104765996B (zh) 声纹密码认证方法及系统
CN105654944B (zh) 一种融合了短时与长时特征建模的环境声识别方法及装置
CN107919137A (zh) 远程审批方法、装置、设备及可读存储介质
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN108615525A (zh) 一种语音识别方法及装置
Yin et al. Automatic cognitive load detection from speech features
CN109300339A (zh) 一种英语口语的练习方法及系统
CN107240394A (zh) 一种动态自适应语音分析技术以用于人机口语考试的方法及系统
Yılmaz et al. Articulatory features for asr of pathological speech
CN113450830A (zh) 具有多重注意机制的卷积循环神经网络的语音情感识别方法
Wöllmer et al. Multi-stream LSTM-HMM decoding and histogram equalization for noise robust keyword spotting
Ling An acoustic model for English speech recognition based on deep learning
Guo et al. Speaker Verification Using Short Utterances with DNN-Based Estimation of Subglottal Acoustic Features.
Gomes et al. i-vector algorithm with Gaussian Mixture Model for efficient speech emotion recognition
CN106971712A (zh) 一种自适应的快速声纹识别方法及系统
Mansour et al. A comparative study in emotional speaker recognition in noisy environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170929

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Address before: 200233 Shanghai, Qinzhou, North Road, No. 82, building 2, layer 1198,

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A domain adaptive method based on deep neural network

Effective date of registration: 20201201

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Registration number: Y2020310000047

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220307

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2020310000047

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Domain Adaptive Method Based on Deep Neural Network

Effective date of registration: 20230210

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2023310000028

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2023310000028

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Domain Adaptation Method Based on Deep Neural Networks

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2024310000165

PE01 Entry into force of the registration of the contract for pledge of patent right