CN106683663B - 神经网络训练设备和方法以及语音识别设备和方法 - Google Patents
神经网络训练设备和方法以及语音识别设备和方法 Download PDFInfo
- Publication number
- CN106683663B CN106683663B CN201610977394.5A CN201610977394A CN106683663B CN 106683663 B CN106683663 B CN 106683663B CN 201610977394 A CN201610977394 A CN 201610977394A CN 106683663 B CN106683663 B CN 106683663B
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- data
- primary
- clean
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003062 neural network model Methods 0.000 claims abstract description 102
- 230000006870 function Effects 0.000 claims description 99
- 230000004913 activation Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
Abstract
提供一种神经网络训练设备和方法以及语音识别设备和方法。神经网络训练设备包括:初级训练器,被构造为基于干净的训练数据和与干净的训练数据对应的目标数据,来执行神经网络模型的初级训练;二级训练器,被构造为基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的输出概率分布,来执行已经执行初级训练的神经网络模型的二级训练。
Description
本申请要求于2015年11月6日提交到韩国知识产权局的第10-2015-0156152号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有的目的通过引用合并于此。
技术领域
下面的描述涉及神经网络训练设备和方法以及语音识别设备和方法。
背景技术
相比于以前的语音识别技术,最新的语音识别技术吸引了广泛的关注。引起这样的原因是,当实现语音识别技术时,即使在用户正在驾驶车辆或者执行对于用户很难使用他或她的手的其他任务时,除了互联网接入或者办公室或其他服务的使用能够满足各种用户的需求之外,可通过语音更加方便地操作因特网信息、电子商务或者各种普适环境的使用。
语音识别技术中的重要的问题是从周围环境有效地去除噪声。由于来自周围环境的噪声引起的训练环境与实际语音识别环境之间的不匹配是语音识别系统的语音识别性能下降的主要原因之一。
发明内容
提供本发明内容用于以简化的形式来介绍在下面具体实施方式中进一步描述的构思的选择。本发明内容不意在标识要求保护的主题的关键特征或必要特征,也不意在作为帮助确定要求保护的主题的范围而被使用。
在一个总体方面中,一种神经网络训练设备包括:初级训练器,被构造为基于干净的训练数据和与干净的训练数据对应的目标数据,来执行神经网络模型的初级训练;二级训练器,被构造为基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布,来执行已经执行初级训练的神经网络模型的二级训练。
二级训练器还可被构造为:使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行已经执行初级训练的神经网络模型的二级训练。
带噪训练数据可包括:使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。
神经网络模型可以是基于神经网络的声学模型。
初始训练器还可被构造为:使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数,来执行初级训练。
二级训练器还可被构造为:使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数,来执行二级训练。
二级训练器还可被构造为:使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练:执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数,以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。
在另一个总体方面中,一种神经网络训练方法包括:基于干净的训练数据和与干净的训练数据对应的目标数据,来执行神经网络模型的初级训练;基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布,来执行已经执行初级训练的神经网络模型的二级训练。
二级训练可包括:使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行已经执行初级训练的神经网络模型的二级训练。
带噪训练数据可包括:使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。
神经网络模型可以是基于神经网络的声学模型。
执行初级训练的步骤可包括:使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数,来执行初级训练。
执行二级训练的步骤可包括:使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数,来执行二级训练。
执行二级训练的步骤可包括:使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练:执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数,以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。
在另一个总体方面中,一种计算机可读存储介质存储在被处理器执行时使得处理器执行上述方法的指令。
在另一个总体方面中,一种语音识别设备包括:特征提取器,被构造为提取带噪语音数据的特征;音素概率计算器,被构造为使用声学模型来计算与提取的特征对应的音素的概率;其中,声学模型是已经执行了初级训练和二级训练的声学模型,其中,基于语音训练数据和与语音训练数据对应的音素序列执行初级训练,并且基于带噪语音训练数据和在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。
可使用语音训练数据作为输入并且使用与语音训练数据对应的音素序列作为目标,来执行声学模型的初级训练。
可使用带噪语音训练数据作为输入并且使用在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布作为目标,来执行声学模型的二级训练。
带噪语音训练数据可包括:使语音训练数据失真所得的数据或者语音训练数据与训练噪声数据混合的数据。
声学模型可以是基于神经网络的声学模型。
可使用执行声学模型的训练以从语音训练数据获得音素的第一目标函数,来执行声学模型的初级训练。
可使用作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的第二目标函数,来执行声学模型的二级训练。
可使用作为以下两个目标函数的加权和的第二目标函数来执行声学模型的二级训练:执行声学模型的训练以从语音训练数据获得音素的目标函数,以及作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的目标函数。
在另一个总体方面中,一种神经网络训练设备包括:初级训练器,被构造为基于干净的训练数据和硬目标数据,来执行神经网络模型的初级训练;二级训练器,被构造为基于带噪训练数据和在神经网络模型的初级训练期间获得的软目标数据,来执行已经执行初级训练的神经网络模型的二级训练。
可通过使干净的训练数据失真或将干净的训练数据与噪声进行混合,来获得带噪训练数据。
软目标数据可以是在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。
二级训练器还可被构造为:基于带噪训练数据、软目标数据和神经网络模型的输出层的激活函数,来执行二级训练。
从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
图1是示出神经网络训练设备的示例的示图。
图2是示出神经网络训练设备的另一示例的示图。
图3是示出语音识别设备的示例的框图。
图4是示出神经网络训练方法的示例的流程图。
图5是示出神经网络训练方法的另一示例的流程图。
图6是示出语音识别方法的示例的流程图。
图7是示出计算带噪语音数据的音素概率的方法的示例的流程图。
贯穿附图和具体实施方式,相同的参考标号表示相同的元件。附图可不成比例,并且为了清楚、说明和方便,附图中的元件的相对大小、比例和描绘可被夸大。
具体实施方式
提供下面详细的描述来帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解了本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不受限于在此阐述的顺序,而是除了必须按特定的顺序发生的操作之外,在理解了本申请的公开之后将会清楚,操作顺序可被改变。另外,为了更加清楚和简明,本领域已知的特征的描述可被省略。
在此描述的特征可以以不同的形式来实现,并且不被解释为受限于在此描述的示例。相反,已经提供在此描述的示例,仅为了示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些,这在理解了本申请的公开之后将是清楚的。
图1是示出神经网络训练设备的示例的示图。
神经网络训练设备100是使用多条件训练(MCT)技术训练神经网络模型的设备。在一个示例中,神经网络模型是包括多个隐藏层的基于神经网络的声学模型,但这仅是示例,神经网络模型不受限于此。可使用典型的反向传播技术(例如,梯度下降算法、随机梯度下降算法或其他反向传播技术)来训练神经网络模型。
参照图1,神经网络训练设备100可包括初级训练器110和二级训练器120。
初级训练器110基于干净的训练数据和与干净的训练数据对应的目标数据来执行神经网络模型的初级训练。换言之,初级训练器110基于干净的训练数据和硬目标数据来执行神经网络模型的初级训练。干净的训练数据是不包含噪声的训练数据。在一个示例中,初级训练器110使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标,来执行神经网络模型的初级训练。
在一个示例中,初级训练器110使用执行神经网络模型的训练以从干净的训练数据获得对应的目标数据的目标函数(以下,称为第一目标函数),来执行神经网络模型的初级训练。例如,第一目标函数可使用主要用于多类分类的交叉熵。这可以通过下面的等式1来表示。
在等式1中,n表示输入数据(即,干净的训练数据)的样本的索引,N表示输入数据的样本的总数量,k表示输出类的索引,K表示输出类的总数量,Xn表示干净的训练数据的第n样本,yk(Xn)表示神经网络模型的输出层的激活函数。当针对Xn的第k输出类是目标类时,tnk具有1值,否则,tnk具有0值。
二级训练器120基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布,来执行已经执行初级网络训练的神经网络模型的二级训练。换言之,二级训练器120基于带噪训练数据和在神经网络模型的初级训练期间获得的软目标数据,来执行已经执行初级训练的神经网络模型的二级训练。其中,软目标数据是在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。在一个示例中,二级训练器120使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行神经网络模型的二级训练。带噪训练数据可以是使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。例如,带噪训练数据可以是干净的训练数据与各种噪声数据混合的数据,或者可以是通过将各种修改(例如,在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改,以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据而生成的失真数据。
在一个示例中,二级训练器120使用执行训练以获得在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布的目标函数(以下,称为第二目标函数),来执行已经执行初级训练的神经网络模型的二级训练。第二目标函数可以由在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合组成。
例如,第二目标函数可使用主要用于多类分类的交叉熵。这可以通过下面的等式2来表示。
在等式2中,n表示输入数据(即,带噪训练数据)的样本的索引,N表示输入数据的样本的总数量,k表示输出类的索引,K表示输出类的总数量,Xn表示带噪训练数据的第n样本,yk(Xn)表示神经网络模型的输出层的激活函数。snk表示作为在神经网络模型的初级训练期间计算的干净的训练数据的输出类的概率分布的针对第n干净的训练数据样本的第k输出类的概率分布。
在另一个示例中,第二目标函数可使用主要用于回归的欧几里得距离。这可以通过下面的等式3来表示。
在等式3中,n表示输入数据(即,带噪训练数据)的样本的索引,k表示输出类的索引,Xn表示带噪训练数据的第n样本,yk(Xn)表示神经网络模型的输出层的激活函数。snk表示作为在神经网络模型的初级训练期间计算的干净的训练数据的输出类的概率分布的针对第n干净的训练数据样本的第k输出类的概率分布。
在另一个示例中,第二目标函数可以由等式1的目标函数与等式2的目标函数的加权和,或者等式1的目标函数与等式3的目标函数的加权和组成。这可以通过下面的等式4和等式5来表示。
在等式4和等式5中,λ表示权重,并且可根据系统的性能和应用被设置为各种值。
目前描述了初级训练器110和二级训练器120使用各自的目标函数训练神经网络模型的示例,但是第一目标函数和第二目标函数可被集成为单个集成目标函数。
在一个示例中,集成目标函数可通过下面的等式6来表示。
在等式6中,dn在输入为干净的训练数据时具有0值,在输入为带噪训练数据时具有1值。λ(dn)表示权重,且在dn为0时(即,在输入为干净的训练数据时)具有0值。λ(dn)可在dn为1时(即,在输入为带噪训练数据时)根据系统的性能和应用被设置为各种值。
在另一个示例中,集成目标函数可通过下面的等式7来表示。
在等式7中,dn在输入为干净的训练数据时具有0值,在输入为带噪训练数据时具有1值。λ(dn)表示权重,且在dn为0时(即,在输入为干净的训练数据时)具有0值。λ(dn)可在dn为1时(即,在输入为带噪训练数据时)根据系统的性能和应用被设置为各种值。
图2是示出神经网络训练设备的另一示例的示图。
参照图2,当与图1的神经网络训练设备100相比时,神经网络训练设备200还包括数据获取器210、混合器220、特征提取器230和存储单元240。
数据获取器210获取用于训练神经网络模型的干净的训练数据和训练噪声数据。在一个示例中,数据获取器210从预定的数据库(DB)或外部装置获取干净的训练数据和训练噪声数据。
混合器220通过将干净的训练数据与训练噪声数据混合来生成带噪训练数据。可选择地,混合器220通过将各种改变(例如,在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改,以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据,来生成带噪训练数据。
特征提取器230使用预定的算法来提取干净的训练数据和带噪训练数据的特征(例如,滤波器组)。只要能够提取可从干净的训练数据和带噪训练数据识别出干净的训练数据和带噪训练数据中的每一个的特征,对于预定的算法的类型和功能就没有限制。
初级训练器110使用通过特征提取器230提取的干净的训练数据的特征数据作为输入来执行神经网络模型的初级训练,二级训练器120使用通过特征提取器230提取的带噪训练数据的特征数据作为输入来执行已经执行初级训练的神经网络模型的二级训练。
存储单元240存储通过初级训练器110获得的神经网络模型的初级训练结果以及在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。
存储单元240可作为存储介质包括以下项中的任意一个、或任意两个或更多个的任意组合:闪存、硬盘、多媒体卡(MMC)、MMCmicro、存储卡(例如,安全数字(SD)存储卡或极速数字(XD)存储卡)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘。
在图2的示例中,存储单元240包括在神经网络训练设备200中,但不受限于此。换句话讲,存储单元240可如图2所示位于神经网络训练设备200的内部,或者可以是连接到神经网络训练设备200的分开的外部组件。
以下,将详细描述使用由图1的神经网络训练设备100或图2的神经网络训练设备200生成的声学模型的语音识别的设备。
图3是示出语音识别设备的示例的框图。语音设别设备300可以以硬件芯片的形式制造,并安装在电子装置中。电子装置可以是TV、导航单元、车载电子装置、智能电话、平板PC、智能手表、台式计算机、膝上型PC或可穿戴装置,但不受限于此。
参照图3,语音识别设备300包括输入单元310、声学模型存储单元320和计算器330。
输入单元310接收将被执行语音识别的带噪语音数据。带噪语音数据是混合有噪声的语音数据。
声学模型存储单元320存储预先训练的声学模型。声学模型可以是通过神经网络训练设备100或神经网络训练设备200训练的基于神经网络的声学模型。
在一个示例中,声学模型是作为基于神经网络的声学模型的使用MCT技术训练的声学模型。例如,声学模型是已经执行了初级训练和二级训练的声学模型,其中,基于语音训练数据和与语音训练数据对应的音素序列执行初级训练,并基于带噪语音训练数据和在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。训练的带噪语音训练数据可以是通过将语音训练数据与训练噪声数据进行混合获得的数据。
可使用等式1至等式7的目标函数中的任意一个来训练声学模型。例如,可使用等式1的目标函数来对声学模型执行初级训练,然后可使用等式2至等式5的目标函数中的一个来对声学模型执行二级训练。在另一个示例中,可使用等式6和等式7的集成目标函数中的一个来对声学模型执行初级训练和二级训练二者。
声学模型存储单元320可作为存储介质包括以下各项中的任意一个、或任意两个或更多个的任意组合:闪存、硬盘、多媒体卡(MMC)、MMCmicro、存储卡(例如,SD存储卡或XD存储卡)、RAM、SRAM、ROM、EEPROM、PROM、磁存储器、磁盘和光盘。
在图3的示例中,声学模型存储单元320包括在语音识别设备300中,但不受限于此。换句话讲,声学模型存储单元320可如图3所示位于语音识别设备300的内部,或者可以是连接到语音识别设备300的分开的外部组件。
计算器330使用存储在声学模型存储单元320中的声学模型来计算接收的带噪语音数据的音素概率。为了完成这个操作,计算器330包括特征提取器331和音素概率计算器332。
特征提取器331使用预定的算法来提取接收的带噪语音数据的特征。只要能够提取可从其他带噪语音数据中识别出带噪语音数据的特征,对于预定的算法的类型和功能就没有限制。
音素概率计算器332使用存储在声学模型存储单元320中的声学模型来计算与通过特征提取器331提取的带噪语音数据的特征对应的音素的概率。
在图3的示例中,语音识别设备300包括输入单元310和声学模型存储单元320,但是可根据系统的性能和应用省略输入单元310和声学模型存储单元320。
图4是示出神经网络训练方法的示例的流程图。可通过图1的神经网络训练设备100执行图4的神经网络训练方法。
参照图1和图4,在操作410中,神经网络训练设备100基于干净的训练数据和与干净的训练数据对应的目标数据,来执行神经网络模型的初级训练。例如,神经网络训练设备100使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标,来执行神经网络模型的初级训练。神经网络模型可以是包括多个隐藏层的基于神经网络的声学模型,但这仅是示例,神经网络模型不受限于此。
在一个示例中,神经网络训练设备100使用等式1的目标函数(第一目标函数)来执行神经网络模型的初级训练。
在操作420中,神经网络训练设备100基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布,来执行已经执行初级训练的神经网络模型的二级训练。例如,神经网络训练设备100使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行已经执行初级训练的神经网络模型的二级训练。带噪训练数据可以是使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。例如,带噪训练数据可以是干净的训练数据与各种噪声数据混合的数据,或者可以是通过将各种修改(例如,在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改,以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据而生成的失真数据。
在一个示例中,神经网络训练设备100使用等式2至等式5的目标函数(第二目标函数)中的一个,来执行已经执行初级训练的神经网络模型的二级训练。
虽然已经描述了神经网络训练设备100在初级训练操作410和二级训练操作420中使用各自的目标函数(第一目标函数和第二目标函数)来训练神经网络模型的示例,但是第一目标函数和第二目标函数可被集成为单个集成目标函数。例如,神经网络训练设备100可使用等式6或等式7的集成目标函数,来执行初级训练操作410和二级训练操作420二者。
图5是示出神经网络训练方法的另一个示例的流程图。可通过图2的神经网络训练设备200来执行图5的神经网络训练方法。
当与图4的神经网络训练方法相比时,图5的神经网络训练方法还包括操作510至操作540。图5中的操作410和操作420与图4中的操作410和操作420相同,因此将省略它们的重复的描述。
参照图2和图5,在操作510中,神经网络训练设备200获取用于训练神经网络模型的干净的训练数据和训练噪声数据。在一个示例中,神经网络训练设备200从预定的DB或外部装置获取干净的训练数据和训练噪声数据。
在操作520中,神经网络训练设备200通过将干净的训练数据和训练噪声数据混合来生成带噪训练数据。可选择地,神经网络训练设备200可通过将各种修改(例如,在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改,以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据来生成带噪训练数据。
在操作530中,用于训练神经网络的神经网络训练设备200使用预定的算法,来提取干净的训练数据和带噪训练数据的特征(例如,滤波器组)。只要能够提取可从干净的训练数据和带噪训练数据识别出干净的训练数据和带噪训练数据中的每一个样本的特征,对于预定的算法的类型和功能就没有限制。
在操作540中,神经网络训练设备200存储神经网络模型的初级训练的初级训练结果以及在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。
图6是示出语音识别方法的示例的流程图。可通过图3的语音识别设备300执行图6的语音识别方法。
参照图3和图6,在操作610中,语音识别设备300接收将被执行语音识别的带噪语音数据。带噪语音数据是混合有噪声的语音数据。在操作620中,语音识别设备300使用预先训练的声学模型来计算接收的带噪语音数据的音素概率。
声学模型可以是作为基于神经网络的声学模型的使用MCT技术训练的声学模型。例如,声学模型可以是已经执行了初级训练和二级训练的声学模型,其中,基于语音训练数据和与语音训练数据对应的音素序列执行初级训练,并基于带噪语音训练数据和在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。训练的带噪语音训练数据可以是通过将语音训练数据与训练噪声数据进行混合获得的数据。
在一个示例中,使用等式1至等式7的目标函数中的任意一个来训练声学模型。在一个示例中,使用等式1的目标函数来对声学模型执行初级训练,并使用等式2至等式5的目标函数中的一个来对已经执行了初级训练的声学模型执行二级训练。在另一个示例中,使用等式6和等式7的集成目标函数中的一个来对声学模型执行初级训练和二级训练二者。
图7是示出计算带噪语音数据的音素概率的方法的示例的流程图。图7的计算带噪语音数据的音素概率的方法是图6的操作620的示例。
参照图3和图7,在操作710中,语音识别设备300使用预定的算法来提取接收的带噪语音数据的特征。只要能够提取可从带噪语音数据的其他样本识别出带噪语音数据的每一个样本的特征,对于预定的算法的类型和功能就没有限制。
在操作720中,语音识别设备300使用预先训练的声学模型,来计算与带噪语音数据的提取的特征对应的音素的概率。
通过硬件组件来实现执行本申请中描述的操作的图1和图2中的初级训练器110和二级训练器120,图2中的数据获取器210、混合器220、提取器230和存储单元240,以及图3中的输入单元310、声学模型存储单元320、特征提取器331和音素概率计算器332,其中,硬件组件被构造为执行本申请中描述的由硬件组件执行的操作。可被用于在适当的情况下执行本申请中描述的操作的硬件组件的示例包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任意其他电子组件。在其他示例中,执行本申请中描述的操作的硬件组件中的一个或多个硬件组件通过计算硬件(例如,通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被构造为以定义的方式响应并执行指令以实现期望的结果的任意其他装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括存储由处理器或计算机执行的指令或软件的一个或多个存储器,或者连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用),以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建并且存储数据。为了简单起见,单数术语“处理器”或“计算机”可用于本申请中所述的示例的描述,但是在其他的示例中,多个处理器或计算机可被使用,或者一个处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如,单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者一个处理器和一个控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者一个处理器和一个控制器来实现,一个或多个其他硬件组件可通过一个或多个其他处理器、或者另一个处理器和另一个控制器来实现。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置,其示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。
图4至图7所示的执行本申请中描述的操作的方法通过计算硬件(例如,通过一个或多个处理器或计算机)来执行,一个或多个处理器或计算机如上所述地被实现为执行指令或软件,以执行本申请中描述的通过该方法执行的操作。例如,单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行,并且一个或多个其他操作可通过一个或多个其他处理器或者另一个处理器和另一个控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任意组合,以单独地或共同地指示或配置一个或多个处理器或者计算机如机器或专用计算机那样进行操作,以执行由硬件组件执行的操作和如上所述的方法。在一个示例中,指令或软件包括由一个或多个处理器或者计算机直接执行的机器代码(诸如,由编译器生成的机器代码)。在另一个示例中,指令或软件包括由一个或多个处理器或者计算机使用解释器执行的高级代码。可基于附图中所示的框图和流程图以及说明书(其公开了用于执行由硬件组件执行的操作和如上所述的方法的算法)中的相应描述,使用任意编程语言来编写指令或软件。
用于控制计算硬件(例如,一个或多个处理器或者计算机)实现硬件组件并且执行如上所述的方法的指令或软件以及任意相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其它装置,其中,该任何其它装置被配置为:以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构,并且为一个或多个处理器或者计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构,使得一个或多个处理器或者计算机能够执行指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布于联网的计算机系统,使得指令和软件以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或者计算机以分布的形式被存储、访问和执行。
虽然本公开包括特定的示例,但是在理解了本申请的公开之后将清楚,在不脱离权利要求和它们的等同物的精神和范围的情况下,可在这些示例中进行形式和细节的各种改变。在此描述的示例仅在描述性意义上被考虑,而不是为了限制的目的。每一个示例中的特征或方面的描述被认为可应用于其他示例中的相似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合,和/或被其他组件或它们的等同物替换或补充,则可实现适当的结果。因此,本公开的范围不是由具体实施方式限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开内。
Claims (22)
1.一种神经网络训练设备,包括:
初级训练器,被构造为:使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标,来执行神经网络模型的初级训练;
二级训练器,被构造为:使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行已经执行初级训练的神经网络模型的二级训练。
2.根据权利要求1所述的神经网络训练设备,其中,带噪训练数据包括:使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。
3.根据权利要求1所述的神经网络训练设备,其中,神经网络模型是基于神经网络的声学模型。
4.根据权利要求1所述的神经网络训练设备,其中,初始训练器还被构造为:使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数,来执行初级训练,其中,第一目标函数是用于多类分类的交叉熵。
5.根据权利要求1所述的神经网络训练设备,其中,二级训练器还被构造为:使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数,来执行二级训练。
6.根据权利要求1所述的神经网络训练设备,其中,二级训练器还被构造为:使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练:执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数,以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。
7.一种神经网络训练方法,包括:
使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标,来执行神经网络模型的初级训练;
使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行已经执行初级训练的神经网络模型的二级训练。
8.根据权利要求7所述的神经网络训练方法,其中,带噪训练数据包括:使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。
9.根据权利要求7所述的神经网络训练方法,其中,神经网络模型是基于神经网络的声学模型。
10.根据权利要求7所述的神经网络训练方法,其中,执行初级训练的步骤包括:使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数,来执行初级训练,其中,第一目标函数是用于多类分类的交叉熵。
11.根据权利要求7所述的神经网络训练方法,其中,执行二级训练的步骤包括:使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数,来执行二级训练。
12.根据权利要求7所述的神经网络训练方法,其中,执行二级训练的步骤包括:使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练:执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数,以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。
13.一种语音识别设备,包括:
特征提取器,被构造为:提取带噪语音数据的特征;
音素概率计算器,被构造为:使用声学模型来计算与提取的特征对应的音素的概率;
其中,声学模型是已经执行了初级训练和二级训练的声学模型,
其中,使用语音训练数据作为输入并且使用与语音训练数据对应的音素序列作为目标,来执行声学模型的初级训练,
其中,使用带噪语音训练数据作为输入并且使用在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布作为目标,来执行声学模型的二级训练。
14.根据权利要求13所述的语音识别设备,其中,带噪语音训练数据包括:使语音训练数据失真所得的数据或者语音训练数据与训练噪声数据混合的数据。
15.根据权利要求13所述的语音识别设备,其中,声学模型是基于神经网络的声学模型。
16.根据权利要求13所述的语音识别设备,其中,使用执行声学模型的训练以从语音训练数据获得音素的第一目标函数,来执行声学模型的初级训练,其中,第一目标函数是用于多类分类的交叉熵。
17.根据权利要求13所述的语音识别设备,其中,使用作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的第二目标函数,来执行声学模型的二级训练。
18.根据权利要求13所述的语音识别设备,其中,使用作为以下两个目标函数的加权和的第二目标函数来执行声学模型的二级训练:执行声学模型的训练以从语音训练数据获得音素的目标函数,以及作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的目标函数。
19.一种神经网络训练设备,包括:
初级训练器,被构造为:使用干净的训练数据作为输入并且使用硬目标数据作为目标,来执行神经网络模型的初级训练,其中,硬目标数据是与干净的训练数据对应的目标数据;
二级训练器,被构造为:使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间获得的软目标数据作为目标,来执行已经执行初级训练的神经网络模型的二级训练,其中,软目标数据是在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。
20.根据权利要求19所述的神经网络训练设备,其中,通过使干净的训练数据失真或将干净的训练数据与噪声进行混合,来获得带噪训练数据。
21.根据权利要求19所述的神经网络训练设备,其中,二级训练器还被构造为:基于带噪训练数据、软目标数据和神经网络模型的输出层的激活函数,来执行二级训练。
22.一种存储指令的计算机可读介质,当由处理器执行所述指令时使得处理器执行权利要求7所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150156152A KR102494139B1 (ko) | 2015-11-06 | 2015-11-06 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
KR10-2015-0156152 | 2015-11-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106683663A CN106683663A (zh) | 2017-05-17 |
CN106683663B true CN106683663B (zh) | 2022-01-25 |
Family
ID=57256114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610977394.5A Active CN106683663B (zh) | 2015-11-06 | 2016-11-07 | 神经网络训练设备和方法以及语音识别设备和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10529317B2 (zh) |
EP (1) | EP3166105B1 (zh) |
JP (1) | JP6861500B2 (zh) |
KR (1) | KR102494139B1 (zh) |
CN (1) | CN106683663B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102209689B1 (ko) * | 2015-09-10 | 2021-01-28 | 삼성전자주식회사 | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 |
JP6763408B2 (ja) * | 2016-01-19 | 2020-09-30 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
JP2018187006A (ja) * | 2017-04-30 | 2018-11-29 | 株式会社藤商事 | 回胴式遊技機 |
US11195093B2 (en) * | 2017-05-18 | 2021-12-07 | Samsung Electronics Co., Ltd | Apparatus and method for student-teacher transfer learning network using knowledge bridge |
TWI767000B (zh) * | 2017-05-20 | 2022-06-11 | 英商淵慧科技有限公司 | 產生波形之方法及電腦儲存媒體 |
CN109147773B (zh) * | 2017-06-16 | 2021-10-26 | 上海寒武纪信息科技有限公司 | 一种语音识别装置和方法 |
CN107680582B (zh) * | 2017-07-28 | 2021-03-26 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107610709B (zh) * | 2017-08-01 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及系统 |
KR102563752B1 (ko) | 2017-09-29 | 2023-08-04 | 삼성전자주식회사 | 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들 |
CN108417224B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
KR20190129580A (ko) | 2018-05-11 | 2019-11-20 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
CN109166571B (zh) * | 2018-08-06 | 2020-11-24 | 广东美的厨房电器制造有限公司 | 家电设备的唤醒词训练方法、装置及家电设备 |
US20200019840A1 (en) * | 2018-07-13 | 2020-01-16 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for sequential event prediction with noise-contrastive estimation for marked temporal point process |
EP3598777B1 (en) | 2018-07-18 | 2023-10-11 | Oticon A/s | A hearing device comprising a speech presence probability estimator |
CN109036412A (zh) * | 2018-09-17 | 2018-12-18 | 苏州奇梦者网络科技有限公司 | 语音唤醒方法和系统 |
CN109448746B (zh) * | 2018-09-28 | 2020-03-24 | 百度在线网络技术(北京)有限公司 | 语音降噪方法及装置 |
CN111383651A (zh) * | 2018-12-29 | 2020-07-07 | Tcl集团股份有限公司 | 一种语音降噪方法、装置及终端设备 |
KR102002549B1 (ko) * | 2019-01-23 | 2019-07-22 | 주식회사 솔리드웨어 | 다단계 분류모델 생성 방법 및 그 장치 |
CN109872730B (zh) * | 2019-03-14 | 2021-01-12 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN111783932A (zh) * | 2019-04-03 | 2020-10-16 | 华为技术有限公司 | 训练神经网络的方法和装置 |
KR20210010284A (ko) | 2019-07-18 | 2021-01-27 | 삼성전자주식회사 | 인공지능 모델의 개인화 방법 및 장치 |
KR102321798B1 (ko) * | 2019-08-15 | 2021-11-05 | 엘지전자 주식회사 | 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스 |
CN110349571B (zh) * | 2019-08-23 | 2021-09-07 | 北京声智科技有限公司 | 一种基于连接时序分类的训练方法及相关装置 |
US11900246B2 (en) | 2019-09-02 | 2024-02-13 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing user based on on-device training |
CN110634476B (zh) * | 2019-10-09 | 2022-06-14 | 深圳大学 | 一种快速搭建鲁棒性声学模型的方法及系统 |
KR102663669B1 (ko) * | 2019-11-01 | 2024-05-08 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
US20210142177A1 (en) * | 2019-11-13 | 2021-05-13 | Nvidia Corporation | Synthesizing data for training one or more neural networks |
DE102020201400A1 (de) | 2020-02-05 | 2021-08-05 | Zf Friedrichshafen Ag | Generieren von akustischen Trainingsdaten |
US11475220B2 (en) * | 2020-02-21 | 2022-10-18 | Adobe Inc. | Predicting joint intent-slot structure |
CN111582463B (zh) * | 2020-06-08 | 2024-02-09 | 佛山金华信智能科技有限公司 | 伺服电机故障识别及模型训练方法、装置、介质及终端 |
US11455534B2 (en) * | 2020-06-09 | 2022-09-27 | Macronix International Co., Ltd. | Data set cleaning for artificial neural network training |
US11741944B2 (en) * | 2020-11-24 | 2023-08-29 | Google Llc | Speech personalization and federated training using real world noise |
CN112992170B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
KR102362872B1 (ko) * | 2021-06-08 | 2022-02-15 | 오브젠 주식회사 | 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 |
GB202203733D0 (en) * | 2022-03-17 | 2022-05-04 | Samsung Electronics Co Ltd | Patched multi-condition training for robust speech recognition |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446038B1 (en) * | 1996-04-01 | 2002-09-03 | Qwest Communications International, Inc. | Method and system for objectively evaluating speech |
US20040199384A1 (en) * | 2003-04-04 | 2004-10-07 | Wei-Tyng Hong | Speech model training technique for speech recognition |
CN1737906A (zh) * | 2004-03-23 | 2006-02-22 | 哈曼贝克自动系统-威美科公司 | 利用中枢网络分离语音信号 |
CN103474066A (zh) * | 2013-10-11 | 2013-12-25 | 福州大学 | 基于多频带信号重构的生态声音识别方法 |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
US8972256B2 (en) * | 2011-10-17 | 2015-03-03 | Nuance Communications, Inc. | System and method for dynamic noise adaptation for robust automatic speech recognition |
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE68928484T2 (de) | 1988-03-25 | 1998-07-23 | Hitachi Ltd | Verfahren zum erkennen von bildstrukturen |
EP0586714B1 (en) * | 1992-03-30 | 2000-03-08 | Seiko Epson Corporation | Speech recognition apparatus using neural network, and learning method therefor |
DE19531967C2 (de) | 1995-08-30 | 1997-09-11 | Siemens Ag | Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems |
KR100199296B1 (ko) | 1996-10-02 | 1999-06-15 | 이계철 | 규칙적인 잡음을 이용한 한글 인식 시스템 |
JP3614662B2 (ja) | 1998-06-12 | 2005-01-26 | 日本電信電話株式会社 | 時空間パターン検出方法及び装置ならびに記録媒体 |
JP2000259598A (ja) | 1999-03-12 | 2000-09-22 | Fuji Electric Co Ltd | ニューラルネットワークの最適化学習方法 |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
KR100576803B1 (ko) | 2003-12-11 | 2006-05-10 | 한국전자통신연구원 | 신경망에 기반한 음성, 영상, 및 문맥의 통합 음성인식장치 및 방법 |
WO2006000103A1 (en) * | 2004-06-29 | 2006-01-05 | Universite De Sherbrooke | Spiking neural network and use thereof |
WO2006099621A2 (en) * | 2005-03-17 | 2006-09-21 | University Of Southern California | Topic specific language models built from large numbers of documents |
US20060277028A1 (en) * | 2005-06-01 | 2006-12-07 | Microsoft Corporation | Training a statistical parser on noisy data by filtering |
JP5212910B2 (ja) * | 2006-07-07 | 2013-06-19 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識用プログラム |
KR100908121B1 (ko) | 2006-12-15 | 2009-07-16 | 삼성전자주식회사 | 음성 특징 벡터 변환 방법 및 장치 |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
TR201810466T4 (tr) * | 2008-08-05 | 2018-08-27 | Fraunhofer Ges Forschung | Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. |
US20100145687A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Removing noise from speech |
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
EP2259214B1 (en) | 2009-06-04 | 2013-02-27 | Honda Research Institute Europe GmbH | Implementing a neural associative memory based on non-linear learning of discrete synapses |
JP5027859B2 (ja) | 2009-10-26 | 2012-09-19 | パナソニック デバイスSunx株式会社 | 信号識別方法および信号識別装置 |
US8265928B2 (en) * | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8447596B2 (en) * | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8725669B1 (en) * | 2010-08-02 | 2014-05-13 | Chi Yung Fu | Signal processing method and apparatus |
TWI442384B (zh) * | 2011-07-26 | 2014-06-21 | Ind Tech Res Inst | 以麥克風陣列為基礎之語音辨識系統與方法 |
US9477925B2 (en) | 2012-11-20 | 2016-10-25 | Microsoft Technology Licensing, Llc | Deep neural networks training for speech and pattern recognition |
KR101558653B1 (ko) | 2013-06-14 | 2015-10-08 | 전북대학교산학협력단 | 신경망을 이용한 영상의 화질 개선 시스템 및 방법 |
US9679224B2 (en) * | 2013-06-28 | 2017-06-13 | Cognex Corporation | Semi-supervised method for training multiple pattern recognition and registration tool models |
US9508347B2 (en) * | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
US9633671B2 (en) * | 2013-10-18 | 2017-04-25 | Apple Inc. | Voice quality enhancement techniques, speech recognition techniques, and related systems |
EP3192071A4 (en) * | 2014-09-09 | 2017-08-23 | Microsoft Technology Licensing, LLC | Variable-component deep neural network for robust speech recognition |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US9666183B2 (en) * | 2015-03-27 | 2017-05-30 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
-
2015
- 2015-11-06 KR KR1020150156152A patent/KR102494139B1/ko active IP Right Grant
-
2016
- 2016-11-04 US US15/344,110 patent/US10529317B2/en active Active
- 2016-11-04 JP JP2016216662A patent/JP6861500B2/ja active Active
- 2016-11-07 EP EP16197493.6A patent/EP3166105B1/en active Active
- 2016-11-07 CN CN201610977394.5A patent/CN106683663B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446038B1 (en) * | 1996-04-01 | 2002-09-03 | Qwest Communications International, Inc. | Method and system for objectively evaluating speech |
US20040199384A1 (en) * | 2003-04-04 | 2004-10-07 | Wei-Tyng Hong | Speech model training technique for speech recognition |
CN1737906A (zh) * | 2004-03-23 | 2006-02-22 | 哈曼贝克自动系统-威美科公司 | 利用中枢网络分离语音信号 |
US8972256B2 (en) * | 2011-10-17 | 2015-03-03 | Nuance Communications, Inc. | System and method for dynamic noise adaptation for robust automatic speech recognition |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN103474066A (zh) * | 2013-10-11 | 2013-12-25 | 福州大学 | 基于多频带信号重构的生态声音识别方法 |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
Non-Patent Citations (3)
Title |
---|
A Study on Deep Neural Network Acoustic Model Adaptation for Robust;Seyedmahdad Mirsamadi;《INTERSPEECH 2015》;20150906;全文 * |
Using dynamic synapse based neural networks with wavelet preprocessing for speech applications;S. George;《Proceedings of the International Joint Conference on Neural Networks, 2003.》;20030826;全文 * |
噪声环境下汉语数字语音识别系统的研究;孙炯宁;《中国优秀硕士学位论文全文数据库》;20050430(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
KR102494139B1 (ko) | 2023-01-31 |
JP2017090912A (ja) | 2017-05-25 |
KR20170053525A (ko) | 2017-05-16 |
US20170133006A1 (en) | 2017-05-11 |
JP6861500B2 (ja) | 2021-04-21 |
EP3166105B1 (en) | 2019-09-18 |
US10529317B2 (en) | 2020-01-07 |
EP3166105A1 (en) | 2017-05-10 |
CN106683663A (zh) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683663B (zh) | 神经网络训练设备和方法以及语音识别设备和方法 | |
CN106531155B (zh) | 生成声学模型的设备和方法和用于语音识别的设备和方法 | |
US10650328B2 (en) | Training distilled machine learning models | |
JP6765445B2 (ja) | ニューラルネットワークを使用した周波数ベースのオーディオ分析 | |
US11455473B2 (en) | Vector representation based on context | |
US8996452B2 (en) | Generating a predictive model from multiple data sources | |
US10984198B2 (en) | Automated testing of dialog systems | |
US10552711B2 (en) | Apparatus and method for extracting sound source from multi-channel audio signal | |
WO2016054778A1 (en) | Generic object detection in images | |
JP2019517057A (ja) | ワイドアンドディープマシンラーニングモデル | |
US9570069B2 (en) | Sectioned memory networks for online word-spotting in continuous speech | |
US20180018392A1 (en) | Topic identification based on functional summarization | |
CN112825249A (zh) | 语音处理方法和设备 | |
US20230177089A1 (en) | Identifying similar content in a multi-item embedding space | |
US10755171B1 (en) | Hiding and detecting information using neural networks | |
CN109522541B (zh) | 服务外句子生成方法和设备 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
US20230237987A1 (en) | Data sorting for generating rnn-t models | |
US20230186072A1 (en) | Extracting explanations from attention-based models | |
US11741722B2 (en) | Coarse-to-fine attention networks for light signal detection and recognition | |
US11734602B2 (en) | Methods and systems for automated feature generation utilizing formula semantification | |
Zong et al. | Towards visualizing and detecting audio adversarial examples for automatic speech recognition | |
KR20210044003A (ko) | 단어 임베딩 방법 및 장치와 단어 검색 방법 | |
US20230334839A1 (en) | Feature extraction | |
CN115953639A (zh) | 用于图像识别和用于训练图像识别模型的电子设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |