CN110299132A - 一种语音数字识别方法和装置 - Google Patents
一种语音数字识别方法和装置 Download PDFInfo
- Publication number
- CN110299132A CN110299132A CN201910560346.XA CN201910560346A CN110299132A CN 110299132 A CN110299132 A CN 110299132A CN 201910560346 A CN201910560346 A CN 201910560346A CN 110299132 A CN110299132 A CN 110299132A
- Authority
- CN
- China
- Prior art keywords
- network
- network model
- sub
- full articulamentum
- last layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 229940050561 matrix product Drugs 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 241001672694 Citrus reticulata Species 0.000 description 8
- 238000013508 migration Methods 0.000 description 8
- 230000005012 migration Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供了一种数字语音数据识别方法和装置,该方法包括:获取待识别的数字语音数据;使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量;基于预设的DS2网络模型对所述频谱特征矢量进行识别,获得识别出的数字;其中,所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。该方法能够降低模型训练时间,提高识别的准确率。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音数字识别方法和装置。
背景技术
语音数字识别是自动语音识别(Automatic Speech Recognition,ASR)技术的一个重要分支,在用户身份识别、活体认证、网络数据抓取等计算机应用领域扮演重要角色。
然而,在实际应用场景下,待识别的语音数据中可能存在口音、方言、背景噪声干扰等多种复杂因素,给高准确率的语音数字验证码识别带来巨大挑战。
针对语音数字识别的问题,传统的方法通常以音素为建模单元,采用基于混合高斯模型的隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)建立声学模型,并结合发音词典获得最后的识别结果。
在该方法中,GMM描述可观察的过程,HMM描述隐藏的马尔可夫过程,通过利用大量的语音标注数据对这两个相互依赖的随机过程进行训练,获得语音信号的前后依赖状态关系,来实现语音数字验证码识别。然而,由于GMM-HMM模型基于每个HMM状态之间语音数据时间独立性的假设,忽略了声学特征和语音产生方式(如语速和风格)之间的相关性,因此,在实际应用场景的语音数字验证码识别任务中,该方法的准确率往往较差。
近年来,随着深度学习(Deep Learning,DL)技术的高速发展,基于深度神经网络(Deep Neural Network,DNN)的声学模型相比于传统的GMM-HMM模型的性能获得了显著的提升。
然而,该类方法的语音识别性能受训练数据特性的影响较大。由于在训练过程中采用的普通话场景数据与实际的线上数字验证码数据在发音、语速、方言、背景噪音等方面差别较大。例如,当采用该方法对由四个数字组成的线上语音数字数据进行测试时,其整句的正确率仅为50%左右,难以满足实际应用场景的性能需求。
发明内容
有鉴于此,本申请提供一种数字语音数据识别方法和装置,能够降低模型训练时间,提高识别的准确率。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种数字语音数据识别方法,所述方法包括:
获取待识别的数字语音数据;
使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量;
基于预设的DS2网络模型对所述频谱特征矢量进行识别,获得识别出的数字;
其中,所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。
在另一个实施例中,提供了一种数字语音数据识别装置,所述装置包括:获取单元、提取单元、建立单元和识别单元;
所述获取单元,用于获取待识别的数字语音数据;
所述提取单元,用于使用短时傅里叶变换提取所述获取单元获取的数字语音数据的频谱特征矢量;
所述建立单元,用于建立预设的DS2网络模型;其中,所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得;
所述识别单元,用于基于所述建立单元建立的预设的DS2网络模型对所述频谱特征矢量进行识别,获得识别出的数字。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述数字语音数据识别方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述数字语音数据识别方法的步骤。
由上面的技术方案可见,上述实施例中利用深度迁移学习,将初始DS2网络模型的训练结果迁移至本申请中修改最后一层全连接层的输出的初始的DS2网络模型中,在现有模型的基础上进行训练获得预设的DS2网络模型,降低了使用样本的数量,以及模型的训练时间,并且使用预设的DS2网络模型识别数字语音数据的准确率高。
附图说明
以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围:
图1为初始DS2网络模型结构示意图;
图2为本申请实施例中设置了最后一层全连接层后的初始DS2网络模型示意图;
图3为本申请实施例中对第二子网络的参数进行训练的结果示意图;
图4为本申请实施例中对整个网络进行训练的结果示意图;
图5为本申请实施例中数字语音数据识别流程示意图;
图6为本申请实施例中应用于上述技术的装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本发明的技术方案进行详细说明。
本申请实施例中提供一种数字语音数据识别方法,可应用于数字验证码等场景中;利用深度迁移学习,将初始DS2网络模型的训练结果迁移至本申请中修改最后一层全连接层的输出的初始的DS2网络模型中,在现有模型的基础上进行训练获得预设的DS2网络模型,降低了使用样本的数量,以及模型的训练时间,并且使用预设的DS2网络模型识别数字语音数据的准确率高。
2015年,D.Amodei等人提出了一种基于DNN的端到端语音识别方法,称为深度学习2(Deep Speech 2,DS2)。该方法包含了多层卷积层、循环卷积层以及全连接层,通过利用大量已标注语音数据,建立从语音频谱到文本结果的端到端网络模型,并获得了较好的普通话识别结果。
本申请实施例中的初始DS2网络模型为上述D.Amodei等人提出了的基于DNN的端到端语音识别方法中的DS2网络模型。
本申请实施例中建立预设的DS2网络模型的过程如下:
第一步、设置初始DS2网络模型的最后一层全连接层的输出点为从0到9的10个数字。
本申请实施例中的初始DS2网络模型为现有使用普通语音数据训练好的网络模型,具体示例如下,但不限于如下实现方式:
定义领域D={x,p(x)},包括特征空间x和边缘概率分布p(x)。任务域T={y,p(y|x)}包括类别空间y和条件概率分布p(y|x),也叫预测模型。源域中利用大量样本数据训练获得从源域的领域Ds到源域的任务域Ts的深度神经网络非线性映射函数fs,深度迁移学习的指在源域模型{Ds,Ts,fs}基础上,对进行迁移学习,获得目标域的领域Dt到目标域的任务域Tt的非线性映射函数。
假设源域的领域Ds为5000小时实际金融客服场景普通话语音数据,语音数据的采样率为8kHz,包括汉字、数字、字母等内容。源域的任务域Ts为该场景下的普通话语音识别,即语音识别输出对应汉字、数字和字母等内容。源域中的fs为通过DS2网络训练获得的非线性模型。
参见图1,图1为初始DS2网络模型结构示意图。图1中的模型结构由3层卷积神经网络(Convolutional Neural Network,CNN),5层门控循环单元(Gated Recurrent Unit,GRU)和2层全连接层(Fully Connected:FC)组成,损失函数选用联结时间分类损失函数(Connectionist Temporal Classification Loss,CTC Loss),其中CNN层和GRU层的层数根据实际需要设置。
假设目标域的领域Dt为30000条线上金融业务中数字语音数据,采样率为8kHz,每条语音包括4个普通话念出的阿拉伯数字。目标域的任务域Tt为语音数字。
也就是说本申请实施例中建立的预设的DS2网络模型是针对数字语音数据的,也就是说将一串语音数据识别为一串数字,如“2478”等。因此,数字语音数据的任务域包括“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”共10类,每一类分别对应相应的语音,其中根据普通话发音的习惯,任务域中的“1”对应的语音类型包括“一”和“幺”两种发音模式,无论哪种发音模式,都会被识别为数字“1”。
因此,本申请实施例中直接将针对普通话语音数据建立的初始DS2网络模型设置最后一层全连接层作为针对数字语音数据的初始DS2网络模型。
也就是说,在现有源域的模型的基础上,修改最后一层全连接层FC,2,将输出节点个数改为10个,对应0至9共10个数字,可以得到最后一层全连接层FC,2满足如下条件:
最后一层全连接层FC,2的输出矢量为:另一个全连接层FC,1的输出矢量同最后一层全连接层的权重矩阵的乘积,与最后一层全连接层的偏置向量的和。使用公式表示为如下:
hn=Wnhn-1+bn;
其中n为网络总层数,hn为全连接层FC,2的输出矢量,hn-1为全连接层FC,1的输出矢量,Wn为全连接层FC,2的权重矩阵,bn为全连接层FC,2的偏置向量。
这里直接修改全连接层即可作为后续的初始训练模型的方式,能够节省训练成本,如样本量的减少、时间的减少等。
第二步、对设置后的初始DS2网络模型,进行初始化。
设置后的初始DS2网络模型包括两个网络,分别为:第一子网络和第二子网络;其中,第二子网络为初始DS2网络模型的最后一层全连接层;所述第一子网络为初始DS2网络模型中第二子网络之外的所有层。
参见图2,图2为本申请实施例中设置了最后一层全连接层后的初始DS2网络模型示意图。
图2与图1不同的地方就是针对最后一层全连接层FC,2进行了设置,因此初始化的时候,针对与初始DS2网络模型一样的网络即可使用已训练的参数初始化,初始化过程具体如下:
第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数;即第一子网络的初始化使用源域训练的网络对应的参数;
第二子网络的初始化参数满足如下条件:
权重矩阵中的元素的值满足高斯分布。即初始化参数满足为:
Wn,ij~G(0,σW);bn,i=0.1。
其中,G(0,σW)为均值为0标准差为σW的高斯分布,本发明中标准差根据实际需要设置,如σW=0.1。Wn,ij为权重矩阵Wn的第i行第j个元素,bn,i为偏置向量bn的第i个元素。
第三步、对初始化后的初始DS2网络模型进行训练,获得预设的DS2网络模型。
训练过程分为两个阶段,具体如下:
第一阶段:固定第一子网络的参数,对第二子网络参数进行训练,直到第二子网络收敛。
首先、获取数字语音数据作为样本;
其次、利用短时傅里叶变换提取所述数字语音数据的频谱特征矢量,进行模型训练。频谱特征矢量的提取过程具体如下:
数字语音数据为li,li(k)为k时刻语音数据取值,其中k∈[0,Ki],Ki为语音数据li总的持续时间。通过对语音数据li进行短时傅立叶变换(Short-Time Fourier Transform,STFT),可得频谱特征,如下:
Li=F(li);
其中,F(·)为短时傅立叶变换。
具体实现时,STFT的窗口大小可以为20ms,窗口滑动步长可以为10ms。通过STFT可以获得每一段语音数据的81维频谱信息序列。
上述给出的是一种频谱特征矢量的获取方式,具体实现时,不限于上述特征提取方式。
最后、设置学习率,固定第一子网的参数,即图2中的子网络N1的所有参数,也就是说在训练过程中,第一子网络的参数保持不变;在设置的学习率的前提下对第二子网络进行训练,直到第二子网络收敛,即损失函数不再变化。
通过固定子网络N1,可以利用源域模型的训练参数特征提取的结果,避免的重复训练,从而实现将源域普通话识别的知识迁移至数字语音数据识别中。
参见图3,图3为本申请实施例中对第二子网络的参数进行训练的结果示意图。
图3中的学习率η1设置为4×10-4,在经过第一阶段训练后,对测试集合的准确率收敛至0.17,训练集准确率稳定在0.9附近。整个训练过程在单GPU上进行,总时长为0.5小时。
第二阶段:针对所述初始DS2网络模型的全部参数进行训练,获得预设的DS2网络模型。
本阶段相当于将整个网络打开,也就是说该网络模型中的所有参数都不固定,都可以通过训练来调整。
针对该阶段设置的学习率低于第一阶段设置的学习率,通过降低学习率,实现对整个网络参数的微调,最终获得预设的DS2网络模型。
参见图4,图4为本申请实施例中对整个网络进行训练的结果示意图。图4中,在将整个网络打开后(对应迭代次数1.02×105),对测试集合的准确率快速下降并收敛至0.05,训练集准确率稳定在1附近。此步骤的训练时长为0.5小时。
至此,预设的DS2网络模型训练完毕,可以用于数字语音数据的识别。
本申请实施例中根据语音数据和语音识别任务构建深度迁移学习的源域和目标域,其中源域为普通话语音识别,目标域为语音数字验证码识别;对数字语音数据进行频谱特征提取在源域模型的基础上,建立深度学习网络模型,并利用源域的模型参数对数字语音数据识别模型参数进行初始化。通过固定部分子网络的参数,并仅对最后一层子网络参数进行训练;然后打开整个网络,降低学习率,对全网络参数进行微调训练,获得最终的语音数字验证码识别模型。
下面结合附图,详细描述本申请实施例中实现数字语音数据的识别过程。
实现数字语音数据识别的主体可以为一台PC等,即具有语音处理能力的设备即可,在下文为了描述方便简称为识别设备。
参见图5,图5为本申请实施例中数字语音数据识别流程示意图。具体步骤为:
步骤501,识别设备获取待识别的数字语音数据。
这里的数字语音数据可以为由其他网络设备传输到本识别设备上,也可以通过拷贝的方式实现数字语音数据的获取。
步骤502,该识别设备使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量。
步骤503,该识别设备基于预设的DS2网络模型对所述频谱特征矢量进行识别,获得识别出的数字。
其中,所述预设的DS2网络模型通过设置最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。
本申请实施例中使用预设的DS2网络模型进行语音识别能够提高识别的正确率。
基于同样的发明构思,本申请实施例中还提供一种数字语音数据识别装置。参见图6,图6为本申请实施例中应用于上述技术的装置结构示意图。该装置包括:获取单元601、提取单元602、建立单元603和识别单元604;
获取单元601,用于获取待识别的数字语音数据;
提取单元602,用于使用短时傅里叶变换提取获取单元601获取的数字语音数据的频谱特征矢量;
建立单元603,用于建立预设的DS2网络模型;其中,所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得;其中,所述最后一层全连接层的输出矢量为:另一个全连接层的输出矢量同最后一层全连接层的权重矩阵的乘积,与最后一层全连接层的偏置向量的和。
识别单元604,用于基于建立单元603建立的预设的DS2网络模型对提取单元602提取的频谱特征矢量进行识别,获得识别出的数字。
优选地,
建立单元603,具体用于训练重设最后一层全连接层的初始DS2网络模型,得到预设的DS2网络模型时,初始化重设最后一层全连接层的初始DS2网络模型;固定第一子网络的参数,对第二子网络参数进行训练,直到第二子网络收敛;其中,重设最后一层全连接层的初始DS2网络模型包括第一子网络和第二子网络,所述第二子网络为重设最后一层全连接层的初始DS2网络模型的最后一层全连接层;所述第一子网络为重设最后一层全连接层的初始DS2网络模型中第二子网络之外的所有层;针对所述重设最后一层全连接层的初始DS2网络模型的全部参数进行训练,获得预设的DS2网络模型。
其中,针对固定第一子网络的参数,对第二子网络参数进行训练时设置的学习率高于针对所述重设最后一层全连接层的初始DS2网络模型进行训练时设置的学习率。
优选地,
建立单元603,具体用于初始化重设最后一层全连接层的初始DS2网络模型时,包括:第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数;第二子网络的初始化参数满足如下条件:权重矩阵中的元素的值满足高斯分布。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述数字语音数据识别方法的步骤。
在另一个实施例中,本申请实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述数字语音识别方法的步骤。
综上所述,本申请在现有基于DNN语音识别模型的基础上,利用深度迁移学习,进行数字语音数据识别训练样本的方法。本申请实施例中提出的基于深度迁移学习的数字语音数据识别方法,将现有DNN语音识别模型在普通识别中的训练知识迁移至语音数字验证码识别应用中,避开了重零开始学习的过程,仅采用少量标注数据,通过少量参数训练,获得准确的语音数字验证码识别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种数字语音数据识别方法,其特征在于,所述方法包括:
获取待识别的数字语音数据;
使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量;
基于预设的深度语音DS2网络模型对所述频谱特征矢量进行识别,获得识别出的数字;
其中,所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。
2.根据权利要求1所述的方法,其特征在于,训练重设最后一层全连接层的初始DS2网络模型,得到预设的DS2网络模型,包括:
初始化重设最后一层全连接层的初始DS2网络模型;
固定第一子网络的参数,对第二子网络参数进行训练,直到第二子网络收敛;其中,重设最后一层全连接层的初始DS2网络模型包括第一子网络和第二子网络,所述第二子网络为重设最后一层全连接层的初始DS2网络模型的最后一层全连接层;所述第一子网络为重设最后一层全连接层的初始DS2网络模型中第二子网络之外的所有层;
针对所述重设最后一层全连接层的初始DS2网络模型的全部参数进行训练,获得预设的DS2网络模型。
3.根据权利要求2所述的方法,其特征在于,所述初始化重设最后一层全连接层的初始DS2网络模型,包括:
第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数;
第二子网络的初始化参数满足如下条件:
权重矩阵中的元素的值满足高斯分布。
4.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:
针对固定第一子网络的参数,对第二子网络参数进行训练时设置的学习率高于针对所述重设最后一层全连接层的初始DS2网络模型进行训练时设置的学习率。
5.根据权利要求1-4任一项所述的方法,其特征在于,
所述最后一层全连接层的输出矢量为:另一个全连接层的输出矢量同最后一层全连接层的权重矩阵的乘积,与最后一层全连接层的偏置向量的和。
6.一种数字语音数据识别装置,其特征在于,所述装置包括:获取单元、提取单元、建立单元和识别单元;
所述获取单元,用于获取待识别的数字语音数据;
所述提取单元,用于使用短时傅里叶变换提取所述获取单元获取的数字语音数据的频谱特征矢量;
所述建立单元,用于建立预设的深度语音DS2网络模型;其中,所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得;
所述识别单元,用于基于所述建立单元建立的预设的DS2网络模型对所述频谱特征矢量进行识别,获得识别出的数字。
7.根据权利要求6所述的装置,其特征在于,
所述建立单元,具体用于训练重设最后一层全连接层的初始DS2网络模型,得到预设的DS2网络模型时,初始化重设最后一层全连接层的初始DS2网络模型;固定第一子网络的参数,对第二子网络参数进行训练,直到第二子网络收敛;其中,重设最后一层全连接层的初始DS2网络模型包括第一子网络和第二子网络,所述第二子网络为重设最后一层全连接层的初始DS2网络模型的最后一层全连接层;所述第一子网络为重设最后一层全连接层的初始DS2网络模型中第二子网络之外的所有层;针对所述重设最后一层全连接层的初始DS2网络模型的全部参数进行训练,获得预设的DS2网络模型。
8.根据权利要求7所述的装置,其特征在于,
所述建立单元,具体用于初始化重设最后一层全连接层的初始DS2网络模型时,包括:第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数;第二子网络的初始化参数满足如下条件:权重矩阵中的元素的值满足高斯分布。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560346.XA CN110299132B (zh) | 2019-06-26 | 2019-06-26 | 一种语音数字识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560346.XA CN110299132B (zh) | 2019-06-26 | 2019-06-26 | 一种语音数字识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110299132A true CN110299132A (zh) | 2019-10-01 |
CN110299132B CN110299132B (zh) | 2021-11-02 |
Family
ID=68028913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910560346.XA Active CN110299132B (zh) | 2019-06-26 | 2019-06-26 | 一种语音数字识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110299132B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853629A (zh) * | 2019-11-21 | 2020-02-28 | 中科智云科技有限公司 | 一种基于深度学习的语音识别数字的方法 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN112185361A (zh) * | 2020-09-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法、装置、电子设备及存储介质 |
CN112259079A (zh) * | 2020-10-19 | 2021-01-22 | 北京有竹居网络技术有限公司 | 语音识别的方法、装置、设备和计算机可读介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079711A (zh) * | 2013-03-29 | 2014-10-01 | 上海城际互通通信有限公司 | 一种基于语音识别的呼叫方法 |
CN106710591A (zh) * | 2016-12-13 | 2017-05-24 | 云南电网有限责任公司电力科学研究院 | 用于电力终端的语音客服系统 |
CN107004410A (zh) * | 2014-10-01 | 2017-08-01 | 西布雷恩公司 | 语音和连接平台 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN107945791A (zh) * | 2017-12-05 | 2018-04-20 | 华南理工大学 | 一种基于深度学习目标检测的语音识别方法 |
CN108022587A (zh) * | 2017-12-15 | 2018-05-11 | 深圳市声扬科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN108257602A (zh) * | 2018-01-30 | 2018-07-06 | 海信集团有限公司 | 车牌号字符串矫正方法、装置、服务器和终端 |
CN108510985A (zh) * | 2017-02-24 | 2018-09-07 | 百度(美国)有限责任公司 | 用于减小生产语音模型中的原则性偏差的系统和方法 |
CN108735202A (zh) * | 2017-03-13 | 2018-11-02 | 百度(美国)有限责任公司 | 用于小占用资源关键词检索的卷积递归神经网络 |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN109147766A (zh) * | 2018-07-06 | 2019-01-04 | 北京爱医声科技有限公司 | 基于端到端深度学习模型的语音识别方法及系统 |
CN109729215A (zh) * | 2017-10-31 | 2019-05-07 | 北京搜狗科技发展有限公司 | 一种通讯录的处理方法和装置 |
-
2019
- 2019-06-26 CN CN201910560346.XA patent/CN110299132B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079711A (zh) * | 2013-03-29 | 2014-10-01 | 上海城际互通通信有限公司 | 一种基于语音识别的呼叫方法 |
CN107004410A (zh) * | 2014-10-01 | 2017-08-01 | 西布雷恩公司 | 语音和连接平台 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN106710591A (zh) * | 2016-12-13 | 2017-05-24 | 云南电网有限责任公司电力科学研究院 | 用于电力终端的语音客服系统 |
CN108510985A (zh) * | 2017-02-24 | 2018-09-07 | 百度(美国)有限责任公司 | 用于减小生产语音模型中的原则性偏差的系统和方法 |
CN108735202A (zh) * | 2017-03-13 | 2018-11-02 | 百度(美国)有限责任公司 | 用于小占用资源关键词检索的卷积递归神经网络 |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN109729215A (zh) * | 2017-10-31 | 2019-05-07 | 北京搜狗科技发展有限公司 | 一种通讯录的处理方法和装置 |
CN107945791A (zh) * | 2017-12-05 | 2018-04-20 | 华南理工大学 | 一种基于深度学习目标检测的语音识别方法 |
CN108022587A (zh) * | 2017-12-15 | 2018-05-11 | 深圳市声扬科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN108257602A (zh) * | 2018-01-30 | 2018-07-06 | 海信集团有限公司 | 车牌号字符串矫正方法、装置、服务器和终端 |
CN109147766A (zh) * | 2018-07-06 | 2019-01-04 | 北京爱医声科技有限公司 | 基于端到端深度学习模型的语音识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
DARIO AMODEI ETC: "Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin", 《PROCEEDINGS OF THE 33RD INTERNATIONAL CONFERENCE ON MACHINE》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN110853629A (zh) * | 2019-11-21 | 2020-02-28 | 中科智云科技有限公司 | 一种基于深度学习的语音识别数字的方法 |
CN112185361A (zh) * | 2020-09-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法、装置、电子设备及存储介质 |
CN112185361B (zh) * | 2020-09-29 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法、装置、电子设备及存储介质 |
CN112259079A (zh) * | 2020-10-19 | 2021-01-22 | 北京有竹居网络技术有限公司 | 语音识别的方法、装置、设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110299132B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
Jiang et al. | Parallelized convolutional recurrent neural network with spectral features for speech emotion recognition | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN111276131B (zh) | 一种基于深度神经网络的多类声学特征整合方法和系统 | |
CN110299132A (zh) | 一种语音数字识别方法和装置 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110289003A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN111613212B (zh) | 语音识别方法、系统、电子设备和存储介质 | |
CN110211565A (zh) | 方言识别方法、装置及计算机可读存储介质 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
Kelly et al. | Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
US11562735B1 (en) | Multi-modal spoken language understanding systems | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
Maheswari et al. | A hybrid model of neural network approach for speaker independent word recognition | |
CN108831463A (zh) | 唇语合成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Patentee after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176 Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd. |
|
CP03 | Change of name, title or address |