CN107680597A - 语音识别方法、装置、设备以及计算机可读存储介质 - Google Patents
语音识别方法、装置、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107680597A CN107680597A CN201710994268.5A CN201710994268A CN107680597A CN 107680597 A CN107680597 A CN 107680597A CN 201710994268 A CN201710994268 A CN 201710994268A CN 107680597 A CN107680597 A CN 107680597A
- Authority
- CN
- China
- Prior art keywords
- information
- block
- default
- model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000000306 recurrent effect Effects 0.000 claims abstract description 127
- 238000013528 artificial neural network Methods 0.000 claims abstract description 122
- 210000002569 neuron Anatomy 0.000 claims abstract description 62
- 238000009432 framing Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 33
- 239000000203 mixture Substances 0.000 claims description 23
- 238000007476 Maximum Likelihood Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音识别方法、装置、设备以及计算机可读存储介质,其中所述方法包括根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;将所述帧级语音特征序列依次分为n个信息块;将所有信息块并行输入预设的双向长短时递归神经网络模型中;获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果。本发明可以极大地提高语音识别的效果,有效缩短了语音解码的时延。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音识别方法、装置、设备以及计算机可读存储介质。
背景技术
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器通过识别和理解,把语音信号变成文字,是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提,并能有效推动声控交互相关领域的发展并极大方便人们的生活,如智能家居、语音输入,使得一些不适宜使用手和眼睛的人群如中老年人,和环境如开车、路上等场景进行命令操作成为现实。语音识别的准确度直接决定了技术应用的有效性。近年来,随着深度学习技术的发展,语音识别准确度得到了极大的提升。
长短时递归神经网络(Long Short-term Memory Recurrent Neural Network,LSTM-RNN)被认为是一种高效并且应用广泛的语音识别领域的深度学习框架。LSTM通过在传统递归神经网络RNN基础上引入长短时记忆模块,有效解决了传统简单RNN训练梯度消失等问题,此外RNN的网络结构使得语音时序序列中时间维度的信息得到利用,因而较之传统深度学习框架如,实用性和准确度上有了很大提升。而双向长短时递归神经网络(Bidirectional Long Short-term Memory,BLSTM)在对当前语音帧进行判断时,不仅可以有效利用“历史”的语音信息,还可以利用“未来”的语音信息,这使得原始输入的语音特征能够得到更有效的挖掘,从而进行更加准确的决策。尽管在研究领域已经取得极大的准确率提升,BLSTM在实用性上却存在先天不足,因为不像单向LSTM,BLSTM的解码器需要等到整条语句都读入后才能进行双向的处理计算,亦即神经网络中的前向传播在反向处理时存在极大的时延,想象输入的语音越长时延越大,这让实时语音识别变得不再可能。
发明内容
本发明实施例提供一种语音识别方法、装置、设备以及计算机可读存储介质,能够极大地提高语音识别的效果,有效缩短了语音解码的时延,使得基于双向长短时递归神经网络的语音实时识别的应用成为可能。
一方面,本发明实施例提供了一种语音识别方法,该方法包括:
根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;
将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻;
将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果;
获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
进一步地,所述根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列包括:
对待测语音信息进行分帧以得到多个语音帧;
对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列;
将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
进一步地,所述将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列包括:
将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息;
将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息;
将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列;
其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。
进一步地,所述预设的双向长短时递归神经网络模型的构建包括:
对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列,
利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布;
将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻;
将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
进一步地,所述方法还包括:
对待测语音信息进行预处理;
其中,根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。
另一方面,本发明实施例还提供了一种语音识别装置,该装置包括:
第一处理单元,用于根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;
第二处理单元,用于将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻;
识别单元,用于将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果;
输出单元,用于获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
进一步地,所述第一处理单元,包括:
分帧单元,用于对待测语音信息进行分帧以得到多个语音帧;
特征提取单元,用于对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列;
调整单元,用于将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
进一步地,所述装置还包括:
第三处理单元,用于对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列,
第一训练单元,用于利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布;
第四处理单元,用于将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻;
第二训练单元,用于将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
又一方面,本发明实施例还提供了一种语音识别设备,包括:
存储器,用于存储实现语音识别的程序;以及
处理器,用于运行所述存储器中存储的实现语音识别的程序,以执行如上所述方法。
再一方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现如上所述方法。
本发明实施例通过引入了时延控制方法使得双向长短时递归神经网络中的“过去”和“未来”的语音信息能够同时得到有效利用,极大提高了识别效果,同时因为预设的双向长短时递归神经网络模型可以在整条语句刚读入时就开始进行处理,有效缩短了解码时延,使得基于双向长短时递归神经网络实时语音识别的应用成为可能。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音识别方法的示意流程图。
图1a是本发明实施例中待测语音信息的分块示意图。
图1b是本发明实施例中待测语音信息的识别方向示意图。
图2是本发明实施例提供的一种语音识别方法的另一示意流程图。
图3是本发明实施例提供的一种语音识别方法的另一示意流程图。
图4是本发明实施例提供的一种语音识别方法的另一示意流程图。
图5是本发明另一实施例提供的一种语音识别方法的示意流程图。
图6是本发明实施例提供的一种语音识别装置的示意性框图。
图7是本发明实施例提供的一种语音识别装置的另一示意性框图。
图8是本发明实施例提供的一种语音识别装置的另一示意性框图。
图9是本发明实施例提供的一种语音识别装置的另一示意性框图。
图10是本发明另一实施例提供的一种语音识别装置的示意性框图。
图11是本发明实施例提供的一种语音识别设备结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1是本发明实施例提供的一种语音识别方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图1所示,该方法的步骤包括S101~S104。
S101,根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。
在本发明实施例中,需要根据预设的规则对待测语音信息进行相应的处理从而得到可识别的语音特征,也即得到帧级语音特征序列。对待测语音信息进行分帧后,还需要进行声学特征提取,从而得到一个帧级语音特征序列。
进一步地,如图2所示,所述步骤S101包括S201~S203。
S201,对待测语音信息进行分帧以得到多个语音帧。
在本发明实施例中,一段待测语音信息是根据时间顺序排列构成的,对所述待测语音信息进行分帧后可以得到若干语音帧,其中每一语音帧的时长可以为10ms~30ms。在一些实施例中,每一语音帧的时长可以为25ms,帧移为10ms。
S202,对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列。
在本发明实施例中,对分帧处理后的每个语音帧中具有辨识性的成分提取出来,得到每个语音帧对应的梅尔频率倒谱系数特征序列。具体的,可以对输入的所有语音帧进行快速傅里叶变换,即将时域对应的语音信号转换为频域的能量谱进行分析,然后将能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征。之后计算每个滤波器组输出的对数能量,滤波器组输出的特征又称为FilterBank(FBANK)特征。对对数能量进行计算后,经离散余弦变换就可得到梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC),亦即MFCC声学特征,同时输出梅尔频率倒谱系数特征序列。一般情况下,梅尔频率倒谱系数特征序列为“MFCC的维度×分帧数”的特征序列,例如,梅尔频率倒谱系数特征序列具有13维的特征,其中MFCC的维度即为13维,而分帧数即为待测语音信息进行分帧后得到的帧数。
S203,将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
在本发明实施例中,为了提高语音识别的准确度,可以将所述梅尔频率倒谱系数特征序列输入预设的音素模型中,从而得到一个相应的帧级语音特征序列,此时,这里的音素模型可以为隐马尔可夫及混合高斯模型,该隐马尔可夫及混合高斯模型可以为通过现有的语音样本数据进行训练后的解码网络模型,所述梅尔频率倒谱系数特征序列通过上述解码网络模型后得到的解码结果即为帧级语音特征序列。
进一步地,如图3所示,其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。所述步骤S203可以包括S301~S303。
S301,将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息。
在本发明实施例中,将梅尔频率倒谱系数特征序列输入预设的单音素模型,可以得到一个第一特征信息,此时得到的第一特征信息更为精准。
S302,将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息。
在本发明实施例中,将第一特征信息输入预设的上下文三音素模型中后,可以得到一个第二特征信息,此时得到的第二特征信息相对而言会更为精准。
S303,将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列。
在本发明实施例中,将第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中后,可以得到最终的帧级语音特征序列,该帧级语音特征序列为更为精准的待测语音信息中包含的声学特征,更方便后续的识别,提高后续语音识别的准确度。
S102,将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。
在本发明实施例中,如图1a所示,可以根据时间顺序将所述帧级语音特征序列依次分为n个信息块,每个信息块均包括一主信息块Ai和一对应的从信息块Bi,i的取值范围为1≤i≤n,其中,从主信息块A1到主信息块An是根据时间的先后进行划分的,每个主信息块Ai和对应的从信息块Bi均包括若干帧语音特征信息。一般情况,每个语音帧都相应的有一帧语音特征信息,而每个语音帧都对应一个一定的时长,故每帧语音特征信息也相应地对应有一个一定的时长。例如,第一个信息块包括主信息块A1以及从信息块B1,第二个信息块包括主信息块A2以及从信息块B2,……,第n个信息块包括主信息块An以及从信息块Bn。
S103,将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。
在本发明实施例中,可以将所有信息块并行输入预设的双向长短时递归神经网络模型中。如图1b所示,对于预设的双向长短时递归神经网络模型而言,因待测语音信息跟时间有关,且帧级语音特征序列中的每一帧语音特征信息也均对应一个相应的时间t,故当进行前向识别的时候,可以从时间T对应的语音特征信息到时间T+1对应的语音特征信息进行前向识别,识别完成后立马从T+1对应的语音特征信息到时间T对应的语音特征信息进行后向识别,从而提高了语音信息识别的准确度,同时也极大地缩短了双向长短时递归神经网络模型进行语音识别的时延时间。
将所有信息块并行输入预设的双向长短时递归神经网络模型中是指,将所有的信息块按时间的顺序输入预设的双向长短时递归神经网络模型的输入层的神经元结点中,其中每个信息块对应一个输入层的神经元结点,每个信息块的主信息块经过输入层的神经元结点后再在预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做前向识别,完成前向识别后,即可以让每个信息块经过输入层的神经元结点后再在预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做后向识别,且做后向识别的第一帧语音特征信息即为从信息块中的最后一帧语音特征信息。
例如,当第一个信息块中的主信息块A1进入经预设的双向长短时递归神经网络模型后,具体经预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做前向识别并得到前向识别结果后,此时,需要从从信息块B1中的最后一帧语音特征信息开始将整个第一个信息块中的语音特征信息反向输入预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做后向识别并得到后向识别结果。同理,可知并行输入预设的双向长短时递归神经网络模型的其他信息块也进行相应的前向识别和后向识别,以便于实现语音的实时识别,减少时延的发生,同时也提高了语音识别的准确度。
进一步地,如图4所示,所述预设的双向长短时递归神经网络模型的构建包括步骤S401~S404。
S401,对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列。
其中,对选取的语音样本数据进行分帧后,对每个语音帧进行快速傅里叶变换,将时域的语音信号转换为频域的能量谱进行分析。然后将能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征。之后计算每个滤波器组输出的对数能量,滤波器组输出的特征又称为FilterBank(FBANK)特征。对对数能量计算后,经离散余弦变换就可得到梅尔频率倒谱系数特征序列。
S402,利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布。
具体的,其中,文本内容即与选取的语音样本数据像对应的文本文件中含有的内容。实现帧级语音样本特征序列与文本内容的对齐则指实现状态和音素级别的对齐。
首先可以对输入的梅尔频率倒谱系数特征序列进行归一化,默认对方差进行归一化;然后进行快速启动,即利用少量特征数据快速得到一个初始化的隐马尔可夫及混合高斯模型和决策树;之后再构造训练用的网络,对每个句子构造一个音素级别的FST网络用于解码,在训练的过程中通过不断对齐特征序列,反复训练得到中间统计量,其中隐马尔可夫模型的统计量是两个音素在FST网络中互联的边中出现的次数,高斯模型的统计量是每个概率密度函数pdf-id对应的特征累计值和特征平方累计值,统计量跟高斯模型的方差、均值的更新相关,通过不断的更新模型完成解码网络的训练,即实现一个单音素模型的训练;最后再做一次强制对齐,用于解码输出结果或者进行下一阶段的模型训练。
在一些实施例中,在通过单音素模型训练后,通常一个完整的隐马尔可夫及混合高斯模型的语音识别过程还会进行几轮三音素模型训练,三音素模型训练考虑了当前音素的前后相关音素影响,能够得到更加准确的对齐效果,也就能产生更好的识别结果。根据特征和作用的不同,三音素模型一般采用基于上下文相关(delta+delta-delta,Δ+ΔΔ)特征、线性判别分析及最大似然线性特征转换(linear discriminant analysis+maximumlikelihood linear transform,LDA+MLLT)以及说话人自适应及特征空间最大似然概率的线性回归(speaker adaptive training+feature space maximum likelihood linearregression,SAT+fMLLR)三音素特征模型进行训练。
基于delta+delta-delta特征的三音素模型是对原始的梅尔频率倒谱系数特征添加了delta特征(delta即对梅尔频率倒谱系数特征进行求导,同理delta-delta就是求二阶导)进行的模型训练。例如,若输入的原始的梅尔频率倒谱系数特征是13维,添加delta+delta-delta特征后输入的特征即变成39维。
基于线性判别分析及最大似然线性特征转换的三音素模型是对改进后的delta+delta-delta特征数据先进行帧叠加,增加特征维度,然后通过线性判别式分析(LDA)降维进行的特征变化(通常降到40维),之后进行三音素的模型训练。
基于SAT+fMLLR特征的三音素特征模型需要原始的训练数据样本不能受说话人的语音语调以及环境等因素的影响,故对语音输入时相同说话人在不同环境的情况下帮助甚微,实际应用也较少。
在一些实施例中,主要依次采用单音素训练、基于delta+delta-delta特征的三音素训练(参数:决策树分枝数=2500,高斯总数=20000)、基于delta+delta-delta特征的三音素训练2(参数:决策树分枝数=3500,高斯总数=100000)和基于线性判别分析+最大似然线性特征转换(参数:决策树分枝数=3500,高斯总数=100000),来进行自动语音识别中的隐马尔可夫及混合高斯模型训练与对齐。
训练双向长短时递归神经网络模型的一般框架是先训练隐马尔可夫及混合高斯模型来做强制对齐,可以一个也可以多个,然后将强制对齐的结果结合原始语音样本的输入特征作为双向长短时递归神经网络的训练样本进行训练。双向长短时递归神经网络模型与隐马尔可夫及混合高斯模型的相同之处在于作用都是模拟提取的原始语音特征,其中隐马尔可夫及混合高斯模型使用混合高斯模型模拟,双向长短时递归神经网络模型使用深度神经网络模型模拟,作为描述特征发生概率的模型,然后把相应统计量如高斯模型的均值和方差输入到隐马尔可夫模型中作为隐马尔可夫模型的结构和转移概率的依据。双向长短时递归神经网络模型与隐马尔可夫及混合高斯模型的不同之处在于深度神经网络模型的输入是多帧特征,而不是混合高斯模型中的一帧。故在语音识别的过程中,原始的输入语音经过特征提取,根据隐马尔可夫模型中状态的发生概率,即跟不同发音比较相似度,在解码网络中选择发生概率最大的路径作为最终输出结果。研究表明,训练得到的双向长短时递归神经网络模型能够在隐马尔可夫及混合高斯模型基础上,使得系语音识别的错误率下降,例如,错误率可以下降20%-30%。
S403,将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻。
在本发明实施例中,如图1a所示,在神经网络模型的前后向计算中均采用块(chunk)处理的方式读取帧级语音特征序列的。首先根据按帧长固定将读入帧级语音特征序列无重叠的等间隔的切分为多个主信息块(边读边切),在反向计算中则拼接固定帧长的语音特征信息到每个主信息块的后面,此处拼接固定帧长的语音特征信息即组成相应的从信息块,每个主信息块以及相应的从信息块构成一信息块。
在训练双向长短时递归神经网络的过程中控制使得这些后来拼接的语音特征信息对应地并不产生输出,因而针对本来的主信息块的计算不会产生额外误差,这使得训练速度相对与需读入整条语音的传统双向长短时递归神经网络训练在测试环境下提高了10倍以上。
同时,在解码过程中,T时刻前向的记忆单元初始状态可以直接由T-1时刻的主信息块计算来得到,T时刻后向的记忆单元初始状态则由主信息块后拼接的固定帧长的从信息块产生,因而解码应用的时延只由从信息块中的语音特征信息决定,从而使得语音识别的总耗费时间却得到了缩减。故无须等到读入整条待测语音信息才能开始后向计算,而只需等待从信息块占用的时长,使得实时双向长短时递归神经网络应用的语音识别成为可能;同时也可以采用很多条语音组成小批(mini-batch)的方式进行并行训练,减少了计算内存消耗;另外,也可以有效提高语音识别的准确率,有实用意义并且可拓展性好。
S404,将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
在本发明实施例中,双向长短时递归神经网络的前向训练过程与单向长短时递归神经网络的处理过程一样,都覆盖了所有输入帧相关的“历史”信息。而在后向训练过程中,双向长短时递归神经网络需要对输入的语音特征信息进行反向处理,为了减少反向读取整条语句信息时产生的时延影响因素,需要采用上述步骤中拼接带有“将来”信息的语音帧的方式。
例如,可以首先训练了一个3-5层长短时递归神经网络模型,从而实现对该模型的输出做强制对齐,将强制对其的结果送入双向长短时递归神经网络中,最后得到解码输出,同时得到双向长短时递归神经网络模型。
具体的,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,即是对双向长短时递归神经网络中各层的神经元结点进行前向训练。每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型,即对双向长短时递归神经网络中各层的神经元结点进行后向训练,各个信息块是并行输入双向长短时递归神经网络进行训练的,同时反向训练时造成的时延只是每个从信息块训练时所耗的时间,所以整个训练过程所耗的时间大大地减少了。
例如,基于时延控制的双向长短时递归神经网络模型的结构可以如下:该模型的每个隐含层有1024个神经元结点,其中前向识别的为512个,后向识别的为512个,隐含层后为带有含有300个神经元结点的投影层,最后的输出层采用Softmax层。所有神经元结点均采用[-0.05~0.05]区间的均匀随机权重初始化,偏置初始为0。神经网络的训练采用交叉熵(corss-entropy,CE)评判准则,以及沿时间截断反向传播(truncatedback-propagation-through-time,BPTT)的优化训练方法。其中该模型可识别的每个信息块可以包含20帧语音信息,每个minibatch包含40条发音语句。此外,在动量因子的选择上,第一个迭代(epoch)采用0,之后的迭代采用0.9。在学习率更新上,如果本次迭代没有增加,则将上个迭代的学习率减半作为下个迭代训练的学习率。
S104,获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果。其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
在本发明实施例中,根据每个信息块对应的前向识别结果以及后向识别结果,在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的进行输出,即得到一个输出结果,该输出结果即为语音识别的结果。
综上,本发明实施例通过引入了时延控制方法使得双向长短时递归神经网络中的“过去”和“未来”的语音信息能够同时得到有效利用,极大提高了识别效果,同时因为预设的双向长短时递归神经网络模型可以在整条语句刚读入时就开始进行处理,有效缩短了解码时延,使得基于双向长短时递归神经网络实时语音识别的应用成为可能。
请参阅图5,图5是本发明另一实施例提供的一种语音识别方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图5所示,该方法的步骤包括S501a~S504。
S501a,对待测语音信息进行预处理;
在本发明实施例中,首先对待测语音信息做预加重,提升待测语音信息中的高频部分,使得频谱更平滑。然后进行分帧加窗,将非平稳的语音信号转变为短时平稳信号分析处理。接着通过端点检测,区分语音与噪声,并提取出有效的语音部分,从而提高对待测语音信息识别的精确度。
S501,根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。
S502,将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。
S503,将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。
S504,获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果。
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
请参阅图6,对应上述一种语音识别方法,本发明实施例还提出一种语音识别装置,该装置100包括:第一处理单元101、第二处理单元102、识别单元103、输出单元104。
第一处理单元101,用于根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。
进一步地,如图7所示,所述第一处理单元101包括:分帧单元201,特征提取单元202,调整单元203。
其中,所述分帧单元201,用于对待测语音信息进行分帧以得到多个语音帧。
特征提取单元202,用于对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列。
调整单元203,用于将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
进一步地,如图8所示,所述调整单元203包括第一输入单元301、第二输入单元302以及第三输入单元303。
第一输入单元301,用于将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息。
第二输入单元302,用于将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息。
第三输入单元303,用于将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列。
其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。
第二处理单元102,用于将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。
识别单元103,用于将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。
输出单元104,用于获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
综上,本发明实施例通过引入了时延控制方法使得双向长短时递归神经网络中的“过去”和“未来”的语音信息能够同时得到有效利用,极大提高了识别效果,同时因为预设的双向长短时递归神经网络模型可以在整条语句刚读入时就开始进行处理,有效缩短了解码时延,使得基于双向长短时递归神经网络实时语音识别的应用成为可能。本发明实施例中的装置,均与上述实施例中的方法相对应,故具体的分析和原理在此不再赘述。
进一步地,如图9所示,所述装置100还包括第三处理单元401、第一训练单元402、第四处理单元403以及第二训练单元404,以用于实现对预设的双向长短时递归神经网络模型的构建。
其中,所述第三处理单元401,用于对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列。
所述第一训练单元402,用于利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布。
所述第四处理单元403,用于将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻。
所述第二训练单元404,用于将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
请参阅图10,对应上述一种语音识别方法,本发明另一实施例还提出一种语音识别装置,该装置500包括:预处理单元501a、第一处理单元501、第二处理单元502、识别单元503以及输出单元504。
预处理单元501a,对待测语音信息进行预处理。
第一处理单元501,用于根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。
第二处理单元502,用于将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。
识别单元503,用于将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。
输出单元504,用于获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果。
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
由以上可见,在硬件实现上,以上第一处理单元101、第二处理单元102、识别单元103、输出单元104等可以以硬件形式内嵌于或独立于语音识别的装置中,也可以以软件形式存储于语音识别装置的存储器中,以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述语音识别装置可以实现为一种计算机程序的形式,计算机程序可以在如图11所示的计算机设备上运行。
图11为本发明一种语音识别设备的结构组成示意图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。参照图11,该计算机设备600包括通过系统总线601连接的处理器602、非易失性存储介质603、内存储器604和网络接口605。其中,该计算机设备600的非易失性存储介质603可存储操作系统6031和计算机程序6032,该计算机程序6032被执行时,可使得处理器602执行一种语音识别方法。该计算机设备600的处理器602用于提供计算和控制能力,支撑整个计算机设备600的运行。该内存储器604为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器602执行一种语音识别方法。计算机设备600的网络接口605用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器602执行如下操作:
根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;
将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻;
将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果;
获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
进一步地,所述根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列包括:
对待测语音信息进行分帧以得到多个语音帧;
对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列;
将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
进一步地,所述将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列包括:
将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息;
将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息;
将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列;
其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。
进一步地,所述处理器602为实现对所述预设的双向长短时递归神经网络模型的构建还用于执行以下操作:
对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列,
利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布;
将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻;
将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
进一步地,所述处理器602还执行如下操作:
对待测语音信息进行预处理。
本领域技术人员可以理解,图11中示出的语音识别设备的实施例并不构成对语音识别设备具体构成的限定,在其他实施例中,语音识别设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,语音识别设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现以下步骤:
根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;
将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻;
将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果;
获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
进一步地,所述根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列包括:
对待测语音信息进行分帧以得到多个语音帧;
对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列;
将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
进一步地,所述将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列包括:
将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息;
将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息;
将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列;
其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。
进一步地,所述步骤还包括:
对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列,
利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布;
将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻;
将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
进一步地,所述步骤还包括:
对待测语音信息进行预处理。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例语音识别方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例语音识别终端中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;
将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻;
将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果;
获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
2.如权利要求1所述的方法,其特征在于,所述根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列包括:
对待测语音信息进行分帧以得到多个语音帧;
对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列;
将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
3.如权利要求2所述的方法,其特征在于,所述将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列包括:
将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息;
将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息;
将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列;
其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。
4.如权利要求2所述的方法,其特征在于,所述预设的双向长短时递归神经网络模型的构建包括:
对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列,
利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布;
将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻;
将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
对待测语音信息进行预处理;
其中,根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。
6.一种语音识别装置,其特征在于,所述装置包括:
第一处理单元,用于根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;
第二处理单元,用于将所述帧级语音特征序列依次分为n个信息块,其中n为大于等于2的整数,每个信息块包括一主信息块,每一主信息块拼接有一从信息块,每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息,所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻;
识别单元,用于将所有信息块并行输入预设的双向长短时递归神经网络模型中,以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果,以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果;
输出单元,用于获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果;
其中,所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。
7.如权利要求6所述的装置,其特征在于,所述第一处理单元,包括:
分帧单元,用于对待测语音信息进行分帧以得到多个语音帧;
特征提取单元,用于对每个语音帧进行特征提取,以得到每个语音帧对应的梅尔频率倒谱系数特征序列;
调整单元,用于将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
第三处理单元,用于对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列,
第一训练单元,用于利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型,以实现帧级语音样本特征序列与文本内容的对齐,其中所述隐马尔可夫模型与所述语音样本数据是一一对应的,所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布;
第四处理单元,用于将对齐后的语音样本特征序列依次分为n个样本信息块,其中n为大于等于2的整数,每个样本信息块包括一主样本信息块,每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块,每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息,且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻;
第二训练单元,用于将所有样本信息块并行输入一双向长短时递归神经网络中,分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练,以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。
9.一种语音识别设备,其特征在于,包括:
存储器,用于存储实现语音识别的程序;以及
处理器,用于运行所述存储器中存储的实现语音识别的程序,以执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现如权利要求1-5任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994268.5A CN107680597B (zh) | 2017-10-23 | 2017-10-23 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US16/642,371 US11081103B2 (en) | 2017-10-23 | 2017-11-28 | Speech recognition method, apparatus, and computer readable storage medium |
PCT/CN2017/113230 WO2019080248A1 (zh) | 2017-10-23 | 2017-11-28 | 语音识别方法、装置、设备以及计算机可读存储介质 |
SG11202001627XA SG11202001627XA (en) | 2017-10-23 | 2017-11-28 | Speech recognition method, apparatus, and computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994268.5A CN107680597B (zh) | 2017-10-23 | 2017-10-23 | 语音识别方法、装置、设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107680597A true CN107680597A (zh) | 2018-02-09 |
CN107680597B CN107680597B (zh) | 2019-07-09 |
Family
ID=61141446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710994268.5A Active CN107680597B (zh) | 2017-10-23 | 2017-10-23 | 语音识别方法、装置、设备以及计算机可读存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11081103B2 (zh) |
CN (1) | CN107680597B (zh) |
SG (1) | SG11202001627XA (zh) |
WO (1) | WO2019080248A1 (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN108664460A (zh) * | 2018-04-16 | 2018-10-16 | 北京天使软件技术有限公司 | 语音填表装置、方法、系统及存储介质 |
CN108776795A (zh) * | 2018-06-20 | 2018-11-09 | 邯郸学院 | 用户身份识别方法、装置及终端设备 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN108922521A (zh) * | 2018-08-15 | 2018-11-30 | 合肥讯飞数码科技有限公司 | 一种语音关键词检索方法、装置、设备及存储介质 |
CN108922513A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN108962223A (zh) * | 2018-06-25 | 2018-12-07 | 厦门快商通信息技术有限公司 | 一种基于深度学习的语音性别识别方法、设备及介质 |
CN108935188A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 猪只疾病识别方法、装置及电子设备 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109559735A (zh) * | 2018-10-11 | 2019-04-02 | 平安科技(深圳)有限公司 | 一种基于神经网络的语音识别方法、终端设备及介质 |
CN109658921A (zh) * | 2019-01-04 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种语音信号处理方法、设备及计算机可读存储介质 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110164431A (zh) * | 2018-11-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法及装置、存储介质 |
CN110166826A (zh) * | 2018-11-21 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频的场景识别方法、装置、存储介质及计算机设备 |
CN110277088A (zh) * | 2019-05-29 | 2019-09-24 | 平安科技(深圳)有限公司 | 智能语音识别方法、装置及计算机可读存储介质 |
CN110288999A (zh) * | 2019-07-02 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110534098A (zh) * | 2019-10-09 | 2019-12-03 | 国家电网有限公司客户服务中心 | 一种年龄增强的语音识别增强方法和装置 |
CN110619871A (zh) * | 2018-06-20 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
CN111128235A (zh) * | 2019-12-05 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种基于语音的年龄预测方法和装置以及设备 |
CN111145765A (zh) * | 2019-12-31 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
WO2020135324A1 (en) * | 2018-12-28 | 2020-07-02 | Alibaba Group Holding Limited | Audio signal processing |
CN111667817A (zh) * | 2020-06-22 | 2020-09-15 | 平安资产管理有限责任公司 | 一种语音识别方法、装置、计算机系统及可读存储介质 |
CN111696526A (zh) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | 语音识别模型的生成方法、语音识别方法、装置 |
CN112216270A (zh) * | 2020-10-09 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及系统、电子设备及存储介质 |
CN112750425A (zh) * | 2020-01-22 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN113470662A (zh) * | 2020-03-31 | 2021-10-01 | 微软技术许可有限责任公司 | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
CN113711305A (zh) * | 2019-04-29 | 2021-11-26 | 腾讯美国有限责任公司 | 用于文本到语音转换分析的持续时间知悉网络 |
CN113724690A (zh) * | 2021-09-01 | 2021-11-30 | 宿迁硅基智能科技有限公司 | Ppg特征的输出方法、目标音频的输出方法及装置 |
WO2023030235A1 (zh) * | 2021-09-01 | 2023-03-09 | 南京硅基智能科技有限公司 | 目标音频的输出方法及系统、可读存储介质、电子装置 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
JP7242903B2 (ja) * | 2019-05-14 | 2023-03-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 |
US11289073B2 (en) * | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2020250279A1 (ja) * | 2019-06-10 | 2020-12-17 | 日本電信電話株式会社 | モデル学習装置、方法及びプログラム |
KR20210010133A (ko) * | 2019-07-19 | 2021-01-27 | 삼성전자주식회사 | 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112002305B (zh) * | 2020-07-29 | 2024-06-18 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质及电子设备 |
US11942078B2 (en) * | 2021-02-26 | 2024-03-26 | International Business Machines Corporation | Chunking and overlap decoding strategy for streaming RNN transducers for speech recognition |
CN112820279B (zh) * | 2021-03-12 | 2024-02-09 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
CN114038465B (zh) * | 2021-04-28 | 2022-08-23 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
US11948550B2 (en) * | 2021-05-06 | 2024-04-02 | Sanas.ai Inc. | Real-time accent conversion model |
CN113611285B (zh) * | 2021-09-03 | 2023-11-24 | 哈尔滨理工大学 | 基于层叠双向时序池化的语种识别方法 |
CN116415166A (zh) * | 2021-12-28 | 2023-07-11 | 深圳大学 | 多键盘混合按键声音的识别方法、装置、设备及存储介质 |
US20230386458A1 (en) * | 2022-05-27 | 2023-11-30 | Soundhound, Inc. | Pre-wakeword speech processing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120166194A1 (en) * | 2010-12-23 | 2012-06-28 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing speech |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
CN106803422B (zh) * | 2015-11-26 | 2020-05-12 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
US10949736B2 (en) * | 2016-11-03 | 2021-03-16 | Intel Corporation | Flexible neural network accelerator and methods therefor |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
-
2017
- 2017-10-23 CN CN201710994268.5A patent/CN107680597B/zh active Active
- 2017-11-28 SG SG11202001627XA patent/SG11202001627XA/en unknown
- 2017-11-28 WO PCT/CN2017/113230 patent/WO2019080248A1/zh active Application Filing
- 2017-11-28 US US16/642,371 patent/US11081103B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120166194A1 (en) * | 2010-12-23 | 2012-06-28 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing speech |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
US11508366B2 (en) | 2018-04-12 | 2022-11-22 | Iflytek Co., Ltd. | Whispering voice recovery method, apparatus and device, and readable storage medium |
CN108664460A (zh) * | 2018-04-16 | 2018-10-16 | 北京天使软件技术有限公司 | 语音填表装置、方法、系统及存储介质 |
CN108877775B (zh) * | 2018-06-04 | 2023-03-31 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN108922513A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
WO2019232845A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN108776795A (zh) * | 2018-06-20 | 2018-11-09 | 邯郸学院 | 用户身份识别方法、装置及终端设备 |
CN110619871A (zh) * | 2018-06-20 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
CN108962223A (zh) * | 2018-06-25 | 2018-12-07 | 厦门快商通信息技术有限公司 | 一种基于深度学习的语音性别识别方法、设备及介质 |
CN108935188A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 猪只疾病识别方法、装置及电子设备 |
CN108922521A (zh) * | 2018-08-15 | 2018-11-30 | 合肥讯飞数码科技有限公司 | 一种语音关键词检索方法、装置、设备及存储介质 |
CN109559735B (zh) * | 2018-10-11 | 2023-10-27 | 平安科技(深圳)有限公司 | 一种基于神经网络的语音识别方法、终端设备及介质 |
CN109559735A (zh) * | 2018-10-11 | 2019-04-02 | 平安科技(深圳)有限公司 | 一种基于神经网络的语音识别方法、终端设备及介质 |
CN109346103B (zh) * | 2018-10-30 | 2023-03-28 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN110164431A (zh) * | 2018-11-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法及装置、存储介质 |
CN110164431B (zh) * | 2018-11-15 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法及装置、存储介质 |
CN110166826A (zh) * | 2018-11-21 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频的场景识别方法、装置、存储介质及计算机设备 |
CN110166826B (zh) * | 2018-11-21 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 视频的场景识别方法、装置、存储介质及计算机设备 |
WO2020135324A1 (en) * | 2018-12-28 | 2020-07-02 | Alibaba Group Holding Limited | Audio signal processing |
US11114103B2 (en) | 2018-12-28 | 2021-09-07 | Alibaba Group Holding Limited | Systems, methods, and computer-readable storage media for audio signal processing |
CN109658921B (zh) * | 2019-01-04 | 2024-05-28 | 平安科技(深圳)有限公司 | 一种语音信号处理方法、设备及计算机可读存储介质 |
CN109658921A (zh) * | 2019-01-04 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种语音信号处理方法、设备及计算机可读存储介质 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN113711305A (zh) * | 2019-04-29 | 2021-11-26 | 腾讯美国有限责任公司 | 用于文本到语音转换分析的持续时间知悉网络 |
CN110277088A (zh) * | 2019-05-29 | 2019-09-24 | 平安科技(深圳)有限公司 | 智能语音识别方法、装置及计算机可读存储介质 |
CN110277088B (zh) * | 2019-05-29 | 2024-04-09 | 平安科技(深圳)有限公司 | 智能语音识别方法、装置及计算机可读存储介质 |
WO2020238045A1 (zh) * | 2019-05-29 | 2020-12-03 | 平安科技(深圳)有限公司 | 智能语音识别方法、装置及计算机可读存储介质 |
CN110288999B (zh) * | 2019-07-02 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110288999A (zh) * | 2019-07-02 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110534098A (zh) * | 2019-10-09 | 2019-12-03 | 国家电网有限公司客户服务中心 | 一种年龄增强的语音识别增强方法和装置 |
CN111128235A (zh) * | 2019-12-05 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种基于语音的年龄预测方法和装置以及设备 |
CN111145765A (zh) * | 2019-12-31 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
CN112750425A (zh) * | 2020-01-22 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN112750425B (zh) * | 2020-01-22 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN113470662A (zh) * | 2020-03-31 | 2021-10-01 | 微软技术许可有限责任公司 | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 |
WO2021218843A1 (zh) * | 2020-04-30 | 2021-11-04 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
CN111696526A (zh) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | 语音识别模型的生成方法、语音识别方法、装置 |
CN111667817A (zh) * | 2020-06-22 | 2020-09-15 | 平安资产管理有限责任公司 | 一种语音识别方法、装置、计算机系统及可读存储介质 |
CN112216270A (zh) * | 2020-10-09 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及系统、电子设备及存储介质 |
CN112216270B (zh) * | 2020-10-09 | 2024-02-06 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及系统、电子设备及存储介质 |
CN113724690B (zh) * | 2021-09-01 | 2023-01-03 | 宿迁硅基智能科技有限公司 | Ppg特征的输出方法、目标音频的输出方法及装置 |
US11763801B2 (en) | 2021-09-01 | 2023-09-19 | Nanjing Silicon Intelligence Technology Co., Ltd. | Method and system for outputting target audio, readable storage medium, and electronic device |
WO2023030235A1 (zh) * | 2021-09-01 | 2023-03-09 | 南京硅基智能科技有限公司 | 目标音频的输出方法及系统、可读存储介质、电子装置 |
CN113724690A (zh) * | 2021-09-01 | 2021-11-30 | 宿迁硅基智能科技有限公司 | Ppg特征的输出方法、目标音频的输出方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107680597B (zh) | 2019-07-09 |
WO2019080248A1 (zh) | 2019-05-02 |
US11081103B2 (en) | 2021-08-03 |
SG11202001627XA (en) | 2020-03-30 |
US20210074264A1 (en) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680597B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
Chen et al. | End-to-end neural network based automated speech scoring | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN108564940A (zh) | 语音识别方法、服务器及计算机可读存储介质 | |
Chai et al. | A cross-entropy-guided measure (CEGM) for assessing speech recognition performance and optimizing DNN-based speech enhancement | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN107871496B (zh) | 语音识别方法和装置 | |
CN106683677A (zh) | 语音识别方法及装置 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
CN111862942B (zh) | 普通话和四川话的混合语音识别模型的训练方法及系统 | |
KR102637339B1 (ko) | 음성 인식 모델을 개인화하는 방법 및 장치 | |
CN112786004A (zh) | 语音合成方法以及电子设备、存储装置 | |
CN113822017A (zh) | 基于人工智能的音频生成方法、装置、设备及存储介质 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
Kadyan et al. | In domain training data augmentation on noise robust Punjabi Children speech recognition | |
Humayun et al. | Native language identification for Indian-speakers by an ensemble of phoneme-specific, and text-independent convolutions | |
Hong et al. | Decomposition and reorganization of phonetic information for speaker embedding learning | |
KR102415519B1 (ko) | 인공지능 음성의 컴퓨팅 탐지 장치 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN112216270A (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
Koriyama et al. | A comparison of speech synthesis systems based on GPR, HMM, and DNN with a small amount of training data. | |
Rafi et al. | Relative significance of speech sounds in speaker verification systems | |
CN112863476A (zh) | 个性化语音合成模型构建、语音合成和测试方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |