CN111968622A - 一种基于注意力机制的语音识别方法、系统及装置 - Google Patents
一种基于注意力机制的语音识别方法、系统及装置 Download PDFInfo
- Publication number
- CN111968622A CN111968622A CN202010829299.7A CN202010829299A CN111968622A CN 111968622 A CN111968622 A CN 111968622A CN 202010829299 A CN202010829299 A CN 202010829299A CN 111968622 A CN111968622 A CN 111968622A
- Authority
- CN
- China
- Prior art keywords
- audio
- voice
- result
- model
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000000306 recurrent effect Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于注意力机制的语音识别方法、系统及装置,该方法包括:获取音频信息并对音频信息进行预处理,得到预处理后的音频;对预处理后的音频进行特征提取,得到特征向量;采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;将特征向量输入到识别模型,输出语音识别结果。该系统包括:音频接收与预处理模块、音频特征提取模块、深度学习建模模块和结果输出模块。通过使用本发明,可以解决语音识别准确率较低的问题。本发明作为一种基于注意力机制的语音识别方法、系统及装置,可广泛应用于语音识别领域。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种基于注意力机制的语音识别方法、系统及装置。
背景技术
目前,经典语音识别技术主要步骤为语音预处理,特征提取,建立声学模型,建立音素模型,建立语言模型,最终输出对应文字。
传统的基于统计的HMM声学模型,N元组语言模型的发明,已经使得语音识别技术可以在小规模词汇量上使用。2000年左右,GMM-HMM模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。现有的经典语音识别结束主要依靠隐马尔可夫模型进行声学模型和语言模型的建立,对于各自的模型,工程师需提供不同类型的已标注数据集,同时模型解码速度较慢,而且模型间的信息无法共享,准确率较低。具体来说,在训练这一类的模型时,训练样本的标注不仅仅是原本的文本,还需要对文本进一步的拆解成为音素投入训练,这对于标注部分的工作就会造成极大的挑战。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于注意力机制的语音识别方法、系统及装置,解决语音识别准确率较低的问题。
本发明所采用的第一技术方案是:一种基于注意力机制的语音识别方法,包括以下步骤:
获取音频信息并对音频信息进行预处理,得到预处理后的音频;
对预处理后的音频进行特征提取,得到特征向量;
采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;
将特征向量输入到识别模型,输出语音识别结果。
进一步,所述预处理包括于预加重处理、分帧处理、加窗处理、过滤音频噪音点处理和增强人声处理。
进一步,所述特征提取的特征类型为梅尔频率倒谱系数,所述对预处理后的音频进行特征提取,得到特征向量这一步骤,其具体包括:
将预处理后的音频通过一组滤波器组,得到梅尔频率倒谱系数;
通过离散余弦变换将梅尔频率倒谱系数相关并降维,得到多个独立固定维度的特征向量。
进一步,所述滤波器组为40个三角形滤波器,每个滤波在中心频率的响应为1。
进一步,所述循环神经网络采用双向的残差长短时记忆层。
进一步,所述将特征向量输入到识别模型,输出语音识别结果这一步骤,其具体还包括:
通过循环神经网络输出对应帧的第一语音结果;
通过注意力机制解码第一语音结果,得到最终语音结果。
通过CTC算法将最终语音结果与对应帧对齐后得到文字,最终得到语音识别结果。
本发明所采用的第二技术方案是:一种基于注意力机制的语音识别系统,包括以下模块:
音频接收与预处理模块,用于获取音频信息并对音频信息进行预处理,得到预处理后的音频;
音频特征提取模块,用于对预处理后的音频进行特征提取,得到特征向量;
深度学习建模模块,用于采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;
结果输出模块,用于将特征向量输入到识别模型,输出语音识别结果。
本发明所采用的第三技术方案是:一种基于注意力机制的语音识别装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一一种基于注意力机制的语音识别方法。
本发明方法及系统的有益效果是:CTC解码通过预测每个帧的输出来识别语音,注意力机制解码通过前一单元的解码结果与整体语音特征来生成当前的结果,本方案通过结合CTC解码算法和注意力机制解码共同输出识别结果,解决语音识别准确率较低的问题。
附图说明
图1是本发明一种基于注意力机制的语音识别方法的步骤流程图;
图2是本发明一种基于注意力机制的语音识别系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本发明提供了一种基于注意力机制的语音识别方法,该方法包括以下步骤:
S101、获取音频信息并对音频信息进行预处理,得到预处理后的音频;
S102、对预处理后的音频进行特征提取,得到特征向量;
具体地,通过特征提取后,一段连续的语音信号被表示成为多个独立的固定维度的特征向量。这些特征向量能够准确描述这段语音每一帧的特征和信息。
S103、采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;
具体地,循环神经网络每个输出点都为对应帧的语音识别结果,有可能多个对应帧对应单个结果,也有可能对应帧对应结果为空。通过CTC将其对齐后可得连续文字即语音识别结果。
S104、将特征向量输入到识别模型,输出语音识别结果;
进一步作为本方法的优选实施例,所述预处理包括于预加重处理、分帧处理、加窗处理、过滤音频噪音点处理和增强人声处理。
具体地,预处理过程中,首先进行预加重处理,为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分,并且能突显高频的共振峰,具体操作是将频域上面都乘以一个系数,这个系数跟频率成正相关,所以高频的幅值会有所提升。接着进行分帧处理,根据指定的长度(时间段或者采样数)进行分段,结构化为编程的数据结构。接着进行加窗处理,将得到的信号与一个窗函数相乘,使原本没有周期性的语音信号呈现出周期函数的部分特征。
进一步作为本方法的优选实施例,所述特征提取的特征类型为梅尔频率倒谱系数,所述对预处理后的音频进行特征提取,得到特征向量这一步骤,其具体包括:
将预处理后的音频通过一组滤波器组,得到梅尔频率倒谱系数;
通过离散余弦变换将梅尔频率倒谱系数相关并降维,得到多个独立固定维度的特征向量。
具体地,特征类型为MFCC,即梅尔频率倒谱系数。将预处理后的音频能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,一般用40个滤波器,每个滤波在中心频率的响应都是1,然后线性下降,一直到相邻三角滤波的中心频率处为0。由于滤波器组得到的系数是相关性很高,我们用离散余弦变换来去相关并且降维。一般来说,在自动语音识别领域,保留得到的倒频谱系数的第2-13个,剩余的抛弃。
进一步作为本方法优选实施例,所述滤波器组为40个三角形滤波器,每个滤波在中心频率的响应为1。
进一步作为本方法优选实施例,所述循环神经网络采用双向的残差长短时记忆层。
具体地,循环神经网络采用双向的残差长短时记忆层,可以更好地保留提取出的音素信息和之后每一个双向的残差长短时记忆层进行结合。因为循环神经网络中的每一层主要是负责提取句子中的语义信息,但语义信息的理解也和音素信息紧密相关,随着循环神经网络的深入,原本更底层的层很难接收到卷积神经网络所给出的信息,对于复杂的长句子中音素和语义信息的结合较差,新提出的残差网络可以较好地修正这一问题。
进一步作为本方法优选实施例,所述将特征向量输入到识别模型,输出语音识别结果这一步骤,其具体还包括:
通过循环神经网络输出对应帧的第一语音结果;
通过注意力机制解码第一语音结果,得到最终语音结果;
通过CTC算法将最终语音结果与对应帧对齐后得到文字,最终得到语音识别结果。
具体地,纯CTC解码通过预测每个帧的输出来识别语音,算法的实现基于假设每帧的解码保持彼此独立,因而缺乏解码过程中前后语音特征之间的联系,比较依赖语言模型的修正。纯注意力机制(attention)解码过程则与输入语音的帧的顺序无关,每个解码单元是通过前一单元的解码结果与整体语音特征来生成当前的结果,解码过程忽略了语音的单调时序性。本方案采用混合解码的框架模型,得到由两种解码器共同输出识别结果。
如图2所示,一种基于注意力机制的语音识别系统,包括以下模块:
音频接收与预处理模块,用于获取音频信息并对音频信息进行预处理,得到预处理后的音频;
音频特征提取模块,用于对预处理后的音频进行特征提取,得到特征向量;
深度学习建模模块,用于采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;
结果输出模块,用于将特征向量输入到识别模型,输出语音识别结果。
进一步作为本系统的优选实施例,所述音频接收与预处理模块模块还包括:
接收子模块,用于获取音频信息;
预加重子模块,用于对音频信息进行预加重处理;
分帧子模块,用于对音频信息进行分帧处理;
加窗子模块,用于对音频信息进行加窗处理;
过滤音频噪音点子模块,用于过滤音频信息的噪音点;
增强人声子模块,用于增强音频的人声部分。
进一步作为本系统的优选实施例,所述音频特征提取模块还包括:
滤波器子模块,用于将预处理后的音频通过一组滤波器组,得到梅尔频率倒谱系数;
相关降维子模块,用于通过离散余弦变换将梅尔频率倒谱系数相关并降维,得到多个独立固定维度的特征向量。
进一步作为本系统的优选实施例,所述结果输出模块还包括:
输入子模块,用于将特征向量输入到识别模型;
第一结果子模块,用于通过注意力机制解码第一语音结果,得到最终语音结果;
最终输出子模块,用于通过CTC算法将最终语音结果与对应帧对齐后得到文字,最终得到语音识别结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种基于注意力机制的语音识别装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种基于注意力机制的语音识别方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.一种基于注意力机制的语音识别方法,其特征在于,包括以下步骤:
获取音频信息并对音频信息进行预处理,得到预处理后的音频;
对预处理后的音频进行特征提取,得到特征向量;
采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;
将特征向量输入到识别模型,输出语音识别结果。
2.根据权利要求1所述一种基于注意力机制的语音识别方法,其特征在于,所述预处理包括于预加重处理、分帧处理、加窗处理、过滤音频噪音点处理和增强人声处理。
3.根据权力要求1所述一种基于注意力机制的语音识别方法,其特征在于,所述特征提取的特征类型为梅尔频率倒谱系数,所述对预处理后的音频进行特征提取,得到特征向量这一步骤,其具体包括:
将预处理后的音频通过一组滤波器组,得到梅尔频率倒谱系数;
通过离散余弦变换将梅尔频率倒谱系数相关并降维,得到多个独立固定维度的特征向量。
4.根据权利要求3所述一种基于注意力机制的语音识别方法,其特征在于,所述滤波器组为40个三角形滤波器,每个滤波器在中心频率的响应为1。
5.根据权利要求4所述一种基于注意力机制的语音识别方法,其特征在于,所述循环神经网络采用双向的残差长短时记忆层。
6.根据权利要求5所述一种基于注意力机制的语音识别方法,其特征在于,所述将特征向量输入到识别模型,输出语音识别结果这一步骤,其具体还包括:
将特征向量输入到识别模型;
通过循环神经网络输出对应帧的第一语音结果;
通过注意力机制解码第一语音结果,得到最终语音结果;
通过CTC算法将最终语音结果与对应帧对齐后得到文字,最终得到语音识别结果。
7.一种基于注意力机制的语音识别系统,其特征在于,包括以下模块:
音频接收与预处理模块,用于获取音频信息并对音频信息进行预处理,得到预处理后的音频;
音频特征提取模块,用于对预处理后的音频进行特征提取,得到特征向量;
深度学习建模模块,用于采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;
结果输出模块,用于将特征向量输入到识别模型,输出语音识别结果。
8.一种基于注意力机制的语音识别装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述一种基于注意力机制的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829299.7A CN111968622A (zh) | 2020-08-18 | 2020-08-18 | 一种基于注意力机制的语音识别方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829299.7A CN111968622A (zh) | 2020-08-18 | 2020-08-18 | 一种基于注意力机制的语音识别方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111968622A true CN111968622A (zh) | 2020-11-20 |
Family
ID=73389139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010829299.7A Pending CN111968622A (zh) | 2020-08-18 | 2020-08-18 | 一种基于注意力机制的语音识别方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968622A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599122A (zh) * | 2020-12-10 | 2021-04-02 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
CN113270086A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
CN113763939A (zh) * | 2021-09-07 | 2021-12-07 | 普强时代(珠海横琴)信息技术有限公司 | 基于端到端模型的混合语音识别系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
CN109036381A (zh) * | 2018-08-08 | 2018-12-18 | 平安科技(深圳)有限公司 | 语音处理方法及装置、计算机装置及可读存储介质 |
CN110534091A (zh) * | 2019-08-16 | 2019-12-03 | 广州威尔森信息科技有限公司 | 一种基于微服务器及智能语音识别的人车交互方法 |
CN110534095A (zh) * | 2019-08-22 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110603583A (zh) * | 2017-05-11 | 2019-12-20 | 三菱电机株式会社 | 语音识别系统和用于语音识别的方法 |
CN110827801A (zh) * | 2020-01-09 | 2020-02-21 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN111128137A (zh) * | 2019-12-30 | 2020-05-08 | 广州市百果园信息技术有限公司 | 一种声学模型的训练方法、装置、计算机设备和存储介质 |
CN111128229A (zh) * | 2019-08-05 | 2020-05-08 | 上海海事大学 | 语音分类方法、装置及计算机存储介质 |
CN111145786A (zh) * | 2019-12-17 | 2020-05-12 | 深圳追一科技有限公司 | 语音情感识别方法和装置、服务器、计算机可读存储介质 |
-
2020
- 2020-08-18 CN CN202010829299.7A patent/CN111968622A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110603583A (zh) * | 2017-05-11 | 2019-12-20 | 三菱电机株式会社 | 语音识别系统和用于语音识别的方法 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
CN109036381A (zh) * | 2018-08-08 | 2018-12-18 | 平安科技(深圳)有限公司 | 语音处理方法及装置、计算机装置及可读存储介质 |
CN111128229A (zh) * | 2019-08-05 | 2020-05-08 | 上海海事大学 | 语音分类方法、装置及计算机存储介质 |
CN110534091A (zh) * | 2019-08-16 | 2019-12-03 | 广州威尔森信息科技有限公司 | 一种基于微服务器及智能语音识别的人车交互方法 |
CN110534095A (zh) * | 2019-08-22 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111145786A (zh) * | 2019-12-17 | 2020-05-12 | 深圳追一科技有限公司 | 语音情感识别方法和装置、服务器、计算机可读存储介质 |
CN111128137A (zh) * | 2019-12-30 | 2020-05-08 | 广州市百果园信息技术有限公司 | 一种声学模型的训练方法、装置、计算机设备和存储介质 |
CN110827801A (zh) * | 2020-01-09 | 2020-02-21 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599122A (zh) * | 2020-12-10 | 2021-04-02 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
WO2022121150A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
CN113270086A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
CN113270086B (zh) * | 2021-07-19 | 2021-10-15 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
US11488586B1 (en) | 2021-07-19 | 2022-11-01 | Institute Of Automation, Chinese Academy Of Sciences | System for speech recognition text enhancement fusing multi-modal semantic invariance |
CN113763939A (zh) * | 2021-09-07 | 2021-12-07 | 普强时代(珠海横琴)信息技术有限公司 | 基于端到端模型的混合语音识别系统及方法 |
CN113763939B (zh) * | 2021-09-07 | 2024-04-16 | 普强时代(珠海横琴)信息技术有限公司 | 基于端到端模型的混合语音识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
Ghai et al. | Literature review on automatic speech recognition | |
CN112767958A (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
CN112750446B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN111508498A (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
CN102013253A (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
CN111599344B (zh) | 一种基于拼接特征的语种识别方法 | |
CN112581963B (zh) | 一种语音意图识别方法及系统 | |
US20230197061A1 (en) | Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN111951796A (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
CN113744722A (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
AU2022203531B1 (en) | Real-time speech-to-speech generation (rssg) apparatus, method and a system therefore | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
CN116524962A (zh) | 一种基于Conformer结构与多任务学习框架的语音情感识别方法 | |
CN108597497B (zh) | 一种字幕语音精准同步系统及方法、信息数据处理终端 | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
CN114512121A (zh) | 语音合成方法、模型训练方法及装置 | |
CN114550741A (zh) | 一种语义识别的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |