CN113380232A - 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 - Google Patents
基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 Download PDFInfo
- Publication number
- CN113380232A CN113380232A CN202110661855.9A CN202110661855A CN113380232A CN 113380232 A CN113380232 A CN 113380232A CN 202110661855 A CN202110661855 A CN 202110661855A CN 113380232 A CN113380232 A CN 113380232A
- Authority
- CN
- China
- Prior art keywords
- vector
- matching
- speech recognition
- level
- constraint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000007246 mechanism Effects 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 88
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 2
- 230000006403 short-term memory Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000010606 normalization Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。
Description
技术领域
本发明涉及一种端到端语音识别技术,属于语音识别技术领域。
背景技术
随着深度学习的不断发展,端到端语音识别方法被成功应用于手机、平板电脑、智能家居等多种实际领域中,受到越来越多研究者的关注。在众多端到端语音识别技术中,基于注意力机制的编码器解码器模型,由于其兼顾了输入语音序列和识别文本序列的上下文关系,取得了目前最佳性能。该方法采用注意力机制学习输入语音序列与识别文本序列之间的对齐关系,以减少预测无关信息对解码器预测过程的干扰。然而,因其采用Softmax变换函数对注意力得分向量进行归一化,导致生成的瞥向量中包含大量预测无关信息,该信息将严重干扰解码器识别过程,也使得这种方法识别的字错率、词错率相对较高。
发明内容
本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。
基于约束的结构化稀疏注意力机制的端到端语音识别方法,包括以下步骤:
将待识别的语音识别样本分割为多个音频帧,提取对数梅尔谱特征,得到帧级特征矩阵;然后将帧级特征矩输入基于约束的结构化稀疏注意力机制的端到端语音识别模型进行识别;所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型的处理过程包括以下步骤:
编码器网络对的每个帧级特征矩阵中对应帧提取该帧的高层声学表示,以得到对应的高层声学表示矩阵,第i个样本的高层编码矩阵为其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示的维度;编码器网络由多层双向长短时记忆网络组成;
同时利用滑动窗对高层编码表示矩阵进行分割,生成音频帧片段,
利用受限的结构化稀疏变换函数对匹配分向量进行归一化:
(2)、利用二分查找法获得匹配分向量所对应的阈值:
利用解码器网络对瞥向量进行预测,解码器网络由长短时记忆网络组成;
直至解码器完成生成过程得到识别结果序列。
进一步地,所述的语音识别样本是针原始语音信号进行采样与量化得到的。
进一步地,所述的编码器网络由5层双向长短时记忆网络组成,每层的节点数为320。
进一步地,利用滑动窗对高层编码表示矩阵进行分割生成音频帧片段的过程是滑动窗实现的,所述的滑动窗的窗长和窗移均为3。
进一步地,利用全连接网络预测匹配分过程中所述的全连接网络包含2层,每层包含1024个节点。
进一步地,组成的解码器网络的长短时记忆网络的节点数目为1024。
进一步地,超参数λ设置为0.1。
进一步地,所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型是预先训练好的,训练过程包括以下步骤:
步骤1:对训练集中的原始语音信号分别进行采样与量化,得到语音识别样本;
步骤2:将每一个语音识别样本分割为多个音频帧,并根据预先指定的梅尔频带数,对这些音频帧提取经典的对数梅尔谱特征,以得到帧级特征矩阵;
利用滑动窗对高层编码表示矩阵进行分割,来生成音频帧片段,其中滑动窗的窗长和窗移均为3;
步骤5:对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段,利用传统的全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量进而得到第i个样本在第n个解码时刻的匹配分向量为
步骤6:为获得均匀、连续且稀疏的注意力得分向量,利用受限的结构化稀疏变换函数对步骤5中得到的匹配分向量进行归一化,包括以下步骤:
步骤6.2:利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值:
步骤8:利用解码器网络对步骤7中得到的瞥向量进行预测;
步骤9:重复步骤5至步骤8,直至解码器完成生成过程,以得到识别结果序列;
步骤10:利用训练集中全部语音识别样本,计算经典序列损失,并用其训练模型参数,进而得到训练好的语音识别模型。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于约束的结构化稀疏注意力机制的端到端语音识别方法。
有益效果:
本发明提供一种基于受限的结构化稀疏注意力机制的端到端语音识别方法,其通过产生受限的结构化稀疏注意力得分,以降低注意力机制生成的瞥向量中预测无关信息占比,最终达到提升识别性能的目的,即本发明提供一种受限的结构化稀疏变换函数,通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。
利用本发明进行语音识别时,字错率、词错率能够得到有效降低。
附图说明
图1是基于约束的结构化稀疏注意力机制的端到端语音识别方法的示意图;
图2是基于受限的结构化稀疏注意力机制的端到端语音识别方法与相关方法在LibriSpeech数据集上的准确率对比柱状图。
具体实施方式
具体实施方式一:
本实施方式为基于约束的结构化稀疏注意力机制的端到端语音识别方法,如图1所示,在训练阶段,首先,对来自训练集的原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。在测试阶段,首先,对测试集中的每一个原始语音信号进行采样、量化、帧级特征提取;然后,利用训练好的语音识别模型,对特征矩阵进行高层声学表示提取、匹配分计算;接下来,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用训练好的语音识别模型,来得到预测结果。
其具体过程包括以下步骤:
步骤1:对训练集和测试集中的原始语音信号分别进行采样与量化,以得到经上述两个操作处理后的语音识别样本。在一些实施例中,采样率可取16000赫兹,量化位数可为16。
步骤2:将步骤1中得到的每一个语音识别样本分割为多个音频帧,并根据预先指定的梅尔频带数,对这些音频帧提取经典的对数梅尔谱特征,以得到帧级特征矩阵。其中,帧长、帧间交叠、梅尔频带数可分别设置为25毫秒、10毫秒和40。
步骤3:考虑到音频帧往往因持续时长过短,而存在包含语义信息不足的局限性。为此,利用一个编码器网络,对步骤2中得到的每个帧级特征矩阵中对应帧提取该帧的高层声学表示,以得到对应的高层声学表示矩阵,记第i个样本的高层编码矩阵为其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示的维度。编码器网络由5层双向长短时记忆网络组成,每层的节点数为320。
利用滑动窗对高层编码表示矩阵进行分割,来生成音频帧片段,其中滑动窗的窗长和窗移均为3。
步骤4:
步骤5:为减少预测无关信息对解码器预测过程的干扰,对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段,利用传统的全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量进而得到第i个样本在第n个解码时刻的匹配分向量为其中,该全连接网络包含2层,每层包含1024个节点。
步骤6:为获得均匀、连续且稀疏的注意力得分向量,利用受限的结构化稀疏变换函数对步骤5中得到的匹配分向量进行归一化,包括以下步骤:
步骤6.2:利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值τ:
步骤8:利用解码器网络对步骤7中得到的瞥向量进行预测,其中解码器网络由一层长短时记忆网络组成,其节点数目为1024。
步骤9:重复步骤5至步骤8,直至解码器完成生成过程,以得到识别结果序列。
步骤10:利用训练集中全部语音识别样本,计算经典序列损失,并用其训练模型参数,进而得到语音识别模型。
步骤11:利用测试集中全部语音识别样本,生成测试集的识别结果,以得到预测结果。
步骤6中的受限的结构化稀疏归一化函数可以通过产生均匀且结构化稀疏的概率分布,来迫使模型关注少量且连续的输入语音帧片段;而且本发明所提出的方法具有闭式解,无需迭代求解算法,因此求解过程高效。
实施例
为了验证本发明的效果,利用实施方式一所述的基于受限的结构化稀疏注意力机制的端到端语音识别方法对对LibriSpeech数据集进行处理,并与相关方法(传统的softmax注意力机制的处理方式)在LibriSpeech数据集的处理效果进行对比,如图2所示的准确率对比柱状图所示,其中CER、WER分别表示字错率、词错率,dev和test分别表示开发过程、测试过程的处理准确率。通过对比本发明提出的方法和基于Softmax变换函数的端到端语音识别方法的准确率,可以验证受限的结构化稀疏注意力机制在字错率、词错率上得到有效降低,效果更加优秀。
具体实施方式二:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于约束的结构化稀疏注意力机制的端到端语音识别方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,包括以下步骤:
将待识别的语音识别样本分割为多个音频帧,提取对数梅尔谱特征,得到帧级特征矩阵;然后将帧级特征矩输入基于约束的结构化稀疏注意力机制的端到端语音识别模型进行识别;所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型的处理过程包括以下步骤:
编码器网络对的每个帧级特征矩阵中对应帧提取该帧的高层声学表示,以得到对应的高层声学表示矩阵,第i个样本的高层编码矩阵为其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示的维度;编码器网络由多层双向长短时记忆网络组成;
同时利用滑动窗对高层编码表示矩阵进行分割,生成音频帧片段,
利用受限的结构化稀疏变换函数对匹配分向量进行归一化:
(2)、利用二分查找法获得匹配分向量所对应的阈值:
利用解码器网络对瞥向量进行预测,解码器网络由长短时记忆网络组成;
直至解码器完成生成过程得到识别结果序列。
2.根据权利要求1所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,所述的语音识别样本是针原始语音信号进行采样与量化得到的。
3.根据权利要求2所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,所述的编码器网络由5层双向长短时记忆网络组成,每层的节点数为320。
4.根据权利要求3所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,利用滑动窗对高层编码表示矩阵进行分割生成音频帧片段的过程是滑动窗实现的,所述的滑动窗的窗长和窗移均为3。
5.根据权利要求4所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,利用全连接网络预测匹配分过程中所述的全连接网络包含2层,每层包含1024个节点。
6.根据权利要求5所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,组成的解码器网络的长短时记忆网络的节点数目为1024。
8.根据权利要求7所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,超参数λ设置为0.1。
9.根据权利要求1至8之一所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型是预先训练好的,训练过程包括以下步骤:
步骤1:对训练集中的原始语音信号分别进行采样与量化,得到语音识别样本;
步骤2:将每一个语音识别样本分割为多个音频帧,并根据预先指定的梅尔频带数,对这些音频帧提取经典的对数梅尔谱特征,以得到帧级特征矩阵;
利用滑动窗对高层编码表示矩阵进行分割,来生成音频帧片段,其中滑动窗的窗长和窗移均为3;
步骤5:对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段,利用传统的全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量进而得到第i个样本在第n个解码时刻的匹配分向量为
步骤6:为获得均匀、连续且稀疏的注意力得分向量,利用受限的结构化稀疏变换函数对步骤5中得到的匹配分向量进行归一化,包括以下步骤:
步骤6.2:利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值:
步骤8:利用解码器网络对步骤7中得到的瞥向量进行预测;
步骤9:重复步骤5至步骤8,直至解码器完成生成过程,以得到识别结果序列;
步骤10:利用训练集中全部语音识别样本,计算经典序列损失,并用其训练模型参数,进而得到训练好的语音识别模型。
10.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至9之一所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661855.9A CN113380232B (zh) | 2021-06-15 | 2021-06-15 | 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661855.9A CN113380232B (zh) | 2021-06-15 | 2021-06-15 | 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113380232A true CN113380232A (zh) | 2021-09-10 |
CN113380232B CN113380232B (zh) | 2022-11-15 |
Family
ID=77574311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110661855.9A Active CN113380232B (zh) | 2021-06-15 | 2021-06-15 | 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113380232B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783418A (zh) * | 2022-06-20 | 2022-07-22 | 天津大学 | 基于稀疏自注意力机制的端到端语音识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180307679A1 (en) * | 2017-04-23 | 2018-10-25 | Voicebox Technologies Corporation | Multi-lingual semantic parser based on transferred learning |
CN110335594A (zh) * | 2019-07-11 | 2019-10-15 | 哈尔滨工业大学 | 基于多示例学习的自动语音识别困难样本挖掘方法 |
CN113823264A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质及计算机设备 |
-
2021
- 2021-06-15 CN CN202110661855.9A patent/CN113380232B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180307679A1 (en) * | 2017-04-23 | 2018-10-25 | Voicebox Technologies Corporation | Multi-lingual semantic parser based on transferred learning |
CN110335594A (zh) * | 2019-07-11 | 2019-10-15 | 哈尔滨工业大学 | 基于多示例学习的自动语音识别困难样本挖掘方法 |
CN113823264A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质及计算机设备 |
Non-Patent Citations (5)
Title |
---|
BEN PETERS,等: "Sparse Sequence-to-Sequence Models", 《HTTPS://ARXIV.ORG/ABS/1905.05702》 * |
JIABIN XUE,等: "Exploring attention mechanisms based on summary information for end-to-end automatic speech recognition", 《NEUROCOMPUTING》 * |
JIABIN XUE,等: "STRUCTURED SPARSE ATTENTION FOR END-TO-END AUTOMATIC SPEECH", 《2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
MARTINS A,等: "From softmax to sparsemax: A sparse model of attention and multi-label classification", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING(PMLR)》 * |
朱芳枚: "面向语音情感识别的深度学习算法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783418A (zh) * | 2022-06-20 | 2022-07-22 | 天津大学 | 基于稀疏自注意力机制的端到端语音识别方法及系统 |
CN114783418B (zh) * | 2022-06-20 | 2022-08-23 | 天津大学 | 基于稀疏自注意力机制的端到端语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113380232B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | A novel learnable dictionary encoding layer for end-to-end language identification | |
CN111429889A (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
Xue et al. | Online end-to-end neural diarization with speaker-tracing buffer | |
CN106856092B (zh) | 基于前向神经网络语言模型的汉语语音关键词检索方法 | |
CN111583909A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
Cai et al. | Insights in-to-end learning scheme for language identification | |
Padmanabhan et al. | Large-vocabulary speech recognition algorithms | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN113505610B (zh) | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 | |
Ding et al. | Personal VAD 2.0: Optimizing personal voice activity detection for on-device speech recognition | |
US20230197061A1 (en) | Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device | |
Bluche et al. | Small-footprint open-vocabulary keyword spotting with quantized LSTM networks | |
KR20210141115A (ko) | 발화 시간 추정 방법 및 장치 | |
CN114187898A (zh) | 一种基于融合神经网络结构的端到端语音识别方法 | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
Ghandoura et al. | Building and benchmarking an Arabic Speech Commands dataset for small-footprint keyword spotting | |
CN113380232B (zh) | 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 | |
Picheny et al. | Trends and advances in speech recognition | |
CN117041430B (zh) | 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置 | |
Vimala et al. | Isolated speech recognition system for Tamil language using statistical pattern matching and machine learning techniques | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN114743545B (zh) | 方言种类预测模型的训练方法、设备及存储介质 | |
Banjara et al. | Nepali speech recognition using cnn and sequence models | |
CN115691510A (zh) | 一种基于随机屏蔽训练的声纹识别方法及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |