CN113380232A - 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 - Google Patents

基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 Download PDF

Info

Publication number
CN113380232A
CN113380232A CN202110661855.9A CN202110661855A CN113380232A CN 113380232 A CN113380232 A CN 113380232A CN 202110661855 A CN202110661855 A CN 202110661855A CN 113380232 A CN113380232 A CN 113380232A
Authority
CN
China
Prior art keywords
vector
matching
speech recognition
level
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110661855.9A
Other languages
English (en)
Other versions
CN113380232B (zh
Inventor
韩纪庆
薛嘉宾
郑贵滨
郑铁然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110661855.9A priority Critical patent/CN113380232B/zh
Publication of CN113380232A publication Critical patent/CN113380232A/zh
Application granted granted Critical
Publication of CN113380232B publication Critical patent/CN113380232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。

Description

基于约束的结构化稀疏注意力机制的端到端语音识别方法及 存储介质
技术领域
本发明涉及一种端到端语音识别技术,属于语音识别技术领域。
背景技术
随着深度学习的不断发展,端到端语音识别方法被成功应用于手机、平板电脑、智能家居等多种实际领域中,受到越来越多研究者的关注。在众多端到端语音识别技术中,基于注意力机制的编码器解码器模型,由于其兼顾了输入语音序列和识别文本序列的上下文关系,取得了目前最佳性能。该方法采用注意力机制学习输入语音序列与识别文本序列之间的对齐关系,以减少预测无关信息对解码器预测过程的干扰。然而,因其采用Softmax变换函数对注意力得分向量进行归一化,导致生成的瞥向量中包含大量预测无关信息,该信息将严重干扰解码器识别过程,也使得这种方法识别的字错率、词错率相对较高。
发明内容
本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。
基于约束的结构化稀疏注意力机制的端到端语音识别方法,包括以下步骤:
将待识别的语音识别样本分割为多个音频帧,提取对数梅尔谱特征,得到帧级特征矩阵;然后将帧级特征矩输入基于约束的结构化稀疏注意力机制的端到端语音识别模型进行识别;所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型的处理过程包括以下步骤:
编码器网络对的每个帧级特征矩阵中对应帧提取该帧的高层声学表示,以得到对应的高层声学表示矩阵,第i个样本的高层编码矩阵为
Figure BDA0003115388650000011
其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示
Figure BDA0003115388650000012
的维度;编码器网络由多层双向长短时记忆网络组成;
同时利用滑动窗对高层编码表示矩阵进行分割,生成音频帧片段,
对每一个高层声学编码表示矩阵对应的音频帧片段,利用全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量
Figure BDA0003115388650000013
进而得到第i个样本在第n个解码时刻的匹配分向量为
Figure BDA0003115388650000014
利用受限的结构化稀疏变换函数对匹配分向量进行归一化:
(1)、将匹配分向量进行从大到小排序,记第i个样本在第n个解码时刻排序后的匹配分向量为
Figure BDA0003115388650000015
(2)、利用二分查找法获得匹配分向量所对应的阈值:
首先,初始化阈值最小值
Figure BDA0003115388650000021
阈值最大值
Figure BDA0003115388650000022
然后,遍历t=[1,2,...ti],计算τ=(τminmax)/2,
Figure BDA0003115388650000023
若S<1则τmax=τ,否则τmin=τ;
其中
Figure BDA0003115388650000024
是音频帧片段的分段标记,λ是超参数;其中(·)+表示对向量中的负数全部置为0;ki是第i个样本的音频帧片段总数,
Figure BDA0003115388650000025
为第i个样本中第j个音频帧片段对应的约束注意力得分向量;
直至利用二分查找法得到最终的阈值τ,并将
Figure BDA00031153886500000211
整合得到向量
Figure BDA0003115388650000027
(3)、对匹配分向量进行归一化:第i个样本在第n个解码时刻的注意力得分向量为
Figure BDA0003115388650000028
根据归一化注意力得分向量对高层声学表示矩阵进行加权求和,以得到当前解码时刻的瞥向量,第i个样本在第n个解码时刻的瞥向量为
Figure BDA0003115388650000029
利用解码器网络对瞥向量进行预测,解码器网络由长短时记忆网络组成;
直至解码器完成生成过程得到识别结果序列。
进一步地,所述的语音识别样本是针原始语音信号进行采样与量化得到的。
进一步地,所述的编码器网络由5层双向长短时记忆网络组成,每层的节点数为320。
进一步地,利用滑动窗对高层编码表示矩阵进行分割生成音频帧片段的过程是滑动窗实现的,所述的滑动窗的窗长和窗移均为3。
进一步地,利用全连接网络预测匹配分过程中所述的全连接网络包含2层,每层包含1024个节点。
进一步地,组成的解码器网络的长短时记忆网络的节点数目为1024。
进一步地,对匹配分向量进行归一化的同时,更新约束注意力得分向量
Figure BDA00031153886500000210
进一步地,超参数λ设置为0.1。
进一步地,所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型是预先训练好的,训练过程包括以下步骤:
步骤1:对训练集中的原始语音信号分别进行采样与量化,得到语音识别样本;
步骤2:将每一个语音识别样本分割为多个音频帧,并根据预先指定的梅尔频带数,对这些音频帧提取经典的对数梅尔谱特征,以得到帧级特征矩阵;
步骤3:利用编码器网络对每个帧级特征矩阵中对应帧提取该帧的高层声学表示,得到对应的高层声学表示矩阵,第i个样本的高层编码矩阵为
Figure BDA0003115388650000031
其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示
Figure BDA0003115388650000032
的维度;
利用滑动窗对高层编码表示矩阵进行分割,来生成音频帧片段,其中滑动窗的窗长和窗移均为3;
步骤4:初始化约束注意力得分向量
Figure BDA0003115388650000033
其中[1,1,...,1]T,表示全1列向量,ki是第i个样本的音频帧片段总数,
Figure BDA0003115388650000034
为第i个样本中第j个音频帧片段对应的约束注意力得分向量;
步骤5:对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段,利用传统的全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量
Figure BDA0003115388650000035
进而得到第i个样本在第n个解码时刻的匹配分向量为
Figure BDA0003115388650000036
步骤6:为获得均匀、连续且稀疏的注意力得分向量,利用受限的结构化稀疏变换函数对步骤5中得到的匹配分向量进行归一化,包括以下步骤:
步骤6.1:将步骤5中得到的匹配分向量进行从大到小排序,记第i个样本在第n个解码时刻排序后的匹配分向量为
Figure BDA0003115388650000037
步骤6.2:利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值:
首先,初始化阈值最小值
Figure BDA0003115388650000038
阈值最大值
Figure BDA0003115388650000039
然后,遍历t=[1,2,...ti],计算τ=(τminmax)/2,
Figure BDA00031153886500000310
若S<1则τmax=τ,否则τmin=τ;
直至利用二分查找法得到最终的阈值τ,并将
Figure BDA00031153886500000311
整合得到向量
Figure BDA00031153886500000312
步骤6.3:利用步骤6.2中得到的
Figure BDA00031153886500000313
对步骤5中得到的匹配分向量进行归一化,记第i个样本在第n个解码时刻的注意力得分向量为
Figure BDA00031153886500000314
同时更新约束注意力得分向量
Figure BDA00031153886500000315
步骤7:根据步骤6.3中得到的归一化注意力得分向量对步骤3中得到的高层声学表示矩阵进行加权求和,以得到当前解码时刻的瞥向量,记第i个样本在第n个解码时刻的瞥向量为
Figure BDA00031153886500000316
步骤8:利用解码器网络对步骤7中得到的瞥向量进行预测;
步骤9:重复步骤5至步骤8,直至解码器完成生成过程,以得到识别结果序列;
步骤10:利用训练集中全部语音识别样本,计算经典序列损失,并用其训练模型参数,进而得到训练好的语音识别模型。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于约束的结构化稀疏注意力机制的端到端语音识别方法。
有益效果:
本发明提供一种基于受限的结构化稀疏注意力机制的端到端语音识别方法,其通过产生受限的结构化稀疏注意力得分,以降低注意力机制生成的瞥向量中预测无关信息占比,最终达到提升识别性能的目的,即本发明提供一种受限的结构化稀疏变换函数,通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。
利用本发明进行语音识别时,字错率、词错率能够得到有效降低。
附图说明
图1是基于约束的结构化稀疏注意力机制的端到端语音识别方法的示意图;
图2是基于受限的结构化稀疏注意力机制的端到端语音识别方法与相关方法在LibriSpeech数据集上的准确率对比柱状图。
具体实施方式
具体实施方式一:
本实施方式为基于约束的结构化稀疏注意力机制的端到端语音识别方法,如图1所示,在训练阶段,首先,对来自训练集的原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。在测试阶段,首先,对测试集中的每一个原始语音信号进行采样、量化、帧级特征提取;然后,利用训练好的语音识别模型,对特征矩阵进行高层声学表示提取、匹配分计算;接下来,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用训练好的语音识别模型,来得到预测结果。
其具体过程包括以下步骤:
步骤1:对训练集和测试集中的原始语音信号分别进行采样与量化,以得到经上述两个操作处理后的语音识别样本。在一些实施例中,采样率可取16000赫兹,量化位数可为16。
步骤2:将步骤1中得到的每一个语音识别样本分割为多个音频帧,并根据预先指定的梅尔频带数,对这些音频帧提取经典的对数梅尔谱特征,以得到帧级特征矩阵。其中,帧长、帧间交叠、梅尔频带数可分别设置为25毫秒、10毫秒和40。
步骤3:考虑到音频帧往往因持续时长过短,而存在包含语义信息不足的局限性。为此,利用一个编码器网络,对步骤2中得到的每个帧级特征矩阵中对应帧提取该帧的高层声学表示,以得到对应的高层声学表示矩阵,记第i个样本的高层编码矩阵为
Figure BDA0003115388650000051
其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示
Figure BDA0003115388650000052
的维度。编码器网络由5层双向长短时记忆网络组成,每层的节点数为320。
利用滑动窗对高层编码表示矩阵进行分割,来生成音频帧片段,其中滑动窗的窗长和窗移均为3。
步骤4:
初始化约束注意力得分向量
Figure BDA0003115388650000053
其中[1,1,...,1]T,表示全1列向量,ki是第i个样本的音频帧片段总数,
Figure BDA0003115388650000054
为第i个样本中第j个音频帧片段对应的约束注意力得分向量。
步骤5:为减少预测无关信息对解码器预测过程的干扰,对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段,利用传统的全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量
Figure BDA0003115388650000055
进而得到第i个样本在第n个解码时刻的匹配分向量为
Figure BDA0003115388650000056
其中,该全连接网络包含2层,每层包含1024个节点。
步骤6:为获得均匀、连续且稀疏的注意力得分向量,利用受限的结构化稀疏变换函数对步骤5中得到的匹配分向量进行归一化,包括以下步骤:
步骤6.1:将步骤5中得到的匹配分向量进行从大到小排序,记第i个样本在第n个解码时刻排序后的匹配分向量为
Figure BDA0003115388650000057
步骤6.2:利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值τ:
首先,初始化阈值最小值
Figure BDA0003115388650000058
阈值最大值
Figure BDA0003115388650000059
然后,遍历t=[1,2,...ti],计算τ=(τminmax)/2,
Figure BDA00031153886500000510
若S<1则τmax=τ,否则τmin=τ;
其中
Figure BDA00031153886500000511
是音频帧片段的分段标记,λ是超参数,这里设置为0.1;其中(·)+表示对向量中的负数全部置为0;
直至利用二分查找法得到最终的阈值τ,并将
Figure BDA00031153886500000512
整合得到向量
Figure BDA00031153886500000513
步骤6.3:利用步骤6.2中得到的
Figure BDA00031153886500000514
对步骤5中得到的匹配分向量进行归一化,记第i个样本在第n个解码时刻的注意力得分向量为
Figure BDA00031153886500000515
同时更新约束注意力得分向量
Figure BDA00031153886500000516
步骤7:根据步骤6.3中得到的归一化注意力得分向量对步骤3中得到的高层声学表示矩阵进行加权求和,以得到当前解码时刻的瞥向量,记第i个样本在第n个解码时刻的瞥向量为
Figure BDA0003115388650000061
步骤8:利用解码器网络对步骤7中得到的瞥向量进行预测,其中解码器网络由一层长短时记忆网络组成,其节点数目为1024。
步骤9:重复步骤5至步骤8,直至解码器完成生成过程,以得到识别结果序列。
步骤10:利用训练集中全部语音识别样本,计算经典序列损失,并用其训练模型参数,进而得到语音识别模型。
步骤11:利用测试集中全部语音识别样本,生成测试集的识别结果,以得到预测结果。
步骤6中的受限的结构化稀疏归一化函数可以通过产生均匀且结构化稀疏的概率分布,来迫使模型关注少量且连续的输入语音帧片段;而且本发明所提出的方法具有闭式解,无需迭代求解算法,因此求解过程高效。
实施例
为了验证本发明的效果,利用实施方式一所述的基于受限的结构化稀疏注意力机制的端到端语音识别方法对对LibriSpeech数据集进行处理,并与相关方法(传统的softmax注意力机制的处理方式)在LibriSpeech数据集的处理效果进行对比,如图2所示的准确率对比柱状图所示,其中CER、WER分别表示字错率、词错率,dev和test分别表示开发过程、测试过程的处理准确率。通过对比本发明提出的方法和基于Softmax变换函数的端到端语音识别方法的准确率,可以验证受限的结构化稀疏注意力机制在字错率、词错率上得到有效降低,效果更加优秀。
具体实施方式二:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于约束的结构化稀疏注意力机制的端到端语音识别方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,包括以下步骤:
将待识别的语音识别样本分割为多个音频帧,提取对数梅尔谱特征,得到帧级特征矩阵;然后将帧级特征矩输入基于约束的结构化稀疏注意力机制的端到端语音识别模型进行识别;所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型的处理过程包括以下步骤:
编码器网络对的每个帧级特征矩阵中对应帧提取该帧的高层声学表示,以得到对应的高层声学表示矩阵,第i个样本的高层编码矩阵为
Figure FDA0003115388640000011
其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示
Figure FDA0003115388640000012
的维度;编码器网络由多层双向长短时记忆网络组成;
同时利用滑动窗对高层编码表示矩阵进行分割,生成音频帧片段,
对每一个高层声学编码表示矩阵对应的音频帧片段,利用全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量
Figure FDA0003115388640000013
进而得到第i个样本在第n个解码时刻的匹配分向量为
Figure FDA0003115388640000014
利用受限的结构化稀疏变换函数对匹配分向量进行归一化:
(1)、将匹配分向量进行从大到小排序,记第i个样本在第n个解码时刻排序后的匹配分向量为
Figure FDA0003115388640000015
(2)、利用二分查找法获得匹配分向量所对应的阈值:
首先,初始化阈值最小值
Figure FDA0003115388640000016
阈值最大值
Figure FDA0003115388640000017
然后,遍历t=[1,2,…ti],计算
Figure FDA0003115388640000018
若S<1则τmax=τ,否则τmin=τ;
其中
Figure FDA0003115388640000019
是音频帧片段的分段标记,λ是超参数;其中(·)+表示对向量中的负数全部置为0;ki是第i个样本的音频帧片段总数,
Figure FDA00031153886400000110
为第i个样本中第j个音频帧片段对应的约束注意力得分向量;
直至利用二分查找法得到最终的阈值τ,并将
Figure FDA00031153886400000111
整合得到向量
Figure FDA00031153886400000112
(3)、对匹配分向量进行归一化:第i个样本在第n个解码时刻的注意力得分向量为
Figure FDA00031153886400000113
根据归一化注意力得分向量对高层声学表示矩阵进行加权求和,以得到当前解码时刻的瞥向量,第i个样本在第n个解码时刻的瞥向量为
Figure FDA00031153886400000114
利用解码器网络对瞥向量进行预测,解码器网络由长短时记忆网络组成;
直至解码器完成生成过程得到识别结果序列。
2.根据权利要求1所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,所述的语音识别样本是针原始语音信号进行采样与量化得到的。
3.根据权利要求2所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,所述的编码器网络由5层双向长短时记忆网络组成,每层的节点数为320。
4.根据权利要求3所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,利用滑动窗对高层编码表示矩阵进行分割生成音频帧片段的过程是滑动窗实现的,所述的滑动窗的窗长和窗移均为3。
5.根据权利要求4所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,利用全连接网络预测匹配分过程中所述的全连接网络包含2层,每层包含1024个节点。
6.根据权利要求5所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,组成的解码器网络的长短时记忆网络的节点数目为1024。
7.根据权利要求6所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,对匹配分向量进行归一化的同时,更新约束注意力得分向量
Figure FDA0003115388640000021
8.根据权利要求7所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,超参数λ设置为0.1。
9.根据权利要求1至8之一所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法,其特征在于,所述的基于约束的结构化稀疏注意力机制的端到端语音识别模型是预先训练好的,训练过程包括以下步骤:
步骤1:对训练集中的原始语音信号分别进行采样与量化,得到语音识别样本;
步骤2:将每一个语音识别样本分割为多个音频帧,并根据预先指定的梅尔频带数,对这些音频帧提取经典的对数梅尔谱特征,以得到帧级特征矩阵;
步骤3:利用编码器网络对每个帧级特征矩阵中对应帧提取该帧的高层声学表示,得到对应的高层声学表示矩阵,第i个样本的高层编码矩阵为
Figure FDA0003115388640000022
其中,Ti为构成该样本的音频帧数目,d为第t个高层声学表示
Figure FDA0003115388640000023
的维度;
利用滑动窗对高层编码表示矩阵进行分割,来生成音频帧片段,其中滑动窗的窗长和窗移均为3;
步骤4:初始化约束注意力得分向量
Figure FDA0003115388640000024
其中[1,1,...,1]T,表示全1列向量,ki是第i个样本的音频帧片段总数,
Figure FDA0003115388640000031
为第i个样本中第j个音频帧片段对应的约束注意力得分向量;
步骤5:对步骤3中得到的每一个高层声学编码表示矩阵对应的音频帧片段,利用传统的全连接网络预测匹配分,以得到第i个样本在第n个解码时刻每个音频帧片段对应的匹配分向量
Figure FDA0003115388640000032
进而得到第i个样本在第n个解码时刻的匹配分向量为
Figure FDA0003115388640000033
步骤6:为获得均匀、连续且稀疏的注意力得分向量,利用受限的结构化稀疏变换函数对步骤5中得到的匹配分向量进行归一化,包括以下步骤:
步骤6.1:将步骤5中得到的匹配分向量进行从大到小排序,记第i个样本在第n个解码时刻排序后的匹配分向量为
Figure FDA0003115388640000034
步骤6.2:利用二分查找法获得步骤6.1中得到的匹配分向量所对应的阈值:
首先,初始化阈值最小值
Figure FDA0003115388640000035
阈值最大值
Figure FDA0003115388640000036
然后,遍历t=[1,2,...ti],计算
Figure FDA0003115388640000037
若S<1则τmax=τ,否则τmin=τ;
直至利用二分查找法得到最终的阈值τ,并将
Figure FDA0003115388640000038
整合得到向量
Figure FDA0003115388640000039
步骤6.3:利用步骤6.2中得到的
Figure FDA00031153886400000310
对步骤5中得到的匹配分向量进行归一化,记第i个样本在第n个解码时刻的注意力得分向量为
Figure FDA00031153886400000311
同时更新约束注意力得分向量
Figure FDA00031153886400000312
步骤7:根据步骤6.3中得到的归一化注意力得分向量对步骤3中得到的高层声学表示矩阵进行加权求和,以得到当前解码时刻的瞥向量,记第i个样本在第n个解码时刻的瞥向量为
Figure FDA00031153886400000313
步骤8:利用解码器网络对步骤7中得到的瞥向量进行预测;
步骤9:重复步骤5至步骤8,直至解码器完成生成过程,以得到识别结果序列;
步骤10:利用训练集中全部语音识别样本,计算经典序列损失,并用其训练模型参数,进而得到训练好的语音识别模型。
10.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至9之一所述的基于约束的结构化稀疏注意力机制的端到端语音识别方法。
CN202110661855.9A 2021-06-15 2021-06-15 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质 Active CN113380232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110661855.9A CN113380232B (zh) 2021-06-15 2021-06-15 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110661855.9A CN113380232B (zh) 2021-06-15 2021-06-15 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

Publications (2)

Publication Number Publication Date
CN113380232A true CN113380232A (zh) 2021-09-10
CN113380232B CN113380232B (zh) 2022-11-15

Family

ID=77574311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110661855.9A Active CN113380232B (zh) 2021-06-15 2021-06-15 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

Country Status (1)

Country Link
CN (1) CN113380232B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783418A (zh) * 2022-06-20 2022-07-22 天津大学 基于稀疏自注意力机制的端到端语音识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180307679A1 (en) * 2017-04-23 2018-10-25 Voicebox Technologies Corporation Multi-lingual semantic parser based on transferred learning
CN110335594A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多示例学习的自动语音识别困难样本挖掘方法
CN113823264A (zh) * 2021-06-30 2021-12-21 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180307679A1 (en) * 2017-04-23 2018-10-25 Voicebox Technologies Corporation Multi-lingual semantic parser based on transferred learning
CN110335594A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多示例学习的自动语音识别困难样本挖掘方法
CN113823264A (zh) * 2021-06-30 2021-12-21 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质及计算机设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BEN PETERS,等: "Sparse Sequence-to-Sequence Models", 《HTTPS://ARXIV.ORG/ABS/1905.05702》 *
JIABIN XUE,等: "Exploring attention mechanisms based on summary information for end-to-end automatic speech recognition", 《NEUROCOMPUTING》 *
JIABIN XUE,等: "STRUCTURED SPARSE ATTENTION FOR END-TO-END AUTOMATIC SPEECH", 《2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
MARTINS A,等: "From softmax to sparsemax: A sparse model of attention and multi-label classification", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING(PMLR)》 *
朱芳枚: "面向语音情感识别的深度学习算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783418A (zh) * 2022-06-20 2022-07-22 天津大学 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114783418B (zh) * 2022-06-20 2022-08-23 天津大学 基于稀疏自注意力机制的端到端语音识别方法及系统

Also Published As

Publication number Publication date
CN113380232B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
CN111429889A (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
Xue et al. Online end-to-end neural diarization with speaker-tracing buffer
CN106856092B (zh) 基于前向神经网络语言模型的汉语语音关键词检索方法
CN111583909A (zh) 一种语音识别方法、装置、设备及存储介质
Cai et al. Insights in-to-end learning scheme for language identification
Padmanabhan et al. Large-vocabulary speech recognition algorithms
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN113505610B (zh) 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备
Ding et al. Personal VAD 2.0: Optimizing personal voice activity detection for on-device speech recognition
US20230197061A1 (en) Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device
Bluche et al. Small-footprint open-vocabulary keyword spotting with quantized LSTM networks
KR20210141115A (ko) 발화 시간 추정 방법 및 장치
CN114187898A (zh) 一种基于融合神经网络结构的端到端语音识别方法
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
Ghandoura et al. Building and benchmarking an Arabic Speech Commands dataset for small-footprint keyword spotting
CN113380232B (zh) 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质
Picheny et al. Trends and advances in speech recognition
CN117041430B (zh) 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置
Vimala et al. Isolated speech recognition system for Tamil language using statistical pattern matching and machine learning techniques
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
CN114743545B (zh) 方言种类预测模型的训练方法、设备及存储介质
Banjara et al. Nepali speech recognition using cnn and sequence models
CN115691510A (zh) 一种基于随机屏蔽训练的声纹识别方法及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant