CN113113000B - 基于自适应掩膜和分组线性变换的轻量级语音识别方法 - Google Patents
基于自适应掩膜和分组线性变换的轻量级语音识别方法 Download PDFInfo
- Publication number
- CN113113000B CN113113000B CN202110367779.0A CN202110367779A CN113113000B CN 113113000 B CN113113000 B CN 113113000B CN 202110367779 A CN202110367779 A CN 202110367779A CN 113113000 B CN113113000 B CN 113113000B
- Authority
- CN
- China
- Prior art keywords
- dimension
- network
- linear transformation
- output
- adaptive mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明涉及一种基于自适应掩膜和分组线性变换的轻量级语音识别方法,属于数据处理领域。该方法包括以下步骤:S1:基于自适应掩膜注意力机制的编码;S2:基于分组线性变换。本发明从模型算法角度出发,为解决语音识别在边缘计算设备上的轻量化部署难题提供一种新的方法,通过基于自适应掩膜的局部注意力机制提取语音特征的局部信息并与融合全局信息,使用基于分组线性变换的解码网络,完成对语音高层抽象特征的轻量化解码。
Description
技术领域
本发明属于数据处理领域,涉及基于自适应掩膜和分组线性变换的轻量级语音识别方法
背景技术
目前,各种深度神经网络被应用于语音识别领域并取得了显著的成效,这种方式通常将识别模型部署于服务器端,以在线的方式为用户提供相关服务。受网络不确定性的影响,该方式无法得到识别结果的实时反馈,同时由于数据存储在云端,无法从根本上保证用户的隐私和识别的安全。而上述语音识别模型在计算资源受限的嵌入式边缘计算设备上部署的困境在于,语音识别模型结构庞大、计算复杂,同时无法在模型体积受限的情况下提取语音帧的局部信息,轻量级的离线语音识别依然面临重大挑战。
许多研究工作利用注意力机制捕获语音特征序列之间的上下文关系。这种注意力机制在捕获在长期依赖的时序关系上普遍表现较好,但其使用完整序列之间的点积来得到相应的注意力权重,因此无法对与发音、声调存在关联的局部信息进行建模。与此同时,大部分研究在解码网络中使用深度全连接网络对编码网络输出的高层抽象特征进行解码,以自回归的方式得到文本输出。全连接网络中的神经元采用密集连接的方式彼此传递信息,很少有研究考察解码网络神经元之间的其它连接方式,比如,稀疏连接和局部连接的方式。当模型维度较大、层数较深时,采用密集连接的深度全连接网络将大大增加模型的参数量和算力消耗,不利于模型的轻量化部署。
发明内容
有鉴于此,本发明的目的在于提供一种基于自适应掩膜和分组线性变换的轻量级语音识别方法。
为达到上述目的,本发明提供如下技术方案:
基于自适应掩膜和分组线性变换的轻量级语音识别方法,该方法包括以下步骤:
S1:基于自适应掩膜注意力机制的编码;
S2:基于分组线性变换。
可选的,所述S1具体为:
对于长度为T,维度为d为的语音特征序列X=[x1,x2,…,xt,…,xT]T,其中定义α为缩放点积多头自注意力机制,用于捕获特征序列之间的全局依赖关系;定义β为局部注意力机制,用于获取特征序列的局部关联性;通过自适应掩膜,对β各个表示子空间中的注意力权值作用范围进行动态地学习适配:
其中,Wθ∈[0,W]为可学习的网络参数,其能够控制允许信息反向传播的注意力作用范围;自适应掩膜参数m(t,i)∈[0,1]用于计算最终的注意力权值Bt,j;scoret,j为原始注意力得分;abs(·)表示取绝对值,R是用于缓冲的超参数;将Bt,j作用于各表示子空间中自X映射的值向量即得到约束后的表示子空间输出序列
随后,将各表示子空间的输出序列按维度拼接,得到自适应掩膜注意力机制的输出序列;自适应掩膜注意力机制将根据自注意力机制的输出结果,对语音序列进行局部特征提取;并通过耦合叠加的方式,融合全局和局部两种不同层次的信息;最后将提取的特征通过含有两层全连接网络的前馈网络以丰富网络的表达能力。
可选的,所述S2具体为:
构建分组切分操作,将输入和输出分成gl组,l为解码网络的层数;然后使用混合器将分组的输入和输出混合,形成扩张和收缩两个阶段的“缩放单元”;
在扩张阶段,分组组数随着网络深度的加深而变多,神经元数量也会变多,反之亦然;
在收缩阶段,“缩放单元”中配置5个配置参数:深度N、宽度因子mw、输入维度dm、输出维度do、最大组数gmax;在扩张阶段,该单元将维度为dm的输入序列映射到更高维度,限制最高维度dmax=mwdm,同时各层层数将会线性地增加到层;在收缩阶段,将维度为dmax的向量线性地降低到do维度,收缩阶段将使用剩余的层:
其中,Yl为一个“缩放单元”中某一层l的输出,π为分组线性变换,π的输入为输入特征序列X或者中间层输出结果γ(X,Yl-1);
过程1:函数γ首先将对Yl-1进行切分,然后使用混合器将切分结果与输入特征序列X的切分结果进行合并,过程1为一个分组线性变换;各层组数的划分依据为:
为进一步实现网络的轻量化,除考虑构筑块内的特征序列维度的扩张和收缩外,还考虑构筑块之间的堆叠所造成的影响;在各个构筑块间引入不同的深度和宽度因子约束:
其中,Nb和为第b块“缩放单元”的深度和宽度因子,B表示总块数,Nmin与Nmax为超参数,为设定的最小深度和最大深度;每个块中,在“缩放单元”之后级联自注意力机制、互注意力机制和前馈网络,形成解码网络。
本发明的有益效果在于:从模型算法角度出发,为解决语音识别在边缘计算设备上的轻量化部署难题提供一种新的方法,通过基于自适应掩膜的局部注意力机制提取语音特征的局部信息并与融合全局信息,使用基于分组线性变换的解码网络,完成对语音高层抽象特征的轻量化解码。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为基于于自适应掩膜和分组线性变换的轻量级语音识别原理图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
针对语音识别模型的轻量化需求,研究基于自适应掩膜和分组线性变换的轻量级语音识别方法。以语音特征序列对象,设计基于自适应掩膜的局部注意力机制,以及相应的编码网络;以采用深度全连接的解码网络为对象,研究分组线性变换作用下解码网络的稀疏连接方式,实现对编码网络输出序列的轻量化、快速解码。
基于自适应掩膜和分组线性变换的轻量级语音识别,如图1所示,包括基于自适应掩膜注意力机制的编码、基于分组线性变换的解码两个步骤。
1)基于自适应掩膜注意力机制的编码
对于长度为T,维度为d为的语音特征序列X=[x1,x2,…,xt,…,xT]T,其中定义α为缩放点积多头自注意力机制,用于捕获特征序列之间的全局依赖关系;定义β为局部注意力机制,用于获取特征序列的局部关联性。通过自适应掩膜,对β各个表示子空间中的注意力权值作用范围进行动态地学习适配:
其中,Wθ∈[0,W]为可学习的网络参数,其能够控制允许信息反向传播的注意力作用范围。自适应掩膜参数m(t,i)∈[0,1]用于计算最终的注意力权值Bt,j。scoret,j为原始注意力得分。abs(·)表示取绝对值,R是用于缓冲的超参数。将Bt,j作用于各表示子空间中自X映射的值向量即得到约束后的表示子空间输出序列
随后,将各表示子空间的输出序列按维度拼接,得到自适应掩膜注意力机制的输出序列。自适应掩膜注意力机制将根据自注意力机制的输出结果,对语音序列进行局部特征提取。并通过耦合叠加的方式,融合全局和局部两种不同层次的信息。最后将提取的特征通过含有两层全连接网络的前馈网络以丰富网络的表达能力,进而提高泛化能力。
2)基于分组线性变换的轻量级解码
综合考虑解码过程中涉及的残差连接、分组切分和混合器等操作,设计相应的分组线性变换策略。具体地,构建分组切分操作,将输入和输出分成gl组(l为解码网络的层数),然后使用混合器将分组的输入和输出混合。该策略提高了输入特征的复用效率,同时由于使用稀疏连接,能大幅减少网络的参数量。基于分组线性变换,可以形成网络更深、包含扩张和收缩两个阶段的“缩放单元”。在扩张阶段,分组组数随着网络深度的加深而变多,神经元数量也会变多,反之亦然。
在“缩放单元”中配置5个配置参数:深度N、宽度因子mw、输入维度dm、输出维度do、最大组数gmax。在扩张阶段,该单元将维度为dm的输入序列映射到更高维度(限制最高维度dmax=mwdm),同时各层层数将会线性地增加到层。在收缩阶段,将维度为dmax的向量线性地降低到do维度,收缩阶段将使用剩余的层:
其中,Yl为一个“缩放单元”中某一层l的输出,π为分组线性变换,π的输入为输入特征序列X或者中间层输出结果γ(X,Yl-1),函数γ首先将对Yl-1进行切分,然后使用混合器将切分结果与输入特征序列X的切分结果进行合并,该过程为一个分组线性变换。各层组数的划分依据为:
为了进一步实现网络的轻量化,除考虑上述构筑块内的特征序列维度的扩张和收缩外,还应考虑构筑块之间的堆叠所造成的影响。为此,在各个构筑块间引入不同的深度和宽度因子约束:
其中,Nb和为第b块“缩放单元”的深度和宽度因子,B表示总块数,Nmin与Nmax为超参数,为设定的最小深度和最大深度。每个块中,在“缩放单元”之后级联自注意力机制、互注意力机制和前馈网络,即形成解码网络。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.基于自适应掩膜和分组线性变换的轻量级语音识别方法,其特征在于:该方法包括以下步骤:
S1:基于自适应掩膜注意力机制的编码;
S2:基于分组线性变换;
所述S1具体为:
对于长度为T,维度为d为的语音特征序列X=[x1,x2,…,xt,…,xT]T,其中定义α为缩放点积多头自注意力机制,用于捕获特征序列之间的全局依赖关系;定义β为局部注意力机制,用于获取特征序列的局部关联性;通过自适应掩膜,对β各个表示子空间中的注意力权值作用范围进行动态地学习适配:
其中,Wθ∈[0,W]为可学习的网络参数,其能够控制允许信息反向传播的注意力作用范围;自适应掩膜参数m(t,i)∈[0,1]用于计算最终的注意力权值Bt,j;scoret,j为原始注意力得分;abs(·)表示取绝对值,R是用于缓冲的超参数;将Bt,j作用于各表示子空间中自X映射的值向量即得到约束后的表示子空间输出序列
随后,将各表示子空间的输出序列按维度拼接,得到自适应掩膜注意力机制的输出序列;自适应掩膜注意力机制将根据自注意力机制的输出结果,对语音序列进行局部特征提取;并通过耦合叠加的方式,融合全局和局部两种不同层次的信息;最后将提取的特征通过含有两层全连接网络的前馈网络以丰富网络的表达能力;
所述S2具体为:
构建分组切分操作,将输入和输出分成gl组,l为解码网络的层数;然后使用混合器将分组的输入和输出混合,形成扩张和收缩两个阶段的“缩放单元”;
在扩张阶段,分组组数随着网络深度的加深而变多,神经元数量也会变多,反之亦然;
在收缩阶段,“缩放单元”中配置5个配置参数:深度N、宽度因子mw、输入维度dm、输出维度do、最大组数gmax;在扩张阶段,该单元将维度为dm的输入序列映射到更高维度,限制最高维度dmax=mwdm,同时各层层数将会线性地增加到层;在收缩阶段,将维度为dmax的向量线性地降低到do维度,收缩阶段将使用剩余的层:
其中,Yl为一个“缩放单元”中某一层l的输出,π为分组线性变换,π的输入为输入特征序列X或者中间层输出结果γ(X,Yl-1);
过程1:函数γ首先将对Yl-1进行切分,然后使用混合器将切分结果与输入特征序列X的切分结果进行合并,过程1为一个分组线性变换;各层组数的划分依据为:
为进一步实现网络的轻量化,除考虑构筑块内的特征序列维度的扩张和收缩外,还考虑构筑块之间的堆叠所造成的影响;在各个构筑块间引入不同的深度和宽度因子约束:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110367779.0A CN113113000B (zh) | 2021-04-06 | 2021-04-06 | 基于自适应掩膜和分组线性变换的轻量级语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110367779.0A CN113113000B (zh) | 2021-04-06 | 2021-04-06 | 基于自适应掩膜和分组线性变换的轻量级语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113113000A CN113113000A (zh) | 2021-07-13 |
CN113113000B true CN113113000B (zh) | 2022-05-13 |
Family
ID=76713895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110367779.0A Active CN113113000B (zh) | 2021-04-06 | 2021-04-06 | 基于自适应掩膜和分组线性变换的轻量级语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113000B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155835B (zh) * | 2021-12-06 | 2022-07-08 | 哈尔滨工程大学 | 一种融合全局场景与局部事件信息的音频语意概述方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017218492A1 (en) * | 2016-06-14 | 2017-12-21 | The Trustees Of Columbia University In The City Of New York | Neural decoding of attentional selection in multi-speaker environments |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
CN109919205A (zh) * | 2019-02-25 | 2019-06-21 | 华南理工大学 | 基于多头自注意力机制的卷积回声状态网络时序分类方法 |
CN110383377A (zh) * | 2017-03-13 | 2019-10-25 | 三菱电机株式会社 | 语音识别系统 |
CN110795549A (zh) * | 2019-10-31 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 短文本对话方法、装置、设备及存储介质 |
CN111105439A (zh) * | 2019-11-28 | 2020-05-05 | 同济大学 | 一种使用残差注意力机制网络的同步定位与建图方法 |
CN112071330A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
-
2021
- 2021-04-06 CN CN202110367779.0A patent/CN113113000B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017218492A1 (en) * | 2016-06-14 | 2017-12-21 | The Trustees Of Columbia University In The City Of New York | Neural decoding of attentional selection in multi-speaker environments |
CN110383377A (zh) * | 2017-03-13 | 2019-10-25 | 三菱电机株式会社 | 语音识别系统 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
CN109919205A (zh) * | 2019-02-25 | 2019-06-21 | 华南理工大学 | 基于多头自注意力机制的卷积回声状态网络时序分类方法 |
CN110795549A (zh) * | 2019-10-31 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 短文本对话方法、装置、设备及存储介质 |
CN111105439A (zh) * | 2019-11-28 | 2020-05-05 | 同济大学 | 一种使用残差注意力机制网络的同步定位与建图方法 |
CN112071330A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
"基于注意力LSTM和多任务学习的远场语音识别";张宇;《清华大学学报(自然科学版)》;20180315;全文 * |
"基于深度学习的蒙古语语音识别声学模型研究";王勇和;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113113000A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136693B (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
CN110321417B (zh) | 一种对话生成方法、系统、可读存储介质及计算机设备 | |
CN110737764B (zh) | 一种个性化对话内容生成方法 | |
CN108415977A (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN113806587A (zh) | 一种多模态特征融合的视频描述文本生成方法 | |
CN110060691B (zh) | 基于i向量和VARSGAN的多对多语音转换方法 | |
Chen et al. | Distilled binary neural network for monaural speech separation | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘系统及方法 | |
CN113113000B (zh) | 基于自适应掩膜和分组线性变换的轻量级语音识别方法 | |
CN113487024A (zh) | 交替序列生成模型训练方法、从文本中抽取图的方法 | |
Yook et al. | Voice conversion using conditional CycleGAN | |
Liu et al. | Cross-modal mutual learning for cued speech recognition | |
CN113838468A (zh) | 流式语音识别方法、终端设备及介质 | |
Xu et al. | Mixed precision low-bit quantization of neural network language models for speech recognition | |
CN112417089B (zh) | 一种基于深度学习的高并行性阅读理解的方法 | |
Mattern | Linear and geometric mixtures-analysis | |
Lam et al. | Gaussian Process Neural Networks for Speech Recognition. | |
CN116578699A (zh) | 基于Transformer的序列分类预测方法和系统 | |
CN111222343A (zh) | 一种意图识别方法和意图识别装置 | |
CN116167014A (zh) | 一种基于视觉和语音的多模态关联型情感识别方法及系统 | |
CN115589446A (zh) | 一种基于预训练与提示的会议摘要生成方法及系统 | |
CN115034229A (zh) | 一种基于信息抽取和图模型的法律长文本相似度计算方法 | |
Allauzen et al. | N-way composition of weighted finite-state transducers | |
Nene | Deep learning for natural languaje processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |