CN112652299B - 时间序列语音识别深度学习模型的量化方法及装置 - Google Patents

时间序列语音识别深度学习模型的量化方法及装置 Download PDF

Info

Publication number
CN112652299B
CN112652299B CN202011305779.XA CN202011305779A CN112652299B CN 112652299 B CN112652299 B CN 112652299B CN 202011305779 A CN202011305779 A CN 202011305779A CN 112652299 B CN112652299 B CN 112652299B
Authority
CN
China
Prior art keywords
model
loss function
binary
preset
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011305779.XA
Other languages
English (en)
Other versions
CN112652299A (zh
Inventor
张宝昌
赵文宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011305779.XA priority Critical patent/CN112652299B/zh
Publication of CN112652299A publication Critical patent/CN112652299A/zh
Application granted granted Critical
Publication of CN112652299B publication Critical patent/CN112652299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种时间序列语音识别深度学习模型的量化方法及装置,本实施例提供的时间序列语音识别深度学习模型的量化方法,包括:获取全精度模型的参数;根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,所述时间序列语音识别深度学习模型为二值模型;在二值模型中新增预设的注意力机制模块,对二值模型输入值的权重进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失。通过本发明实施例提供的时间序列语音识别深度学习模型的量化方法,实现在将深度学习模型量化为二值模型时能够降低精度损失,并且二值模型的表征能力较深度学习模型差异不大。

Description

时间序列语音识别深度学习模型的量化方法及装置
技术领域
本发明涉及语音识别领域,尤其涉及一种时间序列语音识别深度学习模型的量化方法及装置。
背景技术
语音识别是指机器通过识别和理解把语音信号转变为文本的技术。专业上通常用字错误率(Character Error Rate,CER)、词错误率(Word Error Rate,WER)考量语音识别模型的性能,比如,识别对象是英文时,用WER指标考察;识别对象是中文时,用CER指标考察。随着深度学习的兴起,基于深度神经网络的音频建模代替了原来的高斯混合模型方法。这类深度学习模型通常参数量较大,推理过程需要花费较多计算资源,而边缘计算场景中的边缘设备一般都是小型化设备,无法提供较大的存储空间,导致深度学习模型在进行边缘计算时成本很大,为此,现有技术中通过神经网络量化的方式将全精度(32bit)参数量化成低比特(如1bit),使深度学习模型所占内存成倍减少变为二值模型。这种处理方式能够减少内存空间的处理,但也会因参数的低比特带来信息损失,使得模型表征能力变差,性能降低。
现有技术中应对精度损失的降低,主要有六类方法:量化方法改进、梯度近似、结构设计改进、优化方法改进、损失函数设计以及神经网络架构搜索。这六类方法在图像分类任务上表现出较强的性能,能够减少量化带来的精度损失;但在语音识别任务上,精度损失的降低并不明显。
因此,如何保证在语音识别任务上对深度学习模型进行参数量化时降低精度损失是一个亟待解决的问题。
发明内容
本发明提供一种时间序列语音识别深度学习模型的量化方法,以实现在将深度学习模型量化为二值模型时能够降低精度损失,并且二值模型的表征能力较深度学习模型差异不大。
第一方面,本发明提供一种时间序列语音识别深度学习模型的量化方法,包括:
获取全精度模型的参数;
根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,时间序列语音识别深度学习模型为二值模型;
在二值模型中新增预设的注意力机制模块,对二值模型输入值的权重进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失,其中,损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。
在一种可能的设计中,根据特征反馈得到的损失函数,包括:
获取二值模型的深层特征和浅层特征;
根据浅层特征的维度,扩展深层特征的维度,确定扩展后的深层特征;
根据浅层特征和扩展后的深层特征,确定根据特征反馈得到的损失函数。
在一种可能的设计中,损失函数,包括:
L=Lp+LCTC+LF
Figure GDA0002941119630000021
Figure GDA0002941119630000022
其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;
Figure GDA0002941119630000023
为第l层卷积的第o个卷积核的全精度参数,
Figure GDA0002941119630000024
为第l层卷积的第o个卷积核的二值参数,αl为第l层卷积的量化因子;Lp为投影损失函数;LCTC为联结主义时间分类损失函数;LF为根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
第二方面,本发明提供一种基于深度学习模型的时间序列语音识别方法,包括:
获取待识别语音数据;
根据待识别语音数据以及预设深度学习模型确定语音识别结果,其中,预设深度学习模型为预设二值模型,预设二值模型中包括注意力机制模块以及损失函数模块,注意力机制模块用于对二值模型输入值的权重进行训练,损失函数模块用于对二值模型的参数进行训练,其中,损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。
第三方面,本发明还提供一种时间序列语音识别深度学习模型的量化装置,包括:
获取模块,用于获取全精度模型的参数;
确定模块,用于根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,时间序列语音识别深度学习模型为二值模型;
处理模块,用于在二值模型中新增预设的注意力机制模块,对二值模型的输入值进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失,其中,损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。
在一种可能的设计中,处理模块,用于:
获取二值模型的深层特征和浅层特征;
根据浅层特征的维度,扩展深层特征的维度,确定扩展后的深层特征;
根据浅层特征和扩展后的深层特征,确定根据特征反馈得到的损失函数。
在一种可能的设计中,损失函数,包括:
L=Lp+LCTC+LF
Figure GDA0002941119630000031
Figure GDA0002941119630000032
其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;
Figure GDA0002941119630000033
为第l层卷积的第o个卷积核的全精度参数,
Figure GDA0002941119630000034
为第l层卷积的第o个卷积核的二值参数,αl为第l层卷积的量化因子;Lp为投影损失函数;LCTC为联结主义时间分类损失函数;LF为根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
第四方面,本发明还提供一种基于深度学习模型的时间序列语音识别装置,包括:
获取模块,用于获取待识别语音数据;
确定模块,用于根据待识别语音数据以及预设深度学习模型确定语音识别结果,其中,预设深度学习模型为预设二值模型,预设二值模型中包括注意力机制模块以及损失函数模块,注意力机制模块用于对二值模型输入值的权重进行训练,损失函数模块用于对二值模型的参数进行训练,其中,损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。
第五方面,本发明还提供一种模型平台,包括:
处理器;以及,
存储器,用于存储处理器的可执行指令;
其中,处理器配置为经由执行可执行指令来执行第一方面中任意一种时间序列语音识别深度学习模型的量化方法。
第六方面,本发明还提供一种电子设备,包括:
处理器;以及,
存储器,用于存储处理器的可执行指令;
其中,处理器配置为经由执行可执行指令来执行第二方面中基于深度学习模型的时间序列语音识别方法。
第七方面,本发明实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意一种时间序列语音识别深度学习模型的量化方法或者基于深度学习模型的时间序列语音识别方法。
本发明提供一种时间序列语音识别深度学习模型的量化方法及装置,通过获取全精度模型的参数;根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,时间序列语音识别深度学习模型为二值模型;在二值模型中新增预设的注意力机制模块,对二值模型输入值的权重进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失,其中,损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。,以实现在将深度学习模型量化为二值模型时能够降低精度损失,并且二值模型的表征能力较深度学习模型差异不大。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明根据一示例实施例示出的时间序列语音识别深度学习模型的量化方法的应用场景图;
图2为本发明根据一示例实施例示出的时间序列语音识别深度学习模型的量化流程示意图;
图3为本发明根据一示例实施例示出的时间序列语音识别深度学习模型的量化方法中注意力机制模块示意图;
图4为本发明根据一示例实施例示出的基于深度学习模型的时间序列语音识别流程示意图;
图5为本发明根据一示例实施例示出的时间序列语音识别深度学习模型的量化装置的结构示意图;
图6为本发明根据一示例实施例示出的基于深度学习模型的时间序列语音识别装置的结构示意图;
图7为本发明根据一示例实施例示出的模型平台的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面将结合附图,对本发明的实施例进行描述。
图1为本发明根据一示例实施例示出的时间序列语音识别深度学习模型的量化方法的应用场景图;如图1所示,二值模型共有5个残差块,分别是1残差块101、2残差块102、3残差块103、4残差块104和5残差块105,输入值为待识别语音数据,每个残差块中有3个卷积,在每次进行卷积处理前新增有注意力机制模块,以利于对输入值进行优化处理,从而更加注重输入语音数据中有用的部分;并且对二值模型的参数应用损失函数模块进行训练处理,其中,损失函数包括:联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。通过这种处理方法,降低了由原全精度模型量化为二值模型的精度损失,确保了二值模型的表征能力,从而保证了语音识别的准确度。
图2为本发明根据一示例实施例示出的时间序列语音识别深度学习模型的量化训练流程示意图;如图2所示,本实施例提供的时间序列语音识别深度学习模型的量化方法,包括:
步骤201、获取全精度模型的参数。
步骤202、根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,时间序列语音识别深度学习模型为二值模型。
具体的,由全精度模型量化为二值模型的量化算法为:
Wb=αsign(Wf)
其中,Wf为全精度模型的参数,Wb为二值模型的参数,α为量化因子。
步骤203、在二值模型中新增预设的注意力机制模块,对二值模型输入值的权重进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失,其中,损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。
具体的,注意力机制模块是二值模型在前向计算过程中加入,对应二值模型中的环节是每个残差块中的每个卷积前有新增加,图3为本发明根据一示例实施例示出的基于深度学习模型的时间序列语音识别方法中注意力机制模块示意图,如图3所示,301为注意力机制模块的输入值X,该输入值X为采样的音频信号,长度为L,占用C个通道,在经过自适应池化、一维卷积,并通过激活函数处理后生成占用C个通道,长度为1的输出值Y;根据输入值X的维度将输出值Y进行扩展并与对应维度的X逐点相乘,得到新输入值作为二值模型中相应卷积的输入。通过这种新增注意力机制模块的方式对二值模型输入值的权重进行训练,从而更加注重输入语音信号中有用的部分,进而促进提升二值模型的表征能力。
在一种可能的设计中,预设的损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。
包括:
L=Lp+LCTC+LF
Figure GDA0002941119630000071
Figure GDA0002941119630000072
其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;
Figure GDA0002941119630000073
为第l层卷积的第o个卷积核的全精度参数,
Figure GDA0002941119630000074
为第l层卷积的第o个卷积核的二值参数,αl为第l层卷积的量化因子;Lp为投影损失函数;LCTC为联结主义时间分类损失函数;LF为根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
具体的,投影损失函数是全精度模型的卷积核与二值模型的卷积核差的二范数,可以减小二值模型因量化带来的误差,以提升网络性能。
根据特征反馈得到的损失函数的应用原理为由于全精度模型网络深度大,越靠近输出的层的深层特征受标签监督的效果越强,越远离输出的层的浅层特征受标签监督效果越弱,因此在训练二值模型时加入深层特征的反馈,使浅层特征也受到标签的强监督,更有利于训练过程的收敛。处理方法为:获取二值模型的深层特征和浅层特征;根据浅层特征的维度,扩展深层特征的维度,确定扩展后的深层特征;根据浅层特征和扩展后的深层特征,进行求差运算,将求差结果作为根据特征反馈得到的损失函数。图4为本发明根据一示例实施例示出的基于深度学习模型的时间序列语音识别流程示意图;如图4所示,本实施例提供的基于深度学习模型的时间序列语音识别方法,包括:
步骤401、获取待识别语音数据。
步骤402、根据待识别语音数据以及预设深度学习模型确定语音识别结果,其中,预设深度学习模型为预设二值模型,预设二值模型中包括注意力机制模块以及损失函数模块,注意力机制模块用于对二值模型输入值的权重进行训练,损失函数模块用于对二值模型的参数进行训练;其中,损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。
具体的,将待识别语音数据输入预设二值模型中以得到语音识别结果。预设的二值模型中包括注意力机制模块以及损失函数模块,其中,注意力机制模块是在前向计算过程中加入,对应二值模型中的环节是每个残差块中的每个卷积前有新增加,通过这种新增注意力机制模块的方式对二值模型输入值的权重进行训练,从而更加注重输入语音信号中有用的部分,进而促进提升二值模型的表征能力。
损失函数中的投影损失函数是全精度模型的卷积核与二值模型的卷积核差的二范数,用于衡量二值模型和全精度模型的参数差异;根据特征反馈得到的损失函数的应用使浅层特征也受到标签的强监督,更有利于训练过程的收敛。
举例来说,使用WaveNet作为基础模型,训练基于WaveNet的二值网络。考虑到深度可分离卷积信息密度高,量化效果差,因此将深度可分离卷积替换为群卷积,并设定组数为2。输入的语音数据训练集采用自制中文语音数据集的方式,音频语料均经过梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)预处理,每组数据都有20个MFCC维度,包含时频信息。训练集中共有940,000余条数据。实验的结果从语音识别的字错误率对比结果和模型压缩率两个方面分析。
1)语音识别的字错误率对比结果分析
表1
模型类型 字错误率CER(%)
全精度模型 10.96
原始二值模型 22.50
二值模型+注意力机制模块 15.03
二值模型+投影损失函数 14.36
二值模型+特征反馈 16.39
综合 13.98
从表1中结果可以看出,应用全精度模型语音识别的字错误率较原始二值模型语音识别的字错误率在准确性上提高了一倍,相差很大;而在二值模型加入注意力机制模块后,两者在识别的准确性差异上有大幅减少;同样的在损失函数加入训练二值模型的参数时,两者在识别的准确性差异上都有不同程度的减少,最后综合注意力机制模块和损失函数模块的二值模型的字错误率识别结果较上述各种单独改进的模型都更接近原全精度模型的字错误率结果。可以看出,本申请的处理方法确实能够尽可能的降低由全精度模型量化为二值模型的过程中的信息损失,从而进一步保证二值模型的精度。
2)模型压缩率分析
假设WaveNet网络中某层卷积核参数为:外通道表示为o,内通道表示为i,内核大小表示为k。则深度可分离卷积的参数数目为:
i*k+i*o,
若将深度可分离卷积替换为组为2的群卷积,组表示为G,参数数目为
Figure GDA0002941119630000091
根据深度可分离卷积和群卷积的参数数目,同时注意到o>>k,可得该层参数压缩率为
Figure GDA0002941119630000092
当k=7,G=2时,r≈0.11,模型压缩到原来的约十分之一。
可以看出,本申请的处理方法在将原全精度模型量化为二值模型时,不但模型参数的压缩率很高,而且降低了精度损失,确保了二值模型的表征能力。
图5为本发明根据一示例实施例示出的时间序列语音识别深度学习模型的量化装置的结构示意图,如图5所示,本实施例提供的时间序列语音识别深度学习模型的量化装置50,包括:
获取模块501,用于获取全精度模型的参数;
确定模块502,用于根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,时间序列语音识别深度学习模型为二值模型;
处理模块503,用于在二值模型中新增预设的注意力机制模块,对二值模型的输入值进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失,其中,损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。
在一种可能的设计中,处理模块503,用于:
获取二值模型的深层特征和浅层特征;
根据浅层特征的维度,扩展深层特征的维度,确定扩展后的深层特征;
根据浅层特征和扩展后的深层特征,确定根据特征反馈得到的损失函数。
在一种可能的设计中,损失函数,包括:
L=Lp+LCTC+LF
Figure GDA0002941119630000101
Figure GDA0002941119630000102
其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;
Figure GDA0002941119630000103
为第l层卷积的第o个卷积核的全精度参数,
Figure GDA0002941119630000104
为第l层卷积的第o个卷积核的二值参数,αl为第l层卷积的量化因子;Lp为投影损失函数;LCTC为联结主义时间分类损失函数;LF为根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
图6为本发明根据一示例实施例示出的基于深度学习模型的时间序列语音识别装置的结构示意图。如图6所示,本实施例提供的基于深度学习模型的时间序列语音识别装置60,包括:
获取模块601,用于获取待识别语音数据;
确定模块602,用于根据待识别语音数据以及预设深度学习模型确定语音识别结果,其中,预设深度学习模型为预设二值模型,预设二值模型中包括注意力机制模块以及损失函数模块,注意力机制模块用于对二值模型输入值的权重进行训练,损失函数模块用于对二值模型的参数进行训练。
图7为本发明根据一示例实施例示出的模型平台的结构示意图;如图7所示,本实施例提供的一种模型平台70,包括:
处理器701;以及,
存储器702,用于存储处理器的可执行指令,该存储器还可以是flash(闪存);
其中,处理器701配置为经由执行可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器702既可以是独立的,也可以跟处理器701集成在一起。
当存储器702是独立于处理器701之外的器件时,模型平台70,还可以包括:
总线703,用于连接处理器701以及存储器702。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种时间序列语音识别深度学习模型的量化方法,其特征在于,包括:
获取全精度模型的参数;
根据所述全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,所述时间序列语音识别深度学习模型为二值模型;在所述二值模型中新增预设的注意力机制模块,对所述二值模型输入值的权重进行训练;同时应用预设的损失函数对所述二值模型的参数进行训练,以降低由所述全精度模型量化为所述二值模型时的精度损失,其中,所述损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数;所述投影损失函数为所述全精度模型的卷积核与所述二值模型的卷积核的差的二范数;
所述在所述二值模型中新增预设的注意力机制模块,对所述二值模型输入值的权重进行训练,包括:
所述二值模型包括5个残差块,所述输入值为待识别语音数据,每个残差块中有3个卷积,在每次进行卷积处理前新增预设的所述注意力机制模块,以使对输入值进行优化处理;
所述注意力机制模块的输入值X为长度为L,占用C个通道的采样音频信号,在经过自适应池化、一维卷积,以及激活函数处理后生成长度为1,占用C个通道的输出值Y;根据所述输入值X的维度将所述输出值Y进行扩展并与对应维度的X逐点相乘,得到新输入值作为所述二值模型中相应卷积的输入值;
所述根据特征反馈得到的损失函数,包括:
获取所述二值模型的深层特征和浅层特征;
根据所述浅层特征的维度,扩展所述深层特征的维度,确定扩展后的深层特征;
根据所述浅层特征和所述扩展后的深层特征,确定所述根据特征反馈得到的损失函数。
2.根据权利要求1所述的方法,其特征在于,所述损失函数,包括:
L=Lp+LCTC+LF
Figure FDA0003623651240000021
Figure FDA0003623651240000022
其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;
Figure FDA0003623651240000023
为第l层卷积的第o个卷积核的全精度参数,
Figure FDA0003623651240000024
为第l层卷积的第o个卷积核的二值参数,αl为第l层卷积的量化因子;Lp为所述投影损失函数;LCTC为所述联结主义时间分类损失函数;LF为所述根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
3.一种基于深度学习模型的时间序列语音识别方法,其特征在于,包括:
获取待识别语音数据;
根据所述待识别语音数据以及预设深度学习模型确定语音识别结果,其中,所述预设深度学习模型为预设二值模型,所述预设二值模型中包括注意力机制模块以及损失函数模块,所述注意力机制模块用于对所述二值模型输入值的权重进行训练,所述损失函数模块用于对所述二值模型的参数进行训练,其中,所述预设二值模型根据全精度模型量化得到;所述损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数;所述投影损失函数为所述全精度模型的卷积核与所述二值模型的卷积核的差的二范数;
所述注意力机制模块具体用于在所述二值模型中的每个残差块进行卷积处理前新增预设的注意力机制模块,通过所述新增预设的注意力机制模块对所述二值模型输入值的权重进行训练,以提升所述二值模型的表征能力;
所述根据特征反馈得到的损失函数,包括:
获取所述二值模型的深层特征和浅层特征;
根据所述浅层特征的维度,扩展所述深层特征的维度,确定扩展后的深层特征;
根据所述浅层特征和所述扩展后的深层特征,确定所述根据特征反馈得到的损失函数。
4.一种时间序列语音识别深度学习模型的量化装置,其特征在于,包括:
获取模块,用于获取全精度模型的参数;
确定模块,用于根据所述全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,所述时间序列语音识别深度学习模型为二值模型;
处理模块,用于在所述二值模型中新增预设的注意力机制模块,对所述二值模型输入值的权重进行训练;同时应用预设的损失函数对所述二值模型的参数进行训练,以降低由所述全精度模型量化为所述二值模型时的精度损失,其中,所述损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数;所述投影损失函数为所述全精度模型的卷积核与所述二值模型的卷积核的差的二范数;
所述处理模块,具体用于在每次进行卷积处理前新增预设的所述注意力机制模块,以使对输入值进行优化处理;对所述注意力机制模块的输入值X为长度为L,占用C个通道的采样音频信号,在经过自适应池化、一维卷积,以及激活函数处理后生成长度为1,占用C个通道的输出值Y;根据所述输入值X的维度将所述输出值Y进行扩展并与对应维度的X逐点相乘,得到新输入值作为所述二值模型中相应卷积的输入值;
所述处理模块,还用于:
获取所述二值模型的深层特征和浅层特征;
根据所述浅层特征的维度,扩展所述深层特征的维度,确定扩展后的深层特征;
根据所述浅层特征和所述扩展后的深层特征,确定所述根据特征反馈得到的损失函数。
5.根据权利要求4所述的装置,其特征在于,所述损失函数,包括:
L=Lp+LCTC+LF
Figure FDA0003623651240000031
Figure FDA0003623651240000032
其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;
Figure FDA0003623651240000033
为第l层卷积的第o个卷积核的全精度参数,
Figure FDA0003623651240000034
为第l层卷积的第o个卷积核的二值参数,αl为第l层卷积的量化因子;Lp为所述投影损失函数;LCTC为所述联结主义时间分类损失函数;LF为所述根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
6.一种基于深度学习模型的时间序列语音识别装置,其特征在于,包括:
获取模块,用于获取待识别语音数据;
确定模块,用于根据所述待识别语音数据以及预设深度学习模型确定语音识别结果,其中,所述预设深度学习模型为预设二值模型,所述预设二值模型中包括注意力机制模块以及损失函数模块,所述注意力机制模块用于对所述二值模型输入值的权重进行训练,所述损失函数模块用于对所述二值模型的参数进行训练,其中,所述预设二值模型根据全精度模型量化得到;所述损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数;所述投影损失函数为所述全精度模型的卷积核与所述二值模型的卷积核的差的二范数;所述注意力机制模块具体用于在所述二值模型中的每个残差块进行卷积处理前新增预设的注意力机制模块,通过所述新增预设的注意力机制模块对所述二值模型输入值的权重进行训练,以提升所述二值模型的表征能力;
所述确定模块,还用于:
获取所述二值模型的深层特征和浅层特征;
根据所述浅层特征的维度,扩展所述深层特征的维度,确定扩展后的深层特征;
根据所述浅层特征和所述扩展后的深层特征,确定所述根据特征反馈得到的损失函数。
7.一种模型平台,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1或2所述时间序列语音识别深度学习模型的量化方法。
8.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求3中所述基于深度学习模型的时间序列语音识别方法。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1或2所述时间序列语音识别深度学习模型的量化方法或者权利要求3中所述基于深度学习模型的时间序列语音识别方法。
CN202011305779.XA 2020-11-20 2020-11-20 时间序列语音识别深度学习模型的量化方法及装置 Active CN112652299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011305779.XA CN112652299B (zh) 2020-11-20 2020-11-20 时间序列语音识别深度学习模型的量化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011305779.XA CN112652299B (zh) 2020-11-20 2020-11-20 时间序列语音识别深度学习模型的量化方法及装置

Publications (2)

Publication Number Publication Date
CN112652299A CN112652299A (zh) 2021-04-13
CN112652299B true CN112652299B (zh) 2022-06-17

Family

ID=75349449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011305779.XA Active CN112652299B (zh) 2020-11-20 2020-11-20 时间序列语音识别深度学习模型的量化方法及装置

Country Status (1)

Country Link
CN (1) CN112652299B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113855065B (zh) * 2021-09-28 2023-09-22 平安科技(深圳)有限公司 基于浅层学习和深度学习融合的心音识别方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728350A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 用于机器学习模型的量化
CN110929852A (zh) * 2019-11-29 2020-03-27 中国科学院自动化研究所 深度二值神经网络训练方法及系统
WO2020131587A2 (en) * 2018-12-21 2020-06-25 Microsoft Technology Licensing, Llc Neural networks implemented with dsd circuits
CN111612817A (zh) * 2020-05-07 2020-09-01 桂林电子科技大学 基于深浅特征自适应融合与上下文信息的目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200167655A1 (en) * 2018-11-28 2020-05-28 Electronics And Telecommunications Research Institute Method and apparatus for re-configuring neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728350A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 用于机器学习模型的量化
WO2020131587A2 (en) * 2018-12-21 2020-06-25 Microsoft Technology Licensing, Llc Neural networks implemented with dsd circuits
CN110929852A (zh) * 2019-11-29 2020-03-27 中国科学院自动化研究所 深度二值神经网络训练方法及系统
CN111612817A (zh) * 2020-05-07 2020-09-01 桂林电子科技大学 基于深浅特征自适应融合与上下文信息的目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SimBNN: A Similarity-Aware Binarized Neural Network Acceleration Framework;Cheng Fu 等;《2019 IEEE 27th Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM)》;20190613;319 *
深度神经网络模型压缩方法与进展;赖叶静 等;《华东师范大学学报(自然科学版)》;20200930(第5期);68-82 *

Also Published As

Publication number Publication date
CN112652299A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
US20130158999A1 (en) Voice recognition apparatus and navigation system
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
CN111145737A (zh) 语音测试方法、装置和电子设备
US8386249B2 (en) Compressing feature space transforms
CN112652299B (zh) 时间序列语音识别深度学习模型的量化方法及装置
CN102063897B (zh) 一种用于嵌入式语音合成系统的音库压缩及使用方法
CN116741144A (zh) 一种语音音色转换方法和系统
CN113362804B (zh) 一种合成语音的方法、装置、终端及存储介质
CN115169368A (zh) 基于多文档的机器阅读理解方法及装置
CN112052916B (zh) 基于神经网络的数据处理方法、装置以及可读存储介质
CN114822509A (zh) 语音识别方法、装置、计算机设备及存储介质
CN115019785A (zh) 流式语音识别方法、装置、电子设备及存储介质
CN110413779B (zh) 一种针对电力行业的词向量训练方法及其系统、介质
CN115908775A (zh) 化学结构式的识别方法、装置、存储介质及电子设备
CN114822510B (zh) 一种基于二值卷积神经网络的语音唤醒方法及系统
CN113761167B (zh) 一种会话信息抽取方法、系统、电子设备及存储介质
WO2022244047A1 (ja) 学習装置、学習方法及びプログラム
CN114896965B (zh) 文本纠正模型训练方法及装置、文本纠正方法及装置
CN111899729B (zh) 一种语音模型的训练方法、装置、服务器和存储介质
CN113595557B (zh) 一种数据处理的方法和装置
CN112786017B (zh) 语速检测模型的训练方法及装置、语速检测方法及装置
CN110276072B (zh) 电子设备、存储介质及基于神经网络的语义意图识别方法
CN116665680A (zh) 一种声纹识别方法、装置、终端及存储介质
CN116013245A (zh) 语音合成模型的训练、语音合成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant