CN114783427B - 基于命令词的语音识别模型压缩方法 - Google Patents

基于命令词的语音识别模型压缩方法 Download PDF

Info

Publication number
CN114783427B
CN114783427B CN202210696243.8A CN202210696243A CN114783427B CN 114783427 B CN114783427 B CN 114783427B CN 202210696243 A CN202210696243 A CN 202210696243A CN 114783427 B CN114783427 B CN 114783427B
Authority
CN
China
Prior art keywords
model
recognition model
speech recognition
training
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210696243.8A
Other languages
English (en)
Other versions
CN114783427A (zh
Inventor
温登峰
伍元聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202210696243.8A priority Critical patent/CN114783427B/zh
Publication of CN114783427A publication Critical patent/CN114783427A/zh
Application granted granted Critical
Publication of CN114783427B publication Critical patent/CN114783427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

基于命令词的语音识别模型压缩方法,包括如下步骤:S1:进行初始训练,得到原始语音识别模型MD1,并得到相应的音素分类类别M;S2:根据需要训练的命令词A得到A对应的音素类别k,将原始语音识别模型MD1中的剩余音素聚类为1类;S3:对原始语音识别模型MD1进行微调训练得到更新后的第二模型MD2;所述微调训练具体为:保留原始语音识别模型MD1中除输出层外的其余层参数,并更新输出层的节点数为k+1,进行模型迁移训练,所有层的模型参数进行梯度更新。本发明通过降低参数量,可在不显著影响识别效果的情况下显著减小语音识别模型的占用空间。

Description

基于命令词的语音识别模型压缩方法
技术领域
本发明属于人工智能领域,涉及到人工智能领域语音识别技术,具体涉及一种基于命令词的语音识别模型压缩方法。
背景技术
随着计算设备性能的提升,各种基于深度学习技术的应用也随之普及。语音作为人机交互的接口,在智能家居环境的应用需求也日益增长。因此,设备端测的语音识别芯片应时而生。但由于端侧芯片的算力和存储空间有限,如何在不降低语音识别效果的基础上降低算力和存储空间成为端侧语音推广的一大难题。
解决这个难题的一种方法是在设备端按照智能家居产品的使用特性制定常用的命令词,在实际使用时只需要识别这些词即可。传统端侧命令词识别过程是使用大量语料训练一个连续语音识别模型,然后用这个模型去识别某一产品对应的命令词。
现有技术存在的问题是语音识别模型参数量过大,从而导致端侧设备存在存储和算力的瓶颈;一旦命令词条数过多,会导致端侧语音芯片无法应用到该产品。因此传统的方法很难得到有效推广。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种基于命令词的语音识别模型压缩方法。
本发明所述基于命令词的语音识别模型压缩方法,包括如下步骤:
S1:进行初始训练,得到原始语音识别模型MD1,并得到相应的音素分类类别M;
S2:根据需要训练的命令词A得到A对应的音素类别k,然后在原始语音识别模型MD1中选取所述音素类别k,并将原始语音识别模型MD1中包括噪声音素的剩余音素聚类为1类;
聚类后,原始语音识别模型的音素类别为k+1;
S3: 根据命令词A在初始训练使用的语料中筛选与命令词A对应的训练语料,利用筛选后的训练语料对原始语音识别模型MD1进行微调训练得到更新后的第二模型MD2;
所述微调训练具体为:保留原始语音识别模型MD1中除输出层外的其余层参数,并更新输出层的节点数为k+1,进行模型迁移训练,所有层的模型参数进行梯度更新。
优选的,S3步骤中,进行模型迁移训练时降低学习率。
优选的,还包括对第二模型MD2的稀疏化剪枝操作,具体为:
S4:筛选出第二模型MD2上权重参数小于设定的稀疏化阈值的神经元,将这些神经元的权重参数置为0;得到第三模型MD3;
S5:对S4步骤得到的第三模型MD3进行微调训练,具体为禁止权重为0的参数进行梯度更新,对不为0的权重参数进行梯度更新,进而得到第四模型MD4。
优选的,还包括对第四模型MD4的权重参数聚类量化,具体为:
S6:对第四模型MD4进行权重参数聚类量化, 得到第五模型MD5;
S7:采用步骤S3中筛选后的命令词语料对S6步骤得到的第五模型MD5进行微调训练,具体为禁止所有权重参数的梯度更新,只进行偏置参数的梯度更新。得到第六模型MD6;
S8:对第六模型MD6进行霍夫曼存储压缩,得到霍夫曼压缩矩阵。
优选的,所述权重参数聚类量化采用k均值聚类算法。
本发明通过降低参数量,可在不显著影响识别效果的情况下显著减小语音识别模型的占用空间;进一步采用稀疏化剪枝训练、权重参数聚类量化及霍夫曼存储压缩提高存储效率,削减模型的物理存储空间占用,使得以往庞大的语音识别模型变小并易于部署在存储空间有限的嵌入式设备中。
具体实施方式
本发明所述基于命令词的语音识别模型压缩方法,包括如下步骤。
S1:进行初始训练,得到原始语音识别模型MD1,并得到相应的音素分类类别M,即输出层节点个数为M,初始训练通常采用大量语料进行训练以提高模型准确性;
S2:为了降低语音识别模型参数量,本发明中根据需要训练的命令词A得到A对应的音素类别k,然后在原始语音识别模型MD1中选取所述音素类别k,并将原始语音识别模型MD1中的剩余音素,包括噪声音素聚类为1类;
聚类后,原始语音识别模型的音素类别为k+1;
S3: 根据命令词A在初始训练使用的语料中筛选与命令词A对应的训练语料,利用筛选后的训练语料对原始语音识别模型MD1进行微调训练得到更新后的第二模型MD2;
所述微调训练具体为:保留原始语音识别模型MD1中除输出层外的其余层参数,并更新输出层的节点数为k+1,然后进行模型迁移训练,所有层的模型参数进行梯度更新;
梯度更新为现有技术,指神经网络理论中利用SGD(梯度下降法)或者Adam(自适应运动估计)等算法对模型参数进行更新的算法。
本步骤中,由于原始语音识别模型已经形成,可适当降低学习率,降低更新速度,更容易找到参数最佳值。
经过步骤S3后,第二模型MD2相对原始语音识别模型MD1的模型参数量减小。
通过降低原始语音识别模型MD1的模型参数量,将无关音素聚类为1类,第二模型占用空间可显著缩小。
为进一步降低模型的物理存储占用空间,使得语音识别模型易于嵌入式设备部署;
本发明对s3步骤更新后的第二模型MD2进行稀疏化剪枝操作,去除没有贡献的神经元连接,具体为
S4:筛选出第二模型MD2上权重参数小于设定的稀疏化阈值的神经元,将这些神经元的权重参数置为0;得到第三模型MD3;
例如,假设神经网络的某一层权重参数为3*3的权重矩阵A;
Figure 844930DEST_PATH_IMAGE001
对权重矩阵A按照稀疏化阈值为0.3进行稀疏化,即可得到矩阵B;
Figure 36877DEST_PATH_IMAGE002
B矩阵中,将矩阵A中权重参数小于0.3的值全部置为0。
S5:对S4步骤得到的第三模型MD3进行微调训练,具体为禁止权重为0的参数进行梯度更新,对不为0的权重参数进行梯度更新,进而得到第四模型MD4;
由于梯度更新后的权重参数大概率不为0,因此禁止对已经稀疏化后为0的权重参数进行梯度更新以保持稀疏化。微调训练是为了让网络重新收敛,同时为保证矩阵为稀疏化,仅更新不为0的权重参数。
S6:对第四模型MD4进行权重参数聚类量化, 得到第五模型MD5;聚类量化可采用k均值聚类算法,
k均值聚类是利用K-means方法得到权重的聚类中心和标签,同时根据聚类中心和标签回推得到一个新的权重,聚类量化技术可以有效降低模型参数量,在芯片实现的角度上可以有效降低片上缓存的容量。
例如对一个3*4的权重矩阵
Figure 382408DEST_PATH_IMAGE003
聚类个数为3,则通过k-means算法可以得到其聚类中心为
Figure 532766DEST_PATH_IMAGE004
标签为
Figure 862116DEST_PATH_IMAGE005
则根据聚类中心和标签得到新的聚类矩阵为
Figure 250897DEST_PATH_IMAGE006
矩阵A4相对初始的权重矩阵A1,所有元素中不同的元素数量减少到只有3个。
S7: 采用步骤S3中筛选后的命令词语料对S6步骤得到的第五模型MD5进行微调训练,具体为禁止所有权重参数的梯度更新,只进行偏置参数的梯度更新,得到第六模型MD6;
S8:基于第六模型MD6,进行霍夫曼(Huffman)存储压缩,压缩后频次越高的参数编码长度越短,模型最终的存储空间进一步降低。
对稀疏矩阵进行k-means聚类操作可以将矩阵用K个值来代替,同时可以统计出每个值在矩阵中出现的次数;因此,可以结合霍夫曼编码进行存储压缩,由于频次较高的值在存储时所用编码长度更短,从而降低存储空间
稀疏化是为了降低需要存储的模型参数,使用稀疏编码可以不用存储0值,稀疏度越高,存储所需空间越小;同时,由于权重矩阵稀疏化,使得其余非0权重参数可以用更少的类别进行聚类,意味着k-means聚类的K值减小,可以降低后续Huffman编码所需存储空间。而音素削剪直接降低了整个模型的参数量,因此模型需要存储的参数会大大降低。
步骤S4-S8中,具体的稀疏模型存储压缩方案具体如下:
对经过S3步骤微调后的第二模型MD2每层的权重矩阵进行编码,稀疏编码(Sparse Encode)格式根据原始矩阵的行列大小分为CSR和CSC编码,若矩阵的行数小于列数则采用CSR编码;否则采用CSC编码,行列相等则两种编码方式均可。
通过CSR或CSC编码将得到非零元素向量data、行/列号向量indices、行/列偏移向量indptr;
CSR是一种能够使稀疏数据进行压缩存储的方法;其可以用三类数据来表达:数值、列号以及行偏移。数值表示原始矩阵中非0值,列号表示该数据在矩阵中的列号,行偏移表示某一行的第一个元素在数值里面的起始偏移位置。
CSC也是一种能够使稀疏数据进行压缩存储的方法;其可以用三类数据来表达:数值、行号以及列偏移。数值表示原始矩阵中全部非零值,行号表示该数据在矩阵中的行号,列偏移表示某一列的第一个元素在数值里面的起始偏移位置。
例如给定一个原始矩阵
Figure 450934DEST_PATH_IMAGE007
则使用CSR编码后得到三个向量:非零元素向量[1,7,2,8,5,3,9,6,4],每个非零元素对应的列号即列号向量:[0,1,1,2,0,2,3,1,3] ,行偏移向量:[0,2,4,7,9]。在矩阵a中,第一行第一个元素1是0偏移,第二行第一个元素2是2偏移,第三行第一个元素5是4偏移,第4行第一个元素6是7偏移,在行偏移的最后为数值矩阵总的个数为9。
如果使用CSC编码则有:非零元素向量:[1,5,7,2,6,8,3,9,4],每个非零元素对应的行号即行号向量:[0,2,0,1,3,1,2,2,3],列偏移向量:[0,2,5,7,9]。
对于1个m行*n列(m小于n)的矩阵,如果其稀疏度为30%,即该矩阵有70%数据为0,使用CSR编码可以节约数据存储空间约为(m*n-0.3*2*m*n-m)。
霍夫曼编码(Huffman Encode)是一种基于最小冗余编码的压缩算法。最小冗余编码是指,如果知道一组数据中符号出现的频率,就可以用一种特殊的方式来表示符号从而减少数据需要的存储空间,例如用较少的位对代表出现频率高的符号编码,用较多的位对代表出现频率低的符号编码。
具体在本发明中利用稀疏编码得到非零元素向量data、行/列号向量indices、行/列偏移向量indptr进行霍夫曼编码压缩得到霍夫曼压缩矩阵。由于模型每层权重存储的是聚类量化后的参数,因此可以使用霍夫曼编码进行参数存储,从而降低参数存储所用空间。
本发明采用上述措施得到一个压缩后的语音识别模型,可方便的存储在空间较小的嵌入式设备中,在实际使用该压缩后的语音识别模型时,需要先对存储模型进行调用解码,在内存中才行正常运行。
解码过程可以具体为:将霍夫曼压缩矩阵解码得到稀疏矩阵,所述稀疏矩阵包括非零元素向量data、行/列号向量indices、行/列偏移向量indptr数据;再将稀疏矩阵还原为原始矩阵。解码过程为编码压缩的逆操作,本领域技术人员容易实现。
具体实施例
本实施例在卡尔迪(kaldi)环境下实施;首先选用大量语料训练一个深度神经网络(ftdnn)模型作为原始语音识别模型MD1,其音素聚类个数为3485即输出层个数为3485。
使用取暖桌的相关命令词得到其对应的音素类别个数为994,然后在原始的3485个音素中保留这994个音素类别,并把其余的音素类别和噪音音素映射到另一类,最后得到995个音素类别。
根据取暖桌命令词筛选对应的训练语料,然后在原始模型的基础上进行微调训练,更改原始模型的输出节点为995,得到第二模型MD2。
将得到的第二模型MD2进行稀疏化剪枝操作,将该模型中权重进行非结构化稀疏化剪枝,稀疏化程度为26%,将模型中除了输出层之外的所有层权重按照26%程度稀疏化,意味着原始模型参数有74%的值变为0;得到第三模型MD3。
对第三模型MD3进行微调训练,禁止权重参数为0的梯度更新,对其余不为0的权重参数进行梯度更新,得到一个新的第四模型MD4。
具体训练得到第四模型MD4的过程中,可使用激活函数relu进行更新,假设一个神经网络某一层的计算如下:
f(x)=relu(wx+b)
其中:w为权重矩阵,b为偏置,x为输入特征,relu为激活函数;
则在训练网络时需要保证权重矩阵w中参数为0的不进行更新,其余参数正常更新。
采用训练好的模型第四模型MD4进行权重参数聚类量化采用k均值聚类算法,K=32,即量化位宽为5bit,得到一个新的第五模型MD5;
采用之前进行命令词筛选后的训练语料对步骤6得到的第五模型MD5进行微调训练,禁止所有权重参数的梯度更新,只进行偏置参数的梯度更新,得到第六模型MD6。
基于训练好的第六模型MD6,进行霍夫曼存储压缩,从而进一步降低模型在芯片上的存储。
本实施例中,每个测试集的样本个数为248条音频,各个模型的测试结果如表1
表1
Figure 975456DEST_PATH_IMAGE009
表1中M表示106,音乐、新闻和电机分别表示不同的噪声环境,各个百分比表示在各个测试环境下的正确识别率,从表1可见,在模型参数量减少三分之一,即模型大小等比例下降约三分之一的前提下, 各个噪声环境下识别正确率在音乐环境下仅下降约在新闻噪声环境下仅下降4%,在电机噪声环境下仅下降不足1%。
本发明通过降低参数量,可在不显著影响识别效果的情况下显著减小语音识别模型的占用空间;进一步采用稀疏化剪枝训练、权重参数聚类量化及霍夫曼存储压缩提高存储效率,削减模型的物理存储空间占用,使得以往庞大的语音识别模型变小并易于部署在存储空间有限的嵌入式设备中。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (5)

1.基于命令词的语音识别模型压缩方法,其特征在于,包括如下步骤:
S1:进行初始训练,得到原始语音识别模型MD1,并得到相应的音素分类类别M;
S2:根据需要训练的命令词A得到A对应的音素类别k,然后在原始语音识别模型MD1中选取所述音素类别k,并将原始语音识别模型MD1中包括噪声音素的剩余音素聚类为1类;
聚类后,原始语音识别模型的音素类别为k+1;
S3: 根据命令词A在初始训练使用的语料中筛选与命令词A对应的训练语料,利用筛选后的训练语料对原始语音识别模型MD1进行微调训练得到更新后的第二模型MD2;
所述微调训练具体为:保留原始语音识别模型MD1中除输出层外的其余层参数,并更新输出层的节点数为k+1,进行模型迁移训练,所有层的模型参数进行梯度更新。
2.如权利要求1所述的基于命令词的语音识别模型压缩方法,其特征在于,S3步骤中,进行模型迁移训练时降低学习率。
3.如权利要求1所述的基于命令词的语音识别模型压缩方法,其特征在于,还包括对第二模型MD2的稀疏化剪枝操作,具体为:
S4:筛选出第二模型MD2上权重参数小于设定的稀疏化阈值的神经元,将这些神经元的权重参数置为0;得到第三模型MD3;
S5:对S4步骤得到的第三模型MD3进行微调训练,具体为禁止权重为0的参数进行梯度更新,对不为0的权重参数进行梯度更新,进而得到第四模型MD4。
4.如权利要求3所述的基于命令词的语音识别模型压缩方法,其特征在于,还包括对第四模型MD4的权重参数聚类量化,具体为:
S6:对第四模型MD4进行权重参数聚类量化, 得到第五模型MD5;
S7:采用步骤S3中筛选后的命令词语料对S6步骤得到的第五模型MD5进行微调训练,具体为禁止所有权重参数的梯度更新,只进行偏置参数的梯度更新,得到第六模型MD6;
S8:对第六模型MD6进行霍夫曼存储压缩,得到霍夫曼压缩矩阵。
5.如权利要求4所述的基于命令词的语音识别模型压缩方法,其特征在于,所述权重参数聚类量化采用k均值聚类算法。
CN202210696243.8A 2022-06-20 2022-06-20 基于命令词的语音识别模型压缩方法 Active CN114783427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210696243.8A CN114783427B (zh) 2022-06-20 2022-06-20 基于命令词的语音识别模型压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210696243.8A CN114783427B (zh) 2022-06-20 2022-06-20 基于命令词的语音识别模型压缩方法

Publications (2)

Publication Number Publication Date
CN114783427A CN114783427A (zh) 2022-07-22
CN114783427B true CN114783427B (zh) 2022-08-26

Family

ID=82422151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210696243.8A Active CN114783427B (zh) 2022-06-20 2022-06-20 基于命令词的语音识别模型压缩方法

Country Status (1)

Country Link
CN (1) CN114783427B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116959489B (zh) * 2023-09-19 2023-12-22 腾讯科技(深圳)有限公司 语音模型的量化方法、装置、服务器及存储介质
CN118643884A (zh) * 2024-08-12 2024-09-13 成都启英泰伦科技有限公司 一种基于微调训练的端侧深度神经网络模型压缩方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
US10360904B2 (en) * 2014-05-09 2019-07-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
CN107481717B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统
JP6827911B2 (ja) * 2017-11-22 2021-02-10 日本電信電話株式会社 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN111243576B (zh) * 2020-01-16 2022-06-03 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质
CN113870844A (zh) * 2021-09-01 2021-12-31 深圳市友杰智新科技有限公司 语音识别模型的训练方法、装置和计算机设备
CN114333768A (zh) * 2021-09-26 2022-04-12 腾讯科技(深圳)有限公司 语音检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN114783427A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN114783427B (zh) 基于命令词的语音识别模型压缩方法
CN110298446B (zh) 面向嵌入式系统的深度神经网络压缩和加速方法及系统
CN111078911B (zh) 一种基于自编码器的无监督哈希方法
Kang et al. Learning multi-granular quantized embeddings for large-vocab categorical features in recommender systems
CN108304928A (zh) 基于改进聚类的深度神经网络的压缩方法
JP3978195B2 (ja) 記憶デバイスの欠陥リストの長さを最小にする方法およびシステム
US20230004809A1 (en) Method and Device for Model Compression of Neural Network
CN112836506B (zh) 一种基于上下文语义的信源编译码方法和装置
CN116018589A (zh) 用于基于乘积量化的矩阵压缩的方法和系统
CN116318172A (zh) 一种设计仿真软件数据自适应压缩方法
CN112528650B (zh) 一种Bert模型预训练方法、系统及计算机设备
CN109829054A (zh) 一种文本分类方法及系统
Huang et al. Functional error correction for reliable neural networks
Zheng et al. Binarized Neural Networks for Resource-Efficient Hashing with Minimizing Quantization Loss.
CN117435737A (zh) 一种基于自适应参数更新的终身情感分类方法
WO2023070424A1 (zh) 一种数据库数据的压缩方法及存储设备
CN111368976B (zh) 基于神经网络特征识别的数据压缩方法
Pickett et al. A growing long-term episodic & semantic memory
CN116932534A (zh) 嵌入表的生成方法与索引浓缩方法
Lin et al. Centroid neural network adaptive resonance theory for vector quantization
CN113033628A (zh) 一种自适应的神经网络压缩方法
CN113761834A (zh) 自然语言处理模型的获取词向量的方法、装置和存储介质
CN112885367A (zh) 基频获取方法、装置、计算机设备和存储介质
CN112396178B (zh) 一种提高cnn网络压缩效率的方法
CN118586459A (zh) 一种基于任务匹配相似度的预训练模型的压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant