CN117912484B - 一种剪枝可调的音频分离模型优化方法和装置 - Google Patents
一种剪枝可调的音频分离模型优化方法和装置 Download PDFInfo
- Publication number
- CN117912484B CN117912484B CN202410318898.0A CN202410318898A CN117912484B CN 117912484 B CN117912484 B CN 117912484B CN 202410318898 A CN202410318898 A CN 202410318898A CN 117912484 B CN117912484 B CN 117912484B
- Authority
- CN
- China
- Prior art keywords
- parameter
- pruning
- audio separation
- performance
- separation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 198
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000005457 optimization Methods 0.000 title claims abstract description 44
- 238000013138 pruning Methods 0.000 claims abstract description 126
- 238000013139 quantization Methods 0.000 claims abstract description 69
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 230000004913 activation Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 244000141353 Prunus domestica Species 0.000 description 5
- 238000012886 linear function Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提供一种剪枝可调的音频分离模型优化方法和装置。包括:基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序;根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围;基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,都得到第二音频分离模型;检测所述第二音频分离模型的第二性能,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,对所述预训练的音频分离模型重新剪枝和量化。本申请不断调整剪枝和量化的尺度,自适应实现剪枝、量化程度的调整,从而实现音频分离模型的最佳优化效果,保证音频分离效果,同时优化模型体积。
Description
技术领域
本申请涉及音频处理技术领域,尤其涉及一种剪枝可调的音频分离模型优化方法和装置。
背景技术
近年来,在深度学习技术在音频分离领域的应用中,一些关键的方案已经被提出并广泛研究。例如,基于深度神经网络的端到端学习模型,如基于长短期记忆网络的音频分离系统,已显示出在处理复杂音频信号时的有效性。此外,基于注意力机制的模型也在音频分离任务中取得了显著成绩,通过关注音频信号的特定部分来提高分离质量。然而,这些方案通常存在一些共同的限制:这些模型的训练和部署过程中对硬件的要求较高,这限制了它们在移动设备或边缘计算设备上的应用,并且在运行时往往需要大量的计算资源和存储空间,使得这些模型无法在当前这种资源受限的环境使用。剪枝和量化是缩小模型体积常用的方式,然而现有技术中通常采用按比例剪枝的方式和预设的量化方法,即剪枝哪些参数、采用什么量化方式都是根据经验设置的,而非最适应于当前模型的优化方式,例如CN202210218441.3,导致模型优化效果不佳。此外,部分现有技术开始尝试从参数重要性入手,通过训练时的损失函数,将不重要的参数进行剪枝,例如CN202011006089.4,然而训练阶段的模型和使用时候的模型性能完全不同,损失函数的变化评价的是前后两次训练对模型带来的改动,即通过训练方法确定模型的剪枝范围,完全没有考虑模型实际使用过程中的状态,忽略了在实际使用的领域模型性能发生的变化,所优化的模型不是最适配于应用领域的,且单纯的筛选剪枝容易导致模型关联参数的联系被打断,反而降低了模型的性能。
发明内容
有鉴于此,本申请提供一种剪枝可调的音频分离模型优化方法和装置,用以对音频分离模型完成最佳的轻量化优化。
具体地,本申请是通过如下技术方案实现的:
本申请第一方面提供一种音频分离模型的优化方法,所述方法包括:
基于目标分离场景的实际待分离音频检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,所述第一排序为根据各个参数对所述第一性能的影响程度由低到高获得的排序;
根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;
基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,所述第一剪枝范围为需要对所述预训练的音频分离模型进行剪枝的参数范围,其中每个参数簇中心参数被剪枝的优先级低于参数簇中其他参数;
基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,都得到第二音频分离模型;
基于目标分离场景的实际待分离音频检测所述第二音频分离模型的第二性能,所述第二性能与所述第一性能的性能指标不同,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,返回根据优化目标对所述预训练的音频分离模型的参数进行聚类的步骤,以对所述预训练的音频分离模型重新剪枝和量化。
本申请第二方面提供一种音频分离模型的优化装置,所述装置包括排序模块、聚类模块、筛选模块、优化模块和调整模块;其中,
所述排序模块用于基于目标分离场景的实际待分离音频检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,所述第一排序为根据各个参数对所述第一性能的影响程度由低到高获得的排序;
所述聚类模块用于根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;
所述筛选模块用于基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,所述第一剪枝范围为需要对所述预训练的音频分离模型进行剪枝的参数范围,其中每个参数簇中心参数被剪枝的优先级低于参数簇中其他参数;
所述优化模块用于基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,都得到第二音频分离模型;
所述调整模块用于基于目标分离场景的实际待分离音频检测所述第二音频分离模型的第二性能,所述第二性能与所述第一性能的性能指标不同,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,由所述聚类模块重新对参数进行聚类。
本申请提供的剪枝可调的音频分离模型优化方法和装置,在传统的剪枝、量化模型优化方法下,通过模型实际使用场景中的性能评估不断优化求解剪枝的参数范围和参数本身,同时,也通过模型性能和量化效率匹配最优的量化方法,实现了自动自适应剪枝和量化,同时兼顾了模型性能和模型体积,即可以在保证音频分离模型性能与鲁棒性的前提下,减少音频分离模型的体积和计算需求,同时兼具更低的精度损失和更高的模型压缩率。本发明参考模型使用时的性能信息,同时融合了聚类、自适应剪枝和最优量化三种方式对模型的体积进行优化,获得较小的模型同时保证了模型的性能满足待应用场景的需求。此外,三种方式的结果又是相互影响和作用的,提高了模型体积轻量化的效果,具体来说,剪枝和量化是在聚类的基础上进行的,一个聚类簇中仅部分参数被剪枝,实现了从相类似的参数中选择部分进行剪枝的效果,通过实现聚类为剪枝提供了指引,避免将关联参数进行剪枝,完全打断了参数之间的关联,同时也避免保留过多重复作用的参数,提高了剪枝的科学性;量化又是在剪枝的结果上进行的,基于剪枝和量化的结果反馈调整剪枝和量化的范围、方法,因此,本发明通过将三种方式的输出结果不断融合利用的方式,进一步提高了模型轻量化的程度,提高了模型优化的科学性、准确性。
附图说明
图1为本申请提供的剪枝可调的音频分离模型优化方法实施例一的流程图;
图2为本申请提供的剪枝可调的音频分离模型优化装置实施例一的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请提供一种剪枝可调的音频分离模型优化方法和装置,用以对音频分离模型完成轻量化优化。
下面给出具体的实施例,用以详细介绍本申请的技术方案。
图1为本申请提供的剪枝可调的音频分离模型优化方法实施例一的流程图。请参照图1,本实施例提供的方法,可以包括:
S101、基于目标分离场景的实际待分离音频检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,所述第一排序为根据各个参数对所述第一性能的影响程度由低到高获得的排序。
对基准模型进行初始训练,得到用于进行音频分离的预训练的音频分离模型。具体的,可以通过预设样本对基准模型进行训练,预设样本至少保留混合音频和分离后的纯净音频。作为输入,基准模型的输入信号是混合音频,基准模型的输出是分离后的纯净音频,通过预设样本可以将基准模型训练成预训练的音频分离模型。需要说明的是,预设样本中包含的数据集需要充分覆盖音频分离模型可能在实际应用中遇到的各种场景和条件,这样有助于提高模型的鲁棒性和适用性。
具体实现时,预设样本中包含的具体样本内容可以由工作人员根据实际需要选取,本实施例中,不对此进行限定。例如,一实施例中,预设样本可以为多样化场景中包含多个音频源混合在一起的混合音频。
进一步地,基准模型为待进行训练的神经网络模型,通过预设样本训练基准模型可以使其成为用于进行音频分离处理的音频分离模型。具体实现时,可以选取一个简单的、容易实现的模型作为基准模型。
本步骤中,通过预设样本对基准模型进行初始训练后,得到预训练的音频分离模型,该模型在使用过程中可以用于对输入的待分离混合音频进行分离处理。
检测性能时,输入的是模型训练优化后实际使用场景中的实际待分离音频,而非训练样本,可以基于传统的性能检测方法对预训练的音频分离模型进行性能检测,也可以基于神经网络的性能检测方法对预训练的音频分离模型进行性能检测,本实施例中,不对此进行限定。例如,一实施例中,可以基于人工听觉评估的方法对预训练的音频分离模型进行评估。再例如,另一实施例中,可以基于信噪比、频谱图以及波形图等判别标准检测预训练的音频分离模型的性能。第一性能可以是音频分离准确性,即完成音频分离任务的准确率,还可以基于仿真的方法检测预训练的音频分离模型的第一性能。
进一步地,第一剪枝范围用于指导模型的剪枝处理,第一剪枝范围是明确哪些参数会被剪枝的范围,即从所有的模型参数中选择部分需要被剪枝的参数,构成参数集,形成了第一剪枝范围。在确定第一剪枝范围后,可以将第一剪枝范围内的全部部分参数去除以完成剪枝处理。
进一步地,获得预训练的音频分离模型的性能后,基于该性能得到第一剪枝范围,需要在确保预训练的音频分离模型的性能较佳时,使第一剪枝范围尽可能的大,从而减少模型的参数量。
相较于现有技术直接对模型参数进行预设量的剪枝操作,本发明提供了一种自适应、排序剪枝方法,即剪枝的数量是自适应确定的,剪枝的对象是通过相关性排序确定的,避免了随机剪枝导致剪枝效果不可控,从而提高了剪枝的效果,同时保障了模型的性能。
所述检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,具体包括:基于皮尔逊相关系数对所述预训练的音频分离模型进行性能检测,得到第一性能指标下各个参数与所述第一性能指标的相关性;根据所述相关性的排序确定参数的所述第一排序。
具体实现时,可以对预训练的音频分离模型进行仿真,计算模型性能,从而同时利用皮尔逊相关系数计算模型的各个参数和模型性能之间的相关性,以将第一音频分离模型的参数与预设的参数作为两个向量,然后应用皮尔逊相关系数的计算公式得到一个值,表示第一音频分离模型的参数与预设的参数之间的线性相关性。可以使用第一音频分离模型处理预设的低数据量测试样本得到的信号,与基准模型处理后的输出信号的相关性进行检测,得到第一音频分离模型各个配置与参数的性能表现。
通过皮尔逊相关系数检测到模型中接近于0的参数,可以被认为是对该模型性能贡献较小的参数,可以对这些参数进行剪枝处理。皮尔逊相关系数计算具体采用:基于少量待分离实际音频,获得经第一音频分离模型处理的输出信号,获得经基准模型处理后的输出信号,计算两个模型输出信号之间的相关性,作为皮尔逊相关系数。因此,本发明通过相关性对参数进行筛选,进而对满足当前任务要求的无关参数进行剪枝,提高了剪枝的效果,保证了模型的性能同时减少了模型参数量。
作为一种可选的实施例,可以直接预设第一冗余阈值用于对预训练的音频分离模型进行剪枝处理,即对预训练的音频分离模型中的参数集中第一冗余阈值数量的参数进行剪枝处理。预设第一冗余阈值是工作人员根据实际需要提前设定的,通过预设第一冗余阈值可以对预训练的音频分离模型进行初步处理,删除多余的部分。例如,一实施例中,可以基于历史第一冗余阈值的平均值确定预设第一冗余阈值,第一冗余阈值可以为一比例。
作为另一种可选的实施例,第一冗余阈值可以通过计算实现。所述基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围之前,所述方法还包括:计算各个参数簇的中心参数与所述预训练的音频分离模型任务的相关性;基于计算得到的相关性计算各个参数簇的代表权重;根据所述代表权重的分布情况和模型优化目标预设第一冗余阈值。
作为另一种可选的实施例,第一冗余阈值可以根据音频分离模型的待应用场景进行设置,设置初始值后,根据模型的性能不断调整,使得剪枝、量化后的模型与实际使用的场景准确适配,最大程度发挥了模型的性能,同时降低了模型的体积。其中,待应用场景为待分离混合音频产生的场景,基于待应用场景的音频特征分布特性确定初始的第一冗余阈值。本发明提供的音频分离模型优化方法,考虑到现有技术中不同应用场景对模型性能的要求不同,通过应用场景的特点确定了初始的第一冗余阈值,即确定了初始迭代的基准,在后续迭代过程中,能够以更短的计算时间达到满足当前应用场景要求的模型优化结果,一方面缩小了模型体积,降低了模型所占体积;另一方面,通过初始第一冗余阈值的确定,使得在迭代过程中,能够以较少的迭代次数直接获得最优的结果,加快了优化的速度,降低了优化的计算量。
S102、根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇。
以优化目标最优化为目标,基于GapStatistic确定最优聚类簇数,其中,所述优化目标至少包括所述预训练的音频分离模型的音频识别时间和识别准确率;基于所述最优聚类簇数和k-means++对所述预训练的音频分离模型进行参数聚类。
其中,基于GapStatistic确定最优聚类簇数,包括:基于初始聚类簇数对所述预训练的音频分离模型进行初步聚类,获得实际聚类的统计特性;将所述实际聚类的统计特性与参考数据集的聚类结果进行对比,得到调整标准;基于所述调整标准对所述初始聚类簇数进行调整,得到所述最优聚类簇数。
S103、基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,所述第一剪枝范围为需要对所述预训练的音频分离模型进行剪枝的参数范围,其中每个参数簇中心参数被剪枝的优先级低于参数簇中其他参数。
具体的,剪枝处理用于减小预训练的音频分离模型的复杂度,通过进行剪枝处理去除预训练的音频分离模型的参数中的多余部分,可以提高预训练的音频分离模型的泛化能力,减少资源的开销和模型对存储空间、资源的要求。
具体实现时,可以基于模型中的权重进行剪枝处理,也可以基于模型中的卷积通道进行剪枝处理。例如,一实施例中,结合上面的例子,当预设第一冗余阈值为10%时,将参数与模型第一性能的相关性转换为参数的权重,基于预训练的音频分离模型的权重进行剪枝处理,根据权重大小对模型参数进行排序,将预训练的音频分离模型中权重值最小的10%去除,得到剪枝处理后的第一音频分离模型。由此可知,本发明提供的方法相较于传统的随机选择的参数剪枝方法,通过分析参数与性能的关联度从参数集中筛选出部分对模型性能贡献度较低的参数,从而对这些参数进行剪枝,实现了针对特定任务、特定性能要求的自适应剪枝。各个聚类簇中的参数权重用于表征各个聚类簇在预训练的音频分离模型中的重要程度,换言之,参数权重越大的聚类簇在进行音频分离时的作用越大。进一步地,在单一聚类簇内,参数与簇中心的相关性越高,其被赋予的权重也应相对越大。相反,与簇中心相关性较低的参数则被视为对簇内功能贡献较小,相应地被赋予较低的权重。在考虑整个模型范围内的参数权重分配时,不同聚类簇间的参数权重应当根据各自簇对模型整体性能的贡献度进行调整。那些包含对模型性能至关重要的参数的聚类簇,整体上被赋予更高的权重,以反映其在维持或提升模型性能中的重要性。那些包含对模型性能影响较小的参数的簇,则在权重分配中相对较低,表明这些参数或簇在模型优化和资源节约中可能是优化或剪枝的潜在目标。
基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,具体包括:基于所述第一排序确定所述多个参数簇中心参数的排序;基于中心参数的排序对所述多个参数簇进行排序;根据所述第一冗余阈值从排序后的参数簇中选择剪枝参数集,从而确定所述第一剪枝范围。
S104、基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,都得到第二音频分离模型。
需要说明的是,最优量化是根据实际需要进行选择的,本实施例中,不对此进行限定。例如,可以选取可以保证第一音频分离模型处理精度与性能不降低的量化方法作为最优量化方法。
基于第一剪枝范围对所述预训练的音频分离模型进行试剪枝处理,得到第一音频分离模型;根据所述第一音频分离模型的参数量级匹配最优量化方式,利用所述最优量化方式对所述第一音频分离模型进行最优量化,得到第二音频分离模型。
量化方法集中至少包括如下量化方法:静态量化(训练中量化),量化感知训练(训练后量化),分段线性量化。
静态量化主要通过减少第一音频分离模型中数值的位宽来降低第一音频分离模型大小和提高推理速度,第一音频分离模型进行一系列推理过程以收集数据分布信息,然后基于这些信息对权重和激活函数进行量化,这些权重在训练开始前就被量化,而在训练过程中保持不变。
量化感知训练在训练过程中模拟量化的效果,在训练过程中,权重和激活函数同时被量化和反量化,这样第一音频分离模型就可以在训练时考虑到量化的影响,最终,第一音频分离模型在训练完成后直接应用量化,无需进一步的调整或微调。
若所述最优量化方法为分段式线性量化,则所述对所述第一音频分离模型进行最优量化,该方法包括:
获取所述第一音频分离模型的数据分布和激活函数。
具体的,量化方法通过减小第一音频分离模型中权重和激活值的位数,从而降低计算和存储的成本,提高第一音频分离模型的运行效率。
需要说明的是,分段式线性量化方法是将参数划分为不同的区间,并在每个区间内使用线性的量化函数对参数进行量化,每个区间都有自己的量化参数,这种方法允许对不同范围内使用不同的函数进行量化处理,可以更好地适应第一音频分离模型的实际情况。
进一步地,若将分段式线性量化方法确定为最优量化方法,则先获取第一音频分离模型的数据分布和激活函数。具体实现时,例如,一实施例中,可以基于聚类处理得到的簇获取第一音频分离模型的数据分布和激活函数。
基于所述数据分布拟合所述激活函数确定分段线性函数,根据所述分段线性函数完成所述量化处理。
具体实现时,可以通过第一音频分离模型的数据分布和激活函数确定数据的分段点,进而根据分段点将第一音频分离模型划分为不同的区间,根据区间确定最佳的分段线性函数来近似这些数据分布,然后,根据这些分段线性函数对模型进行量化。本实施例提供的量化方法,可以在保证人声分离质量的同时,优化模型的效率和大小。
所述根据所述第一音频分离模型的参数量级匹配最优量化方式,具体包括:确定所述第二音频分离模型的音频分离任务;基于所述音频分离任务确定量化方法集中各个量化方法的量化效率;基于量化效率和所述音频分离任务的精度要求从所述量化方法集中匹配最优量化方法,所述最优量化方法量化后的第二音频分离模型精度能够满足所述音频分离任务的要求。
S105、检测所述第二音频分离模型的第二性能,所述第二性能与所述第一性能的性能指标不同,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,返回根据优化目标对所述预训练的音频分离模型的参数进行聚类的步骤,以对所述预训练的音频分离模型重新剪枝和量化。
可以使用BSSEval标准作为第二性能的指标。BSSEval标准性能评估指标采用完整的、包含多种音乐风格的数据集,针对源失真比、源干扰比和源伪影比、计算量、参数量、实时因子、模型大小这7个指标进行评价,这样,通过前三项指标反映了模型处理后音频的质量,源失真比越大,音频质量越高,失真越小;源干扰比越大则音频分离算法在消除或减少背景噪声和其他干扰声源方面效果越好;源伪影比越大则表示分离过程中产生的伪影越少,纯净度与自然度越高;参数量与模型大小则反映了经过剪枝与量化操作后的模型资源占用情况;实时因子是衡量模型推理速度的指标,它定义为模型处理一定长度音频所需时间与音频本身长度的比值,其大小直接说明了模型在特定硬件上执行推理任务的效率,实时因子越小意味着模型推理速度越快,对于需要实时处理的场景来说更为理想。
所述基于所述第二性能调整聚类参数簇和所述第一冗余阈值,具体包括:基于综合音频性能评估指标检测所述第二音频分离模型,得到所述综合音频性能评估指标中各个指标的性能值,所述综合音频性能评估指标至少包括分离后音频纯净度、分离速度和分离后音频完整性;基于预设标准性能值确定低于所述预设标准性能值的所述性能值,并将所述低于所述预设标准性能值的所述性能值对应的指标确定为目标指标;确定与所述目标指标相关性最高的参数作为目标参数,根据目标参数调整参数簇的中心和数量,调整后所述目标参数为参数簇中心;根据所述目标参数与所述第一性能的相关性调整第一冗余阈值,使得所述目标参数不属于所述第一剪枝范围。
本实施例提供的剪枝可调的音频分离模型优化方法,通过设计一种自适应机制来动态调整第一剪枝范围,能够在不同的阶段和针对不同的模型结构实现最佳剪枝率,从而在减少模型大小的同时尽量保持其性能;同时,采用分段式线性量化策略,该策略通过优化量化过程中的比特分配,进一步减少了模型的存储需求和计算复杂度,同时最大限度地减少了量化带来的性能损失。
在得到剪枝量化后的新的第二音频分离模型后,继续基于目标分离场景的实际待分离音频检测第二音频分离模型,若新的第二音频分离模型满足预设性能的要求,则将该第二音频分离模型确定为最终的音频分离模型;若新的第二音频分离模型不满足预设性能的要求,则基于该第二音频分离模型的性能与预设性能之间的差异继续更新第一剪枝范围并继续执行上述范围筛选过程,直至得到满足预设性能要求的第二音频分离模型,确定最终的第一剪枝范围。
本发明提供的方法,同时融合了聚类、自适应剪枝和最优量化三种方式对模型的体积进行优化,获得较小的模型同时保证了模型的性能满足待应用场景的需求。此外,三种方式的结果又是相互影响和作用的,提高了模型体积轻量化的效果,具体来说,剪枝和量化是在聚类的基础上进行的,一个聚类簇中仅部分参数被剪枝,实现了从相类似的参数中选择部分进行剪枝的效果,通过实现聚类为剪枝提供了指引,提高了剪枝的科学性;量化又是在剪枝的结果上进行的,基于剪枝和量化的结果反馈调整剪枝和量化的范围、方法,因此,本发明通过将三种方式的输出结果不断融合利用的方式,进一步提高了模型轻量化的程度,提高了模型优化的科学性、准确性。
图2为本申请提供的剪枝可调的音频分离模型优化装置实施例一的结构示意图。请参照图2,本实施例提供的装置包括排序模块、聚类模块、筛选模块、优化模块和调整模块;其中,
所述排序模块用于基于目标分离场景的实际待分离音频检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,所述第一排序为根据各个参数对所述第一性能的影响程度由低到高获得的排序;
所述聚类模块用于根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;
所述筛选模块用于基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,所述第一剪枝范围为需要对所述预训练的音频分离模型进行剪枝的参数范围,其中每个参数簇中心参数被剪枝的优先级低于参数簇中其他参数;
所述优化模块用于基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,都得到第二音频分离模型;
所述调整模块用于基于目标分离场景的实际待分离音频检测所述第二音频分离模型的第二性能,所述第二性能与所述第一性能的性能指标不同,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,由所述聚类模块重新对参数进行聚类。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (9)
1.一种剪枝可调的音频分离模型优化方法,其特征在于,所述方法包括:
基于目标分离场景的实际待分离音频检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,所述第一排序为根据各个参数对所述第一性能的影响程度由低到高获得的排序;
根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;
基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,所述第一剪枝范围为需要对所述预训练的音频分离模型进行剪枝的参数组合,其中每个参数簇中心参数被剪枝的优先级低于参数簇中其他参数;
基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,得到第二音频分离模型;
基于目标分离场景的实际待分离音频检测所述第二音频分离模型的第二性能,所述第二性能与所述第一性能的性能指标不同,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,返回根据优化目标对所述预训练的音频分离模型的参数进行聚类的步骤,以确定第一剪枝范围,对所述预训练的音频分离模型重新剪枝和量化;
所述基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,具体包括:
基于所述第一排序确定所述多个参数簇中心参数的排序;
基于中心参数的排序对所述多个参数簇进行排序;
根据所述第一冗余阈值从排序后的参数簇中选择剪枝参数集,从而确定所述第一剪枝范围。
2.根据权利要求1所述的方法,其特征在于,根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇,具体包括:
以优化目标最优化为目标,基于GapStatistic确定最优聚类簇数,其中,所述优化目标至少包括所述预训练的音频分离模型的音频识别时间和识别准确率;
基于所述最优聚类簇数和k-means++对所述预训练的音频分离模型进行参数聚类。
3.根据权利要求2所述的方法,其特征在于,所述基于GapStatistic确定最优聚类簇数,包括:
基于初始聚类簇数对所述预训练的音频分离模型进行初步聚类,获得实际聚类的统计特性;
将所述实际聚类的统计特性与参考数据集的聚类结果进行对比,得到调整标准;
基于所述调整标准对所述初始聚类簇数进行调整,得到所述最优聚类簇数。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,得到第二音频分离模型,具体包括:
基于第一剪枝范围对所述预训练的音频分离模型进行试剪枝处理,得到第一音频分离模型;
根据所述第一音频分离模型的参数量级匹配最优量化方式,利用所述最优量化方式对所述第一音频分离模型进行最优量化,得到第二音频分离模型。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第二性能调整聚类参数簇和所述第一冗余阈值,具体包括:
基于综合音频性能评估指标检测所述第二音频分离模型,得到所述综合音频性能评估指标中各个指标的性能值,所述综合音频性能评估指标至少包括分离后音频纯净度、分离速度和分离后音频完整性;
基于预设标准性能值确定低于所述预设标准性能值的所述性能值,并将所述低于所述预设标准性能值的所述性能值对应的指标确定为目标指标;
确定与所述目标指标相关性最高的参数作为目标参数,根据目标参数调整参数簇的中心和数量,调整后所述目标参数为参数簇中心;
根据所述目标参数与所述第一性能的相关性调整第一冗余阈值,使得所述目标参数不属于所述第一剪枝范围。
6.根据权利要求1所述的方法,其特征在于,所述基于目标分离场景的实际待分离音频检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,具体包括:
基于皮尔逊相关系数对所述预训练的音频分离模型进行性能检测,得到第一性能指标下各个参数与所述第一性能指标的相关性;
根据所述相关性的排序确定参数的所述第一排序。
7.根据权利要求1所述的方法,其特征在于,所述基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围之前,所述方法还包括:
计算各个参数簇的中心参数与所述预训练的音频分离模型任务的相关性;
基于计算得到的相关性计算各个参数簇的代表权重;
根据所述代表权重的分布情况和模型优化目标预设第一冗余阈值。
8.根据权利要求4所述的方法,其特征在于,所述根据所述第一音频分离模型的参数量级匹配最优量化方式,具体包括:
确定所述第二音频分离模型的音频分离任务;
基于所述音频分离任务确定量化方法集中各个量化方法的量化效率;
基于量化效率和所述音频分离任务的精度要求从所述量化方法集中匹配最优量化方法,所述最优量化方法量化后的第二音频分离模型精度能够满足所述音频分离任务的要求。
9.一种剪枝可调的音频分离模型优化装置,其特征在于,所述装置包括排序模块、聚类模块、筛选模块、优化模块和调整模块;其中,
所述排序模块用于基于目标分离场景的实际待分离音频检测预训练的音频分离模型的第一性能,基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序,所述第一排序为根据各个参数对所述第一性能的影响程度由低到高获得的排序;
所述聚类模块用于根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;
所述筛选模块用于基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,所述第一剪枝范围为需要对所述预训练的音频分离模型进行剪枝的参数范围,其中每个参数簇中心参数被剪枝的优先级低于参数簇中其他参数;
所述优化模块用于基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,得到第二音频分离模型;
所述调整模块用于基于目标分离场景的实际待分离音频检测所述第二音频分离模型的第二性能,所述第二性能与所述第一性能的性能指标不同,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,由所述聚类模块重新对参数进行聚类;
所述基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围,具体包括:
基于所述第一排序确定所述多个参数簇中心参数的排序;
基于中心参数的排序对所述多个参数簇进行排序;
根据所述第一冗余阈值从排序后的参数簇中选择剪枝参数集,从而确定所述第一剪枝范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410318898.0A CN117912484B (zh) | 2024-03-20 | 2024-03-20 | 一种剪枝可调的音频分离模型优化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410318898.0A CN117912484B (zh) | 2024-03-20 | 2024-03-20 | 一种剪枝可调的音频分离模型优化方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117912484A CN117912484A (zh) | 2024-04-19 |
CN117912484B true CN117912484B (zh) | 2024-05-17 |
Family
ID=90686297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410318898.0A Active CN117912484B (zh) | 2024-03-20 | 2024-03-20 | 一种剪枝可调的音频分离模型优化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117912484B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022079947A (ja) * | 2020-11-17 | 2022-05-27 | 株式会社日立ソリューションズ・テクノロジー | プルーニング管理装置、プルーニング管理システム及びプルーニング管理方法 |
CN114742997A (zh) * | 2022-03-16 | 2022-07-12 | 大连理工大学 | 一种面向图像分割的全卷积神经网络密度峰剪枝方法 |
CN115600650A (zh) * | 2022-11-02 | 2023-01-13 | 华侨大学(Cn) | 基于强化学习的自动化卷积神经网络量化剪枝方法、设备和存储介质 |
WO2023134086A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 卷积神经网络模型剪枝方法和装置、电子设备、存储介质 |
CN116976428A (zh) * | 2022-10-20 | 2023-10-31 | 中移(杭州)信息技术有限公司 | 模型训练方法、装置、设备及存储介质 |
-
2024
- 2024-03-20 CN CN202410318898.0A patent/CN117912484B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022079947A (ja) * | 2020-11-17 | 2022-05-27 | 株式会社日立ソリューションズ・テクノロジー | プルーニング管理装置、プルーニング管理システム及びプルーニング管理方法 |
WO2023134086A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 卷积神经网络模型剪枝方法和装置、电子设备、存储介质 |
CN114742997A (zh) * | 2022-03-16 | 2022-07-12 | 大连理工大学 | 一种面向图像分割的全卷积神经网络密度峰剪枝方法 |
CN116976428A (zh) * | 2022-10-20 | 2023-10-31 | 中移(杭州)信息技术有限公司 | 模型训练方法、装置、设备及存储介质 |
CN115600650A (zh) * | 2022-11-02 | 2023-01-13 | 华侨大学(Cn) | 基于强化学习的自动化卷积神经网络量化剪枝方法、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
基于SSD的轻量级车辆检测网络;乔延婷;陈万培;张涛;;无线电工程;20201028(第11期);全文 * |
基于深度可分离卷积与通道裁剪的YOLOv3改进方法;朱金铭;邰阳;邹刘磊;范洪辉;朱洪锦;;江苏理工学院学报;20200415(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117912484A (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10964337B2 (en) | Method, device, and storage medium for evaluating speech quality | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN109344921B (zh) | 一种基于深度神经网络模型的图像识别方法、装置及设备 | |
CN104505097B (zh) | 检索激励的固定贡献的量化增益的设备和方法 | |
CN109543763A (zh) | 一种基于卷积神经网络的拉曼光谱分析方法 | |
EP1676264B1 (en) | A method of making a window type decision based on mdct data in audio encoding | |
CN111326169B (zh) | 一种语音质量的评价方法及装置 | |
US20200175265A1 (en) | Method and device for automatic gesture recognition | |
CN112085668B (zh) | 一种基于区域自适应自监督学习的图像色调映射的方法 | |
CN110702986A (zh) | 一种自适应信号搜索门限实时动态生成方法及系统 | |
CN112101524A (zh) | 可在线切换比特位宽的量化神经网络的方法及系统 | |
CN110765701A (zh) | 一种led荧光粉胶涂覆厚度的预测方法 | |
CN114500335A (zh) | 基于模糊c均值和混合核最小二乘支持向量机的sdn网络流程控制方法 | |
CN117912484B (zh) | 一种剪枝可调的音频分离模型优化方法和装置 | |
CN113420165A (zh) | 二分类模型的训练、多媒体数据的分类方法及装置 | |
CN117454943A (zh) | 一种自动模型压缩方法、装置及介质 | |
CN112634268A (zh) | 一种视频质量评价方法、装置及电子设备 | |
CN110751400B (zh) | 一种风险评估方法及装置 | |
CN113128659A (zh) | 神经网络定点化方法、装置、电子设备及可读存储介质 | |
CN116701875A (zh) | 一种特高压交流输电线路可听噪声概率预测方法及系统 | |
US20030026497A1 (en) | Scalable expandable system and method for optimizing a random system of algorithms for image quality | |
CN109523386A (zh) | 一种gmm与lstm结合的投资组合风险预测方法 | |
CN116188834A (zh) | 基于自适应训练模型的全切片图像分类方法及装置 | |
CN115860141A (zh) | 一种自动化机器学习交互式黑箱可视建模方法及系统 | |
CN114565080A (zh) | 神经网络压缩方法及装置、计算机可读介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |