CN117935834B - 一种音频智能降噪方法及设备 - Google Patents
一种音频智能降噪方法及设备 Download PDFInfo
- Publication number
- CN117935834B CN117935834B CN202410277641.5A CN202410277641A CN117935834B CN 117935834 B CN117935834 B CN 117935834B CN 202410277641 A CN202410277641 A CN 202410277641A CN 117935834 B CN117935834 B CN 117935834B
- Authority
- CN
- China
- Prior art keywords
- audio
- analysis
- integrity
- carrier
- description carrier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 291
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000004458 analytical method Methods 0.000 claims abstract description 562
- 230000000875 corresponding effect Effects 0.000 claims description 130
- 238000005065 mining Methods 0.000 claims description 92
- 238000012549 training Methods 0.000 claims description 81
- 239000000969 carrier Substances 0.000 claims description 51
- 238000005457 optimization Methods 0.000 claims description 41
- 238000012795 verification Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 67
- 230000008569 process Effects 0.000 description 55
- 238000012545 processing Methods 0.000 description 55
- 230000005236 sound signal Effects 0.000 description 44
- 230000003595 spectral effect Effects 0.000 description 27
- 239000013598 vector Substances 0.000 description 27
- 238000013528 artificial neural network Methods 0.000 description 22
- 238000010801 machine learning Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000011946 reduction process Methods 0.000 description 16
- 239000000306 component Substances 0.000 description 15
- 238000003062 neural network model Methods 0.000 description 15
- 238000013461 design Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 13
- 238000012706 support-vector machine Methods 0.000 description 13
- 230000002123 temporal effect Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本公开提供一种音频智能降噪方法及设备,通过对待降噪音频进行音频描述载体挖掘,得到待降噪音频的基础音频描述载体,通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频在各分析角度的完整度分析结果,当完整度分析结果表征待降噪音频在相应的分析角度下缺乏完整度时,获取相应的分析角度下的降噪描述载体,通过降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体对应的目标音频描述载体,对目标音频描述载体进行描述载体解析,得到在各分析角度下均具有完整度的降噪音频。让降噪音频在各分析角度下都具有完整度,能较好提升降噪音频的精确性。
Description
技术领域
本申请涉及音频处理领域,具体而言,涉及一种音频智能降噪方法及设备。
背景技术
在音频处理领域中,降噪技术一直是研究的热点和难点。随着现代通信、媒体和娱乐技术的飞速发展,对于音频质量的要求也日益提高。然而,在实际应用中,音频信号常常受到各种噪声的干扰,如环境噪声、设备内部噪声等,这些噪声会严重影响音频的清晰度和可听性。传统的降噪方法通常基于信号处理技术,如滤波、频谱分析等,这些方法在一定程度上能够降低噪声水平,但同时也可能损失音频信号中的有用成分,导致音质下降。近年来,随着人工智能和机器学习技术的兴起,基于数据驱动的降噪方法逐渐成为研究的新方向。这些方法通过学习大量带噪和纯净音频数据的映射关系,能够更准确地分离噪声和音频信号,从而在降噪的同时保留更多的音频细节。然而,现有的降噪方法在降噪精度上还具有提升的空间。
发明内容
本发明的目的在于提供一种音频智能降噪方法及设备
本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种音频智能降噪方法,方法包括:对待降噪音频进行音频描述载体挖掘,得到待降噪音频的基础音频描述载体;通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的完整度分析结果;当完整度分析结果表征待降噪音频在相应的分析角度下缺乏完整度时,获取基础音频描述载体在相应的分析角度下的降噪描述载体;通过降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体对应的目标音频描述载体;对目标音频描述载体进行描述载体解析,得到待降噪音频对应的降噪音频,降噪音频在各分析角度下均具有完整度。
可选地,音频描述载体挖掘通过不少于一个音频描述载体挖掘算子实现,当音频描述载体挖掘算子的数量为多个时,对待降噪音频进行音频描述载体挖掘,得到待降噪音频的基础音频描述载体,包括:基于首个音频描述载体挖掘算子,对待降噪音频进行音频描述载体挖掘,得到首个基础音频描述载体;基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体;其中,u的取值为从2到m,m为音频描述载体挖掘算子的数量,依次遍历u,直到遍历到第m个音频描述载体挖掘算子,得到第m个基础音频描述载体;将第m个基础音频描述载体,确定为待降噪音频的基础音频描述载体。
可选地,基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体之前,方法还包括:通过第u-1个基础音频描述载体,在各分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的第u-1个完整度分析结果;通过第u-1个完整度分析结果,对第u-1个基础音频描述载体进行载体校验,得到第u-1个目标音频描述载体;基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体,包括:基于第u个音频描述载体挖掘算子,通过第u-1个目标音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体。
可选地,通过第u-1个完整度分析结果,对第u-1个基础音频描述载体进行载体校验,得到第u-1个目标音频描述载体,包括:若存在第u-1个完整度分析结果表征待降噪音频在相应的分析角度下缺乏完整度时,对第u-1个基础音频描述载体进行描述载体优化,得到第u-1个目标音频描述载体;若各第u-1个完整度分析结果都表征待降噪音频在相应的分析角度下具有完整度时,将第u-1个基础音频描述载体,确定为第u-1个目标音频描述载体。
可选地,通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的完整度分析结果,包括:获取各分析角度分别对应的完整度分析算子,对各分析角度完成如下步骤
基于相应的完整度分析算子,通过基础音频描述载体,在分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频在分析角度的完整度评分;若完整度评分大于或等于参考评分,将分析角度的完整度分析结果确定为第一分析信息,第一分析信息表征待降噪音频在分析角度下具有完整度;若完整度评分小于参考评分,将分析角度的完整度分析结果确定为第二分析信息,第二分析信息表征待降噪音频在分析角度下缺乏完整度。
可选地,若分析角度的数量为一个,获取各分析角度分别对应的完整度分析算子,包括:获取基础分析算子,并获取音频学习模板对应的多个音频描述载体学习模板,以及各音频描述载体学习模板的完整度指示评分;针对各音频描述载体学习模板,基于基础分析算子,通过音频描述载体学习模板,在分析角度对音频学习模板的清晰性进行完整度分析,得到音频描述载体学习模板对应的完整度评分,结合完整度评分和相应的完整度指示评分,确定音频描述载体学习模板对应的训练代价;通过各音频描述载体学习模板对应的训练代价,对基础分析算子进行调优,得到分析角度对应的完整度分析算子。
可选地,获取音频学习模板对应的多个音频描述载体学习模板,包括:获取音频学习模板,对音频学习模板进行音频描述载体挖掘,得到音频学习模板的基础音频描述载体;对音频学习模板的基础音频描述载体进行载体混合,得到音频学习模板对应的多个音频描述载体学习模板。
可选地,当分析角度的数量为多个时,获取各分析角度分别对应的完整度分析算子,包括:获取基础分析算子,并获取首个分析角度的音频学习模板对应的首个音频描述载体学习模板,以及首个音频描述载体学习模板的首个完整度指示评分;基于基础分析算子,通过首个音频描述载体学习模板,对首个分析角度的音频学习模板的清晰性进行完整度分析,得到首个完整度评分,结合首个完整度评分和首个完整度指示评分,对基础分析算子进行调优,得到首个分析角度对应的完整度分析算子;获取第v个分析角度的音频学习模板对应的第v个完整度评分,通过第v个完整度评分,对基础分析算子进行调优,得到第v+1个分析角度对应的完整度分析算子;其中,v+1的取值为从2到z,依次遍历v,直到遍历到第z个分析角度,得到第m个分析角度,z表征分析角度的数量。
可选地,通过第v个完整度评分,对基础分析算子进行调优,得到第v+1个分析角度对应的完整度分析算子,包括:获取第v+1个分析角度的音频学习模板对应的第v+1个音频描述载体学习模板,以及第v+1个音频描述载体学习模板的第v+1个完整度指示评分;基于基础分析算子,通过第v+1个音频描述载体学习模板,对第v+1个分析角度的音频学习模板的清晰性进行完整度分析,得到第v+1个完整度评分;结合第v+1个完整度评分和第v个完整度评分,确定第一训练代价,结合第v+1个完整度评分和第v+1个完整度指示评分,确定第二训练代价;结合第一训练代价和第二训练代价,对基础分析算子进行调优,得到第v+1个分析角度对应的完整度分析算子。
可选地,通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的完整度分析结果之后,方法还包括:若各分析角度的完整度分析结果都表征待降噪音频在相应的分析角度下具有完整度,对基础音频描述载体进行描述载体解析,得到待降噪音频对应的降噪音频;降噪描述载体与目标分析角度一一对应,待降噪音频在目标分析角度下缺乏完整度,通过降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体对应的目标音频描述载体,包括:获取待降噪音频分别在各目标分析角度下的完整度评分,将各完整度评分,各自确定为相应的降噪描述载体的影响力因子;依照各降噪描述载体的影响力因子,对各降噪描述载体进行合并,得到对照降噪描述载体;获取基础音频描述载体的载体元素数量,以及对照降噪描述载体的载体元素数量;若基础音频描述载体的载体元素数量与对照降噪描述载体的载体元素数量不同,对对照降噪描述载体的载体元素数量进行变换,得到目标降噪描述载体;若基础音频描述载体的载体元素数量与对照降噪描述载体的载体元素数量相同,将对照降噪描述载体确定为目标降噪描述载体;通过降噪描述载体的数量,确定基础音频描述载体的降噪力度,降噪力度与降噪描述载体的数量正向关联;将降噪力度与目标降噪描述载体作积,得到合并描述载体,将基础音频描述载体和合并描述载体相加,获得目标音频描述载体。
第二方面,本公开提供一种计算机设备,包括:
一个或多个处理器;
存储器;一个或多个计算机程序;其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个计算机程序被处理器执行时,实现如上的方法。
本公开的有益效果包括:本公开实施例提供的音频智能降噪方法及设备,通过对待降噪音频进行音频描述载体挖掘,得到待降噪音频的基础音频描述载体,通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频在各分析角度的完整度分析结果,当完整度分析结果表征待降噪音频在相应的分析角度下缺乏完整度时,获取相应的分析角度下的降噪描述载体,通过降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体对应的目标音频描述载体,对目标音频描述载体进行描述载体解析,得到在各分析角度下均具有完整度的降噪音频。基本上述过程,通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的完整度分析结果,通过对基础音频描述载体进行描述载体优化,得到目标音频描述载体,对目标音频描述载体进行描述载体解析,这样让降噪音频在各分析角度下都具有完整度,能较好提升降噪音频的精确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种音频智能降噪方法的流程图。
图2是本申请实施例提供的一种计算机设备的组成示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例中音频智能降噪方法的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机、耳机等。
本申请实施例提供了一种音频智能降噪方法,如图1所示,该方法包括:
操作S100:对待降噪音频进行音频描述载体挖掘,得到待降噪音频的基础音频描述载体。
操作S100中,计算机设备对待降噪音频进行音频描述载体的挖掘,目的是提取出音频的基础特征信息,为后续的分析和处理奠定基础。音频描述载体是用于承载音频特征信息的工具,它可以是向量、矩阵或其他数据结构。在操作S100中,计算机设备利用信号处理和机器学习技术,对待降噪音频进行深入的分析和挖掘。这个过程包括但不限于音频信号的预处理、特征提取和特征选择等步骤。
预处理阶段主要是对原始音频信号进行必要的清洗和格式化,以去除无关信息、降低噪声干扰,并使得音频数据更适合后续的特征提取工作。例如,可以进行去噪、归一化、采样率转换等操作。在特征提取阶段,计算机设备通过特定的算法或模型,从预处理后的音频信号中提取出能够表征音频属性的关键特征。这些特征可以是时域的(如振幅、能量等),频域的(如频谱、谐波结构等),或者是更高级的特征(如梅尔频率倒谱系数MFCC、声纹特征等)。举例来说,如果采用梅尔频率倒谱系数作为特征,那么计算机设备将音频信号转换为梅尔频率域上的表示,并提取出一系列能够反映音频特性的系数。特征选择阶段则是在提取出的众多特征中,挑选出对于后续降噪处理最具有代表性和区分度的特征集合。这一过程可以通过手动选择、基于统计的方法或机器学习算法自动完成。
最终,经过操作S100的处理,计算机设备能够得到待降噪音频的基础音频描述载体。这个描述载体是一个包含了音频关键特征信息的向量或数据结构,它将作为后续完整度分析、降噪描述载体获取以及音频优化处理的基础。通过这一步骤的深入挖掘和处理,音频智能降噪方法能够更准确地识别出噪声成分,并为目标降噪处理提供有力的支持。
操作S200:通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的完整度分析结果。
操作S200中,计算机设备利用从操作S100中获得的基础音频描述载体,从多个分析角度对待降噪音频进行深入探究。具体来说,完整度分析是一种评估音频质量的方法,它旨在量化音频信号在不同方面的完整性和清晰度。在操作S200中,计算机设备根据预设的分析角度,如频谱结构、信号能量分布、时域波形特征等,对基础音频描述载体进行细致的检查和分析。以频谱结构为例,可以考察音频信号在不同频率上的能量分布,以判断是否存在频谱缺失、噪声干扰或频率失真等问题。信号能量分布则关注音频信号在不同时间段内的强度变化,从而揭示出可能存在的音量突变、剪切或丢失等现象。时域波形特征则涉及对音频信号波形形状、周期性以及连续性等方面的分析,以评估音频的时域完整性。在实施过程中,计算机设备可以利用机器学习模型来辅助完整度分析。例如,可以采用支持向量机(SVM)、随机森林(Random Forest)或深度神经网络(DNN)等算法来构建分类或回归模型。这些模型能够根据历史数据或预训练知识,学习识别与音频完整度相关的特征模式,并对待降噪音频的完整度进行自动评估。举例来说,如果采用深度神经网络进行完整度分析,计算机设备可以利用大量带有标签(完整或不完整)的音频样本训练一个神经网络模型。在训练过程中,模型会学习到如何从输入的音频特征中提取出与完整度相关的信息。一旦模型训练完成并达到满意的性能水平,它就可以被用来对新的待降噪音频进行完整度预测。最终,操作S200的输出是一系列关于待降噪音频在各分析角度下完整度的量化结果。这些结果将为后续步骤(如操作S300中获取降噪描述载体)提供重要依据,帮助计算机设备更准确地识别出需要降噪处理的区域和方式。
操作S300:当完整度分析结果表征待降噪音频在相应的分析角度下缺乏完整度时,获取基础音频描述载体在相应的分析角度下的降噪描述载体。
操作S300用于在识别到音频完整度不足时,获取相应的降噪描述载体。这一步对于最终提升音频质量、减少噪声干扰具有显著意义。在具体操作上,计算机设备根据操作S200中得到的完整度分析结果来判断待降噪音频在各个分析角度下是否缺乏完整度。如果某个或某些分析角度下的完整度低于预设阈值,计算机设备就会认为该部分音频需要进行降噪处理。
随后,计算机设备进入降噪描述载体的获取阶段。降噪描述载体是针对特定分析角度下缺乏完整度的音频部分所设计的特征信息集合,它包含了用于改善音频质量的关键信息。这些信息可能是频谱特征、时域特征、噪声模式等,具体取决于所采用的降噪算法和模型。在获取降噪描述载体的过程中,计算机设备可能会利用多种技术手段和算法。例如,如果采用基于深度学习的降噪方法,计算机设备可能会使用一个预训练的深度神经网络模型来提取降噪描述载体。这个模型可能是一个自编码器、卷积神经网络(CNN)或循环神经网络(RNN)等结构,它能够通过学习大量带噪声和纯净音频样本之间的映射关系,自动提取出用于降噪的特征信息。以自编码器为例,计算机设备首先使用带噪声的音频数据训练自编码器模型。在训练过程中,模型会学习到如何将带噪声的输入编码为一个低维的中间表示(即降噪描述载体),然后再从这个中间表示重构出纯净的音频输出。一旦模型训练完成并达到满意的性能水平,计算机设备就可以利用它来提取待降噪音频中缺乏完整度部分的降噪描述载体。
需要注意的是,降噪描述载体的具体内容和形式会根据所采用的降噪算法和模型而有所不同。在某些情况下,它可能是一个包含多个数值特征的向量;而在其他情况下,它可能是一个更复杂的数据结构或模型参数集合。无论如何,降噪描述载体都是操作S300输出的重要结果之一,它将为后续的音频优化处理提供有力支持。
操作S400:通过降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体对应的目标音频描述载体。
操作S400负责对基础音频描述载体进行优化处理,以得到目标音频描述载体。这一步骤在改善音频质量、减少噪声干扰方面发挥着至关重要的作用。
在执行操作S400时,计算机设备根据操作S300中获取的降噪描述载体,对基础音频描述载体进行精细化的调整和优化。这个过程旨在通过修改或增强音频特征信息,提升音频的清晰度和完整度。优化处理的具体方式可能因所采用的降噪算法和模型而异。以深度神经网络为例,计算机设备可以使用一个训练有素的神经网络模型来对基础音频描述载体进行逐点或逐帧的优化。这个模型可能是一个去噪自编码器、生成对抗网络(GAN)或其他类型的深度学习模型,它们能够通过学习带噪声音频和纯净音频之间的复杂映射关系,来有效地去除噪声并恢复音频的原始质量。例如,在使用去噪自编码器进行优化处理时,计算机设备首先会将基础音频描述载体作为输入数据,送入到编码器中。编码器会将其压缩成一个低维的中间表示形式(即编码向量),这个过程中可能会去除一些冗余信息或噪声成分。然后,解码器会从这个中间表示形式中解码出优化后的音频描述载体(即目标音频描述载体),这个过程中会尽可能保留原始音频的关键特征和结构信息。需要注意的是,在实际应用中,优化处理可能涉及多个轮次或迭代过程,以达到最佳的降噪效果。此外,为了进一步提升优化效果,计算机设备还可能会结合其他技术手段或算法,如基于统计的方法、信号处理算法等。
操作S400通过利用降噪描述载体对基础音频描述载体进行优化处理,能够显著提升待降噪音频的质量和清晰度。这一步骤在音频智能降噪方法中扮演着至关重要的角色,为后续生成高质量的降噪音频奠定了坚实基础。
操作S500:对目标音频描述载体进行描述载体解析,得到待降噪音频对应的降噪音频,降噪音频在各分析角度下均具有完整度。
操作S500对优化后的目标音频描述载体进行解析,以生成最终的降噪音频。这一过程是将经过优化处理的特征信息转换回音频信号的关键环节,确保输出的降噪音频在各分析角度下均具有完整度。在执行操作S500时,计算机设备使用特定的解码算法或神经网络模型来完成描述载体的解析工作。如果之前的步骤中采用了降噪神经网络进行优化处理,那么这一步通常会利用该网络中的解码器(decoder)来实现特征解码的过程。解码器是降噪神经网络中的一个重要组成部分,它负责将编码后的特征信息或中间表示形式还原为音频信号。具体来说,解码器会接收目标音频描述载体作为输入,并通过一系列的计算和操作,将其转换回时域上的音频波形。
以深度学习中的自编码器结构为例,解码器通常与编码器相对应。编码器负责将原始音频信号压缩成低维特征表示,而解码器则负责从这个低维表示中重建出原始音频信号或降噪后的音频信号。在这个过程中,解码器会学习到如何根据特征信息生成高质量的音频波形。需要注意的是,解码过程并不是简单的逆操作,而是需要考虑到音频信号的时域连续性、频谱结构以及噪声抑制等多个方面。因此,在设计解码器时,通常需要采用复杂的神经网络结构和训练策略,以确保生成的降噪音频在各分析角度下均具有完整度。
操作S500通过利用解码器对目标音频描述载体进行解析,能够生成高质量的降噪音频。这一步骤是音频智能降噪方法中的最后环节,它确保了最终输出的降噪音频在完整度和清晰度方面达到要求,为用户提供更好的听觉体验。解码器的具体实现方案可以。参照现有通用的解码方案实现。
在一些可行的设计中,音频描述载体挖掘通过不少于一个音频描述载体挖掘算子实现,当音频描述载体挖掘算子的数量为多个时,步骤S100,对待降噪音频进行音频描述载体挖掘,得到待降噪音频的基础音频描述载体,具体可以包括以下操作:
操作S110:基于首个音频描述载体挖掘算子,对待降噪音频进行音频描述载体挖掘,得到首个基础音频描述载体。
操作S110涉及使用首个音频描述载体挖掘算子对待降噪音频进行处理,以得到首个基础音频描述载体。这一步骤为后续的多层次或多角度音频描述载体挖掘奠定了基础。在执行操作S110时,计算机设备利用预先定义和训练的首个音频描述载体挖掘算子,通常是一个复杂的算法或神经网络模型,对待降噪音频进行深入分析。这个算子的设计旨在从音频信号中提取出关键的特征信息,这些信息能够代表音频的某些固有属性或结构。
以卷积神经网络(CNN)为例,这是一个常用于音频处理的神经网络模型。在操作S110中,计算机设备可能会使用一个一维或二维的CNN来处理待降噪音频。CNN通过一系列的卷积层、池化层和激活函数,能够自动学习音频信号中的层次化特征表示。在这个过程中,CNN会逐步将原始音频信号转换为一系列的特征图(feature maps),这些特征图包含了音频在不同尺度和抽象层次上的信息。具体来说,当待降噪音频输入到CNN时,它首先会经过一系列的卷积层。每个卷积层都包含多个滤波器(filters),这些滤波器会在音频信号上滑动并进行卷积运算,以提取出局部的特征信息。随着卷积层的深入,CNN能够捕捉到更加复杂和抽象的特征模式。然后,通过池化层的作用,CNN能够在保持重要特征的同时降低特征的维度和计算复杂度。最后,通过全连接层或其他的输出层,CNN会生成一个包含音频关键特征信息的向量或张量,这就是首个基础音频描述载体。需要注意的是,首个音频描述载体挖掘算子的选择和设计对于后续的音频降噪效果至关重要。因此,在实际应用中,通常需要根据具体的音频类型和降噪需求来定制和优化这个算子的结构和参数。同时,为了进一步提升音频描述载体挖掘的效果,还可以考虑结合其他的音频处理技术或算法,如信号增强、频谱分析等。
操作S120:基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体;其中,u的取值为从2到m,m为音频描述载体挖掘算子的数量,依次遍历u,直到遍历到第m个音频描述载体挖掘算子,得到第m个基础音频描述载体。
操作S120中,基于前一个步骤获得的基础音频描述载体,以及当前遍历到的音频描述载体挖掘算子,对待降噪音频进行进一步的挖掘处理。
在执行操作S120时,计算机设备根据预设的算法逻辑,利用第u个音频描述载体挖掘算子对第u-1个基础音频描述载体和待降噪音频进行联合分析。这里的u是一个正整数,表示当前正在处理的挖掘算子的序号,其取值范围从2到m,其中m是音频描述载体挖掘算子的总数。
以深度学习中的循环神经网络(RNN)为例,假设第u个音频描述载体挖掘算子是一个RNN模型。RNN特别适合于处理序列数据,如音频信号中的时间序列。在这个例子中,计算机设备将第u-1个基础音频描述载体(可能是一个特征向量或张量)和待降噪音频的当前帧或序列段作为输入,送入RNN模型。
RNN通过其内部的循环结构,能够捕捉音频信号中的时序依赖关系。在训练过程中,RNN会学习到如何根据历史信息(即之前的输入和状态)来预测当前输入的输出。因此,在操作S120中,RNN会利用第u-1个基础音频描述载体提供的上下文信息,以及当前待降噪音频的输入,来生成一个新的、更加精细化的音频描述载体。这个新的音频描述载体可能包含了更多的细节信息、更准确的噪声模式表示或更清晰的音频结构特征。通过不断地迭代这个过程(即遍历所有的音频描述载体挖掘算子),计算机设备能够逐步构建出一个更加丰富和完整的音频描述载体集合,从而为后续的降噪处理提供更有力的支持。需要注意的是,每个音频描述载体挖掘算子可能专注于提取不同类型的特征信息或处理不同层次的抽象表示。因此,在操作S120中,通过结合多个挖掘算子的输出结果,计算机设备能够获得一个更全面、多角度的音频描述载体表示,这对于提升最终的降噪效果具有重要意义。
操作S130:将第m个基础音频描述载体,确定为待降噪音频的基础音频描述载体。
操作S130的作用是将通过多个音频描述载体挖掘算子处理得到的最后一个基础音频描述载体确定为待降噪音频的基础音频描述载体。这一步骤为后续的降噪处理提供了关键的输入。在执行操作S130时,计算机设备按照预设的逻辑,将经过所有音频描述载体挖掘算子处理后的最后一个输出,即第m个基础音频描述载体,作为待降噪音频的最终基础音频描述载体。这里的m是音频描述载体挖掘算子的总数,它代表了挖掘过程中使用的算子的数量。
以具体实施为例,假设在整个挖掘过程中使用了三个音频描述载体挖掘算子:第一个是一个卷积神经网络(CNN),用于提取音频的频谱特征;第二个是一个循环神经网络(RNN),用于捕捉音频的时序信息;第三个是一个自编码器(Autoencoder),用于进一步精炼和压缩特征表示。这三个算子依次对待降噪音频进行处理,每个算子的输出都作为下一个算子的输入。
在这个过程中,CNN提取出音频信号的频谱图,并将其转换为一系列的特征图;RNN则会利用这些特征图以及音频的时序信息,生成一个包含时序依赖关系的特征序列;最后,自编码器会对这个特征序列进行编码和解码,得到一个更加紧凑和精炼的特征表示,即第m个基础音频描述载体。操作S130的作用就是将这个经过多重处理得到的第m个基础音频描述载体确定为待降噪音频的最终基础音频描述载体。这个最终的基础音频描述载体将包含音频信号的多层次、多角度的特征信息,为后续的降噪处理提供了有力的支持。
需要注意的是,操作S130并不涉及对音频信号本身的修改或处理,它只是将最后一个音频描述载体挖掘算子的输出作为最终的基础音频描述载体。因此,在执行完操作S130后,计算机设备将拥有一个全面且精细化的音频特征表示,这将为接下来的降噪算法提供更加准确和可靠的输入信息。
在一些可行的设计中,操作S120,基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体之前,该方法还包括以下操作:
操作S120a:通过第u-1个基础音频描述载体,在各分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的第u-1个完整度分析结果。
操作S120a的目的是为了确保在进行下一步的音频描述载体挖掘之前,当前的基础音频描述载体能够在各个分析角度上对待降噪音频的清晰性进行准确和全面的表示。在执行操作S120a时,计算机设备利用第u-1个基础音频描述载体作为输入,这个基础音频描述载体是前一个挖掘算子的输出结果,它包含了音频信号的某些关键特征信息。然后,计算机设备在各个预设的分析角度上,对待降噪音频的清晰性进行完整度分析。
这里的分析角度可以根据具体的应用需求和音频特性来定义,例如时域分析、频域分析等。在每个分析角度上,计算机设备利用相应的算法或模型,评估待降噪音频在该角度上的清晰性程度。清晰性程度可以通过各种指标来衡量,如信噪比、频谱分布、能量集中度等。以时域分析为例,计算机设备可能会计算待降噪音频的波形振幅、波形变化率等指标,以评估其在时域上的清晰性。如果波形振幅变化平稳、无明显的突变或噪声干扰,那么可以认为该音频在时域上具有较高的清晰性。
操作S120a的输出结果是待降噪音频分别在各分析角度的第u-1个完整度分析结果。这个结果是一个或多个数值或向量,它们量化了待降噪音频在各个分析角度上的清晰性程度。这些完整度分析结果将为后续的操作提供重要的参考信息。
需要注意的是,操作S120a并不直接对音频信号进行降噪处理,而是通过分析音频的清晰性来评估当前基础音频描述载体的准确性和完整性。这一步骤有助于在后续的挖掘过程中更加精准地提取音频特征,从而提升降噪效果。
操作S120b:通过第u-1个完整度分析结果,对第u-1个基础音频描述载体进行载体校验,得到第u-1个目标音频描述载体。
操作S120b的目的是通过利用前一步骤(操作S120a)得到的完整度分析结果,对第u-1个基础音频描述载体进行校验,以确保其在相应分析角度上的准确性和完整性。这种校验过程对于确保后续音频处理步骤的有效性和提升降噪效果至关重要。在执行操作S120b时,计算机设备接收操作S120a输出的完整度分析结果作为输入。这些结果包含了待降噪音频在各个分析角度上的清晰性评估信息。计算机设备根据这些完整度分析结果,对第u-1个基础音频描述载体进行逐一的校验。校验过程可能涉及多个方面,包括但不限于特征匹配、完整性检查和一致性验证。例如,如果完整度分析结果显示在某个特定分析角度上音频的清晰性较低,那么计算机设备可能会检查第u-1个基础音频描述载体在该角度上对应的特征是否确实存在缺失或异常。这种检查可以通过比较描述载体的特征与预设的标准或阈值来实现。
以频域分析为例,如果完整度分析结果显示高频部分的清晰度较低,计算机设备检查第u-1个基础音频描述载体中是否包含足够的高频特征信息。如果发现高频特征信息不足或存在异常,计算机设备可能会标记该描述载体在高频部分的完整性不足,并采取相应的处理措施。
处理措施可能包括修正描述载体的特征、从其他角度或来源补充缺失的信息,或者在后续处理中给予该部分特征较低的权重。这样,通过操作S120b的校验过程,计算机设备能够确保所使用的音频描述载体在各个分析角度上都具有足够的完整性和准确性。
最终,操作S120b的输出结果是第u-1个目标音频描述载体。这个目标音频描述载体是经过校验和修正后的版本,它将作为后续音频处理步骤的输入,为提升降噪效果和其他音频处理任务提供坚实的基础。
结合前述内容,基于S120a和S120b,步骤S120,基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体,具体可以包括:基于第u个音频描述载体挖掘算子,通过第u-1个目标音频描述载体,对待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体。
S120a和S120b共同作用于通过第u个音频描述载体挖掘算子,利用第u-1个基础音频描述载体,对待降噪音频进行深入挖掘,以得到第u个基础音频描述载体。但在这个特定的衍生方案中,有一个细微却重要的变化:它使用的是第u-1个“目标”音频描述载体,而不是简单的“基础”音频描述载体。
首先,理解这一变化的关键在于理解“目标”音频描述载体与“基础”音频描述载体之间的区别。在前文中,已经介绍了S120a和S120b的作用。简而言之,S120a负责在各个分析角度评估待降噪音频的清晰性,并得出完整度分析结果;而S120b则利用这些完整度分析结果来校验第u-1个基础音频描述载体的准确性和完整性,从而得到第u-1个“目标”音频描述载体。现在,当进入步骤S120时,不是直接使用原始的第u-1个基础音频描述载体,而是使用经过S120a和S120b处理后的第u-1个目标音频描述载体。这个目标音频描述载体已经在各个分析角度上经过了清晰性评估和完整性校验,因此它被认为是一个更加准确和可靠的输入。在执行步骤S120时,计算机设备利用第u个音频描述载体挖掘算子,这个算子可能是一个复杂的机器学习模型,如深度神经网络,或者是一个特定的音频处理算法。它接收第u-1个目标音频描述载体和待降噪音频作为输入,然后通过对这两者的联合分析,挖掘出更深层次、更具体的音频特征信息。
以深度神经网络为例,这个网络可能包含多个隐藏层,每个隐藏层都负责提取和处理音频信号中的不同特征。通过前向传播过程,网络会逐步将输入的音频描述载体和待降噪音频转换成更高级、更抽象的特征表示。这些特征表示在网络的最后一层被整合成一个新的音频描述载体,即第u个基础音频描述载体。
这个第u个基础音频描述载体不仅包含了原始音频信号的关键信息,还融入了通过第u个音频描述载体挖掘算子挖掘出的更深层次的特征信息。它将被用作下一个挖掘算子的输入,或者在后续的降噪处理中直接发挥作用。
总的来说,引入S120a和S120b两个子步骤,对原始的音频描述载体进行了清晰性评估和完整性校验,从而提高了后续挖掘步骤的准确性和可靠性。这种改进有助于提升整个音频智能降噪方法的性能,使降噪后的音频更加清晰和自然。
在一些可行的设计中,操作S120b,通过第u-1个完整度分析结果,对第u-1个基础音频描述载体进行载体校验,得到第u-1个目标音频描述载体,具体可以包括:
若存在第u-1个完整度分析结果表征待降噪音频在相应的分析角度下缺乏完整度时,对第u-1个基础音频描述载体进行描述载体优化,得到第u-1个目标音频描述载体。
若各第u-1个完整度分析结果都表征待降噪音频在相应的分析角度下具有完整度时,将第u-1个基础音频描述载体,确定为第u-1个目标音频描述载体。
当计算机设备执行操作S120b时,它首先会接收第u-1个完整度分析结果作为输入。这些结果是在操作S120a中通过对待降噪音频在各个分析角度进行清晰性评估而得到的。每个完整度分析结果都对应一个特定的分析角度,并指示了在该角度下待降噪音频的清晰程度或完整度。
接下来,计算机设备检查这些完整度分析结果。如果存在任何一个结果表征待降噪音频在相应的分析角度下缺乏完整度,即清晰度不足或信息缺失,那么计算机设备将对第u-1个基础音频描述载体进行描述载体优化。优化的目的是补充或修正描述载体中在分析角度下缺乏完整度的部分,以提升其准确性和完整性。
描述载体优化可以采用多种方法,具体取决于所使用的音频描述载体挖掘算子和待降噪音频的特性。例如,如果缺乏完整度的部分涉及特定的频率范围,计算机设备可能会利用频谱分析技术来增强该频率范围内的信号,或者从其他角度或来源提取额外的特征信息来补充描述载体。如果使用的是机器学习模型,如神经网络,优化过程可能涉及调整模型的参数或结构,以便更好地捕捉和表示待降噪音频中的关键特征。另一方面,如果所有的第u-1个完整度分析结果都表征待降噪音频在相应的分析角度下具有完整度,即各个角度下的清晰度都足够高且信息完整,那么计算机设备将直接将第u-1个基础音频描述载体确定为第u-1个目标音频描述载体,而无需进行任何优化。
操作S120b通过根据完整度分析结果对基础音频描述载体进行校验和优化,确保了所使用的音频描述载体在后续处理中的准确性和完整性。这有助于提升整个音频智能降噪方法的性能,从而得到更清晰、更高质量的降噪后音频。
在一些可行的设计中,操作S200,通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的完整度分析结果,具体可以包括:
操作S210:获取各分析角度分别对应的完整度分析算子,对各分析角度完成如下步骤:
操作S220:基于相应的完整度分析算子,通过基础音频描述载体,在分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频在分析角度的完整度评分。
操作S230:若完整度评分大于或等于参考评分,将分析角度的完整度分析结果确定为第一分析信息,第一分析信息表征待降噪音频在分析角度下具有完整度。
操作S240:若完整度评分小于参考评分,将分析角度的完整度分析结果确定为第二分析信息,第二分析信息表征待降噪音频在分析角度下缺乏完整度。
在音频处理领域,特别是在实现智能降噪功能时,对音频的清晰性进行完整度分析是至关重要的步骤。这一分析过程涉及多个分析角度,旨在全面评估音频的清晰程度,进而为后续的降噪处理提供有力的支持。
操作S210核心任务是获取各分析角度对应的完整度分析算子。这些算子实质上是一系列预定义的规则、算法或模型,它们被专门设计用于从不同角度评估音频的清晰性。例如,某些算子可能专注于评估音频信号中的高频成分,而另一些则可能更侧重于低频段或特定频段内的信号完整性。
一旦获取了这些完整度分析算子,计算机设备便会针对每个分析角度执行一系列操作,包括操作S220、S230和S240。在操作S220中,计算机设备利用相应的完整度分析算子,结合基础音频描述载体,对特定分析角度下的音频清晰性进行量化评估。这一步骤的输出是一个完整度评分,它反映了待降噪音频在该分析角度下的清晰程度。紧接着,在操作S230中,计算机设备比较这个完整度评分与一个预设的参考评分(也称作阈值)。如果评分大于或等于参考评分,意味着音频在该分析角度下具有较高的清晰度和完整性。此时,计算机设备将该分析角度的完整度分析结果标记为第一分析信息,这一信息表明待降噪音频在该角度下具有足够的清晰度和完整性。相反,如果在操作S240中,完整度评分低于参考评分,那么计算机设备得出相反的结论,即音频在该分析角度下缺乏清晰度和完整性。相应地,该分析角度的完整度分析结果会被标记为第二分析信息。这一信息对后续的降噪处理至关重要,因为它指示了在哪些分析角度下需要进行额外的增强或修复操作以提升音频的整体质量。
举例来说,假设有一个待降噪的音频样本,并且关注两个分析角度:高频清晰度和低频完整度。对于高频清晰度这一角度,可能会使用一个专门设计用于检测高频信号成分的完整度分析算子。如果经过操作S220的分析后,该音频样本在高频清晰度上获得的完整度评分高于预设的参考评分(如0.8分,满分为1分),则在操作S230中,计算机设备将其标记为具有高频清晰度的第一分析信息。相反,如果评分低于这个阈值,如0.5分,则在操作S240中,它会被标记为缺乏高频清晰度的第二分析信息。
同样地,对于低频完整度这一分析角度,也会有一个相应的完整度分析算子来进行评估。整个过程与高频清晰度的分析类似,但关注的是音频中低频信号的完整性和质量。
操作S220负责基于相应的完整度分析算子,通过基础音频描述载体,在分析角度对待降噪音频的清晰性进行完整度分析,并最终得到待降噪音频在分析角度的完整度评分。具体来说,计算机设备在执行操作S220时,会首先选定一个特定的分析角度,这个角度可能是音频的高频成分清晰度、低频成分的完整性,或是其他与音频清晰性相关的特性。针对这个选定的分析角度,计算机设备加载相应的完整度分析算子。这些算子可能是预定义的算法、数学模型或是经过训练的机器学习模型,它们被设计用来量化评估音频在特定分析角度下的清晰性。
举例来说,如果选定的分析角度是音频的高频成分清晰度,完整度分析算子可能会是一个专注于检测高频信号能量和频谱特性的算法。这个算法会接收基础音频描述载体作为输入,这些描述载体包含了音频信号的关键特征信息,如频谱分布、能量密度等。通过分析和处理这些信息,算法能够评估出音频在高频段的清晰程度,并给出一个量化评分。
在另一个例子中,如果分析角度是音频的语音可懂度,完整度分析算子可能会是一个基于深度学习的神经网络模型。这个模型会经过大量语音样本的训练,学习如何从复杂的音频信号中提取出与语音可懂度相关的特征。在执行操作S220时,计算机设备将待降噪音频的基础音频描述载体输入到这个神经网络模型中,模型会输出一个反映语音可懂度的完整度评分。
无论使用哪种类型的完整度分析算子,操作S220的目标都是得到一个客观、可比较的完整度评分,这个评分能够准确地反映待降噪音频在选定分析角度下的清晰性水平。这些评分将为后续的操作提供重要依据,帮助计算机设备确定在哪些分析角度下需要进行额外的降噪处理或音质增强操作。
操作S230中,计算机设备根据完整度评分来判断待降噪音频在特定分析角度下的清晰性水平,并据此做出相应的完整度分析结果。具体来说,计算机设备首先获取到操作S220中计算出的完整度评分。这个评分是一个量化指标,反映了待降噪音频在某一分析角度下的清晰程度。紧接着,计算机设备将这个完整度评分与一个预设的参考评分(或称为阈值)进行比较。这个参考评分是根据实际应用需求和经验设定的一个标准,用于区分音频是否在该分析角度下具有足够的清晰度。如果完整度评分大于或等于参考评分,这意味着待降噪音频在分析角度下具有较高的清晰度和完整性。在这种情况下,计算机设备将该分析角度的完整度分析结果确定为第一分析信息。第一分析信息是一种标识,它表明音频在该分析角度下具有足够的清晰度和完整性,无需进行额外的增强或修复操作。
举例来说,假设分析角度是音频的高频成分清晰度,完整度评分是通过某种算法计算得出的一个数值,比如0.9(满分为1)。如果预设的参考评分是0.8,那么由于0.9大于0.8,计算机设备判断音频在高频成分清晰度方面具有足够的完整性,并将此结果标记为第一分析信息。
在实际应用中,操作S230的实现可能涉及多种算法和技术的结合。例如,完整度评分可以通过机器学习模型来计算,这些模型经过训练后能够准确地预测音频在不同分析角度下的清晰性水平。此外,参考评分的设定也可能需要根据具体应用场景和数据集的特点进行调整和优化。
当计算机设备在执行操作S230时发现完整度评分低于预设的参考评分时,操作S240便会被触发。这一步骤的核心任务是确定在特定分析角度下,待降噪音频是否缺乏清晰性和完整性,并据此生成相应的分析信息。
具体来说,当完整度评分低于参考评分时,计算机设备判断待降噪音频在分析角度下缺乏足够的清晰度和完整性。此时,设备会将该分析角度的完整度分析结果确定为第二分析信息。第二分析信息与第一分析信息相对,它表征了音频在相应分析角度下的问题,即清晰度不足或完整性缺失。
举例来说,假设正在进行一项音频降噪任务,其中一个关键的分析角度是音频的低频完整性。通过操作S220,计算得到了音频在这一角度下的完整度评分为0.6,而预设的参考评分为0.7。由于0.6低于0.7,操作S240将被执行。在这一步骤中,计算机设备确定音频在低频完整性方面存在问题,并将此结果标记为第二分析信息。这个第二分析信息对于后续的降噪处理至关重要,在降噪过程中需要特别关注音频的低频部分,采取适当的增强或修复措施以提高其清晰度和完整性。可以理解,本公开实施例中,第一分析信息和第二分析信息即分析后的结果。
在实际应用中,操作S240可能涉及多种复杂的逻辑和算法。例如,为了更准确地判断音频的清晰度和完整性,可以使用机器学习模型来辅助决策。这些模型可以基于大量的训练数据学习如何区分清晰和模糊的音频特征,并据此给出更精确的评分和判断。此外,操作S240还需要与其他操作紧密配合,共同构成一个完整的音频降噪处理流程。例如,在确定了哪些分析角度存在问题后,可以根据这些信息调整降噪算法的参数或选择更合适的增强技术,以最终提升音频的整体质量。
其中,若分析角度的数量为一个,则操作S210,获取各分析角度分别对应的完整度分析算子,包括:
操作S211:获取基础分析算子,并获取音频学习模板对应的多个音频描述载体学习模板,以及各音频描述载体学习模板的完整度指示评分。
在操作S210的衍生方案中,当分析角度的数量为一个时,操作S211的核心任务是获取基础分析算子和相关的音频学习模板,以及这些模板对应的完整度指示评分,为后续的分析算子调优奠定基础。
具体来说,计算机设备在执行操作S211时,首先会获取一个基础分析算子。这个基础分析算子是一个初始的、未经调优的算子,它包含了进行音频清晰性完整度分析所需的基本规则和算法。这个算子可能是一个通用的音频处理算法,或者是针对特定类型音频的预设算子。
紧接着,计算机设备获取多个音频学习模板。这些模板是预先准备好的训练样本,用于在后续步骤中帮助调优基础分析算子。每个音频学习模板都对应一个音频描述载体学习模板,这个载体包含了音频的关键特征信息,是进行分析的基础。除了音频学习模板和音频描述载体学习模板外,计算机设备还需要获取每个音频描述载体学习模板对应的完整度指示评分。这些评分是事先标注好的标签,反映了相应音频模板在清晰性方面的真实完整度水平。这些标签将用于后续的训练过程中,帮助计算机设备学习如何更准确地评估音频的清晰性完整度。
举例来说,假设的分析角度是音频的高频清晰度。计算机设备在执行操作S211时,可能会获取一个基础的高频清晰度分析算子,这个算子能够初步评估音频在高频段的清晰程度。同时,设备还会获取多个包含不同高频特征的音频学习模板,以及这些模板对应的完整度指示评分。这些评分可能是由专家根据音频的实际清晰程度进行标注的。
通过获取这些基础分析算子、音频学习模板和完整度指示评分,计算机设备为后续的分析算子调优奠定了坚实的基础。在接下来的步骤中,设备将利用这些资源进行训练和学习,以提高其在特定分析角度下评估音频清晰性完整度的准确性。
操作S212:针对各音频描述载体学习模板,基于基础分析算子,通过音频描述载体学习模板,在对应分析角度对音频学习模板的清晰性进行完整度分析,得到音频描述载体学习模板对应的完整度评分,结合完整度评分和相应的完整度指示评分,确定音频描述载体学习模板对应的训练代价。
可以理解,操作S212在操作S210中负责基于基础分析算子对音频描述载体学习模板进行清晰性的完整度分析,并根据分析结果确定训练代价。这一步骤是机器学习模型训练中的关键环节,通过计算训练代价来指导模型的优化方向。
具体来说,计算机设备在执行操作S212时,针对每一个音频描述载体学习模板,运用基础分析算子进行分析。这个基础分析算子是一个预先定义好的算法或模型,它能够根据音频描述载体中的特征信息来评估音频在特定分析角度下的清晰性。通过分析,计算机设备得到一个完整度评分,这个评分反映了音频描述载体学习模板在分析角度下的清晰程度。
举例来说,如果分析角度是音频的语音清晰度,那么基础分析算子可能会关注音频描述载体中的频谱特征、能量分布等与语音清晰度相关的信息。计算机设备利用这些特征,通过算法计算出一个完整度评分,来量化评估音频的语音清晰度。得到完整度评分后,计算机设备将其与相应的完整度指示评分进行对比。完整度指示评分是事先标注好的真实评分,它代表了音频描述载体学习模板在实际中应该具有的清晰性水平。通过比较这两个评分,计算机设备可以计算出它们之间的差异,这个差异就是训练代价。
训练代价是一个重要的指标,它反映了当前基础分析算子在评估音频清晰性方面的准确性。如果训练代价较高,说明基础分析算子的评估结果与真实情况存在较大差异,需要进行调优。反之,如果训练代价较低,说明基础分析算子的性能较好,可以较为准确地评估音频的清晰性。
在实际应用中,操作S212可能会涉及到复杂的数学计算和机器学习算法。例如,计算机设备可能会使用梯度下降等优化算法来最小化训练代价,从而逐步调优基础分析算子的参数和结构,提高其评估音频清晰性的准确性。同时,为了更好地适应不同的音频特性和分析需求,计算机设备还可能会采用深度学习等先进技术来构建更复杂、更强大的分析算子。
操作S213:通过各音频描述载体学习模板对应的训练代价,对基础分析算子进行调优,得到分析角度对应的完整度分析算子。
具体来说,计算机设备根据训练代价来调整基础分析算子的参数和结构,以减少模型预测与实际标签之间的差异。这个调优过程通常涉及到机器学习算法的应用,例如梯度下降算法或其他优化算法。通过这些算法,计算机设备能够迭代地更新算子的参数,使其逐渐逼近能够准确评估音频清晰性完整度的最优状态。
举例来说,假设基础分析算子是一个神经网络模型,用于评估音频的清晰度。在操作S212中,计算机设备已经计算出了每个音频描述载体学习模板的训练代价,这些代价反映了模型预测与真实标签之间的差异。现在,在执行操作S213时,计算机设备将利用这些训练代价来更新神经网络的权重和偏置等参数。
更新参数的具体方式取决于所使用的优化算法。以梯度下降算法为例,计算机设备计算训练代价相对于模型参数的梯度,并按照梯度的反方向来更新参数。这个过程会迭代进行多次,直到训练代价降低到一个可接受的水平或模型的性能不再显著提升为止。
在调优过程中,计算机设备还可能会采用其他技术来增强模型的性能,例如正则化、批处理、学习率调整等。这些技术的应用旨在防止模型过拟合、提高训练效率以及更好地适应不同的数据集和分析需求。
操作S213是通过对基础分析算子进行调优来提升其评估音频清晰性完整度的准确性。这个过程涉及到机器学习算法的应用和模型参数的迭代更新,旨在使模型能够更好地适应训练数据并具备更强的泛化能力。
在一些可行的设计中,操作S211,获取音频学习模板对应的多个音频描述载体学习模板,具体可以包括:
操作S2111:获取音频学习模板,对音频学习模板进行音频描述载体挖掘,得到音频学习模板的基础音频描述载体。
操作S2111的主要任务是对给定的音频学习模板进行深度分析,提取出其基础音频描述载体。具体来说,计算机设备在执行操作S2111时,接收一个音频学习模板作为输入。这个音频学习模板通常包含了音频数据的各种特征,如频谱特征、时域特征、能量分布等。这些特征对于后续的音频分析和处理至关重要。
接着,计算机设备利用预先定义好的挖掘算法或模型对音频学习模板进行音频描述载体挖掘。挖掘的过程可以理解为从音频学习模板中提取出能够描述其本质特征的信息或结构。这些信息或结构被称为基础音频描述载体,它们是对音频数据进行高层次、抽象化描述的关键。
以具体实例来说明,假设音频学习模板是一个包含语音数据的文件。计算机设备在挖掘过程中可能会关注这个文件的频谱特征、音高变化、语速等信息。通过分析和处理这些信息,计算机设备可以提取出一个或多个基础音频描述载体,如“男声朗读”、“快速语速”、“高亢音调”等。这些基础音频描述载体能够简洁而准确地描述原始音频数据的核心特征。
需要注意的是,基础音频描述载体的具体形式和数量取决于挖掘算法或模型的设计以及音频学习模板的复杂性和多样性。不同的算法或模型可能会关注不同的特征或结构,从而提取出不同的基础音频描述载体。
操作S2111是通过对音频学习模板进行深度挖掘来获取其基础音频描述载体的过程。这个过程为后续的操作提供了重要的输入和依据,是构建多个音频描述载体学习模板的基础和关键步骤。
操作S2112:对音频学习模板的基础音频描述载体进行载体混合,得到音频学习模板对应的多个音频描述载体学习模板。
操作S2112在操作S211的衍生方案中,是一个关键的步骤,它负责将基础音频描述载体转化为多个音频描述载体学习模板。这个步骤的核心在于对基础音频描述载体进行混合处理,以生成更加丰富和多样的学习模板。
具体来说,计算机设备在执行操作S2112时,接收操作S2111输出的基础音频描述载体作为输入。这些基础音频描述载体是音频学习模板的核心组成部分,它们包含了描述音频特征的关键信息。接着,计算机设备利用一种或多种混合算法对这些基础音频描述载体进行处理。混合算法的设计取决于具体的应用场景和需求,但通常都会涉及到对基础音频描述载体的元素进行重组、拼接、变换等操作。这些操作旨在创造出新的、具有不同特征的音频描述载体学习模板。
以具体实例来说明,假设基础音频描述载体是一个包含多个音频特征的向量,如[频谱特征1,频谱特征2,时域特征1,时域特征2]。计算机设备在执行操作S2112时,可以采用一种随机重组的策略,将这些特征进行不同的组合和排列,生成新的音频描述载体学习模板。例如,通过重组可以得到[频谱特征1+时域特征1,频谱特征2+时域特征2]、[频谱特征1+时域特征2,频谱特征2+时域特征1]等不同的学习模板。
需要注意的是,混合算法的设计和实现是操作S2112中的关键技术之一。不同的混合算法可以生成不同数量和质量的音频描述载体学习模板,从而影响到后续模型的训练和性能。因此,在实际应用中,需要根据具体的需求和数据特性来选择合适的混合算法。此外,操作S2112还可能涉及到对生成的音频描述载体学习模板进行进一步的处理和优化。例如,可以通过引入噪声、进行数据增强等方式来增加学习模板的多样性和泛化能力;还可以利用机器学习算法对生成的学习模板进行筛选和排序,以选择出最具代表性的模板用于后续的模型训练。
操作S2112是一个将基础音频描述载体转化为多个音频描述载体学习模板的重要步骤。它通过混合算法对基础音频描述载体进行处理和重组,生成具有不同特征的新学习模板,丰富了训练样本的多样性,为后续的模型训练和性能提升提供了有力的支持,能提高算法的泛化能力。
在其他实施例中,当分析角度的数量为多个时,则操作S210,获取各分析角度分别对应的完整度分析算子,具体可以包括:
操作S211’:获取基础分析算子,并获取首个分析角度的音频学习模板对应的首个音频描述载体学习模板,以及首个音频描述载体学习模板的首个完整度指示评分。
具体来说,计算机设备在执行操作S211’时,首先会获取一个基础分析算子。这个基础分析算子是一个预先定义好的算法或模型,用于评估音频学习模板在特定分析角度下的清晰性。它可能是基于某种机器学习算法构建的,如决策树、支持向量机、神经网络等,具体选择取决于应用场景和数据分析的需求。接着,计算机设备获取首个分析角度的音频学习模板对应的首个音频描述载体学习模板。音频学习模板是对原始音频数据进行处理和特征提取后得到的结果,而音频描述载体学习模板则是音频学习模板在特定分析角度下的具体表现形式。例如,如果分析角度是语音清晰度,那么音频描述载体学习模板可能包含与语音清晰度相关的特征,如频谱特征、能量分布等。此外,计算机设备还会获取首个音频描述载体学习模板的首个完整度指示评分。这个评分是事先标注好的真实评分,代表了音频描述载体学习模板在实际中应该具有的清晰性水平。它是后续计算完整度评分和进行算子调优的参考标准。
为了更具体地说明这个过程,举一个例子,假设基础分析算子是一个基于神经网络的模型,用于评估语音清晰度。计算机设备在获取到这个模型后,会进一步获取到一个与语音清晰度相关的音频学习模板及其对应的音频描述载体学习模板。同时,还会获取到这个音频描述载体学习模板的真实清晰度评分作为完整度指示评分。
操作S212’:基于基础分析算子,通过首个音频描述载体学习模板,对首个分析角度的音频学习模板的清晰性进行完整度分析,得到首个完整度评分,结合首个完整度评分和首个完整度指示评分,对基础分析算子进行调优,得到首个分析角度对应的完整度分析算子。
具体来说,计算机设备在执行操作S212’时,利用基础分析算子对首个音频描述载体学习模板进行处理和分析。基础分析算子是一个预先定义的算法或模型,它接收音频描述载体学习模板作为输入,并输出一个完整度评分,该评分反映了音频描述载体学习模板在清晰性方面的表现。
在这个过程中,计算机设备可以提取音频描述载体学习模板中的各种特征,如频谱特征、时域特征、能量分布等,并将这些特征输入到基础分析算子中。基础分析算子会根据这些特征计算出一个完整度评分,该评分代表了音频描述载体学习模板的清晰性水平。接着,计算机设备将计算出的完整度评分与首个完整度指示评分进行比较。完整度指示评分是事先标注好的真实评分,它代表了音频描述载体学习模板在实际中应该具有的清晰性水平。通过比较这两个评分,计算机设备可以评估基础分析算子的准确性,并确定是否需要进行调优。如果计算出的完整度评分与完整度指示评分存在较大差异,那么计算机设备对基础分析算子进行调优。调优的方式可以是通过调整算子的参数、改变算子的结构或引入新的特征等。调优的目标是使基础分析算子能够更准确地评估音频描述载体学习模板的清晰性,从而提高后续分析的准确性。
例如,假设基础分析算子是一个基于神经网络的模型,用于评估语音清晰度。计算机设备提取音频描述载体学习模板中的相关特征,如语音的频谱特征、能量分布等,并将这些特征输入到神经网络模型中。神经网络模型会根据这些特征计算出一个完整度评分。然后,计算机设备将这个评分与真实标注的完整度指示评分进行比较,如果发现差异较大,就会对神经网络模型的参数进行调整,以提高其评估语音清晰度的准确性。操作S212’确保了分析算子的准确性和适应性,为后续的多个分析角度的处理提供了可靠的基础。
操作S213’:获取第v个分析角度的音频学习模板对应的第v个完整度评分,通过第v个完整度评分,对基础分析算子进行调优,得到第v+1个分析角度对应的完整度分析算子;其中,v+1的取值为从2到z,依次遍历v,直到遍历到第z个分析角度,得到第m个分析角度,z表征分析角度的数量。
具体来说,计算机设备在执行操作S213’时,首先获取第v个分析角度的音频学习模板对应的第v个完整度评分。这个评分是基于前一个分析角度调优后的分析算子计算得出的,它反映了音频学习模板在当前分析角度下的清晰性。接着,计算机设备使用这个完整度评分对基础分析算子进行进一步的调优。调优的目的是使分析算子更能适应当前分析角度的特性,从而更准确地评估音频学习模板的清晰性。调优的方式可以包括调整算子的参数、优化算子的结构或引入新的特征等。然后,计算机设备通过调优后的分析算子计算出下一个分析角度(即第v+1个分析角度)对应的完整度分析算子。这个过程会不断重复,直到遍历完所有的分析角度,得到每个分析角度对应的完整度分析算子。
假设有三个分析角度:语音清晰度、背景噪音水平和音频质量。计算机设备首先使用基础分析算子对语音清晰度的音频学习模板进行分析,得到一个完整度评分。然后,它使用这个评分对基础分析算子进行调优,得到语音清晰度对应的完整度分析算子。接下来,计算机设备使用这个调优后的分析算子对背景噪音水平的音频学习模板进行分析,并再次进行调优,得到背景噪音水平对应的完整度分析算子。最后,计算机设备对音频质量的音频学习模板进行分析和调优,得到音频质量对应的完整度分析算子。在这个过程中,每个分析角度都对应一个独特的完整度分析算子,这些算子能够更准确地评估各自分析角度下的音频学习模板的清晰性。通过这种方式,操作S213’实现了对多个分析角度的全面覆盖和精准分析。
需要注意的是,在实际应用中,分析角度的数量和具体内容会根据具体的应用场景和需求进行确定。同时,完整度评分的计算方式和调优方法也会根据具体的分析算子和音频特征进行选择和设计。
可选地,操作S213’中,通过第v个完整度评分,对基础分析算子进行调优,得到第v+1个分析角度对应的完整度分析算子,具体可以包括:
操作S2131’:获取第v+1个分析角度的音频学习模板对应的第v+1个音频描述载体学习模板,以及第v+1个音频描述载体学习模板的第v+1个完整度指示评分。
计算机设备在执行操作S2131’时,首先获取第v+1个分析角度的音频学习模板。这个音频学习模板是对原始音频数据进行处理和特征提取后得到的结果,它包含了音频在特定分析角度下的信息。例如,如果第v+1个分析角度是音频的音质,那么音频学习模板可能包含了与音质相关的特征,如音频的采样率、比特率、频谱特征等。接着,计算机设备获取与这个音频学习模板对应的第v+1个音频描述载体学习模板。音频描述载体学习模板是音频学习模板在特定分析角度下的具体表现形式,它可能包含了与当前分析角度直接相关的更细致的特征。以音质为例,音频描述载体学习模板可能进一步包含了音频的谐波失真、噪声水平等特征。此外,计算机设备还会获取第v+1个音频描述载体学习模板的第v+1个完整度指示评分。这个评分是事先标注好的真实评分,代表了音频描述载体学习模板在实际中应该具有的清晰性水平。它是后续计算完整度评分和进行算子调优的参考标准。
假设第v个分析角度是语音的音量,第v+1个分析角度是语音的音质。计算机设备在获取到语音音量的音频学习模板及其对应的完整度评分后,会进一步获取到语音音质的音频学习模板及其对应的音频描述载体学习模板。同时,还会获取到这个音频描述载体学习模板的真实音质评分作为完整度指示评分。
操作S2132’:基于基础分析算子,通过第v+1个音频描述载体学习模板,对第v+1个分析角度的音频学习模板的清晰性进行完整度分析,得到第v+1个完整度评分。
计算机设备在执行操作S2132’时,首先调用基础分析算子。这个基础分析算子是一个预先定义好的算法或模型,它用于对音频学习模板进行处理和分析,以提取出与清晰性相关的特征或向量。这些特征或向量可以包括音频的频谱特征、时域特征、能量分布等,它们共同构成了评估音频清晰性的基础。然后,将第v+1个音频描述载体学习模板作为输入,传递给基础分析算子。这个音频描述载体学习模板包含了音频在第v+1个分析角度下的具体信息,它是对原始音频数据进行处理和特征提取后得到的结果。通过基础分析算子的处理,计算机设备可以提取出这个音频描述载体学习模板中与清晰性相关的特征或向量。
接下来,利用提取出的特征或向量来计算第v+1个完整度评分。这个评分代表了音频在第v+1个分析角度下的清晰性水平。评分的计算方式可以根据具体的分析算子和特征类型来确定,例如可以通过加权求和、逻辑回归、支持向量机等方法来计算。
假设基础分析算子是一个基于深度学习的神经网络模型,它接收音频描述载体学习模板作为输入,并输出一个清晰性评分。这个神经网络模型可以包括多个卷积层、池化层和全连接层,用于提取音频的深层特征。在计算第v+1个完整度评分时,计算机设备将第v+1个音频描述载体学习模板输入到神经网络模型中,经过前向传播计算后得到一个清晰性评分作为输出。这个评分就代表了音频在第v+1个分析角度下的清晰性水平。
操作S2133’:结合第v+1个完整度评分和第v个完整度评分,确定第一训练代价,结合第v+1个完整度评分和第v+1个完整度指示评分,确定第二训练代价。
具体而言,操作S2133’通过结合不同来源的完整度评分来计算两个训练代价:第一训练代价和第二训练代价。首先,计算机设备计算第一训练代价。这个代价是基于第v个完整度评分和第v+1个完整度评分之间的差异来确定的。差异的大小反映了连续两个分析角度之间清晰性评分的变化情况。如果差异较大,说明在这两个分析角度之间,音频的清晰性可能发生了显著变化,因此需要较大的训练代价来调优基础分析算子以适应这种变化。计算差异的方法可以是简单的相减、求比值或使用更复杂的数学函数,具体取决于清晰性评分的性质和优化目标。
例如,第一训练代价的计算公式为:
C1=
其中,C1为第一训练代价,G1为第v+1个完整度评分,G2为第v个完整度评分。
接下来,计算机设备计算第二训练代价。这个代价是基于第v+1个完整度评分和第v+1个完整度指示评分之间的差异来确定的。完整度指示评分是事先标注好的真实评分,代表了音频在实际中应该具有的清晰性水平。因此,第二训练代价反映了基础分析算子在当前分析角度下的评估结果与真实情况之间的差异。如果这个差异较大,说明基础分析算子在当前分析角度下的性能不佳,需要较大的训练代价来进行调优。
例如,第二训练代价的计算公式为:
C2=G3-G4
其中,C2为第二训练代价,G3为第v+1个完整度评分,G4为第v+1个完整度评分。
例如,假设第v个分析角度是音频的音量,第v+1个分析角度是音频的音质。计算机设备已经计算出了音量和音质对应的完整度评分。现在,它需要计算第一训练代价和第二训练代价。第一训练代价可以通过比较音量和音质的完整度评分来计算,例如使用两者的差值或比值。第二训练代价则需要将音质的完整度评分与事先标注好的音质真实评分进行比较,例如计算两者之间的均方误差或交叉熵损失。通过这些计算,计算机设备得到了两个训练代价,它们分别反映了连续分析角度之间和当前分析角度与真实情况之间的差异。这两个代价将作为后续调优基础分析算子的重要依据,以确保算子在不同分析角度下都能准确地评估音频的清晰性。
操作S2134’:结合第一训练代价和第二训练代价,对基础分析算子进行调优,得到第v+1个分析角度对应的完整度分析算子。
通过这一步骤,计算机设备能够根据音频在不同分析角度下的清晰性表现,调整基础分析算子的参数和结构,以得到更准确的完整度分析算子。
在执行操作S2134’时,计算机设备首先确定第一训练代价和第二训练代价的权重。这些权重代表了不同训练代价在调优过程中的重要性。权重的确定可以根据实际应用场景和需求进行调整,以确保调优结果符合预期。例如,在某些情况下,可能更关注当前分析角度与真实情况之间的差异,因此会给予第二训练代价更高的权重。接下来,计算机设备结合第一训练代价和第二训练代价及其权重,计算出一个综合训练代价。这个综合训练代价反映了基础分析算子在多个方面的性能表现,是后续调优的依据。然后,计算机设备使用优化算法对基础分析算子的参数和结构进行调整,以最小化综合训练代价。优化算法的选择可以根据具体的应用场景和算子类型来确定。常见的优化算法包括梯度下降法、随机梯度下降法、Adam等。在调优过程中,计算机设备不断迭代地调整算子的参数和结构,直到达到预设的停止条件(如达到最大迭代次数、综合训练代价低于某个阈值等)。最后,经过调优后的基础分析算子就被称为第v+1个分析角度对应的完整度分析算子。这个算子能够更准确地评估音频在第v+1个分析角度下的清晰性水平。
假设基础分析算子是一个支持向量机(SVM)模型,用于评估音频的清晰度。在第v个分析角度(如音量)下,已经得到了一个完整度评分。现在,需要调优这个SVM模型以适应第v+1个分析角度(如音质)。首先,确定第一训练代价为音量和音质完整度评分之间的差异,第二训练代价为音质完整度评分与真实音质评分之间的差异。然后,根据实际应用需求确定这两个代价的权重,并计算出综合训练代价。接着,使用梯度下降法对SVM模型的参数进行调优,以最小化综合训练代价。经过多次迭代后,得到了一个调优后的SVM模型,即第v+1个分析角度对应的完整度分析算子。这个算子能够更准确地评估音质方面的清晰性水平。
在一些可行的设计中,操作S200,通过基础音频描述载体,在不少于一个分析角度对待降噪音频的清晰性进行完整度分析,得到待降噪音频分别在各分析角度的完整度分析结果之后,本公开实施例提供的方法还包括:若各分析角度的完整度分析结果都表征待降噪音频在相应的分析角度下具有完整度,对基础音频描述载体进行描述载体解析,得到待降噪音频对应的降噪音频。
在一些实施例中,操作S200涉及使用基础音频描述载体对待降噪音频进行清晰性的完整度分析。这一步骤的目的在于评估待降噪音频在不同分析角度下的清晰性,并据此判断其完整度。若待降噪音频在所有分析角度下均表现出完整性,则进一步对基础音频描述载体进行解析,以生成对应的降噪音频。
具体来说,计算机设备在执行操作S200时,首先加载基础音频描述载体,这是一个包含音频特征信息的数据结构,它可能由多个特征向量组成,这些特征向量描述了音频信号的时域、频域或其他相关特性。例如,特征向量可以包括音频的频谱系数、梅尔频率倒谱系数(MFCC)或线性预测编码(LPC)参数等。
随后,计算机设备从基础音频描述载体中提取出待降噪音频的特征信息,并根据预定义的分析角度(如音频的能量分布、频率成分、谐波结构等)对这些特征进行完整度分析。这一分析过程可能涉及多种信号处理和机器学习技术的结合,如使用支持向量机(SVM)、决策树或深度学习模型(如卷积神经网络CNN、循环神经网络RNN)来分类或回归预测音频的清晰性水平。
如果待降噪音频在所有分析角度下的完整度分析结果均表明其具有完整性,即音频信号在这些方面均未受到显著破坏或干扰,那么计算机设备将继续执行描述载体解析步骤。这一步骤通常涉及对基础音频描述载体中包含的编码信息进行解码或转换,以生成降噪后的音频信号。这可能包括逆变换、滤波、重采样等操作,具体取决于基础音频描述载体的编码方式和降噪算法的设计。
举例来说,假设待降噪音频是一段含有背景噪音的语音记录,而基础音频描述载体则包含了该语音记录的频谱特征和时域包络信息。在操作S200中,计算机设备首先会对这些特征进行完整度分析,以评估语音信号在频域和时域的清晰性。如果分析结果显示语音信号在这些方面均保持完整,那么计算机设备将继续对基础音频描述载体进行解析,通过逆变换和滤波等操作去除背景噪音,最终生成降噪后的清晰语音信号。
在一些可行的设计中,降噪描述载体与目标分析角度一一对应,待降噪音频在目标分析角度下缺乏完整度,操作S400,通过降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体对应的目标音频描述载体,具体可以包括:
操作S410:获取待降噪音频分别在各目标分析角度下的完整度评分,将各完整度评分,各自确定为相应的降噪描述载体的影响力因子。
在计算机设备执行音频降噪任务时,操作S410对待降噪音频在多个目标分析角度下的清晰性进行评估,并将这些评估结果转化为降噪描述载体的影响力因子,也就是权重。具体来说,计算机设备首先对待降噪音频进行预处理,提取出其在不同目标分析角度下的特征。目标分析角度可能包括频谱特征、时域特征、能量分布等多个方面,每个角度都反映了音频信号在不同层面上的清晰性。例如,频谱特征可以揭示音频中不同频率成分的强度,而时域特征则反映了音频信号随时间变化的特点。接着,计算机设备利用预先定义好的评估标准或机器学习模型,对这些特征进行完整度评分。评分的过程实质上是对音频在各目标分析角度下的清晰性进行量化评估。例如,可以使用支持向量机(SVM)或深度神经网络(DNN)等机器学习模型,根据提取的特征向量预测音频的清晰性评分。这些评分通常以数值的形式表示,数值越高表示音频在该分析角度下的清晰性越好。
最后,计算机设备将每个目标分析角度下的完整度评分确定为相应降噪描述载体的影响力因子。这个影响力因子实质上是一个权重值,它反映了该分析角度在降噪过程中的重要程度。权重值的确定可以根据实际需求进行灵活调整,例如,如果某个分析角度对于降噪效果至关重要,那么可以赋予其较高的权重值;反之,则可以赋予较低的权重值。
操作S420:依照各降噪描述载体的影响力因子,对各降噪描述载体进行合并,得到对照降噪描述载体。
操作S420的核心在于将多个降噪描述载体根据其影响力因子(即权重)进行合并,从而生成一个对照降噪描述载体。影响力因子在此前的步骤S410中已经确定,它们反映了不同降噪描述载体在降噪过程中的重要程度。
具体来说,计算机设备首先获取各个降噪描述载体及其对应的影响力因子。每个降噪描述载体都包含了特定分析角度下的音频特征信息和降噪策略。例如,一个降噪描述载体可能专注于减少音频中的背景噪音,而另一个则可能更侧重于提升语音信号的清晰度。接下来,计算机设备根据影响力因子对这些降噪描述载体进行加权融合。加权融合的过程可以理解为将不同降噪描述载体的特征信息和降噪策略按照其重要程度进行组合。影响力因子较大的降噪描述载体在融合过程中将占据更大的比重,从而对最终的对照降噪描述载体产生更大的影响。
举个例子,假设有两个降噪描述载体A和B,分别对应背景噪音减少和语音清晰度提升两个分析角度。在S410步骤中,计算机设备确定A的影响力因子为0.7,B的影响力因子为0.3。那么,在S420步骤中,计算机设备将按照这些影响力因子对A和B进行加权融合。这意味着在生成对照降噪描述载体时,背景噪音减少的特征信息和降噪策略将占据更大的比重,而语音清晰度提升的特征信息和降噪策略则占据较小的比重。
通过这种方式,计算机设备能够综合考虑多个降噪描述载体的信息,生成一个更全面、更有效的对照降噪描述载体。这个对照降噪描述载体将作为后续音频降噪处理的基础,确保降噪过程能够在各个分析角度下都取得良好的效果。
操作S430:通过对照降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体对应的目标音频描述载体。
操作S430中,计算机设备利用前面生成的对照降噪描述载体,对原始的基础音频描述载体进行优化,以得到一个更适应降噪需求的目标音频描述载体。
具体来说,计算机设备首先加载基础音频描述载体,这通常包含了待降噪音频的原始特征信息,如频谱系数、时域波形数据等。这些特征信息是音频信号的数字化表示,对于后续的降噪处理至关重要。接着,计算机设备引入对照降噪描述载体,该载体在前面的步骤中已经根据各个降噪描述载体的影响力因子进行了加权融合,综合了多个分析角度下的降噪策略和特征信息。对照降噪描述载体的作用在于指导基础音频描述载体的优化方向,使其更加符合降噪目标。
在优化过程中,计算机设备可能会采用多种算法或模型来处理基础音频描述载体和对照降噪描述载体之间的关系。例如,可以使用深度学习模型来学习两者之间的映射关系,或者利用传统的信号处理算法来直接对基础音频描述载体进行修改。这些算法和模型的选择取决于具体的降噪需求和可用的计算资源。
以深度学习模型为例,计算机设备可以构建一个神经网络,该网络的输入是基础音频描述载体的特征信息,输出则是优化后的目标音频描述载体。在训练过程中,神经网络会学习如何根据对照降噪描述载体来调整基础音频描述载体的特征信息,以实现更好的降噪效果。这种学习方法可以自动提取和利用数据中的复杂模式,而无需人工设计复杂的规则或算法。
最终,经过优化处理的基础音频描述载体将转化为目标音频描述载体。这个目标音频描述载体不仅保留了原始音频的主要特征信息,还融入了对照降噪描述载体所提供的降噪策略和特征信息。因此,它能够在后续的音频生成或重构过程中实现更好的降噪效果。
操作S430通过引入对照降噪描述载体对基础音频描述载体进行优化处理,为后续的音频降噪提供了更加精确和有效的特征信息表示。这一步骤对于提升整个降噪系统的性能和效果具有至关重要的作用。
在一些可行的设计中,操作S430,通过对照降噪描述载体,对基础音频描述载体进行描述载体优化,得到基础音频描述载体的目标音频描述载体,具体可以包括:
操作S431:获取基础音频描述载体的载体元素数量,以及对照降噪描述载体的载体元素数量。
操作S431对基础音频描述载体和对照降噪描述载体的载体元素数量(也称为特征维度)的获取。这些载体元素数量对于后续的降噪处理至关重要,因为它们决定了音频信号的特征表示和降噪策略的应用方式。具体来说,计算机设备首先加载基础音频描述载体,这是一个包含待降噪音频原始特征信息的数据结构。特征信息可能包括频谱系数、时域波形数据、音高、音量等,它们以向量的形式存储在描述载体中。每个向量元素对应一个特定的特征维度,反映了音频信号在该维度上的属性。同样地,计算机设备也会加载对照降噪描述载体。这个描述载体是在前面的步骤中根据多个降噪描述载体的影响力因子加权融合得到的,它包含了综合了多个分析角度的降噪策略和特征信息。对照降噪描述载体的特征维度应与基础音频描述载体相匹配或可转换,以便在后续的降噪处理中发挥作用。
在获取了基础音频描述载体和对照降噪描述载体的载体元素数量后,计算机设备将进行下一步的操作,即根据这些数量来判断是否需要对对照降噪描述载体进行变换以适应基础音频描述载体的特征维度。
举例来说,假设基础音频描述载体包含100个特征维度,如频谱的100个频点系数。而对照降噪描述载体可能是在不同的频域分辨率下生成的,因此其特征维度可能与基础音频描述载体不同。在这种情况下,计算机设备需要通过适当的变换方法(如插值、重采样等)来调整对照降噪描述载体的特征维度,使其与基础音频描述载体保持一致。这样,在后续的降噪处理中,对照降噪描述载体才能正确地指导基础音频描述载体的优化方向。
操作S432:若基础音频描述载体的载体元素数量与对照降噪描述载体的载体元素数量不同,对对照降噪描述载体的载体元素数量进行变换,得到目标降噪描述载体。
当基础音频描述载体的特征维度与对照降噪描述载体的特征维度不一致时,特征维度的不一致可能是由于不同的特征提取方法、不同的音频表示方式或不同的降噪策略所导致的。具体来说,如果基础音频描述载体的载体元素数量(即特征维度)与对照降噪描述载体的载体元素数量不同,计算机设备采取适当的变换方法,以调整对照降噪描述载体的特征维度,使其与基础音频描述载体相匹配。这种变换可能包括特征映射、特征选择、特征插值或特征降维等技术。
例如,假设基础音频描述载体具有100个特征维度,而对照降噪描述载体只有80个特征维度。为了将这两个描述载体的特征维度对齐,计算机设备可以采用特征插值的方法。它会在对照降噪描述载体的特征向量中插入额外的20个特征值,这些特征值可以是根据相邻特征值计算得到的平均值、线性插值结果或通过某种机器学习模型预测得到的值。这样,对照降噪描述载体的特征维度就被扩展到了100个,与基础音频描述载体保持一致。另一种可能的情况是,对照降噪描述载体的特征维度高于基础音频描述载体。在这种情况下,计算机设备可以采用特征选择或特征降维的方法,从对照降噪描述载体中选择出与基础音频描述载体最相关的特征,或者通过某种降维算法(如主成分分析PCA)将其特征维度降低到与基础音频描述载体相匹配的程度。
通过执行操作S432,计算机设备能够确保对照降噪描述载体在特征维度上与基础音频描述载体保持一致,从而为后续的降噪处理提供有效的指导。这一步骤对于提高降噪系统的性能和效果至关重要,因为它确保了降噪策略能够准确地应用于待降噪音频的每一个特征维度上。
操作S433:若基础音频描述载体的载体元素数量与对照降噪描述载体的载体元素数量相同,将对照降噪描述载体确定为目标降噪描述载体。
具体来说,如果基础音频描述载体和对照降噪描述载体在特征维度上完全一致,计算机设备将无需进行任何额外的变换或调整。在这种情况下,对照降噪描述载体已经被视为与基础音频描述载体兼容,并且能够直接用于指导降噪处理。因此,计算机设备直接将对照降噪描述载体确定为目标降噪描述载体。
目标降噪描述载体在后续的降噪处理中起着至关重要的作用。它包含了用于优化基础音频描述载体的降噪策略和特征信息。通过结合目标降噪描述载体和基础音频描述载体,计算机设备能够生成经过降噪处理的音频信号,从而提升音频的质量和清晰度。
举例来说,假设基础音频描述载体包含100个特征维度,这些特征维度可能包括音频信号的频谱系数、时域波形数据等。对照降噪描述载体也包含相同的100个特征维度,并且这些特征维度已经过优化,以包含降噪所需的策略和信息。在这种情况下,计算机设备将直接将对照降噪描述载体确定为目标降噪描述载体,并在后续的降噪处理中使用它来指导基础音频描述载体的优化过程。
通过执行操作S433,计算机设备能够确保在特征维度一致的情况下,直接使用对照降噪描述载体作为目标降噪描述载体,从而简化了处理流程并提高了降噪处理的效率。这一步骤对于实现高效、准确的音频降噪至关重要。
操作S434:通过降噪描述载体的数量,确定基础音频描述载体的降噪力度,降噪力度与降噪描述载体的数量正向关联。
降噪力度是指应用于基础音频描述载体以降低其噪声水平的强度和效果,它与降噪描述载体的数量呈正向关联。具体来说,计算机设备根据对照降噪描述载体的数量(或称为降噪描述载体的集合大小)来评估和调整降噪力度。通常情况下,降噪描述载体的数量越多,意味着有更多的降噪策略和特征信息可供利用,因此降噪力度也会相应增强。这是因为多个降噪描述载体可能包含互补或协同的降噪策略,它们共同作用可以更有效地去除音频中的噪声。
举例来说,假设有两个降噪描述载体A和B,它们分别针对不同类型的噪声进行优化。当计算机设备同时利用这两个降噪描述载体时,它可以结合A和B中的降噪策略,对基础音频描述载体进行更全面的降噪处理。相比仅使用单一降噪描述载体的情况,使用多个降噪描述载体通常能够实现更好的降噪效果。
在实际应用中,计算机设备可能会根据降噪描述载体的数量来动态调整降噪算法或模型的参数,以确保降噪力度与降噪描述载体的数量相匹配。例如,在某些机器学习模型中,可以增加降噪描述载体的数量作为输入特征之一,从而增强模型对噪声的识别和抑制能力。
需要注意的是,降噪力度的确定不仅与降噪描述载体的数量有关,还与其他因素如噪声类型、音频信号的特性等密切相关。因此,在实际操作中,计算机设备可能需要综合考虑多个因素来确定最佳的降噪力度。降噪力度的确定可以基于多种因素,包括但不限于噪声水平、信号特性、所需的降噪效果以及可用的降噪技术。在实际应用中,通常会结合这些因素来综合评估并确定最佳的降噪力度。
一种常用的方法是通过实验或仿真来测试不同降噪力度下的降噪效果。例如,可以使用专业的测试仪器或软件来模拟不同噪声环境下的信号,并应用不同的降噪算法和参数来处理这些信号。然后,通过对比处理前后的信号质量、噪声水平等指标来评估降噪效果,并据此调整降噪力度。此外,还可以根据具体的应用场景和需求来确定降噪力度。例如,在需要高清晰度音频的场合,可能需要更强的降噪力度以消除更多的噪声;而在需要保留一定背景噪声的场合,则可以适当降低降噪力度以避免过度处理。具体不做限定。至于通过降噪描述载体的数量来确定降噪力度,降噪描述载体的数量越多,意味着有更多的降噪策略和特征信息可供利用,因此可以认为降噪力度也会相应增强。但这种方法可能过于简化,实际上还需要考虑其他因素如噪声类型、音频信号的特性等。因此,在使用这种方法时,需要谨慎评估其适用性和准确性。
操作S435:将降噪力度与目标降噪描述载体作积,得到合并描述载体,将基础音频描述载体和合并描述载体相加,获得目标音频描述载体。
具体来说,计算机设备根据目标降噪描述载体中包含的降噪策略和特征信息,对基础音频描述载体进行相应的调整和优化。目标降噪描述载体通常包含了一系列与降噪相关的参数、规则或模型,这些元素都是基于对照音频数据(无噪声或低噪声的参考音频)分析得出的。例如,如果目标降噪描述载体是一个机器学习模型,它可能是通过训练大量对照音频数据而得到的。这个模型能够识别并区分音频中的信号和噪声成分,并学会如何最大限度地保留信号同时抑制噪声。在处理基础音频描述载体时,计算机设备将这个模型应用于输入音频,通过模型的推理计算,生成一个噪声减少或消除后的音频描述载体,即目标音频描述载体。
在实际应用中,降噪处理可能涉及多种复杂的算法和技术,如频谱分析、噪声估计、信号增强等。计算机设备根据目标降噪描述载体的具体内容和要求,选择合适的算法和技术来实现降噪目标。
此外,降噪处理的效果很大程度上取决于目标降噪描述载体的质量和准确性。如果对照音频数据的质量不高或数量不足,那么得到的目标降噪描述载体可能无法提供有效的降噪指导,从而影响最终的降噪效果。
因此,在执行操作S435时,计算机设备需要确保目标降噪描述载体的可靠性和有效性,以获得高质量的目标音频描述载体。这通常需要在数据收集、模型训练、算法选择等多个环节进行精心的设计和优化。
本申请实施例还提供了一种计算机设备,如图2所示,计算机设备100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,计算机设备100还可以包括收发器104。需要说明的是,实际应用中收发器104不限于一个,该计算机设备100的结构并不构成对本申请实施例的限定。处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
Claims (8)
1.一种音频智能降噪方法,其特征在于,所述方法包括:
对待降噪音频进行音频描述载体挖掘,得到所述待降噪音频的基础音频描述载体;
通过所述基础音频描述载体,在不少于一个分析角度对所述待降噪音频的清晰性进行完整度分析,得到所述待降噪音频分别在各所述分析角度的完整度分析结果;
当所述完整度分析结果表征所述待降噪音频在相应的所述分析角度下缺乏完整度时,获取所述基础音频描述载体在相应的所述分析角度下的降噪描述载体;
通过所述降噪描述载体,对所述基础音频描述载体进行描述载体优化,得到所述基础音频描述载体对应的目标音频描述载体;
对所述目标音频描述载体进行描述载体解析,得到所述待降噪音频对应的降噪音频,所述降噪音频在各所述分析角度下均具有所述完整度;
其中,所述音频描述载体挖掘通过不少于一个音频描述载体挖掘算子实现,当所述音频描述载体挖掘算子的数量为多个时,所述对所述待降噪音频进行音频描述载体挖掘,得到所述待降噪音频的基础音频描述载体,包括:
基于首个音频描述载体挖掘算子,对所述待降噪音频进行音频描述载体挖掘,得到首个基础音频描述载体;
基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对所述待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体;其中,u的取值为从2到m,m为所述音频描述载体挖掘算子的数量,依次遍历u,直到遍历到第m个音频描述载体挖掘算子,得到第m个基础音频描述载体;
将第m个基础音频描述载体,确定为所述待降噪音频的基础音频描述载体;
所述通过所述基础音频描述载体,在不少于一个分析角度对所述待降噪音频的清晰性进行完整度分析,得到所述待降噪音频分别在各所述分析角度的完整度分析结果,包括:
获取各所述分析角度分别对应的完整度分析算子,对各所述分析角度完成如下步骤
基于相应的所述完整度分析算子,通过所述基础音频描述载体,在所述分析角度对所述待降噪音频的清晰性进行完整度分析,得到所述待降噪音频在所述分析角度的完整度评分;
若所述完整度评分大于或等于参考评分,将所述分析角度的完整度分析结果确定为第一分析信息,所述第一分析信息表征所述待降噪音频在所述分析角度下具有所述完整度;
若所述完整度评分小于所述参考评分,将所述分析角度的完整度分析结果确定为第二分析信息,所述第二分析信息表征所述待降噪音频在所述分析角度下缺乏所述完整度;
所述通过所述基础音频描述载体,在不少于一个分析角度对所述待降噪音频的清晰性进行完整度分析,得到所述待降噪音频分别在各所述分析角度的完整度分析结果之后,所述方法还包括:
若各所述分析角度的完整度分析结果都表征所述待降噪音频在相应的所述分析角度下具有所述完整度,对所述基础音频描述载体进行描述载体解析,得到所述待降噪音频对应的所述降噪音频;
所述降噪描述载体与目标分析角度一一对应,所述待降噪音频在所述目标分析角度下缺乏所述完整度,所述通过所述降噪描述载体,对所述基础音频描述载体进行描述载体优化,得到所述基础音频描述载体对应的目标音频描述载体,包括:
获取所述待降噪音频分别在各所述目标分析角度下的完整度评分,将各所述完整度评分,各自确定为相应的所述降噪描述载体的影响力因子;
依照各所述降噪描述载体的影响力因子,对各所述降噪描述载体进行合并,得到对照降噪描述载体;
获取所述基础音频描述载体的载体元素数量,以及所述对照降噪描述载体的载体元素数量;
若所述基础音频描述载体的载体元素数量与所述对照降噪描述载体的载体元素数量不同,对所述对照降噪描述载体的载体元素数量进行变换,得到目标降噪描述载体;
若所述基础音频描述载体的载体元素数量与所述对照降噪描述载体的载体元素数量相同,将所述对照降噪描述载体确定为所述目标降噪描述载体;
通过所述降噪描述载体的数量,确定所述基础音频描述载体的降噪力度,所述降噪力度与所述降噪描述载体的数量正向关联;
将所述降噪力度与所述目标降噪描述载体作积,得到合并描述载体,将所述基础音频描述载体和所述合并描述载体相加,获得所述目标音频描述载体。
2.根据权利要求1所述的方法,其特征在于,所述基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对所述待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体之前,所述方法还包括:
通过所述第u-1个基础音频描述载体,在各所述分析角度对所述待降噪音频的清晰性进行完整度分析,得到所述待降噪音频分别在各所述分析角度的第u-1个完整度分析结果;
通过所述第u-1个完整度分析结果,对所述第u-1个基础音频描述载体进行载体校验,得到第u-1个目标音频描述载体;
所述基于第u个音频描述载体挖掘算子,通过第u-1个基础音频描述载体,对所述待降噪音频进行音频描述载体挖掘,得到第u个基础音频描述载体,包括:
基于第u个音频描述载体挖掘算子,通过所述第u-1个目标音频描述载体,对所述待降噪音频进行音频描述载体挖掘,得到所述第u个基础音频描述载体。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第u-1个完整度分析结果,对所述第u-1个基础音频描述载体进行载体校验,得到第u-1个目标音频描述载体,包括:
若存在所述第u-1个完整度分析结果表征所述待降噪音频在相应的所述分析角度下缺乏所述完整度时,对所述第u-1个基础音频描述载体进行描述载体优化,得到第u-1个目标音频描述载体;
若各所述第u-1个完整度分析结果都表征所述待降噪音频在相应的所述分析角度下具有所述完整度时,将所述第u-1个基础音频描述载体,确定为所述第u-1个目标音频描述载体。
4.根据权利要求1所述的方法,其特征在于,若所述分析角度的数量为一个,所述获取各所述分析角度分别对应的完整度分析算子,包括:
获取基础分析算子,并获取音频学习模板对应的多个音频描述载体学习模板,以及各所述音频描述载体学习模板的完整度指示评分;
针对各所述音频描述载体学习模板,基于所述基础分析算子,通过所述音频描述载体学习模板,在所述分析角度对所述音频学习模板的清晰性进行完整度分析,得到所述音频描述载体学习模板对应的完整度评分,结合所述完整度评分和相应的所述完整度指示评分,确定所述音频描述载体学习模板对应的训练代价;
通过各所述音频描述载体学习模板对应的训练代价,对所述基础分析算子进行调优,得到所述分析角度对应的完整度分析算子。
5.根据权利要求4所述的方法,其特征在于,所述获取音频学习模板对应的多个音频描述载体学习模板,包括:
获取音频学习模板,对所述音频学习模板进行音频描述载体挖掘,得到所述音频学习模板的基础音频描述载体;
对所述音频学习模板的基础音频描述载体进行载体混合,得到所述音频学习模板对应的多个音频描述载体学习模板。
6.根据权利要求1所述的方法,其特征在于,当所述分析角度的数量为多个时,所述获取各所述分析角度分别对应的完整度分析算子,包括:
获取基础分析算子,并获取首个分析角度的音频学习模板对应的首个音频描述载体学习模板,以及所述首个音频描述载体学习模板的首个完整度指示评分;
基于所述基础分析算子,通过所述首个音频描述载体学习模板,对所述首个分析角度的音频学习模板的清晰性进行完整度分析,得到首个完整度评分,结合所述首个完整度评分和所述首个完整度指示评分,对所述基础分析算子进行调优,得到所述首个分析角度对应的完整度分析算子;
获取第v个分析角度的音频学习模板对应的第v个完整度评分,通过所述第v个完整度评分,对所述基础分析算子进行调优,得到第v+1个分析角度对应的完整度分析算子;其中,v+1的取值为从2到z,依次遍历v,直到遍历到第z个分析角度,得到第m个分析角度,z表征所述分析角度的数量。
7.根据权利要求6所述的方法,其特征在于,所述通过第v个完整度评分,对所述基础分析算子进行调优,得到所述第v+1个分析角度对应的完整度分析算子,包括:
获取第v+1个分析角度的音频学习模板对应的第v+1个音频描述载体学习模板,以及所述第v+1个音频描述载体学习模板的第v+1个完整度指示评分;
基于所述基础分析算子,通过所述第v+1个音频描述载体学习模板,对所述第v+1个分析角度的音频学习模板的清晰性进行完整度分析,得到第v+1个完整度评分;
结合所述第v+1个完整度评分和所述第v个完整度评分,确定第一训练代价,结合所述第v+1个完整度评分和所述第v+1个完整度指示评分,确定第二训练代价;
结合所述第一训练代价和所述第二训练代价,对所述基础分析算子进行调优,得到所述第v+1个分析角度对应的完整度分析算子。
8.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序;其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277641.5A CN117935834B (zh) | 2024-03-12 | 2024-03-12 | 一种音频智能降噪方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277641.5A CN117935834B (zh) | 2024-03-12 | 2024-03-12 | 一种音频智能降噪方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117935834A CN117935834A (zh) | 2024-04-26 |
CN117935834B true CN117935834B (zh) | 2024-05-28 |
Family
ID=90753890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410277641.5A Active CN117935834B (zh) | 2024-03-12 | 2024-03-12 | 一种音频智能降噪方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935834B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014009657A1 (fr) * | 2012-07-10 | 2014-01-16 | Orange | Traitement d'amelioration de la qualite des signaux audiofrequences |
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
JP2014132756A (ja) * | 2013-01-07 | 2014-07-17 | Samsung Electronics Co Ltd | ディスプレイ装置及びその制御方法 |
RU2580796C1 (ru) * | 2015-03-02 | 2016-04-10 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки |
CN112420065A (zh) * | 2020-11-05 | 2021-02-26 | 北京中科思创云智能科技有限公司 | 音频降噪处理方法和装置及设备 |
CN114783454A (zh) * | 2022-04-27 | 2022-07-22 | 北京百度网讯科技有限公司 | 一种模型训练、音频降噪方法、装置、设备及存储介质 |
CN115910062A (zh) * | 2022-11-25 | 2023-04-04 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、设备及存储介质 |
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
CN116564332A (zh) * | 2023-02-27 | 2023-08-08 | 歌尔股份有限公司 | 频响分析方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240062774A1 (en) * | 2022-08-17 | 2024-02-22 | Caterpillar Inc. | Detection of audio communication signals present in a high noise environment |
-
2024
- 2024-03-12 CN CN202410277641.5A patent/CN117935834B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014009657A1 (fr) * | 2012-07-10 | 2014-01-16 | Orange | Traitement d'amelioration de la qualite des signaux audiofrequences |
JP2014132756A (ja) * | 2013-01-07 | 2014-07-17 | Samsung Electronics Co Ltd | ディスプレイ装置及びその制御方法 |
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
RU2580796C1 (ru) * | 2015-03-02 | 2016-04-10 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки |
CN112420065A (zh) * | 2020-11-05 | 2021-02-26 | 北京中科思创云智能科技有限公司 | 音频降噪处理方法和装置及设备 |
CN114783454A (zh) * | 2022-04-27 | 2022-07-22 | 北京百度网讯科技有限公司 | 一种模型训练、音频降噪方法、装置、设备及存储介质 |
CN115910062A (zh) * | 2022-11-25 | 2023-04-04 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、设备及存储介质 |
CN116564332A (zh) * | 2023-02-27 | 2023-08-08 | 歌尔股份有限公司 | 频响分析方法、装置、设备及存储介质 |
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117935834A (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136731B (zh) | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 | |
CN111582020A (zh) | 信号处理方法、装置、计算机设备及存储介质 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
US20220108687A1 (en) | Signal processor employing neural network trained using evolutionary feature selection | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
KR20230109630A (ko) | 오디오 신호 생성 및 오디오 생성기 훈련을 위한 방법 및 오디오 생성기 | |
CN116895288A (zh) | 基于伪Wigner-Ville分布的数字音频自适应复制粘贴检测方法及装置 | |
Imran et al. | An analysis of audio classification techniques using deep learning architectures | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
CN117423328A (zh) | 语音合成方法及装置 | |
CN117789754A (zh) | 一种音频事件检测模型生成方法、装置、设备及存储介质 | |
CN117935834B (zh) | 一种音频智能降噪方法及设备 | |
CN117351932A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN117672254A (zh) | 语音转换方法、装置、计算机设备及存储介质 | |
Reshma et al. | A survey on speech emotion recognition | |
CN117012211A (zh) | 音频盲水印的编码器与解码器训练方法、嵌入和检出方法 | |
CN115910091A (zh) | 引入基频线索的生成式语音分离方法和装置 | |
CN115273874A (zh) | 基于循环神经网络的语音增强模型计算量压缩方法 | |
Yusuf et al. | RMWSaug: robust multi-window spectrogram augmentation approach for deep learning based speech emotion recognition | |
CN118398005A (zh) | 基于交互验证和增强学习的对抗性评估方法及装置 | |
CN118643279B (zh) | 一种ф-otdr信号去噪方法、系统及存储介质 | |
Faundez-Zanuy | Nonlinear speech processing: Overview and possibilities in speech coding | |
CN118312157B (zh) | 一种基于生成式ai的程序开发辅助方法 | |
CN117935766B (zh) | 一种aigc模型的语音数据处理方法及系统 | |
CN118072763B (zh) | 一种基于双互补神经网络的电力设备声纹增强方法、部署方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |