CN112562703A - 一种音频的高频优化方法、装置和介质 - Google Patents
一种音频的高频优化方法、装置和介质 Download PDFInfo
- Publication number
- CN112562703A CN112562703A CN202011284930.6A CN202011284930A CN112562703A CN 112562703 A CN112562703 A CN 112562703A CN 202011284930 A CN202011284930 A CN 202011284930A CN 112562703 A CN112562703 A CN 112562703A
- Authority
- CN
- China
- Prior art keywords
- frequency
- sampling
- domain signal
- rate
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000005457 optimization Methods 0.000 title claims abstract description 49
- 238000005070 sampling Methods 0.000 claims abstract description 165
- 238000009499 grossing Methods 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000012535 impurity Substances 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Quality & Reliability (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种音频的高频优化方法,包括:对获取到的低采样率音频进行高频重建,得到高采样率音频;分别计算得到低采样率频域信号和高采样率频域信号。当判断所述低采样率频域信号与高采样率频域信号的低频差异满足预设条件时,根据低采样率频域信号对高采样率频域信号的低频进行替换处理。对高采样率频域信号的高频进行第一次平滑处理。对低采样率频域信号进行基频搜索,若存在基频,则根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理。本发明还公开了相应的优化装置和介质。通过对由低采样率音频进行高频重建后得到的高采样率音频进一步优化处理,从而极大地加强音频的总体生成质量。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种音频的高频优化方法、装置和介质。
背景技术
在音频和语音技术领域中,高采样率的音频具有更好的细节信息,而低采样率的音频的细节信息缺失,在听感上会比高采样率的音频差。而在很多时候,由于硬件条件不足,或高采样率的音频需要耗费较多流量进行存储和传输等原因,只能获取到低采样率的音频。因此,对低采样率的音频进行高频重建是一项比较关键的技术。
现有的高频重建方法包括基于传统机器学习的高频重建方法、基于深度学习的高频重建方法等。然而,在实施本发明过程中,发明人发现现有技术至少存在如下问题:基于传统机器学习的高频重建方法和基于深度学习的高频重建方法生成的高采样率音频的效果不稳定,极易受到噪声干扰,并且高频部分在帧与帧之间常出现较为明显的断续现象。
发明内容
本发明实施例的目的是提供一种音频的高频优化方法、装置和介质,对由低采样率音频进行高频重建后得到的高采样率音频进一步优化处理,从而极大地加强音频的总体生成质量。
为实现上述目的,本发明实施例提供了一种音频的高频优化方法,包括:
对获取到的低采样率音频进行高频重建,得到高采样率音频;
根据所述低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号;
判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件;
若是,则根据低采样率频域信号对高采样率频域信号的低频进行替换处理,且对高采样率频域信号的高频进行第一次平滑处理;
若否,则对高采样率频域信号的高频进行第一次平滑处理;
对低采样率频域信号进行基频搜索,判断是否存在基频;
若是,则根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理。
作为上述方案的改进,所述判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件,具体包括:
判断比值D是否大于预设阈值。
作为上述方案的改进,所述对高采样率频域信号的高频进行第一次平滑处理,具体包括:
根据公式FMt[i]=a·FMt[i]+a2·FMt-1[i]+a3·FMt-2[i]+…+an+1·FMt-n[i]对高采样率频域信号的高频进行第一次平滑处理;其中,FMt[i]为高采样率频域信号的当前帧t的第i个频点,FMt-n[i]为高采样率频域信号的第(t-n)帧的第i个频点;i∈[LN+1,LM],LN为低采样率频域信号中每一帧的频点数,LM为高采样率频域信号中每一帧的频点数,a为预设的第一平滑因子。
作为上述方案的改进,所述根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理,具体包括:
根据公式对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理;其中,f0表示基频,f0∈[0,LN],FM[fk]为第一次平滑处理后的高采样率频域信号中每一帧的第fk个频点,fk∈[LN+1,LM],FM[fk+i]为第一次平滑处理后的高采样率频域信号中每一帧的第(fk+i)个频点,LN为低采样率频域信号中每一帧的频点数,LM为高采样率频域信号中每一帧的频点数,b为预设的第二平滑因子。
作为上述方案的改进,所述音频的高频优化方法还包括:对平滑处理后的高采样率频域信号进行逆傅里叶变换,得到高采样率时域信号。
作为上述方案的改进,所述对获取到的低采样率音频进行高频重建,得到高采样率音频,具体包括:
对获取到的低采样率音频进行特征提取,得到特征向量;
根据预先训练好的机器学习模型计算得到与所述特征向量欧式距离最小的数据组,所述数据组中的高采样率数据即为所述高采样率音频。
作为上述方案的改进,所述对获取到的低采样率音频进行高频重建,得到高采样率音频,具体包括:
将获取到的低采样率音频输入预先训练好的深度学习网络中,得到所述高采样率音频。
本发明实施例还提供了一种音频的高频优化装置,包括:
高采样率音频获得模块,用于对获取到的低采样率音频进行高频重建,得到高采样率音频;
频域信号计算模块,用于根据所述低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号;
预设条件判断模块,用于判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件;
第一处理模块,用于当所述低采样率频域信号与高采样率频域信号的低频差异满足预设条件时,根据低采样率频域信号对高采样率频域信号的低频进行替换处理,且对高采样率频域信号的高频进行第一次平滑处理;当所述低采样率频域信号与高采样率频域信号的低频差异不满足预设条件时,则对高采样率频域信号的高频进行第一次平滑处理;
基频判断模块,用于对低采样率频域信号进行基频搜索,判断是否存在基频;
第二处理模块,用于当判断存在基频时,根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理。
本发明实施例还提供了一种音频的高频优化装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的音频的高频优化方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的音频的高频优化方法
与现有技术相比,本发明公开的一种音频的高频优化方法、装置和介质,对低采样率音频进行高频重建得到高采样率音频,将低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号。针对高采样率频域信号的低频部分,若判断低采样率频域信号与高采样率频域信号的低频差异较大,则根据低采样率频域信号对高采样率频域信号的低频进行替换处理,从而保证高采样率频域信号的低频部分与低采样率频域信号相近或一致。针对高采样率频域信号的高频部分进行第一次平滑处理,从而解决高频部分的帧间不连续性的问题。并通过对低采样率频域信号进行基频搜索,在判断存在基频的情况下,根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理,以过滤掉高采样率频域信号中的杂点和错误谐波。通过对由低采样率音频进行高频重建后得到的高采样率音频进一步优化处理,得到最终的高采样率音频,极大地加强了音频的总体生成质量。
附图说明
图1是本发明实施例中一种音频的高频优化方法的步骤示意图;
图2是本发明实施例中一种音频的高频优化装置的结构示意图;
图3是本发明实施例中另一种音频的高频优化装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例一提供的一种音频的高频优化方法的步骤流程示意图。本发明实施例一提供的一种音频的高频优化方法,通过步骤S1至S7执行:
S1、对获取到的低采样率音频进行高频重建,得到高采样率音频。
在本发明实施例中,对获取到的低采样率音频进行高频重建的方法可以采用现有技术中的高频重建方法,均不影响本发明取得的有益效果,因而在此不做具体限定。
S2、根据所述低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号。
具体地,针对所述低采样率音频,对所述低采样率音频进行分帧处理,并对低采样率音频的每一帧的时频信号进行傅里叶变换为频域信号,从而得到低采样率音频的每一帧对应的频域数组FN。所述频域数组的长度为N为低采样率音频每一帧信号的长度。
同理,针对所述高采样率音频,对所述高采样率音频进行分帧处理,并对高采样率音频的每一帧的时频信号进行傅里叶变换为频域信号,从而得到高采样率音频的每一帧对应的频域数组FM。所述频域数组的长度为M为高采样率音频每一帧信号的长度。
S3、判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件。
S4、若是,则根据低采样率频域信号对高采样率频域信号的低频进行替换处理,且对高采样率频域信号的高频进行第一次平滑处理。
S5、若否,则对高采样率频域信号的高频进行第一次平滑处理。
由于音频的低频部分是音频的基础,高频部分是音频的细节,因此,本发明实施例中分别对高采样率频域信号的低频部分和高频部分进行优化。
针对高采样率频域信号的低频部分,其应当与低采样率频域信号对应部分尽可能保持一致。因此,根据预先设定的判断条件,判断其与所述低采样率频域信号对应部分的差异是否较大。当所述低采样率频域信号与高采样率频域信号的低频差异满足预设条件时,表明两者的音质差异较大,此时需要将高采样率频域信号的低频部分替换为低采样率频域信号。
具体地,以高采样率音频的一帧频域信号为例,若判断低采样率音频该帧的频域数组与高采样率音频该帧的频域数组的低频部分音质差异较大,将高采样率音频该帧的频域数组FM中前LN个频域信号,替换为低采样率音频该帧对应的频域数组FN中的对应值。若判断低采样率频域信号与高采样率频域信号的低频部分音质差异较小,则保留所述高采样率音频的频域数组中低频部分原有的频域信号,以此更新所述高采样率音频的每一频域数组的低频部分的频域信号。
进一步地,由于采用现有的高频重建方法得到的高采样率音频的高频部分在帧与帧之间容易出现较为明显的断续现象,因此,针对高采样率频域信号的高频部分进行平滑处理,从而解决高频部分帧间不连续性的问题。
具体地,对高采样率音频的每一频域数组中处于[LN+1,LM]的每一个频域信号,采用预设的平滑公式进行平滑处理,以此更新所述高频采样率音频的每一频域数组的高频部分的频域信号。
S6、对低采样率频域信号进行基频搜索,判断是否存在基频。
S7、若是,则根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理。
若所述低采样率音频中存在基频,则高频重建后的高采样率音频中可能存在杂点或错误的谐波。基于此,采用预设的基频搜索算法对低采样率频域信号进行基频搜索,判断是否存在基频。当判断低采样率音频的任一帧存在基频时,采用预设的平滑公式,对高采样率频域信号的该帧的高频部分进行平滑处理,以此过滤掉频域数组的杂点和错误谐波。
在本发明实施例中,所述预设的基频搜索算法可以采用现有技术中的基频搜索算法,例如自相关函数法、梳状滤波器法等,均不影响本发明取得的有益效果。
进一步地,所述音频的高频优化方法还包括步骤:
S8、根据平滑处理后的高采样率频域信号计算得到高采样率时域信号。
具体地,对平滑处理后的高采样率音频中的每一频域数组进行逆傅里叶变换,得到高采样率时域信号,依次处理每一帧频域数组,即可得到优化完成的高采样率音频。
本发明实施例提供了一种音频的高频优化方法,对低采样率音频进行高频重建得到高采样率音频,将低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号。针对高采样率频域信号的低频部分,若判断低采样率频域信号与高采样率频域信号的低频差异较大,则根据低采样率频域信号对高采样率频域信号的低频进行替换处理,从而保证高采样率频域信号的低频部分与低采样率频域信号相近或一致。针对高采样率频域信号的高频部分进行第一次平滑处理,从而解决高频部分的帧间不连续性的问题。并通过对低采样率频域信号进行基频搜索,在判断存在基频的情况下,根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理,以过滤掉高采样率频域信号中的杂点和错误谐波。通过对由低采样率音频进行高频重建后得到的高采样率音频进一步优化处理,得到最终的高采样率音频,极大地加强了音频的总体生成质量。
本发明实施例二提供了一种音频的高频优化方法,在实施例一的基础上进一步实施。为了解决如何判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件的问题,所述步骤S3具体通过步骤S31至S32执行:
其中,FN[i]为低采样率频域信号中每一帧的第i个频点,FM[i]为高采样率频域信号中每一帧的第i个频点;LN为低采样率频域信号中每一帧的频点数。
S32、判断比值D是否大于预设阈值。
在本发明实施例中,预先设置一个阈值T,用于表征低采样率频域信号与高采样率频域信号的低频差异。计算所述高采样率音频的每一频域数组中低频部分的频域信号与其对应的低采样率音频的频域数组的频域信号的欧氏距离,将所述欧氏距离与所述低采样率音频的频域数组的频域信号的帧能量的比值作为音质差异参数D。
判断所述音质差异参数D与预设阈值T的大小关系;若D>T,则表明所述高采样率音频中该频域数组的低频部分与低采样率音频中对应频域数组的音质差异较大,也即判定低频差异满足所述预设条件,则需要将高采样率音频的该频域数组FM中前LN个频域信号,替换为低采样率音频对应的频域数组FN中的对应值。若D<T,则表明所述高采样率音频中该频域数组的低频部分与低采样率音频中对应频域数组的音质差异较小,也即判定低频差异不满足所述预设条件,则不需要进行替换。
需要说明的是,所述预设阈值T应在一定的范围内越小越好,从而保证高采样率音频的低频部分与低采样率频率一致性。在一种实施方式下,预设阈值T取0.05。
采用本发明实施例的技术手段,通过计算频域信号的欧氏距离与帧能量的比值D,来判断低采样率频域信号与高采样率频域信号的低频差异,提高了低频差异判断结果的准确性,为后续进行高采样率频域信号的精细化处理奠定基础。
本发明实施例三提供了一种音频的高频优化方法,在实施例一的基础上进一步实施。为了解决对高采样率频域信号的高频进行第一次平滑处理的问题,在本发明实施例中,对高采样率音频的频域数组FM的高频部分[LN+1,LM]的每个频点,通过与前n帧的频域数组中同频点幅值的加权平均,来确定当前频点的幅值。
具体地,对高采样率频域信号的高频进行第一次平滑处理,通过以下步骤执行:
根据平滑公式FMt[i]=a·FMt[i]+a2·FMt-1[i]+a3·FMt-2[i]+…+an+1·FMt-n[i]对高采样率频域信号的高频进行第一次平滑处理。
其中,FMt[i]为高采样率频域信号的当前帧t的第i个频点,FMt-n[i]为高采样率频域信号的第(t-n)帧的第i个频点;i∈[LN+1,LM],LN为低采样率频域信号中每一帧的频点数,LM为高采样率频域信号中每一帧的频点数,a为预设的第一平滑因子。
需要说明的是,n的取值可以根据实际情况或先验知识进行具体设定。在一种实施方式下,n的取值为2,也即根据高采样率音频的频域数组FM的高频部分的每个频点,以及每个频点前两帧的频域数组中同频点幅值,来确定高采样率音频的频域数组FM中当前频点的幅值。
所述第一平滑因子a的值可以根据实际情况或先验知识进行具体设定。在一种实施方式下,第一平滑因子a取0.8或0.85。
采用本发明实施例的技术手段,根据高采样率音频的频域数组FM的高频部分的每个频点,以及该频点前若干帧数的频域数组中同频点幅值,对高采样率音频每一频域数组的高频部分进行优化,从而有效解决高采样率音频中帧与帧之间出现明显断续的问题,有效提高了高采样率音频的质量。
本发明实施例四提供了一种音频的高频优化方法,在实施例一的基础上进一步实施。为了解决对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理的问题,在本发明实施例中,对低采样率频域信号进行基频搜索,对于存在基频f0的帧,,对每个高次谐波fk=k×f0,以fk为中心,为窗长对该帧对应的高采样率音频的频域数组FM进行拟高斯平滑处理。其中,f0∈[0,LN],k为整数,fk∈[LN+1,LM]。
具体地,所述根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理,具体包括:
其中,FM[fk]为第一次平滑处理后的高采样率频域信号中每一帧的第fk个频点,FM[fk+i]为第一次平滑处理后的高采样率频域信号中每一帧的第(fk+i)个频点,LN为低采样率频域信号中每一帧的频点数,LM为高采样率频域信号中每一帧的频点数,b为预设的第二平滑因子。
需要说明的是,所述第二平滑因子b的值可以根据实际情况或先验知识进行具体设定。在一种实施方式下,第二平滑因子b取1或2。
采用本发明实施例的技术手段,对于存在基频的帧,对每个高次谐波fk=k×f0,以fk为中心,为窗长,对该帧对应的高采样率音频的频域数组FM进行拟高斯平滑处理,从而过滤掉一些频域数组的杂点以及错误的谐波,进一步提高优化后的高采样率音频的质量。
本发明实施例五提供了一种音频的高频优化方法,在实施例一至四任一实施例的基础上实施,提供了一种低采样率音频的高频重建方法,具体包括步骤S111至S112:
S111、对获取到的低采样率音频进行特征提取,得到特征向量。
S112、根据预先训练好的机器学习模型计算得到与所述特征向量欧式距离最小的数据组,所述数据组中的高采样率数据即为所述高采样率音频。
在本发明实施例中,所述机器学习模型的训练步骤具体为:选定机器学习模型,并获取训练数据集,其中,所述训练数据集中包括有大量的低采样率音频和对应的高采样率音频。接着对每一帧低采样率音频进行特征提取,与相应高采样率音频一同形成三元组(N,M,F)。其中,N为低采样率音频一帧的时域信号;M为相应的高采样率帧的时域信号;F为N对应的特征。最后,将所述数据库中的所有三元组(N,M,F)作为训练数据,输入预先选定的机器学习模型进行训练,从而得到训练完成的机器学习模型。
对获取到的低采样率音频中的每一低采样率帧S,使用与训练阶段相同的特征提取方法,计算其特征向量Fs。在所有三元组(N,M,F)中找出与特征向量Fs欧氏距离最小的三元组,则此三元组的M就为低采样率帧S对应的高采样率率帧,从而得到高采样率音频。
需要说明的是,所述特征提取的方法可以采用现有技术中的特征提取方法,例如MFCC特征提取法,PLP特征提取法,FBANK特征提取法等,在此不作具体限定。
作为优选的实施方式,在所述机器学习模型的训练中,如果训练数据集中训练数据数量较大,可以使用GMM+EM算法将所有的(N,M,F)三元组按特征向量F进行高斯聚类,能够极大地减小三元组的数量,从而提高机器学习模型的训练效率。
本发明实施例六提供了一种音频的高频优化方法,在实施例一至四任一实施例的基础上实施,提供了一种低采样率音频的高频重建方法,具体包括步骤:
S121、将获取到的低采样率音频输入预先训练好的深度学习网络中,得到所述高采样率音频。
在本发明实施例中,在所述深度学习网络的训练步骤具体为:获取训练数据集,所述训练数据集包括有大量的二元组(N,M),作为深度学习网络的训练数据。其中,N代表一帧N个点的低采样率时域信号,M代表对应的高采样率时域信号。
接着,构建深度学习网络,所述深度学习网络的输入为一帧N个点的时域信号,输出为一帧M个点的时域信号;并用训练数据训练网络,从而得到训练好的深度学习网络。
对获取到的低采样率音频进行分帧,采用训练完成的深度网络,输入一个低采样率音频帧,即可输出得到相应的高采样率帧,从而得到高采样率音频。
需要说明的是,所述深度学习网络可以采用现有的深度网络形式,例如CNN,RNN,LSTM,GRU等网络,在此不做具体限定。
参见图2,是本发明实施例中一种音频的高频优化装置的结构示意图。本发明实施例七提供的一种音频的高频优化装置20,包括:高采样率音频获得模块21、频域信号计算模块22、预设条件判断模块23、第一处理模块24、基频判断模块25和第二处理模块26。
所述高采样率音频获得模块21,用于对获取到的低采样率音频进行高频重建,得到高采样率音频。
所述频域信号计算模块22,用于根据所述低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号。
所述预设条件判断模块23,用于判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件。
所述第一处理模块24,用于当所述低采样率频域信号与高采样率频域信号的低频差异满足预设条件时,根据低采样率频域信号对高采样率频域信号的低频进行替换处理,且对高采样率频域信号的高频进行第一次平滑处理;当所述低采样率频域信号与高采样率频域信号的低频差异不满足预设条件时,则对高采样率频域信号的高频进行第一次平滑处理。
所述基频判断模块25,用于对低采样率频域信号进行基频搜索,判断是否存在基频。
所述第二处理模块26,用于当判断存在基频时,根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理。
作为优选的实施方式,所述音频的高频优化装置20,还包括:时域信号计算模块,用于根据平滑处理后的高采样率频域信号计算得到高采样率时域信号。
具体地,对平滑处理后的高采样率音频中的每一频域数组进行逆傅里叶变换,得到高采样率时域信号,依次处理每一帧频域数组,即可得到优化完成的高采样率音频。
作为优选的实施方式,所述预设条件判断模块23具体用于:
作为优选的实施方式,所述第一处理模块24,具体用于:
根据公式FMt[i]=a·FMt[i]+a2·FMt-1[i]+a3·FMt-2[i]+…+an+1·FMt-n[i]对高采样率频域信号的高频进行第一次平滑处理;其中,FMt[i]为高采样率频域信号的当前帧t的第i个频点,FMt-n[i]为高采样率频域信号的第(t-n)帧的第i个频点;i∈[LN+1,LM],LN为低采样率频域信号中每一帧的频点数,LM为高采样率频域信号中每一帧的频点数,a为预设的第一平滑因子。
作为优选的实施方式,所述第二处理模块25,具体用于:
根据公式对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理;其中,f0表示基频,f0∈[0,LN],FM[fk]为第一次平滑处理后的高采样率频域信号中每一帧的第fk个频点,fk∈[LN+1,LM],FM[fk+i]为第一次平滑处理后的高采样率频域信号中每一帧的第(fk+i)个频点,LN为低采样率频域信号中每一帧的频点数,LM为高采样率频域信号中每一帧的频点数,b为预设的第二平滑因子。
在一种实施方式下,所述高采样率音频获得模块21,具体用于:
对获取到的低采样率音频进行特征提取,得到特征向量;根据预先训练好的机器学习模型计算得到与所述特征向量欧式距离最小的数据组,所述数据组中的高采样率数据即为所述高采样率音频。
在另一种实施方式下,所述高采样率音频获得模块21,具体用于:
将获取到的低采样率音频输入预先训练好的深度学习网络中,得到所述高采样率音频。
需要说明的是,本发明实施例提供的一种音频的高频优化装置用于执行上述实施例的一种音频的高频优化方法的所有流程步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
本发明实施例提供了一种音频的高频优化装置,包括:高采样率音频获得模块、频域信号计算模块、预设条件判断模块、第一处理模块、基频判断模块和第二处理模块。高采样率音频获得模块对低采样率音频进行高频重建得到高采样率音频,频域信号计算模块将低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号。预设条件判断模块判断低采样率频域信号与高采样率频域信号的低频差异,第一处理模块根据判断结果,若判断低采样率频域信号与高采样率频域信号的低频差异较大,则根据低采样率频域信号对高采样率频域信号的低频进行替换处理,从而保证高采样率频域信号的低频部分与低采样率频域信号相近或一致;第一处理模块还对高采样率频域信号的高频部分进行第一次平滑处理,从而解决高频部分的帧间不连续性的问题。第二处理模块通过对低采样率频域信号进行基频搜索,在判断存在基频的情况下,根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理,以过滤掉高采样率频域信号中的杂点和错误谐波。本发明实施例通过对由低采样率音频进行高频重建后得到的高采样率音频进一步优化处理,得到最终的高采样率音频,极大地加强了音频的总体生成质量。
参见图3,是本发明实施例中另一种音频的高频优化装置的结构示意图。本发明实施例提供的一种音频的高频优化装置30,包括处理器31、存储器32以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例一至六任意一项所述的音频的高频优化方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例一至六任意一项所述的音频的高频优化方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种音频的高频优化方法,其特征在于,包括:
对获取到的低采样率音频进行高频重建,得到高采样率音频;
根据所述低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号;
判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件;
若是,则根据低采样率频域信号对高采样率频域信号的低频进行替换处理,且对高采样率频域信号的高频进行第一次平滑处理;
若否,则对高采样率频域信号的高频进行第一次平滑处理;
对低采样率频域信号进行基频搜索,判断是否存在基频;
若是,则根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理。
3.如权利要求1所述的音频的高频优化方法,其特征在于,所述对高采样率频域信号的高频进行第一次平滑处理,具体包括:
根据公式FMt[i]=a·FMt[i]+a2·FMt-1[i]+a3·FMt-2[i]+…+an+1·FMt-n[i]对高采样率频域信号的高频进行第一次平滑处理;其中,FMt[i]为高采样率频域信号的当前帧t的第i个频点,FMt-n[i]为高采样率频域信号的第(t-n)帧的第i个频点;i∈[LN+1,LM],LN为低采样率频域信号中每一帧的频点数,LM为高采样率频域信号中每一帧的频点数,a为预设的第一平滑因子。
5.如权利要求1所述的音频的高频优化方法,其特征在于,还包括:根据平滑处理后的高采样率频域信号,计算得到高采样率时域信号。
6.如权利要求1所述的音频的高频优化方法,其特征在于,所述对获取到的低采样率音频进行高频重建,得到高采样率音频,具体包括:
对获取到的低采样率音频进行特征提取,得到特征向量;
根据预先训练好的机器学习模型计算得到与所述特征向量欧式距离最小的数据组,所述数据组中的高采样率数据即为所述高采样率音频。
7.如权利要求1所述的音频的高频优化方法,其特征在于,所述对获取到的低采样率音频进行高频重建,得到高采样率音频,具体包括:
将获取到的低采样率音频输入预先训练好的深度学习网络中,得到所述高采样率音频。
8.一种音频的高频优化装置,其特征在于,包括:
高采样率音频获得模块,用于对获取到的低采样率音频进行高频重建,得到高采样率音频;
频域信号计算模块,用于根据所述低采样率音频和高采样率音频分别计算得到低采样率频域信号和高采样率频域信号;
预设条件判断模块,用于判断所述低采样率频域信号与高采样率频域信号的低频差异是否满足预设条件;
第一处理模块,用于当所述低采样率频域信号与高采样率频域信号的低频差异满足预设条件时,根据低采样率频域信号对高采样率频域信号的低频进行替换处理,且对高采样率频域信号的高频进行第一次平滑处理;当所述低采样率频域信号与高采样率频域信号的低频差异不满足预设条件时,则对高采样率频域信号的高频进行第一次平滑处理;
基频判断模块,用于对低采样率频域信号进行基频搜索,判断是否存在基频;
第二处理模块,用于当判断存在基频时,根据基频对第一次平滑处理后的高采样率频域信号的高频进行第二次平滑处理。
9.一种音频的高频优化装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的音频的高频优化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的音频的高频优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284930.6A CN112562703B (zh) | 2020-11-17 | 2020-11-17 | 一种音频的高频优化方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284930.6A CN112562703B (zh) | 2020-11-17 | 2020-11-17 | 一种音频的高频优化方法、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562703A true CN112562703A (zh) | 2021-03-26 |
CN112562703B CN112562703B (zh) | 2024-07-26 |
Family
ID=75043097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011284930.6A Active CN112562703B (zh) | 2020-11-17 | 2020-11-17 | 一种音频的高频优化方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562703B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090093896A1 (en) * | 2007-10-05 | 2009-04-09 | Yoshiyuki Kobayashi | Signal Processing Apparatus, Signal Processing Method, and Program Therefor |
CN101971252A (zh) * | 2008-03-10 | 2011-02-09 | 弗劳恩霍夫应用研究促进协会 | 操纵具有瞬变事件的音频信号的方法和设备 |
US20110125493A1 (en) * | 2009-07-06 | 2011-05-26 | Yoshifumi Hirose | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method |
CN102549658A (zh) * | 2010-08-03 | 2012-07-04 | 索尼公司 | 信号处理设备、方法和程序 |
CN105632509A (zh) * | 2014-11-07 | 2016-06-01 | Tcl集团股份有限公司 | 一种音频处理方法和音频处理装置 |
US20180165387A1 (en) * | 2016-12-14 | 2018-06-14 | General Electric Company | System and method for reconstructing and augmenting high frequency data |
CN110797038A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-11-17 CN CN202011284930.6A patent/CN112562703B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090093896A1 (en) * | 2007-10-05 | 2009-04-09 | Yoshiyuki Kobayashi | Signal Processing Apparatus, Signal Processing Method, and Program Therefor |
CN101971252A (zh) * | 2008-03-10 | 2011-02-09 | 弗劳恩霍夫应用研究促进协会 | 操纵具有瞬变事件的音频信号的方法和设备 |
US20110125493A1 (en) * | 2009-07-06 | 2011-05-26 | Yoshifumi Hirose | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method |
CN102549658A (zh) * | 2010-08-03 | 2012-07-04 | 索尼公司 | 信号处理设备、方法和程序 |
CN105632509A (zh) * | 2014-11-07 | 2016-06-01 | Tcl集团股份有限公司 | 一种音频处理方法和音频处理装置 |
US20180165387A1 (en) * | 2016-12-14 | 2018-06-14 | General Electric Company | System and method for reconstructing and augmenting high frequency data |
CN110797038A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
SHA, YT: "HIGH FREQUENCY RECONSTRUCTION OF AUDIO SIGNAL BASED ON CHAOTIC PREDICTION THEORY", 《2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》, 31 December 2010 (2010-12-31) * |
刘喆: "基于C6727的高品质音频处理系统的硬件研发", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 September 2009 (2009-09-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN112562703B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948552B2 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
CN109524020B (zh) | 一种语音增强处理方法 | |
CN111261183B (zh) | 一种语音去噪的方法及装置 | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN111383646B (zh) | 一种语音信号变换方法、装置、设备和存储介质 | |
CN112786057B (zh) | 一种声纹识别方法、装置、电子设备及存储介质 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN111243574A (zh) | 一种语音模型自适应训练方法、系统、装置及存储介质 | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN115062678A (zh) | 设备故障检测模型的训练方法、故障检测方法及装置 | |
CN112487933B (zh) | 一种基于自动化深度学习的雷达波形识别方法及系统 | |
CN111916060B (zh) | 一种基于谱减的深度学习语音端点检测方法和系统 | |
Südholt et al. | Pruning deep neural network models of guitar distortion effects | |
CN112562703A (zh) | 一种音频的高频优化方法、装置和介质 | |
CN111968620B (zh) | 算法的测试方法、装置、电子设备及存储介质 | |
CN112447183A (zh) | 音频处理模型的训练、音频去噪方法、装置及电子设备 | |
CN115881142A (zh) | 一种骨导语音编码模型的训练方法、装置及存储介质 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN117648990A (zh) | 一种用于黑盒攻击的语音对抗样本生成方法及其系统 | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
CN111326164B (zh) | 一种半监督式音乐主旋律提取方法 | |
CN113516992A (zh) | 一种音频处理方法、装置、智能设备及存储介质 | |
CN106373576A (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 | |
CN111462757A (zh) | 基于语音信号的数据处理方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |