CN110097888B - 人声增强方法、装置及设备 - Google Patents
人声增强方法、装置及设备 Download PDFInfo
- Publication number
- CN110097888B CN110097888B CN201810089567.9A CN201810089567A CN110097888B CN 110097888 B CN110097888 B CN 110097888B CN 201810089567 A CN201810089567 A CN 201810089567A CN 110097888 B CN110097888 B CN 110097888B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- frequency
- audio frame
- tonal component
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004458 analytical method Methods 0.000 claims abstract description 93
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 230000002708 enhancing effect Effects 0.000 claims abstract description 16
- 230000000737 periodic effect Effects 0.000 claims description 101
- 238000001228 spectrum Methods 0.000 claims description 39
- 238000004891 communication Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 8
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephone Function (AREA)
Abstract
本申请提供一种人声增强方法、装置及设备,该方法包括:对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析;若在所述频域信号中检测到音调分量,则在所述频域信号中确定音调分量所处的频带集合,所述音调分量用于表达人声,所述频带集合中包括N个频带,所述N为大于或等于1的正整数;根据所述N个频带,确定N个增强滤波器;通过所述N个增强滤波器,对所述频域信号进行增强处理,得到频域增强信号;对所述第一音频帧的频域信号和所述频域增强信号进行混音,得到人声增强信号。提高了对人声增强的效果。
Description
技术领域
本申请涉及音频技术领域,尤其涉及一种人声增强方法、装置及设备。
背景技术
人声增强技术用于提高人声清晰度。在使用平板电脑、手机及电视的时候,回放设备、用户本身的听音能力、听音环境及素材内容等因素,均可能导致用户听不清楚对话,降低用户的使用体验。针对该类问题,使用人声增强技术是很有必要的。
在现有技术中,当需要进行人声增强时,通常先提取中置声道,计算当前帧每个子带的中置成分相对环绕成分的比重,得到每个子带的增益值,计算当前帧中置信号与边信号的频谱流量比值,得到当前帧语音检测活动值,利用增益值及语音检测活动值得到增强信号,并与原始信号混音,得到人声增强信号。
然而,只有当人声严格处于声场中间,环境噪声处于声场两侧时,现有技术才能有效的增强人声。但是在实际应用中,除了人声之外,提取出来的中置声道经常会包括环境噪声。在这种情况下,现有技术会将语音及背景噪声一起增强,导致人声增强效果差。
发明内容
本申请提供一种人声增强方法、装置及设备,提高了人声增强效果。
第一方面,本申请提供一种人声增强方法,该方法可以包括:先对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析,若在频域信号中检测到用于表达人声的音调分量,则在频域信号中确定音调分量所处的频带集合,频带集合中包括N个频带,N为大于或等于1的正整数。根据N个频带,确定N个增强滤波器。通过N个增强滤波器,对频域信号进行增强处理,得到频域增强信号。对第一音频帧的频域信号和频域增强信号进行混音,得到人声增强信号。
在上述过程中,若第一音频帧中存在人声时,则在对第一音频帧的频域进行初始音调分量检测、周期性分析和连续性分析之后,可以在频域信号中检测到用于表达人声的音调分量。可以根据用于表达人声的音调分量的频带设计增强滤波器,这样,根据增强滤波器对频域信号进行处理之后,可以保证仅对人声进行增强,进而提高对人声进行增强的效果。
在一种可能的实施方式中,可以通过如下可行的实现方式对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析:
先对频域信号进行初始音调分量检测。
若在频域信号中没有检测到初始音调分量,确定得到的频带集合为空,且说明第一音频帧中不存在人声,则对第一音频帧的处理结束。
若在频域信号中检测出M个第一频带处含有初始音调分量,则对处于M个第一频带的初始音调分量进行周期性分析、以及连续性分析。
其中,初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,第一频带为第一频带范围的子集,第二频带范围为第一频带范围的子集,M为大于或等于1的整数。
在上述过程中,先对第一音频帧中的频域信号进行初始音调检测,若频域信号中不存在初始音调分量,则确定第一音频帧中不包括人声。当检测到频域信号中存在初始音调分量时,由于初始音调分量可能为人声,也可能不是人声,再对初始音调分量进行周期性分析和连续性分析,以在初始音调分量中筛选得到用于表达人声的周期性音调分量和连续性音调分量。通过对频域信号进行逐步处理,不但可以使得处理效率较高,还可以使得准确性较高。
在另一种可能的实施方式中,在对处于M个第一频带的初始音调分量进行周期性分析之后,确定出是否有第二频带处存在周期性音调分量,周期性音调分量用于表达人声。再对处于M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,确定出是否有第三频带处存在连续性音调分量,连续性音调分量用于表达人声,第一音频帧集合中的周期性音调分量与处于第三频带的初始音调分量呈连续性分布,其中,第一音频帧集合包括位于第一音频帧之前且与第一音频帧相邻的至少一个音频帧。
若在M个第一频带中检测出K个第二频带和L个第三频带,则确定频带集合包括K个第二频带和L个第三频带,K为大于或等于0的整数,L为大于或等于0的整数。
需要说明的是,若在M个第一频带中检测出的第二频带的个数K大于0,且未检测出的第三频带的个数L也大于0,则确定频带集合包括K个第二频带和L个第三频带。若在M个第一频带中检测出的第二频带的个数K大于0,且未检测出第三频带,则确定频带集合包括K个第二频带。若在M个第一频带中检测出的第三频带的个数L大于0,且未检测出第二频带,则确定频带集合包括L个第三频带。若在M个第一频带中未检测出第三频带,且也未检测出第二频带,则确定频带集合为空。
在另一种可能的实施方式中,可以通过如下可行的实现方式对处于M个第一频带的初始音调分量进行周期性分析。下面,假设M个第一频带中包括第四频带,以判断第四频带处是否存在周期性音调分量为例进行说明。
若M个第一频带对应有等间隔分布的至少一组频带,至少一组频带包括第四频带、且第四频带对应的谐波匹配比小于第二阈值,则确定频域信号的第四频带处存在周期性音调分量,其中,一组频带中包括至少三个频带;
第四频带对应的谐波匹配比如下公式一:
其中,P(n)为第四频带,n用于指示第四频带为第n个第一频带,ΔP(n)为第四频带与对应的等间隔分布的频带之间的间隔值。
在另一种可能的实施方式中,可以通过如下可行的实现方式对处于M个第一频带的初始音调分量进行连续性分析。下面,假设M个第一频带中包括第五频带,以判断第五频带处是否存在连续性音调分量为例进行说明。
在确定M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势,根据分布趋势确定搜索范围;若在第一音频帧集合的搜索范围内存在周期性音调分量,则确定第五频带处存在连续性音调分量。
在另一种可能的实施方式中,可以通过如下可行的实现方式对处于M个第一频带的初始音调分量进行连续性分析。下面,假设M个第一频带中包括第六频带,以判断第六频带处是否存在连续性音调分量为例进行说明。
在确定第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据第六频带的值,在第二音频帧中确定搜索范围,第二音频帧为第一音频帧的前一个音频帧;
判断在第二音频帧的搜索范围内是否存在周期性音调分量;
若是,则确定第六频带处存在连续性音调分量;
若否,若在第二音频帧的所述搜索范围内不存在初始音调分量,则确定所述第六频带处不存在连续性音调分量;若在第二音频帧的所述搜索范围内的第七频带处存在初始音调分量,则将第二音频帧的前一个音频帧确定为新的第二音频帧,根据第七频带的值和第八频带的值更新搜索范围,并将第八频带的值更新为第七频带的值,重复执行上述判断步骤,直至确定第六频带处存在连续性音调分量,或者确定所述第六频带处不存在连续性音调分量,或者执行上述判断步骤的次数大于预设次数;其中,初始时,第八频带的值等于第六频带的值。
第二方面,本申请提供一种人声增强装置,包括分析模块、第一确定模块、第二确定模块、增强模块和混音模块,其中,
所述分析模块用于,对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析;
所述第一确定模块用于,在所述分析模块在所述频域信号中检测到音调分量时,在所述频域信号中确定音调分量所处的频带集合,所述音调分量用于表达人声,所述频带集合中包括N个频带,所述N为大于或等于1的正整数;
所述第二确定模块用于,根据所述N个频带,确定N个增强滤波器;
所述增强模块用于,通过所述N个增强滤波器,对所述频域信号进行增强处理,得到频域增强信号;
所述混音模块用于,对所述第一音频帧的频域信号和所述频域增强信号进行混音,得到人声增强信号。
在一种可能的实施方式中,所述分析模块具体用于:
对所述频域信号进行初始音调分量检测;
若在所述频域信号中检测出M个第一频带处含有初始音调分量,所述初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且所述初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,所述第一频带为所述第一频带范围的子集,所述第二频带范围为所述第一频带范围的子集,所述M为大于或等于1的整数;
对处于所述M个第一频带的初始音调分量进行周期性分析,确定出是否有第二频带处存在周期性音调分量,所述周期性音调分量用于表达人声;
对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,确定出是否有第三频带处存在连续性音调分量,所述连续性音调分量用于表达人声,第一音频帧集合中的周期性音调分量与处于所述第三频带的初始音调分量呈连续性分布,其中,所述第一音频帧集合包括位于所述第一音频帧之前且与所述第一音频帧相邻的至少一个音频帧;
所述第一确定模块具体用于:
若在所述M个第一频带中检测出K个第二频带和L个第三频带,则确定所述频带集合包括所述K个第二频带和所述L个第三频带,所述K为大于或等于0的整数,所述L为大于或等于0的整数。
在另一种可能的实施方式中,所述分析模块具体用于:
若所述M个第一频带对应有等间隔分布的至少一组频带,所述至少一组频带包括第四频带、且所述第四频带对应的谐波匹配比小于第二阈值,则确定所述频域信号的所述第四频带处存在周期性音调分量,其中,一组频带中包括至少三个频带;
所述第四频带对应的谐波匹配比如下公式一:
其中,所述P(n)为所述第四频带,所述n用于指示所述第四频带为第n个第一频带,所述ΔP(n)为所述第四频带与对应的等间隔分布的频带之间的间隔值。
在另一种可能的实施方式中,所述分析模块具体用于:
在确定所述M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于所述第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势;
根据所述分布趋势确定搜索范围;
若在第一音频帧集合的所述搜索范围内存在周期性音调分量,则确定所述第五频带处存在连续性音调分量。
在另一种可能的实施方式中,所述分析模块具体用于:
在确定所述第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据所述第六频带的值,在第二音频帧中确定搜索范围,所述第二音频帧为所述第一音频帧的前一个音频帧;
判断在所述第二音频帧的所述搜索范围内是否存在周期性音调分量;
若是,则确定所述第六频带处存在连续性音调分量;
若否,若在第二音频帧的所述搜索范围内不存在初始音调分量,则确定所述第六频带处不存在连续性音调分量;若在第二音频帧的所述搜索范围内的第七频带处存在初始音调分量,则将所述第二音频帧的前一个音频帧确定为新的第二音频帧,根据所述第七频带的值和第八频带的值更新所述搜索范围,并将所述第八频带的值更新为所述第七频带的值,重复执行上述判断步骤,直至确定所述第六频带处存在连续性音调分量,或者确定所述第六频带处不存在连续性音调分量,或者执行上述判断步骤的次数大于预设次数;其中,初始时,所述第八频带的值等于所述第六频带的值。
第三方面,本申请提供一种人声增强设备,包括处理器、存储器及通信总线,所述通信总线用于实现各元器件之间的连接,所述存储器用于存储程序指令,所述处理器用于读取所述存储器中的程序指令,并根据所述存储器中的程序指令执行如下步骤:
对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析;
若在所述频域信号中检测到音调分量,则在所述频域信号中确定音调分量所处的频带集合,所述音调分量用于表达人声,所述频带集合中包括N个频带,所述N为大于或等于1的正整数;
根据所述N个频带,确定N个增强滤波器;
通过所述N个增强滤波器,对所述频域信号进行增强处理,得到频域增强信号;
对所述第一音频帧的频域信号和所述频域增强信号进行混音,得到人声增强信号。
本申请提供的人声增强设备可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述处理器具体用于:
对所述频域信号进行初始音调分量检测;
若在所述频域信号中检测出M个第一频带处含有初始音调分量,所述初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且所述初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,所述第一频带为所述第一频带范围的子集,所述第二频带范围为所述第一频带范围的子集,所述M为大于或等于1的整数;
对处于所述M个第一频带的初始音调分量进行周期性分析,确定出是否有第二频带处存在周期性音调分量,所述周期性音调分量用于表达人声;
对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,确定出是否有第三频带处存在连续性音调分量,所述连续性音调分量用于表达人声,第一音频帧集合中的周期性音调分量与处于所述第三频带的初始音调分量呈连续性分布,其中,所述第一音频帧集合包括位于所述第一音频帧之前且与所述第一音频帧相邻的至少一个音频帧;
所述若在所述频域信号中检测到音调分量,则在所述频域信号中确定音调分量所处的频带集合,包括:
若在所述M个第一频带中检测出K个第二频带和L个第三频带,则确定所述频带集合包括所述K个第二频带和所述L个第三频带,所述K为大于或等于0的整数,所述L为大于或等于0的整数。
在另一种可能的实施方式中,所述处理器具体用于:
若所述M个第一频带对应有等间隔分布的至少一组频带,所述至少一组频带包括第四频带、且所述第四频带对应的谐波匹配比小于第二阈值,则确定所述频域信号的所述第四频带处存在周期性音调分量,其中,一组频带中包括至少三个频带;
所述第四频带对应的谐波匹配比如下公式一:
其中,所述P(n)为所述第四频带,所述n用于指示所述第四频带为第n个第一频带,所述ΔP(n)为所述第四频带与对应的等间隔分布的频带之间的间隔值。
在另一种可能的实施方式中,所述处理器具体用于:
在确定所述M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于所述第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势;
根据所述分布趋势确定搜索范围;
若在第一音频帧集合的所述搜索范围内存在周期性音调分量,则确定所述第一音频帧集合中的周期性音调分量与处于所述第五频带的初始音调分量呈连续性分布。
在另一种可能的实施方式中,所述处理器具体用于:
在确定所述第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据所述第六频带的值,在第二音频帧中确定搜索范围,所述第二音频帧为所述第一音频帧的前一个音频帧;
判断在所述第二音频帧的所述搜索范围内是否存在周期性音调分量;
若是,则确定所述第六频带处存在连续性音调分量;
若否,若在第二音频帧的所述搜索范围内不存在初始音调分量,则确定所述第六频带处不存在连续性音调分量;若在第二音频帧的所述搜索范围内的第七频带处存在初始音调分量,则将所述第二音频帧的前一个音频帧确定为新的第二音频帧,根据所述第七频带的值和第八频带的值更新所述搜索范围,并将所述第八频带的值更新为所述第七频带的值,重复执行上述判断步骤,直至确定所述第六频带为一个第三频带,或者确定所述第六频带处不存在连续性音调分量,或者执行上述判断步骤的次数大于预设次数;其中,初始时,所述第八频带的值等于所述第六频带的值。
第四方面,本申请提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述第一方面任意一项所述的方法。
第五方面,本申请提供一种芯片系统,所述芯片系统包括处理器,用于执行上述第一方面任意一项所述的方法。
本申请提供的音频处理方法、装置及设备,对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析,若在频域信号中检测到用于表达人声的音调分量,则在频域信号中确定音调分量所处的频带集合,频带集合中包括N个频带,根据N个频带,确定N个增强滤波器,通过N个增强滤波器,对频域信号进行增强处理,得到频域增强信号,对第一音频帧的频域信号和频域增强信号进行混音,得到人声增强信号。在上述过程中,若第一音频帧中存在人声时,则在对第一音频帧的频域进行初始音调分量检测、周期性分析和连续性分析之后,可以在频域信号中检测到用于表达人声的音调分量。可以根据用于表达人声的音调分量的频带设计增强滤波器,这样,根据增强滤波器对频域信号进行处理之后,可以保证仅对人声进行增强,进而提高对人声进行增强的效果。
附图说明
图1为本申请提供的人声增强方法的架构图;
图2为本申请提供的人声增强方法的流程示意图;
图3为本申请提供的确定频带集合方法的流程示意图;
图4为本申请提供的初始音调检测方法的流程示意图;
图5为本申请提供的周期性分析方法的流程示意图;
图6为本申请提供的周期性音调分量示意图;
图7为本申请提供的连续性分析的流程示意图;
图8为本申请提供的人声增强装置的结构示意图;
图9为本申请提供的人声增强设备的结构示意图。
具体实施方式
图1为本申请提供的人声增强方法的架构图。请参见图1,音频处理系统可以对音频信号进行处理,以实现对音频信号中的人声成分进行增强。具体的,音频处理系统可以先对音频信号进行音调检测,以实现在音频信号中确定音调分量所处的频带,并根据音调分量所处的频带设计增强滤波器,通过增强滤波器对音频信号对应的频域信号进行处理,以实现仅对音频信号中的人声成分进行增强,进而提高了音频处理效果。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本申请提供的人声增强方法的流程示意图。请参见图2,该方法可以包括:
S201、对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析。
本发明实施例的执行主体可以为音频处理装置。可选的,该音频处理装置可以通过软件实现,或者,该音频处理装置可以通过软件和硬件的结合实现。
可选的,第一音频帧可以为音频信号中的任意一个音频帧。可以对模拟信号进行采样,对采样点进行组合,得到音频帧。
可选的,可以对第一音频帧进行快速傅里叶变换(Fast FourierTransformation,FFT),得到第一音频帧的频域信号。
可选的,初始音调分量检测用于检测第一音频帧的频域信号中是否存在初始音调分量。其中,初始音调分量有可能为人声,也可能不是人声。
可选的,可以在检测到第一音频帧的频域信号中存在初始音调分量时,再对检测到的初始音调分量进行周期性分析和连续性分析。
可选的,可以在对初始音调分量周期性分析完成之后,再对初始音调分量中的非周期性音调分量进行连续性分析。当然,也可以对初始音调分量同时进行周期性分析和连续性分析。本发明实施例对此不作具体限定。
可选的,周期性分析用于分析初始音调分量中是否存在周期性音调分量。其中,周期性音调分量用于表达人声。
可选的,连续性分析用于分析初始音调分量中是否存在连续性音调分量。其中,连续性音调分量用于表达人声。
S202、若在频域信号中检测到音调分量,则在频域信号中确定音调分量所处的频带集合。
其中,音调分量用于表达人声。频带集合中包括N个频带,N为大于或等于1的正整数。
在第一音频帧中的频域信号中,当频带集合中包括至少一个频带时,则频带集合中的每一个频带均对应有音调分量。
S203、根据N个频带,确定N个增强滤波器。
可选的,当频带集合中包括多个频带时,则可以分别以频带集合中的每一个频带为中心,分别确定得到每一个频带对应的增强滤波器。
假设频带集合中包括频带f=10,下面,以确定f=10对应的增强滤波器为例进行说明。
例如,假设FFT点数为2048,当前帧的频域值为Y(f)(f=1,…,1025)。
假设音调分量处于f=10处,以f=10为中心,设计增强滤波器的系数如下:
0,0,0,0,0,0.0111,0.1448,0.5112,0.8769,1,0.8769,0.5112,0.1448,0.0111,0,0,……
其中,设计的增强滤波器的系数一共为1025个,该1025个系数中除了上述大于0的系数之外,其它系数均为0。
需要说明的是,针对频带集合中的任意一个频带,可以设计出多种不同的增强滤波器,上述只是以示例的形式进行说明,并非对设计的增强滤波器的限定。
S204、通过N个增强滤波器,对频域信号进行增强处理,得到频域增强信号。
例如,假设FFT点数为2048,当前帧的频域值为Y(f)(f=1,…,1025)。
再假设以f=10为中心,设计的增强滤波器的系数为:
0,0,0,0,0,0.0111,0.1448,0.5112,0.8769,1,0.8769,0.5112,0.1448,0.0111,0,0,……
利用该增强滤波器对频域信号进行增强处理之后得到的频域增强信号为:
Y(1)*0,Y(2)*0,Y(3)*0,Y(4)*0,Y(5)*0,Y(6)*0.0111,Y(7)*0.1448,Y(8)*0.5112,Y(9)*0.8769,Y(10)*1,Y(11)*0.8769,Y(12)*0.5112,Y(13)*0.1448,Y(14)*0.0111,Y(15)*0,…,Y(1024)*0,Y(1025)*0。
通过上述处理,可以实现对于位于f=10及其邻域的人声成分进行了增强。
需要说明的是,在实际应用过程中,增强滤波器的系数可以有多种形式,本申请对此不作具体限定。
S205、对第一音频帧的频域信号和频域增强信号进行混音,得到人声增强信号。
例如,假设FFT点数为2048,当前帧的频域值为Y(f)(f=1,…,1025),频域增强信号为YE(f)(f=1,…,1025),则人声增强信号为a Y(f)+bYE(f=1,…,1025)。其中,系数a及b大于等于0。在实际应用过程中,可以根据实际需要设置a及b的大小,本申请对此不作具体限定。
本申请提供的音频处理方法,对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析,若在频域信号中检测到用于表达人声的音调分量,则在频域信号中确定音调分量所处的频带集合,频带集合中包括N个频带,根据N个频带,确定N个增强滤波器,通过N个增强滤波器,对频域信号进行增强处理,得到频域增强信号,对第一音频帧的频域信号和频域增强信号进行混音,得到人声增强信号。在上述过程中,若第一音频帧中存在人声时,则在对第一音频帧的频域进行初始音调分量检测、周期性分析和连续性分析之后,可以在频域信号中检测到用于表达人声的音调分量。可以根据用于表达人声的音调分量的频带设计增强滤波器,这样,根据增强滤波器对频域信号进行处理之后,可以保证仅对人声进行增强,进而提高对人声进行增强的效果。
在上述任意一个实施例的基础上,可选的,可以通过如下可行的实现方式确定具有音调分量的频带集合(图2所示实施例中的S202),具体的,请参见图3所示的实施例。
图3为本申请提供的确定频带集合方法的流程示意图。请参见图3,该方法可以包括:
S301、对频域信号进行初始音调分量检测。
S302、判断是否在频域信号中检测出M个第一频带含有初始音调分量。
其中,初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,第一频带为第一频带范围的子集,第二频带范围为第一频带范围的子集,M为大于或等于1的整数。
若是,则执行S303-S304。
若否,则执行S306。
需要说明的是,在实际应用过程中,可以根据实际需要设置第一频带范围和第二频带范围,本申请对此不作具体限定。
例如,假设采样率为48kHz,FFT点数为2048,对应有1025个谱线,针对每个谱线进行初始音调检测,确定第一频带。
下面,以任意一个频带f为例,对判断频带f是否为一个第一频带的方法进行详细说明:
判断频域信号中频带f的功率密度谱在第一频带范围内是否为一个极大值,若是,则判断频带f对应的功率密度谱与第二频带范围内的各频带的功率密度谱之差是否大于第一阈值,若是,则确定频带f为一个第一频带。其中,频带f为第一频带范围的子集,第二频带范围为第一频带范围的子集。
需要说明的是,在图4所示的实施例中,对确定M个第一频带的过程进行进一步详细说明,此处不再进行说明。
S303、对处于M个第一频带的初始音调分量进行周期性分析。
其中,当第一频带对应有等间隔分布的至少一组频带时,则第二频带属于等间隔分布的至少一组频带,且第二频带对应的谐波匹配比小于第二阈值。
可选的,等间隔分布是指,第二频带和第二频带对应的一组频带中,每两个相邻频带之间的间隔之差小于预设间隔。在实际应用过程中,可以根据实际需要设置该预设间隔,本申请对此不作具体限定。
例如,等间隔分布的一组频带集合可以为302、453和604,或者,可以为383、453和523。
可选的,当M大于1时,可以分别对每一个第一频带处的初始音调分量进行周期性分析,若分析得到频域信号的第一频带处存在周期性音调分量,则可以将该第一频带确定为一个第二频带。其中,对每一个初始音调分量进行周期性分析的过程相同,下面,以第一频带中的任意一个第四频带为例,对判断第四频带处是否存在周期性音调分量的过程进行说明:
判断第一频带是否对应有等间隔分布的至少一组频带,若是,则判断第四频带对应的谐波匹配比是否小于第二阈值,若是,则确定第四频带处存在周期性音调分量,即,确定第四频带为一个第二频带。其中,所述至少一组频带包括第四频带。
可选的,至少一组频带包括频带一、频带二和频带三,频带一小于频带二,第三频带大于频带二,其中,频带二和频带一之间的第一间隔,与频带三与频带二之间的第二间隔之差的绝对值小于第三阈值。所述第四频带可以是频带一或是频带二或是频带三。
在实际应用过程中,可以根据实际需要设置该第三阈值,本申请对此不作具体限定。
可选的,第四频带对应的谐波匹配比可以如公式一所示:
其中,P(n)为第四频带,n用于指示第四频带为第n个第一频带,所述ΔP(n)为第四频带与对应的等间隔分布的频带之间的间隔值。可选的,该间隔值可以为第一间隔或者第二间隔。
需要说明的是,第四频带可能属于等间隔分布的多组频带,则对于等间隔分布的每一组频带,均可以确定得到第四频带对应的d(n),可以在第四频带对应的d(n)中获取最小的d(n),若最小的d(n)小于第三阈值,则可以确定第四频带为一个第二频带。
需要说明的是,在图5所示的实施例中,对确定第二频带的过程进行进一步详细说明,此处不再进行说明。
S304、对处于M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析。
可选的,针对M个第一频带中的任意一个第五频带,可以通过如下可行的实现方式判断第五频带处是否存在连续性音调分量。其中,第五频带处存在连续性音调分量是指,第一音频帧集合中的周期性音调分量与处于第五频带的初始音调分量呈连续性分布。
在确定M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势,根据分布趋势确定搜索范围,若在第一音频帧集合的搜索范围内存在周期性音调分量,则确定第五频带处存在连续性音调分量,即,确定第五频带为一个第三频带。
可选的,分布趋势可以包括水平分布、递增分布和递减分布。
例如,假设第一音频帧中的第五频带为f=10,当第一音频帧的上一个音频帧在f=10处存在初始音调分量,则分布趋势为水平分布。当第一音频帧的上一个音频帧在f=9处存在初始音调分量,则分布趋势为递增分布。当第一音频帧的上一个音频帧在f=11处存在初始音调分量,则分布趋势为递减分布。
需要说明的是,根据分布趋势确定搜索范围的过程可以参见图6所示的实施例,此处不再进行说明。
下面,在确定M个第一频带中的任意一个第六频带处具有初始音调分量、且不具有周期性音调分量时,以判断第六频带处是否存在连续性音调分量的过程进行进一步详细说明。
步骤1、在确定第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据第六频带的值,在第二音频帧中确定搜索范围,第二音频帧为第一音频帧的前一个音频帧。
步骤2、判断在第二音频帧的搜索范围内是否存在周期性音调分量。
若是,则执行步骤3。
若否,执行步骤4。
步骤3、确定第六频带处存在连续性音调分量,针对第六频带的连续性分析结束。
当确定第六频带处存在连续性音调分量时,即可确定第六频带是一个第三频带。
步骤4、判断在第二音频帧的搜索范围内是否存在初始音调分量。
若是,则执行步骤5。
若否,则执行步骤8。
步骤5、确定在第二音频帧的搜索范围中存在初始音调分量的频带为第七频带。
步骤6、将第二音频帧的前一个音频帧确定为新的第二音频帧,根据第七频带的值和第八频带的值更新搜索范围,并将第八频带的值更新为第七频带的值。
其中,初始时,第八频带的值等于第六频带的值。
可选的,当第七频带的值等于第八频带的值时,更新后的搜索范围可以以第七频带为中心。例如,假设第七频带为f2,则更新后的搜索范围可以为[f2-X,f2+X],其中,X为预设参数。
可选的,当第七频带的值大于第八频带的值时,更新后的搜索范围中的值均大于或等于第七频带的值。例如,假设第七频带为f2,则更新后的搜索范围可以为[f2+X1,f2+X2],其中,X1和X2为大于或等于0的预设参数,X2大于X1。
可选的,当第七频带的值小于第八频带的值时,更新后的搜索范围中的值均小于或等于第七频带的值。例如,假设第七频带为f2,则更新后的搜索范围可以为[f2-X3,f2-X4],其中,X3和X4为大于或等于0的预设参数,X3大于X4。
例如,假设第八频带为f1,第七频带为f2,当f1=f2时,可以确定搜索范围为[f2-1,f2+1]。当f2=f1+1时,可以确定搜索范围为[f2,f2+2]。当f2=f1+2时,可以确定搜索范围为[f2+1,f2+2]。当f2=f1-1时,可以确定搜索范围为[f2-2,f2]。当f2=f1-2时,可以确定搜索范围为[f2-1,f2]。
需要说明的是,上述只是以示例的形式示意搜索范围,并非对搜索范围的限定,本申请对此不作具体限定。
步骤7、判断执行步骤6的次数是否大于预设次数。
若是,则执行步骤8。
若否,则执行步骤2。
步骤8、确定第六频带处不存在连续性音调分量,针对第六频带的连续性分析结束。
当确定第六频带处不存在连续性音调分量时,即可确定第六频带不是一个第三频带。
需要说明的是,在图6所示的实施例中,对确定第三频带的过程进行进一步详细说明,此处不再进行说明。
S305、若在M个第一频带中检测出K个第二频带和L个第三频带,则确定频带集合包括K个第二频带和L个第三频带。
其中,K为大于或等于0的整数,L为大于或等于0的整数。
需要说明的是,若在M个第一频带中检测出的第二频带的个数K大于0,且未检测出的第三频带的个数L也大于0,则确定频带集合包括K个第二频带和L个第三频带。若在M个第一频带中检测出的第二频带的个数K大于0,且未检测出第三频带,则确定频带集合包括K个第二频带。若在M个第一频带中检测出的第三频带的个数L大于0,且未检测出第二频带,则确定频带集合包括L个第三频带。若在M个第一频带中未检测出第三频带,且也未检测出第二频带,则确定频带集合为空。
S306、确定频带集合为空。
在图3所示的实施例中,确定得到的频带集合中包括K个第二频带和L个第三频带。相应的,确定得到的音调分量包括的音调分量具有周期性,或者音调分量包括的音调分量不具备周期性、但具有连续性分布,由于周期性音调分量和具有连续性分布的音调分量均为真正的音调分量,因此,通过图3实施例所示的方法,可以提高确定音调分量的准确性。
在上述任意一个实施例的基础上,下面,通过图4所示的实施例,对初始音调检测的过程(图3所示实施例中的S302)进行详细说明。
图4为本申请提供的初始音调检测方法的流程示意图。请参见图4,包括:
S401、计算第一音频帧的功率密度谱。
可选的,假设第一音频帧为音频信号中的第m帧,则第一音频帧的功率密度谱可以为PSD(m,f)其中,1≤f≤F,F为第一音频帧的频域信号的最大频带。
S402、为频带f赋初始值。
可选的,初始值可以为F1+1。
其中,F1为预设常数。在实际应用过程中,可以根据实际需要设置F1的大小,本申请对此不作具体限定。
S403、判断第一音频帧在频带f处的功率密度谱在第一频带范围内是否为极大值。
若是,则执行S404。
若否,则执行S406。
可选的,可以判断PSD(m,f)是否满足如下条件1:
条件1:PSD(m,f)≥PSD(m,f±i)(i=1,…,F1);
其中,在上述条件1中,第一频带范围为f-F1至f+F1。
若PSD(m,f)满足上述条件1,则可以确定第一音频帧在频带f处的功率密度谱在第一频带范围内为极大值。
S404、判断第一音频帧在频带f处的功率密度谱、与第二频带范围内的各频带对应的功率密度谱之差是否大于第一阈值。
若是,则执行S405。
若否,则执行S406。
可选的,可以判断判断PSD(m,f)是否满足条件2:
条件2:P(m,f)-P(m,f±i)≥Th_1(i=F2,…,F1)。
其中,在上述条件2中,F2为预设常数。在实际应用过程中,可以根据实际需要设置F2的大小,本申请对此不作具体限定。Th_1为第一阈值,在实际应用过程中,可以根据实际需要设置第一阈值Th_1的大小。第二频带范围为f-F2至f-F1以及f+F2至f+F1。
若PSD(m,f)满足上述条件2,则可以确定第一音频帧在频带f处的功率密度谱、与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值。
S405、将频带f确定为一个第一频带。
即,确定频带f处存在初始音调分量。
可选的,在确定频带f为一个第一频带时,可以确定T1(m,f)=1,否则,T1(m,f)=0。
S406、令f加1。
S407、判断频带f是否小于最大频带。
若是,则执行S403。
若否,则执行S408。
可选的,最大频带可以为F-F1。
S408、检测完成。
需要说明的是,在检测完成之后,得到初始音调分量检测结果T1(m,f),其中,T1(m,f)为0、1序列,当T1(m,f)=1时,说明该频带f处存在初始音调分量,当T1(m,f)=0时,说明该频带f处不存在初始音调分量。
在图4所示的实施例中,确定得到的第一频带对应的功率密度谱在第一频带对应第一频带范围内为一个极大值,且第一频带对应的功率密度谱、与对应的第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,进而可以使得确定第一音频帧在第一频带处具有初始音调分量。
在上述任意一个实施例的基础上,下面,通过图5所示的实施例,对周期性分析的过程(图3所示实施例中的S303)进行详细说明。
图5为本申请提供的周期性分析方法的流程示意图。请参见图5,包括:
S501、为频带f赋初始值。
可选的,初始值可以为1。
S502、判断频带f处是否存在初始音调分量。
若是,则执行S503。
若否,则执行S507。
可选的,可以判断T1(m,f)是否为1,若是,则可以确定频带f处存在初始音调分量,否则,则可以确定频带f处不存在初始音调分量。
S503、判断频带f是否对应至少一组近似等间隔分布的频带。
若是,则执行S504。
若否,则执行S506。
可选的,可以判断频带f是否满足条件1:
条件1:(P(n+i)-P(n))-(P(n)-P(n-j))≤Th_3,1≤i≤F3,1≤j≤F3
其中,P(n)=f,P(n)为第n个第一频带,P(n+i)为第n+i个第一频带,P(n-j)为第n-j个第一频带。F3为预设常数。在实际应过程中,可以根据实际需要设置F3。Th_3为第三阈值,在实际应用过程中,可以根据实际需要设置该第三阈值。
若频带f满足上述条件1,则可以确定频带f对应有近似等间隔分布的至少一组频带。
S504、判断频带f对应的谐波匹配比是否小于第二阈值。
若是,则执行S505。
若否,则执行S506。
可选的,可以通过如下公式二获取频带f对应的谐波匹配比:
其中,公式二中的P(n+i)-P(n)对应于公式一中的ΔP(n)。
其中,P(n)为第四频带,n用于指示第四频带为第n个第一频带,P(n+i)为第四频带对应的等间隔分布的频带,n+i用于指示第四频带对应的等间隔分布的频带为第n+i个第一频带。
需要说明的是,若频带f对应多组等间隔分布的频带,则分别根据该多组等间隔分布的频带,计算频带f对应的谐波匹配比,并将最小的一个谐波匹配比确定为频带f对应的谐波匹配比。
S505、将频带f确定为一个第二频带。
即,确定频带f处存在周期性音调分量。
可选的,在确定频带f为一个第二频带时,可以确定T2(m,f)=1,否则,T2(m,f)=0。
S506、令f加1。
S507、判断频带f是否小于最大频带。
若是,则执行S502。
若否,则执行S508。
可选的,最大频带可以为F,F为第一音频帧的频域信号的最大频带。
S508、检测完成。
在图5所示的实施例中,确定得到的第二频带对应有近似等间隔分布的至少一组频带、且第二频带对应的谐波匹配比小于第二阈值,进而可以使得确定第一音频帧在第二频带处具有周期性音调分量。
需要说明的是,在图5所示的实施例中,可以先根据图4实施例所示的方法,确定得到具有初始音调分量的频带,并对具有初始音调分量的频带进行周期性分析。
下面,结合图6,通过具体示例,对图5实施例所示的方法进行详细说明。
图6为本申请提供的周期性音调分量示意图。请参见图6,左侧数字代表频带,右侧线条表示初始音调分量。
下面,以判断第一音频帧在频带453处的初始音调分量是否为周期性音调分量为例进行说明。
通过计算频带之间的间隔,可以确定得到频带453对应两组近似等间隔分布的频带:
第一组:频带302、频带453和频带604,其中,频带453和频带302之间的间隔为151,频带604与频带453之间的间隔为151。根据该组频带和上述公式二,可以计算得到频带453对应的d(n)为0。
第二组:频带383、频带453和频带523,其中,频带453和频带383之间的间隔为70,频带523与频带453之间的间隔为70。根据该组频带和上述公式二,可以计算得到频带453对应的d(n)为0.4714。
由上可知,对频带453对应的d(n)取最小值,可以得到频带453对应的d(n)为0。由于频带453对应的d(n)为0,小于第三阈值,因此,可以确定在频带453处的初始音调分量为周期性音调分量。
下面,以判断第一音频帧在频带383处的初始音调分量是否为周期性音调分量为例进行说明。
通过计算频带之间的间隔,可以确定得到频带383对应一组近似等间隔分布的频带:
第一组:频带313、频带383和频带453,其中,频带383和频带313之间的间隔为70,频带453与频带383之间的间隔为70。根据该组频带和上述公式二,可以计算得到频带383对应的d(n)为0.4714。
由于频带383对应的d(n)大于第三阈值,因此,可以确定在频带383处的初始音调分量不是周期性音调分量。
在上述任意一个实施例的基础上,下面,通过图7所示的实施例,对连续性分析的过程(图3所示实施例中的S304)进行详细说明。
图7为本申请提供的连续性分析的流程示意图。请参见图7,包括:
S701、为频带f赋初始值。
可选的,f的初始值可以为1。
S702、判断频带f处是否存在初始音调分量。
若是,则执行S703。
若否,则执行S711。
S703、判断频带f处是否存在周期性音调分量。
若是,则执行S711。
若否,则执行S704。
S704、根据频带f的值,在第二音频帧中确定搜索范围。
其中,第二音频帧为第一音频帧的前一个音频帧。
S705、为循环次数n赋初始值,并设置f1为f。
可选的,n的初始值可以为1。
S706、判断第二音频帧的搜索范围中是否存在周期性音调分量。
若是,则执行S710。
若否,执行S707。
S707、若在第二音频帧的搜索范围中的频带fx处存在初始音调分量,则将f2更新为fx,令n加1。
S708、判断n是否小于预设最大循环次数。
若是,则执行S709。
若否,则执行S711。
S709、将第二音频帧的上一个音频帧确定为新的第二音频帧,根据频带f1和频带f2,更新搜索范围,并将f1更新为f2。
在S709之后,执行S706。
S710、将频带f确定为一个第三频带。
即,确定频带f处存在连续性音调分量。
在S710之后,执行S711。
S711、令f加1。
S712、判断频带f是否小于最大频带。
若是,则执行S702。
若否,则执行S713。
S713、检测完成。
需要说明的是,在图7所示的实施例中,也可以先根据图5-图6所示的实施例,确定得到具有初始音调分量、且不具有周期性音调分量的频带,并对具有初始音调分量、且不具有周期性音调分量的频带进行连续性分析。
下面,通过具体示例,对图7实施例所示的方法进行详细说明。在如下示例中,当T1(m,f)=1时,说明在第m帧中的频带f处存在初始音调分量。当T2(m,f)=1时,说明在第m帧中的频带f处存在周期性音调分量。
例如,假设当前处理的帧为第n帧,第n帧中在频带f处存在初始音调分量、且不存在在周期性音调分量,初始时,令f1=f。
步骤a、初始时,当m=n,检测第(n-1)帧在谱线[f-1,f+1]范围内是否存在初始音调分量,如果频带fx属于该搜索范围,并且T1(m-1,fx)=1,令f2=fx,执行步骤g;如果不存在,针对频带f的连续性分析结束。
步骤b、当m<n,检测是否满足条件f1=f2。如果不满足条件,执行步骤c。如果满足条件,说明初始音调分量的分布趋势是水平的,设置第(m-1)帧搜索范围是[f2-1,f2+1]。如果频带fx属于该搜索范围,并且T1(m-1,fx)=1,令f2=fx,执行步骤g;如果不存在,针对频带f的连续性分析结束。
步骤c、检测是否满足条件f2=f1+1。如果不满足条件,执行步骤d。如果满足条件,说明初始音调分量的分布趋势是下降的,设置第(m-1)帧搜索范围是[f2,f2+2]。如果频带fx属于该搜索范围,并且T1(m-1,fx)=1,令f2=fx,执行步骤g;如果不存在,针对频带f的连续性分析结束。
步骤d、检测是否满足条件f2=f1+2。如果不满足条件,执行步骤e。如果满足条件,说明初始音调分量的分布趋势是明显下降的,设置第(m-1)帧搜索范围是[f2+1,f2+2]。如果频带fx属于该搜索范围,并且T1(m-1,fx)=1,令f2=fx,执行步骤g;如果不存在,针对频带f的连续性分析结束。
步骤e、检测是否满足条件f2=f1-1。如果不满足条件,执行步骤f。如果满足条件,说明初始音调分量的分布趋势是上升的,设置第(m-1)帧搜索范围是[f2-2,f2]。如果频带fx属于该搜索范围,并且T1(m-1,fx)=1,令f2=fx,执行步骤g;如果不存在,针对频带f的连续性分析结束。
步骤f、检测是否满足条件f2=f1-2。如果不满足条件,针对频带f的连续性分析结束。如果满足条件,说明初始音调分量的分布趋势是明显上升的,设置第(m-1)帧搜索范围是[f2-1,f2]。如果频带fx属于该搜索范围,并且T1(m-1,fx)=1,令f2=fx,执行步骤g;如果不存在,针对频带f的连续性分析结束。
步骤g、判断是否满足条件:T2(n-1,fx)=1。如果不满足条件,执行步骤h。如果满足条件,T3(m,f)=1,说明第n帧位于谱线f处的初始音调分量是真正的音调分量,针对频带f的连续性分析结束。
步骤h、判断m是否满足条件:m-1≥n-M。如果满足条件,则令m=m-1,f1=f2,执行步骤b。如果不满足条件,说明第n帧位于谱线f处的初始音调分量不是真正的音调分量,针对频带f的连续性分析结束。其中,M是预设最大循环次数。
图8为本申请提供的人声增强装置的结构示意图。请参见图8,包括分析模块11、第一确定模块12、第二确定模块13、增强模块14和混音模块15,其中,
所述分析模块11用于,对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析;
所述第一确定模块12用于,在所述分析模块在所述频域信号中检测到音调分量时,在所述频域信号中确定音调分量所处的频带集合,所述音调分量用于表达人声,所述频带集合中包括N个频带,所述N为大于或等于1的正整数;
所述第二确定模块13用于,根据所述N个频带,确定N个增强滤波器;
所述增强模块14用于,通过所述N个增强滤波器,对所述频域信号进行增强处理,得到频域增强信号;
所述混音模块15用于,对所述第一音频帧的频域信号和所述频域增强信号进行混音,得到人声增强信号。
本申请提供的人声增强装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述分析模块11具体用于:
对所述频域信号进行初始音调分量检测;
若在所述频域信号中检测出M个第一频带处含有初始音调分量,所述初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且所述初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,所述第一频带为所述第一频带范围的子集,所述第二频带范围为所述第一频带范围的子集,所述M为大于或等于1的整数;
对处于所述M个第一频带的初始音调分量进行周期性分析,确定出是否有第二频带处存在周期性音调分量,所述周期性音调分量用于表达人声;
对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,确定出是否有第三频带处存在连续性音调分量,所述连续性音调分量用于表达人声,第一音频帧集合中的周期性音调分量与处于所述第三频带的初始音调分量呈连续性分布,其中,所述第一音频帧集合包括位于所述第一音频帧之前且与所述第一音频帧相邻的至少一个音频帧;
所述第一确定模块具体用于:
若在所述M个第一频带中检测出K个第二频带和L个第三频带,则确定所述频带集合包括所述K个第二频带和所述L个第三频带,所述K为大于或等于0的整数,所述L为大于或等于0的整数。
在另一种可能的实施方式中,所述分析模块11具体用于:
若所述M个第一频带对应有等间隔分布的至少一组频带,所述至少一组频带包括第四频带、且所述第四频带对应的谐波匹配比小于第二阈值,则确定所述频域信号的所述第四频带处存在周期性音调分量,其中,一组频带中包括至少三个频带;
所述第四频带对应的谐波匹配比如下公式一:
其中,所述P(n)为所述第四频带,所述n用于指示所述第四频带为第n个第一频带,所述ΔP(n)为所述第四频带与对应的等间隔分布的频带之间的间隔值。
在另一种可能的实施方式中,所述分析模块11具体用于:
在确定所述M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于所述第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势;
根据所述分布趋势确定搜索范围;
若在第一音频帧集合的所述搜索范围内存在周期性音调分量,则确定所述第一音频帧集合中的周期性音调分量与处于所述第五频带的初始音调分量呈连续性分布。
在另一种可能的实施方式中,所述分析模块11具体用于:
在确定所述第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据所述第六频带的值,在第二音频帧中确定搜索范围,所述第二音频帧为所述第一音频帧的前一个音频帧;
判断在所述第二音频帧的所述搜索范围内是否存在周期性音调分量;
若是,则确定所述第六频带处存在连续性音调分量;
若否,若在第二音频帧的所述搜索范围内不存在初始音调分量,则确定所述第六频带处不存在连续性音调分量;若在第二音频帧的所述搜索范围内的第七频带处存在初始音调分量,则将所述第二音频帧的前一个音频帧确定为新的第二音频帧,根据所述第七频带的值和第八频带的值更新所述搜索范围,并将所述第八频带的值更新为所述第七频带的值,重复执行上述判断步骤,直至确定所述第六频带为一个第三频带,或者确定所述第六频带处不存在连续性音调分量,或者执行上述判断步骤的次数大于预设次数;其中,初始时,所述第八频带的值等于所述第六频带的值。
本申请提供的人声增强装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图9为本申请提供的人声增强设备的结构示意图。请参见图9,该设备可以包括处理器21、存储器22及通信总线23,所述通信总线23用于实现各元器件之间的连接,所述存储器22用于存储程序指令,所述处理器21用于读取所述存储器22中的程序指令,并根据所述存储器22中的程序指令执行如下步骤:
对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析;
若在所述频域信号中检测到音调分量,则在所述频域信号中确定音调分量所处的频带集合,所述音调分量用于表达人声,所述频带集合中包括N个频带,所述N为大于或等于1的正整数;
根据所述N个频带,确定N个增强滤波器;
通过所述N个增强滤波器,对所述频域信号进行增强处理,得到频域增强信号;
对所述第一音频帧的频域信号和所述频域增强信号进行混音,得到人声增强信号。
本申请提供的人声增强设备可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述处理器21具体用于:
对所述频域信号进行初始音调分量检测;
若在所述频域信号中检测出M个第一频带处含有初始音调分量,所述初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且所述初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,所述第一频带为所述第一频带范围的子集,所述第二频带范围为所述第一频带范围的子集,所述M为大于或等于1的整数;
对处于所述M个第一频带的初始音调分量进行周期性分析,确定出是否有第二频带处存在周期性音调分量,所述周期性音调分量用于表达人声;
对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,确定出是否有第三频带处存在连续性音调分量,所述连续性音调分量用于表达人声,第一音频帧集合中的周期性音调分量与处于所述第三频带的初始音调分量呈连续性分布,其中,所述第一音频帧集合包括位于所述第一音频帧之前且与所述第一音频帧相邻的至少一个音频帧;
所述若在所述频域信号中检测到音调分量,则在所述频域信号中确定音调分量所处的频带集合,包括:
若在所述M个第一频带中检测出K个第二频带和L个第三频带,则确定所述频带集合包括所述K个第二频带和所述L个第三频带,所述K为大于或等于0的整数,所述L为大于或等于0的整数。
在另一种可能的实施方式中,所述处理器21具体用于:
若所述M个第一频带对应有等间隔分布的至少一组频带,所述至少一组频带包括第四频带、且所述第四频带对应的谐波匹配比小于第二阈值,则确定所述频域信号的所述第四频带处存在周期性音调分量,其中,一组频带中包括至少三个频带;
所述第四频带对应的谐波匹配比如下公式一:
其中,所述P(n)为所述第四频带,所述n用于指示所述第四频带为第n个第一频带,所述ΔP(n)为所述第四频带与对应的等间隔分布的频带之间的间隔值。
在另一种可能的实施方式中,所述处理器21具体用于:
在确定所述M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于所述第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势;
根据所述分布趋势确定搜索范围;
若在第一音频帧集合的所述搜索范围内存在周期性音调分量,则确定所述第一音频帧集合中的周期性音调分量与处于所述第五频带的初始音调分量呈连续性分布。
在另一种可能的实施方式中,所述处理器21具体用于:
在确定所述第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据所述第六频带的值,在第二音频帧中确定搜索范围,所述第二音频帧为所述第一音频帧的前一个音频帧;
判断在所述第二音频帧的所述搜索范围内是否存在周期性音调分量;
若是,则确定所述第六频带处存在连续性音调分量;
若否,若在第二音频帧的所述搜索范围内不存在初始音调分量,则确定所述第六频带处不存在连续性音调分量;若在第二音频帧的所述搜索范围内的第七频带处存在初始音调分量,则将所述第二音频帧的前一个音频帧确定为新的第二音频帧,根据所述第七频带的值和第八频带的值更新所述搜索范围,并将所述第八频带的值更新为所述第七频带的值,重复执行上述判断步骤,直至确定所述第六频带为一个第三频带,或者确定所述第六频带处不存在连续性音调分量,或者执行上述判断步骤的次数大于预设次数;其中,初始时,所述第八频带的值等于所述第六频带的值。
本申请提供的人声增强设备可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本申请还提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述任意方法实施例所述的方法。
本申请还提供一种芯片系统,其特征在于,所述芯片系统包括处理器,用于执行上述任意方法实施例所述的方法。
结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。
Claims (13)
1.一种人声增强方法,其特征在于,包括:
对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析;
若在所述频域信号中检测到音调分量,则在所述频域信号中确定音调分量所处的频带集合,所述音调分量用于表达人声,所述频带集合中包括N个频带,所述N为大于或等于1的正整数;
根据所述N个频带,确定N个增强滤波器;
通过所述N个增强滤波器,对所述频域信号进行增强处理,得到频域增强信号;
对所述第一音频帧的频域信号和所述频域增强信号进行混音,得到人声增强信号。
2.根据权利要求1所述的方法,其特征在于,所述对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析,包括:
对所述频域信号进行初始音调分量检测;
若在所述频域信号中检测出M个第一频带处含有初始音调分量,所述初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且所述初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,所述第一频带为所述第一频带范围的子集,所述第二频带范围为所述第一频带范围的子集,所述M为大于或等于1的整数;
对处于所述M个第一频带的初始音调分量进行周期性分析,确定出是否有第二频带处存在周期性音调分量,所述周期性音调分量用于表达人声;
对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,确定出是否有第三频带处存在连续性音调分量,所述连续性音调分量用于表达人声,第一音频帧集合中的周期性音调分量与处于所述第三频带的初始音调分量呈连续性分布,其中,所述第一音频帧集合包括位于所述第一音频帧之前且与所述第一音频帧相邻的至少一个音频帧;
所述若在所述频域信号中检测到音调分量,则在所述频域信号中确定音调分量所处的频带集合,包括:
若在所述M个第一频带中检测出K个第二频带和L个第三频带,则确定所述频带集合包括所述K个第二频带和所述L个第三频带,所述K为大于或等于0的整数,所述L为大于或等于0的整数。
4.根据权利要求2所述的方法,其特征在于,所述对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,包括:
在确定所述M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于所述第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势;
根据所述分布趋势确定搜索范围;
若在第一音频帧集合的所述搜索范围内存在周期性音调分量,则确定所述第五频带处存在连续性音调分量。
5.根据权利要求2所述的方法,其特征在于,所述对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,包括:
在确定所述第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据所述第六频带的值,在第二音频帧中确定搜索范围,所述第二音频帧为所述第一音频帧的前一个音频帧;
判断在所述第二音频帧的所述搜索范围内是否存在周期性音调分量;
若是,则确定所述第六频带处存在连续性音调分量;
若否,若在第二音频帧的所述搜索范围内不存在初始音调分量,则确定所述第六频带处不存在连续性音调分量;若在第二音频帧的所述搜索范围内的第七频带处存在初始音调分量,则将所述第二音频帧的前一个音频帧确定为新的第二音频帧,根据所述第七频带的值和第八频带的值更新所述搜索范围,并将所述第八频带的值更新为所述第七频带的值,重复执行上述判断步骤,直至确定所述第六频带处存在连续性音调分量,或者确定所述第六频带处不存在连续性音调分量,或者执行上述判断步骤的次数大于预设次数;其中,初始时,所述第八频带的值等于所述第六频带的值。
6.一种人声增强装置,其特征在于,包括分析模块、第一确定模块、第二确定模块、增强模块和混音模块,其中,
所述分析模块用于,对第一音频帧的频域信号进行初始音调分量检测、周期性分析和连续性分析;
所述第一确定模块用于,在所述分析模块在所述频域信号中检测到音调分量时,在所述频域信号中确定音调分量所处的频带集合,所述音调分量用于表达人声,所述频带集合中包括N个频带,所述N为大于或等于1的正整数;
所述第二确定模块用于,根据所述N个频带,确定N个增强滤波器;
所述增强模块用于,通过所述N个增强滤波器,对所述频域信号进行增强处理,得到频域增强信号;
所述混音模块用于,对所述第一音频帧的频域信号和所述频域增强信号进行混音,得到人声增强信号。
7.根据权利要求6所述的装置,其特征在于,所述分析模块具体用于:
对所述频域信号进行初始音调分量检测;
若在所述频域信号中检测出M个第一频带处含有初始音调分量,所述初始音调分量所处的第一频带的功率密度谱在第一频带范围内为一个极大值,且所述初始音调分量所处的第一频带的功率密度谱与第二频带范围内的各频带对应的功率密度谱之差大于第一阈值,所述第一频带为所述第一频带范围的子集,所述第二频带范围为所述第一频带范围的子集,所述M为大于或等于1的整数;
对处于所述M个第一频带的初始音调分量进行周期性分析,确定出是否有第二频带处存在周期性音调分量,所述周期性音调分量用于表达人声;
对处于所述M个第一频带的初始音调分量中的非周期性音调分量进行连续性分析,确定出是否有第三频带处存在连续性音调分量,所述连续性音调分量用于表达人声,第一音频帧集合中的周期性音调分量与处于所述第三频带的初始音调分量呈连续性分布,其中,所述第一音频帧集合包括位于所述第一音频帧之前且与所述第一音频帧相邻的至少一个音频帧;
所述第一确定模块具体用于:
若在所述M个第一频带中检测出K个第二频带和L个第三频带,则确定所述频带集合包括所述K个第二频带和所述L个第三频带,所述K为大于或等于0的整数,所述L为大于或等于0的整数。
9.根据权利要求7所述的装置,其特征在于,所述分析模块具体用于:
在确定所述M个第一频带中的第五频带处具有初始音调分量、且不具有周期性音调分量时,确定位于所述第一音频帧集合中的初始音调分量的与第五频带处的初始音调分量的分布趋势;
根据所述分布趋势确定搜索范围;
若在第一音频帧集合的所述搜索范围内存在周期性音调分量,则确定所述第五频带处存在连续性音调分量。
10.根据权利要求7所述的装置,其特征在于,所述分析模块具体用于:
在确定所述第一频带中的第六频带处具有初始音调分量、且不具有周期性音调分量时,根据所述第六频带的值,在第二音频帧中确定搜索范围,所述第二音频帧为所述第一音频帧的前一个音频帧;
判断在所述第二音频帧的所述搜索范围内是否存在周期性音调分量;
若是,则确定所述第六频带处存在连续性音调分量;
若否,若在第二音频帧的所述搜索范围内不存在初始音调分量,则确定所述第六频带处不存在连续性音调分量;若在第二音频帧的所述搜索范围内的第七频带处存在初始音调分量,则将所述第二音频帧的前一个音频帧确定为新的第二音频帧,根据所述第七频带的值和第八频带的值更新所述搜索范围,并将所述第八频带的值更新为所述第七频带的值,重复执行上述判断步骤,直至确定所述第六频带处存在连续性音调分量,或者确定所述第六频带处不存在连续性音调分量,或者执行上述判断步骤的次数大于预设次数;其中,初始时,所述第八频带的值等于所述第六频带的值。
11.一种人声增强设备,其特征在于,包括处理器、存储器及通信总线,所述通信总线用于实现各元器件之间的连接,所述存储器用于存储程序指令,所述处理器用于读取所述存储器中的程序指令,并根据所述存储器中的程序指令执行权利要求1-5任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的方法。
13.一种芯片系统,其特征在于,所述芯片系统包括处理器,用于执行权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810089567.9A CN110097888B (zh) | 2018-01-30 | 2018-01-30 | 人声增强方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810089567.9A CN110097888B (zh) | 2018-01-30 | 2018-01-30 | 人声增强方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110097888A CN110097888A (zh) | 2019-08-06 |
CN110097888B true CN110097888B (zh) | 2021-08-20 |
Family
ID=67441855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810089567.9A Active CN110097888B (zh) | 2018-01-30 | 2018-01-30 | 人声增强方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097888B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278352A (zh) * | 2022-06-22 | 2022-11-01 | 北京字跳网络技术有限公司 | 一种视频播放方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4150253A (en) * | 1976-03-15 | 1979-04-17 | Inter-Technology Exchange Ltd. | Signal distortion circuit and method of use |
CN1672325A (zh) * | 2002-06-05 | 2005-09-21 | 索尼克焦点公司 | 声虚拟现实引擎和增强传送音的高级技术 |
EP1853092A1 (en) * | 2006-05-04 | 2007-11-07 | Lg Electronics Inc. | Enhancing stereo audio with remix capability |
CN106373594A (zh) * | 2016-08-31 | 2017-02-01 | 华为技术有限公司 | 一种音调检测方法及装置 |
-
2018
- 2018-01-30 CN CN201810089567.9A patent/CN110097888B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4150253A (en) * | 1976-03-15 | 1979-04-17 | Inter-Technology Exchange Ltd. | Signal distortion circuit and method of use |
CN1672325A (zh) * | 2002-06-05 | 2005-09-21 | 索尼克焦点公司 | 声虚拟现实引擎和增强传送音的高级技术 |
EP1853092A1 (en) * | 2006-05-04 | 2007-11-07 | Lg Electronics Inc. | Enhancing stereo audio with remix capability |
CN106373594A (zh) * | 2016-08-31 | 2017-02-01 | 华为技术有限公司 | 一种音调检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
《带低频增强的听觉激励器原理及应用》;边世勇;《广播与电视技术》;20020228(第02期);第83-87页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110097888A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
CN110634497A (zh) | 降噪方法、装置、终端设备及存储介质 | |
CN110718211B (zh) | 一种基于混合压缩卷积神经网络的关键词识别系统 | |
JP6493889B2 (ja) | 音声信号を検出するための方法および装置 | |
CN106571146B (zh) | 噪音信号确定方法、语音去噪方法及装置 | |
JP7179144B2 (ja) | 適応チャネル間弁別的リスケーリングフィルタ | |
KR20150058483A (ko) | 오디오 신호의 비트를 할당하는 방법 및 장치 | |
CN110111811B (zh) | 音频信号检测方法、装置和存储介质 | |
CN111415653B (zh) | 用于识别语音的方法和装置 | |
US11749295B2 (en) | Pitch emphasis apparatus, method and program for the same | |
CN110097888B (zh) | 人声增强方法、装置及设备 | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN112669878B (zh) | 声音增益值的计算方法、装置和电子设备 | |
CN110085214B (zh) | 音频起始点检测方法和装置 | |
US9398387B2 (en) | Sound processing device, sound processing method, and program | |
US9420375B2 (en) | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on spectrum of multichannel audio signals | |
US9215350B2 (en) | Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same | |
CN115116469A (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
CN110097893B (zh) | 音频信号的转换方法及装置 | |
CN110335623B (zh) | 音频数据处理方法及装置 | |
CN109378012B (zh) | 用于单通道语音设备录制音频的降噪方法及系统 | |
CN110415721B (zh) | 一种计算截止频率的方法及装置 | |
CN112309418A (zh) | 一种抑制风噪声的方法及装置 | |
CN112614512A (zh) | 噪声检测的方法和装置 | |
CN117831555A (zh) | 语音降噪方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |