CN105741835A - 一种音频信息处理方法及终端 - Google Patents
一种音频信息处理方法及终端 Download PDFInfo
- Publication number
- CN105741835A CN105741835A CN201610157251.XA CN201610157251A CN105741835A CN 105741835 A CN105741835 A CN 105741835A CN 201610157251 A CN201610157251 A CN 201610157251A CN 105741835 A CN105741835 A CN 105741835A
- Authority
- CN
- China
- Prior art keywords
- audio
- channel
- energy value
- requirement
- specific attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 24
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims description 41
- 230000001755 vocal effect Effects 0.000 claims description 39
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 4
- 230000008447 perception Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 244000241872 Lycium chinense Species 0.000 description 2
- 235000015468 Lycium chinense Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/12—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
- G10H1/125—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/005—Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/041—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2230/00—General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
- G10H2230/025—Computing or signal processing architecture features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/055—Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
- G10H2250/071—All pole filter, i.e. autoregressive [AR] filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/261—Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
- G10H2250/275—Gaussian window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Stereophonic System (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种音频信息处理方法及终端,包括:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
Description
技术领域
本发明涉及信息处理技术,尤其涉及一种音频信息处理方法及终端。
背景技术
传统的具有伴奏功能的音频文件一般具有两个声道,一个是原声声道(伴奏+人声)、一个是伴奏声道,用于在用户k歌时进行切换,但由于没有固定标准,不同渠道获取的音频文件版本不一致,有的第一声道是伴奏,有的是第二声道是伴奏,导致在得到这些音频文件后无法确认哪一个声道是伴奏声道,通常需要人工识别或设备自动分辨后将其调整为统一格式后才能上线。
然而,若通过人工过滤,效率低、成本高;而很多伴奏音频存在大量的人声伴唱等原因,采用设备分辨的方式正确率不高。对于上述问题,目前尚无有效解决方案。
发明内容
本发明实施例提供一种音频信息处理方法及终端,至少解决了现有技术中存在的问题,能够高效、准确的分辨音频文件对应的伴奏声道。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种音频信息处理方法,所述方法包括:
对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;
从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;
获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;
基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
上述方案中,所述方法还包括:
分别对预设的多个音频文件进行频谱特征提取;
对提取的频谱特征采用误差反向传播(BP)算法训练得到深度神经网络(DNN)模型;
所述从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据,包括:
采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。
上述方案中,所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:
检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;
或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。
上述方案中,所述方法还包括:
对预设的多个音频文件进行感知线性预测(PLP)特征参数提取;
基于提取的PLP特征参数采用最大期望(EM)算法训练得到混合高斯模型(GMM);
所述采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:
采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道;
判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值;
当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时,确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。
上述方案中,所述方法还包括:
当判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时,输出提示信息。
上述方案中,所述第一音频数据表征所述第一声道输出的人声音频,所述第二音频数据表征所述第二声道输出的人声音频;
所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:
基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出伴奏音频的声道。
上述方案中,所述确定所述第一声道或所述第二声道为满足特定属性需求的声道之后,所述方法还包括:
标记所述满足特定属性需求的声道;
确定需要进行声道切换时,基于对所述满足特定属性需求的声道的标记进行声道的切换;
或者,将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道。
本发明实施例还提供了一种终端,所述终端包括:解码模块、提取模块、获取模块及处理模块;其中,
所述解码模块,用于对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;
所述提取模块,用于从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;
所述获取模块,用于获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;
所述处理模块,用于基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
上述方案中,所述终端还包括第一模型训练模块,用于分别对预设的多个音频文件进行频谱特征提取;
对提取的频谱特征采用误差反向传播(BP)算法训练得到深度神经网络(DNN)模型;
所述提取模块,还用于采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。
上述方案中,所述处理模块,还用于检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;
或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。
上述方案中,所述终端还包括第二模型训练模块,用于对预设的多个音频文件进行感知线性预测(PLP)特征参数提取;
基于提取的PLP特征参数采用最大期望(EM)算法训练得到混合高斯模型(GMM);
所述处理模块,还用于采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道;
判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值;
当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时,确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。
上述方案中,所述处理模块,还用于在判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时,输出提示信息。
上述方案中,所述第一音频数据表征所述第一声道输出的人声音频,所述第二音频数据表征所述第二声道输出的人声音频;
所述处理模块,还用于基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出伴奏音频的声道。
上述方案中,所述处理模块,还用于标记所述满足特定属性需求的声道;
确定需要进行声道切换时,基于对所述满足特定属性需求的声道的标记进行声道的切换;
或者,将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道。
应用本发明上述实施例,通过对第一音频文件进行双声道解码获得对应的第一音频子文件及第二音频子文件,然后进行音频数据提取,获取属性相同的第一音频数据及第二音频数据,最后基于第一音频能量值及所述第二音频能量值,确定第一声道或所述第二声道为满足特定属性需求的声道;如此,可高效、准确的分辨音频文件对应的伴奏声道及原唱声道,解决了现有技术中通过人工分辨耗费人力成本、效率低的问题,以及解决了现有技术中通过设备自行分辨的准确率低的问题。
附图说明
图1为需要被分辨的双声道音乐示意图;
图2为本发明实施例中音频信息处理方法流程示意图一;
图3为本发明实施例中训练得到DNN模型的方法流程示意图;
图4为本发明实施例中DNN模型示意图;
图5为本发明实施例中音频信息处理方法流程示意图二;
图6为本发明实施例中PLP参数提取的流程示意图;
图7为本发明实施例中音频信息处理方法流程示意图三;
图8为本发明实施例中清唱数据提取过程示意图;
图9为本发明实施例中音频信息处理方法流程示意图四;
图10为本发明实施例中终端的组成结构示意图;
图11为本发明实施例中终端的一个硬件组成结构示意图。
具体实施方式
目前采用设备自动分辨音频文件对应的伴奏声道主要是采用训练支持向量机(SVM,SupportVectorMachine)模型或高斯混合模型(GMM,GaussianMixtureModel)来实现,由于双声道音频频谱分布差距小,如图1所示,很多伴奏音频存在大量的人声伴唱等原因,因此分辨正确率不高。
本发明实施例提供的音频信息处理方法可以应用在一个应用软件中,具体该应用软件可以为全民K歌软件,即本发明所述音频信息处理方法的应用场景可以为全民K歌,应用本发明所述实施例,可以基于机器学习,自动、快速、准确的分辨音频文件对应的伴奏声道。
在本发明实施例中,对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例一
图2为本发明实施例中音频信息处理方法流程示意图,如图2所示,本发明实施例中音频信息处理方法包括:
步骤201:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件。
这里,第一音频文件可以为任意待分辨其伴奏/原唱声道的音乐文件,第一声道及第二声道可以分别为左声道及右声道,相应的,第一音频子文件及第二音频子文件可以分别为对应第一音频文件的伴奏文件及原唱文件。例如,对一首歌曲进行解码获得表征左声道输出的伴奏文件/原唱文件,以及获得表征右声道输出的原唱文件/伴奏文件。
步骤202:从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。
这里,第一音频数据和第二音频数据表征的属性相同,如第一音频数据和第二音频数据均为人声音频,在这种情况下,也即,提取第一音频子文件中的人声音频,以及提取第二音频子文件中的人声音频;而具体提取人声音频的方式可以为任意可从音频文件中提取人声音频的实现方式,例如,在实际实施时,可训练深度神经网络(DNN,DeepNeuralNetworks)模型,采用训练的DNN模型进行音频文件中人声音频的提取,如:当第一音频文件为一首歌曲时,若第一音频子文件为伴奏音频文件,第二音频子文件为原唱音频文件,则采用DNN模型提取伴奏音频文件中的人声伴奏数据,提取原唱音频文件中人的清唱数据。
步骤203:获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值。
这里,第一音频能量值为所述第一音频数据的平均音频能量值,第二音频能量值为所述第二音频数据的平均音频能量值;在实际应用中,可采用不同的方法获取音频数据对应的平均音频能量值,例如,由于音频数据是由多个采样点组成的,而每个采样点对应0~32767间的一个值,取所有采样点值的平均值即为该音频数据对应的平均音频能量值,如此,取第一音频数据所有采样点的平均值为第一音频能量值,取第二音频数据所有采样点的平均值为第二音频能量值。
步骤204:基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
这里,所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出伴奏音频的声道。
基于本发明所述实施例,在实际实施时,满足特定属性需求的声道可以为第一声道及第二声道中输出第一音频文件的音频为伴奏音频的声道,例如,对于一首歌曲来说,满足特定属性需求的声道可以为左右声道中输出该歌曲对应的伴奏的声道。
在确定满足特定属性需求的声道过程中,具体的,若对于一首歌曲来说,若该歌曲中的人声伴奏较少,相应的,该歌曲的伴奏文件对应的音频能量值则较小,而该歌曲的清唱文件对应的音频能量值则较大,因此,可预先设置一个音频能量差阈值,具体可依据实际需要进行设定,当第一音频能量值及第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的第一音频子文件或第二音频子文件为满足特定属性需求的音频文件(即伴唱文件),所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道(即输出伴奏文件的声道);而当第一音频能量值及第二音频能量值的差值不大于预设能量差阈值时,应用中可能的一种情况便是伴奏音频文件中的人声伴奏相对较多,但由于伴奏音频相对清唱音频,频谱特点仍不相同,因此,可依据其频谱特点区分人声伴奏数据及清唱数据,在初步确定伴奏数据部分后,再依据伴奏数据的平均音频能量小于清唱数据的平均音频能量最终确定伴奏数据,进而得到该伴奏数据对应的声道为满足特定属性需求的声道。
实施例二
图3为本发明实施例中训练得到DNN模型的方法流程示意图,如图3所示,本发明实施例中训练得到DNN模型的方法包括:
步骤301:分别对预设的多个音频文件进行音频解码得到对应的多个PCM音频文件。
这里,预设的多个音频文件可以为从全民K歌曲库中选取的N首原唱歌曲及对应的N首清唱歌曲;N为正整数,由于作为后续训练用,因此N值最好大于2000;由于在全民k歌曲库中已经有了几万首既有原唱又有高品质清唱数据的歌曲(清唱数据挑选的方法主要是通过自由打分系统实现,即选取得分较高的清唱数据),可收集所有这样的歌曲,并从中随机抽取1万首用于后续操作(此处选取1万首主要考虑后续训练的复杂度及准确度)。
将所有预设的原唱文件及对应的清唱文件进行音频解码得到16k16bit的脉冲编码调制(PCM,PulseCodeModulation)音频文件,即得到1万个PCM原唱音频及对应的1万个PCM清唱音频,若用xn1,n1∈(1~10000)表示原唱音频,用yn2,n2∈(1~10000)表示对应的清唱音频,则n1和n2为一一对应关系。
步骤302:对得到的多个PCM音频文件进行频谱特征提取。
具体的,包括如下操作:
1)对音频进行分帧,这里设置帧长为512个采样点、帧移为128个采样点;
2)对每一帧数据加汉明窗,并进行快速傅立叶变换,得到257维实域频谱密度与255维虚域频谱密度,共512维特征zi,i∈(1~512);
3)求每个实域频谱密度与其对应的虚域频谱密度的平方和;
这里,即|S实(f)|2+|S虚(f)|2;其中,f为频率,S实(f)即为傅里叶变化后对应频率为f的时域频谱密度/能量值,得到257维特征ti,i∈(1~257)。
4)对上述结果求loge得到所需的257维频谱特征ln|S(f)|2。
步骤303:对提取的频谱特征采用BP算法训练得到DNN模型。
这里,采用误差反向传播(BP,ErrorBackPropagation)算法训练一个带有3层隐层的深度神经网络,如图4所示,3个隐层的节点个数都为2048,输入层为原唱音频xi,每一帧257维特征向前扩展5帧向后扩展5帧得到的11帧数据共11*257=2827维特征,即a∈[1,2827],输出为清唱音频yi对应帧的257维特征,即b∈[1,257],经过bp算法训练,得到4个矩阵,分别为2827*2048、2048*2048、2048*2048、2048*257维的矩阵。
实施例三
图5为本发明实施例中音频信息处理方法流程示意图,如图5所示,本发明实施例中音频信息处理方法包括:
步骤501:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件。
这里,第一音频文件可以为任意待分辨其伴奏/原唱声道的音乐文件,如为一首待分辨其伴奏/原唱声道的歌曲,第一声道及第二声道可以分别为左声道及右声道,相应的,第一音频子文件及第二音频子文件可以分别为对应第一音频文件的伴奏文件及原唱文件,也就是说,在第一音频文件为歌曲的情况下,本步骤操作即为对该歌曲进行解码,以获得该歌曲左声道输出的伴奏文件/原唱文件,以及获得该歌曲右声道输出的原唱文件/伴奏文件。
步骤502:采用预设的DNN模型分别从第一音频子文件中提取出第一音频数据,以及从第二音频子文件中提取出第二音频数据。
这里,预设的DNN模型为本发明实施例二中采用BP算法预先训练得到的DNN模型;
第一音频数据和第二音频数据表征的属性相同,在本实施例中,第一音频数据和第二音频数据均为人声音频,也即,采用预先训练得到的DNN模型提取第一音频子文件中的人声音频,以及提取第二音频子文件中的人声音频;例如当第一音频文件为一首歌曲时,若第一音频子文件为伴奏音频文件,第二音频子文件为原唱音频文件,则采用DNN模型提取伴奏音频文件中的人声伴奏数据,提取原唱音频文件中人的清唱数据。
采用训练得到的DNN模型提取清唱数据的过程包括:
1)将待提取清唱数据的音频文件解码为16k16bit的PCM音频;
2)采用实施例二中步骤302的方法进行频谱特征提取;
3)假设该假设一共有m帧,为每一帧特征扩展前后各5帧数据得到11*257维特征(此音频文件的前5帧和最后5帧不做此操作),将此输入特征乘以实施例二训练得到的DNN模型各层矩阵,最终得到一个257维输出特征,进而得到m-10帧输出特征,将第1帧向前扩展5帧,最后1帧向后扩展5帧,得到m帧输出结果;
4)对每一帧的每一维特征取ex,得到257维特征ki,i∈(1~257);
5)采用公式得到512维频谱特征;其中,i为512维,j为i对应的频带,为257个,j可以对应1或2个i,变量z及t分别对应步骤2)中得到的zi及ti;
6)对得到的上述512维特征做逆傅里叶变换得到时域特征,将所有帧的时域特征连到一起得到所需的清唱文件。
步骤503:获取第一音频数据的第一音频能量值以及第二音频数据的第二音频能量值。
这里,第一音频能量值为所述第一音频数据的平均音频能量值,第二音频能量值为所述第二音频数据的平均音频能量值;在实际应用中,可采用不同的方法获取音频数据对应的平均音频能量值,例如,由于音频数据是由多个采样点组成的,而每个采样点对应0~32767间的一个值,取所有采样点值的平均值即为该音频数据对应的平均音频能量值,如此,取第一音频数据所有采样点的平均值为第一音频能量值,取第二音频数据所有采样点的平均值为第二音频能量值。
步骤504:判断第一音频能量值及第二音频能量值的差值是否大于预设能量差阈值,如果大于,执行步骤505;否则,执行步骤506。
在实际实施时,对于一首歌曲来说,若该歌曲中的人声伴奏较少,相应的,该歌曲的伴奏文件对应的音频能量值则较小,而该歌曲的清唱文件对应的音频能量值则较大,因此,可预先设置一个音频能量差阈值,具体可依据实际需要进行设定,如可设定为486,当第一音频能量值及第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的那个对应的声道为伴奏声道。
步骤505:确定音频能量值相对小的第一音频能量值或第二音频能量值对应的第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道。
在本发明实施例中,满足特定属性需求的音频文件为第一音频文件对应的伴奏音频文件,满足特定需求的声道为第一声道及第二声道中输出第一音频文件的音频为伴奏音频的声道。
步骤506:采用预设的GMM模型确定第一声道或第二声道为初步满足特定属性需求的声道。
这里,所述预设的GMM模型为预先训练得到的GMM模型,具体训练过程包括:
对预设的多个音频文件进行13维感知线性预测(PLP,PerceptualLinearPredictive)特征参数提取;该PLP参数提取的具体过程可参见图6;
利用提取的PLP特征参数计算一阶差分及二阶差分共39维特征,基于提取的PLP特征参数采用最大期望(EM,ExpectationMaximization)算法训练得到可初步分辨伴奏音频及清唱音频的GMM模型,而在实际实施时,可训练一个伴奏GMM模型,与待分辨的音频数据进行相似度计算,相似度高的一组音频数据即为伴奏音频数据。
在本实施例中,采用预设的GMM模型确定第一声道或第二声道为输出伴奏音频的声道,则确定的该第一声道或第二声道为初步满足特定属性需求的声道。
步骤507:判断初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值,如果是,执行步骤508;否则,执行步骤509。
这里,初步满足特定属性需求的声道对应的音频能量值即:该声道输出的音频文件的音频能量值。
步骤508:确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。所述满足特定属性需求的声道为输出伴奏音频的声道。
在一实施例中,本步骤之后,所述方法还包括:
标记所述满足特定属性需求的声道;
确定需要进行声道切换时,基于对所述满足特定属性需求的声道的标记进行声道的切换;例如,满足特定属性需求的声道为输出伴奏音频的声道,在确定输出伴奏音频的声道(如第一声道)之后,标记该声道为伴奏音频声道,如此,当用户在K歌过程中进行伴奏、原唱间的切换时,可基于标记的声道进行切换;
或者,将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道;如此,可将所有输出伴奏音频/原唱音频的声道进行统一,便于统一管理。
步骤509:输出提示信息。
这里,该提示信息用于提示用户无法分辨所述第一音频文件对应的输出伴奏音频的声道,以使用户通过人工确认。
应用本发明上述实施例,针对音乐文件的特性,先通过训练的DNN模型将音乐中的人声分量提取出来,然后通过对双声道人声能量的比较得到最终分类结果,最终分类正确率可达99%以上。
实施例四
图7为本发明实施例中音频信息处理方法流程示意图,如图7所示,本发明实施例中音频信息处理方法包括:
步骤701:采用预先训练的DNN模型对待检测音乐进行双声道清唱数据提取。
清唱数据提取的具体流程可参见图8所示。
步骤702:分别计算提取的双声道清唱数据的平均音频能量值。
步骤703:判断双声道清唱数据的音频能量差值是否大于预设阈值,如果是,执行步骤704;否则,执行步骤705。
步骤704:确定平均音频能量值小的清唱数据对应的声道为伴奏声道。
步骤705:采用预先训练的GMM对双声道输出的待检测音乐进行分类。
步骤706:判断分类结果为伴奏音频的声道对应的音频能量值是否较小,如果是,执行步骤707;否则,执行步骤708。
步骤707:确定音频能量值较小的声道为伴奏声道。
步骤708:输出无法判断、需人工确认的提示信息。
在实际实施本发明所述音频信息处理方法时,对双声道清唱数据的提取操作,以及采用预设GMM进行伴奏音频声道的确定操作可同时进行,然后采用一个回归函数执行上述步骤703~708的操作,需要说明的是,由于步骤705的操作已提前执行,因此采用回归函数执行时跳过步骤705的操作,如图9所示。
实施例五
图10为本发明实施例中终端的组成结构示意图;如图10所示,本发明实施例中终端的组成包括:解码模块11、提取模块12、获取模块13及处理模块14;其中,
所述解码模块11,用于对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;
所述提取模块12,用于从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;
所述获取模块13,用于获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;
所述处理模块14,用于基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
本实施例中,所述第一音频数据表征所述第一声道输出的人声音频,所述第二音频数据表征所述第二声道输出的人声音频;
所述处理模块14,还用于基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出伴奏音频的声道。
在一实施例中,所述终端还包括第一模型训练模块15,用于分别对预设的多个音频文件进行频谱特征提取;
对提取的频谱特征采用误差反向传播(BP)算法训练得到DNN模型;
相应的,所述提取模块12,还用于采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。
在一实施例中,所述处理模块14,还用于检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;
或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。
在一实施例中,所述终端还包括第二模型训练模块16,用于对预设的多个音频文件进行感知线性预测(PLP)特征参数提取;
基于提取的PLP特征参数采用最大期望(EM)算法训练得到混合高斯模型(GMM);
相应的,所述处理模块14,还用于采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道;
判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值;
当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时,确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。
在一实施例中,所述处理模块14,还用于在判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时,输出提示信息。
图11为本发明实施例中终端的一个硬件组成结构示意图,该终端作为硬件实体S11的一个示例如图11所示。所述终端包括处理器111、存储介质112以及至少一个外部通信接口113;处理器111、存储介质112以及外部通信接口113均通过总线114连接。
需要说明的是,本发明实施例中所述终端可以为手机、台式机、PC、一体机等类型,当然,所述音频信息处理方法也可以由服务器来操作实现。
这里需要指出的是:以上涉及终端的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。对于本发明所述终端实施例中未披露的技术细节,请参照本发明方法实施例的描述。
在本发明实施例中,所述终端中的解码模块11、提取模块12、获取模块13、处理模块14、第一模型训练模块15及第二模型训练模块16均可由终端中的中央处理器(CPU,CentralProcessingUnit)或数字信号处理器(DSP,DigitalSignalProcessor)、或现场可编程门阵列(FPGA,FieldProgrammableGateArray)、或集成电路(ASIC,ApplicationSpecificIntegratedCircuit)实现。
当然,本发明实施例的音频信息处理方法不限于应用于终端中,也可应用于服务器中,例如网页服务器、或音乐类应用软件(例如全民K歌应用软件)对应的服务器中。具体的处理过程可参见前述实施例的描述,这里不再赘述。
本领域的技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、随机存取存储器(RAM,RandomAccessMemory)、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种音频信息处理方法,其特征在于,所述方法包括:
对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;
从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;
获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;
基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分别对预设的多个音频文件进行频谱特征提取;
对提取的频谱特征采用误差反向传播BP算法训练得到深度神经网络DNN模型;
所述从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据,包括:
采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。
3.根据权利要求1或2所述的方法,其特征在于,
所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:
检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;
或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对预设的多个音频文件进行感知线性预测PLP特征参数提取;
基于提取的PLP特征参数采用最大期望EM算法训练得到混合高斯模型GMM;
所述采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:
采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道;
判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值;
当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时,确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时,输出提示信息。
6.根据权利要求1所述的方法,其特征在于,所述第一音频数据表征所述第一声道输出的人声音频,所述第二音频数据表征所述第二声道输出的人声音频;
所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:
基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出伴奏音频的声道。
7.根据权利要求1所述的方法,其特征在于,所述确定所述第一声道或所述第二声道为满足特定属性需求的声道之后,所述方法还包括:
标记所述满足特定属性需求的声道;
确定需要进行声道切换时,基于对所述满足特定属性需求的声道的标记进行声道的切换;
或者,将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道。
8.一种终端,其特征在于,所述终端包括:解码模块、提取模块、获取模块及处理模块;其中,
所述解码模块,用于对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;
所述提取模块,用于从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;
所述获取模块,用于获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;
所述处理模块,用于基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
9.根据权利要求8所述的终端,其特征在于,
所述终端还包括第一模型训练模块,用于分别对预设的多个音频文件进行频谱特征提取;
对提取的频谱特征采用误差反向传播BP算法训练得到深度神经网络DNN模型;
所述提取模块,还用于采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。
10.根据权利要求8或9所述的终端,其特征在于,
所述处理模块,还用于检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;
或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。
11.根据权利要求10所述的终端,其特征在于,
所述终端还包括第二模型训练模块,用于对预设的多个音频文件进行感知线性预测PLP特征参数提取;
基于提取的PLP特征参数采用最大期望EM算法训练得到混合高斯模型GMM;
所述处理模块,还用于采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道;
判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值;
当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时,确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。
12.根据权利要求11所述的终端,其特征在于,
所述处理模块,还用于在判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时,输出提示信息。
13.根据权利要求8所述的终端,其特征在于,
所述第一音频数据表征所述第一声道输出的人声音频,所述第二音频数据表征所述第二声道输出的人声音频;
所述处理模块,还用于基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出伴奏音频的声道。
14.根据权利要求8所述的终端,其特征在于,
所述处理模块,还用于标记所述满足特定属性需求的声道;
确定需要进行声道切换时,基于对所述满足特定属性需求的声道的标记进行声道的切换;
或者,将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610157251.XA CN105741835B (zh) | 2016-03-18 | 2016-03-18 | 一种音频信息处理方法及终端 |
MYPI2018701314A MY185366A (en) | 2016-03-18 | 2017-03-16 | Audio information processing method and device |
US15/762,841 US10410615B2 (en) | 2016-03-18 | 2017-03-16 | Audio information processing method and apparatus |
JP2018521411A JP6732296B2 (ja) | 2016-03-18 | 2017-03-16 | オーディオ情報処理方法およびデバイス |
PCT/CN2017/076939 WO2017157319A1 (zh) | 2016-03-18 | 2017-03-16 | 音频信息处理方法及装置 |
KR1020187010355A KR102128926B1 (ko) | 2016-03-18 | 2017-03-16 | 오디오 정보 처리 방법 및 디바이스 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610157251.XA CN105741835B (zh) | 2016-03-18 | 2016-03-18 | 一种音频信息处理方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105741835A true CN105741835A (zh) | 2016-07-06 |
CN105741835B CN105741835B (zh) | 2019-04-16 |
Family
ID=56251827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610157251.XA Active CN105741835B (zh) | 2016-03-18 | 2016-03-18 | 一种音频信息处理方法及终端 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10410615B2 (zh) |
JP (1) | JP6732296B2 (zh) |
KR (1) | KR102128926B1 (zh) |
CN (1) | CN105741835B (zh) |
MY (1) | MY185366A (zh) |
WO (1) | WO2017157319A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375780A (zh) * | 2016-10-20 | 2017-02-01 | 腾讯音乐娱乐(深圳)有限公司 | 一种多媒体文件生成方法及其设备 |
WO2017157319A1 (zh) * | 2016-03-18 | 2017-09-21 | 腾讯科技(深圳)有限公司 | 音频信息处理方法及装置 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108461086A (zh) * | 2016-12-13 | 2018-08-28 | 北京唱吧科技股份有限公司 | 一种音频的实时切换方法和装置 |
CN109102800A (zh) * | 2018-07-26 | 2018-12-28 | 广州酷狗计算机科技有限公司 | 一种确定歌词显示数据的方法和装置 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
CN114615534A (zh) * | 2022-01-27 | 2022-06-10 | 海信视像科技股份有限公司 | 显示设备及音频处理方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098081B (zh) * | 2016-06-01 | 2020-11-27 | 腾讯科技(深圳)有限公司 | 声音文件的音质识别方法及装置 |
CN106448630B (zh) * | 2016-09-09 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 歌曲的数字乐谱文件的生成方法和装置 |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
CN111061909B (zh) * | 2019-11-22 | 2023-11-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏分类方法和装置 |
CN113420771B (zh) * | 2021-06-30 | 2024-04-19 | 扬州明晟新能源科技有限公司 | 一种基于特征融合的有色玻璃检测方法 |
CN113744708B (zh) * | 2021-09-07 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、音频评价方法、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330497A (ja) * | 2002-05-15 | 2003-11-19 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化方法及び装置、符号化及び復号化システム、並びに符号化を実行するプログラム及び当該プログラムを記録した記録媒体 |
CN101577117A (zh) * | 2009-03-12 | 2009-11-11 | 北京中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101894559A (zh) * | 2010-08-05 | 2010-11-24 | 展讯通信(上海)有限公司 | 音频处理方法及其装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4331376C1 (de) * | 1993-09-15 | 1994-11-10 | Fraunhofer Ges Forschung | Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen |
US7630500B1 (en) * | 1994-04-15 | 2009-12-08 | Bose Corporation | Spatial disassembly processor |
US5719344A (en) * | 1995-04-18 | 1998-02-17 | Texas Instruments Incorporated | Method and system for karaoke scoring |
DE10109648C2 (de) * | 2001-02-28 | 2003-01-30 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
DE60217484T2 (de) * | 2001-05-11 | 2007-10-25 | Koninklijke Philips Electronics N.V. | Schätzung der signalleistung in einem komprimierten audiosignal |
DE10123281C1 (de) * | 2001-05-14 | 2002-10-10 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion |
JP4068069B2 (ja) | 2004-01-13 | 2008-03-26 | 株式会社第一興商 | バックコーラス音量を自動制御するカラオケ装置 |
WO2006134366A1 (en) * | 2005-06-17 | 2006-12-21 | Cambridge Enterprise Limited | Restoring corrupted audio signals |
KR100772386B1 (ko) * | 2005-12-10 | 2007-11-01 | 삼성전자주식회사 | 음악 파일 분류 방법 및 그 시스템 |
KR101215937B1 (ko) * | 2006-02-07 | 2012-12-27 | 엘지전자 주식회사 | IOI 카운트(inter onset intervalcount) 기반 템포 추정 방법 및 이를 위한 템포 추정장치 |
US8378964B2 (en) * | 2006-04-13 | 2013-02-19 | Immersion Corporation | System and method for automatically producing haptic events from a digital audio signal |
US8954175B2 (en) * | 2009-03-31 | 2015-02-10 | Adobe Systems Incorporated | User-guided audio selection from complex sound mixtures |
KR101387195B1 (ko) * | 2009-10-05 | 2014-04-21 | 하만인터내셔날인더스트리스인코포레이티드 | 오디오 신호의 공간 추출 시스템 |
US8489403B1 (en) * | 2010-08-25 | 2013-07-16 | Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ | Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission |
JP2016514856A (ja) * | 2013-03-21 | 2016-05-23 | インテレクチュアル ディスカバリー カンパニー リミテッド | オーディオ信号大きさの制御方法及び装置 |
EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
CN105741835B (zh) * | 2016-03-18 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法及终端 |
-
2016
- 2016-03-18 CN CN201610157251.XA patent/CN105741835B/zh active Active
-
2017
- 2017-03-16 KR KR1020187010355A patent/KR102128926B1/ko active IP Right Grant
- 2017-03-16 MY MYPI2018701314A patent/MY185366A/en unknown
- 2017-03-16 WO PCT/CN2017/076939 patent/WO2017157319A1/zh active Application Filing
- 2017-03-16 US US15/762,841 patent/US10410615B2/en active Active
- 2017-03-16 JP JP2018521411A patent/JP6732296B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330497A (ja) * | 2002-05-15 | 2003-11-19 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化方法及び装置、符号化及び復号化システム、並びに符号化を実行するプログラム及び当該プログラムを記録した記録媒体 |
CN101577117A (zh) * | 2009-03-12 | 2009-11-11 | 北京中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101894559A (zh) * | 2010-08-05 | 2010-11-24 | 展讯通信(上海)有限公司 | 音频处理方法及其装置 |
Non-Patent Citations (1)
Title |
---|
ERIC’S MEMO PAD: "KTV自动声道判断", 《HTTP://ERICPENG1968.BLOGSPOT.COM/2015/08/KTV_5.HTML》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017157319A1 (zh) * | 2016-03-18 | 2017-09-21 | 腾讯科技(深圳)有限公司 | 音频信息处理方法及装置 |
US10410615B2 (en) | 2016-03-18 | 2019-09-10 | Tencent Technology (Shenzhen) Company Limited | Audio information processing method and apparatus |
CN106375780A (zh) * | 2016-10-20 | 2017-02-01 | 腾讯音乐娱乐(深圳)有限公司 | 一种多媒体文件生成方法及其设备 |
CN106375780B (zh) * | 2016-10-20 | 2019-06-04 | 腾讯音乐娱乐(深圳)有限公司 | 一种多媒体文件生成方法及其设备 |
CN108461086A (zh) * | 2016-12-13 | 2018-08-28 | 北京唱吧科技股份有限公司 | 一种音频的实时切换方法和装置 |
CN108461086B (zh) * | 2016-12-13 | 2020-05-15 | 北京唱吧科技股份有限公司 | 一种音频的实时切换方法和装置 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108231091B (zh) * | 2018-01-24 | 2021-05-25 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN109102800A (zh) * | 2018-07-26 | 2018-12-28 | 广州酷狗计算机科技有限公司 | 一种确定歌词显示数据的方法和装置 |
CN114615534A (zh) * | 2022-01-27 | 2022-06-10 | 海信视像科技股份有限公司 | 显示设备及音频处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105741835B (zh) | 2019-04-16 |
JP6732296B2 (ja) | 2020-07-29 |
US20180293969A1 (en) | 2018-10-11 |
KR102128926B1 (ko) | 2020-07-01 |
JP2019502144A (ja) | 2019-01-24 |
MY185366A (en) | 2021-05-11 |
US10410615B2 (en) | 2019-09-10 |
KR20180053714A (ko) | 2018-05-23 |
WO2017157319A1 (zh) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105741835B (zh) | 一种音频信息处理方法及终端 | |
US9313593B2 (en) | Ranking representative segments in media data | |
CN104395953B (zh) | 来自音乐音频信号的拍子、和弦和强拍的评估 | |
WO2015114216A2 (en) | Audio signal analysis | |
CN106898339B (zh) | 一种歌曲的合唱方法及终端 | |
WO2020237769A1 (zh) | 一种伴奏纯净度评估方法以及相关设备 | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN111108557A (zh) | 修改音频对象的风格的方法、以及对应电子装置、计算机可读程序产品和计算机可读存储介质 | |
CN111210850B (zh) | 歌词对齐方法及相关产品 | |
CN111859011A (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN104143340B (zh) | 一种音频测评方法及装置 | |
Valero et al. | Narrow-band autocorrelation function features for the automatic recognition of acoustic environments | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN106503181B (zh) | 一种音频数据处理方法及装置 | |
CN106782612B (zh) | 一种逆向爆音检测方法及其装置 | |
CN111243618B (zh) | 用于确定音频中的特定人声片段的方法、装置和电子设备 | |
Rosenzweig et al. | Detecting Stable Regions in Frequency Trajectories for Tonal Analysis of Traditional Georgian Vocal Music. | |
CN107025902B (zh) | 数据处理方法及装置 | |
Zhan et al. | Audio post-processing detection and identification based on audio features | |
CN107133344B (zh) | 一种数据处理方法及装置 | |
US20240038258A1 (en) | Audio content identification | |
CN115394317A (zh) | 一种音频评测方法和装置 | |
Wu et al. | Blind bandwidth extension using k-means and support vector regression | |
Shirali-Shahreza et al. | Fast and scalable system for automatic artist identification | |
Li et al. | Main melody extraction from polyphonic music based on frequency amplitude and multi-octave relation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |