CN106256001B - 信号分类方法和装置以及使用其的音频编码方法和装置 - Google Patents

信号分类方法和装置以及使用其的音频编码方法和装置 Download PDF

Info

Publication number
CN106256001B
CN106256001B CN201580021378.2A CN201580021378A CN106256001B CN 106256001 B CN106256001 B CN 106256001B CN 201580021378 A CN201580021378 A CN 201580021378A CN 106256001 B CN106256001 B CN 106256001B
Authority
CN
China
Prior art keywords
signal
current frame
classification result
music
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580021378.2A
Other languages
English (en)
Other versions
CN106256001A (zh
Inventor
朱基岘
安东·维克托罗维奇·普罗夫
康斯坦丁·谢尔盖耶维奇·奥斯波夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN201911345336.0A priority Critical patent/CN110992965B/zh
Publication of CN106256001A publication Critical patent/CN106256001A/zh
Application granted granted Critical
Publication of CN106256001B publication Critical patent/CN106256001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及了一种音频编码,更具体地,涉及一种能够减小由于编码模式切换而导致的延迟同时提高重建的声音的质量的信号分类方法和装置以及使用所述信号分类方法和装置的音频编码方法和装置。所述信号分类方法可包括以下操作:将当前帧分类为语音信号和音乐信号中的一个;基于从多个帧获得的特征参数,确定对当前帧进行分类的结果是否包含错误;并且依据确定的结果,修正对当前帧进行分类的结果。通过基于修正参数修正音频信号的初始分类结果,本发明能够确定针对音频信号的特征的最优编码模式并且能够防止帧之间的频繁的编码模式切换。

Description

信号分类方法和装置以及使用其的音频编码方法和装置
技术领域
一个或更多个示例性实施例涉及音频编码,更具体地,涉及一种能够提高恢复的声音的质量并且减少由于编码模式切换而导致的延迟的信号分类方法和设备以及一种采用所述信号分类方法和装置的音频编码方法和设备。
背景技术
众所周知,音乐信号在频域中被有效地编码并且语音信号在时域中被有效地编码。因此,已经提出了对混合了音乐信号和语音信号的音频信号与音乐信号相应还是与语音信号相应进行分类并且响应于分类的结果确定编码模式的各种技术。
然而,编码模式的频繁切换导致发生延迟和恢复的声音的质量的劣化,并且修正初始分类结果的技术还未提出,因此,当初始信号分类中存在错误时,会发生恢复的声音质量的劣化。
发明内容
技术问题
一个或更多个示例性实施例包括一种能够通过确定编码模式以便适合于音频信号的特征来提高恢复的声音质量的信号分类方法和设备、以及一种采用所述信号分类方法和设备的音频编码方法和设备。
一个或更多个示例性实施例包括一种能够在确定编码模式以便适合于音频信号的特征的同时减少由于编码模式切换而导致的延迟的信号分类方法和设备、以及一种采用所述信号分类方法和设备的音频编码方法和设备。
技术方案
根据一个或更多个示例性实施例,一种信号分类方法包括:将当前帧分类为语音信号和音乐信号中的一个;基于从多个帧获得的特征参数,确定在当前帧的分类结果中是否存在错误;并且响应于确定的结果,修正当前帧的分类结果。
根据一个或更多个示例性实施例,一种信号分类设备包括至少一个处理器,其中,所述至少一个处理器被配置为:将当前帧分类为语音信号和音乐信号中的一个,基于从多个帧获得的特征参数确定在当前帧的分类结果中是否存在错误,并且响应于确定的结果修正当前帧的分类结果。
根据一个或更多个示例性实施例,一种音频编码方法包括:将当前帧分类为语音信号和音乐信号中的一个;基于从多个帧获得的特征参数,确定在当前帧的分类结果中是否存在错误;响应于确定的结果,修正当前帧的分类结果;并且基于当前帧的分类结果或修正后的分类结果,对当前帧进行编码。
根据一个或更多个示例性实施例,一种音频编码装置包括至少一个处理器,其中,所述至少一个处理器被配置为:将当前帧分类为语音信号和音乐信号中的一个,基于从多个帧获得的特征参数确定在当前帧的分类结果中是否存在错误,响应于确定的结果修正当前帧的分类结果,并且基于当前帧的分类结果或修正后的分类结果对当前帧进行编码。
发明的有益效果
通过基于修正参数来修正音频信号的初始分类结果,可在确定对于音频信号的特征最优的编码模式的同时防止编码模式的频繁切换。
附图说明
图1是根据示例性实施例的音频信号分类设备的框图;
图2是根据另一示例性实施例的音频信号分类设备的框图;
图3是根据示例性实施例的音频编码设备的框图;
图4是用于描述根据示例性实施例的在CELP核中修正信号分类的方法的流程图;
图5是用于描述根据示例性实施例的在HQ核中修正信号分类的方法的流程图;
图6示出根据示例性实施例的用于在CELP核中修正基于上下文的信号分类的状态机;
图7示出根据示例性实施例的用于在HQ核中修正基于上下文的信号分类的状态机;
图8是根据示例性实施例的编码模式确定设备的框图;
图9是用于描述根据示例性实施例的音频信号分类方法的流程图;
图10是根据示例性实施例的多媒体装置的框图;
图11是根据另一示例性实施例的多媒体装置的框图;
具体实施方式
以下,将参照附图详细地描述本发明的一方面。在下面的描述中,当确定相关的公知的公式或功能的详细描述可能模糊要点时,省略详细的描述。
当描述特定元件“连接”或“链接”到另一元件时,应理解,特定元件可直接地或经由中间元件连接或链接到另一元件。
尽管诸如‘第一’和‘第二’的术语可被用于描述各种元件,但是元件不能被所述术语限制。所述术语可被用于将特定元件与另一元件进行分类。
在实施例中出现的组件被单独地示出以表示不同特征的功能,但是并不表示每一组件在分离的硬件或单个软件配置单元中被形成。为了方便描述,组件被示出为单独的组件,并且一个组件可通过组合两个组件被形成或者一个组件可被分离成多个组件以执行功能。
图1是示出根据示例性实施例的音频信号分类设备的配置的框图。
图1所示的音频信号分类设备100可包括信号分类器110和修正器130。这里,除了需要被实现为单独的硬件部件的情况外,组件可被整合成至少一个模块并且被实现为至少一个处理器(未示出)。此外,音频信号可指示音乐信号、语音信号或音乐和语音的混合信号。
参照图1,基于各种初始分类参数,信号分类器110可对音频信号与音乐信号相应还是与语音信号相应进行分类。音频信号分类处理可包括至少一个操作。根据实施例,音频信号可基于当前帧和多个先前帧的信号特征被分类为音乐信号或语音信号。信号特征可包括短期特征和长期特征中的至少一个。此外,信号特征可包括时域特征和频域特征中的至少一个。这里,如果音频信号被分类为语音信号,则音频信号可使用码激励线性预测(CELP)型编码器被编码。如果音频信号被分类为音乐信号,则音频信号可使用变换编码器被编码。例如,变换编码器可以是例如改进的离散余弦变换(MDCT)编码器,但不限制于此。
根据另一示例性实施例,音频信号分类处理可包括根据音频信号是否具有语音特征将音频信号分类为语音信号和通用音频信号(即,音乐信号)的第一操作以及确定通用音频信号是否适用于通用信号音频编码器(GSC)的第二操作。可通过结合第一操作的分类结果和第二操作的分类结果来确定音频信号可被分类为语音信号还是音乐信号。当音频信号被分类为语音信号时,可由CELP型编码器对音频信号进行编码。根据比特率或信号特征,CELP型编码器可包括清音编码(UC)模式、浊音编码(VC)模式、瞬态编码(TC)模式和通用编码(GC)模式中的多个模式。通用信号音频编码(GSC)模式可由单独的编码器实现或者被包括作为CELP型编码器的一个模式。当音频信号被分类为音乐信号时,可使用变换编码器或CELP/变换混合编码器对音频信号进行编码。具体地,变换编码器可被应用于音乐信号,CELP/变换混合编码器可被应用于非音乐信号(其中,非音乐信号不是语音信号)或者混合了音乐和语音的信号。根据实施例,根据带宽,可使用CELP型编码器、CELP/变换混合编码器和变换编码器中的所有,或者可使用CELP型编码器和变换编码器。例如,CELP型编码器和变换编码器可被用于窄带(NB),CELP型编码器、CELP/变换混合编码器和变换编码器可被用于宽带(WB)、超宽带(SWB)和全频带(FB)。CELP/变换混合编码器通过将在时域中操作的基于LP的编码器和变换域编码器组合被获得,并且也可被称为通用信号音频编码器(GSC)。
第一操作的信号分类可基于高斯混合模型(GMM)。各种信号特征可被用于GMM。信号特征的示例可包括开环基音、归一化相关、频谱包络、音调稳定性、信号非平稳性、LP残留误差、频谱差值和频谱平稳性,但不限制于此。用于第二操作的信号分类的信号特征的示例可包括频谱能量变化特征、LP分析残留能量的倾斜特征、高频带频谱峰度特征、相关特征、浊化特征和音调特征,但不限制于此。用于第一操作的特征可被用于确定音频信号具有语音特征还是非语音特征,以便确定CELP型编码器是否适用于进行编码,用于第二操作的特征可被用于确定音频信号具有音乐特征还是非音乐特征,以便确定GSC是否适用于进行编码。例如,在第一操作中被分类为音乐信号的一组帧可在第二操作中被改变为语音信号并随后通过CELP模式中的一个模式被编码。也就是说,当音频信号是大相关性的信号或攻击信号同时具有大基音周期和高稳定性时,音频信号可在第二操作中被从音乐信号改变到语音信号。编码模式可根据上述信号分类的结果被改变。
修正器130可基于至少一个修正参数修正或保持信号分类器110的分类结果。修正器130可基于上下文修正或保持信号分类器110的分类结果。例如,当当前帧被分类为语音信号时,当前帧可被修正为音乐信号或被保持为语音信号,当当前帧被分类为音乐信号时,当前帧可被修正为语音信号或被保持为音乐信号。为了确定当前帧的分类结果中是否存在错误,包括当前帧的多个帧的特征被使用。例如,八个帧被使用,但实施例不限制于此。
修正参数可包括音调、线性预测误差、浊化和相关性中的至少一个的结合。这里,音调可包括1-2KHz范围的音调ton2和2-4KHz范围的音调ton3,其中,音调ton2和音调ton3可分别由公式1和2确定。
Figure BDA0001136707400000051
Figure BDA0001136707400000052
其中,上标[-j]表示先前帧。例如,tonality2[-1]表示一帧先前帧的1-2KHz范围的音调。
低频带长期音调tonLT可被定义为tonLT=0.2*log10[lt_tonality]。这里,lt_tonality可表示全频带长期音调。
在第n帧的1-2KHz范围内的音调ton2和2-4KHz范围的音调ton3之间的差值dft可被定义为dft=0.2*{log10(tonality2(n))-log10(tonality3(n)))。
下面,线性预测误差LPerr可由公式3定义。
Figure BDA0001136707400000053
其中,FVs(9)被定义为FVs(i)=sfaiFVi+sfbi(i=0,...,11)并且对应于通过缩放用于信号分类器110或210的特征参数中的由公式4定义的LP残留对数能量比特征参数而获得的值。此外,sfai和sfbi可根据特征参数的类型和带宽而改变,并且用于将每一特征参数近似到[0;1]的范围。
其中,E(1)表示第一LP系数的能量,并且E(13)表示第十三LP系数的能量。
下面,值FVs(1)与值FVs(7)之间的差值dvcor可被定义为dvcor=max(FVs(1)-FVs(7),0),其中,值FVs(1)是通过基于FVs(i)=sfaiFVi+sfbi(i=0,...,11)缩放用于信号分类器110或210的特征参数中的归一化相关特征或由公式5定义的浊化特征FV1而获得的,值FVs(7)是基于FVs(i)=sfaiFVi+sfbi(i=0,...,11)通过缩放由公式6定义的相关图特征FV(7)而获得的。
Figure BDA0001136707400000061
其中,
Figure BDA0001136707400000062
表示在第一或第二半帧中的归一化相关。
Figure BDA0001136707400000063
其中,Mcor表示一帧的相关图。
包括条件1至4中的至少一个的修正参数可单独地或组合地使用多个特征参数来生成。这里,条件1和条件2可指示语音状态SPEECH_STATE可被改变所依据的条件,条件3和4可指示音乐状态MUSIC_STATE可被改变所依据的条件。具体地,条件1使语音状态SPEECH_STATE能够被从0改变到1,条件2使语音状态SPEECH_STATE能够被从1改变到0。此外,条件3使音乐状态MUSIC_STATE能够被从0改变到1,条件4使音乐状态能够被从1改变到0。1的语音状态SPEECH_STATE可指示语音概率高(也就是说,CELP型编码是适合的),0的语音状态SPEECH_STATE可指示非语音概率高。1的音乐状态MUSIC_STATE可指示变换编码是适合的,0的音乐状态MUSIC_STATE可指示CELP/变换混合编码(即,GSC)是适合的。作为另一示例,1的音乐状态MUSIC_STATE可指示变换编码是适合的,0的音乐状态MUSIC_STATE可指示CELP型编码是适合的。
例如,条件1(fA)可被定义如下。也就是说,当dvcor>0.4且dft<0.1且FVs(1)>(2*FVs(7)+0.12)且ton2<dvcor且ton3<dvcorANDtonLT<dvcor且FVs(7)<dvcor且FVs(1)>dvcor且FVs(1)>0.76时,fA可被设置为1。
例如,条件2(fB)可被定义如下。也就是说,当dvcor<0.4时,fB可被设置为1。
例如,条件3(fC)可被定义如下。也就是说,当0.26<ton2<0.54且ton3>0.22且0.26<tonLT<0.54且LPerr>0.5时,fC可被设置为1。
例如,条件4(fD)可被定义如下。也就是说,当ton2<0.34且ton3<0.26且0.26<tonLT<0.45时,fD可被设置为1。
用于生成每个条件的特征或特征集不限于此。此外,每个常数值仅是示例性的并且可根据实现方法被设置为最优值。
具体地,修正器130可通过使用两个独立的状态机(例如,语音状态机和音乐状态机)修正初始分类结果中的错误。每个状态机具有两个状态,并且可在每一状态中使用迟滞来防止频繁切换。例如,迟滞可包括六帧。当语音状态机中的迟滞变量由hangsp表示并且音乐状态机中的迟滞变量由hangmus表示时,如果分类结果在给定状态下被改变,则每个变量被初始化为6,并且此后,针对后续的每个帧,迟滞减少1。在每一个状态机中,可使用通过组合从音频信号提取的至少一个特征而产生的修正参数。
图2是示出根据另一实施例的音频信号分类设备的配置的框图。
图2所示的音频信号分类设备200可包括信号分类器210、修正器230和精细分类器250。图2的音频信号分类设备200与图1的音频信号分类设备100的不同在于图2的音频信号分类设备200还包括精细分类器250,而信号分类器210和修正器230的功能与参照图1所描述的相同,因此信号分类器210和修正器230的功能的详细描述被省略。
参照图2,精细分类器250可基于精细分类参数对由修正器230修正或保持的分类结果进行精细分类。根据实施例,精细分类器250将通过确定是否音频信号适合于由CELP/变换混合编码器(例如,GSC)进行编码,修正被分类为音乐信号的音频信号。在这种情况下,作为修正方法,特定参数或标志被改变以不选择变换编码器。当从修正器230输出的分类结果指示音乐信号时,精细分类器250可再次执行精细分类来对音频信号是音乐信号还是语音信号进行分类。当精细分类器250的分类结果指示音乐信号时,变换编码器也可被用于在第二编码模式下对音频信号进行编码,当精细分类器250的分类结果指示语音信号时,可使用CELP/变换混合编码器在第三编码模式下对音频信号进行编码。当从修正器230输出的分类结果指示语音信号时,可使用CELP型编码器在第一编码模式下对音频信号进行编码。例如,精细分类参数可包括诸如音调、浊化、相关性、基音增益和基音差的特征但不限制于此。
图3是示出根据实施例的音频编码设备的配置的框图。
图3所示的音频编码设备300可包括编码模式确定器310和编码模块330。编码模式确定器310可包括图1的音频信号分类设备100或图2的音频信号分类设备200的组件。编码模块330可包括第一至第三编码器331、333和335。这里,第一编码器331可对应于CELP型编码器,第二编码器333可对应于CELP/变换混合编码器,第三编码器335可对应于变换编码器。当GSC被实现为CELP型编码器的一个模式时,编码模块330可包括第一编码器331和第三编码器335。根据比特率或带宽,编码模块330和第一编码器331可具有各种配置。
参照图3,编码模式确定器310可基于信号特征对音频信号是音乐信号还是语音信号进行分类,并且响应于分类结果确定编码模式。编码模式可在超帧单元、帧单元或带单元中被执行。可选地,编码模式可在多个超帧组、多个帧组或多个带组的单元中被执行。这里,编码模式的示例可包括变化域模式和线性预测域模式这两种类型,但不限于此。线性预测域模式可包括UC、VC、TC和GC模式。GSC模式可被分类为单独的编码模式或被包括在线性预测域模式的子模式中。当处理器的性能、处理速度等被支持并且由于编码模式切换而导致的延迟可被解决时,编码模式还可被细分,并且编码方案也可响应于编码模式被细分。具体地,编码模式确定器310可基于初始分类参数将音频信号分类为音乐信号和语音信号中的一个。基于修正参数,编码模式确定器310可将作为音乐信号的分类结果修正为语音信号或保持音乐信号,或者将作为语音信号的分类结果修正为音乐信号或保持语音信号。编码模式确定器310可基于精细分类参数将修正的或保持的分类结果(例如,作为音乐信号的分类结果)分类为音乐信号和语音信号中的一个。编码模式确定器310可通过使用最终分类结果确定编码模式。根据实施例,编码模式确定器310可基于比特率和带宽中的至少一个确定编码模式。
在编码模块330中,当修正器130或230的分类结果对应于语音信号时,第一编码器331可进行操作。当修正器130的分类结果对应于音乐信号时,或者当精细分类器350的分类结果对应于语音信号时,第二编码器333可进行操作。当修正器130的分类结果对应于音乐信号时,或者当精细分类器350的分类结果对应于音乐信号时,第三编码器335可进行操作。
图4是用于描述根据实施例的在CELP核中修正信号分类的方法的流程图,并且可由图1的修正器130或图2的修正器230执行。
参数图4,在操作410中,可接收修正参数,例如,条件1和条件2。此外,在操作410中,可接收语音状态机的迟滞信息。在操作410中,还可接收初始分类结果。初始分类结果可从图1的信号分类器110或图2的信号分类器210提供。
在操作420中,可确定是否初始分类结果(即,语音状态)是0、条件1(fA)是1并且语音状态机的迟滞hangsp是0。如果在操作420中确定初始分类结果(即,语音状态)是0、条件1是1并且语音状态机的迟滞hangsp是0,则在操作430中,语音状态可被改变为1并且迟滞可被初始化为6。初始化后的迟滞值可被提供给操作460。否则,如果在操作420中语音状态不是0、条件1不是1或者语音状态机的迟滞hangsp不是0,则所述方法可继续到操作440。
在操作440中,可确定是否初始分类结果(即,语音状态)是1、条件2(fB)是1并且语音状态机的迟滞hangsp是0。如果在操作440中确定语音状态是1、条件2是1并且语音状态机的迟滞hangsp是0,则在操作450中,语音状态可被改变为0并且hangoversp可被初始化为6。初始化后的迟滞值可被提供给操作460。否则,如果在操作440中语音状态不是1、条件2不是1或者语音状态机的迟滞hangsp不是0,则所述方法可继续到操作460,以执行用于将迟滞减小1的迟滞更新。
图5是用于描述根据实施例的在高质量(HQ)核中修正信号分类的方法的流程图,并且可由图1的修正器130或图2的修正器230执行。
参照图5,在操作510中,可接收修正参数,例如,条件3和条件4。此外,在操作510中,可接收音乐状态机的迟滞信息。在操作510中,还可接收初始分类结果。初始分类结果可从图1的信号分类器110或图2的信号分类器210提供。
在操作520中,可确定是否初始分类结果(即,音乐状态)是1、条件3(fC)是1并且音乐状态机的迟滞hangmus是0。如果在操作520中确定初始分类结果(即,音乐状态)是1、条件3是1并且音乐状态机的迟滞hangmus是0,则在操作530中,音乐状态可被改变为0并且迟滞可被初始化为6。初始化后的迟滞值可被提供给操作560。否则,如果在操作520中音乐状态不是1、条件3不是1或者音乐状态机的迟滞hangmus不是0,则所述方法可继续到操作540。
在操作540中,可确定是否初始分类结果(即,音乐状态)是0、条件4(fD)是1并且音乐状态机的迟滞hangsp是0。如果在操作540中确定音乐状态是0、条件4是1并且音乐状态机的迟滞hangmus是0,则在操作550中,音乐状态可被改变为1并且迟滞hangmus可被初始化为6。初始化后的迟滞值可被提供到操作560。否则,如果在操作540中语音状态不是0、条件4不是1或者音乐状态机的迟滞hangmus不是0,则所述方法可继续到操作560,以执行用于将迟滞减少1的迟滞更新。
图6示出根据实施例的用于在适用于CELP核的状态(即,语音状态下)下修正基于上下文的信号分类的状态机,并且可与图4对应。
参照图6,在修正器(图1的130或230)中,可根据由音乐状态机确定的音乐状态和由语音状态机确定的语音状态来应用对分类结果的修正。例如,当初始分类结果被设置为音乐信号时,音乐信号可基于修正参数被改变为语音信号。具体地,当初始分类结果的第一操作的分类结果指示音乐信号并且语音状态是1时,第一操作的分类结果和第二操作的分类结果两者可被改变为语音信号。在这种情况下,可以确定在初始分类结果中存在错误,从而修正分类结果。
图7示出根据实施例的在针对高质量(HQ)核的状态(例如,音乐状态)下修正基于上下文的信号分类的状态机,并且可与图5对应。
参照图7,在修正器(图1的130或230)中,可根据由音乐状态机确定的音乐状态和由语音状态机确定的语音状态应用对分类结果的修正。例如,当初始分类结果被设置为语音信号时,语音信号可基于修正参数被改变为音乐信号。具体地,当初始分类结果的第一操作的分类结果指示语音信号并且音乐状态是1时,第一操作的分类结果和第二操作的分类结果两者可被改变为音乐信号。当初始分类结果被设置为音乐信号时,音乐信号可基于修正参数被改变为语音信号。在这种情况下,可以确定在初始分类结果中存在错误,从而修正分类结果。
图8是示出根据实施例的编码模式确定设备的配置的框图。
图8所示的编码模式确定设备可包括初始编码模式确定器810和修正器830。
参照图8,初始编码模式确定器810可确定音频信号是否具有语音特征,并且当音频信号具有语音特征时可将第一编码模式确定为初始编码模式。在第一编码模式下,可由CELP型编码器对音频信号进行编码。当音频信号具有非语音特征时,初始编码模式确定器810可将第二编码模式确定为初始编码模式。在第二编码模式下,可由变换编码器对音频信号进行编码。可选地,当音频信号具有非语音特征时,初始编码模式确定器810可根据比特率将第二编码模式和第三编码模式中的一个确定为初始编码模式。在第三编码模式下,可由CELP/变换混合编码器对音频信号进行编码。根据实施例,初始编码模式确定器810可使用三种方式的方案。
当初始编码模式被确定为第一编码模式时,修正器830可基于修正参数将初始编码模式修正为第二编码模式。例如,当初始分类结果指示语音信号但是具有音乐特征时,初始分类结果可被修正为音乐信号。当初始编码模式被确定为第二编码模式时,修正器830可基于修正参数将初始编码模式修正为第一编码模式或第三编码模式。例如,当初始分类结果指示音乐信号但是具有语音特征时,初始分类结果可被修正为语音信号。
图9是用于描述根据实施例的音频信号分类方法的流程图。
参照图9,在操作910中,音频信号可被分类为音乐信号和语音信号中的一个。具体地,在操作910中,可基于信号特征对当前帧对应于音乐信号还是语音信号进行分类。操作910可由图1的信号分类器110或图2的信号分类器210执行。
在操作930中,可基于修正参数确定操作910的分类结果中是否存在错误。如果在操作930中确定分类结果中存在错误,则可在操作950中修正分类结果。如果在操作930中确定分类结果中不存在错误,则在操作970中保持分类结果不变。操作930至操作970可由图1的修正器130或图2的修正器230执行。
图10是示出根据实施例的多媒体装置的配置的框图。
图10所示的多媒体装置1000可包括通信单元1010和编码模块1030。此外,根据音频比特流的使用,还可包括用于存储获得的作为编码结果的音频比特流的存储单元1050。此外,多媒体装置1000还可包括麦克风1070。也就是说,存储单元1050和麦克风1070可选择性地被提供。根据示例性实施例,图28所示的多媒体装置1000还可包括任意解码装置(未示出),例如,用于执行通用解码功能的解码模块或根据示例性实施例的解码模块。这里,编码模块1030可与提供给多媒体装置1000的其他组件(未示出)集成并且被实现为至少一个处理器(未示出)。
参照图10,通信单元1010可接收从外部提供的音频和编码比特流中的至少一个,或者发送重建的音频和获得的作为编码模块1030的编码结果的音频比特流中的至少一个。
通信单元1010被配置为用于能够通过无线网络(诸如无线互联网、无线内联网、无线电话网、无线局域网(LAN)、Wi-Fi网络、Wi-Fi直连(WFD)网络、第三代(3G)网络、4G网络、蓝牙网络、红外数据协会(IrDA)网络、射频识别(RFID)网络、超宽带(UWB)网络、ZigBee网络和近场通信(NFC)网络)或者有线网络(诸如有线电话网络或有线互联网)向外部多媒体装置或服务器发送数据或从外部多媒体装置或服务器接收数据。
根据实施例,编码模块1030可对时域的音频信号进行编码,其中,时域的音频信号通过通信单元1010或麦克风1070被提供。可使用图1至图9所示的设备或方法实现编码处理。
存储单元1050可存储操作多媒体装置1000所需的各种程序。
麦克风1070可向编码模块1030提供用户或外部的音频信号。
图11是示出根据另一实施例的多媒体装置的配置的框图。
图11所示的多媒体装置1100可包括通信单元1110、编码模块1120和解码模块1130。此外,根据音频比特流或重建的音频信号的使用,还可包括用于存储获得的作为编码结果的音频比特流或获得的作为解码结果的重建的音频信号的存储单元1140。此外,多媒体装置1100还可包括麦克风1150或扬声器1160。这里,编码模块1120和解码模块1130可与提供给多媒体装置1100的其他组件(未示出)集成,并被实现为至少一个处理器(未示出)。
省略了图11中示出的组件之中的与图10中所示的多媒体装置1000中的组件相同的组件的详细描述。
解码模块1130可接收通过通信单元1110提供的比特流并且对包括在比特流中的音频频谱进行解码。解码模块1130可与图3的编码模块330相应地被实现。
扬声器1170可向外部输出由解码模块1130生成的重建的音频信号。
图10所示的多媒体装置1000和图11所示的多媒体装置1100可包括语音通信专用终端(包括电话或移动电话)、广播或音乐专用装置(包括TV或MP3播放器)或语音通信专用终端和广播或音乐专用装置的混合终端装置,但不限于此。此外,多媒体转置1000或1100可被用作布置在客户端中、服务器中或者在客户端和服务器之间的换能器。
例如,当多媒体装置1000或1100是移动电话时,尽管未示出,但还可包括用户输入单元(诸如,键盘)、用于显示用户界面或由移动电话处理的信息的显示单元以及用于控制移动电话的通用功能的处理器。此外,移动电话还可包括具有图像拾取功能的相机单元以及用于执行由移动电话所需的功能的至少一个组件。
例如,当多媒体转置1000或1100是TV时,尽管未示出,但还可包括用户输入单元(诸如键盘)、用于显示接收到的广播信息的显示单元和用于控制TV的通用功能的处理器。此外,TV还可包括用于执行由TV所需要的功能的至少一个组件。
根据实施例的所述方法可通过计算机可执行的程序被编辑并且通过使用计算机可读记录介质在用于执行程序的通用数字计算机中被实现。此外,可在本发明的实施例中使用的数据结构、程序命令或数据文件可通过各种方式被记录在计算机可读记录介质中。计算机可读记录介质可包括用于存储可由计算机系统读取的数据的所有类型的存储装置。计算机可读记录介质的示例包括磁介质(诸如硬盘、软盘或磁带)、光学介质(诸如压缩盘只读存储器(CD-ROM)或数字通用盘(DVD))、磁光介质(诸如软光盘)和被专门配置为用于存储并实施程序命令的硬件装置(诸如ROM、RAM或闪存)。此外,计算机可读记录介质可以是用于传输用于指定程序命令、数据结构等的信号的传输介质。程序命令的示例包括可由计算机使用解释器执行的高级语言代码和由编译器生成的机器语言代码。
尽管已参照有限的实施例和附图描述了本发明的实施例,但是本发明的实施例不限于以上描述的实施例,并且它们的更新和修改可从本公开由本领域的普通技术人员进行各种实施。因此,本发明的范围不是由以上描述定义的而是由权利要求定义,并且它们所有的相同或等同的修改将属于本发明的技术构思的范围。

Claims (12)

1.一种信号分类方法,包括:
基于多个第一信号特征,将当前帧分类为语音信号和音乐信号中的一个;
基于多个条件和多个迟滞参数,确定是否修正当前帧的分类结果,其中,所述多个条件是基于从包括当前帧的多个帧获得的至少一个第二信号特征产生的;
当确定修正当前帧的分类结果时,修正当前帧的分类结果,
其中,所述至少一个第二信号特征包括以下项中的至少一项:多个频率范围中的音调之间的差值、线性预测误差、以及缩放的浊化特征与缩放的相关图特征之间的差值。
2.如权利要求1所述的信号分类方法,其中,修正当前帧的分类结果的步骤是基于多个独立的状态机执行的。
3.如权利要求2所述的信号分类方法,其中,所述多个独立的状态机包括音乐状态机和语音状态机。
4.如权利要求1所述的信号分类方法,其中,确定是否修正当前帧的分类结果的步骤包括:当确定当前帧的分类结果指示音乐信号并且当前帧具有语音特征时,确定修正分类结果。
5.如权利要求1所述的信号分类方法,其中,确定是否修正当前帧的分类结果的步骤包括:当确定当前帧的分类结果指示语音信号并且当前帧具有音乐特征时,确定修正分类结果。
6.如权利要求1所述的信号分类方法,其中,修正当前帧的分类结果的步骤包括:当确定当前帧的分类结果指示音乐信号并且当前帧具有语音特征时,将分类结果修正为语音信号。
7.如权利要求1所述的信号分类方法,其中,修正当前帧的分类结果的步骤包括:当确定当前帧的分类结果指示语音信号并且当前帧具有音乐特征时,将分类结果修正为音乐信号。
8.一种音频编码方法,包括:
基于多个第一信号特征,将当前帧分类为语音信号和音乐信号中的一个;
基于多个条件和多个迟滞参数,确定是否修正当前帧的分类结果,其中,所述多个条件是基于从包括当前帧的多个帧获得的至少一个第二信号特征产生的;
当确定修正当前帧的分类结果时,修正当前帧的分类结果;并且
基于当前帧的分类结果或修正后的分类结果,对当前帧进行编码,
其中,所述至少一个第二信号特征包括以下项中的至少一项:多个频率范围中的音调之间的差值、线性预测误差、以及缩放的浊化特征与缩放的相关图特征之间的差值。
9.如权利要求8所述的音频编码方法,其中,对当前帧进行编码的步骤是使用CELP型编码器或变换编码器中的一个执行的。
10.如权利要求8所述的音频编码方法,其中,对当前帧进行编码的步骤是使用CELP型编码器、变换编码器和CELP/变换混合编码器中的一个执行的。
11.一种信号分类设备,包括至少一个处理器,其中,所述至少一个处理器被配置为:
基于多个第一信号特征,将当前帧分类为语音信号和音乐信号中的一个;
基于多个条件和多个迟滞参数,确定是否修正当前帧的分类结果,其中,所述多个条件是基于从包括当前帧的多个帧获得的至少一个第二信号特征产生的;并且
当确定修正当前帧的分类结果时,修正当前帧的分类结果,
其中,所述至少一个第二信号特征包括以下项中的至少一项:多个频率范围中的音调之间的差值、线性预测误差、以及缩放的浊化特征与缩放的相关图特征之间的差值。
12.一种音频编码设备,包括至少一个处理器,其中,所述至少一个处理器被配置为:
基于多个第一信号特征,将当前帧分类为语音信号和音乐信号中的一个;
基于多个条件和多个迟滞参数,确定是否修正当前帧的分类结果,其中,所述多个条件是基于从包括当前帧的多个帧获得的至少一个第二信号特征产生的;
当确定修正当前帧的分类结果时,修正当前帧的分类结果;并且
基于当前帧的分类结果或修正后的分类结果,对当前帧进行编码,
其中,所述至少一个第二信号特征包括以下项中的至少一项:多个频率范围中的音调之间的差值、线性预测误差、以及缩放的浊化特征与缩放的相关图特征之间的差值。
CN201580021378.2A 2014-02-24 2015-02-24 信号分类方法和装置以及使用其的音频编码方法和装置 Active CN106256001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911345336.0A CN110992965B (zh) 2014-02-24 2015-02-24 信号分类方法和装置以及使用其的音频编码方法和装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461943638P 2014-02-24 2014-02-24
US61/943,638 2014-02-24
US201462029672P 2014-07-28 2014-07-28
US62/029,672 2014-07-28
PCT/KR2015/001783 WO2015126228A1 (ko) 2014-02-24 2015-02-24 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201911345336.0A Division CN110992965B (zh) 2014-02-24 2015-02-24 信号分类方法和装置以及使用其的音频编码方法和装置

Publications (2)

Publication Number Publication Date
CN106256001A CN106256001A (zh) 2016-12-21
CN106256001B true CN106256001B (zh) 2020-01-21

Family

ID=53878629

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201911345336.0A Active CN110992965B (zh) 2014-02-24 2015-02-24 信号分类方法和装置以及使用其的音频编码方法和装置
CN201580021378.2A Active CN106256001B (zh) 2014-02-24 2015-02-24 信号分类方法和装置以及使用其的音频编码方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201911345336.0A Active CN110992965B (zh) 2014-02-24 2015-02-24 信号分类方法和装置以及使用其的音频编码方法和装置

Country Status (8)

Country Link
US (2) US10090004B2 (zh)
EP (1) EP3109861B1 (zh)
JP (1) JP6599368B2 (zh)
KR (3) KR102552293B1 (zh)
CN (2) CN110992965B (zh)
ES (1) ES2702455T3 (zh)
SG (1) SG11201607971TA (zh)
WO (1) WO2015126228A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO2780522T3 (zh) 2014-05-15 2018-06-09
US12118987B2 (en) 2019-04-18 2024-10-15 Dolby Laboratories Licensing Corporation Dialog detector
CN111177454B (zh) * 2019-12-11 2023-05-30 广州荔支网络技术有限公司 一种音频节目分类的修正方法
US20240038258A1 (en) * 2020-08-18 2024-02-01 Dolby Laboratories Licensing Corporation Audio content identification
CN115881138A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 解码方法、装置、设备、存储介质及计算机程序产品

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
JP3616307B2 (ja) * 2000-05-22 2005-02-02 日本電信電話株式会社 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
ES2297083T3 (es) 2002-09-04 2008-05-01 Microsoft Corporation Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel.
EP2092517B1 (en) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Method and apparatus for encoding and decoding audio signals
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
PL2186090T3 (pl) * 2007-08-27 2017-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Detektor stanów przejściowych i sposób wspierający kodowanie sygnału audio
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
JP5266341B2 (ja) * 2008-03-03 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
JP5108960B2 (ja) 2008-03-04 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
CN102089814B (zh) * 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
KR101380297B1 (ko) * 2008-07-11 2014-04-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
KR101230183B1 (ko) 2008-07-14 2013-02-15 광운대학교 산학협력단 오디오 신호의 상태결정 장치
KR101381513B1 (ko) * 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
WO2010008173A2 (ko) 2008-07-14 2010-01-21 한국전자통신연구원 오디오 신호의 상태결정 장치
KR101261677B1 (ko) 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
KR101073934B1 (ko) * 2008-12-22 2011-10-17 한국전자통신연구원 음성/음악 판별장치 및 방법
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
RU2010152225A (ru) * 2010-12-20 2012-06-27 ЭлЭсАй Корпорейшн (US) Обнаружение музыки с использованием анализа спектральных пиков
CN102543079A (zh) * 2011-12-21 2012-07-04 南京大学 一种实时的音频信号分类方法及设备
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
WO2014010175A1 (ja) * 2012-07-09 2014-01-16 パナソニック株式会社 符号化装置及び符号化方法
EP2922052B1 (en) * 2012-11-13 2021-10-13 Samsung Electronics Co., Ltd. Method for determining an encoding mode

Also Published As

Publication number Publication date
CN106256001A (zh) 2016-12-21
ES2702455T3 (es) 2019-03-01
JP6599368B2 (ja) 2019-10-30
US10504540B2 (en) 2019-12-10
CN110992965A (zh) 2020-04-10
SG11201607971TA (en) 2016-11-29
EP3109861A1 (en) 2016-12-28
CN110992965B (zh) 2024-09-03
EP3109861B1 (en) 2018-12-12
KR102552293B1 (ko) 2023-07-06
KR102354331B1 (ko) 2022-01-21
JP2017511905A (ja) 2017-04-27
KR20220013009A (ko) 2022-02-04
US20190103129A1 (en) 2019-04-04
KR20160125397A (ko) 2016-10-31
EP3109861A4 (en) 2017-11-01
US20170011754A1 (en) 2017-01-12
US10090004B2 (en) 2018-10-02
KR20220148302A (ko) 2022-11-04
KR102457290B1 (ko) 2022-10-20
WO2015126228A1 (ko) 2015-08-27

Similar Documents

Publication Publication Date Title
KR102248252B1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
JP6790029B2 (ja) 音声プロファイルを管理し、発話信号を生成するためのデバイス
US10504540B2 (en) Signal classifying method and device, and audio encoding method and device using same
KR101774541B1 (ko) 스피치 처리를 위한 무성음/유성음 결정
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
US10304474B2 (en) Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
JP2016507789A (ja) 平均符号化レートを制御するためのシステムおよび方法
US20210343302A1 (en) High resolution audio coding
JP2013537325A (ja) ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること
US11735193B2 (en) High resolution audio coding
JP6264673B2 (ja) ロストフレームを処理するための方法および復号器
US11715478B2 (en) High resolution audio coding
US11749290B2 (en) High resolution audio coding for improving package loss concealment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant