CN104919524A - 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 - Google Patents

用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 Download PDF

Info

Publication number
CN104919524A
CN104919524A CN201380070268.6A CN201380070268A CN104919524A CN 104919524 A CN104919524 A CN 104919524A CN 201380070268 A CN201380070268 A CN 201380070268A CN 104919524 A CN104919524 A CN 104919524A
Authority
CN
China
Prior art keywords
coding mode
coding
initial code
code pattern
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380070268.6A
Other languages
English (en)
Other versions
CN104919524B (zh
Inventor
朱基岘
安东·维克托维奇·波罗夫
康斯坦丁·谢尔盖耶维奇·奥斯波夫
李男淑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN201711424971.9A priority Critical patent/CN108074579B/zh
Priority to CN201711421463.5A priority patent/CN107958670B/zh
Publication of CN104919524A publication Critical patent/CN104919524A/zh
Application granted granted Critical
Publication of CN104919524B publication Critical patent/CN104919524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Abstract

提供了一种确定用于提高重构的音频信号的质量的编码模式的方法和设备。一种确定编码模式的方法包括:根据音频信号的特性,将包括第一编码模式和第二编码模式的多个编码模式中的一个编码模式确定为初始编码模式;如果在对初始编码模式的确定中存在错误,则通过将初始编码模式校正为第三编码模式来产生经过校正的编码模式。

Description

用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
技术领域
与示例性实施例一致的设备和方法涉及音频编码和音频解码,更具体地讲,涉及一种通过确定适合于音频信号的特性的编码模式并防止频繁的编码模式切换来确定用于提高重构的音频信号的质量的编码模式的方法和设备,一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备。
背景技术
广为人知的是,在频域对音乐信号进行编码是有效率的并且在时域对语音信号进行编码是有效率的。因此,已提出了用于确定混合有音乐信号和语音信号的音频信号的类别并确定与所确定的类别相应的编码模式的各种技术。
然而,由于频率编码模式切换,不仅发生延迟,还使解码的声音质量降低。此外,由于不存在用于校正最初确定的编码模式(即,类别)的技术,因此,如果在确定编码模式期间发生错误,则重构的音频信号的质量降低。
发明内容
技术问题
一个或更多个示例性实施例的多个方面提供了一种用于通过确定适合于音频信号的特性的编码模式来确定用于提高重构的音频信号的质量的编码模式的方法和设备,一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备。
一个或更多个示例性实施例的多个方面提供了一种用于确定适合于音频信号的特性的编码模式并减少由于频繁的编码模式切换而引起的时延的方法和设备,一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备。
解决方案
根据一个或更多个示例性实施例的一方面,一种确定编码模式的方法,所述方法包括:根据音频信号的特性,将包括第一编码模式和第二编码模式的多个编码模式之中的一个编码模式确定为初始编码模式;如果在对初始编码模式的确定中存在错误,则通过将初始编码模式校正为第三编码模式来产生经过校正的编码模式。
根据一个或更多个示例性实施例的一方面,一种对音频信号进行编码的方法,所述方法包括:根据音频信号的特性,将包括第一编码模式和第二编码模式的多个编码模式之中的一个编码模式确定为初始编码模式;如果在对初始编码模式的确定中存在错误,则通过将初始编码模式校正为第三编码模式来产生经过校正的编码模式;基于初始编码模式或经过校正的编码模式对音频信号执行不同的编码处理。
根据一个或更多个示例性实施例的一方面,一种对音频信号进行解码的方法,所述方法包括:对包括初始编码模式和第三编码模式之一的比特流进行解析,并基于初始编码模式或第三编码模式对所述比特流执行不同的解码处理,其中,所述初始编码模式是通过根据音频信号的特性在包括第一编码模式和第二编码模式的多个编码模式之中确定一个编码模式而获得的,所述第三编码模式是在对初始编码模式的确定中存在错误的情况下从初始编码模式进行校正而得到的。
有益效果
根据示例性实施例,通过基于对初始编码模式的校正以及与拖尾长度相应的帧的编码模式来确定当前帧的最终编码模式,可在防止多个帧之间的频繁的编码模式切换的同时选择出适应于音频信号的特性的编码模式。
附图说明
图1是示出根据示例性实施例的音频编码设备的配置的框图;
图2是示出根据另一示例性实施例的音频编码设备的配置的框图;
图3是示出根据示例性实施例的编码模式确定单元的配置的框图;
图4是示出根据示例性实施例的初始编码模式确定单元的配置的框图;
图5是示出根据示例性实施例的特征参数提取单元的配置的框图;
图6是示出根据示例性实施例的线性预测域编码和谱域之间的自适应切换方法的示图;
图7是示出根据示例性实施例的编码模式校正单元的操作的示图;
图8是示出根据示例性实施例的音频解码设备的配置的框图;
图9是示出根据另一示例性实施例的音频解码设备的配置的框图。
具体实施方式
现在将详细描述实施例,其示例在附图中被示出,其中,相同的标号始终是指相同的元件。在这一点上,本实施例可具有不同的形式并且不应该被解释为受限于在此阐述的描述。因此,通过参照附图,在下面实施例仅被描述用于解释本说明书的多个方面。
诸如“连接的”和“链接的”的术语可被用于指示直接连接或链接的状态,但应理解,另一组件可被置于其间。
诸如“第一”和“第二”的术语可被用于描述各种组件,但所述组件不应受限于所述术语。所述术语可仅被用于使一个组件与另一组件区分开。
在示例性实施例中描述的单元被独立示出以指示不同的特性功能,并且它不意味着每个单元由一个单独的硬件组件或软件组件形成。为了便于解释而示出每个单元,并且多个单元可形成一个单元,一个单元可被划分为多个单元。
图1是示出根据示例性实施例的音频编码设备100的配置的框图。
图1中示出的音频编码设备100可包括编码模式确定单元110、切换单元120、谱域编码单元130、线性预测域编码单元140和比特流产生单元150。线性预测域编码单元140可包括时域激励编码单元141和频域激励编码单元143,其中,线性预测域编码单元140可被实现为时域激励编码单元141和频域激励编码单元143中的至少一个。除非必须被实现为单独的硬件,否则上述组件可被集成为至少一个模块并且可被实现为至少一个处理器(未示出)。这里,术语音频信号可指音乐信号、语音信号或它们的混合信号。
参照图1,编码模式确定单元110可分析音频信号的特性以确定音频信号的类别,并根据分类的结果来确定编码模式。对编码模式的确定可以以超帧、帧或频段为单位来执行。可选择地,对编码模式的确定可以以多个超帧组、多个帧组或多个频段组为单位来执行。这里,编码模式的示例可包括谱域和时域或线性预测域,但不限于此。如果处理器的性能和处理速度足够并且由于编码模式切换引起的时延可被解决,则编码模式可被细分,并且编码方案也可根据编码模式被细分。根据示例性实施例,编码模式确定单元110可将音频信号的初始编码模式确定为谱域编码模式和时域编码模式之一。根据另一示例性实施例,编码模式确定单元110可将音频信号的初始编码模式确定为谱域编码模式、时域激励编码模式和频域激励编码模式之一。如果谱域编码模式被确定为初始编码模式,则编码模式确定单元110可将初始编码模式校正为谱域编码模式和频域激励编码模式之一。如果时域编码模式(即,时域激励编码模式)被确定为初始编码模式,则编码模式确定单元110可将初始编码模式校正为时域激励编码模式和频域激励编码模式之一。如果时域激励编码模式被确定为初始编码模式,则对最终编码模式的确定可被选择性地执行。换句话说,初始编码模式(即,时域激励编码模式)可被保持。编码模式确定单元110可确定与拖尾长度(hangover length)相应的多个帧的编码模式,并可为当前帧确定最终编码模式。根据示例性实施例,如果当前帧的初始编码模式或经过校正的编码模式与多个先前帧(例如,7个先前帧)的编码模式相同,则相应的初始编码模式或经过校正的编码模式可被确定为当前帧的最终编码模式。同时,如果当前帧的初始编码模式或经过校正的编码模式与多个先前帧(例如,7个先前帧)的编码模式不相同,则编码模式确定单元110可将恰在当前帧之前的帧的编码模式确定为当前帧的最终编码模式。
如上所述,通过基于对初始编码模式的校正以及与拖尾长度相应的帧的编码模式来确定当前帧的最终编码模式,可在防止帧之间的频繁的编码模式切换的同时选择出适应于音频信号的特性的编码模式。
一般来说,时域编码(即,时域激励编码)对于语音信号会是有效率的,谱域编码对于音乐信号会是有效率的,并且频域激励编码对于言语(vocal)信号和/或谐波信号会是有效率的。
根据由编码模式确定单元110确定的编码模式,切换单元120可向谱域编码单元130或线性预测域编码单元140提供音频信号。如果线性预测域编码单元140被实现为时域激励编码单元141,则切换单元120可包括总共两个分支。如果线性预测域编码单元140被实现为时域激励编码单元141和频域激励编码单元143,则切换单元120可具有总共3个分支。
谱域编码单元130可在谱域对音频信号进行编码。谱域可指频域或变换域。适合于谱域编码单元130的编码方法的示例可包括高级音频编码(AAC)或包括改进离散余弦变换(MDCT)和阶乘脉冲编码(FPC)的组合,但不限于此。详细地讲,其它量化技术和熵编码技术可用来代替FPC。在谱域编码单元130中对音乐信号进行编码会是有效率的。
线性预测域编码单元140可在线性预测域对音频信号进行编码。线性预测域可指激励域或时域。线性预测域编码单元140可被实现为时域激励编码单元141,或者可被实现为包括时域激励编码单元141和频域激励编码单元143。适合于时域激励编码单元141的编码方法的示例可包括码激励线性预测(CELP)或代数CELP(ACELP),但不限于此。适合于频域激励编码单元143的编码方法的示例可包括通用信号编码(GSC)或变换码激励(TCX),但不限于此。在时域激励编码单元141中对语音信号进行编码会是有效率的,而在频域激励编码单元143中对言语信号和/或谐波信号进行编码会是有效率的。
比特流产生单元150可产生比特流来包括由编码模式确定单元110提供的编码模式、由谱域编码单元130提供的编码结果以及由线性预测域编码单元140提供的编码结果。
图2是示出根据另一示例性实施例的音频编码设备200的配置的框图。
图2中示出的音频编码设备200可包括公共预处理模块205、编码模式确定单元210、切换单元220、谱域编码单元230、线性预测域编码单元240和比特流产生单元250。这里,线性预测域编码单元240可包括时域激励编码单元241和频域激励编码单元243,线性预测域编码单元240可被实现为时域激励编码单元或频域激励编码单元243。与图1中示出的音频编码设备100相比,音频编码设备200还可包括公共预处理模块205,因此,与音频编码设备100的组件相同的组件的描述将被省略。
参照图2,公共预处理模块205可执行联合立体声处理、环绕处理和/或带宽扩展处理。联合立体声处理、环绕处理和带宽扩展处理可与由特定标准(例如,MPEG标准)采用的那些处理相同,但不限于此。公共预处理模块205的输出可以是在单声道、立体声声道或多声道中。根据由公共预处理模块205输出的信号的声道的数量,切换单元220可包括至少一个开关。例如,如果公共预处理模块205输出两个或更多个声道(即,立体声声道或多声道)的信号,则与各个声道相应的开关可被布置。例如,立体声信号的第一声道可以是语音声道,立体声信号的第二声道可以是音乐声道。在这种情况下,音频信号可被同时提供给两个开关。由公共预处理模块205产生的附加信息可被提供给比特流产生单元250并被包括在比特流中。所述附加信息对于在解码端执行联合立体声处理、环绕处理和/或带宽扩展处理是必要的,并且可包括空间参数、包络信息、能量信息等。然而,基于所应用的处理技术,可存在各种附加信息。
根据示例性实施例,在公共预处理模块205,可基于编码域而不同地执行带宽扩展处理。核心频段中的音频信号可通过使用时域激励编码模式或频域激励编码模式来处理,而带宽扩展频段中的音频信号可在时域中被处理。时域中的带宽扩展处理可包括多个模式(包括浊音模式或清音模式)。可选择地,核心频段中的音频信号可通过使用谱域编码模式来处理,而带宽扩展频段中的音频信号可在频域中被处理。频域中的带宽扩展处理可包括多个模式(包括瞬变模式、一般模式或谐波模式)。为了在不同域中执行带宽扩展处理,由编码模式确定单元110确定的编码模式可作为信令信息被提供给公共预处理模块205。根据示例性实施例,核心频段的最后部分和带宽扩展频段的开始部分可能在一定程度上彼此重叠。重叠部分的位置和尺寸可被预先设置。
图3是示出根据示例性实施例的编码模式确定单元300的配置的框图。
图3中示出的编码模式确定单元300可包括初始编码模式确定单元310和编码模式校正单元330。
参照图3,初始编码模式确定单元310可通过使用从音频信号提取出的特征参数来确定音频信号是音乐信号还是语音信号。如果音频信号被确定为语音信号,则线性预测域编码会是合适的。同时,如果音频信号被确定为音乐信号,则谱域编码会是适合的。初始编码模式确定单元310可通过使用从音频信号提取出的特征参数来确定音频信号的类别,其中,音频信号的类别指示是谱域编码、时域激励编码还是频域激励编码适合于该音频信号。可基于音频信号的类别来确定相应编码模式。如果(图1的)切换单元(120)具有两个分支,则编码模式可以以1比特来表示。如果(图1的)切换单元(120)具有三个分支,则编码模式可以以2比特来表示。初始编码模式确定单元310可通过使用现有技术中已知的各种技术中的任意技术来确定音频信号是音乐信号还是语音信号。其示例可包括USAC标准的编码器部分中公开的FD/LPD分类或ACELP/TCX分类以及AMR标准中使用的ACELP/TCX分类,但不限于此。换句话说,可通过使用除在此描述的根据实施例的方法以外的各种任意方法来确定初始编码模式。
编码模式校正单元330可通过使用校正参数对由初始编码模式确定单元310确定的初始编码模式进行校正来确定经过校正的编码模式。根据示例性实施例,如果谱域编码模式被确定为初始编码模式,则基于校正参数,初始编码模式可被校正为频域激励编码模式。如果时域编码模式被确定为初始编码模式,则基于校正参数,初始编码模式可被校正为频域激励编码模式。换句话说,通过使用校正参数,确定在对初始编码模式的确定中是否存在错误。如果确定在对初始编码模式的确定中不存在错误,则初始编码模式可被保持。相反,如果确定在对初始编码模式的确定中存在错误,则初始编码模式可被校正。可获得从谱域编码模式到频域激励编码模式以及从时域激励编码模式到频域激励编码模式的对初始编码模式的校正。
同时,初始编码模式或经过校正的编码模式可以是用于当前帧的临时编码模式,其中,可将用于当前帧的临时编码模式与用于预设拖尾长度内的先前帧的编码模式进行比较,并可确定用于当前帧的最终编码模式。
图4是示出根据示例性实施例的初始编码模式确定单元400的配置的框图。
图4中示出的初始编码模式确定单元400可包括特征参数提取单元410和确定单元430。
参照图4,特征参数提取单元410可从音频信号提取用于确定编码模式的所必要的特征参数。提取的特征参数的示例包括音高(pitch)参数、浊音参数、相关度参数和线性预测误差之中的至少一个或两个,但不限于此。以下将给出对各个参数的详细描述。
首先,第一特征参数F1与音高参数有关,其中,可通过使用在当前帧和至少一个先前帧中检测到的N个音高值来确定音高的表现。为了防止效果随机偏离或防止错误的音高值,可去除与所述N个音高值的平均值明显不同的M个音高值。这里,N和M可以是预先经由实验或仿真而被获取的值。此外,N可被预先设置,并且将被移除的音高值与所述N个音高值之间的平均值之间的差可预先经由实验或仿真而被确定。通过使用关于(N-M)个音高值的均值mp’和方差σp’,第一特征参数F1可如下面的等式1中所示被表达。
[等式1]
F 1 = σ p ′ m p ′
第二特征参数F2也与音高参数有关,并可指示在当前帧中检测到的音高值的可靠性。通过使用在当前帧的两个子帧SF1和SF2中分别检测到的音高值的方差σSF1和σSF2,第二特征参数F2可如下面的等式2中所示被表达。
[等式2]
F 2 = cov ( SF 1 , SF 2 ) σ SF 1 σ SF 2
这里,cov(SF1,SF2)表示子帧SF1和子帧SF2之间的协方差。换句话说,第二特征参数F2将两个子帧之间的相关度指示为音高距离。根据示例性实施例,当前帧可包括两个或更多个子帧,等式2可基于子帧的数量而被修改。
基于浊音参数Voicing和相关度参数Corr,第三特征参数F3可如下面的等式3中所示被表达。
[等式3]
F 3 = Q C V o i c i n g - CorrC 2 N
这里,浊音参数Voicing与声音的言语特征相关,并且可通过现有技术中已知的各种方法中的任意方法来获取,而相关度参数Corr可通过对针对每个频段的帧之间的相关度求和来获取。
第四特征参数F4与线性预测误差ELPC相关并可如下面的等式4中所示被表达。
[等式4]
F 4 = ( E L P C i - M ( E L P C ) ) 2 N
这里,M(ELPC)表示N个线性预测误差的平均值。
确定单元430可通过使用由特征参数提取单元410提供的至少一个特征参数来确定音频信号的类别,并可基于所确定的类别来确定初始编码模式。确定单元430可采用软判决机制,其中,在软判决机制中,可根据每个特征参数形成至少一个混合。根据示例性实施例,可通过基于混合(mixture)概率使用高斯混合模型(GMM)来确定音频信号的类别。关于一个混合的概率f(x)可根据下面的等式5来计算。
[等式5]
f ( x ) = 1 ( 2 π ) N det ( C - 1 ) e - 0.5 ( x - m ) T C - 1 ( x - m )
x=(x1,...,xN)
m=(Cx1C,...,CxNC)
这里,x表示特征参数的输入矢量,m表示混合,c表示协方差矩阵。
确定单元430可通过使用下面的等式6来计算音乐概率Pm和语音概率Ps。
[等式6]
P m = Q i b M p i , P s = Q i b S p i
这里,可通过将与适合用于音乐确定的特征参数相关的M个混合的概率Pi相加来计算音乐概率Pm,而可通过将与适合用于语音确定的特征参数相关的S个混合的概率Pi相加来计算语音概率Ps。
同时,为了提高精确度,可根据下面的等式7来计算音乐概率Pm和语音概率Ps。
[等式7]
P m = Q i b M p i ( 1 - p i e r r ) + Q i b S p i ( p i e r r )
P s = Q i b S p i ( 1 - p i e r r ) + Q i b M p i ( p i e r r )
这里,表示每个混合的误差概率。可通过使用每个混合对包括纯净语音信号和纯净音乐信号的训练数据进行分类并对错误分类的数量进行计数来获取所述误差概率。
接下来,可根据下面的等式8,针对与恒定拖尾长度相同数量的多个帧,计算所有帧仅包括音乐信号的音乐概率PM和所有帧仅包括语音信号的语音概率PS。拖尾长度可被设置为8,但不限于此。八个帧可包括当前帧和7个先前帧。
[等式8]
p M = O i = 0 - 7 p m ( i ) O i = 0 - 7 p m ( i ) + O i = 0 - 7 p s ( i )
p S = O i = 0 - 7 p s ( i ) O i = 0 - 7 p m ( i ) + O i = 0 - 7 p s ( i )
接下来,可通过使用利用等式5或等式6获取的音乐概率Pm或语音概率Ps来计算多个状况(condition)集合下面将参照图6给出其详细描述。这里,可按照每个状况对于音乐具有值1并且对于语音具有值0的方式进行设置。
参照图6,在操作610和操作620,可从通过使用音乐概率Pm和语音概率Ps计算出的多个状况集合来获取音乐状况之和M以及语音状况之和S。换句话说,音乐状况之和M以及语音状况之和S可如下面的等式9中所示来表达。
[等式9]
M = Q i D i M
S = Q i D i S
在操作630,将音乐状况之和M与指定的阈值Tm进行比较。如果音乐状况之和M大于所述阈值Tm,则当前帧的编码模式被切换为音乐模式(即,谱域编码模式)。如果音乐状况之和M小于或等于阈值Tm,则当前帧的编码模式不被改变。
在操作640,将语音状况之和S与指定阈值Ts进行比较。如果语音状况之和S大于阈值Ts,则当前帧的编码模式被切换为语音模式(即,线性预测域编码模式)。如果语音状况之和S小于或等于阈值Ts,则当前帧的编码模式不被改变。
阈值Tm和阈值Ts可被设置为预先经由实验或仿真而获取的值。
图5是示出根据示例性实施例的特征参数提取单元500的配置的框图。
图5中示出的初始编码模式确定单元500可包括变换单元510、频谱参数提取单元520、时间参数提取单元530和确定单元540。
在图5中,变换单元510可将原始音频信号从时域变换到频域。这里,变换单元510可应用各种任意变换技术以将音频信号从时域表示为谱域。所述技术的实例可包括快速傅里叶变换(FFT)、离散余弦变换(DCT)或改进离散余弦变换(MDCT),但不限于此。
频谱参数提取单元520可从由变换单元510提供的频域音频信号提取至少一个频谱参数。频谱参数可被归类为短期特征参数和长期特征参数。可从当前帧获取短期特征参数,而可从包括当前帧和至少一个先前帧的多个帧获取长期特征参数。
时间参数提取单元530可从时域音频信号提取至少一个时间参数。时间参数也可被归类为短期特征参数和长期特征参数。可从当前帧获取短期特征参数,而可从包括当前帧和至少一个先前帧的多个帧获取长期特征参数。
(图4的)确定单元(430)可通过使用由频谱参数提取单元520提供的频谱参数以及由时间参数提取单元530提供的时间参数来确定音频信号的类别,并可基于所确定的类别来确定初始编码模式。(图4的)确定单元(430)可采用软判决机制。
图7是示出根据示例性实施例的编码模式校正单元310的操作的示图。
参照图7,在操作700,由初始编码模式确定单元310确定的初始编码模式被接收,并且可确定编码模式是时域模式(即,时域激励模式)还是谱域模式。
在操作701,如果在操作700确定初始编码模式是谱域模式(stateTS==1),则可检查指示频域激励编码是否更加合适的索引stateTTSS。可通过使用不同频段的音调来获取指示频域激励编码(例如,GSC)是否更加合适的索引stateTTSS。下面将给出其详细描述。
低频段信号的音调可被获取为具有包括最小值的多个较小值的多个频谱系数之和与具有针对给定频段的最大值的频谱系数之间的比率。如果给定频段是0~1kHz、1~2kHz和2~4kHz,则各个频段的音高t01、t12和t24以及低频段信号(即,核心频段)的音调tL可如下面的等式10中所示被表达。
[等式10]
t 01 = 0.2 l o g 10 ( m a x ( x i ) Q j = 0 M - 1 s o r t ( x j ) ) , i , j H [ 0 , ... . , 1 k H z ]
t 12 = 0.2 l o g 10 ( m a x ( x i ) Q j = 0 M - 1 s o r t ( x j ) ) , i , j H [ 0 , ... . , 2 k H z ]
t 24 = 0.2 l o g 10 ( m a x ( x i ) Q j = 0 M - 1 s o r t ( x j ) ) , i , j H [ 2 , ... . , 4 k H z ]
tL=max(t01,t12,t24)
同时,线性预测误差可通过使用线性预测编码(LPC)滤波器来获取并可被用于去除强音调分量。换句话说针对强音调分量,谱域编码模式比频域激励编码模式更加有效。
用于通过使用如上所述获取的音调和线性预测误差切换到频域激励编码模式的前置条件condfront可如下面的等式11中所示被表达。
[等式11]
condfront=t12>t12front且t24>t24front且tL>tLfront且err>errfrom
这里,t12front、t24front、tLfront和errfront是阈值,并可具有预先经由实验或仿真而获取的值。
同时,用于通过使用如上所述获取的音调和线性预测误差来完成频域激励编码模式的后置条件condback可如下面的等式12中所示被表达。
[等式12]
condback=t12<t12back且t24<t24back且tL<tLbock
这里,t12back、t24back、tLback是阈值并可具有预先经由实验或仿真而获取的值。
换句话说,可通过确定等式11中所示的前置条件是否被满足或是等式12中所示的后置条件是否被满足来确定索引stateTTSS是否为1,其中,索引stateTTSS指示频域激励编码(例如,GSC)是否比谱域编码更加合适。这里,对图12中示出的后置条件的确定可以是可选的。
在操作702,如果索引stateTTSS是1,则频域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的谱域编码模式被校正为作为最终编码模式的频域激励编码模式。
在操作705,如果在操作701确定索引stateTTSS是0,则可检查用于确定音频信号是否包括强语音特性的索引stateSS。如果在对谱域编码模式的确定中存在错误,则频域激励编码模式会比谱域编码模式更加有效。可通过使用浊音参数和相关度参数之间的差vc来获取用于确定音频信号是否包括强语音特性的索引stateSS
用于通过使用浊音参数和相关度参数之间的差vc来切换到强语音模式的前置条件condfront可如下面的等式13中所示被表达。
[等式13]
condfront=vc>vcfront
这里,vcfront是阈值并可具有预先经由实验或仿真而获取的值。
同时,用于通过使用浊音参数和相关度参数之间的差vc来结束强语音模式的后置条件condback可如下面的等式14中所示被表达。
[等式14]
condback=vc<vcback
这里,vcback是阈值并可具有预先经由实验或仿真而获取的值。
换句话说,在操作705,可通过确定等式13中示出的前置条件是否被满足或是等式14中示出的后置条件是否未被满足来确定索引stateSS是否为1,其中,索引stateSS指示频域激励编码(例如,GSC)是否比谱域编码更加合适。这里,对等式14中示出的对后置条件的确定可以是可选的。
在操作706,如果在操作705确定索引stateSS为0(即,音频信号不包括强语音特性),则谱域编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的谱域编码模式被保持为最终编码模式。
在操作707,如果在操作705确定索引stateSS为1(即,音频信号包括强语音特性),则频域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的谱域编码模式被校正为作为最终编码模式的频域激励编码模式。
通过执行操作700、701和705,对作为初始编码模式的谱域编码模式的确定中的错误可被校正。详细地讲,作为初始编码模式的谱域编码模式可被保持作为最终编码模式,或可被切换为频域激励编码模式作为最终编码模式。
同时,如果在操作700确定初始编码模式是线性预测域编码模式(stateTS==0),则用于确定音频信号是否包括强音乐特性的索引stateSM可被检查。如果在对线性预测域编码模式(即,时域激励编码模式)的确定中存在错误,则频域激励编码模式可能比时域激励编码模式更加有效。可通过使用从1减去浊音参数和相关度参数之间的差vc而获取的值1-vc来获取用于确定音频信号是否包括强音乐特性的stateSM
用于通过使用通过从1减去浊音参数和相关度参数之间的差vc而获取的值1-vc而切换到强音乐模式的前置条件condfront可如下面的等式15中所示被表达。
[等式15]
condfront=1-vc>vcmfront
这里,vcmfront是阈值并可具有预先经由实验或仿真而获取的值。
同时,用于通过使用通过从1减去浊音参数和相关度参数之间的差vc而获取的值1-vc而结束强音乐模式的后置条件condback可如下面的等式16中所示被表达。
[等式16]
condback=1-vc<vcmback
这里,vcmback是阈值并可具有预先经由实验或仿真而获取的值。
换句话说,在操作709,可通过确定等式15中示出的前置条件是否被满足或是等式16中示出的后置条件是否未被满足来确定索引stateSM是否为1,其中,索引stateSM指示频域激励编码(例如,GSC)是否比时域激励编码更适合。这里,对等式16中示出的后置条件的确定可以是可选的。
在操作710,如果在操作709确定索引stateSM为0(即,音频信号不包括强音乐特性),则时域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的线性预测域编码模式被切换为作为最终编码模式的时域激励编码模式。根据示例性实施例,如果线性预测域编码模式与时域激励编码模式对应,则可考虑初始编码模式保持不变。
在操作707,如果在操作709确定索引stateSM为1(即,音频信号包括强音乐特性),则频域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的线性预测域编码模式被校正为作为最终编码模式的频域激励编码模式。
通过执行操作700和709,对初始编码模式的确定中的错误可被校正。详细地讲,作为初始编码模式的线性预测域编码模式(例如,时域激励编码模式)可被保持作为最终编码模式,或者可被切换为频域激励编码模式作为最终编码模式。
根据示例性实施例,用于确定音频信号是否包括强音乐特性以校正对线性预测域编码模式的确定中的错误的操作709可以是可选的。
根据另一示例性实施例,执行用于确定音频信号是否包括强语音特性的操作705以及用于确定频域激励编码模式是否适合的操作701的顺序可被颠倒。换句话说,在操作700之后,可首先执行操作705,然后可执行操作701。在这种情况下,用于进行确定的参数可按照必要的需求而被改变。
图8是示出根据示例性实施例的音频解码设备800的配置的框图。
图8中示出的音频解码设备800可包括比特流解析单元810、谱域解码单元820、线性预测域解码单元830和切换单元840。线性预测域解码单元830可包括时域激励解码单元831和频域激励解码单元833,其中,线性预测域解码单元830可被实现为时域激励解码单元831和频域激励解码单元833中的至少一个。除非必须被实现为单独的硬件,否则上述组件可被集成为至少一个模块,并可被实现为至少一个处理器(未示出)。
参照图8,比特流解析单元810可对接收到的比特流进行解析并对关于编码模式和编码数据的信息进行分离。编码模式可与通过根据音频信号的特性在包括第一编码模式和第二编码模式的多个编码模式之中确定一个编码模式而获取的初始编码模式相应,或者可与在对初始编码模式的确定中存在错误的情况下从初始编码模式校正得到的第三编码模式相应。
谱域解码单元820可对来自分离的编码数据的在谱域中被编码的数据进行解码。
线性预测域解码单元830可对来自分离的编码数据的在线性预测域中被编码的数据进行解码。如果线性预测域解码单元830包括时域激励解码单元831和频域激励解码单元833,则线性预测域解码单元830可针对分离的编码数据执行时域激励解码或频域激励解码
切换单元840可对由谱域解码单元820重构的信号或由线性预测域解码单元830重构的信号进行切换,并可提供切换的信号作为最终重构的信号。
图9是示出根据另一示例性实施例的音频解码设备900的配置的框图。
音频解码设备900可包括比特流解析单元910、谱域解码单元920、线性预测域解码单元930、切换单元940和公共后处理模块950。线性预测域解码单元930可包括时域激励解码单元931和频域激励解码单元933,其中,线性预测域解码单元930可被实现为时域激励解码单元931和频域激励解码单元933中的至少一个。除非必须被实现为单独的硬件,否则上述组件可被集成为至少一个模块,并可被实现为至少一个处理器(未示出)。与图8中示出的音频解码设备800相比,音频解码设备900还可包括公共后处理模块950,因此,将省略对与音频解码设备800的组件相同的组件的描述。
参照图9,公共后处理模块950可执行与(图2的)公共预处理模块(205)相应的联合立体声处理、环绕处理和/或带宽扩展处理。
根据示例性实施例的方法可被编写为计算机可执行程序并可被实现在通用数字计算机中,其中,所述通用数字计算机通过使用非暂时性计算机可读记录介质来执行程序。此外,可在实施例中使用的数据结构、程序指令或数据文件可以以各种方式被记录在非暂时性计算机可读记录介质中。非暂时性计算机可读记录介质是可存储其后可由计算机系统读出的数据的任意数据存储装置。非暂时性计算机可读记录介质的示例包括:磁介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD ROM盘和DVD)、磁光介质(诸如光盘)以及专门配置为存储和执行程序指令的硬件装置(诸如ROM、RAM、闪存等)。此外,非暂时性计算机可读记录介质可以是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例可不仅包括由编译器产生的机器语言代码,还可包括可由计算机使用解释器等执行的高级语言代码。
尽管在上面已具体显示和描述了示例性实施例,但是本领域的普通技术人员将理解,在不脱离权利要求所限定的本发明构思的精神和范围的情况下,可以对其进行形式和细节上的各种改变。示例性实施例应被认为仅是描述性的意义而不是为了限制的目的。因此,本发明构思的范围不是由示例性实施例的详细描述来限定,而是由权利要求来限定,并且所述范围内的所有差异将被解释为包括在本发明构思中。

Claims (11)

1.一种确定编码模式的方法,所述方法包括:
根据音频信号的特性,将包括第一编码模式和第二编码模式的多个编码模式之中的一个编码模式确定为初始编码模式;
如果在对初始编码模式的确定操作中存在错误,则通过将初始编码模式校正为第三编码模式来产生经过校正的编码模式。
2.如权利要求1所述的方法,其中,第一编码模式是谱域编码模式,第二编码模式是时域编码模式,第三编码模式是频域激励编码模式。
3.如权利要求1所述的方法,其中,在校正初始编码模式的步骤中,如果第一编码模式是谱域编码模式,则基于校正参数来确定是否将初始编码模式校正为频域激励编码模式。
4.如权利要求3所述的方法,其中,校正参数包括以下项中的至少一项:音频信号的音调、线性预测误差以及浊音参数与相关度参数之间的差。
5.如权利要求1所述的方法,其中,在校正初始编码模式的步骤中,如果第一编码模式是谱域编码模式,则基于线性预测误差和音频信号的音调来确定是否将第一编码模式校正为频域激励编码模式,并且根据确定的结果,基于浊音参数与相关度参数之间的差来确定是否将第一编码模式校正为频域激励编码模式。
6.如权利要求1所述的方法,其中,在校正初始编码模式的步骤中,如果第二编码模式是时域编码模式,则基于浊音参数与相关度参数之间的差来确定是否将第二编码模式校正为频域激励编码模式。
7.如权利要求1至6中的任意一项所述的方法,其中,当前帧的最终编码模式是通过确定与拖尾长度相应的多个帧的编码模式而被确定的。
8.如权利要求7所述的方法,其中,如果当前帧的初始编码模式或经过校正的编码模式与多个先前帧的编码模式相同,则当前帧的初始编码模式或经过校正的编码模式被确定为当前帧的最终编码模式。
9.如权利要求7所述的方法,其中,如果当前帧的初始编码模式或经过校正的编码模式与多个先前帧的编码模式不相同,则恰在当前帧之前的帧的编码模式被确定为当前帧的最终编码模式。
10.一种音频编码方法,包括:
根据权利要求1至9中的任意一项来确定编码模式;
基于确定的编码模式来对音频信号执行不同的编码处理。
11.一种音频解码方法,包括:
对包括根据权利要求1至9中的任意一项而确定的编码模式的比特流进行解析;
基于所述编码模式来对比特流执行不同的解码处理。
CN201380070268.6A 2012-11-13 2013-11-13 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 Active CN104919524B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711424971.9A CN108074579B (zh) 2012-11-13 2013-11-13 用于确定编码模式的方法以及音频编码方法
CN201711421463.5A CN107958670B (zh) 2012-11-13 2013-11-13 用于确定编码模式的设备以及音频编码设备

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261725694P 2012-11-13 2012-11-13
US61/725,694 2012-11-13
PCT/KR2013/010310 WO2014077591A1 (ko) 2012-11-13 2013-11-13 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN201711424971.9A Division CN108074579B (zh) 2012-11-13 2013-11-13 用于确定编码模式的方法以及音频编码方法
CN201711421463.5A Division CN107958670B (zh) 2012-11-13 2013-11-13 用于确定编码模式的设备以及音频编码设备

Publications (2)

Publication Number Publication Date
CN104919524A true CN104919524A (zh) 2015-09-16
CN104919524B CN104919524B (zh) 2018-01-23

Family

ID=50731440

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201380070268.6A Active CN104919524B (zh) 2012-11-13 2013-11-13 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
CN201711424971.9A Active CN108074579B (zh) 2012-11-13 2013-11-13 用于确定编码模式的方法以及音频编码方法
CN201711421463.5A Active CN107958670B (zh) 2012-11-13 2013-11-13 用于确定编码模式的设备以及音频编码设备

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201711424971.9A Active CN108074579B (zh) 2012-11-13 2013-11-13 用于确定编码模式的方法以及音频编码方法
CN201711421463.5A Active CN107958670B (zh) 2012-11-13 2013-11-13 用于确定编码模式的设备以及音频编码设备

Country Status (17)

Country Link
US (3) US20140188465A1 (zh)
EP (2) EP2922052B1 (zh)
JP (2) JP6170172B2 (zh)
KR (3) KR102331279B1 (zh)
CN (3) CN104919524B (zh)
AU (2) AU2013345615B2 (zh)
CA (1) CA2891413C (zh)
ES (1) ES2900594T3 (zh)
MX (2) MX361866B (zh)
MY (1) MY188080A (zh)
PH (1) PH12015501114A1 (zh)
PL (1) PL2922052T3 (zh)
RU (3) RU2656681C1 (zh)
SG (2) SG10201706626XA (zh)
TW (2) TWI648730B (zh)
WO (1) WO2014077591A1 (zh)
ZA (1) ZA201504289B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389987A (zh) * 2017-08-10 2019-02-26 华为技术有限公司 音频编解码模式确定方法和相关产品

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10090004B2 (en) 2014-02-24 2018-10-02 Samsung Electronics Co., Ltd. Signal classifying method and device, and audio encoding method and device using same
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
CN111081264B (zh) * 2019-12-06 2022-03-29 北京明略软件系统有限公司 一种语音信号处理方法、装置、设备及存储介质
EP4362366A1 (en) * 2021-09-24 2024-05-01 Samsung Electronics Co., Ltd. Electronic device for data packet transmission or reception, and operation method thereof

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010591A (ja) * 1998-06-19 2000-01-14 Oki Electric Ind Co Ltd 音声符号化レート選択器と音声符号化装置
US20030101050A1 (en) * 2001-11-29 2003-05-29 Microsoft Corporation Real-time speech and music classifier
CN1954364A (zh) * 2004-05-17 2007-04-25 诺基亚公司 带有不同编码帧长度的音频编码
CN101091108A (zh) * 2004-05-17 2007-12-19 诺基亚公司 用于对音频信号进行编码的编码模型的选择
CN101178899A (zh) * 1998-12-21 2008-05-14 高通股份有限公司 可变速率语音编码
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器
CN101399039A (zh) * 2007-09-30 2009-04-01 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
US20100253797A1 (en) * 2009-04-01 2010-10-07 Samsung Electronics Co., Ltd. Smart flash viewer
CN102113051A (zh) * 2008-07-11 2011-06-29 弗朗霍夫应用科学研究促进协会 具有级联开关的低比特率音频编码/解码方案
CN102237085A (zh) * 2010-04-26 2011-11-09 华为技术有限公司 音频信号的分类方法及装置
JP2012042534A (ja) * 2010-08-13 2012-03-01 Ntt Docomo Inc オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
US20120069899A1 (en) * 2002-09-04 2012-03-22 Microsoft Corporation Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102080C (en) * 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
AU2003278013A1 (en) * 2002-10-11 2004-05-04 Voiceage Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
US7512536B2 (en) * 2004-05-14 2009-03-31 Texas Instruments Incorporated Efficient filter bank computation for audio coding
WO2006137425A1 (ja) * 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US7733983B2 (en) * 2005-11-14 2010-06-08 Ibiquity Digital Corporation Symbol tracking for AM in-band on-channel radio receivers
US7558809B2 (en) * 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
KR100790110B1 (ko) * 2006-03-18 2008-01-02 삼성전자주식회사 모폴로지 기반의 음성 신호 코덱 방법 및 장치
CN101523486B (zh) * 2006-10-10 2013-08-14 高通股份有限公司 用于编码和解码音频信号的方法和设备
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR20080075050A (ko) 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
WO2009110738A2 (ko) 2008-03-03 2009-09-11 엘지전자(주) 오디오 신호 처리 방법 및 장치
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
EP2272062B1 (en) * 2008-03-26 2012-10-17 Nokia Corporation An audio signal classifier
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
ES2684297T3 (es) * 2008-07-11 2018-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música
CN101350199A (zh) * 2008-07-29 2009-01-21 北京中星微电子有限公司 音频编码器及音频编码方法
JP5555707B2 (ja) * 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
CN101577117B (zh) * 2009-03-12 2012-04-11 无锡中星微电子有限公司 伴奏音乐提取方法及装置
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
KR20110022252A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
CA2778240C (en) * 2009-10-20 2016-09-06 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio codec and celp coding adapted therefore
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
CN102385863B (zh) * 2011-10-10 2013-02-20 杭州米加科技有限公司 一种基于语音音乐分类的声音编码方法
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
WO2014010175A1 (ja) * 2012-07-09 2014-01-16 パナソニック株式会社 符号化装置及び符号化方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010591A (ja) * 1998-06-19 2000-01-14 Oki Electric Ind Co Ltd 音声符号化レート選択器と音声符号化装置
CN101178899A (zh) * 1998-12-21 2008-05-14 高通股份有限公司 可变速率语音编码
US20030101050A1 (en) * 2001-11-29 2003-05-29 Microsoft Corporation Real-time speech and music classifier
US20120069899A1 (en) * 2002-09-04 2012-03-22 Microsoft Corporation Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes
CN1954364A (zh) * 2004-05-17 2007-04-25 诺基亚公司 带有不同编码帧长度的音频编码
CN101091108A (zh) * 2004-05-17 2007-12-19 诺基亚公司 用于对音频信号进行编码的编码模型的选择
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器
CN101399039A (zh) * 2007-09-30 2009-04-01 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN102113051A (zh) * 2008-07-11 2011-06-29 弗朗霍夫应用科学研究促进协会 具有级联开关的低比特率音频编码/解码方案
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
US20100253797A1 (en) * 2009-04-01 2010-10-07 Samsung Electronics Co., Ltd. Smart flash viewer
CN102237085A (zh) * 2010-04-26 2011-11-09 华为技术有限公司 音频信号的分类方法及装置
JP2012042534A (ja) * 2010-08-13 2012-03-01 Ntt Docomo Inc オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
白亮等: "《音频自动分类中的特征分析和抽取》", 《小型微型计算机系统》 *
陈红红等: "《基于MLER和GMM的语音音乐分类》", 《电声技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389987A (zh) * 2017-08-10 2019-02-26 华为技术有限公司 音频编解码模式确定方法和相关产品
CN109389987B (zh) * 2017-08-10 2022-05-10 华为技术有限公司 音频编解码模式确定方法和相关产品
US11935547B2 (en) 2017-08-10 2024-03-19 Huawei Technologies Co., Ltd. Method for determining audio coding/decoding mode and related product

Also Published As

Publication number Publication date
EP2922052B1 (en) 2021-10-13
KR102561265B1 (ko) 2023-07-28
SG10201706626XA (en) 2017-09-28
PH12015501114A1 (en) 2015-08-10
AU2017206243A1 (en) 2017-08-10
US10468046B2 (en) 2019-11-05
WO2014077591A1 (ko) 2014-05-22
ZA201504289B (en) 2021-09-29
AU2017206243B2 (en) 2018-10-04
JP6530449B2 (ja) 2019-06-12
CN107958670B (zh) 2021-11-19
CN108074579B (zh) 2022-06-24
EP3933836A1 (en) 2022-01-05
RU2656681C1 (ru) 2018-06-06
CN104919524B (zh) 2018-01-23
RU2015122128A (ru) 2017-01-10
MX361866B (es) 2018-12-18
TW201805925A (zh) 2018-02-16
CN108074579A (zh) 2018-05-25
SG11201503788UA (en) 2015-06-29
EP2922052A4 (en) 2016-07-20
TWI648730B (zh) 2019-01-21
CN107958670A (zh) 2018-04-24
TWI612518B (zh) 2018-01-21
JP6170172B2 (ja) 2017-07-26
EP2922052A1 (en) 2015-09-23
KR20210146443A (ko) 2021-12-03
US20200035252A1 (en) 2020-01-30
US11004458B2 (en) 2021-05-11
RU2630889C2 (ru) 2017-09-13
MY188080A (en) 2021-11-16
MX2015006028A (es) 2015-12-01
RU2680352C1 (ru) 2019-02-19
AU2013345615B2 (en) 2017-05-04
US20180322887A1 (en) 2018-11-08
PL2922052T3 (pl) 2021-12-20
TW201443881A (zh) 2014-11-16
KR20150087226A (ko) 2015-07-29
JP2017167569A (ja) 2017-09-21
US20140188465A1 (en) 2014-07-03
CA2891413C (en) 2019-04-02
KR102446441B1 (ko) 2022-09-22
JP2015535099A (ja) 2015-12-07
AU2013345615A1 (en) 2015-06-18
CA2891413A1 (en) 2014-05-22
ES2900594T3 (es) 2022-03-17
KR20220132662A (ko) 2022-09-30
MX349196B (es) 2017-07-18
KR102331279B1 (ko) 2021-11-25

Similar Documents

Publication Publication Date Title
CN104919524A (zh) 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
CN103477386B (zh) 音频编解码器中的噪声产生
KR20170125058A (ko) 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법
CN105359209A (zh) 在错误隐藏过程中在不同域中改善信号衰落的装置及方法
CN103493129B (zh) 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
CN103534754A (zh) 在不活动阶段期间利用噪声合成的音频编解码器
CN103098129A (zh) 选择性低音后置滤波器
CN107112022A (zh) 用于数据包丢失隐藏的方法和装置以及采用该方法的解码方法和装置

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant