CN107408383B - 编码器选择 - Google Patents
编码器选择 Download PDFInfo
- Publication number
- CN107408383B CN107408383B CN201680016893.6A CN201680016893A CN107408383B CN 107408383 B CN107408383 B CN 107408383B CN 201680016893 A CN201680016893 A CN 201680016893A CN 107408383 B CN107408383 B CN 107408383B
- Authority
- CN
- China
- Prior art keywords
- data
- encoder
- value
- frame
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 62
- 230000004044 response Effects 0.000 claims description 41
- 230000007774 longterm Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000010295 mobile communication Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 241001269238 Data Species 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- HMUNWXXNJPVALC-UHFFFAOYSA-N 1-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]piperazin-1-yl]-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)N1CCN(CC1)C(CN1CC2=C(CC1)NN=N2)=O HMUNWXXNJPVALC-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种装置包含第一分类器及耦合到所述第一分类器的第二分类器。所述第一分类器经配置以输出指示音频帧分类为语音帧或非语音帧的分类的第一决策数据,所述第一决策数据是基于与所述音频帧为所述语音帧的第一似然性相关联的第一概率数据且基于与所述音频帧为所述非语音帧的第二似然性相关联的第二概率数据而确定。所述第二分类器经配置以基于所述第一概率数据、所述第二概率数据及所述第一决策数据而输出第二决策数据,所述第二决策数据包含对可用于编码所述音频帧的多个编码器中的特定编码器的选择的指示。
Description
相关申请案的交叉引用
本申请案要求2016年3月29日申请的题为“编码器选择(ENCODER SELECTION)”的美国专利申请案第15/083,867号及2015年4月5日申请的题为“编码器选择(ENCODERSELECTION)”的美国临时专利申请案第62/143,155号的权利,所述美国申请案的全文明确地以引用的方式并入本文中。
技术领域
本发明大体上涉及对编码器的选择。
背景技术
通过数字技术进行音频记录及发射是广泛应用的。举例来说,可在远程及数字无线电电话应用中发射音频。例如无线电话的装置可发送及接收表示人类话音(例如,语音)及非语音(例如,音乐或其它声音)的信号。
在一些装置中,多种译码技术是可用的。举例来说,装置的音频译码器-解码器(CODEC)可使用切换译码方法来编码多种内容。为进行说明,装置可包含例如代数码激励线性预测(algebraic code-excited linear prediction;ACELP)编码器的语音编码器,及例如变换译码激励(transform coded excitation;TCX)编码器(例如,变换域编码器)的非语音编码器。语音编码器可专门用于编码语音内容,且例如音乐编码器的非语音编码器可专门用于编码非作用中及音乐内容。应注意,如本文中所使用,“编码器”可指切换式编码器的编码模式中的一个。举例来说,ACELP编码器及TCX编码器可为切换式编码器内的两个单独编码模式。
装置可使用多个方法中的一个来将音频帧分类及选择编码器。举例来说,音频帧可被分类为语音帧或非语音帧(例如,音乐帧)。如果音频帧被分类为语音帧,那么装置可选择语音编码器来编码音频帧。替代地,如果音频帧被分类为非语音帧(例如,音乐帧),那么装置可选择非语音编码器来编码音频帧。
可由装置用以将音频帧分类的第一种方法可包含基于语音特性的高斯混合模型(GMM)。举例来说,GMM可使用音频帧的语音特性(例如,音调、频谱形状、相关性度量等)来确定音频帧更可能为语音帧还是更可能为非语音帧。GMM可专门用于识别语音帧,但可能无法还起作用以识别非语音帧(例如,音乐帧)。
第二种方法可包含开放回路分类器。开放回路分类器可预测哪个编码器(例如,语音编码器或非语音编码器)更适合于编码音频帧。术语“开放回路”用以表示并未在预测选择哪个编码器之前显式地编码音频帧。开放回路分类器可专门用于识别非语音帧,但可能无法还起作用以识别语音帧。
可由装置用以将音频帧分类的第三种方法可包含基于模型的分类器及开放回路分类器。基于模型的分类器可将决策输出到开放回路分类器,所述开放回路分类器可使用所述决策来将音频帧分类。
装置可以逐个帧为基础而分析传入的音频信号,且可决定使用语音编码器还是非语音编码器(例如,音乐编码器)来编码特定音频帧。如果特定音频帧经错误分类(例如,被不当地分类为语音帧或非语音帧),那么可能产生伪讯、不良信号质量或其组合。
发明内容
在特定方面中,一种装置包含第一分类器及耦合到所述第一分类器的第二分类器。所述第一分类器经配置以确定第一决策数据,所述第一决策数据指示音频帧分类为语音帧或非语音帧的分类。所述第一决策数据是基于与所述音频帧为所述语音帧的第一似然性相关联的第一概率数据且基于与所述音频帧为所述非语音帧的第二似然性相关联的第二概率数据而确定。所述第二分类器经配置以基于所述第一概率数据、所述第二概率数据及所述第一决策数据而确定第二决策数据。所述第二决策数据包含对可用于编码所述音频帧的多个编码器中的特定编码器的选择的指示。
在另一特定方面中,一种方法包含:在第二分类器处从第一分类器接收第一概率数据及第二概率数据。所述第一概率数据与音频帧为语音帧的第一似然性相关联,且所述第二概率数据与所述音频帧为非语音帧的第二似然性相关联。所述方法还包含在所述第二分类器处从所述第一分类器接收第一决策数据。所述第一决策数据基于所述第一概率数据及所述第二概率数据。所述第一决策数据指示所述音频帧分类为所述语音帧或所述非语音帧的分类。所述方法进一步包含在所述第二分类器处基于所述第一概率数据、所述第二概率数据及所述第一决策数据而确定第二决策数据。所述第二决策数据指示对用以编码所述音频帧的多个编码器中的特定编码器的选择。
在另一特定方面中,一种设备包含用于确定与音频帧为语音帧的第一似然性相关联的第一概率数据的装置及用于确定与所述音频帧为非语音帧的第二似然性相关联的第二概率数据的装置。所述设备还包含用于基于所述第一概率数据及所述第二概率数据而确定第一决策数据的装置。所述第一决策数据包含所述音频帧分类为所述语音帧或所述非语音帧的分类的第一指示。所述设备进一步包含用于基于所述第一概率数据、所述第二概率数据及所述第一决策数据而确定第二决策数据的装置。所述第二决策数据包含对用以编码所述音频帧的编码器的选择的第二指示。
在另一特定方面中,一种计算机可读存储装置,其存储指令,所述指令在通过处理器执行时使所述处理器执行包含以下各项的操作:确定与音频帧为语音帧的第一似然性相关联的第一概率数据;及确定与所述音频帧为非语音帧的第二似然性相关联的第二概率数据。所述操作还包含:基于所述第一概率数据及所述第二概率数据而确定第一决策数据。所述第一决策数据指示所述音频帧分类为所述语音帧或所述非语音帧的分类。所述操作进一步包含基于所述第一概率数据、所述第二概率数据及所述第一决策数据而确定第二决策数据。所述第二决策数据指示对用以编码所述音频帧的编码器的选择。
在另一特定方面中,一种方法包含:在第二分类器处从第一分类器接收第一概率数据及第一决策数据。所述第一概率数据与音频帧为语音帧的第一似然性相关联。所述第一决策数据指示所述音频帧分类为所述语音帧或非语音帧的分类。所述方法还包含:在所述第二分类器处确定是否满足与所述音频帧相关联的条件集合。所述条件集合中的第一条件是基于所述第一概率数据,且所述条件集合中的第二条件是基于所述第一决策数据。所述方法进一步包含:响应于确定是否满足所述条件集合,选择调整参数的值以使选择偏向多个编码器中的第一编码器。
本发明的其它方面、优点及特征将在审阅申请案之后变得显而易见,所述申请案包含以下部分:[图式简单说明]、[实施方式]及[权利要求书]。
附图说明
图1为可操作以选择编码器的系统的特定说明性方面的框图;
图2为图1的系统的选择器的特定说明性方面的框图;
图3为图1的系统的第一分类器的特定说明性方面的框图;
图4为图1的系统的第二分类器的特定说明性方面的框图;
图5为说明选择编码器的方法的流程图;
图6为说明选择调整参数的值以使选择偏向特定编码器的方法的流程图;
图7为可操作以选择编码器的装置的特定说明性方面的框图;及
图8为可操作以选择编码器的基站的特定说明性方面的框图。
具体实施方式
下文参看图式描述本发明的特定方面。在描述中,共同特征通过共同参考编号指示。如本文中所使用,仅出于描述特定实施方案的目的而使用各种术语,且所述术语并不打算为限制性的。举例来说,除非上下文另外清晰地指示,否则单数形式“一(a/an)”及“所述”打算还包含复数形式。可进一步理解,术语“包括(comprise及comprising)”可与“包含(includes或including)”互换使用。另外,应理解,术语“其中”可与“在…的情况下”互换使用。如本文中所使用,用以修饰元件(例如,结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身并不指示元件相对于另一元件的任何优先顺序或次序,而是仅将元件与具有相同名称(但使用序数术语)的另一元件区别开。如本文中所使用,术语“集合”指一或多个元件的分组,且术语“多个”指多个元件。
在本发明中,描述用以选择编码器或编码模式的技术。装置可接收音频帧,且可选择多个编码器(或编码模式)中待用以编码音频帧的特定编码器。本文中所描述的技术可用以设置调整参数(例如,滞后度量)的值,所述调整参数用以使选择偏向特定编码器(例如,语音编码器或非语音/音乐编码器)或特定编码模式。所述调整参数可用以提供音频帧的更准确分类,其可导致待用以编码音频帧的编码器的经改进选择。
为进行说明,装置可接收音频帧,且可使用例如第一分类器及第二分类器的多个分类器来识别待选择以编码音频帧的编码器。第一分类器可基于语音模型(例如,语音模型电路)、基于非语音模型(例如,非语音模型电路)或其组合而产生第一决策数据。第一决策数据可指示音频帧为类似语音的帧还是非语音(例如,音乐、背景噪声等)帧。作为说明性的非限制性实例,语音内容可被指定为包含作用中语音、非作用中语音、有噪声语音或其组合。作为说明性的非限制性实例,非语音内容可被指定为包含音乐内容、类似音乐的内容(例如,等候音乐(music on hold)、铃声等)、背景噪声或其组合。在其它实施方案中,非作用中语音、有噪声语音或其组合可在与语音相关联的特定编码器(例如,语音编码器)在解码非作用中语音或有噪声语音时有困难的情况下通过装置分类为非语音内容。在另一实施方案中,背景噪声可被分类为语音内容。举例来说,装置可在与语音相关联的特定编码器(例如,语音编码器)专门用于解码背景噪声的情况下将背景噪声分类为语音内容。
在一些实施方案中,第一分类器可与最大似然算法(例如,基于高斯混合模型、基于隐式马尔可夫模型,或基于神经网络)相关联。为产生第一决策数据,第一分类器可产生一或多个概率值,例如与音频帧为语音帧的第一似然性相关联的第一概率值(例如,第一概率数据)、与音频帧为非语音帧的第二似然性相关联的第二概率值(例如,第二概率数据),或其组合。第一分类器可包含状态机,其接收第一概率数据、第二概率数据或其组合,且产生第一决策数据。第一决策数据可由状态机输出且由第二分类器接收。
第二分类器可经配置以产生与对用以编码音频帧的多个编码器中的特定编码器的选择相关联(例如,指示所述选择)的第二决策数据。第二决策数据可对应于音频帧的经更新或修改的分类(例如,第二决策数据可与第一决策数据指示不同分类)。在一些实施方案中,第一决策数据可与第二决策数据指示相同分类。另外或替代地,第二决策数据可对应于“最终决策”(例如,如果音频帧具有语音帧的分类,那么选择语音编码器)。第二分类器可为基于模型的分类器,可为并非完全基于模型的分类器(例如,开放回路分类器),或可基于一组译码参数。作为说明性的非限制性实例,译码参数可包含核心指示符、译码模式、译码器类型、低通核心决策、音调值、音调稳定性,或其组合。
第二分类器可基于第一决策数据、第一概率数据、第二概率数据或其组合而产生第二决策数据。在一些实施方案中,第二分类器可使用所述组译码参数中的一或多个来产生第二决策数据。另外,第二分类器可基于与音频帧相关联的一或多个条件而产生第二决策数据。举例来说,如本文中所描述,第二分类器可确定是否满足与音频帧相关联的条件集合。响应于满足(或未满足)所述条件集合中的一或多个条件,第二分类器可确定调整参数的值以使选择偏向(例如,影响选择以偏向)第一编码器(例如,语音编码器)或第二编码器(例如,非语音编码器)。在其它实施方案中,第二分类器可确定调整参数的值以使选择偏向(例如,影响选择以偏向)具有多个编码模式的可切换编码器(例如,切换式编码器)的特定编码模式。调整参数可作为滞后度量(例如,基于时间的度量)来操作,所述滞后度量可由第二分类器用以改进对用于音频帧的编码器的选择。举例来说,滞后度量可通过延迟或减少两个编码器之间的来回切换来“使得”包含经编码音频帧的经编码音频流式发射“平滑”,直到已将阈值数目个顺序音频帧识别为具有特定分类。
所述条件集合可包含第一条件:编码器中的至少一个与第一采样率(例如,音频采样率)相关联。在一些实施方案中,作为说明性的非限制性实例,第一采样率可为低音频采样率,例如12.8千赫兹(kHz)。在其它实施方案中,第一采样率可大于或小于12.8kHz,例如14.4kHz或8kHz。在特定实施方案中,第一采样率可低于由编码器使用的其它采样率。所述条件集合可包含第二条件:第一决策与音频帧分类为语音帧的分类相关联。所述条件集合可包含第三条件:与正用以编码音频帧的第一编码器相关联的第一估计译码增益值大于或等于第一值,其中第一值相关联于第二估计译码增益值与第二值之间的差。
在一些实施方案中,如果最近分类的帧与语音内容相关联,那么所述条件集合可包含与第一概率值大于或等于第二概率值的确定相关联的条件。替代地,如果多个最近分类的帧中的每一帧与语音内容相关联,那么所述条件集合可包含与第一概率值大于或等于第三值的确定相关联的另一条件,其中第三值相关联于第二概率值与第四值之间的差。
在一些实施方案中,所述条件集合可包含与音频帧的多个子帧的平均发声值大于或等于第一阈值相关联的条件。另外或替代地,所述条件集合可包含与相关联于音频帧的非平稳性值大于第二阈值相关联的条件。另外或替代地,所述条件集合可包含与相关联于音频帧的偏移值小于第三阈值相关联的条件。
参看图1,公开可操作以选择编码器的系统100的特定说明性实例。系统100包含装置102,所述装置经配置以接收可包含输入语音110的音频信号,例如经由耦合到装置102或包含在装置102中的麦克风接收的经采样音频信号。装置102经配置以在第一编码器132与第二编码器134之间进行选择以编码输入语音110的全部或部分。尽管第一编码器132及第二编码器134说明为单独编码器,但在其它实施方案中,第一编码器132及第二编码器134可包含在单一编码器(例如,切换式编码器)中。举例来说,第一编码器132及第二编码器134可对应于切换式编码器的不同编码模式。编码输入语音110可产生一系列经编码音频帧(例如,经编码音频帧114),所述帧可(例如)经由无线网络发送到一或多个其它装置。举例来说,装置102可与远程装置进行话音呼叫,例如因特网话音通讯协议(VoIP)呼叫。在一些实施方案中,作为说明性的非限制性实例,第一编码器132、第二编码器134或其两者可经配置以根据一或多个协议/标准操作,例如根据(例如,符合)第三代合作伙伴计划(3GPP)增强型话音服务(EVS)协议/标准。
装置102包含编码器104,所述编码器包含选择器120、切换器130及包含第一编码器132及第二编码器134的多个编码器。编码器104经配置以接收包含输入语音110的音频信号的音频帧,例如音频帧112。音频信号可包括语音数据、非语音数据(例如,音乐或背景噪声)或其两者。选择器120可经配置以确定音频信号的每一帧待由第一编码器132还是第二编码器134编码。举例来说,第一编码器132可包含语音编码器,例如ACELP编码器,且第二编码器134可包含非语音编码器,例如音乐编码器。在特定实施方案中,第二编码器134包含TCX编码器。切换器130对选择器120作出响应,以将音频帧112投送到第一编码器132或第二编码器134中的所选择编码器,从而产生经编码音频帧114。
选择器120可包含第一分类器122及第二分类器124。第一分类器122可经配置以接收音频帧112或音频帧112的一部分,例如参看图2及3描述的特征集合。第一分类器122可经配置以输出指示音频帧112分类为语音帧或非语音帧的分类的第一决策数据146。可基于与音频帧为语音帧的第一似然性相关联的第一概率数据142且基于与音频帧为非语音帧的第二似然性相关联的第二概率数据144而确定第一决策数据146。举例来说,第一分类器122可包含或对应于基于模型的分类器、GMM电路(例如,GMM模块),或其两者。关于图3进一步详细地描述第一分类器122的特定实施方案。
第二分类器124耦合到第一分类器122,且经配置以基于第一概率数据142、第二概率数据144及第一决策数据146而输出第二决策数据148。第二决策数据148指示对可用于编码音频帧112的多个编码器(例如,第一编码器132或第二编码器134)中的特定编码器的选择。在一些实施方案中,第二分类器124可经配置以接收音频帧112。第二分类器124可从第一分类器122、从编码器104或从装置102的另一组件接收音频帧112。另外或替代地,第二分类器124可经配置以产生调整参数。调整参数的值可使第二决策数据148偏向(例如,影响第二决策数据以偏向)指示多个编码器(例如,第一编码器132或第二编码器134)中的特定编码器。举例来说,调整参数的第一值可增大选择特定编码器的概率。第二分类器124可包含或对应于开放回路分类器。关于图4进一步详细地描述第二分类器124的特定实施方案。
切换器130耦合到选择器120,且可经配置以接收第二决策数据148。切换器130可经配置以根据第二决策数据148选择第一编码器132或第二编码器134。切换器130可经配置以根据(例如,基于)第二决策数据148将音频帧112提供到第一编码器132或第二编码器134。在其它实施方案中,切换器130将信号提供或投送到所选择编码器,以启动或启用所选择编码器的输出。
第一编码器132及第二编码器134可耦合到切换器130,且经配置以从切换器130接收音频帧112。在其它实施方案中,第一编码器132或第二编码器134可经配置以从装置102的另一组件接收音频帧112。第一编码器132及第二编码器134可经配置以响应于接收音频帧112而产生经编码音频帧114。
在操作期间,可以逐个帧为基础处理输入语音110,且可在编码器104处(例如,在选择器120中)从输入语音110提取一组特征。可通过第一分类器122使用所述组特征。举例来说,第一分类器122(例如,基于模型的分类器)可分别产生且输出第一概率数据142及第二概率数据144,例如短期语音概率(“lps”)及短期音乐概率(“lpm”)。如关于图3所描述,可将对应于特定帧的lps及lpm值提供到第一分类器122中的跟踪编码器104的一或多个状态(例如,状态参数)的状态机,以产生用于特定帧的语音或音乐(“sp_aud_decision”)的决策。编码器104的一或多个状态可包含长期参数的值,例如非作用中帧的计数、语音帧的计数、音乐帧的计数等。状态机还可接收参数,例如来自话音活动检测器(VAD)的话音活动决策、当前帧的能量等。尽管VAD被描述为“话音”活动检测器,但应理解,VAD为作用中信号(其可能包含语音或音乐)与非作用中信号(例如,背景噪声)之间的鉴别器。
第二分类器124可使用从帧提取的短期特征来估计两个译码增益估计值或测量值,其被称作ACELP编码的信噪比(“snr_acelp”)及TCX编码的信噪比(“snr_tcx”)。尽管被称作SNR比,但snr_acelp及snr_tcx可为译码增益估计值,或为可分别对应于当前帧为语音或音乐的似然性或可对应于第一编码器132(例如,ACELP编码器)或第二编码器134(例如,TCX编码器)在编码帧时的估计有效性程度的其它估计值或测量值。第二分类器124可基于例如第一决策数据146(例如,“sp_aud_decision”)的长期信息且进一步基于例如第一概率数据142(例如,“lps”)、第二概率数据144(例如,“lpm”)、一或多个其它参数或其组合的来自第一分类器122的额外数据而修改snr_acelp、snr_tcx或其两者(例如,调整snr_acelp、snr_tcx或其两者的值)。
因此,选择器120可基于可在分类器122、124中的任一个处产生且如图2中所展示的长期及短期参数而偏置(例如,影响)哪个编码器(例如,第一编码器132或第二编码器134)适用于特定帧的决策。通过基于来自第一分类器122的额外数据(例如,第一概率数据142、第二概率数据144或其两者)而选择编码器,相比于使用来自第一分类器(例如,基于模型的分类器或开放回路分类器)的针对每一帧选择第一编码器132或第二编码器134的决策的实施方案,对于选择待由第一编码器132或第二编码器134编码的帧,选择器120可减少误报数目及漏失检测数目。
另外,应注意,尽管图1说明第一编码器132及第二编码器134,但此并不被视为限制性的。在替代实例中,可包含多于两个编码器、电路或其它模块。举例来说,编码器104可包含一或多个低频带(LB)“核心”电路或模块(例如,TCX核心、ACELP核心、一或多个其它核心,或其任何组合)及一或多个高频带(HB)/带宽扩展(BWE)电路或模块。可将经选择用于语音编码的音频帧112的低频带部分提供到特定低频带核心电路或模块以供编码,此取决于帧的特性(例如,帧是否含有语音、噪声、音乐等)。可将每一帧的高频带部分提供到特定HB/BWE电路或模块。
图2为图1的选择器120的特定说明性实例200的框图。在实例200中,选择器120经配置以接收输入帧(例如,图1的音频帧112)及对应于编码器104的长期状态的数据,且输出语音/音乐决策(例如,图1的第一决策数据146)。短期特征提取器226经配置以接收输入帧且产生从输入帧提取的特征集合。为进行说明,短期特征提取器226可经配置以基于输入帧而产生短期特征。
第一分类器122被描绘为基于模型的分类器,其经配置以接收来自短期特征提取器226的特征集合,及长期状态数据。第一分类器122经配置以产生短期语音概率(“lps”)的指示符(例如,图1的第一概率数据142)、短期音乐概率(“lpm”)的指示符(例如,图1的第二概率数据144),及语音/音乐决策(“sp_aud_decision”)(例如,图1的第一决策数据146)。在一些实施方案中,第一分类器122可经配置以接收输入帧。
第二分类器124被描绘为开放回路分类器,其经配置以接收输入帧及长期状态数据。第二分类器124还可经配置以从短期特征提取器226接收短期特征,且从第一分类器122接收短期语音概率(“lps”)的指示符、短期音乐概率(“lpm”)的指示符及语音/音乐决策(“sp_aud_decision”)。第二分类器124经配置以输出经更新(或修改)分类决策(例如,图1的第二决策数据148)。第二分类器124可将第二决策数据输出到切换器(例如,图1的切换器130)或切换式编码器。另外或替代地,第二分类器124可经配置以从短期特征提取器226接收特征集合。
根据图3中所描绘的特定实例300说明第一分类器122的细节。在实例300中,第一分类器122包含语音模型370(例如,语音模型电路)、音乐模型372(例如,音乐模型电路),及状态机374。语音模型370经配置以基于从图2的短期特征提取器226接收的特征集合而计算短期语音概率(“lps”)的指示符。音乐模型372经配置以基于从短期特征提取器226接收的特征集合而计算短期音乐概率(“lpm”)的指示符。在其它实施方案中,第一分类器122可接收输入帧,且可确定特征集合。
状态机374可经配置以接收第一概率数据(例如,从语音模型370输出的短期语音概率(“lps”)的指示符,其对应于图1的第一概率数据142)。状态机374可经配置以接收第二概率数据(例如,从音乐模型372输出的短期音乐概率(“lpm”的指示符,其对应于图1的第二概率数据144)。状态机374可经配置以基于第一概率数据及第二概率数据而产生语音/音乐决策(“sp_aud_decision”)(例如,图1的第一决策数据146)。
根据图4中所描绘的特定实例400说明第二分类器124的细节。在实例400中,第二分类器124包含短期语音似然性估计器410、短期音乐似然性估计器412、长期决策偏置单元414、调整参数产生器416,及分类决策产生器418。
短期语音似然性估计器410经配置以接收从输入帧(例如,从图2的短期特征提取器226)提取的短期特征集合,及输入帧(例如,图1的音频帧112)。短期语音似然性估计器410经配置以产生第一估计译码增益值(例如,“snr_acelp”),其对应于使用ACELP编码器(例如,图1的第一编码器132)编码输入帧的估计译码增益或效率。
短期音乐似然性估计器412经配置以接收从输入帧(例如,从图2的短期特征提取器226)提取的短期特征集合,及输入帧。短期音乐似然性估计器412经配置以产生第二估计译码增益值(例如,“snr_tcx”),其对应于使用TCX编码器(例如,图1的第二编码器134)编码输入帧的估计译码增益或效率。
长期决策偏置单元414经配置以接收第一估计译码增益值(例如,“snr_acelp”)、第二估计译码增益值(例如,“snr_tcx”)、通过如图3中所描绘的第一分类器122产生的语音/音乐决策(“sp_aud_decision”),及长期状态数据。长期决策偏置单元414经配置以基于输入到长期决策偏置单元414的值中的一或多个而产生输出。
调整参数产生器416经配置以接收从图3的语音模型370输出的第一概率数据(例如,“lps”)、从图3的音乐模型372输出的第二概率数据(例如,“lpm”)、长期状态数据,及长期决策偏置单元414的输出。调整参数产生器416经配置以设置调整参数(表示为“dsnr”)的值,其通过分类决策产生器418用以使语音/音乐决策偏向语音编码器或偏向音乐编码器。尽管调整参数在图4及下文描述的实例中标记为“dsnr”,但调整参数可能或可能不对应于信噪比。举例来说,在一些实施方案中,调整值可表示信噪比的偏移(例如,“差量snr”),而在其它实施方案中,调整参数可对应于译码增益值或译码增益比的偏移(例如,“差量译码增益”)、译码增益估计值或一或多个其它物理值或模型参数的偏移,或可为并不直接对应于物理值或模型参数的数值。因此,应理解,仅为便利起见而使用标记“dsnr”,且所述标记并不对调整参数的内容或使用强加限制。
分类决策产生器418经配置以接收第一估计译码增益值(例如,“snr_acelp”)、第二估计译码增益值(例如,“snr_tcx”)、调整参数(例如,“dsnr”)、来自图2的短期特征提取器226的短期特征集合、长期状态数据,及通过如图3中所描绘的第一分类器122产生的语音/音乐决策(“sp_aud_decision”)。基于所接收的输入值,分类决策产生器418经配置以输出经更新(或修改)分类决策,其可对应于图1的第二决策数据148。
调整参数(“dsnr”)的值偏置分类决策产生器418的语音/音乐决策。举例来说,调整参数的正值可使得分类决策产生器418针对输入帧更可能选择语音编码器,且调整参数的负值可使得分类决策产生器418针对输入帧更可能选择非语音编码器。
如关于图4所描述,若干参数是可用的,且可用以使语音/音乐决策偏向语音或非语音或影响语音/音乐决策以偏向语音或非语音。举例来说,在获得第一分类器122的决策(“sp_aud_decision”)时通过语音模型及音乐模型计算为中间参数的短期语音概率(“lps”)、短期音乐概率(“lpm”)或其组合可用以偏置第二分类器124的语音/音乐决策。
作为另一实例,第一分类器122的长期决策(“sp_aud_decision”)可用以偏置第二分类器124的语音/音乐决策。作为另一实例,短期译码增益估计值(例如,“snr_acelp”及“snr_tcx”)的接近性(例如,数值类似性)可用以偏置第二分类器124的语音/音乐决策。
作为另一实例,被选择为ACELP/语音(例如,在长期状态数据中)的过去连续帧的数目可用以偏置第二分类器124的语音/音乐决策。替代地,在过去帧的子集当中选择的ACELP/语音帧的数目的度量(此实例可为过去50个帧中ACELP/语音帧的百分比)可用以偏置第二分类器124的语音/音乐决策。
作为另一实例,ACELP/语音与TCX/音乐(例如,在长期状态数据中)之间的前一帧决策可用以偏置第二分类器124的语音/音乐决策。作为另一实例,语音能量的非平稳性度量(“non_staX”)可经估计为频率中的不同频带当中的当前帧的能量与过去帧的能量的比率的总和。非平稳性度量可包含在由图2的短期特征提取器226提供的特征集合中。非平稳性度量可用以偏置第二分类器124的语音/音乐决策。
作为另一实例,输入帧的所有子帧(或其子集)当中的平均(例如,平均化或算术平均)发声可用以偏置第二分类器124的语音/音乐决策。平均发声可包含子帧中的语音与语音的经移位版本的标准化相关性的度量。经移位版本的移位量可对应于子帧的所计算的音调延滞。高发声指示信号高度重复,其中重复时间间隔大体上匹配音调迟滞。平均发声可包含在由图2的短期特征提取器226提供的特征集合中。
作为另一实例,偏移参数可用以偏置第二分类器124的语音/音乐决策。举例来说,如果TCX编码器用以译码音乐片段,那么可在偏置语音/音乐决策时合并偏移参数。偏移参数可对应于TCX译码增益的倒数。偏移参数可与第二估计译码增益值(“snr_tcx”)成反比。在特定实施方案中,可确定偏移参数的值是否小于阈值(例如,偏移<74.0),以强加对应于第二估计译码增益值(“snr_tcx”)的最小准则。除验证第一估计译码增益值(“snr_acelp”)超过另一阈值(例如,snr_acelp>snr_tcx-4)以外,验证偏移参数不小于阈值可指示编码器中的任一个还是两者不足以编码输入帧。如果所述编码器两者不足以编码输入帧,那么可使用第三编码器来编码输入帧。尽管上文列出可用以偏置编码器选择的若干参数,但应理解,一些实施方案可不包含所列出参数中的一或多个,包含一或多个其它参数,或其任何组合。
通过基于额外数据(例如,来自图1的第一分类器122的数据)而修改译码增益估计值或测量值(例如,调整其值),相比于使用来自第一分类器(例如,基于模型的分类器或开放回路分类器)的针对每一帧选择第一编码器132或第二编码器134的决策的实施方案,对于选择待编码的帧,第二分类器124可减少误报数目及漏失检测数目。通过使用所选择的编码器来编码音频帧,可减少或消除由音频帧的错误分类及使用错误编码器编码音频帧引起的伪讯及不良信号质量。
下文呈现说明关于图1到4所描述的方面的可能实施方案的计算机代码的若干实例。在实例中,术语“st->”指示所述术语之后的变量为状态参数(例如,图1的编码器104的状态、图1的选择器120的状态,或其组合)。举例来说,“st->lps”指示输入帧为语音帧的短期概率(“lps”)为状态参数。以下实例对应于基于图1的系统100、图2到4的实例或其两者的实施方案,且其中第一分类器122为基于模型的分类器,第二分类器124为开放回路分类器,第一编码器132包含ACELP编码器,且第二编码器134包含TCX编码器。
计算机代码包含并非为可执行代码的部分的注解。在计算机代码中,注解的开始由正斜线及星号(例如,“/*”)指示,且注解的结束由星号及正斜线(例如,“*/”)指示。为进行说明,注解“注解(COMMENT)”可作为/*注解*/出现在伪代码中。
在所提供的实例中,“==”算子指示相等性比较,使得“A==B”在A的值等于B的值时具有真(TRUE)值,且否则具有假(FALSE)值。“&&”算子指示逻辑与(AND)运算。“||”算子指示逻辑或(OR)运算。“>”(大于)算子表示“大于”,“>=”算子表示“大于或等于”,且“<”算子指示“小于”。在数字之后的术语“f”指示浮点(例如,十进位)数格式。如先前所提到,“st->A”术语指示A为状态参数(即,“->”字符并不表示逻辑或算术运算)。
在所提供的实例中,“*”可表示乘法运算,“+”或“sum”可表示加法运算,“-”可指示减法运算,且“/”可表示除法运算。“=”算子表示赋值(例如,“a=1”将值1赋予到变量“a”)。除实例1的条件集合以外或作为其代替,其它实施可包含一或多个条件。
条件“st->lps>st->lpm”指示当前帧类似语音的短期概率高于当前帧类似音乐的短期概率,如由基于模型的分类器所计算。此些概率为中间参数,其值可被提供或分接出到第二分类器124,之后状态机374中的处理在第一分类器122(例如,基于模型的分类器)中发生。
举例来说,lps可对应于给定所观察特征的情况下的语音的对数概率,且lpm可对应于给定所观察特征的情况下的音乐的对数概率。举例来说,
[方程式1]:lps=log(p(语音|特征)*p(特征))=log(p(特征|语音)+log(语音),及
[方程式2]:lpm=log(p(音乐|特征)*p(特征))=log(p(特征|音乐))+log(音乐),
其中p(x)指示x的概率,且p(x|y)指示在给定y的情况下的x的概率。在一些实施方案中,当执行lps与lpm之间的相对比较时,可忽略p(特征),这是因为其为通项。项p(特征|语音)为假定特征属于语音的情况下的所观察的特征集合的概率。可基于用于语音的模型而计算项p(特征|语音)。项p(语音)为语音的先验概率。一般来说,对于移动通信应用程序,p(语音)>p(音乐),这是因为某人讲电话的似然性可能高于音乐被播放到电话中的似然性。然而,在替代使用案例中,p(语音)及p(音乐)可以任意方式相关。
参数lps及lpm可指示所观察的特征集合根据关于语音模型、音乐模型或其组合的信息连同语音及音乐的先验概率而分别为语音及音乐的似然性。
条件“st->sr_core==12800”可指示编码器或编码器操作模式(例如,ACELP核心采样率为12.8kHz)。举例来说,在一些实施方案中,12.8kHz编码器操作模式可相比较高采样率编码器操作模式展现增加的语音/音乐错误预测。
条件“sp_aud_decision0==0”可指示:第一分类器122的语音/音乐决策指示输入帧为语音帧。在计算基于模型的参数lps及lpm之后及在状态机374(其考虑长期信息使得sp_aud_decision避免频繁切换)处理完成之后产生第一分类器122的语音/音乐决策。
术语“st->acelpFramesCount”指示被决定为ACELP(或语音)的过去的连续帧的数目的计数。当过去的连续ACELP帧的数目相对较高时,此计数可用以使决策偏向语音。使用此计数偏置决策可在边界状况下(例如,当lps具有类似于lpm的值的值时,及当snr_acelp具有类似于snr_tcx的值的值时)提供增加的偏置效应。此情形还避免ACELP/TCX之间的频繁切换。
可评估条件集合来确定是否通过如实例1中所指示设置调整参数“dsnr”的值来偏置语音/音乐决策。
实例1
应注意,st->acelpFramesCount>=1指示最后帧(即,在当前经评估的帧之前的帧)被确定为ACELP帧(例如,第二决策数据148指示对第一编码器132的选择)。如果最后帧(前一帧)被确定为ACELP帧,那么实例1的条件集合还包含检查st->lps>st->lpm。然而,如果最后6个连续帧被确定为ACELP帧,那么即使st->lps小于st->lpm,只要st->lps的值与st->lpm的值相差在1.5内,实例1的条件集合便允许调整当前帧的调整参数“dsnr”,以使选择偏向当前帧为ACELP帧。还应注意,st->acelpFramesCount>=6指示至少最后6个帧被确定为ACELP帧帧(例如,第二决策数据148指示对第一编码器132的选择),且其隐式地指示最后帧(即,在当前经评估的帧之前的帧)被确定为ACELP帧。为进行说明,在一些实施方案中,st->lps的值可通常介于-27与27之间,且st->lpm的值可通常介于-16与23之间。
应注意,即使在如实例1中所应用的调整参数(例如,dsnr=4.0f)的修改之后,在一些实施方案中,调整参数的值可在被应用于分类决策产生器418的语音/音乐决策期间之前进一步进行调整(例如,增加或减小)。因此,实例1中的调整参数“dsnr”的修改增加(但未必保证)在实例1的条件集合满足时选择语音/ACELP的概率。
除实例1的条件集合以外或作为其代替,其它实施可包含一或多个条件。举例来说,参数“non_staX”可指示当前帧与过去帧之间的各种频带中的能量的绝对方差的度量。在对数域中,non_staX可为不同频带当中的当前帧与过去帧之间的绝对对数能量差。实例2中提供参数non_staX的值的计算的实例。
实例2
音乐信号(尤其乐器信号(例如,小提琴))在所有频带中具有极高程度的平稳性,但有时可能归因于其高调和性而被误认为有声语音。相对较高非平稳性的条件可用以降低将平稳乐器信号编码为语音(例如,通过ACELP编码器)的似然性。
作为另一实例,当当前帧的四个子帧内的参数voicing_fr的值的算术平均值大于或等于0.3时,基于平均发声的条件“mean(voicing_fr,4)>=0.3”可满足。尽管考虑可对应于帧的所有子帧的四个子帧,但在其它实施方案中,可考虑少于四个子帧。参数voicing_fr可确定为:
[方程式3]:
在方程式3中,τi为子帧i中所估计的音调周期。Voicing_fr[i]为用于子帧i的发声参数。Voicing_fr[i]具有值1指示当前子帧中的语音与样本τi的集合之间的相关性极高,且值0意味着相关性极低。Voicing_fr可为语音的重复性的度量。有声帧是高度重复的,且对于类似语音的信号,可满足条件“mean(voicing_fr,4)>0.3”。
作为另一实例,当确定是否使语音/音乐决策偏向语音时,可使用基于偏移参数的条件“offset<74.0f”。偏移参数与snr_tcx成反比,意味着偏移值的增加将导致snr_tcx的减小,且偏移值的减小将导致snr_tcx的增加,且将偏移参数约束为具有低值间接地将snr_tcx约束为具有超过有效TCX编码的下限的电平。应注意,在第二分类器内基于长期状态、短期特征等而计算偏移参数。在一项实施方案中,snr_tcx与偏移之间的关系可为:
[方程式4]:(其中Sh为经加权语音,且其中对输入语音的LPC进行加权)
或
[方程式5]:
作为另一实例,当“sp_aud_decision0==1”(例如,第一决策数据146指示音乐帧)时,语音/音乐决策可偏向音乐,以减少ACELP帧在音乐信号中的出现,如实例3中所说明。
实例3
实例4中提供使第二分类器124的决策偏向ACELP或TCX的所提议条件的扩展集合(相比于实例1)。
实例4
实例5中提供使第二分类器124的决策偏向ACELP或TCX的所提议条件的另一集合。在实例5中,mean(voicing_fr,4)高于0.3作为独立条件。
实例5
尽管实例1及实例3到5提供对应于调整参数“dsnr”的设置值的条件集合的实例,但其它实施可不包含一或多个条件、包含一或多个其它条件,或其任何组合。举例来说,尽管实例1及实例3到5包含条件“st->sr_core==12800”,指示可展现增加的语音/音乐错误预测的编码器操作模式(例如,12.8kHz采样率),但在其它实施方案中,条件集合中可包含一或多个其它编码器模式或不包含编码器模式以设置调整参数。尽管一些实例中提供数值(例如,74.0f),但此类值仅被提供为实例,且可在其它实施方案中确定其它值来提供得以减少的错误预测。另外,本文中所使用的参数指示(例如“lps”、“lpm”等)仅用于说明。在其它实施方案中,参数可通过不同名称引用。举例来说,语音参数的概率可通过“prob_s”或“lp_prob_s”引用。另外,已描述时间平均(低通)参数(通过“lp”引用),图1到4以及实例1及实例3到5可使用其它参数(例如,“prob_s”、“prob_m”等)代替时间平均或低通参数。
图5为说明确定对编码器的选择的方法500的流程图。可于在语音编码与非语音编码之间进行选择的编码器中或通过所述编码器执行方法500。举例来说,可在图1的编码器104处执行方法500。
方法500包含:在502处,在第二分类器处从第一分类器接收第一概率数据及第二概率数据。所述第一概率数据与音频帧为语音帧的第一似然性相关联,且所述第二概率数据与所述音频帧为非语音帧的第二似然性相关联。为进行说明,在第二分类器124处从图1的第一分类器122接收第一概率数据142及第二概率数据144。举例来说,第一分类器可与基于模型的分类器相关联,且第二分类器可与开放回路模型或开放回路分类器相关联。
在504处,在第二分类器处从第一分类器接收第一决策数据,第一决策数据指示音频帧分类为语音帧或非语音帧的分类。可在第二分类器处从第一分类器的状态机接收第一决策数据。举例来说,第一决策数据可对应于图1的第一决策数据146。
方法500还包含:在506处,在第二分类器处基于第一概率数据、第二概率数据及第一决策数据而确定第二决策数据。第二决策数据经配置以指示对用以编码音频帧的多个编码器中的特定编码器的选择。举例来说,多个编码器可包含第一编码器及第二编码器,例如分别为图1的第一编码器132及第二编码器134。第一编码器可包含语音编码器,且第二编码器可包含非语音编码器。为进行说明,非语音编码器可包含音乐编码器,例如TCX编码器。
方法500可包含:将来自第二分类器的输出的第二决策数据提供到经配置以选择多个编码器中的特定编码器的切换器。使用所选择的编码器编码音频帧。举例来说,图1的第二分类器124可输出第二决策数据148,所述第二决策数据被提供到切换器130以选择第一编码器132或第二编码器134中的一个。
方法500可包含:确定与多个编码器中正用以编码音频帧的第一编码器相关联的第一估计译码增益值,及确定与多个编码器中正用以编码音频帧的第二编码器相关联的第二估计译码增益值。举例来说,第一估计译码增益值可对应于通过图4的短期语音似然性估计器410输出的值(例如,snr_acelp),且第二估计译码增益值可对应于通过短期音乐似然性估计器412输出的值(例如,snr_tcx)。方法500可包含基于调整参数的值而调整第一估计译码增益值。举例来说,图4中的调整参数“dsnr”的值可通过图4的调整参数产生器416输出,且可通过分类决策产生器418用以调整snr_acelp的值。对一或多个编码器的选择可基于经调整的第一估计译码增益值及第二估计译码增益值。
方法500可包含选择调整参数(例如“dsnr”)的值。可基于第一概率数据(例如,lps)、第二概率数据(例如,lpm)、长期状态数据或第一决策(例如,sp_aud_decision)中的至少一个而选择所述值。举例来说,调整参数的值可通过图4的调整参数产生器416选择。可基于调整参数的值而确定第二决策数据,例如对从调整参数产生器416接收的调整参数的值作出响应的分类决策产生器418的输出。可选择调整参数的值以使选择偏向与语音相关联的第一编码器或与非语音相关联的第二编码器。
方法500可包含:确定是否满足与音频帧相关联的条件集合,且响应于满足条件集合而选择调整参数的值以使选择偏向与语音相关联的第一编码器。可至少部分响应于确定音频帧与12.8kHz的核心采样率相关联(例如,实例1中的条件“st->sr_core==12800”)而确定满足条件集合。可至少部分响应于确定第一决策数据指示音频帧被分类为语音帧(例如,实例1中的条件“sp_aud_decision0==0”)而确定满足条件集合。可至少部分响应于确定与正用以编码音频帧的第一编码器相关联的第一估计译码增益值(例如,snr_acelp)大于或等于第一值而确定满足条件集合。第一值可相关联于第二估计译码增益值(例如,snr_tcx)与第二值(例如,4)之间的差,例如实例1中的条件“snr_acelp>=snr_tcx-4”。可至少部分响应于确定最近分类的帧被分类为包含语音内容(例如,实例1中的“st->acelpFramesCount>=1”)且确定通过第一概率数据指示的第一概率值大于通过第二概率指示的第二概率值(例如,实例1的“st->lps>st->lpm”)而确定满足条件集合。
可至少部分响应于确定对应于数个最近分类的帧的每一帧被分类为包含语音内容(例如,实例1中的“st->acelpFramesCount>=6”)且确定通过第一概率数据指示的第一概率值(例如,st->lps)大于或等于第三值(例如,实例1中的“st->lpm-1.5”)而确定满足条件集合。第三值可相关联于通过第二概率数据指示的第二概率值(例如,“st->lpm”)与第四值(例如,1.5)之间的差。
可至少部分响应于确定音频帧的多个子帧的平均发声值大于或等于第一阈值(例如,实例4中的“mean(voicing_fr,4)>=0.3”),确定与音频帧相关联的非平稳性值大于第二阈值(例如,实例4中的“non-staX>5.0”)且确定与音频帧相关联的偏移值小于第三阈值(例如,实例4中的“offset<74”)而确定满足条件集合。
在一特定方面中,方法500包含:确定是否满足与音频帧相关联的第二条件集合,且响应于满足第二条件集合,选择调整参数的值以使选择偏向与非语音相关联的第二编码器,例如关于实例3所描述。可至少部分响应于确定音频帧与12.8kHz的核心采样率相关联(例如,实例3中的“st->st_core==12800”)而确定满足第二条件集合。替代地或另外,可至少部分响应于确定第一决策数据指示音频帧被分类为非语音帧(例如,实例3中的“sp_aud_decision0==1”)而确定满足第二条件集合。
方法500可实现特定音频帧的更准确分类及对待用以编码特定音频帧的编码器的改进选择。通过使用来自第一分类器的概率数据及第一决策数据来确定选择,可将音频帧准确地分类为语音帧或音乐帧,且相比于常规分类技术可减少经错误分类的语音帧的数目。基于经分类的音频帧,可选择编码器(例如,语音编码器或非语音编码器)来编码音频帧。通过使用所选择的编码器来编码语音帧,可减少由音频帧的错误分类及使用错误编码器编码音频帧引起的伪讯及不良信号质量。
图6为说明选择调整参数的值以使选择偏向特定编码器的方法600的流程图。可于在语音编码与非语音编码之间进行选择的编码器中或通过所述编码器执行方法600。举例来说,可在图1的编码器104处执行方法600。
在602处,在第二分类器处从第一分类器接收第一概率数据及第一决策数据。所述第一概率数据与音频帧为语音帧的第一似然性相关联。举例来说,第一概率数据可对应于在第二分类器124处从图1的第一分类器122接收的第一概率数据142、第二概率数据144或其组合。第一决策数据指示音频帧分类为语音帧或非语音帧的分类,例如图1的第一决策数据146。
方法600还包含:在604处,在第二分类器处确定是否满足与音频帧相关联的条件集合。所述条件集合中的第一条件是基于第一概率数据,且所述条件集合中的第二条件是基于第一决策数据。举例来说,第一条件可对应于实例1中的“st->lps>st->lpm”,且第二条件可对应于实例1中的“sp_aud_decision0==0”。
方法600进一步包含:在606处,响应于确定满足条件集合,设置调整参数的值以使第一选择偏向多个编码器中的第一编码器。举例来说,调整参数的值可对应于图4的调整参数产生器416的被提供到分类决策产生器418的输出的值。为进行说明,设置调整参数的值以使第一选择偏向第一编码器可对应于设置(或更新)调整参数的值,例如实例1中的“dnsr=4.0”。第一编码器可包含或对应于语音编码器。
在一特定方面中,至少部分响应于确定音频帧与12.800kHz的采样率相关联(例如,实例1中的“st->sr_core==12800”)而确定满足条件集合。可至少部分响应于确定第一决策数据指示音频帧分类为语音帧的分类(例如,实例1中的“sp_aud_decision0==0”)而确定满足条件集合。可至少部分响应于确定与在第一编码器处编码音频帧相关联的第一估计译码增益值(例如,“snr_acelp”)大于或等于第一值而确定满足条件集合,所述第一值相关联于第二估计译码增益值(例如,“snr_tcx”)与第二值之间的差(例如,实例1中的“snr_acelp>=snr_tcx-4”)。
在一特定方面中,至少部分响应于确定最近分类的帧被分类为包含语音内容(例如,实例1中的“st->acelpFramesCount>=1”)而确定满足条件集合。在一特定方面中,至少部分响应于确定通过第一概率数据指示的第一概率值大于通过第二概率数据指示的第二概率值(例如,“st->lps>st-lpm”)而确定满足条件集合,第二概率数据与音频帧为非语音帧的第二似然性相关联。
可至少部分响应于确定对应于数个最近分类的帧的每一帧被分类为包含语音内容而确定满足条件集合(例如,“st->acelpFramesCount>=6”)。可至少部分响应于确定通过第一概率数据指示的第一概率值(例如,“st->lps”)大于或等于第三值而确定满足条件集合,第三值相关联于通过第二概率数据指示的第二概率值(例如,“st->lpm”)与第四值之间的差,例如实例1中的条件“st->lps>st-lpm-1.5”。第二概率数据可与音频帧为非语音帧的第二似然性相关联。
可至少部分响应于确定音频帧的多个子帧的平均发声值大于或等于第一阈值(例如,实例4中的“mean(voicing_fr,4)>=0.3”)而确定满足条件集合。可至少部分响应于确定与音频帧相关联的非平稳性值大于第二阈值(例如,实例4中的“non_staX>5.0”)而确定满足条件集合。可至少部分响应于确定与音频帧相关联的偏移值小于第三阈值(例如,实例4中的“offset<74.0”)而确定满足条件集合。
在一些实施方案中,方法600可包含确定是否满足与音频帧相关联的第二条件集合,例如实例3的条件集合。方法600还可包含:响应于确定满足第二条件集合,将调整参数的值从第一值更新到第二值,以使第二选择偏向多个编码器中的第二编码器,第二编码器包含非语音编码器。举例来说,更新调整参数的值以使第二选择偏向第二编码器可通过设置图4的调整参数产生器416的输出的值来执行(例如,实例3的“dsnr=-2.0”)。为进行说明,可响应于确定音频帧与12.8kHz的采样率相关联且确定第一决策数据指示音频帧分类为非语音帧的分类(例如,实例3中的“(st->sr_core==12800)&&(sp_aud_decision0==1)”)而确定满足第二条件集合。
通过使用调整参数来确定选择,音频帧可被分类为语音帧或音乐帧,且相比于常规分类技术可减少经错误分类的语音帧的数目。基于经分类的音频帧,可选择编码器(例如,语音编码器或非语音编码器)来编码音频帧。通过使用所选择的编码器来编码语音帧,可减少由音频帧的错误分类及使用错误编码器编码音频帧引起的伪讯及不良信号质量。
在特定方面中,图5到6的方法、实例1到5或其组合中的一或多个可通过以下各项实施:现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、例如中央处理单元(CPU)的处理单元、数字信号处理器(DSP)、控制器、另一硬件装置、固件装置,或其任何组合。作为一实例,图5到6的方法、实例1到5或其组合中的一或多个可个别地或以组合形式通过执行指令的处理器执行,如关于图7及8所描述。为进行说明,图5的方法500的一部分可与图6的第二部分或与实例1的第三部分组合。
参看图7,描绘装置700(例如,无线通信装置)的特定说明性实例的框图。在各种实施方案中,装置700可具有比图7中所说明多或少的组件。在说明性实例中,装置700可对应于图1的装置102。在说明性实例中,装置700可根据图5到6的方法中的一或多个、实例1到5中的一或多个或其组合操作。
在一特定实例中,装置700包含处理器706(例如,CPU)。装置700可包含一或多个额外处理器,例如处理器710(例如,DSP)。处理器710可包含音频译码器-解码器(CODEC)708。举例来说,处理器710可包含经配置以执行音频CODEC 708的操作的一或多个组件(例如,电路)。作为另一实例,处理器710可经配置以执行一或多个计算机可读指令以执行音频CODEC708的操作。尽管音频CODEC 708被说明为处理器710的组件,但在其它实例中,音频CODEC708的一或多个组件可包含在处理器706、CODEC 734、另一处理组件或其组合中。
音频CODEC 708可包含声码器编码器736。声码器编码器736可包含编码器选择器760、语音编码器762及非语音编码器764。举例来说,语音编码器762可对应于图1的第一编码器132,非语音编码器764可对应于图1的第二编码器134,且编码器选择器760可对应于图1的选择器120。
装置700可包含存储器732及CODEC 734。例如计算机可读存储装置的存储器732可包含指令756。指令756可包含可由处理器706、处理器710或其组合执行的一或多个指令,以执行图5到6的方法、实例1到5或其组合中的一或多个。装置700可包含耦合(例如,经由收发器)到天线742的无线控制器740。
装置700可包含耦合到显示控制器726的显示器728。扬声器741、麦克风746或其两者可耦合到CODEC 734。CODEC 734可包含数/模转换器(DAC)702及数/模/数转换器(ADC)704。CODEC 734可从麦克风746接收模拟信号,使用ADC 704将模拟信号转换到数字信号,且将数字信号提供到音频CODEC 708。音频CODEC 708可处理数字信号。在一些实施方案中,音频CODEC 708可将数字信号提供到CODEC 734。CODEC 734可使用DAC 702将数字信号转换到模拟信号,且可将模拟信号提供到扬声器741。
编码器选择器760可用以实施编码器选择的硬件实施方案,包含基于一或多个条件集合经由设置(或更新)参数调整的值而进行编码器选择的偏置。替代地或另外,可实施软件实施方案(或经组合的软件/硬件实施方案)。举例来说,指令756可由处理器710或装置700的其它处理单元(例如,处理器706、CODEC 734,或其两者)执行。为进行说明,指令756可对应于被描述为关于图1的选择器120执行的操作。
在一特定实施方案中,装置700可包含在系统级封装或芯片上系统装置722中。在一特定实施方案中,存储器732、处理器706、处理器710、显示控制器726、CODEC 734及无线控制器740包含在系统级封装或芯片上系统装置722中。在一特定实施方案中,输入装置730及电力供应器744耦合到芯片上系统装置722。此外,在一特定实施方案中,如图7中所说明,显示器728、输入装置730、扬声器741、麦克风746、天线742及电力供应器744位于芯片上系统装置722外部。在一特定实施方案中,显示器728、输入装置730、扬声器741、麦克风746、天线742及电力供应器744中的每一个可耦合到芯片上系统装置722的组件,例如接口或控制器。
装置700可包含:通信装置、编码器、解码器、智能型手机、蜂窝式电话、移动通信装置、膝上型计算机、计算机、平板计算机、个人数字助理(PDA)、机顶盒、视频播放器、娱乐单元、显示装置、电视、游戏控制台、音乐播放器、无线电、数字视频播放器、数字影音光盘(DVD)播放器、调谐器、摄影机、导航装置、解码器系统、编码器系统、基站、载具,或其组合。
在一说明性实施方案中,处理器710可为可操作以执行参看图1到6、实例1到5或其组合描述的方法或操作的全部或一部分。举例来说,麦克风746可俘获对应于用户语音信号的音频信号。ADC 704可将所俘获音频信号从模拟波形转换成由数字音频样本组成的数字波形。处理器710可处理数字音频样本。
声码器编码器736可以逐个帧为基础确定数字音频样本的每一所接收帧对应于语音还是非语音音频数据,且可选择对应编码器(例如,语音编码器762或非语音编码器764)来编码帧。可将在声码器编码器736处产生的经编码音频数据提供到无线控制器740以用于调制及经调制数据经由天线742的发射。
因此,装置700可包含存储指令(例如,指令756)的计算机可读存储装置(例如,存储器732),所述指令在通过处理器(例如,处理器706或处理器710)执行时使得处理器执行包含以下各项的操作:确定与音频帧为语音帧的第一似然性相关联的第一概率数据(例如,图1的第一概率数据142);及确定与音频帧为非语音帧的第二似然性相关联的第二概率数据(例如,图1的第二概率数据144)。操作还可包含:基于第一概率数据及第二概率数据而确定第一决策数据(例如,图1的第一决策数据146)。第一决策数据指示音频帧分类为语音帧或非语音帧的分类。操作还可包含:基于第一概率数据、第二概率数据及第一决策数据而确定第二决策数据(例如,图1的第二决策数据148)。第二决策数据指示对用以编码音频帧的编码器(例如,语音编码器762或非语音编码器764)的选择。
参看图8,描绘基站800的特定说明性实例的框图。在各种实施方案中,基站800可具有比图8中所说明多的组件或少的组件。在说明性实例中,基站800可包含图1的装置102。在说明性实例中,基站800可根据图5到6的方法中的一或多个、实例1到5中的一或多个或其组合操作。
基站800可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统,或一些其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA),或CDMA的一些其它版本。
无线装置还可被称作用户装备(UE)、移动台、终端机、存取终端机、用户单元、站台等。无线装置可包含蜂窝式电话、智能型手机、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能笔记型计算机、迷你笔记型计算机、平板计算机、无线电话、无线区域回路(WLL)站、蓝牙装置等。无线装置可包含或对应于图7的装置700。
各种功能可由基站800的一或多个组件(及/或在未经图示的其它组件中)执行,例如发送及接收消息及数据(例如,音频数据)。在一特定实例中,基站800包含处理器806(例如,CPU)。基站800可包含转码器810。转码器810可包含音频CODEC 808。举例来说,转码器810可包含经配置以执行音频CODEC 808的操作的一或多个组件(例如,电路)。作为另一实例,转码器810可经配置以执行一或多个计算机可读指令从而执行音频CODEC 808的操作。尽管音频CODEC 808说明为转码器810的组件,但在其它实例中,音频CODEC 808的一或多个组件可包含在处理器806、另一处理组件或其组合中。举例来说,声码器解码器838可包含在接收器数据处理器864中。作为另一实例,声码器编码器836可包含在发射数据处理器866中。
转码器810可起作用以在两个或更多个网络之间转码消息及数据。转码器810可经配置以将消息及音频数据从第一格式(例如,数字格式)转换到第二格式。为进行说明,声码器解码器838可解码具有第一格式的经编码信号,且声码器编码器836可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器810可经配置以执行数据速率调适。举例来说,转码器810可在不改变格式音频数据的情况下降频转换数据速率或增频转换数据速率。为进行说明,转码器810可将64kbit/s信号降频转换成16kbit/s信号。
音频CODEC 808可包含声码器编码器836及声码器解码器838。声码器编码器836可包含编码器选择器、语音编码器及非语音编码器,如参看图7所描述。声码器解码器838可包含解码器选择器、语音解码器及非语音解码器。
基站800可包含存储器832。例如计算机可读存储装置的存储器832可包含指令。指令可包含可由处理器806、转码器810或其组合执行以执行图5到6的方法、实例1到5或其组合中的一或多个的一或多个指令。基站800可包含耦合到天线阵列的多个发射器及接收器(例如,收发器),例如第一收发器852及第二收发器854。天线阵列可包含第一天线842及第二天线844。天线阵列可经配置而以无线方式与一或多个无线装置(例如,图7的装置700)通信。举例来说,第二天线844可从无线装置接收数据流814(例如,位流)。数据流814可包含消息、数据(例如,经编码语音数据)或其组合。
基站800可包含网络连接860,例如空载传输连接。网络连接860可经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站800可经由网络连接860从核心网络接收第二数据流(例如,消息或音频数据)。基站800可处理第二数据流以产生消息或音频数据,且经由天线阵列中的一或多个天线将消息或音频数据提供到一或多个无线装置,或经由网络连接860将其提供到另一基站。在一特定实施方案中,作为说明性的非限制性实例,网络连接860可为广域网(WAN)连接。
基站800可包含耦合到收发器852、854的解调器862、接收器数据处理器864,及所述处理器806,且接收器数据处理器864可耦合到处理器806。解调器862可经配置以解调制从收发器852、854接收的经调制信号,且将经解调制数据提供到接收器数据处理器864。接收器数据处理器864可经配置以从经解调制数据提取消息或音频数据,且将所述消息或音频数据发送到处理器806。
基站800可包含发射数据处理器866及发射多输入多输出(MIMO)处理器868。发射数据处理器866可耦合到处理器806及发射MIMO处理器868。发射MIMO处理器868可耦合到收发器852、854及处理器806。作为说明性的非限制性实例,发射数据处理器866可经配置以从处理器806接收消息或音频数据,且基于例如CDMA或正交分频多工(OFDM)的译码方案而译码所述消息或所述音频数据。发射数据处理器866可将经译码数据提供到发射MIMO处理器868。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多工,以产生经多工数据。经多工数据可接着通过发射数据处理器866基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M元相移键控(“M-PSK”)、M元正交振幅调制(“M-QAM”)等)进行调制(即,符号映射),以产生调制符号。在一特定实施方案中,可使用不同调制方案调制经译码数据及其它数据。用于每一数据流的数据速率、译码及调制可通过处理器806所执行的指令来确定。
发射MIMO处理器868可经配置以从发射数据处理器866接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,发射MIMO处理器868可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列中的一或多个天线(从所述天线发射调制符号)。
在操作期间,基站800的第二天线844可接收数据流814。第二收发器854可从第二天线844接收数据流814,且可将数据流814提供到解调器862。解调器862可解调制数据流814的经调制信号,且将经解调制数据提供到接收器数据处理器864。接收器数据处理器864可从经解调制数据提取音频数据,且将经提取音频数据提供到处理器806。
处理器806可将音频数据提供到转码器810以供转码。转码器810的声码器解码器838可将音频数据从第一格式解码成经解码音频数据,且声码器编码器836可将经解码音频数据编码成第二格式。在一些实施方案中,声码器编码器836可相比从无线装置接收的数据速率使用较高数据速率(例如,增频转换)或较低数据速率(例如,降频转换)来编码音频数据。在其它实施方案中,音频数据可未经转码。尽管转码(例如,解码及编码)被说明为由转码器810执行,但转码操作(例如,解码及编码)可由基站800的多个组件执行。举例来说,解码可由接收器数据处理器864执行,且编码可由发射数据处理器866执行。
声码器解码器838及声码器编码器836可以逐个帧为基础确定数据流814的每一所接收帧对应于语音音频数据还是非语音音频数据,且可选择对应解码器(例如,语音解码器或非语音解码器)及对应编码器以转码(例如,解码及编码)帧。可经由处理器806将在声码器编码器836处产生的经编码音频数据(例如,经转码数据)提供到发射数据处理器866或网络连接860。
可将来自转码器810的经转码音频数据提供到发射数据处理器866以供根据例如OFDM的调制方案译码,从而产生调制符号。发射数据处理器866可将调制符号提供到发射MIMO处理器868,以供进一步处理及波束成形。发射MIMO处理器868可应用波束成形权重,且可经由第一收发器852将调制符号提供到天线阵列中的一或多个天线,例如第一天线842。因此,基站800可将对应于从无线装置接收的数据流814的经转码数据流816提供到另一无线装置。经转码数据流816可具有与数据流814不同的编码格式、数据速率或其两者。在其它实施方案中,可将经转码数据流816提供到网络连接860以供发射到另一基站或核心网络。
因此,基站800可包含存储指令的计算机可读存储装置(例如,存储器832),所述指令在通过处理器(例如,处理器806或转码器810)执行时使得处理器执行包含以下各项的操作:确定与音频帧为语音帧的第一似然性相关联的第一概率数据;及确定与音频帧为非语音帧的第二似然性相关联的第二概率数据。所述操作还可包含:基于所述第一概率数据及所述第二概率数据而确定第一决策数据。第一决策数据指示音频帧分类为语音帧或非语音帧的分类。所述操作还可包含基于所述第一概率数据、所述第二概率数据及所述第一决策数据而确定第二决策数据。第二决策数据可指示对用以编码音频帧的编码器的选择或对用以解码音频帧的解码器的选择。
结合所描述的方面,设备可包含:用于确定与音频帧为语音帧的第一似然性相关联的第一概率数据的装置。举例来说,用于确定第一概率数据的装置可包含:图1到3的第一分类器122、图3的语音模型370、图7的编码器选择器760、执行图7的指令756的处理器706或处理器710、图8的处理器806或转码器810、经配置以确定与音频帧为语音帧的第一似然性相关联的第一概率数据的一或多个其它装置,或其任何组合。
设备可包含用于确定与音频帧所为非语音帧的第二似然性相关联的第二概率数据的装置。举例来说,用于确定第二概率数据的装置可包含:图1到3的第一分类器122、图3的音乐模型372、图7的编码器选择器760、执行图7的指令756的处理器706或处理器710、图8的处理器806或转码器810、经配置以确定与音频帧为非语音帧的第二似然性相关联的第二概率数据的一或多个其它装置,或其任何组合。
设备可包含用于基于第一概率数据及第二概率数据而确定第一决策数据的装置,第一决策数据包含音频帧分类为语音帧或非语音帧的分类的第一指示。举例来说,用于确定第一决策数据的装置可包含:图1到3的第一分类器122、图3的状态机374、图7的编码器选择器760、执行图7的指令756的处理器706或处理器710、图8的处理器806或转码器810、经配置以基于第一概率数据及第二概率数据而确定第一决策数据的一或多个其它装置,或其任何组合。
设备可包含用于基于第一概率数据、第二概率数据及第一决策数据而确定第二决策数据的装置,所述第二决策数据包含对用以编码音频帧的编码器的选择的第二指示。举例来说,用于确定第二决策数据的装置可包含:图1到2及4的第二分类器124、长期决策偏置单元414、调整参数产生器416、分类决策产生器418、编码器选择器760、执行图7的指令756的处理器706或处理器710、图8的处理器806或转码器810、经配置以基于第一概率数据、第二概率数据及第一决策数据而确定第二决策数据的一或多个其它装置,或其任何组合。在一特定实施方案中,用于确定第一概率数据的装置、用于确定第二概率数据的装置及用于确定第一决策数据的装置包含在GMM电路中,如参看图1所描述。
用于确定第一概率数据的装置、用于确定第二概率数据的装置、用于确定第一决策数据的装置及用于确定第二决策数据的装置被集成到编码器、机顶盒、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、PDA、计算机或其组合中。
在本文中所描述的描述的方面中,由图1的系统100、图2的实例200、图3的实例300、图3的实例400、图7的装置700、图8的基站800或其组合执行的各种功能描述为由某些电路或组件执行。然而,电路或组件的此划分仅用于说明。在替代实例中,由特定电路或组件所执行的功能可替代地划分于多个组件或模块当中。此外,在替代实例中,图1到4、7及8的两个或更多个电路或组件可集成到单一电路或组件中。可使用硬件(例如,ASIC、DSP、控制器、FPGA装置等)、软件(例如,逻辑、模块、可由处理器执行的指令等)或其任何组合来实施图1到4、7及8中所说明的每一电路或组件。
所属领域的技术人员将进一步了解,结合本文中公开的实例描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由处理器执行的计算机软件,或两者的组合。上文大体在功能性方面描述各种说明性组件、块、配置、模块、电路及步骤。此功能性实施为硬件还是处理器可执行指令取决于特定应用及强加于整个系统的设计约束。对于每一特定应用而言,所属领域的技术人员可以变化的方式实施所描述的功能性,但不将此类实施决策解释为导致脱离本发明的范围。
结合本文中所公开的实例描述的方法或算法的步骤可直接包含在硬件、由处理器执行的软件模块或其两者的组合中。软件模块可驻留在随机存取存储器(RAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、抽取式磁碟、紧密光盘只读存储器(CD-ROM)或所属领域中已知的任何其它形式的非暂时性存储媒体中。示范性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息且将信息写入到存储媒体。在替代例中,存储媒体可集成到处理器。处理器及存储媒体可驻留在ASIC中。ASIC可驻留在计算装置或用户终端机中。在替代例中,处理器及存储媒体可作为离散组件驻留在计算装置或用户终端机中。
提供所公开实例的先前描述以使得所属领域的技术人员能够制作或使用所公开实施方案。所属领域的技术人员将容易地显而易见对此些实例的各种修改且在不脱离本发明的范围的情况下本文中所定义的原理可应用于其它实施。因此,本发明并非打算限于本文中所展示的实例,而应符合可能与如以下权利要求书所定义的原理及新颖特征相一致的最广泛范围。
Claims (39)
1.一种用于编码音频信号的装置,所述装置包括:
第一分类器,其经配置以输出指示音频帧分类为语音帧或非语音帧的分类的第一决策数据,所述第一决策数据是基于与所述音频帧为所述语音帧的第一似然性相关联的第一概率数据且基于与所述音频帧为所述非语音帧的第二似然性相关联的第二概率数据而确定;
第二分类器,其经耦合以从所述第一分类器接收所述第一决策数据、所述第一概率数据及所述第二概率数据,所述第二分类器经配置以基于所述第一概率数据、所述第二概率数据及所述第一决策数据而输出第二决策数据,所述第二决策数据包含对可用于编码所述音频帧的多个编码器中的特定编码器的选择的指示;及
所述特定编码器,其经配置以响应于指示对所述特定编码器的所述选择的所述第二决策数据而编码所述音频帧。
2.根据权利要求1所述的装置,其中所述多个编码器包含第一编码器及第二编码器,且所述装置进一步包括经配置以基于所述第二决策数据而选择所述第一编码器或所述第二编码器的切换器。
3.根据权利要求2所述的装置,其中所述第一编码器包括语音编码器,且其中所述第二编码器包括非语音编码器。
4.根据权利要求3所述的装置,其中所述第二编码器包括音乐编码器。
5.根据权利要求3所述的装置,其中所述第一编码器包括代数码激励线性预测ACELP编码器,且其中所述第二编码器包括变换译码激励TCX编码器。
6.根据权利要求1所述的装置,其中所述第一分类器包括高斯混合模型模块,且其中所述第二分类器包括开放回路分类器。
7.根据权利要求1所述的装置,其中所述第一分类器包含状态机,所述状态机经配置以接收所述第一概率数据及所述第二概率数据且基于所述第一概率数据及所述第二概率数据而产生所述第一决策数据。
8.根据权利要求1所述的装置,其中所述第二分类器包含经配置以基于所述第一概率数据、所述第二概率数据及所述第一决策数据而产生调整参数的调整参数产生器,且其中所述第二分类器经配置以进一步基于所述调整参数的值而输出所述第二决策数据。
9.根据权利要求1所述的装置,其进一步包括经配置而以多个编码模式操作的切换式编码器,其中所述多个编码器对应于所述切换式编码器的所述多个编码模式,其中所述特定编码器对应于所述切换式编码器的特定编码模式。
10.根据权利要求1所述的装置,其进一步包括所述多个编码器,其中所述第一分类器、所述第二分类器及所述多个编码器经集成到移动通信装置或基站中。
11.根据权利要求1所述的装置,其进一步包括:
接收器,其经配置以接收包含所述音频帧的音频信号;
解调器,其耦合到所述接收器,所述解调器经配置以解调制所述音频信号;
处理器,其耦合到所述解调器;及
多个解码器。
12.根据权利要求11所述的装置,其中所述接收器、所述解调器、所述处理器及所述多个解码器经集成到移动通信装置中。
13.根据权利要求11所述的装置,其中所述接收器、所述解调器、所述处理器及所述多个解码器经集成到基站中。
14.根据权利要求1所述的装置,其中所述第一分类器经配置以进一步基于短期特征数据和长期状态数据而输出所述第一决策数据,且其中所述第二分类器经配置以进一步基于所述短期特征数据和所述长期状态数据而输出所述第二决策数据。
15.一种选择用于编码音频信号的编码器的方法,所述方法包括:
在第二分类器处从第一分类器接收第一概率数据及第二概率数据,所述第一概率数据与音频帧为语音帧的第一似然性相关联,且所述第二概率数据与所述音频帧为非语音帧的第二似然性相关联;
在所述第二分类器处从所述第一分类器接收第一决策数据,所述第一决策数据指示所述音频帧分类为所述语音帧或所述非语音帧的分类,其中所述第一决策数据是基于所述第一概率数据和所述第二概率数据而确定;
在所述第二分类器处基于所述第一概率数据、所述第二概率数据及所述第一决策数据而确定第二决策数据,所述第二决策数据指示对用以编码所述音频帧的多个编码器中的特定编码器的选择;及
将所述第二决策数据从所述第二分类器的输出提供至切换器,其中所述切换器基于所述第二决策数据而选择所述多个编码器中的所述特定编码器,且其中使用所述特定编码器来编码所述音频帧。
16.根据权利要求15所述的方法,其中所述第一决策数据是在所述第二分类器处从所述第一分类器的状态机接收。
17.根据权利要求15所述的方法,其中所述多个编码器包含第一编码器及第二编码器,其中所述第一编码器包括语音编码器,且其中所述第二编码器包括非语音编码器。
18.根据权利要求15所述的方法,其进一步包括:
确定与所述多个编码器中的第一编码器相关联的第一估计译码增益值;及
确定与所述多个编码器中的第二编码器相关联的第二估计译码增益值。
19.根据权利要求18所述的方法,其进一步包括选择调整参数的值,所述值是基于所述第一概率数据、所述第二概率数据、长期状态数据或所述第一决策数据中的至少一个而选择,其中所述第二决策数据是进一步基于所述调整参数的所述值而确定。
20.根据权利要求19所述的方法,其进一步包括基于所述调整参数的所述值而调整所述第一估计译码增益值,其中对所述特定编码器的所述选择是基于所述经调整的第一估计译码增益值及所述第二估计译码增益值。
21.根据权利要求20所述的方法,其中所述调整参数的所述值经选择以使所述选择偏向与语音相关联的所述第一编码器或与非语音相关联的所述第二编码器。
22.根据权利要求15所述的方法,其进一步包括:
确定是否满足与音频帧相关联的条件集合;及
响应于满足所述条件集合,选择调整参数的值以使所述选择偏向与语音相关联的第一编码器。
23.根据权利要求22所述的方法,其进一步包括确定所述音频帧是否与12,800赫兹的采样率相关联,其中至少部分响应于确定所述音频帧与12,800赫兹的所述采样率相关联而确定满足所述条件集合。
24.根据权利要求22所述的方法,其中至少部分响应于确定所述第一决策数据指示所述音频帧被分类为所述语音帧而确定满足所述条件集合。
25.根据权利要求22所述的方法,其进一步包括确定与正用以编码所述音频帧的所述第一编码器相关联的第一估计译码增益值是否大于或等于第一值,所述第一值相关联于第二估计译码增益值与第二值之间的差,其中至少部分响应于确定所述第一估计译码增益值大于或等于所述第一值而确定满足所述条件集合。
26.根据权利要求22所述的方法,其进一步包括:
确定最近分类的帧是否被分类为包含语音内容;及
确定通过所述第一概率数据指示的第一概率值是否大于通过所述第二概率数据指示的第二概率值,
其中至少部分响应于确定所述最近分类的帧被分类为包含所述语音内容且响应于确定所述第一概率值大于所述第二概率值而确定满足所述条件集合。
27.根据权利要求22所述的方法,其进一步包括:
确定对应于数个最近分类的帧的每一帧是否被分类为包含语音内容;及
确定通过所述第一概率数据指示的第一概率值是否大于或等于第三值,所述第三值相关联于通过所述第二概率数据指示的第二概率值与第四值之间的差,
其中至少部分响应于确定对应于所述数个最近分类的帧的每一帧被分类为包含所述语音内容且响应于确定所述第一概率值大于或等于所述第三值而确定满足所述条件集合。
28.根据权利要求22所述的方法,其进一步包括:
确定所述音频帧的多个子帧的平均发声值是否大于或等于第一阈值;
确定与所述音频帧相关联的非平稳性值是否大于第二阈值;及
确定与所述音频帧相关联的偏移值是否小于第三阈值,
其中至少部分响应于确定所述平均发声值大于或等于所述第一阈值,确定所述非平稳性值大于所述第二阈值且确定所述偏移值小于所述第三阈值而确定满足所述条件集合。
29.根据权利要求15所述的方法,其进一步包括:
确定是否满足与音频帧相关联的第二条件集合;及
响应于满足所述第二条件集合,选择调整参数的值以使所述选择偏向与非语音相关联的第二编码器。
30.根据权利要求29所述的方法,其进一步包括确定所述音频帧是否与12,800赫兹的采样率相关联,其中至少部分响应于确定所述音频帧与12,800赫兹的所述采样率相关联而确定满足所述第二条件集合。
31.根据权利要求29所述的方法,其进一步包括确定所述第一决策数据是否指示所述音频帧被分类为所述非语音帧,其中至少部分响应于确定所述第一决策数据指示所述音频帧被分类为所述非语音帧而确定满足所述第二条件集合。
32.根据权利要求15所述的方法,其中所述第二分类器包含在包括移动通信装置或基站的装置中。
33.一种用于编码音频信号的设备,所述设备包括:
用于确定与音频帧为语音帧的第一似然性相关联的第一概率数据的装置;
用于确定与所述音频帧为非语音帧的第二似然性相关联的第二概率数据的装置;
用于基于所述第一概率数据及所述第二概率数据而确定第一决策数据的装置,所述第一决策数据包含所述音频帧分类为所述语音帧或所述非语音帧的分类的第一指示;及
用于接收所述第一决策数据、所述第一概率数据及所述第二概率数据且用于基于所述第一概率数据、所述第二概率数据及所述第一决策数据而确定第二决策数据的装置,所述第二决策数据包含对用于编码所述音频帧的装置的选择的第二指示;及
用于响应于指示对所述用于编码的装置的所述选择的所述第二决策数据而编码所述音频帧的装置。
34.根据权利要求33所述的设备,其中用于确定所述第一概率数据的所述装置包括语音模型电路,其中用于确定所述第二概率数据的所述装置包括非语音模型电路,其中用于确定所述第一决策数据的所述装置包括状态机,且其中用于确定所述第二决策数据的所述装置包括开放回路分类器。
35.根据权利要求33所述的设备,其中用于确定所述第一概率数据的所述装置、用于确定所述第二概率数据的所述装置及用于确定所述第一决策数据的所述装置包含在高斯混合模型电路中。
36.根据权利要求33所述的设备,其中用于确定所述第一概率数据的所述装置、用于确定所述第二概率数据的所述装置、用于确定所述第一决策数据的所述装置及用于确定所述第二决策数据的所述装置经集成到移动通信装置或基站中。
37.一种计算机可读存储装置,其存储指令,所述指令在由处理器执行时使得所述处理器执行包括以下各项的操作:
执行第一运算以产生与音频帧为语音帧的第一似然性相关联的第一概率数据;
执行第二运算以产生与所述音频帧为非语音帧的第二似然性相关联的第二概率数据;
执行第三运算以基于所述第一概率数据及所述第二概率数据而产生第一决策数据,所述第一决策数据指示所述音频帧分类为所述语音帧或所述非语音帧的分类;
执行使用所述第一概率数据、所述第二概率数据及所述第一决策数据来产生第二决策数据的第四运算以产生第二决策数据,所述第二决策数据指示对用以编码所述音频帧的编码器的选择;及
使用所述编码器来起始所述音频帧的编码。
38.根据权利要求37所述的计算机可读存储装置,其中所述指令进一步使得所述处理器执行包括以下各项的所述操作:
确定与所述音频帧在第一编码器处的编码相关联的第一估计译码增益值;
确定与所述音频帧在第二编码器处的编码相关联的第二估计译码增益值;及
基于调整参数的值而调整所述第一估计译码增益值,其中所述第二决策数据是基于所述经调整的第一估计译码增益值及所述第二估计译码增益值而确定。
39.根据权利要求37所述的计算机可读存储装置,其中所述指令进一步使得所述处理器执行所述操作,包括选择调整参数的值以使所述选择偏向与语音内容相关联的第一编码器。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562143155P | 2015-04-05 | 2015-04-05 | |
US62/143,155 | 2015-04-05 | ||
US15/083,867 | 2016-03-29 | ||
US15/083,867 US9886963B2 (en) | 2015-04-05 | 2016-03-29 | Encoder selection |
PCT/US2016/025049 WO2016164231A1 (en) | 2015-04-05 | 2016-03-30 | Encoder selection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107408383A CN107408383A (zh) | 2017-11-28 |
CN107408383B true CN107408383B (zh) | 2019-01-15 |
Family
ID=57017102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680016893.6A Active CN107408383B (zh) | 2015-04-05 | 2016-03-30 | 编码器选择 |
Country Status (11)
Country | Link |
---|---|
US (1) | US9886963B2 (zh) |
EP (1) | EP3281198B1 (zh) |
JP (1) | JP6377862B2 (zh) |
KR (1) | KR101967572B1 (zh) |
CN (1) | CN107408383B (zh) |
AU (1) | AU2016244807B2 (zh) |
BR (1) | BR112017021352B1 (zh) |
ES (1) | ES2770681T3 (zh) |
HU (1) | HUE046877T2 (zh) |
TW (1) | TWI640979B (zh) |
WO (1) | WO2016164231A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
CN105609118B (zh) * | 2015-12-30 | 2020-02-07 | 生迪智慧科技有限公司 | 语音检测方法及装置 |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP4136638A4 (en) * | 2020-04-16 | 2024-04-10 | Voiceage Corp | METHOD AND DEVICE FOR CLASSIFYING SPEECH/MUSIC AND SELECTION OF MAIN ENCODER IN A SOUND CODEC |
CN111554312A (zh) * | 2020-05-15 | 2020-08-18 | 西安万像电子科技有限公司 | 控制音频编码类型的方法、装置和系统 |
CN112599140A (zh) * | 2020-12-23 | 2021-04-02 | 北京百瑞互联技术有限公司 | 一种优化语音编码速率和运算量的方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020111798A1 (en) * | 2000-12-08 | 2002-08-15 | Pengjun Huang | Method and apparatus for robust speech classification |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
US20110202337A1 (en) * | 2008-07-11 | 2011-08-18 | Guillaume Fuchs | Method and Discriminator for Classifying Different Segments of a Signal |
US20130185063A1 (en) * | 2012-01-13 | 2013-07-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2014077591A1 (ko) * | 2012-11-13 | 2014-05-22 | 삼성전자 주식회사 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
CN104112451A (zh) * | 2013-04-18 | 2014-10-22 | 华为技术有限公司 | 一种选择编码模式的方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6983242B1 (en) * | 2000-08-21 | 2006-01-03 | Mindspeed Technologies, Inc. | Method for robust classification in speech coding |
US20030101049A1 (en) * | 2001-11-26 | 2003-05-29 | Nokia Corporation | Method for stealing speech data frames for signalling purposes |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
EP1808852A1 (en) | 2002-10-11 | 2007-07-18 | Nokia Corporation | Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
CN101971251B (zh) * | 2008-03-14 | 2012-08-08 | 杜比实验室特许公司 | 像言语的信号和不像言语的信号的多模式编解码方法及装置 |
US8856049B2 (en) * | 2008-03-26 | 2014-10-07 | Nokia Corporation | Audio signal classification by shape parameter estimation for a plurality of audio signal samples |
-
2016
- 2016-03-29 US US15/083,867 patent/US9886963B2/en active Active
- 2016-03-30 BR BR112017021352-4A patent/BR112017021352B1/pt active IP Right Grant
- 2016-03-30 JP JP2017551101A patent/JP6377862B2/ja active Active
- 2016-03-30 EP EP16715227.1A patent/EP3281198B1/en active Active
- 2016-03-30 ES ES16715227T patent/ES2770681T3/es active Active
- 2016-03-30 WO PCT/US2016/025049 patent/WO2016164231A1/en active Application Filing
- 2016-03-30 HU HUE16715227A patent/HUE046877T2/hu unknown
- 2016-03-30 AU AU2016244807A patent/AU2016244807B2/en active Active
- 2016-03-30 CN CN201680016893.6A patent/CN107408383B/zh active Active
- 2016-03-30 KR KR1020177027780A patent/KR101967572B1/ko active IP Right Grant
- 2016-04-01 TW TW105110642A patent/TWI640979B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020111798A1 (en) * | 2000-12-08 | 2002-08-15 | Pengjun Huang | Method and apparatus for robust speech classification |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
US20110202337A1 (en) * | 2008-07-11 | 2011-08-18 | Guillaume Fuchs | Method and Discriminator for Classifying Different Segments of a Signal |
US20130185063A1 (en) * | 2012-01-13 | 2013-07-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2014077591A1 (ko) * | 2012-11-13 | 2014-05-22 | 삼성전자 주식회사 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
CN104112451A (zh) * | 2013-04-18 | 2014-10-22 | 华为技术有限公司 | 一种选择编码模式的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
HUE046877T2 (hu) | 2020-03-30 |
KR20170134430A (ko) | 2017-12-06 |
EP3281198A1 (en) | 2018-02-14 |
CN107408383A (zh) | 2017-11-28 |
BR112017021352B1 (pt) | 2024-03-12 |
US9886963B2 (en) | 2018-02-06 |
JP2018513408A (ja) | 2018-05-24 |
ES2770681T3 (es) | 2020-07-02 |
JP6377862B2 (ja) | 2018-08-22 |
US20160293175A1 (en) | 2016-10-06 |
AU2016244807B2 (en) | 2019-07-18 |
AU2016244807A1 (en) | 2017-09-14 |
KR101967572B1 (ko) | 2019-04-09 |
TWI640979B (zh) | 2018-11-11 |
BR112017021352A2 (pt) | 2018-06-26 |
EP3281198B1 (en) | 2019-11-06 |
TW201642246A (zh) | 2016-12-01 |
WO2016164231A1 (en) | 2016-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107408383B (zh) | 编码器选择 | |
US8990074B2 (en) | Noise-robust speech coding mode classification | |
US20190251971A1 (en) | Enhanced speech generation | |
DK2803068T3 (en) | Classification of signals with multiple kodningsmodi | |
RU2704747C2 (ru) | Выбор процедуры маскирования потери пакета | |
US10878831B2 (en) | Characteristic-based speech codebook selection | |
CN108352163A (zh) | 用于解码立体声声音信号的左和右声道的方法和系统 | |
US9972334B2 (en) | Decoder audio classification | |
CN103026407A (zh) | 带宽扩展器 | |
CN104969291B (zh) | 执行用于增益确定的滤波的系统及方法 | |
CN104956437B (zh) | 执行增益控制的系统及方法 | |
CN104995678B (zh) | 用于控制平均编码率的系统和方法 | |
Luengo et al. | Modified LTSE-VAD Algorithm for Applications Requiring Reduced Silence Frame Misclassification. | |
KR100984094B1 (ko) | 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법 | |
Ghilduta | Characterization of speaker recognition in noisy channels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |