CN104040626B - 多译码模式信号分类 - Google Patents
多译码模式信号分类 Download PDFInfo
- Publication number
- CN104040626B CN104040626B CN201280066779.6A CN201280066779A CN104040626B CN 104040626 B CN104040626 B CN 104040626B CN 201280066779 A CN201280066779 A CN 201280066779A CN 104040626 B CN104040626 B CN 104040626B
- Authority
- CN
- China
- Prior art keywords
- grader
- music
- voice
- characteristic
- classifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007774 longterm Effects 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 description 33
- 230000015654 memory Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 4
- 101150049692 THR4 gene Proteins 0.000 description 4
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供改进的音频分类用于编码应用。执行初始分类,随后进行较精细分类,以产生比先前可用者具有较高准确度及较低复杂性的语音分类及音乐分类。逐帧地将音频分类为语音或音乐。如果所述帧被所述初始分类分类为音乐,则所述帧经历第二、较精细分类以确认所述帧为音乐而非语音(例如,其调性及/或结构可能未被所述初始分类分类为语音的语音)。取决于实施方案,一或多个参数可用于所述较精细分类中。实例参数包含发声、经修改相关、信号动作,及长期音调增益。
Description
相关申请案的交叉参考
本申请案根据35U.S.C.§119(e)的权益主张2012年1月13日申请的第61/586,374号临时专利申请案的优先权。此临时专利申请案的全文特此以引用的方式明确地并入本文中。
背景技术
话音(也称为语音)及音乐通过数字技术的发射已变得广为普及,且并入到广泛范围的装置中,所述装置包含无线通信装置、个人数字助理(PDA)、膝上型计算机、桌上型计算机、移动及/或卫星无线电电话,等等。示范性领域为无线通信。无线通信的领域具有许多应用,包含例如无绳电话、寻呼、无线本地回路、无线电话(例如蜂窝式及PCS电话系统)、移动因特网协议(IP)电话,及卫星通信系统。
在电信网路中,信息以经编码形式在发射通信装置与接收通信装置之间传送。发射通信装置将例如话音信号及/或音乐信号等原始信息编码成经编码信息且将其发送到接收通信装置。接收通信装置解码所接收经编码信息以重新创建原始信息。编码及解码是使用编解码器执行。话音信号及/或音乐信号的编码在位于发射通信装置中的编解码器中执行,且解码在位于接收通信装置中的编解码器中执行。
在现代编解码器中,包含多个译码模式以处置不同类型的输入源,例如语音、音乐及混合内容。为获得最优性能,应选择及使用用于输入信号的每一帧的最优译码模式。准确分类对于选择最有效译码方案及实现最低数据速率是必要的。
此分类可以开环方式进行以减小复杂性。在此情况下,最优模式分类应考虑到各种译码模式的主要特征。一些模式(例如语音译码模式,如代数码激励线性预测(ACELP))含有自适应码本(ACB),其采用过去与当前帧之间的相关。一些其它模式(例如用于音乐/音频的经修改离散余弦变换(MDCT)译码模式)可能不含有此种特征。因此,确保与先前帧具有高相关的输入帧被分类为具有ACB或包含其它帧间相关建模技术的模式是重要的。
先前解决方案已使用闭环模式决策(例如,AMR-WB+、USAC)或各种类型的开环决策(例如,AMR-WB+、EVRC-WB),但这些解决方案要么复杂,要么其执行容易犯错。
发明内容
提供改进的音频分类用于编码应用。执行初始分类,随后进行较精细分类,以产生比先前可用者具有较高准确度及较低复杂性的语音分类及音乐分类。
逐部分(例如,逐帧)地将音频分类为语音或音乐。如果所述帧被所述初始分类分类为音乐,则所述帧经历第二、较精细分类以确认所述帧为音乐而非语音(例如,其调性及/或结构可能未被所述初始分类分类为语音的语音)。
取决于实施方案,一或多个参数可用于所述较精细分类中。实例参数包含浊化、经修改相关、信号动作,及长期音调增益。这些参数仅为实例,且不打算为限制性的。
提供此概述是为了以简化形式介绍下文中在详细描述中进一步描述的概念选择。此概述无意识别所主张标的物的关键特征或本质特征,也无意用于限制所主张标的物的范围。
附图说明
当结合附图阅读时,可更好地理解先前概述以及说明性实施例的以下详细描述。为说明实施例的目的,在图式中展示实施例的实例构造;然而,实施例并不限于所揭示的特定方法及手段。图中:
图1A是说明其中源装置将经编码位流发射到接收装置的实例系统的框图;
图1B是可如本文中所描述而使用的两个装置的框图;
图2是多译码模式信号分类及编码器系统的实施方案的框图;
图3是用于对音频进行分类的方法的实施方案的操作流程;
图4是实例移动台的图;以及
图5展示示范性计算环境。
具体实施方式
所揭示实施例提供用于在具有例如语音及音乐等各种类型音频的环境中对多种译码模式的分类技术。音频帧的类型可得以可靠且准确地识别以用于以最有效的方式进行编码。尽管本文中的实例及描述涉及音频帧,但音频信号的更一般部分涵盖在内且可根据本文中描述的实施方案加以使用。
图1A是说明其中源装置12a将经编码位流经由通信链路15发射到接收装置14a的实例系统10的框图。所述位流可表示为一或多个包。源装置12a及接收装置14a两者皆可为数字装置。明确地说,源装置12a可根据3GPP2 EVRC-B标准或使用将数据编码为包以用于语音压缩的类似标准来编码数据。系统10的装置12a、14a中的一者或两者可实施编码模式(基于不同译码模型)及编码速率的选择以用于音频(例如,语音及/或音乐)压缩(如下文更详细地描述),以便改进音频编码过程。相对于图4描述可包括源装置或接收装置的实例移动台。
通信链路15可包括无线链路、物理传输线、光纤、分组网络(例如局域网、广域网或全球网络(例如因特网、公共交换电话网络(PSTN)),或能够传送数据的任何其它通信链路。通信链路15可耦合到存储媒体。因此,通信链路15表示用于将经压缩语音数据从源装置12a传输到接收装置14a的任何适当通信媒体或可能不同网路及链路的集合。
源装置12a可包含俘获声音的一或多个麦克风16。连续声音发送到数字化器18。数字化器18以离散间隔对声音进行取样并量化(数字化)语音。经数字化语音可存储在存储器20中及/或发送到编码器22,在编码器22处,经数字化语音样本可被编码(常常在20ms帧上)。
更明确地说,编码器将传入语音信号划分成时间块或分析帧或部分。每一时间段(或帧)的持续时间通常选择为足够短,使得可预期信号的频谱包络保持相对固定。举例来说,一个典型帧长度为二十毫秒(20ms),其对应于八千赫兹(8kHz)典型取样率下的160个样本,但可使用对于特定应用认为适当的任何帧长度或取样率。
在编码器22中执行的编码过程产生待发送到发射器24的一或多个包,其可经由通信链路15传输到接收装置14a。举例来说,编码器分析传入帧以提取某些相关参数,且接着将所述参数量化为二进制表示,即量化为一组位或二进制数据包。数据包经由通信信道(即,有线及/或无线网络连接)传输到接收器及解码器。解码器处理所述数据包,对其进行解量化以产生参数,且使用经解量化的参数重新合成音频帧。
举例来说,编码器22可包含执行可编程软件模块以控制编码技术的各种硬件、软件或固件或一或多个数字信号处理器(DSP),如本文中所描述。可提供相关联存储器及逻辑电路以支持DSP控制编码技术。如将描述,如果编码模式及速率可在编码之前及/或期间(取决于是否已确定且正在编码语音帧或音乐帧)改变,则编码器22可更稳健地执行。
接收装置14a可采取能够接收及解码音频数据的任何数字音频装置的形式。举例来说,接收装置14a可包含接收器26以例如经由中间链路、路由器、其它网络设备等等从发射器24接收包。接收装置14a还可包含用于解码一或多个包的解码器28及允许用户在通过语音解码器28解码所述包之后听到重建构的音频的一或多个扬声器30。
在一些情况下,源装置12b及接收装置14b可各自包含如图1B中所示的用于编码及解码数字音频数据的语音编码器/解码器(编解码器)32。明确地说,源装置12b及接收装置14b两者皆可包含发射器及接收器以及存储器及扬声器。本文中涵盖的编码技术中的许多者是在包含用于压缩语音及/或音乐的编码器的数字音频装置的上下文中描述。
然而,应理解,编码器可形成编解码器32的部分。在所述情况下,编解码器可实施在以下各者内:硬件、软件、固件、DSP、微处理器、通用处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散硬件组件,或其各种组合。此外,所属领域的技术人员应理解,可用DSP、ASIC、离散门逻辑、固件或任何常规可编程软件模块及微处理器来实施译码器。软件模块可驻留在RAM存储器、快闪存储器、寄存器或此项技术中所知的任何其它形式的可写入存储媒体中。或者,任何常规处理器、控制器或状态机可替代微处理器。相对于图5描述实例计算装置。
图2是多译码模式信号分类及编码器系统200的实施方案的框图。在一实施方案中,系统200可与例如相对于图1A及1B描述的源装置或接收装置等装置一起使用。举例来说,系统200可结合源装置12a的编码器22而操作。
多译码模式信号分类及编码器系统200包括初始分类器210(还称为第一分类器)及精细分类器220(还称为第二分类器)。系统200还包括可经选择(例如,由用户)以启用或停用精细分类器220及其相关联较精细分类功能性的精细分类器选择开关230。
各种类型的译码器包括在系统200内,例如语音译码器及音乐译码器。在一实施方案中,可响应于初始分类器210的分类而提供及使用称为“译码模式1”240(例如,码激励线性预测(CELP)型译码器,或语音译码模式)的第一译码模式。可响应于精细分类器220的分类而提供及使用称为“译码模式2”260(例如,CELP/变换混合译码器,或第二语音译码模式)的第二译码模式。
可响应于初始分类器210及/或精细分类器220的分类而提供及使用称为“译码模式3”250(例如,变换译码器,或音乐译码模式)的第三译码模式。这些类型的译码模式及译码器众所周知,且为了简洁而省略进一步描述。针对译码模式1、2及3描述的实例译码模式及译码器仅为实例,且不打算为限制性的。可使用任何合适语音译码模式及/或译码器以及音乐译码模式及/或译码器。
图3是用于对音频进行分类的方法300的实施方案的操作流程。在310,初始分类器210接收输入音频帧(或用于将音频信号的部分分类为语音样音频信号或音乐样音频信号的音频信号的其它部分)且在320将其分类为语音或音乐。初始分类器210可为将音频帧或部分分类为语音或音乐的任何分类器。
在一些实施方案中,初始分类器210可包括一个以上分类器(在320中展示为“分类器1”及“分类器2”,但可取决于实施方案而使用任何数目的分类器)。举例来说,初始分类器可包括完全偏向语音的分类器及例如更偏向音乐的分类器等另一不同分类器。这两个分类器可在320循序地或有时同时(取决于实施方案)对输入帧操作,其结果经组合以形成发送到330或340的结果。
存在语音将被初始分类器210检测为音乐的小的概率。由此,一些语音帧可能最初被分类为音乐。举例来说,存在非常低水平的背景音乐或唱歌话音(其表示语音)的语音可能不被初始分类器210分类为语音。确切地说,初始分类器210可能将此些信号分类为音乐。其它背景噪声(例如街道噪声中的车辆喇叭声或典型办公室中的电话铃声)的存在也可促成将语音误分类为音乐的增加的误分类。
如果在320通过初始分类器210确定帧为语音帧,则将所述帧提供到译码模式1240(例如,CELP型译码器)用于编码。在一些实施方案中,可使用任何已知CELP型译码器。
另一方面,如果在320通过初始分类器210确定帧为音乐帧,则在340确定是否启用较精细分类(例如,由先前已启用所述特征的用户经由装置上的分别对应于“启用”及“不启用”的“开”及“关”选择开关)。此较精细分类为加强第一分类的决策的第二轮分类。在一实施方案中,可由用户选择性地启用用于处理音频数据的较精细分类。
如果如在340所确定而未启用较精细分类,则在350将帧提供到译码模式3 250(例如,变换译码器)用于编码为音乐帧。然而,如果如在340所确定启用了较精细分类,则在360将帧提供到精细分类器220用于进行额外的较精细分类。较精细分类用以进一步区分语音帧与音乐帧。
在一实施方案中,较精细分类用以确认帧为宽频带噪声式的,其为某些类型音乐的特性而非浊音语音的调性及/或准固定特性。如果在360处的较精细分类导致帧被识别为音乐帧,则在350将帧发送到译码模式3用于编码为音乐帧。
如果在360处的较精细分类导致帧被识别为语音帧,则在370将帧发送到译码模式2 260用于编码为语音帧。如上文所指出,在一实施方案中,译码模式2 260可为CELP/变换混合译码器,其可用于译码调性及/或结构化语音帧。在替代实施方案中,在370处的译码模式2 260可为例如在330处使用的译码模式1等CELP型译码器。
在一实施方案中,在360处(例如,通过精细分类器220)执行的较精细分类可比较帧的各种特性或特征与一或多个阈值以便确定所述帧是语音帧还是音乐帧。
在一些实施方案中,帧的浊化可与第一阈值THR1进行比较。如果帧的浊化大于THR1,则确定所述帧为语音帧。THR1的实例值为0.99,但可取决于实施方案而使用任何值。浊化的范围从0(对应于与语音帧不相关)到1(对应于与语音帧的高相关)。
在一些实施方案中,经加权信号相关可与第二阈值THR2进行比较。如果经加权信号相关大于THR2,则确定所述帧为语音帧。THR2的实例值为0.87,但可取决于实施方案而使用任何值。信号相关范围从0(对应于随机噪声)到1(对应于高度结构化的声音)。
在一些实施方案中,长期音调增益可与第三阈值THR3进行比较。如果长期音调增益大于THR3,则确定所述帧为语音帧。THR3的实例值为0.5,但可取决于实施方案而使用任何值。长期音调增益为过去激励与当前预测残差之间的归一化交叉相关。长期音调增益范围从0(指示过去帧中的误差不适合表示当前帧)到1(指示使用过去帧中的残余误差可完全表示当前帧)。
在一些实施方案中,可确定当前帧的调性,且将其与阈值THR4进行比较。可使用频谱平度测量或频谱峰值与平均值比率测量来测量信号的调性。如果频频不含任何突出的局部峰值,则频谱平度测量将倾向于接近于1。另一方面,如果频频展现具有局部峰值的强倾斜,则频谱平度测量将接近于0。如果调性大于THR4,则确定帧为语音帧。THR4的实例值为0.75,但可取决于实施方案而使用任何值。
此外或替代地,在一些实施方案中,可确定是否存在任何信号动作。如果不存在信号动作(即,帧是安静的),则确定不存在有用信号来编码,且可将其编码为语音帧。
在一些实施方案中,如果不满足对于在360处确定帧为语音帧的所有条件,则确定帧为音乐帧。
本文中描述的比较及阈值不打算为限制性的,因为可取决于实施方案而使用任何一或多个比较及/或阈值。还可取决于实施方案而使用额外及/或替代比较及阈值。
因此,在一实施方案中,如果帧最初被分类(通过初始分类器210)为语音,则其传递到CELP译码器。然而,如果帧被分类为音乐,则验证是否启用了较精细分类。可使用外部用户控件启用较精细分类。如果未启用较精细分类,则最初被分类为音乐的帧被路由到变换译码器用于编码。如果启用了较精细分类,则使用某些准则(例如,浊化、经修改相关、信号动作、长期音调增益,等)的逻辑组合来在变换译码器与CELP/变换译码器的混合之间进行选择。THR1、THR2、THR3及THR4为可通过实验确定且取决于例如取样率及信号类型的阈值。
在一实施方案中,防止强调性信号在MDCT模式(其缺乏自适应码本)中,且确切地说,将其提供到利用自适应码本的线性预测译码(LPC)模式。
本文中描述的译码器及分类器的组件可实施为电子硬件、计算机软件,或两者的组合。这些组件在本文中在其功能性方面加以描述。将所述功能性实施为硬件还是软件将取决于外加于总体系统的特定应用及设计约束。所属领域的技术人员将认识到硬件与软件在这些情况下的可互换性,及如何针对每一特定应用最好地实施所描述功能性。
如本文中所使用,术语“确定”(及其语法变体)在极广泛的含义上使用。术语“确定”涵盖许多种类的动作,且因此“确定”可包含推算、计算、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中查找)、查实等。而且,“确定”可包含接收(例如,接收信息)、存取(例如,在存储器中存取数据)等等。而且,“确定”可包含解析、选择、挑选、建立等等。
术语“信号处理”(及其语法变体)可指对信号的处理及解译。所关注信号可包含声音、图像及许多其它者。对此些信号的处理可包含存储及重建构、信息与噪声的分离、压缩,及特征提取。术语“数字信号处理”可指以数字表示对信号的研究及这些信号的处理方法。数字信号处理是例如移动台、非移动台及因特网等许多通信技术的要素。可使用专用计算机执行用于数字信号处理的算法,其可利用专用微处理器调用的数字信号处理器(有时缩写为DSP)。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。
图4展示无线通信系统中的实例移动台400的设计的框图。移动台400可为蜂窝式电话、终端、手持机、PDA、无线调制调解器、无绳电话,等。无线通信系统可为CDMA系统、GSM系统,等。
移动台400能够经由接收路径及发射路径提供双向通信。在接收路径上,由天线412接收由基站发射的信号,且将其提供给接收器(RCVR)414。接收器414调节并数字化所接收的信号,且将样本提供给数字区段420以供进一步处理。在发射路径上,发射器(TMTR)416接收将要从数字区段420发射的数据,处理并调节所述数据,且产生经调制信号,所述经调制信号经由天线412发射到基站。接收器414及发射器416可为可支持CDMA、GSM等的收发器的部分。
数字区段420包含各种处理、接口及存储器单元,例如,调制解调器处理器422、精简指令集计算机/数字信号处理器(RISC/DSP)424、控制器/处理器426、内部存储器428、广义音频编码器432、广义音频解码器434、图形/显示处理器436及外部总线接口(EBI)438。调制解调器处理器422可执行用于数据发射及接收的处理,例如,编码、调制、解调及解码。RISC/DSP424可执行用于无线装置400的通用及专用处理。控制器/处理器426可指导数字区段420内的各种处理及接口单元的操作。内部存储器428可存储数字区段420内的各种单元的数据及/或指令。
广义音频编码器432可执行对来自音频源442、麦克风443等的输入信号的编码。广义音频解码器434可执行对经译码音频数据的解码,且可将输出信号提供到扬声器/头戴送受话器444。图形/显示处理器436可对可呈现给显示单元446的图形、视频、图像及文本执行处理。EBI438可促进数据在数字区段420与主存储器448之间的传送。
可使用一或多个处理器、DSP、微处理器、RISC等来实施数字区段420。还可将数字区段420制造在一或多个专用集成电路(ASIC)及/或某一其它类型的集成电路(IC)上。
图5展示其中可实施实例实施方案及方面的示范性计算环境。所述计算系统环境仅为适当计算环境的一个实例,且并不旨在暗示关于使用范围或功能性的任何限制。
可使用例如程序模块等由计算机执行的计算机可执行指令。一般来说,程序模块包含执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。在任务由经由通信网络或其它数据发射媒体链接的远程处理装置执行的情况下,可使用分布式计算环境。在分布式计算环境中程序模块及其它数据可位于包含存储器存储装置的本地及远程计算机存储媒体两者中。
参考图5,用于实施本文中描述的方面的示范性系统包含计算装置,例如计算装置500。在其最基本配置中,计算装置500通常包含至少一个处理单元502及存储器504。取决于计算装置的确切配置及类型,存储器504可为易失性的(例如随机存取存储器(RAM))、非易失性的(例如只读存储器(ROM)、快闪存储器,等),或两者的某一组合。此最基本配置在图5中用虚线506说明。
计算装置500可具有额外特征及/或功能性。举例来说,计算装置500可包含额外存储装置(可移除式及/或非可移除式),包含但不限于磁盘或光盘或磁带。此种额外存储装置在图5中由可移除式存储装置508及非可移除式存储装置510说明。
计算装置500通常包含多种计算机可读媒体。计算机可读媒体可为可由装置500存取的任何可用媒体,且包含易失性及非易失性媒体以及可移除式及非可移除式媒体两者。计算机存储媒体包含以任何方法或技术实施用于存储例如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性及非易失性以及可移除式及非可移除式媒体。存储器504、可移除式存储装置508及非可移除式存储装置510都是计算机存储媒体的实例。计算机存储媒体包含但不限于RAM、ROM、电可擦除可编程只读存储器(EEPROM)、快闪存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储装置、盒式磁带、磁带、磁盘存储装置或其它磁性存储装置,或可用以存储所需信息且可由计算装置500存取的任何其它媒体。任何此种计算机存储媒体可为计算装置500的部分。
计算装置500可含有允许装置与其它装置通信的通信连接512。计算装置500还可具有输入装置514,例如键盘、鼠标、笔(pen)、话音输入装置、触摸输入装置,等。还可包含例如显示器、扬声器、打印机等输出装置516。所有这些装置在此项技术中是熟知的,且此处无需详细论述。
一般来说,本文中描述的任何装置可表示各种类型的装置,例如无线或有线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信PC卡、PDA、外部或内部调制调解器、经由无线或有线信道通信的装置,等。装置可具有各种名称,例如存取终端(AT)、存取单元、订户单元、移动台、移动装置、移动单元、移动电话、移动物、远程台、远程终端、远程单元、用户装置、使用者设备、手持式装置、非移动台、非移动装置、端点,等。本文中描述的任何装置可具有用于存储指令及数据的存储器,以及硬件、软件、固件,或其组合。
本文中所描述的技术可由各种装置实施。举例来说,可以硬件、固件、软件或其组合来实施这些技术。所属领域的技术人员将进一步了解,在本文中结合揭示内容而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件,或两者的组合。为清楚说明硬件与软件的此互换性,上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。所述功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述功能性,但所述实施决策不应被解释为导致偏离本发明的范围。
对于硬件实施方案,用以执行技术的处理单元可实施在以下各者内:一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、FPGA、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中描述的功能的其它电子单元、计算机,或其组合。
因此,结合本文中的揭示内容所描述的各种说明性逻辑块、模块及电路可用以下各者实施或执行:通用处理器、DSP、ASIC、FPGA或经设计以执行本文中描述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合。通用处理器可为微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器与DSP核心的联合,或任何其它此配置。
对于固件及/或软件实施方案,所述技术可体现为计算机可读媒体上的指令,所述计算机可读媒体例如是RAM、ROM、非易失性RAM、可编程ROM、EEPROM、快闪存储器、光盘(CD)、磁性或光学数据存储装置,等等。所述指令可由一或多个处理器执行且可使所述处理器执行本文中所描述的功能性的某些方面。
如果实施于软件中,则可将功能作为计算机可读媒体上的一或多个指令或码而加以存储或传输。计算机可读媒体包含计算机存储媒体与包含促进计算机程序从一处传递到另一处的任何媒体的通信媒体两者。存储媒体可为可由通用或专用计算机存取的任何可用媒体。举例来说(且并非限制),此些计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于承载或存储呈指令或数据结构的形式的所要程序代码装置且可由通用或专用计算机或者通用或专用处理器存取的任何其它媒体。而且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。用于本文中时,磁盘及光盘包含CD、激光光盘、光学光盘、数字多功能盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。上文的组合也应包含在计算机可读媒体的范围内。
软件模块可驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除磁盘、CD-ROM,或此项技术中已知的任何其它形式的存储媒体中。示范性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息并将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于使用者终端中。在替代例中,处理器及存储媒体可作为离散组件驻留于用户终端中。
本发明的先前描述经提供以使所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将容易了解对本发明的各种修改,且本文中界定的一般原理可应用于其它变化而不背离本发明的精神或范围。因此,本发明并非希望限于本文中所描述的实例,而是应被赋予与本文中所揭示的原理和新颖特征一致的最广泛范围。
尽管示范性实施方案可提及在一或多个独立计算机系统的上下文中利用当前揭示的标的物的方面,但标的物不限于此,而是可结合例如网络或分布式计算环境等任何计算环境加以实施。又另外,当前揭示的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置而实施,且可跨越多个装置类似地实现存储。此些装置可包含例如PC、网络服务器及手持式装置。
尽管已用结构特征及/或方法动作特有的语言描述了标的物,但应理解,所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。相反,上文所描述的特定特征及动作是作为实施权利要求书的实例形式而揭示。
Claims (40)
1.一种用于信号分类的方法,其包括:
在数字音频装置中的第一分类器处接收音频信号的一部分;
由所述数字音频装置在所述第一分类器处将所述音频信号的所述部分分类为语音或音乐;以及
处理所述音频信号的所述部分,其中处理所述音频信号的所述部分包括:
如果所述部分被所述第一分类器分类为语音,则由所述数字音频装置使用第一译码模式编码所述语音;或
如果所述部分被所述第一分类器分类为音乐,则选择性地启用第二分类器,且如果所述第二分类器被启用,则:
将所述部分提供到所述数字音频装置中的所述第二分类器;
由所述数字音频装置在所述第二分类器处将所述部分分类为语音或音乐;以及编码所述音频信号的所述部分,其中编码所述音频信号的所述部分包括:
如果所述部分在所述第二分类器处被分类为语音,则由所述数字音频装置使用第二译码模式编码所述部分;或
如果所述部分在所述第二分类器处被分类为音乐,则由所述数字音频装置使用第三译码模式编码所述部分。
2.根据权利要求1所述的方法,其中所述音频信号的所述部分为帧。
3.根据权利要求1所述的方法,其中所述第一译码模式包括第一语音译码器,所述第二译码模式包括第二语音译码器,且所述第三译码模式包括音乐译码器。
4.根据权利要求3所述的方法,其中所述第一语音译码器为码激励线性预测CELP型译码器,所述第二语音译码器为CELP/变换混合译码器,且所述音乐译码器为变换译码器。
5.根据权利要求1所述的方法,其中如果所述第二分类器未被启用,则用所述第三译码模式编码所述部分。
6.根据权利要求1所述的方法,其中在所述第二分类器处将所述部分分类为语音或音乐包括比较所述部分的多个特征与一或多个阈值以分类所述部分是具有音乐的特性还是浊音语音的特性。
7.根据权利要求6所述的方法,其中音乐的所述特性包括音乐的宽频带噪声式特性,且浊音语音的所述特性包括浊音语音的调性特性或浊音语音的准固定特性中的至少一者。
8.根据权利要求1所述的方法,其中在所述第二分类器处将所述部分分类为语音或音乐包括以下各者中的至少一者:比较所述部分的浊化与第一阈值、比较经修改相关与第二阈值,或比较长期音调增益与第三阈值。
9.根据权利要求8所述的方法,其中所述浊化的范围从对应于与语音无相关的0到对应于与语音的高相关的1;其中所述经修改相关的范围从对应于随机噪声的0到对应于高度结构化声音的1;其中所述长期音调增益为过去激励与当前预测残差之间的归一化交叉相关;且其中所述长期音调增益的范围从指示过去部分中的误差不适合表示当前部分的0到指示使用所述过去部分中的残余误差可完全表示所述当前部分的1。
10.根据权利要求1所述的方法,其中在所述第二分类器处将所述部分分类为语音或音乐包括确定在所述部分中是否存在任何信号动作,以及如果不存在信号动作,则确定不存在有用信号来编码,且将所述部分编码为语音。
11.一种用于信号分类的设备,其包括:
用于在数字音频装置中的第一分类器处接收音频信号的一部分的装置;
用于由所述数字音频装置在所述第一分类器处将所述音频信号的所述部分分类为语音或音乐的装置;用于在所述部分被所述第一分类器分类为语音的情况下由所述数字音频装置使用第一译码模式编码所述语音的装置;
用于在所述部分被所述第一分类器分类为音乐的情况下选择性地启用第二分类器的装置;
用于在所述第二分类器被启用时由所述数字音频装置在所述第二分类器处将所述部分分类为语音或音乐的装置;
用于在所述部分在所述第二分类器处被分类为语音的情况下由所述数字音频装置使用第二译码模式编码所述部分或在所述部分在所述第二分类器处被分类为音乐的情况下由所述数字音频装置使用第三译码模式编码所述部分的装置。
12.根据权利要求11所述的设备,其中所述音频信号的所述部分为帧。
13.根据权利要求11所述的设备,其中所述第一译码模式包括第一语音译码器,所述第二译码模式包括第二语音译码器,且所述第三译码模式包括音乐译码器。
14.根据权利要求13所述的设备,其中所述第一语音译码器为码激励线性预测CELP型译码器,所述第二语音译码器为CELP/变换混合译码器,且所述音乐译码器为变换译码器。
15.根据权利要求11所述的设备,其中如果所述第二分类器未被启用,则用所述第三译码模式编码所述部分。
16.根据权利要求11所述的设备,其中所述用于在所述第二分类器处将所述部分分类为语音或音乐的装置包括用于比较所述部分的多个特征与一或多个阈值以分类所述部分是具有音乐的特性还是浊音语音的特性的装置。
17.根据权利要求16所述的设备,其中音乐的所述特性包括音乐的宽频带噪声式特性,且浊音语音的所述特性包括浊音语音的调性特性或浊音语音的准固定特性中的至少一者。
18.根据权利要求11所述的设备,其中所述用于在所述第二分类器处将所述部分分类为语音或音乐的装置包括以下各者中的至少一者:用于比较所述部分的浊化与第一阈值的装置、用于比较经修改相关与第二阈值的装置,及用于比较长期音调增益与第三阈值的装置。
19.根据权利要求18所述的设备,其中所述浊化的范围从对应于与语音无相关的0到对应于与语音的高相关的1;其中所述经修改相关的范围从对应于随机噪声的0到对应于高度结构化声音的1;其中所述长期音调增益为过去激励与当前预测残差之间的归一化交叉相关;且其中所述长期音调增益的范围从指示过去部分中的误差不适合表示当前部分的0到指示使用所述过去部分中的残余误差可完全表示所述当前部分的1。
20.根据权利要求11所述的设备,其中所述用于在所述第二分类器处将所述部分分类为语音或音乐的装置包括用于确定在所述部分中是否存在任何信号动作,以及如果不存在信号动作,则确定不存在有用信号来编码且将所述部分编码为语音的装置。
21.一种用于信号分类的处理器,其经配置以:
在数字音频装置中的第一分类器处接收音频信号的一部分;
由所述数字音频装置在所述第一分类器处将所述音频信号的所述部分分类为语音或音乐;
处理所述音频信号的所述部分,其中处理所述音频信号的所述部分包括:
如果所述部分被所述第一分类器分类为语音,则由所述数字音频装置使用第一译码模式编码所述语音;或
如果所述部分被所述第一分类器分类为音乐,则选择性地启用第二分类器,且如果所述第二分类器被启用,则:
将所述部分提供到所述数字音频装置中的所述第二分类器;
由所述数字音频装置在所述第二分类器处将所述部分分类为语音或音乐;以及
编码所述音频信号的所述部分,其中编码所述音频信号的所述部分包括:
如果所述部分在所述第二分类器处被分类为语音,则由所述数字音频装置使用第二译码模式编码所述部分;或
如果所述部分在所述第二分类器处被分类为音乐,则由所述数字音频装置使用第三译码模式编码所述部分。
22.根据权利要求21所述的处理器,其中所述音频信号的所述部分为帧。
23.根据权利要求21所述的处理器,其中所述第一译码模式包括第一语音译码器,所述第二译码模式包括第二语音译码器,且所述第三译码模式包括音乐译码器。
24.根据权利要求23所述的处理器,其中所述第一语音译码器为码激励线性预测CELP型译码器,所述第二语音译码器为CELP/变换混合译码器,且所述音乐译码器为变换译码器。
25.根据权利要求21所述的处理器,其中如果所述第二分类器未被启用,则用所述第三译码模式编码所述部分。
26.根据权利要求21所述的处理器,其中在所述第二分类器处将所述部分分类为语音或音乐包括比较所述部分的多个特征与一或多个阈值以分类所述部分是具有音乐的特性还是浊音语音的特性。
27.根据权利要求26所述的处理器,其中音乐的所述特性包括音乐的宽频带噪声式特性,且浊音语音的所述特性包括浊音语音的调性特性或浊音语音的准固定特性中的至少一者。
28.根据权利要求21所述的处理器,其中在所述第二分类器处将所述部分分类为语音或音乐包括以下各者中的至少一者:比较所述部分的浊化与第一阈值、比较经修改相关与第二阈值,或比较长期音调增益与第三阈值。
29.根据权利要求28所述的处理器,其中所述浊化的范围从对应于与语音无相关的0到对应于与语音的高相关的1;其中所述经修改相关的范围从对应于随机噪声的0到对应于高度结构化声音的1;其中所述长期音调增益为过去激励与当前预测残差之间的归一化交叉相关;且其中所述长期音调增益的范围从指示过去部分中的误差不适合表示当前部分的0到指示使用所述过去部分中的残余误差可完全表示所述当前部分的1。
30.根据权利要求21所述的处理器,其中在所述第二分类器处将所述部分分类为语音或音乐包括确定在所述部分中是否存在任何信号动作,以及如果不存在信号动作,则确定不存在有用信号来编码,且将所述部分编码为语音。
31.一种用于信号分类的系统,其包括:
第一分类器,其接收音频信号的一部分,将所述音频信号的所述部分分类为语音或音乐,如果所述部分被分类为语音,则使用第一译码模式编码所述语音,且如果所述部分被分类为音乐,则选择性地启用第二分类器,且如果所述第二分类器被启用,则将所述部分提供到所述第二分类器;以及
所述第二分类器,如果所述部分被所述第一分类器分类为音乐,则将所述部分分类为语音或音乐,如果所述部分在所述第二分类器处被分类为语音,则使用第二译码模式编码所述部分;且如果所述部分在所述第二分类器处被分类为音乐,则使用第三译码模式编码所述部分。
32.根据权利要求31所述的系统,其中所述音频信号的所述部分为帧。
33.根据权利要求31所述的系统,其中所述第一译码模式包括第一语音译码器,所述第二译码模式包括第二语音译码器,且所述第三译码模式包括音乐译码器。
34.根据权利要求33所述的系统,其中所述第一语音译码器为码激励线性预测CELP型译码器,所述第二语音译码器为CELP/变换混合译码器,且所述音乐译码器为变换译码器。
35.根据权利要求31所述的系统,其中如果所述第二分类器未被启用,则用所述第三译码模式编码所述部分。
36.根据权利要求31所述的系统,其中在所述第二分类器处将所述部分分类为语音或音乐包括比较所述部分的多个特征与一或多个阈值以分类所述部分是具有音乐的特性还是浊音语音的特性。
37.根据权利要求36所述的系统,其中音乐的所述特性包括音乐的宽频带噪声式特性,且浊音语音的所述特性包括浊音语音的调性特性或浊音语音的准固定特性中的至少一者。
38.根据权利要求31所述的系统,其中在所述第二分类器处将所述部分分类为语音或音乐包括以下各者中的至少一者:比较所述部分的浊化与第一阈值、比较经修改相关与第二阈值,或比较长期音调增益与第三阈值。
39.根据权利要求38所述的系统,其中所述浊化的范围从对应于与语音无相关的0到对应于与语音的高相关的1;其中所述经修改相关的范围从对应于随机噪声的0到对应于高度结构化声音的1;其中所述长期音调增益为过去激励与当前预测残差之间的归一化交叉相关;且其中所述长期音调增益的范围从指示过去部分中的误差不适合表示当前部分的0到指示使用所述过去部分中的残余误差可完全表示所述当前部分的1。
40.根据权利要求31所述的系统,其中在所述第二分类器处将所述部分分类为语音或音乐包括确定在所述部分中是否存在任何信号动作,以及如果不存在信号动作,则确定不存在有用信号来编码,且将所述部分编码为语音。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261586374P | 2012-01-13 | 2012-01-13 | |
US61/586,374 | 2012-01-13 | ||
US13/722,669 | 2012-12-20 | ||
US13/722,669 US9111531B2 (en) | 2012-01-13 | 2012-12-20 | Multiple coding mode signal classification |
PCT/US2012/071217 WO2013106192A1 (en) | 2012-01-13 | 2012-12-21 | Multiple coding mode signal classification |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104040626A CN104040626A (zh) | 2014-09-10 |
CN104040626B true CN104040626B (zh) | 2017-08-11 |
Family
ID=48780608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280066779.6A Active CN104040626B (zh) | 2012-01-13 | 2012-12-21 | 多译码模式信号分类 |
Country Status (12)
Country | Link |
---|---|
US (1) | US9111531B2 (zh) |
EP (1) | EP2803068B1 (zh) |
JP (1) | JP5964455B2 (zh) |
KR (2) | KR20140116487A (zh) |
CN (1) | CN104040626B (zh) |
BR (1) | BR112014017001B1 (zh) |
DK (1) | DK2803068T3 (zh) |
ES (1) | ES2576232T3 (zh) |
HU (1) | HUE027037T2 (zh) |
IN (1) | IN2014MN01588A (zh) |
SI (1) | SI2803068T1 (zh) |
WO (1) | WO2013106192A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9589570B2 (en) * | 2012-09-18 | 2017-03-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
KR102561265B1 (ko) * | 2012-11-13 | 2023-07-28 | 삼성전자주식회사 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
CN106409310B (zh) | 2013-08-06 | 2019-11-19 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104424956B9 (zh) | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
CN110992965B (zh) * | 2014-02-24 | 2024-09-03 | 三星电子株式会社 | 信号分类方法和装置以及使用其的音频编码方法和装置 |
PL3594948T3 (pl) * | 2014-05-08 | 2021-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Klasyfikator sygnału audio |
CN107424621B (zh) * | 2014-06-24 | 2021-10-26 | 华为技术有限公司 | 音频编码方法和装置 |
CN104143335B (zh) | 2014-07-28 | 2017-02-01 | 华为技术有限公司 | 音频编码方法及相关装置 |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
CN104867492B (zh) * | 2015-05-07 | 2019-09-03 | 科大讯飞股份有限公司 | 智能交互系统及方法 |
KR102398124B1 (ko) | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | 음향 데이터의 적응적 처리 |
US10186276B2 (en) * | 2015-09-25 | 2019-01-22 | Qualcomm Incorporated | Adaptive noise suppression for super wideband music |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
WO2017117234A1 (en) * | 2016-01-03 | 2017-07-06 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
JP6996185B2 (ja) * | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
CN116149499B (zh) * | 2023-04-18 | 2023-08-11 | 深圳雷柏科技股份有限公司 | 用于鼠标的多模式切换控制电路及切换控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1159639A (zh) * | 1991-06-11 | 1997-09-17 | 夸尔柯姆股份有限公司 | 可变速率声码器 |
CN1331826A (zh) * | 1998-12-21 | 2002-01-16 | 高通股份有限公司 | 可变速率语音编码 |
CN1708907A (zh) * | 2002-10-25 | 2005-12-14 | 达丽星网络有限公司 | 用于快速celp参数映射的方法和装置 |
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
CN1954364A (zh) * | 2004-05-17 | 2007-04-25 | 诺基亚公司 | 带有不同编码帧长度的音频编码 |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101965612A (zh) * | 2008-03-03 | 2011-02-02 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN102089803A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
CN102150024A (zh) * | 2008-07-14 | 2011-08-10 | 韩国电子通信研究院 | 编码和解码统合的语音与音频信号的设备与方法 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5778335A (en) | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP2000267699A (ja) * | 1999-03-19 | 2000-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置 |
EP1959434B1 (en) * | 1999-08-23 | 2013-03-06 | Panasonic Corporation | Speech encoder |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6625226B1 (en) * | 1999-12-03 | 2003-09-23 | Allen Gersho | Variable bit rate coder, and associated method, for a communication station operable in a communication system |
US6697776B1 (en) * | 2000-07-31 | 2004-02-24 | Mindspeed Technologies, Inc. | Dynamic signal detector system and method |
US6694293B2 (en) | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US6829579B2 (en) * | 2002-01-08 | 2004-12-07 | Dilithium Networks, Inc. | Transcoding method and system between CELP-based speech codes |
US7657427B2 (en) * | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
US8010350B2 (en) | 2006-08-03 | 2011-08-30 | Broadcom Corporation | Decimated bisectional pitch refinement |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
KR100925256B1 (ko) * | 2007-05-03 | 2009-11-05 | 인하대학교 산학협력단 | 음성 및 음악을 실시간으로 분류하는 방법 |
CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
CN101399039B (zh) * | 2007-09-30 | 2011-05-11 | 华为技术有限公司 | 一种确定非噪声音频信号类别的方法及装置 |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
CN101236742B (zh) * | 2008-03-03 | 2011-08-10 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
CN101751920A (zh) * | 2008-12-19 | 2010-06-23 | 数维科技(北京)有限公司 | 基于再次分类的音频分类装置及其实现方法 |
CN101814289A (zh) * | 2009-02-23 | 2010-08-25 | 数维科技(北京)有限公司 | 低码率dra数字音频多声道编码方法及其系统 |
JP5519230B2 (ja) * | 2009-09-30 | 2014-06-11 | パナソニック株式会社 | オーディオエンコーダ及び音信号処理システム |
CN102237085B (zh) * | 2010-04-26 | 2013-08-14 | 华为技术有限公司 | 音频信号的分类方法及装置 |
WO2012109734A1 (en) | 2011-02-15 | 2012-08-23 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec |
-
2012
- 2012-12-20 US US13/722,669 patent/US9111531B2/en active Active
- 2012-12-21 WO PCT/US2012/071217 patent/WO2013106192A1/en active Application Filing
- 2012-12-21 KR KR1020147022400A patent/KR20140116487A/ko active Application Filing
- 2012-12-21 KR KR1020177000172A patent/KR20170005514A/ko not_active Application Discontinuation
- 2012-12-21 CN CN201280066779.6A patent/CN104040626B/zh active Active
- 2012-12-21 BR BR112014017001-0A patent/BR112014017001B1/pt active IP Right Grant
- 2012-12-21 DK DK12810018.7T patent/DK2803068T3/en active
- 2012-12-21 HU HUE12810018A patent/HUE027037T2/en unknown
- 2012-12-21 JP JP2014552206A patent/JP5964455B2/ja active Active
- 2012-12-21 ES ES12810018.7T patent/ES2576232T3/es active Active
- 2012-12-21 SI SI201230593A patent/SI2803068T1/sl unknown
- 2012-12-21 IN IN1588MUN2014 patent/IN2014MN01588A/en unknown
- 2012-12-21 EP EP12810018.7A patent/EP2803068B1/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1159639A (zh) * | 1991-06-11 | 1997-09-17 | 夸尔柯姆股份有限公司 | 可变速率声码器 |
CN1331826A (zh) * | 1998-12-21 | 2002-01-16 | 高通股份有限公司 | 可变速率语音编码 |
CN1708907A (zh) * | 2002-10-25 | 2005-12-14 | 达丽星网络有限公司 | 用于快速celp参数映射的方法和装置 |
CN1954364A (zh) * | 2004-05-17 | 2007-04-25 | 诺基亚公司 | 带有不同编码帧长度的音频编码 |
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101965612A (zh) * | 2008-03-03 | 2011-02-02 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN102089803A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
CN102150024A (zh) * | 2008-07-14 | 2011-08-10 | 韩国电子通信研究院 | 编码和解码统合的语音与音频信号的设备与方法 |
Also Published As
Publication number | Publication date |
---|---|
SI2803068T1 (sl) | 2016-07-29 |
EP2803068B1 (en) | 2016-04-13 |
BR112014017001A2 (pt) | 2017-06-13 |
EP2803068A1 (en) | 2014-11-19 |
JP2015507222A (ja) | 2015-03-05 |
KR20170005514A (ko) | 2017-01-13 |
IN2014MN01588A (zh) | 2015-05-08 |
KR20140116487A (ko) | 2014-10-02 |
WO2013106192A1 (en) | 2013-07-18 |
ES2576232T3 (es) | 2016-07-06 |
BR112014017001A8 (pt) | 2017-07-04 |
HUE027037T2 (en) | 2016-08-29 |
US20130185063A1 (en) | 2013-07-18 |
JP5964455B2 (ja) | 2016-08-03 |
CN104040626A (zh) | 2014-09-10 |
US9111531B2 (en) | 2015-08-18 |
BR112014017001B1 (pt) | 2020-12-22 |
DK2803068T3 (en) | 2016-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104040626B (zh) | 多译码模式信号分类 | |
US11676585B1 (en) | Hybrid decoding using hardware and software for automatic speech recognition systems | |
US9875752B2 (en) | Voice profile management and speech signal generation | |
Peinado et al. | Speech recognition over digital channels: Robustness and Standards | |
CN101322182B (zh) | 用于检测音调分量的系统、方法和设备 | |
US7269561B2 (en) | Bandwidth efficient digital voice communication system and method | |
EP2956939B1 (en) | Personalized bandwidth extension | |
US10878831B2 (en) | Characteristic-based speech codebook selection | |
JPH09507105A (ja) | 分散音声認識システム | |
CN104937662B (zh) | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 | |
US20230197061A1 (en) | Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device | |
CN1223984C (zh) | 基于客户机-服务器的分布式语音识别系统 | |
Hassan et al. | Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2 | |
Gomez et al. | Recognition of coded speech transmitted over wireless channels | |
US20030065512A1 (en) | Communication device and a method for transmitting and receiving of natural speech | |
Sun et al. | Speech compression | |
JP3183072B2 (ja) | 音声符号化装置 | |
CN107564536A (zh) | 基于基音延迟子帧组组内差值Markov转移概率特征的AMR基音延迟隐写分析方法 | |
JP2003108188A (ja) | 音声認識装置 | |
Huong et al. | A new vocoder based on AMR 7.4 kbit/s mode in speaker dependent coding system | |
Gómez et al. | Speech-based user interaction for mobile devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |