CN101606196A - 嵌入式静默和背景噪声压缩 - Google Patents
嵌入式静默和背景噪声压缩 Download PDFInfo
- Publication number
- CN101606196A CN101606196A CNA2008800047744A CN200880004774A CN101606196A CN 101606196 A CN101606196 A CN 101606196A CN A2008800047744 A CNA2008800047744 A CN A2008800047744A CN 200880004774 A CN200880004774 A CN 200880004774A CN 101606196 A CN101606196 A CN 101606196A
- Authority
- CN
- China
- Prior art keywords
- arrowband
- signal
- voice
- active voice
- broadband
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010038743 Restlessness Diseases 0.000 title description 140
- 230000006835 compression Effects 0.000 title description 16
- 238000007906 compression Methods 0.000 title description 16
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000001914 filtration Methods 0.000 claims abstract description 30
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract 2
- 230000000694 effects Effects 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 29
- 230000002708 enhancing effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 5
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 16
- 239000000284 extract Substances 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000013213 extrapolation Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Chemical And Physical Treatments For Wood And The Like (AREA)
Abstract
提供了一种由语音编码器用于编码输入语音信号的方法。所述方法包括:接收所述输入语音信号;判定所述输入语音信号包括活动语音信号还是非活动语音信号;对所述非活动语音信号进行低通滤波以生成窄带非活动语音信号;对所述非活动语音信号进行高通滤波以生成高频带非活动语音信号;使用窄带非活动语音编码器来编码所述窄带非活动语音信号以生成已编码窄带非活动语音;由所述窄带非活动语音编码器根据所述窄带非活动语音信号生成低到高辅助信号;使用宽带非活动语音编码器编码所述高频带非活动语音信号,以便根据来自所述窄带非活动语音编码器的所述低到高辅助信号生成已编码宽带非活动语音;以及传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
Description
相关申请
本申请基于2007年2月14日提交的美国临时申请第60/901,191号并要求其优先权,其全部内容在此引入作为参考。
技术领域
本发明一般地涉及语音编码领域,具体地说,涉及嵌入式静默和背景噪声压缩。
背景技术
现代电话系统使用数字语音通信技术。在数字语音通信系统中,语音信号被采样并作为数字信号来传输,与普通老式电话系统(POTS)中的模拟传输相反。数字语音通信系统的实例包括公共交换电话网络(PSTN)、已很好地建立的蜂窝网络,以及新兴的基于网际协议的话音传输(VoIP)网络。在数字语音通信系统中可以使用各种语音压缩(或编码)技术,如ITU-T建议G.723.1或G.729,以便减小传输语音信号所需的带宽。
通过为语音信号的没有实际语音的部分(如当某人倾听其他谈话者并且未说话时存在的静默时段)使用较低比特率编码方案,可以实现进一步的带宽减小。语音信号的包括实际语音的部分称为“活动语音”,并且语音信号的不包含实际语音的部分称为“非活动语音”。通常,非活动语音信号包含接听者位置处由麦克风拾取的周围背景噪声。在非常安静的环境中,此周围噪声将非常低并且非活动语音将被感知为静默,而在嘈杂环境中(例如在机动车中),非活动语音包括环境背景噪声。通常,周围噪声几乎不传达信息,并且因此可以以非常低的比特率来编码和传输。周围噪声的低比特率编码的一种方案仅采用噪声信号的参数表示,如噪声信号的能量(级别)和频谱内容。
另一种用于带宽减小的常见方案(其利用背景噪声的静态特性)是仅发送背景噪声参数的间断更新,而不是发送连续更新。
如果传输的比特流具有嵌入式结构,则也可以在网络中实现带宽减小。嵌入式结构意味着比特流包括核心和增强层。可以仅使用核心比特解码和合成语音,而使用增强层比特将提高解码的语音质量。例如,2006年5月的标题为“G.729-based embedded variable bit-rate coder:An 8-32kbit/sscalable wideband coder bitstream interoperable with G.729”的ITU-T建议G.729.1使用核心窄带层以及若干窄带和宽带增强层,其全部内容在此引入作为参考。
处理非常大量的语音信道的网络中的业务拥塞取决于每个编解码器使用的平均比特率而不是每个编解码器使用的最大比特率。例如,假设这样的语音编解码器,其最大比特率为32Kbps,但是平均比特率为16Kbps。带宽为1600Kbps的网络可以处理约100个话音信道,因为平均而言所有100个信道将仅使用100*16Kbps=1600Kbps。显然,在小概率中,传输所有信道的总体所需比特率可能超过1600Kbps,但是如果该编解码器还采用嵌入式结构,则网络可以通过丢弃多个信道的某些嵌入层来容易地解决此问题。当然,如果网络的规划/运行基于每个信道的最大比特率,在不考虑平均比特率和嵌入式结构的情况下,网络将只能够处理50个信道。
发明内容
根据在此概括地描述的本发明的目的,提供了嵌入式语音编码系统中的静默/背景噪声压缩。在本发明的一个示意性方面中,披露了一种能够生成嵌入式活动语音比特流和嵌入式非活动语音比特流两者的语音编码器。所述语音编码器接收输入语音并且使用话音活动检测器(VAD)来判定所述输入语音是活动语音还是非活动语音。如果所述输入语音是活动语音,则所述语音编码器使用活动语音编码模式来生成活动语音嵌入式比特流,后者包含窄带部分和宽带部分。如果所述输入语音是非活动语音,则所述语音编码器使用非活动语音编码模式来生成非活动语音嵌入式比特流,后者可以包含窄带部分和宽带部分。此外,如果所述输入语音是非活动语音,则所述语音编码器调用其中仅发送静默/背景噪声信息的间断更新的不连续传输(DTX)模式。在解码器侧,接收所述活动和非活动比特流并且根据如所述比特流的大小所指示的比特率类型来调用解码器的不同部分。通过确保平滑地改变带宽来为非活动语音保持带宽连续性,即使非活动语音分组信息指示带宽变化也是如此。
通过进一步参考以下附图和说明书,本发明的这些和其他方面将变得显而易见。所有此类附加的系统、方法、特性以及优点都旨在包括在此说明书内、在本发明的范围之内以及由所附权利要求来保护。
附图说明
在详细查看以下具体说明和附图之后,本发明的特性和优点对于本领域技术人员将变得更加显而易见,这些附图是:
图1示出了根据本发明的一个实施例的G.729.1比特流的嵌入式结构;
图2示出了根据本发明的一个实施例的G.729.1编码器的结构;
图3示出了根据本发明的一个实施例的具有窄带编码的G.729.1编码器的备选操作;
图4示出了根据本发明的一个实施例的G.729.1的静默/背景噪声编码模式;
图5示出了根据本发明的一个实施例的具有嵌入式结构的静默/背景噪声编码器;
图6示出了根据本发明的一个实施例的静默/背景噪声嵌入式比特流;
图7示出了根据本发明的一个实施例的备选静默/背景噪声嵌入式比特流;
图8示出了根据本发明的一个实施例的没有可选层的静默/背景噪声嵌入式比特流;
图9示出了根据本发明的一个实施例的G.729.1的窄带工作模式的窄带VAD;
图10示出了根据本发明的一个实施例的具有窄带VAD的G.729.1的静默/背景噪声编码模式;
图11示出了根据本发明的一个实施例的具有窄带VAD和单独抽取元件的G.729.1的静默/背景噪声编码模式;
图12示出了根据本发明的一个实施例的具有DTX模块的静默/背景噪声编码器;
图13示出了根据本发明的一个实施例的G.729.1解码器的结构;
图14示出了根据本发明的一个实施例的具有静默/背景噪声压缩的G.729.1解码器;
图15示出了根据本发明的一个实施例的具有嵌入式静默/背景噪声压缩的G.729.1解码器;
图16示出了根据本发明的一个实施例的具有嵌入式静默/背景噪声压缩以及共享的上采样-滤波元件的G.729.1解码器;
图17示出了根据本发明的一个实施例的基于比特率的解码器控制流程图操作;
图18示出了根据本发明的一个实施例的基于带宽历史的解码器控制流程图操作;
图19示出了根据本发明的一个实施例的通用化的话音活动检测器;以及
图20示出了具有解码器带宽扩展的窄带静默/背景噪声传输。
具体实施方式
在此可以根据功能块组件和各种处理步骤来描述本发明。应理解的是,可以由任何数量的配置为执行所指定功能的硬件组件和/或软件组件来实现此类功能块。例如,本发明可以采用各种集成电路组件,如存储器元件、数字信号处理元件、逻辑元件等,它们可以在一个或多个微处理器或其他控制设备的控制下执行各种功能。此外,应指出的是,本发明可以采用任何数量的用于数据传输、信令、信号处理和调节、音调生成和检测等的常规技术。在此未详细描述可能对本领域技术人员公知的此类一般技术。
应理解的是,在此示出和描述的特定实施方式只是示意性的并且并非旨在以任何方式限制本发明的范围。实际上,为了简洁,在此可能未详细描述常规的数据传输、信令和信号处理以及通信系统的其他功能和技术方面(以及系统的单个工作组件的组件)。此外,在此包含的各个附图中示出的连接线旨在表示各个元件之间的示意性功能关系和/或物理耦合。应指出的是,实际通信系统中可以存在许多备选或附加的功能关系或物理连接。
在分组网络(如蜂窝或VoIP)中,可以在用户终端(例如,蜂窝手机、软电话、SIP电话或WiFi/WiMax终端)处执行语音信号的编码和解码。在此类应用中,网络服务器仅用于传送包含已编码语音信号信息的分组。分组网络中语音的传输消除了对语音频谱带宽的限制,该限制存在于从POTS模拟传输技术继承的PSTN中。由于语音信息在分组比特流(其提供了原始语音的数字压缩后的表示)中传输,所以此分组比特流既可以表示窄带语音也可以表示宽带语音。麦克风获取语音信号以及耳机或扬声器在最终终端处再现语音信号(作为窄带或宽带表示)仅取决于此类最终终端的能力。例如,在当前的蜂窝电话中,窄带蜂窝电话获得窄带语音的数字表示并使用窄带编解码器(如自适应多速率(AMR)编解码器)经由蜂窝分组网络与其他类似蜂窝电话进行窄带语音通信。类似地,能够使用宽带的蜂窝电话获得语音的宽带表示并使用宽带语音编解码器(如自适应多速率宽带(AMR-WB))经由蜂窝分组网络与其他能够使用宽带的蜂窝电话进行宽带语音通信。显然,由宽带语音编解码器(如AMR-WB)提供的较宽频谱内容较之窄带语音编解码器(如AMR)将改进语音的质量、自然性以及可识度。
最新采纳的ITU-T建议G.729.1针对分组网络并且采用嵌入式结构以实现窄带和宽带语音压缩。所述嵌入式结构使用用于语音的基本质量传输的“核心”语音编解码器以及借助每个附加层改进语音质量的附加编码层。G.729.1的核心基于ITU-T建议G.729,后者以8Kbps编码窄带语音。此核心非常类似于G.729,具有与G.729比特流兼容的比特流。比特率兼容性意味着由G.729编码器生成的比特流可以被G.729.1解码器解码并且由G.729.1编码器生成的比特流可以被G.729解码器解码,两者都没有任何质量下降。
在8Kbps的核心之上的G.729.1的第一增强层是速率为12Kbps的窄带层。其次的增强层是十(10)个从14Kbps到32Kbps的宽带层。图1示出了具有核心以及11个附加层的G.729.1嵌入式比特流的结构,其中块101表示核心8Kbps层,块102表示12Kbps的第一窄带增强层,并且块103-112表示十(10)个宽带增强层,分别从14Kbps到32Kbps,步长为2Kbps。
G.729.1的编码器生成包括所有12个层的比特流。G.729.1的解码器能够解码任何比特流,从8Kbps核心编解码器的比特流开始,直到32Kbps的包括所有层的比特流。显然,在接收较高的层时,解码器将产生更佳质量的语音。解码器还允许从一个帧到下一个帧改变比特率,且几乎没有由于切换人工因素造成的质量下降。G.729.1的此嵌入式结构使得网络能够解决业务拥塞问题而无需操纵或操作比特流的实际内容。通过丢弃比特流的某些嵌入层部分并且仅传送比特流的其余嵌入层部分来实现拥塞控制。
图2示出了根据本发明的一个实施例的G.729.1编码器的结构。以16KHz采样输入语音201并使其通过低通滤波器(LPF)202和高通滤波器(HPF)210,在分别由抽取元件203和211下采样后生成窄带语音204和基带处的高频带语音212。注意,以8KHz采样速率来采样窄带语音204和基带处的高频带语音212两者。窄带语音204然后被CELP编码器205编码以生成窄带比特流206。窄带比特流被CELP解码器207解码以生成已解码窄带语音208,从窄带语音204减去已解码窄带语音208以生成窄带残差编码信号209。窄带残差编码信号和基带处的高频带语音212被时域混叠消除(TDAC)编码器213编码以生成宽带比特流214。(对于编码高频带信号212的模块使用了术语“TDAC编码器”,尽管对于14Kbps层,所使用的技术通常称为时域带宽扩展(TD-BWE)。)窄带比特流204包括8Kbps层101和12Kbps层102,而宽带比特流214包括层103-112,分别从14Kbps到32Kbps。为了简化陈述,图2未示出生成14Kbps层的G.729.1的操作的特殊TD-BWE模式。还未示出封装元件,其接收窄带比特流206和宽带比特流214以产生图1中示出的嵌入式比特流结构。例如,在标题为“RTP Payload Format for the G.729.1 Audio Codec”的互联网工程任务组(IETF)请求评注4749号(RFC4749)中描述了此类封装元件,其全部内容在此引入作为参考。
图3中示出了G.729.1编码器的备选操作模式,其中仅执行窄带编码。将现在以8KHz采样的输入语音301输入CELP编码器305,后者生成窄带比特流306。类似于图2,窄带比特流306包括如图1所示的8Kbps层101和12Kbps层102。
图4提供了根据本发明的一个实施例的具有静默/背景噪声编码模式的G.729.1的一个实施例。为了简洁,将图2中的若干元件合并成图4中的单个元件。例如,LPF 202和抽取元件203被合并成LP-抽取元件403,并且HPF 210和抽取元件211被合并成HP-抽取元件410。类似地,图2中的CELP编码器205、CELP解码器207以及加法器元件被合并成CELP编码器405。窄带语音404类似于窄带语音204,高频带语音412类似于212,TDAC编码器413与213相同,窄带残差编码信号409与209相同,窄带比特流406与206相同,并且宽带比特流414与214相同。图4与图2的主要不同是增加了静默/背景噪声编码器,其由宽带语音活动检测器(WB-VAD)模块416控制,模块416根据本发明的一个实施例接收输入语音401并且操作开关402。使用术语WB-VAD是因为输入语音401是以16KHz采样的宽带语音。如果WB-VAD模块416检测到实际语音(“活动语音”),则输入语音401通过开关402被导向到典型的G.729.1编码器,后者在此被称为“活动语音编码器”。如果WB-VAD模块416未检测到实际语音,其意味着输入语音401是静默或背景噪声(“非活动语音”),则输入语音401被导向到静默/背景噪声编码器416,后者生成静默/背景噪声比特流417。图4中未示出比特流多路复用和封装模块,后者基本上类似于由诸如G.729的附件B或G.723.1的附件A之类的其他静默/背景噪声压缩算法使用的多路复用和封装模块并且是本领域技术人员公知的。
可以使用许多方法来使静默/背景噪声比特流417代表语音的非活动部分。在一种方法中,所述比特流可以在没有任何频带分离和/或增强层的情况下代表非活动语音信号。此方法将不允许网络元件操纵静默/背景噪声比特流用于拥塞控制,但是这可能不是严重的缺陷,因为传输静默/背景噪声比特流所需的带宽非常小。但是,主要的缺点将是使解码器实现带宽控制功能作为静默/背景噪声解码器的一部分以在活动语音信号与非活动语音信号之间保持带宽兼容性。图5描述了本发明的一个实施例,其包括静默/背景噪声(非活动语音)编码器,该编码器具有适合于G.729.1的操作的嵌入式结构,其解决了这些问题。输入非活动语音501被馈送到LP-抽取元件503和HP-抽取元件510以分别生成窄带非活动语音504和基带处的高频带非活动语音512。窄带静默/背景噪声编码器505接收窄带非活动语音504并且产生窄带静默/背景噪声比特流506。由于静默/背景噪声编码器的G.729.1最小限度操作必须符合G.729的附件B,所以窄带静默/背景噪声比特流506必须至少部分地符合G.729的附件B。窄带静默/背景噪声编码器505可以与G.729的附件B中描述的窄带静默/背景噪声编码器相同,但也可以不同,只要其产生与G.729的附件B(至少部分)符合的比特流即可。窄带静默/背景噪声编码器505还可以产生低到高辅助信号509。低到高辅助信号509包含帮助宽带静默/背景噪声编码器513编码基带中的高频带非活动语音512的信息。所述信息可以是窄带重构的静默/背景噪声自身或诸如能量(级别)或频谱表示之类的参数。宽带静默/背景噪声编码器513同时接收基带中的高频带非活动语音512和辅助信号509并产生宽带静默/背景噪声比特流514。宽带静默/背景噪声编码器513还可以产生高到低辅助信号508,后者包含帮助窄带静默/背景噪声编码器505编码窄带语音504的信息。类似于图4,图5未示出本领域技术人员公知的比特流多路复用和封装模块。
图6提供了根据本发明的一个实施例的可以由图5的静默/背景噪声编码器产生的静默/背景噪声嵌入式比特流的描述。静默/背景噪声嵌入式比特流600包括:0.8Kbps的G.729附件B(G.729B)比特流601、可选的嵌入式窄带增强比特流602、宽带基础层比特流603,以及可选的嵌入式宽带增强比特流604。相对于图5,窄带静默/背景噪声比特流506包括G.729B比特流601和可选的窄带嵌入式比特流602。此外,图5中的宽带静默/背景噪声比特流514包括宽带基础层比特流603和可选的宽带嵌入式比特流604。G.729B比特流601的结构由G.729附件B定义。其包括10个用于表示频谱的位和5个用于表示能量(级别)的位。可选的窄带嵌入式比特流602包括频谱和能量的改进量化表示(例如,频谱表示的附加码本级或能量量化的改进的时间分辨率)、随机种子信息,或实际量化波形信息。宽带基础层比特流603包含高频带静默/背景噪声信号的表示的量化信息。该信息可以包括能量信息以及频谱信息,格式为线性预测编码(LPC)格式、子带格式,或其他线性变换系数,如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。宽带基础层比特流603还可以例如包含随机种子信息或实际量化波形信息。可选的宽带嵌入式比特流604可以包括宽带基础层比特流603中未包括的附加信息,或包括宽带基础层比特流603中包括的相同信息的改进的分辨率。
图7提供了根据本发明的一个实施例的静默/背景噪声嵌入式比特流的一个备选实施例。在此备选实施例中,位字段的顺序不同于图6示出的实施例,但是各位中的实际信息在两个实施例中是相同的。类似于图6,静默/背景噪声嵌入式比特流700的第一部分是G.729B比特流701,但是第二部分是宽带基础层比特流703,随后是可选的嵌入式窄带增强比特流702,然后是可选的嵌入式宽带增强比特流704。
图6中的实施例与图7中的备选实施例的主要不同是网络的比特流截断的影响。对于图6中描述的实施例,网络的比特流截断将除去所有宽带字段,然后才除去任何窄带字段。另一方面,对于图7中描述的备选实施例,比特流截断将除去宽带和窄带两者的附加嵌入式增强字段,然后才除去任何基础层字段(窄带或宽带)。
如果未将可选的增强层结合到G.729.1的静默/背景噪声嵌入式比特流中,则比特流600和700变为相同。图8示出了此类比特流,其仅包括G.729B比特流801和宽带基础层比特流803。尽管此比特流不包括可选的嵌入式层,但是其仍保持嵌入式结构,其中网络元件可以除去宽带基础层比特流803,同时保留G.729B比特流801。在另一选择中,G.729B比特流801可以是非活动语音的编码器传输的唯一比特流,即使在活动语音编码器传输了包括窄带和宽带信息两者的嵌入式比特流时也是如此。在此情况下,如果解码器接收到活动语音的完整嵌入式比特流,但是仅接收到非活动语音的窄带比特流,则其可以执行合成后的非活动语音的带宽扩展,以便针对合成后的输出信号实现平滑的感知质量。
根据图4运行静默/背景噪声编码模式的主要问题之一在于到WB-VAD 416的输入是宽带输入语音401。因此,如果希望仅使用G.279.1的窄带操作模式(如图3所述),但是具有静默/背景噪声编码模式,则应使用可以针对窄带信号进行操作的另一VAD。
一种可能的解决方案是针对G.279.1的特定窄带操作模式使用特殊的窄带VAD(NB-VAD)。图9描述了根据本发明的一个实施例的此类解决方案,其中窄带输入语音901是到控制开关902的NB-VAD 916的输入。无论NB-VAD 916检测到活动语音还是非活动语音,输入语音901都分别被路由到CELP编码器905或窄带静默/背景噪声编码器916。CELP编码器905生成窄带比特流906并且窄带静默/背景噪声编码器916生成窄带静默/背景噪声比特流917。G.729.1的此模式的总体操作非常类似于G.729的附件B,并且窄带静默/背景噪声比特流917应部分地或完全地兼容G.729的附件B。此方案的主要缺点是需要将WB-VAD 416和NB-VAD 916都结合在G.729.1静默/背景噪声压缩模式的标准和代码中。
在频谱的窄带部分(最高到4KHz)以及在频谱的高频带部分(从4KHz到7KHz)中,活动语音对非活动语音的特征和特性是明显的。此外,多数能量和其他典型语音特性(如谐波结构)更多地支配窄带部分而不是高频带部分。因此,可以完全使用语音的窄带部分执行语音活动检测。图10示出了根据本发明的一个实施例的具有窄带VAD的G.729.1的静默/背景噪声编码模式。LP-抽取1002和HP-抽取1010元件接收输入语音1001以分别生成窄带语音1003和基带处的高频带语音1012。窄带VAD 1004使用窄带语音1003来生成控制开关1008的话音活动检测信号1005。如果话音活动信号1005指示活动语音,则窄带信号1003被路由到CELP编码器1006并且基带中的高频带信号1012被路由到TDAC编码器1016。CELP编码器1006生成窄带比特流1007和窄带残差编码信号1009。窄带残差编码信号1009用作到生成宽带比特流1014的TDAC编码器1016的第二输入。如果话音活动信号1005指示非活动语音,则窄带信号1003被路由到窄带静默/背景噪声编码器1017并且基带中的高频带信号1012被路由到宽带静默/背景噪声编码器1020。窄带静默/背景噪声编码器1017生成窄带静默/背景噪声比特流1016并且宽带静默/背景噪声编码器1020生成宽带静默/背景噪声比特流1019。双向辅助信号1018代表在窄带静默/背景噪声编码器1017与宽带静默/背景噪声编码器1020之间交换的辅助信息。
图10中示出的系统的基础假设是分别由LP-抽取1002和HP-抽取1010元件生成的窄带信号1003和高频带信号1012适合于活动语音编码和非活动语音编码两者。图11描述了与图10中提供的系统类似的系统,但是使用不同的LP-抽取和HP-抽取元件用于活动语音编码和非活动语音编码的语音的预处理。例如,如果活动语音编码器的截止频率不同于非活动语音编码器的截止频率,则会出现这种情况。活动语音LP-抽取元件1003接收输入语音1101以产生窄带语音1109。窄带VAD 1105使用窄带语音1109来生成控制开关1113的话音活动检测信号1102。如果话音活动信号1102指示活动语音,则输入信号1101被路由到活动语音LP-抽取元件1103和活动语音HP-抽取元件1108以分别生成活动语音窄带信号1109和活动语音基带中的高频带信号1110。如果话音活动信号1102指示非活动语音,则输入信号1101被路由到非活动语音LP-抽取元件1113和非活动语音HP-抽取元件1118以生成非活动语音窄带信号1115和非活动语音基带中的高频带信号1120。应指出的是,将开关1113示为作用于输入信号1101只是为了图11的简洁和简化。实际上,输入语音1101可以被连续馈送到所有四个抽取单元(1103、1108、1113以及1118)并且针对四个输出信号(1109、1110、1115以及1120)执行实际切换。NB-VAD 1105可以使用活动语音窄带信号1109(如图11所示),也可以使用非活动语音窄带信号1115。类似于图10,活动语音窄带信号1109被路由到CELP编码器1106,后者生成窄带比特流1107和窄带残差编码信号1111。TDAC编码器1116接收活动语音基带中的高频带信号1110和窄带残差编码信号1111以生成宽带比特流1112。此外,非活动语音窄带信号1115被路由到生成窄带静默/背景噪声比特流1117的窄带静默/背景噪声编码器1119。宽带静默/背景噪声编码器1123接收非活动语音高频带信号1120并且生成宽带静默/背景噪声编码器1122。双向辅助信号1121代表在窄带静默/背景噪声编码器1119与宽带静默/背景噪声编码器1123之间交换的信息。
由于非活动语音(其包括静默或背景噪声)保存的信息远少于活动语音,所以表示非活动语音所需的位数远小于用于描述活动语音的位数。例如,G.729使用80个位描述10毫秒的活动语音帧,但是仅使用16个位描述10毫秒的非活动语音帧。此减少的位数有助于减小传输比特流所需的带宽。对于某些非活动语音帧,如果根本不发送信息,则进一步的减小是可能的。此方法被称为不连续传输(DTX)并且其中不传输信息的帧被简单地称为非传输(NT)帧。如果NT帧中的输入语音特征与先前发送的信息(其可以是过去的若干帧)相比没有显著变化,则这是可能的。在此类情况下,解码器可以根据先前接收的信息生成NT帧的输出非活动语音信号。图12示出了根据本发明的一个实施例的具有DTX模块的静默/背景噪声编码器。该静默/背景噪声编码器的结构和操作非常类似于作为图11的一部分描述的静默/背景噪声编码器。输入非活动语音1201被路由到非活动语音LP-抽取1203和非活动语音HP-抽取1216元件以分别生成窄带非活动语音1205和基带中的高频带非活动语音1218。此外,窄带非活动语音1205被路由到窄带静默/背景噪声编码器1206,后者生成窄带静默/背景噪声比特流1207。宽带静默/背景噪声编码器1220接收基带中的高频带非活动语音1218并且生成宽带静默/背景噪声比特流1222。双向辅助信号1214代表在窄带静默/背景噪声编码器1206与宽带静默/背景噪声编码器1220之间交换的信息。主要不同在于引入了生成DTX控制信号1213的DTX元件1212。窄带静默/背景噪声编码器1206和宽带静默/背景噪声编码器1220接收DTX控制信号1213,后者指示何时发送窄带静默/背景噪声比特流1207和宽带静默/背景噪声比特流1222。图12中未示出的更高级的DTX元件可以产生指示何时发送窄带静默/背景噪声比特流1207的窄带DTX控制信号,以及产生指示何时发送宽带静默/背景噪声比特流1222的单独的宽带DTX控制信号。在此实例实施例中,DTX元件1212可以使用若干输入,包括输入非活动语音1201、窄带非活动语音1205、基带中的高频带非活动语音1218以及时钟1210。DTX元件1212还可以使用由VAD模块(图11中示出,但是图12中省略)计算的语音参数,以及使用由系统中的任何编码元件(活动语音编码元件或者非活动语音编码元件)计算的参数(为了简单和清晰,图12省略了这些参数路径)。DTX元件1212中实现的DTX算法决定何时需要静默/背景信息的更新。可以例如基于任何DTX输入参数(例如,输入非活动语音1201的电平)或基于时钟1210测量的时间间隔来做出所述决定。针对静默/背景信息的更新发送的比特流被称为静默插入描述(SID)。
DTX方法还可以用于图4中示出的非嵌入式静默压缩。类似地,DTX方法还可以用于图9中示出的G.729.1的窄带操作模式。用于封装比特流并从编码器侧向解码器侧传输比特流以及用于由解码器侧接收和解封装比特流的通信系统是本领域技术人员公知的并且因此不在此进行详细描述。
图13示出了G.729.1的典型解码器,其解码图2中呈现的比特流。CELP解码器1303接收窄带比特流1301并且TDAC解码器1316接收宽带比特流1314。TDAC解码器1316生成基带处的高频带信号1317以及生成由CELP解码器1303接收的重构加权差分信号1312。CELP解码器1303生成窄带信号1304。上采样元件1305和低通滤波器1307处理窄带信号1304以生成窄带重构语音1309。上采样元件1318和高通滤波器1320处理基带处的高频带信号1317以生成高频带重构语音1322。将窄带重构语音1309和高频带重构语音1322相加以生成输出重构语音1324。类似于以上对编码器的讨论,为解码宽带比特流1314的模块使用术语“TDAC解码器”,尽管对于14Kbps层,使用的技术通常称为时域带宽扩展(TD-BWE)。
图14提供了根据本发明的一个实施例的具有静默/背景噪声压缩的G.729.1解码器的描述,该解码器适于接收和解码具有如图4所示的静默/背景噪声压缩的G.729.1编码器生成的比特流。图14的顶部(其描述了活动语音解码器)与图13相同且上采样和滤波元件合二为一。CELP解码器1403接收窄带比特流1401并且TDAC解码器1416接收宽带比特流1414。TDAC解码器1416生成基带处的高频带活动语音1417以及生成由CELP解码器1403接收的重构加权差分信号1412。CELP解码器1403生成窄带活动语音1404。上采样-LP元件1405处理窄带活动语音1404以生成窄带重构活动语音1409。上采样-HP元件1418处理基带处的高频带活动语音1417以生成高频带重构活动语音1422。将窄带重构活动语音1409和高频带重构活动语音1422相加以生成重构活动语音1424。图14的底部提供了静默/背景噪声(非活动语音)解码的描述。静默/背景噪声比特流1431被静默/背景噪声解码器1433接收,后者生成宽带重构非活动语音1434。由于活动语音解码器既可以生成宽带信号也可以生成窄带信号(取决于网络保留的嵌入层的数量),所以确保在最终重构输出语音1429中不会听到带宽切换造成的感知人工因素很重要。因此,宽带重构非活动语音1434被馈送到带宽(BW)自适应模块1436,后者通过将其带宽与重构活动语音1429的带宽相匹配来生成重构非活动语音1438。可以通过比特流解封装模块(未示出)或通过例如在CELP解码器1403和TDAC解码器1416的操作内可从活动语音解码器提供的信息,将活动语音带宽信息提供给BW自适应模块1436。还可以在重构活动语音1424上直接测量活动语音带宽信息。在最后的步骤,根据VAD信息1426,该信息指示是接收到活动比特流(包括窄带比特流1401和宽带比特流1414)还是静默/背景噪声比特流,开关1427分别在重构活动语音1424和重构非活动语音1438之间进行选择,以便形成重构输出语音1429。
图15提供了根据本发明的一个实施例的具有嵌入式静默/背景噪声压缩的G.729.1解码器的描述,该解码器适于接收和解码具有例如如图10和11所示的嵌入式静默/背景噪声压缩的G.729.1编码器生成的比特流。图15的顶部(其描述了活动语音解码器)与图13和14相同且上采样和滤波元件合二为一。活动语音CELP解码器1503接收窄带比特流1501并且活动语音TDAC解码器1516接收宽带比特流1514。活动语音TDAC解码器1516生成基带处的高频带活动语音1517以及生成由活动语音CELP解码器1503接收的活动语音重构加权差分信号1512。活动语音CELP解码器1503生成窄带活动语音1504。活动语音上采样-LP元件1505处理窄带活动语音1504以生成窄带重构活动语音1509。活动语音上采样-HP元件1518处理基带处的高频带活动语音1517以生成高频带重构活动语音1522。将窄带重构活动语音1509和高频带重构活动语音1522相加以生成重构活动语音1524。图15的底部描述了非活动语音解码器。窄带静默/背景噪声解码器1533接收窄带静默/背景噪声比特流1531并且宽带静默/背景噪声解码器1536接收静默/背景噪声宽带比特流1534。窄带静默/背景噪声解码器1533生成静默/背景噪声窄带信号1534并且宽带静默/背景噪声解码器1536生成静默/背景噪声基带处的高频带信号1537。双向辅助信号1532代表在窄带静默/背景噪声解码器1533与宽带静默/背景噪声解码器1536之间交换的信息。静默/背景噪声上采样-LP元件1535处理静默/背景噪声窄带信号1534以生成静默/背景噪声窄带重构信号1539。静默/背景噪声上采样-HP元件1538处理静默/背景噪声基带处的高频带信号1537以生成静默/背景噪声高频带重构信号1542。将静默/背景噪声窄带重构信号1539与静默/背景噪声高频带重构信号1542相加以生成重构非活动语音1544。根据VAD信息1526,该信息指示是接收到活动比特流(包括窄带比特流1501和宽带比特流1514)还是非活动比特流(包括窄带静默/背景噪声比特流1531和静默/背景噪声宽带比特流1534),开关1527分别在重构活动语音1524和重构非活动语音1544之间进行选择,以便形成重构输出语音1529。显然,切换的顺序和相加的顺序是可互换的,并且另一实施例可以是一个开关在窄带信号之间进行选择而另一个开关在宽带信号之间进行选择,同时信号相加元件组合开关的输出。
在图15中,假设需要不同的处理(例如,不同的截止频率),则活动语音和非活动语音的上采样-LP和上采样-HP元件是不同的。如果在活动语音和非活动语音之间,上采样-LP和上采样-HP元件中的处理是相同的,则可以为两种类型的语音使用相同的元件。图16描述了具有嵌入式静默/背景噪声压缩的G.729.1解码器,其中在活动语音和非活动语音之间共享上采样-LP和上采样-HP元件。活动语音CELP解码器1603接收窄带比特流1601并且活动语音TDAC解码器1616接收宽带比特流1614。活动语音TDAC解码器1616生成基带处的高频带活动语音1617以及生成由活动语音CELP解码器1603接收的活动语音重构加权差分信号1612。活动语音CELP解码器1603生成窄带活动语音1604。窄带静默/背景噪声解码器1633接收窄带静默/背景噪声比特流1631并且宽带静默/背景噪声解码器1636接收静默/背景噪声宽带比特流1635。窄带静默/背景噪声解码器1633生成静默/背景噪声窄带信号1634并且宽带静默/背景噪声解码器1636生成静默/背景噪声基带处的高频带信号1637。双向辅助信号1632代表在窄带静默/背景噪声解码器1633与宽带静默/背景噪声解码器1636之间交换的信息。根据VAD信息1641,开关1619将窄带活动语音1604或静默/背景噪声窄带信号1634导向到上采样-LP元件1642,后者产生窄带输出信号1643。类似地,根据VAD信息1641,开关1640将基带处的高频带活动语音1617或静默/背景噪声基带处的高频带信号1637导向到上采样-HP元件1644,后者产生高频带输出信号1645。将窄带输出信号1643和高频带输出信号1645相加以产生重构输出语音1646。
图14、15和16中描述的静默/背景噪声解码器可以备选地结合根据本发明的备选实施例的DTX解码算法,其中从先前接收的参数外推用于生成重构非活动语音的参数。外推过程对于本领域技术人员是公知的并且不在此进行详细描述。但是,如果编码器针对窄带非活动语音使用一种DTX模式并且编码器针对高频带非活动语音使用另一种DTX模式,则窄带静默/背景噪声解码器处的更新和外推将不同于宽带静默/背景噪声解码器处的更新和外推。
根据所接收的比特流的类型,具有静默/背景噪声压缩的G.729.1解码器以多种不同的模式工作。所接收的比特流中的比特数(大小)确定了接收的嵌入式层的结构(即,比特率),但是所接收的比特流中的比特数还形成解码器处的VAD信息。例如,如果G.729.1分组(其代表20毫秒的语音)拥有640比特,则解码器将确定其是32Kbps的活动语音分组并且将调用完整的活动语音宽带解码算法。另一方面,如果该分组拥有240比特来代表20毫秒的语音,则解码器将确定其是12Kbps的活动语音分组并且将仅调用活动语音窄带解码算法。对于带有静默/背景压缩的G.729.1,如果分组的大小为32比特,则解码器将确定其是仅带有窄带信息的非活动语音分组并且将调用非活动语音窄带解码算法,但是如果分组的大小为0比特(即,没有到达的分组),则其将被视为NT帧并且将使用适当的外推算法。比特流大小的变化是由语音编码器(其根据输入信号使用活动或非活动语音编码)或网络元件(其通过截断某些嵌入式层来减小拥塞)造成的。图17提供了基于比特率(如接收的分组中的比特流的大小所确定的)的解码器控制操作的流程图。假设活动语音比特流的结构如图1所示并且非活动语音比特流的结构如图8所示。接收模块1700接收比特流。活动/非活动语音比较器1706首先测试比特流大小,如果比特率大于或等于8Kbps(160比特的大小),则比较器1706确定其为活动语音比特流,否则,确定其为非活动语音比特流。如果比特流为活动语音比特流,则活动语音窄带/宽带比较器1708进一步比较其大小,比较器1708确定是应由模块1716仅调用窄带解码器,还是应由模块1718调用完整的宽带解码器。如果比较器1706指示非活动语音比特流,则NT/SID比较器1704检查比特流的大小是等于0(NT帧)还是大于0(SID帧)。如果比特流是SID帧,则非活动语音窄带/宽带比较器1702进一步测试比特流的大小,以便确定SID信息是包括完整的宽带信息还是仅包括窄带信息,以及是应由模块1712调用完整的非活动语音宽带解码器还是应由模块1710仅调用非活动窄带解码器。如果比特流的大小为0,即没有接收到信息,则由模块1714调用非活动语音外推解码器。应指出的是,比较器的顺序对于算法的操作并不重要并且仅作为示意性实施例提供比较操作的所述顺序。
还可能的是网络元件将截断活动语音分组的宽带嵌入式层,同时保持非活动语音分组的宽带嵌入式层不变。这是因为除去活动语音分组的宽带嵌入式层中的大量比特可以显著有助于拥塞减小,而截断非活动语音分组的宽带嵌入式层将只是少量地有助于拥塞减小。因此,非活动语音解码器的操作还依赖于活动语音解码器的操作历史。具体地说,如果当前接收的分组中的宽带信息不同于先前接收的分组,则需要特别注意。图18提供了示出在非活动语音解码中使用先前和当前带宽信息的算法的步骤的流程图。决策模块1800测试先前的比特流信息是否为宽带。如果先前比特流为宽带,则决策模块1804测试当前非活动语音比特流。如果当前非活动语音比特流为宽带,则调用非活动语音宽带解码器。如果当前非活动语音比特流为窄带,则执行宽带扩展以便避免输出静默/背景噪声信号上的突然带宽变化。此外,如果对于预定数量的分组,接收的带宽保持窄带,则可以执行适度的宽带减小。如果决策模块1800确定先前比特流为窄带,则决策模块1802测试当前非活动语音比特流。如果非活动语音比特流为窄带,则调用非活动语音窄带非活动语音解码器。如果当前非活动语音比特流为宽带,则截断非活动语音比特流的宽带部分并且调用窄带非活动语音解码器,避免输出静默/背景噪声信号上的突然带宽变化。此外,如果对于预定数量的分组,接收的带宽保持宽带,则可以执行适度的宽带增加。应指出的是,非活动语音外推解码器(尽管未在图18中隐含地指定)被视为非活动语音解码器的一部分并且始终遵循先前接收的带宽。
图4、9、10和11中示出的VAD模块区分活动语音和非活动语音,后者被定义为静默或周围背景噪声。许多当前通信应用除话音信号外还使用音乐信号,如在中断时的音乐中或在个性化回铃音中。音乐信号既不是活动语音也不是非活动语音,但是如果为音乐信号的片段调用非活动语音编码器,则会严重降低音乐信号的质量。因此,设计为处理音乐信号的通信系统中的VAD检测音乐信号并且提供音乐检测指示很重要。音乐信号的检测和处理在使用宽带语音的语音通信系统中甚至更加重要,因为针对音乐信号的活动语音编解码器的内在质量相对较高,并且因此由针对音乐信号使用非活动语音编解码器导致的质量下降可能具有较强的感知影响。图19示出了接收输入语音1902的通用化的话音活动检测器1901。输入语音1902被馈送到活动/非活动语音检测器1905(其类似于图4、9、10和11中提供的VAD模块)和馈送到音乐检测器1906。活动/非活动语音检测器1905生成活动/非活动话音指示1908并且音乐检测器1906生成音乐指示1909。可以以多种方式使用音乐指示。其主要目的是避免使用非活动语音编码器并且对于该任务,可以通过忽略不正确的非活动语音决策来将其与活动/非活动语音指示符相结合。其还可以控制专用或标准的噪声抑制算法(未示出),后者在输入语音到达编码器之前预处理输入语音。音乐指示还可以控制活动语音编码器的操作,例如其音高轮廓线平滑算法或其他模块。
网络截断非活动语音的宽带增强层可能需要解码器扩展带宽以维持活动语音片段与非活动语音片段之间的带宽连续性。类似地,还可以使编码器仅发送窄带信息以及使解码器在活动语音是宽带语音的情况下执行宽带扩展。图20示出了非活动语音编码器2000,其接收输入非活动语音2002并将静默/背景噪声比特流2006传输到非活动语音解码器2001,后者生成重构非活动语音2024。注意,输入非活动语音2002和重构非活动语音2024都是以16KHz采样的宽带信号。LP-抽取元件2003接收输入非活动语音2002并且生成非活动语音窄带信号2004,后者被窄带静默/背景噪声编码器2005接收以生成窄带静默/背景噪声比特流2006。窄带静默/背景噪声比特流2006被窄带静默/背景噪声解码器2007接收以生成窄带非活动语音2009和辅助信号2014。辅助信号2014可以包括能量和频谱参数以及窄带非活动语音2009本身。宽带扩展模块2016使用辅助信号2014来生成基带中的高频带非活动语音2018。所述生成可以使用频谱扩展,其应用于具有能量轮廓线匹配和平滑的宽带随机激励。上采样-LP 2010接收窄带非活动语音2009并且生成低频带输出非活动语音2012。上采样-HP 2020接收基带中的高频带非活动语音2018并且生成高频带输出非活动语音2022。将低频带输出非活动语音2012和高频带输出非活动语音2022相加以产生重构非活动语音2024。
以上提供的方法和系统可以存在于软件、硬件或器件上的固件中,后者可以在微处理器、数字信号处理器、专用集成电路、现场可编程门阵列(FPGA)或它们的任意组合中实现而不脱离本发明的精神。此外,本发明可以体现在其他特定形式中而不脱离其精神或本质特性。所述实施例在所有方面都将被视为只是示例性的而非限制性的。
权利要求书(按照条约第19条的修改)
1.一种由语音编码器用于编码输入语音信号的方法,所述方法包括:
接收所述输入语音信号;
判定所述输入语音信号包括活动语音信号还是非活动语音信号;
对所述非活动语音信号进行低通滤波以生成窄带非活动语音信号;
对所述非活动语音信号进行高通滤波以生成高频带非活动语音信号;
使用窄带非活动语音编码器来编码所述窄带非活动语音信号以生成已编码窄带非活动语音;
由所述窄带非活动语音编码器根据所述窄带非活动语音信号生成第一辅助信号;
使用宽带非活动语音编码器编码所述高频带非活动语音信号,以便根据来自所述窄带非活动语音编码器的所述第一辅助信号生成已编码宽带非活动语音;
传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
2.根据权利要求1的方法,还包括:
由所述宽带非活动语音编码器根据所述高频带非活动语音信号生成第二辅助信号;
其中所述窄带非活动语音编码器根据来自所述宽带非活动语音编码器的所述第二辅助信号编码所述窄带非活动语音信号。
3.根据权利要求1的方法,其中所述传输包括不连续传输(DTX)模式。
4.一种由语音编码器用于编码输入语音信号的方法,所述方法包括:
接收所述输入语音信号;
判定所述输入语音信号包括活动语音信号还是非活动语音信号;
对所述非活动语音信号进行低通滤波以生成窄带非活动语音信号;
对所述非活动语音信号进行高通滤波以生成高频带非活动语音信号;
根据ITU-T G.729附件B建议来编码所述窄带非活动语音信号以生成G.729B已编码窄带非活动语音;
编码所述高频带非活动语音信号以生成已编码宽带非活动语音;
作为G.729B比特流来传输所述G.729B已编码窄带非活动语音;以及
在所述G.729B比特流之后作为宽带基础层比特流来传输所述已编码宽带非活动语音。
5.根据权利要求4的方法,还包括:
编码所述窄带非活动语音信号以生成增强的窄带基础层比特流;
在所述宽带基础层比特流之后传输所述增强的窄带基础层比特流。
6.根据权利要求5的方法,还包括:
编码所述高频带非活动语音信号以生成增强的宽带基础层比特流;
在所述增强的窄带基础层比特流之后传输所述增强的宽带基础层比特流。
7.根据权利要求4的方法,还包括:
编码所述高频带非活动语音信号以生成增强的宽带基础层比特流;
在所述宽带基础层比特流之后传输所述宽带窄带基础层比特流。
8.根据权利要求7的方法,还包括:
编码所述窄带非活动语音信号以生成增强的窄带基础层比特流;
在所述增强的宽带基础层比特流之后传输所述增强的窄带基础层比特流。
9.一种由语音解码器用于解码已解码语音信号的方法,所述方法包括:
接收所述已解码语音信号;
判定所述已解码语音信号包括活动已解码语音信号还是非活动已解码语音信号;
使用窄带解码器和宽带解码器将所述活动已解码语音信号解码为嵌入的比特流以生成窄带活动语音参数和宽带活动语音参数;
将所述非活动已解码语音信号解码为窄带比特流以生成窄带非活动语音参数;
对窄带非活动语音参数应用带宽扩展,以便使用所述窄带活动语音参数和所述宽带活动语音参数来生成宽带非活动语音参数。
10.一种由语音编码器用于编码输入语音信号的方法,所述方法包括:
接收所述输入语音信号;
对所述语音信号进行低通滤波以生成窄带语音信号;
对所述语音信号进行高通滤波以生成高频带语音信号;
判定所述窄带输入语音信号包括活动语音信号还是非活动语音信号;
如果判定步骤判定所述窄带输入语音信号包括所述非活动语音信号,则使用窄带非活动语音编码器编码所述窄带语音信号以生成已编码窄带非活动语音;
如果判定步骤判定所述窄带输入语音信号包括所述非活动语音信号,则使用宽带非活动语音编码器编码所述高频带语音信号以生成已编码宽带非活动语音;
传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
11.根据权利要求10的方法,还包括:
由所述宽带非活动语音编码器根据所述高频带语音信号生成第二辅助信号;
其中所述窄带非活动语音编码器根据来自所述宽带非活动语音编码器的所述第二辅助信号编码所述窄带语音信号。
12.根据权利要求10的方法,还包括:
由所述窄带非活动语音编码器根据所述窄带语音信号生成第一辅助信号;
其中所述宽带非活动语音编码器根据来自所述窄带非活动语音编码器的所述第一辅助信号编码所述宽带语音信号。
13.根据权利要求10的方法,其中所述活动语音信号的低通滤波不同于所述非活动语音信号的低通滤波,并且所述活动语音信号的高通滤波不同于所述非活动语音信号的高通滤波。
14.根据权利要求10的方法,其中所述传输包括不连续传输(DTX)模式。
15.一种适于编码输入语音信号的语音编码器,所述语音编码器包括:
接收器,配置为接收所述输入语音信号;
语音活动检测器,配置为判定所述输入语音信号包括活动语音信号还是非活动语音信号;
低通滤波器,用于对所述非活动语音信号进行低通滤波以生成窄带非活动语音信号;
高通滤波器,用于对所述非活动语音信号进行高通滤波以生成高频带非活动语音信号;
窄带非活动语音编码器,配置为编码所述窄带非活动语音信号以生成已编码窄带非活动语音,并且所述窄带非活动语音编码器还配置为根据所述窄带非活动语音信号生成第一辅助信号;
宽带非活动语音编码器,配置为编码所述高频带非活动语音信号,以便根据来自所述窄带非活动语音编码器的所述第一辅助信号生成已编码宽带非活动语音;
传输器,配置为传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
16.根据权利要求15的语音编码器,其中所述宽带非活动语音编码器还配置为根据所述高频带非活动语音信号生成第二辅助信号,并且其中窄带非活动语音编码器还配置为根据来自所述宽带非活动语音编码器的所述第二辅助信号编码所述窄带非活动语音信号。
17.根据权利要求15的语音编码器,其中所述传输器配置为根据不连续传输(DTX)模式进行传输。
18.一种适于编码输入语音信号的语音编码器,所述语音编码器包括:
接收器,配置为接收所述输入语音信号;
低通滤波器,用于对所述语音信号进行低通滤波以生成窄带语音信号;
高通滤波器,用于对所述语音信号进行高通滤波以生成高频带语音信号;
语音活动检测器(VAD),配置为判定所述窄带输入语音信号包括活动语音信号还是非活动语音信号;
窄带非活动语音编码器,配置为在所述VAD判定所述窄带输入语音信号包括所述非活动语音信号的情况下,编码所述窄带语音信号以生成已编码窄带非活动语音;
宽带非活动语音编码器,配置为在所述VAD判定所述窄带输入语音信号包括所述非活动语音信号的情况下,编码所述高频带语音信号以生成已编码宽带非活动语音;
传输器,配置为传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
19.根据权利要求18的语音编码器,其中所述宽带非活动语音编码器还配置为根据所述高频带语音信号生成第二辅助信号,并且其中所述窄带非活动语音编码器还配置为根据来自所述宽带非活动语音编码器的所述第二辅助信号编码所述窄带语音信号。
20.根据权利要求18的语音编码器,其中所述窄带非活动语音编码器还配置为根据所述窄带语音信号生成第一辅助信号,并且其中所述宽带非活动语音编码器还配置为根据来自所述窄带非活动语音编码器的所述第一辅助信号编码所述宽带语音信号。
Claims (20)
1.一种由语音编码器用于编码输入语音信号的方法,所述方法包括:
接收所述输入语音信号;
判定所述输入语音信号包括活动语音信号还是非活动语音信号;
对所述非活动语音信号进行低通滤波以生成窄带非活动语音信号;
对所述非活动语音信号进行高通滤波以生成高频带非活动语音信号;
使用窄带非活动语音编码器来编码所述窄带非活动语音信号以生成已编码窄带非活动语音;
由所述窄带非活动语音编码器根据所述窄带非活动语音信号生成低到高辅助信号;
使用宽带非活动语音编码器编码所述高频带非活动语音信号,以便根据来自所述窄带非活动语音编码器的所述低到高辅助信号生成已编码宽带非活动语音;
传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
2.根据权利要求1的方法,还包括:
由所述宽带非活动语音编码器根据所述高频带非活动语音信号生成高到低辅助信号;
其中所述窄带非活动语音编码器根据来自所述宽带非活动语音编码器的所述高到低辅助信号编码所述窄带非活动语音信号。
3.根据权利要求1的方法,其中所述传输包括不连续传输(DTX)模式。
4.一种由语音编码器用于编码输入语音信号的方法,所述方法包括:
接收所述输入语音信号;
判定所述输入语音信号包括活动语音信号还是非活动语音信号;
对所述非活动语音信号进行低通滤波以生成窄带非活动语音信号;
对所述非活动语音信号进行高通滤波以生成高频带非活动语音信号;
根据ITU-T G.729附件B建议来编码所述窄带非活动语音信号以生成G.729B已编码窄带非活动语音;
编码所述高频带非活动语音信号以生成已编码宽带非活动语音;
作为G.729B比特流来传输所述G.729B已编码窄带非活动语音;以及
在所述G.729B比特流之后作为宽带基础层比特流来传输所述已编码宽带非活动语音。
5.根据权利要求4的方法,还包括:
编码所述窄带非活动语音信号以生成增强的窄带基础层比特流;
在所述宽带基础层比特流之后传输所述增强的窄带基础层比特流。
6.根据权利要求5的方法,还包括:
编码所述高频带非活动语音信号以生成增强的宽带基础层比特流;
在所述增强的窄带基础层比特流之后传输所述增强的宽带基础层比特流。
7.根据权利要求4的方法,还包括:
编码所述高频带非活动语音信号以生成增强的宽带基础层比特流;
在所述宽带基础层比特流之后传输所述宽带窄带基础层比特流。
8.根据权利要求7的方法,还包括:
编码所述窄带非活动语音信号以生成增强的窄带基础层比特流;
在所述增强的宽带基础层比特流之后传输所述增强的窄带基础层比特流。
9.一种由语音解码器用于解码已解码语音信号的方法,所述方法包括:
接收所述已解码语音信号;
判定所述已解码语音信号包括活动已解码语音信号还是非活动已解码语音信号;
使用窄带解码器和宽带解码器将所述活动已解码语音信号解码为嵌入的比特流以生成窄带活动语音参数和宽带活动语音参数;
将所述非活动已解码语音信号解码为窄带比特流以生成窄带非活动语音参数;
对窄带非活动语音参数应用带宽扩展,以便使用所述窄带活动语音参数和所述宽带活动语音参数来生成宽带非活动语音参数。
10.一种由语音编码器用于编码输入语音信号的方法,所述方法包括:
接收所述输入语音信号;
对所述语音信号进行低通滤波以生成窄带语音信号;
对所述语音信号进行高通滤波以生成高频带语音信号;
判定所述窄带输入语音信号包括活动语音信号还是非活动语音信号;
如果判定步骤判定所述窄带输入语音信号包括所述非活动语音信号,则使用窄带非活动语音编码器编码所述窄带语音信号以生成已编码窄带非活动语音;
如果判定步骤判定所述窄带输入语音信号包括所述非活动语音信号,则使用宽带非活动语音编码器编码所述高频带语音信号以生成已编码宽带非活动语音;
传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
11.根据权利要求10的方法,还包括:
由所述宽带非活动语音编码器根据所述高频带语音信号生成高到低辅助信号;
其中所述窄带非活动语音编码器根据来自所述宽带非活动语音编码器的所述高到低辅助信号编码所述窄带语音信号。
12.根据权利要求10的方法,还包括:
由所述窄带非活动语音编码器根据所述窄带语音信号生成低到高辅助信号;
其中所述宽带非活动语音编码器根据来自所述窄带非活动语音编码器的所述低到高辅助信号编码所述宽带语音信号。
13.根据权利要求10的方法,其中所述活动语音信号的低通滤波不同于所述非活动语音信号的低通滤波,并且所述活动语音信号的高通滤波不同于所述非活动语音信号的高通滤波。
14.根据权利要求10的方法,其中所述传输包括不连续传输(DTX)模式。
15.一种适于编码输入语音信号的语音编码器,所述语音编码器包括:
接收器,配置为接收所述输入语音信号;
语音活动检测器,配置为判定所述输入语音信号包括活动语音信号还是非活动语音信号;
低通滤波器,用于对所述非活动语音信号进行低通滤波以生成窄带非活动语音信号;
高通滤波器,用于对所述非活动语音信号进行高通滤波以生成高频带非活动语音信号;
窄带非活动语音编码器,配置为编码所述窄带非活动语音信号以生成已编码窄带非活动语音,并且所述窄带非活动语音编码器还配置为根据所述窄带非活动语音信号生成低到高辅助信号;
宽带非活动语音编码器,配置为编码所述高频带非活动语音信号,以便根据来自所述窄带非活动语音编码器的所述低到高辅助信号生成已编码宽带非活动语音;
传输器,配置为传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
16.根据权利要求15的语音编码器,其中所述宽带非活动语音编码器还配置为根据所述高频带非活动语音信号生成高到低辅助信号,并且其中窄带非活动语音编码器还配置为根据来自所述宽带非活动语音编码器的所述高到低辅助信号编码所述窄带非活动语音信号。
17.根据权利要求15的语音编码器,其中所述传输器配置为根据不连续传输(DTX)模式进行传输。
18.一种适于编码输入语音信号的语音编码器,所述语音编码器包括:
接收器,配置为接收所述输入语音信号;
低通滤波器,用于对所述语音信号进行低通滤波以生成窄带语音信号;
高通滤波器,用于对所述语音信号进行高通滤波以生成高频带语音信号;
语音活动检测器(VAD),配置为判定所述窄带输入语音信号包括活动语音信号还是非活动语音信号;
窄带非活动语音编码器,配置为在所述VAD判定所述窄带输入语音信号包括所述非活动语音信号的情况下,编码所述窄带语音信号以生成已编码窄带非活动语音;
宽带非活动语音编码器,配置为在所述VAD判定所述窄带输入语音信号包括所述非活动语音信号的情况下,编码所述高频带语音信号以生成已编码宽带非活动语音;
传输器,配置为传输所述已编码窄带非活动语音和所述已编码宽带非活动语音。
19.根据权利要求18的语音编码器,其中所述宽带非活动语音编码器还配置为根据所述高频带语音信号生成高到低辅助信号,并且其中所述窄带非活动语音编码器还配置为根据来自所述宽带非活动语音编码器的所述高到低辅助信号编码所述窄带语音信号。
20.根据权利要求18的语音编码器,其中所述窄带非活动语音编码器还配置为根据所述窄带语音信号生成低到高辅助信号,并且其中所述宽带非活动语音编码器还配置为根据来自所述窄带非活动语音编码器的所述低到高辅助信号编码所述宽带语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210022645.6A CN102592600B (zh) | 2007-02-14 | 2008-02-01 | 嵌入式静默和背景噪声压缩 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US90119107P | 2007-02-14 | 2007-02-14 | |
US60/901,191 | 2007-02-14 | ||
US12/002,131 | 2007-12-14 | ||
US12/002,131 US8032359B2 (en) | 2007-02-14 | 2007-12-14 | Embedded silence and background noise compression |
PCT/US2008/001356 WO2008100385A2 (en) | 2007-02-14 | 2008-02-01 | Embedded silence and background noise compression |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210022645.6A Division CN102592600B (zh) | 2007-02-14 | 2008-02-01 | 嵌入式静默和背景噪声压缩 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101606196A true CN101606196A (zh) | 2009-12-16 |
CN101606196B CN101606196B (zh) | 2012-04-04 |
Family
ID=39686599
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210022645.6A Active CN102592600B (zh) | 2007-02-14 | 2008-02-01 | 嵌入式静默和背景噪声压缩 |
CN2008800047744A Active CN101606196B (zh) | 2007-02-14 | 2008-02-01 | 嵌入式静默和背景噪声压缩 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210022645.6A Active CN102592600B (zh) | 2007-02-14 | 2008-02-01 | 嵌入式静默和背景噪声压缩 |
Country Status (7)
Country | Link |
---|---|
US (2) | US8032359B2 (zh) |
EP (2) | EP2118891B1 (zh) |
JP (1) | JP5096498B2 (zh) |
CN (2) | CN102592600B (zh) |
AT (2) | ATE533148T1 (zh) |
DE (1) | DE602008002902D1 (zh) |
WO (1) | WO2008100385A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332264A (zh) * | 2011-09-21 | 2012-01-25 | 哈尔滨工业大学 | 鲁棒性活动语音检测方法 |
CN104378474A (zh) * | 2014-11-20 | 2015-02-25 | 惠州Tcl移动通信有限公司 | 一种降低通话输入噪音的移动终端及其方法 |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100629997B1 (ko) * | 2004-02-26 | 2006-09-27 | 엘지전자 주식회사 | 오디오 신호의 인코딩 방법 |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
KR100905585B1 (ko) * | 2007-03-02 | 2009-07-02 | 삼성전자주식회사 | 음성신호의 대역폭 확장 제어 방법 및 장치 |
CN100555414C (zh) * | 2007-11-02 | 2009-10-28 | 华为技术有限公司 | 一种dtx判决方法和装置 |
JP5461421B2 (ja) * | 2007-12-07 | 2014-04-02 | アギア システムズ インコーポレーテッド | 保留音楽のエンドユーザ制御 |
DE102008009719A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen |
DE102008009718A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen |
DE102008009720A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen |
CN101483042B (zh) | 2008-03-20 | 2011-03-30 | 华为技术有限公司 | 一种噪声生成方法以及噪声生成装置 |
CN101483495B (zh) * | 2008-03-20 | 2012-02-15 | 华为技术有限公司 | 一种背景噪声生成方法以及噪声处理装置 |
US8326641B2 (en) * | 2008-03-20 | 2012-12-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding using bandwidth extension in portable terminal |
CN101335000B (zh) | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
KR20100006492A (ko) * | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
US8532998B2 (en) | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
US8532983B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US7889721B2 (en) * | 2008-10-13 | 2011-02-15 | General Instrument Corporation | Selecting an adaptor mode and communicating data based on the selected adaptor mode |
KR101539268B1 (ko) * | 2008-12-22 | 2015-07-24 | 삼성전자주식회사 | 수신기의 잡음 제거 장치 및 방법 |
EP2237269B1 (en) | 2009-04-01 | 2013-02-20 | Motorola Mobility LLC | Apparatus and method for processing an encoded audio data signal |
JP5223786B2 (ja) * | 2009-06-10 | 2013-06-26 | 富士通株式会社 | 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機 |
FR2947945A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
FR2947944A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Codage/decodage perfectionne de signaux audionumeriques |
EP2524374B1 (en) | 2010-01-13 | 2018-10-31 | Voiceage Corporation | Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering |
WO2011103924A1 (en) * | 2010-02-25 | 2011-09-01 | Telefonaktiebolaget L M Ericsson (Publ) | Switching off dtx for music |
WO2011142709A2 (en) * | 2010-05-11 | 2011-11-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for processing of audio signals |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
US8560330B2 (en) | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
SG191771A1 (en) * | 2010-12-29 | 2013-08-30 | Samsung Electronics Co Ltd | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
CN103187065B (zh) * | 2011-12-30 | 2015-12-16 | 华为技术有限公司 | 音频数据的处理方法、装置和系统 |
US8953724B2 (en) * | 2012-06-27 | 2015-02-10 | Andrew Llc | Canceling narrowband interfering signals in a distributed antenna system |
JP2014074782A (ja) * | 2012-10-03 | 2014-04-24 | Sony Corp | 音声送信装置、音声送信方法、音声受信装置および音声受信方法 |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN103457703B (zh) * | 2013-08-27 | 2017-03-01 | 大连理工大学 | 一种g.729到amr12.2速率的转码方法 |
EP2980790A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for comfort noise generation mode selection |
US9984693B2 (en) * | 2014-10-10 | 2018-05-29 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
CN110366270B (zh) * | 2018-04-10 | 2021-08-13 | 华为技术有限公司 | 通信方法及装置 |
CN112530454B (zh) * | 2020-11-30 | 2024-07-23 | 厦门亿联网络技术股份有限公司 | 一种窄带语音信号检测方法、装置、系统和可读存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08102687A (ja) * | 1994-09-29 | 1996-04-16 | Yamaha Corp | 音声送受信方式 |
US7330814B2 (en) * | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
US7136810B2 (en) * | 2000-05-22 | 2006-11-14 | Texas Instruments Incorporated | Wideband speech coding system and method |
WO2003091989A1 (en) * | 2002-04-26 | 2003-11-06 | Matsushita Electric Industrial Co., Ltd. | Coding device, decoding device, coding method, and decoding method |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
KR100721537B1 (ko) * | 2004-12-08 | 2007-05-23 | 한국전자통신연구원 | 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법 |
KR100707174B1 (ko) * | 2004-12-31 | 2007-04-13 | 삼성전자주식회사 | 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법 |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
EP2012305B1 (en) * | 2006-04-27 | 2011-03-09 | Panasonic Corporation | Audio encoding device, audio decoding device, and their method |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
JP5061111B2 (ja) * | 2006-09-15 | 2012-10-31 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
JP4935329B2 (ja) * | 2006-12-01 | 2012-05-23 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
-
2007
- 2007-12-14 US US12/002,131 patent/US8032359B2/en active Active
-
2008
- 2008-02-01 JP JP2009549588A patent/JP5096498B2/ja active Active
- 2008-02-01 CN CN201210022645.6A patent/CN102592600B/zh active Active
- 2008-02-01 WO PCT/US2008/001356 patent/WO2008100385A2/en active Search and Examination
- 2008-02-01 EP EP08725056A patent/EP2118891B1/en active Active
- 2008-02-01 AT AT10004737T patent/ATE533148T1/de active
- 2008-02-01 DE DE602008002902T patent/DE602008002902D1/de active Active
- 2008-02-01 CN CN2008800047744A patent/CN101606196B/zh active Active
- 2008-02-01 AT AT08725056T patent/ATE484053T1/de not_active IP Right Cessation
- 2008-02-01 EP EP10004737A patent/EP2224429B1/en active Active
-
2011
- 2011-09-08 US US13/199,794 patent/US8195450B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332264A (zh) * | 2011-09-21 | 2012-01-25 | 哈尔滨工业大学 | 鲁棒性活动语音检测方法 |
CN104378474A (zh) * | 2014-11-20 | 2015-02-25 | 惠州Tcl移动通信有限公司 | 一种降低通话输入噪音的移动终端及其方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2008100385A3 (en) | 2009-04-23 |
EP2224429A3 (en) | 2010-09-22 |
CN102592600B (zh) | 2016-08-24 |
WO2008100385A4 (en) | 2009-06-11 |
US20080195383A1 (en) | 2008-08-14 |
US8195450B2 (en) | 2012-06-05 |
WO2008100385A2 (en) | 2008-08-21 |
US8032359B2 (en) | 2011-10-04 |
EP2224429A2 (en) | 2010-09-01 |
ATE533148T1 (de) | 2011-11-15 |
EP2118891B1 (en) | 2010-10-06 |
EP2118891A2 (en) | 2009-11-18 |
JP5096498B2 (ja) | 2012-12-12 |
JP2010518453A (ja) | 2010-05-27 |
DE602008002902D1 (de) | 2010-11-18 |
CN101606196B (zh) | 2012-04-04 |
ATE484053T1 (de) | 2010-10-15 |
US20110320194A1 (en) | 2011-12-29 |
EP2224429B1 (en) | 2011-11-09 |
CN102592600A (zh) | 2012-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101606196B (zh) | 嵌入式静默和背景噪声压缩 | |
CA2997331C (en) | Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel | |
KR100923891B1 (ko) | 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치 | |
US6615169B1 (en) | High frequency enhancement layer coding in wideband speech codec | |
KR101303145B1 (ko) | 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더 | |
KR101075845B1 (ko) | 오디오 신호 인코딩 | |
RU2461080C2 (ru) | Способ и средство для кодирования информации фонового шума | |
CN102741831B (zh) | 多点环境中的可伸缩音频 | |
JP2001500344A (ja) | タンデム型ボコーダの音質を改良する方法および装置 | |
JP2009527017A (ja) | オーディオ符号化/復号化で知覚的に重み付けするための装置 | |
KR101462293B1 (ko) | 고정된 배경 잡음의 평활화를 위한 방법 및 장치 | |
EP2590164A2 (en) | Method and device for processing audio signal | |
KR20160096119A (ko) | 대역폭 확장 모드 선택 | |
JP5255575B2 (ja) | レイヤード・コーデックのためのポストフィルタ | |
US20080059154A1 (en) | Encoding an audio signal | |
AU6533799A (en) | Method for transmitting data in wireless speech channels | |
Hiwasaki et al. | A G. 711 embedded wideband speech coding for VoIP conferences | |
US8260606B2 (en) | Method and means for decoding background noise information | |
Nishimura | Steganographic band width extension for the AMR codec of low-bit-rate modes | |
Kim et al. | An embedded variable bit-rate audio coder for ubiquitous speech communications | |
Ince | Speech processing standards | |
Chauhan et al. | A New Technique for Artificial Bandwidth Extension of Speech Signal and its Performance Analysis | |
BRPI0114669B1 (pt) | A method of encoding a voice, a receiver system and a transmitter of the speech signal to an encoder and decoding the input signal, an encoder, a decoder, a mobile station and a network element |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: O HEARN VOICE CO., LTD. Free format text: FORMER OWNER: MINDSPEED TECHNOLOGIES INC. Effective date: 20130118 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20130118 Address after: Delaware Patentee after: O'HEARN VOICE CO., LTD. Address before: American California Patentee before: Mindspeed Technologies Inc. |