CN101896964A - 用于上下文描述符传输的系统、方法及设备 - Google Patents
用于上下文描述符传输的系统、方法及设备 Download PDFInfo
- Publication number
- CN101896964A CN101896964A CN2008801198597A CN200880119859A CN101896964A CN 101896964 A CN101896964 A CN 101896964A CN 2008801198597 A CN2008801198597 A CN 2008801198597A CN 200880119859 A CN200880119859 A CN 200880119859A CN 101896964 A CN101896964 A CN 101896964A
- Authority
- CN
- China
- Prior art keywords
- context
- signal
- video signals
- digital audio
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 155
- 230000005540 biological transmission Effects 0.000 title claims description 24
- 230000005236 sound signal Effects 0.000 claims description 270
- 238000012545 processing Methods 0.000 claims description 98
- 230000002708 enhancing effect Effects 0.000 claims description 47
- 230000005764 inhibitory process Effects 0.000 claims description 28
- 230000003595 spectral effect Effects 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000005086 pumping Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000003780 insertion Methods 0.000 claims 2
- 230000037431 insertion Effects 0.000 claims 2
- 238000004891 communication Methods 0.000 abstract description 27
- 238000003860 storage Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 96
- 230000008569 process Effects 0.000 description 28
- 238000001228 spectrum Methods 0.000 description 24
- 238000005728 strengthening Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 230000001413 cellular effect Effects 0.000 description 10
- 238000000926 separation method Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 239000009517 FM 100 Substances 0.000 description 8
- 238000004088 simulation Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 239000004148 curcumin Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000002243 precursor Substances 0.000 description 5
- 239000004334 sorbic acid Substances 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- WDQKVWDSAIJUTF-GPENDAJRSA-N via protocol Chemical compound ClCCNP1(=O)OCCCN1CCCl.O([C@H]1C[C@@](O)(CC=2C(O)=C3C(=O)C=4C=CC=C(C=4C(=O)C3=C(O)C=21)OC)C(=O)CO)[C@H]1C[C@H](N)[C@H](O)[C@H](C)O1.C([C@H](C[C@]1(C(=O)OC)C=2C(=C3C([C@]45[C@H]([C@@]([C@H](OC(C)=O)[C@]6(CC)C=CCN([C@H]56)CC4)(O)C(=O)OC)N3C=O)=CC=2)OC)C[C@@](C2)(O)CC)N2CCC2=C1NC1=CC=CC=C21 WDQKVWDSAIJUTF-GPENDAJRSA-N 0.000 description 4
- 239000004106 carminic acid Substances 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000011112 process operation Methods 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 239000004173 sunset yellow FCF Substances 0.000 description 3
- 206010019133 Hangover Diseases 0.000 description 2
- 239000004233 Indanthrene blue RS Substances 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000001752 chlorophylls and chlorophyllins Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 101000981993 Oncorhynchus mykiss Myelin proteolipid protein Proteins 0.000 description 1
- 241000863776 Populus ciliata Species 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010612 desalination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明揭示的配置包括可应用于语音通信及/或存储应用中以移除、增强及/或取代现存上下文的系统、方法及设备。
Description
相关申请案
根据35U.S.C.§119主张优先权
本专利申请案主张2008年1月28日申请的且转让给本案的受让人的标题为“用于上下文处理的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FORCONTEXT PROCESSING)”的临时申请案第61/024,104号的优先权。
技术领域
本发明涉及话音信号的处理。
背景技术
用于语音信号的通信及/或存储的应用通常使用麦克风来捕获包括主扬声器语音的声音的音频信号。音频信号的表示语音的部分称为话音或话音分量。所捕获的音频信号常常还将包括来自麦克风的周围声学环境的(例如背景声音)的其它声音。音频信号的此部分称为上下文或上下文分量。
例如话音及音乐的音频信息通过数字技术的传输已变得广泛,尤其是在长途电话、例如基于IP的语音传输(还称为VoIP,其中IP指示因特网协议)的包交换电话,及例如蜂窝式电话的数字无线电电话中。此种增长已导致对减少用以经由传输信道传送语音通信的信息的量且同时维持重建话音的所感知质量的兴趣。举例来说,需要最佳地使用可用无线系统带宽。有效使用系统带宽的一种方式为采用信号压缩技术。对于携载话音信号的无线系统来说,出于此目的起见,通常采用话音压缩(或“话音译码”)技术。
经配置以通过提取与人话音产生的模型有关的参数而压缩话音的装置常常称为语音译码器、编解码器、声码器、“音频译码器”或“话音译码器”,且以下描述可互换地使用这些术语。话音译码器通常包括话音编码器及话音解码器。编码器通常作为一系列称为“帧”的样本块接收数字音频信号,分析每一帧以提取某些相关参数,且将参数量化为经编码帧。经编码帧经由传输信道(即,有线或无线网络连接)传输到包括解码器的接收器。或者,经编码音频信号可经存储以供在以后时间进行检索及解码。解码器接收且处理经编码帧、对其进行反量化以产生参数,且使用反量化参数重新创建话音帧。
在典型通话中,每一扬声器静默约百分之六十的时间。话音编码器常常经配置以区分含有话音的音频信号的帧(“活动帧”)与仅含有上下文或静默的音频信号的帧(“非活动帧”)。所述编码器可经配置以使用不同译码模式及/或速率来编码活动与非活动帧。举例来说,非活动帧通常感知为携载极少或不携载信息,且话音编码器常常经配置以使用比编码活动帧少的位(即,较低位速率)来编码非活动帧。
用以编码活动帧的位速率的实例包括每帧171个位、每帧80个位及每帧40个位。用以编码非活动帧的位速率的实例包括每帧16个位。在蜂窝式电话系统(尤其是依照如由电信工业协会(弗吉尼亚州,阿灵顿(Arlington,VA))发布的临时标准(IS)-95(或类似工业标准)的系统)的上下文中,这四个位速率还分别称为“全速率”、“半速率”、“四分之一速率”及“八分之一速率”
发明内容
此文件描述一种处理包括第一音频上下文的数字音频信号的方法。此方法包括抑制来自所述数字音频信号的第一音频上下文,基于由第一麦克风产生的第一音频信号来获得上下文受抑制信号。此方法还包括将第二音频上下文与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号。在此方法中,数字音频信号是基于由不同于第一麦克风的第二麦克风产生的第二音频信号。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种处理基于从第一转变器接收的信号的数字音频信号的方法。此方法包括抑制来自数字音频信号的第一音频上下文以获得上下文受抑制信号;将第二音频上下文与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号;将基于(A)第二音频上下文及(B)上下文经增强信号中的至少一者的信号转换为模拟信号;及使用第二转变器来产生基于模拟信号的可听信号(audible signal)。在此方法中,第一转变器及第二转变器两者位于共同外壳内。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种处理经编码音频信号的方法。此方法包括:根据第一译码方案解码经编码音频信号的第一多个经编码帧以获得包括话音分量及上下文分量的第一经解码音频信号;根据第二译码方案解码经编码音频信号的第二多个经编码帧以获得第二经解码音频信号;及基于来自第二经解码音频信号的信息,抑制来自基于第一经解码音频信号的第三信号的上下文分量以获得上下文受抑制信号。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种处理包括话音分量及上下文分量的数字音频信号的方法。此方法包括:抑制来自数字音频信号的上下文分量以获得上下文受抑制信号;对基于上下文受抑制信号的信号进行编码以获得经编码音频信号;选择多个音频上下文中的一者;及将与所选音频上下文有关的信息插入于基于经编码音频信号的信号中。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种处理包括话音分量及上下文分量的数字音频信号的方法。此方法包括抑制来自数字音频信号的上下文分量以获得上下文受抑制信号;对基于上下文受抑制信号的信号进行编码以获得经编码音频信号;经由第一逻辑信道将经编码音频信号发送到第一实体;及经由不同于第一逻辑信道的第二逻辑信道向第二实体发送(A)音频上下文选择信息及(B)识别第一实体的信息。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种处理经编码音频信号的方法。此方法包括在移动用户终端内解码经编码音频信号以获得经解码音频信号;在移动用户终端内产生音频上下文信号;及在移动用户终端内,将基于音频上下文信号的信号与基于经解码音频信号的信号进行混合。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种处理包括话音分量及上下文分量的数字音频信号的方法。此方法包括:抑制来自数字音频信号的上下文分量以获得上下文受抑制信号;产生基于第一滤波器及第一多个序列的音频上下文信号,所述第一多个序列中的每一者具有不同的时间分辨率;及将基于所产生音频上下文信号的第一信号与基于上下文受抑制信号的第二信号进行混合以获得上下文经增强信号。在此方法中,产生音频上下文信号包括将第一滤波器应用到第一多个序列中的每一者。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种处理包括话音分量及上下文分量的数字音频信号的方法。此方法包括:抑制来自数字音频信号的上下文分量以获得上下文受抑制信号;产生音频上下文信号;将基于所产生音频上下文信号的第一信号与基于上下文受抑制信号的第二信号进行混合以获得上下文经增强信号;及计算基于数字音频信号的第三信号的电平。在此方法中,产生及混合中的至少一者包括基于第三信号的所计算电平控制第一信号的电平。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
此文件还描述一种根据处理控制信号的状态来处理数字音频信号的方法,其中数字音频信号具有话音分量及上下文分量。此方法包括在处理控制信号具有第一状态时以第一位速率对缺少话音分量的数字音频信号部分的帧进行编码。此方法包括在处理控制信号具有不同于第一状态的第二状态时抑制来自数字音频信号的上下文分量以获得上下文受抑制信号。此方法包括在处理控制信号具有第二状态时将音频上下文信号与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号。此方法包括在处理控制信号具有第二状态时以第二位速率对缺少话音分量的上下文经增强信号部分的帧进行编码,其中第二位速率高于第一位速率。此文件还描述与此方法有关的设备、装置的组合及计算机可读媒体。
附图说明
图1A展示话音编码器X10的框图。
图1B展示话音编码器X10的实施方案X20的框图。
图2展示决策树的一个实例。
图3A展示根据一般配置的设备X100的框图。
图3B展示上下文处理器100的实施方案102的框图。
图3C-图3F展示便携式或免提式装置中两个麦克风K10及K20的各种安装配置,且图3G展示上下文处理器102的实施方案102A的框图。
图4A展示设备X100的实施方案X102的框图。
图4B展示上下文处理器104的实施方案106的框图。
图5A说明音频信号与编码器选择操作之间的各种可能的相关性。
图5B说明音频信号与编码器选择操作之间的各种可能的相关性。
图6展示设备X100的实施方案X110的框图。
图7展示设备X100的实施方案X120的框图。
图8展示设备X100的实施方案X130的框图。
图9A展示上下文产生器120的实施方案122的框图。
图9B展示上下文产生器122的实施方案124的框图。
图9C展示上下文产生器122的另一实施方案126的框图。
图9D展示用于产生所产生上下文信号S50的方法M100的流程图。
图10展示多分辨上下文合成的过程的图。
图11A展示上下文处理器102的实施方案108的框图。
图11B展示上下文处理器102的实施方案109的框图。
图12A展示话音解码器R10的框图。
图12B展示话音解码器R10的实施方案R20的框图。
图13A展示上下文混合器190的实施方案192的框图。
图13B展示根据一配置的设备R100的框图。
图14A展示上下文处理器200的实施方案的框图。
图14B展示设备R100的实施方案R110的框图。
图15展示根据一配置的设备R200的框图。
图16展示设备X100的实施方案X200的框图。
图17展示设备X100的实施方案X210的框图。
图18展示设备X100的实施方案X220的框图。
图19展示根据所揭示配置的设备X300的框图。
图20展示设备X300的实施方案X310的框图。
图21A展示从服务器下载上下文信息的实例。
图21B展示将上下文信息下载到解码器的实例。
图22展示根据所揭示配置的设备R300的框图。
图23展示设备R300的实施方案R310的框图。
图24展示设备R300的实施方案R320的框图。
图25A展示根据所揭示配置的方法A100的流程图。
图25B展示根据所揭示配置的设备AM100的框图。
图26A展示根据所揭示配置的方法B100的流程图。
图26B展示根据所揭示配置的设备BM100的框图。
图27A展示根据所揭示配置的方法C100的流程图。
图27B展示根据所揭示配置的设备CM100的框图。
图28A展示根据所揭示配置的方法D100的流程图。
图28B展示根据所揭示配置的设备DM100的框图。
图29A展示根据所揭示配置的方法E100的流程图。
图29B展示根据所揭示配置的设备EM100的框图。
图30A展示根据所揭示配置的方法E200的流程图。
图30B展示根据所揭示配置的设备EM200的框图。
图31A展示根据所揭示配置的方法F100的流程图。
图31B展示根据所揭示配置的设备FM100的框图。
图32A展示根据所揭示配置的方法G100的流程图。
图32B展示根据所揭示配置的设备GM100的框图。
图33A展示根据所揭示配置的方法H100的流程图。
图33B展示根据所揭示配置的设备HM100的框图。
在这些图中,相同参考标号指代相同或类似元件。
具体实施方式
尽管音频信号的话音分量通常携载主要信息,但上下文分量也在例如电话的语音通信应用中起重要作用。由于上下文分量存在于活动及非活动帧两者期间,所以其在非活动帧期间的连续重现对于在接收器处提供连续性及连通性是重要的。上下文分量的重现质量可能对于逼真度及整体所感知质量也是重要的,尤其对于嘈杂环境中使用的免提式终端来说。
例如蜂窝式电话的移动用户终端允许语音通信应用扩展到比先前更多的位置。结果,可能遭遇的不同音频上下文的数目增加。现存语音通信应用通常将上下文分量视作噪声,但一些上下文比其它上下文更结构化,且可能更难可辨别地进行编码。
在一些情形下,可能需要抑制及/或掩蔽音频信号的上下文分量。出于安全原因,举例来说,可能需要在传输或存储之前从音频信号移除上下文分量。或者,可能需要向音频信号添加不同上下文。举例来说,可能需要造成扬声器在不同位置处及/或在不同环境中的错觉。本文揭示的配置包括可应用于语音通信及/或存储应用中以移除、增强及/或取代现存音频上下文的系统、方法及设备。明确地预期且特此揭示,本文揭示的配置可适合用于包交换式网络(举例来说,根据例如VoIP的协议布置以携载语音传输的有线及/或无线网络)及/或电路交换式网络中。还死明确地预期且特此揭示,本文揭示的配置可适合用于窄带译码系统(例如,编码约四千赫兹或五千赫兹的音频频率范围的系统)中及用于宽带译码系统(例如,编码大于五千赫兹的音频频率的系统)中,包括全频带译码系统及分离频带译码系统。
除非明确由其上下文限制,否则术语“信号”在本文中用来指示其普通意义中的任一者,包括如导线、总线或其它传输媒体上表达的存储器位置(或存储器位置的集合)的状态。除非明确由其上下文限制,否则术语“产生”在本文用来指示其普通意义中的任一者,例如计算或以其它方式产生。除非明确由其上下文限制,否则术语“计算”在本文用来指示其普通意义中的任一者,例如计算、估计及/或从一组值进行选择。除非明确由其上下文限制,否则术语“获得”用来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。在术语“包含”用于本发明描述及权利要求书中时,其并不排除其它元件或操作。术语“基于”(如在“A基于B”中)用来指示其普通意义中的任一者,包括以下情形:(i)“至少基于”(例如,“A至少基于B”),及(ii)“等同于”(例如,“A等同于B”)(在特定上下文中适当的情况下)。
除非另外指示,否则具有特定特征的设备的操作的任何揭示内容还明确地打算揭示具有类似特征的方法(且反之亦然),且根据特定配置的设备的操作的任何揭示内容也明确地打算揭示根据类似配置的方法(且反之亦然)。除非另外指示,否则术语“上下文”(或“音频上下文”)用来指示音频信号的不同于话音分量且传达来自扬声器的周围环境的音频信息的分量,且术语“噪声”用来指示音频信号中并非话音分量的部分且不传达来自扬声器的周围环境的信息的任何其它假象。
出于话音译码目的,话音信号通常经数字化(或量化)以获得样本流。可根据此项技术中已知的各种方法(包括,例如,脉码调制(PCM)、压扩μ律PCM及压扩A律PCM)中的任一者执行数字化处理。窄带话音编码器通常使用8kHz的取样速率,而宽带话音编码器通常使用更高的取样速率(例如,12或16kHz)。
将经数字化的话音信号处理为一系列帧。此系列通常实施为非重叠系列,但处理帧或帧片段(还称为子帧)的操作还可包括其输入中的一个或一个以上邻近帧的片段。话音信号的帧通常足够短从而信号的频谱包络可预期在帧上保持相对固定。帧通常对应于话音信号的5与35毫秒(或约40到200个样本)之间,其中10、20及30毫秒为常见的帧大小。通常所有帧具有相同的长度,且在本文描述的特定实例中假定均匀帧长度。然而,还明确地预期且特此揭示,可使用非均匀帧长度。
20毫秒的帧长度在七千赫兹(kHz)的取样速率下对应于140个样本,在8kHz的取样速率下对应于160个样本,且在16kHz的取样速率下对应于320个样本,但可使用认为适于特定应用的任何取样速率。可用于话音译码的取样速率的另一实例为12.8kHz,且另外的实例包括从12.8kHz到38.4kHz的范围中的其它速率。
图1A展示经配置以接收音频信号S10(例如,作为一系列帧)且产生对应经编码音频信号S20(例如,作为一系列经编码帧)的话音编码器X10的框图。话音编码器X10包括译码方案选择器20、活动帧编码器30及非活动帧编码器40。音频信号S10为包括话音分量(即,主扬声器语音的声音)及上下文分量(即,周围环境或背景声音)的数字音频信号。音频信号S10通常为如由麦克风捕获的模拟信号的经数字化版本。
译码方案选择器20经配置以区分音频信号S10的活动帧与非活动帧。此种操作还称为“语音活动性检测”或“话音活动性检测”,且译码方案选择器20可经实施以包括语音活动性检测器或话音活动性检测器。举例来说,译码方案选择器20可经配置以输出对于活动帧为高且对于非活动帧为低的二进制值译码方案选择信号。图1A展示其中使用由译码方案选择器20产生的译码方案选择信号来控制话音编码器X10的一对选择器50a及50b的实例。
译码方案选择器20可经配置以基于帧的能量及/或频谱内容的一个或一个以上特性(例如帧能量、信噪比(SNR)、周期性、频谱分布(例如,频谱倾斜)及/或过零率)将帧分类为活动或非活动。此种分类可包括将此种特性的值或量值与阈值进行比较,及/或将此种特性的改变的量值(例如,相对于先前帧)与阈值进行比较。举例来说,译码方案选择器20可经配置以估计当前帧的能量,且如果能量值小于(或者,不大于)阈值,则将帧分类为非活动。此种选择器可经配置以将帧能量计算为帧样本的平方和。
译码方案选择器20的另一实施方案经配置以估计低频带(例如,300Hz到2kHz)及高频带(例如,2kHz到4kHz)中的每一者中当前帧的能量,且在每一频带的能量值小于(或者,不大于)相应阈值的情况下指示帧为非活动的。此种选择器可经配置以通过将通带滤波器应用到帧及计算经滤波的帧的样本的平方和而计算频带中的帧能量。此种语音活动性检测操作的一个实例描述于第三代合作伙伴计划2(3GPP2)标准文件C.S0014-C,v1.0(2007年1月)的章节4.7中(以www.3gpp2.org在线可得)。
另外或在替代方案中,此种分类可基于来自一个或一个以上先前帧及/或一个或一个以上随后帧的信息。举例来说,可能需要基于帧特性的关于两个或两个以上帧求平均的值对帧进行分类。可能需要使用基于来自先前帧(例如,背景噪声电平,SNR)的信息的阈值对帧进行分类。还可能需要配置译码方案选择器20以将音频信号S10中遵循从活动帧到非活动帧的过渡的第一帧中的一者或一者以上分类为活动的。在过渡之后以此种方式继续先前分类状态的动作还称为“释放延迟(hangover)”。
活动帧编码器30经配置以编码音频信号的活动帧。编码器30可经配置以根据例如全速率、半速率或四分之一速率的位速率来编码活动帧。编码器30可经配置以根据例如码激励线性预测(CELP)、原型波形内插(PWI)或原型间距周期(PPP)的译码模式来编码活动帧。
活动帧编码器30的典型实施方案经配置以产生包括频谱信息的描述及时间信息的描述的经编码帧。对频谱信息的描述可包括线性预测译码(LPC)系数值的一个或一个以上向量,其指示经编码话音的共振(还称为“共振峰”)。对频谱信息的描述通常经量化,以使得LPC向量通常被转换为可有效进行量化的形式,例如线频谱频率(LSF)、线频谱对(LSP)、导抗频谱频率(immittance spectral frequency,ISF)、导抗频谱对(ISP)、倒频谱系数或对数面积比。对时间信息的描述可包括对也通常经量化的激励信号的描述。
非活动帧编码器40经配置以编码非活动帧。非活动帧编码器40通常经配置而以比活动帧编码器30使用的位速率低的位速率来编码非活动帧。在一个实例中,非活动帧编码器40经配置以使用噪声激励线性预测(NELP)译码方案以八分之一速率来编码非活动帧。非活动帧编码器40还可经配置以执行不连续传输(DTX),以使得经编码帧(还称为“静默描述”或SID帧)针对少于音频信号S10的所有非活动帧进行传输。
非活动帧编码器40的典型实施方案经配置以产生包括对频谱信息的描述及对时间信息的描述的经编码帧。对频谱信息的描述可包括线性预测译码(LPC)系数值的一个或一个以上向量。对频谱信息的描述通常经量化,以使得LPC向量通常转换为如上文实例中的可有效进行量化的形式。非活动帧编码器40可经配置以执行具有比活动帧编码器30执行的LPC分析的阶数低的阶数的LPC分析,及/或非活动帧编码器40可经配置以将对频谱信息的描述量化为比活动帧编码器30产生的频谱信息的量化描述少的位。对时间信息的描述可包括对也通常经量化的时间包络的描述(例如,包括帧的增益值及/或帧的一系列子帧中的每一者的增益值)。
注意,编码器30及40可共享共同结构。举例来说,编码器30及40可共享LPC系数值的计算器(可能经配置以产生针对活动帧与非活动帧具有不同阶数的结果),但具有分别不同的时间描述计算器。还注意,话音编码器X10的软件或固件实施方案可使用译码方案选择器20的输出以引导对帧编码器中的一者或另一者的执行的流程,且此种实施方案可能不包括针对选择器50a及/或针对选择器50b的模拟。
可能需要配置译码方案选择器20以将音频信号S10的每一活动帧分类为若干不同类型中的一者。这些不同类型可包括有声话音(例如,表示元音声的话音)的帧、过渡帧(例如,表示词的开始或结束的帧)及无声话音(例如,表示摩擦声的话音)的帧。帧分类可基于当前帧及/或一个或一个以上先前帧的一个或一个以上特征,例如帧能量、两个或两个以上不同频带中的每一者的帧能量、SNR、周期性、频谱倾斜及/或过零率。此种分类可包括将此种因数的值或量值与阈值进行比较及/或将此种因数的改变的量值与阈值进行比较。
可能需要配置话音编码器X10以使用不同译码位速率来编码不同类型的活动帧(例如,以平衡网络需求与容量)。此种操作称为“可变速率译码”。举例来说,可能需要配置话音编码器X10来以较高位速率(例如,全速率)编码过渡帧,以较低位速率(例如,四分之一速率)编码无声帧,且以中间位速率(例如,半速率)或以更高位速率(例如,全速率)编码有声帧。
图2展示译码方案选择器20的实施方案22可用以根据帧含有的话音的类型选择编码特定帧的位速率的决策树的一个实例。在其它情形下,针对特定帧所选择的位速率还可视例如所要平均位速率、在一系列帧上的所要位速率模式(其可用以支持所要平均位速率)及/或针对先前帧所选择的位速率等准则而定。
另外或在替代方案中,可能需要配置话音编码器X10以使用不同译码模式来编码不同类型的话音帧。此种操作称为“多模式译码”。举例来说,有声话音的帧倾向于具有长期(即,持续一个以上的帧周期)的周期性结构且与音高相关,且使用对此长期频谱特征的描述进行编码的译码模式来编码有声帧(或有声帧的序列)通常是更加有效的。此类译码模式的实例包括CELP、PWI及PPP。另一方面,无声帧及非活动帧通常缺少任何显著长期频谱特征,且话音编码器可经配置以使用例如NELP等不尝试描述此特征的译码模式来编码这些帧。
可能需要实施话音编码器X10以使用多模式译码,以使得根据基于(例如)周期性或发音的分类使用不同模式来编码帧。还可能需要实施话音编码器X10以针对不同类型的活动帧使用位速率与译码模式的不同组合(还称为“译码方案”)。话音编码器X10的此种实施方案的一个实例针对含有有声话音的帧及过渡帧使用全速率CELP方案,针对含有无声话音的帧使用半速率NELP方案,且针对非活动帧使用八分之一速率NELP方案。话音编码器X10的此类实施方案的其它实例支持针对一个或一个以上译码方案的多个译码速率,例如全速率及半速率CELP方案及/或全速率及四分之一速率PPP方案。多方案编码器、解码器及译码技术的实例描述于(例如)标题为“用于维持话音译码器中的目标位速率的方法及设备(METHODS AND APPARATUS FOR MAINTAINING ATARGET BIT RATE IN A SPEECH CODER)”的美国专利第6,330,532号中及标题为“可变速率话音译码(VARIABLE RATE SPEECH CODING)”的美国专利第6,691,084号中;及标题为“闭环可变速率多模式预测话音译码器(CLOSED-LOOP VARIABLE-RATEMULTIMODE PREDICTIVE SPEECH CODER)”的美国专利申请案第09/191,643号中及标题为“用于可变速率译码器的任意平均数据速率(ARBITRARY AVERAGE DATARATES FOR VARIABLE RATE CODERS)”的美国专利申请案第11/625,788号中。
图1B展示包括活动帧编码器30的多个实施方案30a、30b的话音编码器X10的实施方案X20的框图。编码器30a经配置以使用第一译码方案(例如,全速率CELP)来编码第一类活动帧(例如,有声帧),且编码器30b经配置以使用具有与第一译码方案不同的位速率及/或译码模式的第二译码方案(例如,半速率NELP)来编码第二类活动帧(例如,无声帧)。在此情形下,选择器52a及52b经配置以根据由译码方案选择器22产生的具有两个以上可能状态的译码方案选择信号的状态在各种帧编码器中进行选择。明确地揭示,话音编码器X20可以支持从活动帧编码器30的两个以上不同实施方案中进行选择的方式进行扩展。
话音编码器X20的帧编码器中的一者或一者以上可共享共同结构。举例来说,此类编码器可共享LPC系数值的计算器(可能经配置以针对不同类的帧产生具有不同阶数的结果),但具有分别不同的时间描述计算器。举例来说,编码器30a及30b可具有不同激励信号计算器。
如图1B中所展示,话音编码器X10还可经实施以包括噪声抑制器10。噪声抑制器10经配置及布置以对音频信号S10执行噪声抑制操作。此种操作可支持译码方案选择器20对活动与非活动帧之间的改进辨别及/或活动帧编码器30及/或非活动帧编码器40的更佳编码结果。噪声抑制器10可经配置以将不同相应增益因数应用到音频信号的两个或两个以上不同频率信道中的每一者,其中每一信道的增益因数可基于信道的噪声能量或SNR的估计。如与时域相对,可能需要在频域中执行此种增益控制,且此种配置的一个实例描述于上文提及的3GPP2标准文件C.S0014-C的章节4.4.3中。或者,噪声抑制器10可经配置以可能在频域中将自适应滤波器应用到音频信号。欧洲电信标准协会(ETSI)文件ES 2020505v1.1.5(2007年1月,以www.etsi.org在线可得)的章节5.1描述从非活动帧估计噪声频谱且基于所计算的噪声频谱对音频信号执行两阶段梅尔弯曲维纳(mel-warped Wiener)滤波的此种配置的实例。
图3A展示根据一般配置的设备X100的框图(还称为编码器、编码设备或用于编码的设备)。设备X100经配置以从音频信号S10移除现存上下文且将其取代为可能类似或不同于现存上下文的所产生上下文。设备X100包括经配置及布置以处理音频信号S10以产生上下文经增强音频信号S15的上下文处理器100。设备X100还包括话音编码器X10的实施方案(例如,话音编码器X20),其经布置以编码上下文经增强音频信号S15以产生经编码音频信号S20。包括例如蜂窝式电话的设备X100的通信装置可经配置以在将经编码音频信号S20传输到有线、无线或光学传输信道(例如,通过一个或一个以上载波的射频调制)中之前对经编码音频信号S20执行进一步处理操作,例如错误校正、冗余及/或协议(例如,以太网络、TCP/IP、CDMA2000)译码。
图3B展示上下文处理器100的实施方案102的框图。上下文处理器102包括经配置及布置以抑制音频信号S10的上下文分量以产生上下文受抑制音频信号S13的上下文抑制器110。上下文处理器102还包括经配置以根据上下文选择信号S40的状态产生所产生上下文信号S50的上下文产生器120。上下文处理器102还包括经配置及布置以将上下文受抑制音频信号S13与所产生上下文信号S50进行混合以产生上下文经增强音频信号S15的上下文混合器190。
如图3B中所示,上下文抑制器110经布置以在进行编码之前从音频信号抑制现存上下文。上下文抑制器110可实施为如上文所描述的噪声抑制器10的更加冒进的版本(例如,通过使用一个或一个以上不同阈值)。替代地或另外,上下文抑制器110可经实施以使用来自两个或两个以上麦克风的音频信号以抑制音频信号S10的上下文分量。图3G展示包括上下文抑制器110的此种实施方案110A的上下文处理器102的实施方案102A的框图。上下文抑制器110A经配置以抑制音频信号S10的上下文分量,举例来说,其基于由第一麦克风产生的音频信号。上下文抑制器110A经配置以通过使用基于由第二麦克风产生的音频信号的音频信号SA1(例如,另一数字音频信号)而执行此种操作。多麦克风上下文抑制的合适实例揭示于(例如)代理人案号为061521的标题为“噪声及回音减少的设备及方法(APPARATUS AND METHOD OF NOISE AND ECHOREDUCTION)”(超翼(Choy)等人)的美国专利申请案第11/864,906号中,及代理人案号为080551的标题为“用于信号分离的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FOR SIGNAL SEPARATION)”(维瑟(Visser)等人)的美国专利申请案第12/037,928号中。上下文抑制器110的多麦克风实施方案还可经配置以向译码方案选择器20的对应实施方案提供信息,以用于根据(例如)代理人案号为061497的标题为“多麦克风语音活动性检测器(MULTIPLE MICROPHONE VOICE ACTIVITYDETECTOR)”(超翼(Choy)等人)的美国专利申请案第11/864,897号中揭示的技术而改进话音活动性检测性能。
图3C到图3F展示两个麦克风K10及K20在包括设备X100的此种实施方案的便携式装置(例如蜂窝式电话或其它移动用户终端)中或在经配置以经由到此种便携式装置的有线或无线(例如,蓝牙)连接进行通信的免提式装置(例如耳机或头戴式耳机)中的各种安装配置。在这些实例中,麦克风K10经布置以产生主要含有话音分量(例如,音频信号S10的模拟前体(analog precursor))的音频信号,且麦克风K20经布置以产生主要含有上下文分量(例如,音频信号SA1的模拟前体)的音频信号。图3C展示其中麦克风K10安装于装置的正面之后且麦克风K20安装于装置的顶面之后的布置的一个实例。图3D展示其中麦克风K10安装于装置的正面之后且麦克风K20安装于装置的侧面之后的布置的一个实例。图3E展示其中麦克风K10安装于装置的正面之后且麦克风K20安装于装置的底面之后的布置的一个实例。图3F展示其中麦克风K10安装于装置的正面(或内面)之后且麦克风K20安装于装置的背面(或外面)之后的布置的一个实例。
上下文抑制器110可经配置以对音频信号执行频谱相减操作。频谱相减可预期抑制具有固定统计量的上下文分量,但对于抑制非固定的上下文可能无效。频谱相减可用于具有一个麦克风的应用中以及其中来自多个麦克风的信号可用的应用中。在典型实例中,上下文抑制器110的此种实施方案经配置以分析音频信号的非活动帧以导出对现存上下文的统计学描述,例如若干频率子带(还称为“频率组(frequency bin)”)中的每一者中的上下文分量的能量级,且将对应频率选择性增益应用到音频信号(例如,以基于对应上下文能量级衰减频率子带中的每一者上的音频信号)。频谱相减操作的其它实例描述于S.F.波尔(S.F.Boll)的“使用频谱相减抑制话音中的声学噪声(Suppression ofAcoustic Noise in Speech Using Spectral Subtraction)”(IEEE汇刊,声学、话音及信号处理(IEEE Trans.Acoustics,Speech and Signal Processing),27(2):112-120,1979年4月)中;R.穆凯(R.Mukai)、S.阿拉奇(S.Araki)、H.萨瓦达(H.Sawada)及S.玛奇诺(S.Makino)的“使用LMS滤波器移除盲源分离中的残余串音分量(Removal of residualcrosstalk components in blind source separation using LMS filters)”(关于用于信号处理的神经网络的第12届IEEE专题讨论会的会议记录(Proc.of 12th IEEE Workshop on NeuralNetworks for Signal Processing),第435-444页,瑞士,马堤尼(Martigny,Switzerland),2002年9月)中;及R.穆凯(R.Mukai)、S.阿拉奇(S.Araki)、H.萨瓦达(H.Sawada)及S.玛奇诺(S.Makino)的“使用延时频谱相减移除盲源分离中的残余串音分量(Removalof residual cross-talk components in blind source separation using time-delayed spectralsubtraction)”(ICASSP 2002的会议记录(Proc.of ICASSP 2002),第1789-1792页,2002年5月)中。
另外或在替代实施方案中,上下文抑制器110可经配置以对音频信号执行盲源分离(BSS,还称为独立分量分析)操作。盲源分离可用于来自一个或一个以上麦克风(除了用于捕获音频信号S10的麦克风之外)的信号可用的应用中。盲源分离可预期抑制固定的上下文以及具有非固定统计的上下文。描述于美国专利6,167,417(葩拉(Parra)等人)中的BSS操作的一个实例使用梯度下降法来计算用以分离源信号的滤波器的系数。BSS操作的其它实例描述于S.阿玛里(S.Amari)、A.斯超奇(A.Cichocki)及H.H.杨(H.H.Yang)的“用于盲信号分离的新学习算法(A new learning algorithm for blind signalseparation)”(神经信息处理系统8的进步(Advances in Neural Information ProcessingSystems 8),MIT出版社(MIT Press),1996年)中;L.莫尔哥狄(L.Molgedey)及H.G.斯库斯特(H.G.Schuster)的“使用延时相关分离独立信号的混合(Separation of amixture of independent signals using time delayed correlations)”(物理评论快报(Phys.Rev.Lett.),72(23):3634-3637,1994年)中;及L.葩拉(L.Parra)及C.斯奔思(C.Spence)的“非固定源的卷积盲源分离(Convolutive blind source separation of non-stationarysources)”(IEEE汇刊(IEEE Trans.),论话音及音频处理(on Speech and AudioProcessing),8(3):320-327,2000年5月)中。另外或在上文论述的实施方案的替代方案中,上下文抑制器100可经配置以执行波束成形操作。波束成形操作的实例揭示于(例如)上文提及的美国专利申请案第11/864,897号(代理人案号061497)中及H.塞卢瓦塔里(H.Saruwatari)等人的“将独立分量分析与波束成形组合的盲源分离(Blind SourceSeparation Combining Independent Component Analysis and Beamforming)”(关于应用信号处理的EURASIP期刊(EURASIP Journal on Applied Signal Processing),2003:11,1135-1146(2003年))中。
彼此靠近地定位的麦克风(例如安装于例如蜂窝式电话或免提式装置的护罩的共同外壳内的麦克风)可产生具有高瞬时相关的信号。所属领域的技术人员还将认识到,一个或一个以上麦克风可放置于共同外壳(即,整个装置的护罩)内的麦克风外壳中。此种相关可降级BSS操作的性能,且在此类情形下可能需要在BSS操作之前解相关音频信号。解相关还通常对于回音消除为有效的。解相关器可实施为具有五个或更少的抽头(tap)或甚至三个或更少的抽头的滤波器(可能为自适应滤波器)。此种滤波器的抽头权重可为固定的,或可根据输入音频信号的相关特性进行选择,且可能需要使用网格滤波器结构来实施解相关滤波器。上下文抑制器110的此种实施方案可经配置以对音频信号的两个或两个以上不同频率子带中的每一者执行分离的解相关操作。
上下文抑制器110的实施方案可经配置以在BSS操作之后至少对经分离话音分量执行一个或一个以上额外处理操作。举例来说,可能需要上下文抑制器110至少对经分离话音分量执行解相关操作。可单独地对经分离话音分量的两个或两个以上不同频率子带中的每一者执行此种操作。
另外或在替代方案中,上下文抑制器110的实施方案可经配置以基于经分离上下文分量对经分离话音分量执行非线性处理操作,例如频谱相减。可进一步从话音分量抑制现存上下文的频谱相减可根据经分离上下文分量的对应频率子带的电平而实施为随时间推移而变化的频率选择性增益。
另外或在替代方案中,上下文抑制器110的实施方案可经配置以对经分离话音分量执行中心削波操作。此种操作通常将增益应用到与信号电平及/或话音活动性电平成比例地随时间推移而变化的信号。中心削波操作的一个实例可表达为y[n]={对于|x[n]|<C,0;否则,x[n]},其中x[n]为输入样本,y[n]为输出样本,且C为削波阈值的值。中心削波操作的另一实例可表达为y[n]={对于|x[n]|<C,0;否则,sgn(x[n])(|x[n]|-C)},其中sgn(x[n])指示x[n]的正负号。
可能需要配置上下文抑制器110以大致上完全从音频信号移除现存上下文分量。举例来说,可能需要设备X100用不同于现存上下文分量的所产生上下文信号S50取代现存上下文分量。在此种情形下,现存上下文分量的大致上完全移除可能有助于减少经解码音频信号中现存上下文分量与取代上下文信号之间的可听见的干扰。在另一实例中,可能需要设备X100经配置以隐藏现存上下文分量,不管是否还将所产生上下文信号S50相加到音频信号。
可能需要将上下文处理器100实施为可在两个或两个以上不同操作模式之间配置。举例来说,可能需要提供:(A)第一操作模式,其中上下文处理器100经配置以在现存上下文分量大致上保持不变的情形下传递音频信号;及(B)第二操作模式,其中上下文处理器100经配置以大致上完全移除现存上下文分量(可能将其取代为所产生上下文信号S50)。对此种第一操作模式的支持(其可配置为默认模式)可能对允许包括设备X100的装置的向后兼容性有用。在第一操作模式中,上下文处理器100可经配置以对音频信号执行噪声抑制操作(例如,如上文关于噪声抑制器10所描述)以产生噪声受抑制音频信号。
上下文处理器100的另外实施方案可类似地经配置以支持两个以上操作模式。举例来说,此另外实施方案可为可配置的以根据在从至少大致上无上下文抑制(例如,仅噪声抑制)到部分上下文抑制到至少大致上完全上下文抑制的范围中的三个或三个以上模式中的可选模式而改变现存上下文分量受抑制的程度。
图4A展示包括上下文处理器100的实施方案104的设备X100的实施方案X102的框图。上下文处理器104经配置以根据处理控制信号S30的状态而以上文描述的两个或两个以上模式中的一者进行操作。处理控制信号S30的状态可由用户控制(例如,经由图形用户接口、开关或其它控制接口),或者可由处理控制产生器340(如图16中所说明)产生处理控制信号S30,所述处理控制信号S30包括例如表等将一个或一个以上变量(例如,物理位置、操作模式)的不同值与处理控制信号S30的不同状态相关联的加索引数据结构。在一个实例中,处理控制信号S30被实施为二进制值信号(即,旗标),其状态指示将传递还是抑制现存上下文分量。在此种情形下,上下文处理器104可以第一模式进行配置以通过停用其元件中的一者或一者以上及/或从信号路径中移除此类元件(即,允许音频信号绕过所述元件)而传递音频信号S10,且可以第二模式进行配置以通过启用此类元件及/或将其插入于信号路径中而产生上下文经增强音频信号S15。或者,上下文处理器104可以第一模式进行配置以对音频信号S10执行噪声抑制操作(例如,如上文关于噪声抑制器10所描述),且可以第二模式进行配置以对音频信号S10执行上下文取代操作。在另一实例中,处理控制信号S30具有两个以上可能状态,每一状态对应于上下文处理器的在从至少大致上无上下文抑制(例如,仅噪声抑制)到部分上下文抑制到至少大致上完全的上下文抑制的范围中的三个或三个以上操作模式中的一个不同模式。
图4B展示上下文处理器104的实施方案106的框图。上下文处理器106包括上下文抑制器110的实施方案112,其经配置以具有至少两个操作模式:第一操作模式,其中上下文抑制器112经配置以在现存上下文分量大致上保持不变的情形下传递音频信号S10,及第二操作模式,其中上下文抑制器112经配置以大致上完全从音频信号S10移除现存上下文分量(即,以产生上下文受抑制音频信号S13)。可能需要实施上下文抑制器112以使得第一操作模式为默认模式。可能需要实施上下文抑制器112以在第一操作模式中对音频信号执行噪声抑制操作(例如,如上文关于噪声抑制器10所描述)以产生噪声受抑制音频信号。
上下文抑制器112可经实施以使得在其第一操作模式中,绕过经配置以对音频信号执行上下文抑制操作的一个或一个以上元件(例如,一个或一个以上软件及/或固件例行程序)。替代地或另外,上下文抑制器112可经实施以通过改变此种上下文抑制操作(例如,频谱相减及/或BSS操作)的一个或一个以上阈值而以不同模式进行操作。举例来说,上下文抑制器112可以第一模式进行配置以应用第一组阈值来执行噪声抑制操作,且可以第二模式进行配置以应用第二组阈值来执行上下文抑制操作。
处理控制信号S30可用以控制上下文处理器104的一个或一个以上其它元件。图4B展示经配置以根据处理控制信号S30的状态进行操作的上下文产生器120的实施方案122的实例。举例来说,可能需要根据处理控制信号S30的对应状态将上下文产生器122实施为经停用(例如,以减少功率消耗)或以其它方式防止上下文产生器122产生所产生的上下文信号S50。另外或替代地,可能需要根据处理控制信号S30的对应状态将上下文混合器190实施为经停用或绕过,或以其它方式防止上下文混合器190将其输入音频信号与所产生上下文信号S50进行混合。
如上所述,话音编码器X10可经配置以根据音频信号S10的一个或一个以上特性从两个或两个以上帧编码器中进行选择。同样,在设备X100的实施方案内,可不同地实施译码方案选择器20以根据音频信号S10、上下文受抑制音频信号S13及/或上下文经增强音频信号S15的一个或一个以上特性产生编码器选择信号。图5A说明这些信号与话音编码器X10的编码器选择操作之间的各种可能的相关性。图6展示设备X100的特定实施方案X110的框图,其中译码方案选择器20经配置以基于上下文受抑制音频信号S13(如图5A中的点B所指示)的一个或一个以上特性(例如帧能量、两个或两个以上不同频带中的每一者的帧能量、SNR、周期性、频谱倾斜及/或过零率)产生编码器选择信号。明确地预期且特此揭示,图5A及图6中建议的设备X100的各种实施方案中的任一者还可经配置以包括根据处理控制信号S30(例如,如关于图4A、图4B所描述)的状态及/或三个或三个以上帧编码器(例如,如关于图1B所描述)中的一者的选择来控制上下文抑制器110。
可能需要实施设备X100以将噪声抑制及上下文抑制作为单独操作而执行。举例来说,可能需要将上下文处理器100的实施方案添加到具有话音编码器X20的现存实施方案的装置,而不移除、停用或绕过噪声抑制器10。图5B说明在包括噪声抑制器10的设备X100的实施方案中在基于音频信号S10的信号与话音编码器X20的编码器选择操作之间的各种可能的相关性。图7展示设备X100的特定实施方案X120的框图,其中译码方案选择器20经配置以基于噪声受抑制音频信号S12(如图5B中的点A所指示)的一个或一个以上特性(例如帧能量、两个或两个以上不同频带中的每一者的帧能量、SNR、周期性、频谱倾斜及/或过零率)产生编码器选择信号。明确地预期且特此揭示,图5B及图7中建议的设备X100的各种实施方案中的任一者还可经配置以包括根据处理控制信号S30(例如,如关于图4A、图4B所描述)的状态及/或三个或三个以上帧编码器(例如,如关于图1B所描述)中的一者的选择来控制上下文抑制器110。
上下文抑制器110还可经配置以包括噪声抑制器10,或可以其它方式可选择地进行配置以对音频信号S10执行噪声抑制。举例来说,可能需要设备X100根据处理控制信号S30的状态执行上下文抑制(其中现存上下文大致上从音频信号S10完全移除)或者噪声抑制(其中现存上下文大致上保持不变)。一般来说,上下文抑制器110还可经配置以在执行上下文抑制之前对音频信号S10及/或在执行上下文抑制之后对所得音频信号执行一个或一个以上其它处理操作(例如滤波操作)。
如上所述,现存话音编码器通常使用低位速率及/或DTX来编码非活动帧。因此,经编码非活动帧通常含有极少上下文的信息。视由上下文选择信号S40指示的特定上下文及/或上下文产生器120的特定实施方案而定,所产生上下文信号S50的声音质量及信息内容可能大于原始上下文的声音质量及信息内容。在此种情形下,可能需要使用比用来编码仅包括原始上下文的非活动帧的位速率高的位速率来编码包括所产生上下文信号S50的非活动帧。图8展示包括至少两个活动帧编码器30a、30b及译码方案选择器20及选择器50a、50b的对应实施方案的设备X100的实施方案X130的框图。在此实例中,设备X130经配置以基于上下文经增强信号(即,在将所产生上下文信号S50相加到上下文受抑制音频信号之后)执行译码方案选择。尽管此种布置可能导致语音活动性的错误检测,但其在使用较高位速率来编码上下文经增强静默帧的系统中也可能是合意的。
明确地指出,如关于图8所描述的两个或两个以上活动帧编码器及译码方案选择器20及选择器50a、50b的对应实施方案的特征还可包括于本文揭示的设备X100的其它实施方案中。
上下文产生器120经配置以根据上下文选择信号S40的状态产生所产生上下文信号S50。上下文混合器190经配置及布置以将上下文受抑制音频信号S13与所产生上下文信号S50进行混合以产生上下文经增强音频信号S15。在一个实例中,上下文混合器190实施为经布置以将所产生上下文信号S50相加到上下文受抑制音频信号S13的加法器。可能需要上下文产生器120以可与上下文受抑制音频信号兼容的形式产生所产生上下文信号S50。在设备X100的典型实施方案中,举例来说,所产生上下文信号S50及由上下文抑制器110产生的音频信号两者均为PCM样本的序列。在此种情形下,上下文混合器190可经配置以将所产生上下文信号S50与上下文受抑制音频信号S13(可能作为基于帧的操作)的对应样本对相加,但还可能实施上下文混合器190以对具有不同取样分辨率的信号进行相加。音频信号S10通常还实施为PCM样本的序列。在一些情形下,上下文混合器190经配置以对上下文经增强信号执行一个或一个以上其它处理操作(例如滤波操作)。
上下文选择信号S40指示两个或两个以上上下文中的至少一者的选择。在一个实例中,上下文选择信号S40指示基于现存上下文的一个或一个以上特征的上下文选择。举例来说,上下文选择信号S40可基于与音频信号S10的一个或一个以上非活动帧的一个或一个以上时间及/或频率特性有关的信息。译码模式选择器20可经配置而以此种方式产生上下文选择信号S40。或者,设备X100可经实施以包括经配置而以此种方式产生上下文选择信号S40的上下文分类器320(例如,如图7中所展示)。举例来说,上下文分类器可经配置以执行基于现存上下文的线频谱频率(LSF)的上下文分类操作,例如埃尔-马莱赫(El-Maleh)等人的“移动环境中的帧级噪声分类(Frame-level NoiseClassification in Mobile Environments)”(关于ASSP的IEEE国际会议的会议记录(Proc.IEEE Int′l Conf.ASSP),1999年,第I卷,第237-240页);美国专利第6,782,361号(埃尔-马莱赫(El-Maleh)等人);及钱(Qian)等人的“用于有效声音传输的分类舒适噪声产生(Classified Comfort Noise Generation for Efficient Voice Transmission)”(国际语音学学术会议2006(Interspeech 2006),宾夕法尼亚州,匹兹堡(Pittsburgh,PA),第225-228页)中描述的那些操作。
在另一实例中,上下文选择信号S40指示基于例如与包括设备X100的装置的物理位置有关的信息(例如,基于从全球定位卫星(GPS)系统获得,经由三角测量或其它测距操作计算,及/或从基站收发器或其它服务器接收的信息)的一个或一个以上其它准则的上下文选择、将不同时间或时间周期与对应上下文相关联的时间表,及用户选择的上下文模式(例如商务模式、舒缓模式、聚会模式)。在此类情形下,设备X100可经实施以包括上下文选择器330(例如,如图8中所展示)。上下文选择器330可经实施以包括将不同上下文与例如上文提及的准则的一个或一个以上变量的对应值相关联的一个或一个以上加索引数据结构(例如,表)。在另一实例中,上下文选择信号S40指示两个或两个以上上下文的列表中的一者的用户选择(例如,从例如菜单的图形用户接口)。上下文选择信号S40的另外的实例包括基于上文实例的任何组合的信号。
图9A展示包括上下文数据库130及上下文产生引擎140的上下文产生器120的实施方案122的框图。上下文数据库120经配置以存储描述不同上下文的若干组参数值。上下文产生引擎140经配置以根据根据上下文选择信号S40的状态而选择的一组所存储的参数值来产生上下文。
图9B展示上下文产生器122的实施方案124的框图。在此实例中,上下文产生引擎140的实施方案144经配置以接收上下文选择信号S40,且从上下文数据库130的实施方案134检索对应组的参数值。图9C展示上下文产生器122的另一实施方案126的框图。在此实例中,上下文数据库130的实施方案136经配置以接收上下文选择信号S40,且将对应组的参数值提供到上下文产生引擎140的实施方案146。
上下文数据库130经配置以存储两个或两个以上组的描述对应上下文的参数值。上下文产生器120的其它实施方案可包括上下文产生引擎140的实施方案,上下文产生引擎140的所述实施方案经配置以从例如服务器的内容提供者(例如,使用会话起始协议(SIP)的版本,如当前在RFC 3261中所描述,其以www.ietf.org在线可得)或其它非本地数据库或从对等网络下载对应于所选上下文的一组参数值(例如,如程(Cheng)等人的“协作性保密性经增强的阿利必电话(A Collaborative Privacy-Enhanced AlibiPhone)”,关于网格和普适计算的国际会议的会议记录(Proc.Int′l Conf.Grid andPervasive Computing),第405-414页,台湾,台中(Taichung,TW),2006年5月)中所描述)。
上下文产生器120可经配置而以经取样的数字信号形式(例如,如PCM样本的序列)检索或下载上下文。然而,由于存储及/或位速率限制,此种上下文可能将远远短于典型通信会话(例如,电话呼叫),从而要求在呼叫期间反复不断地重复相同上下文且导致对于收听者来说不可接受地分散注意力的结果。或者,可能将需要大量存储及/或高位速率下载连接以避免过度重复的结果。
或者,上下文产生引擎140可经配置以从例如一组频谱及/或能量参数值的所检索或所下载参数表示而产生上下文。举例来说,上下文产生引擎140可经配置以基于如可包括于SID帧中的对频谱包络(例如,LSF值的向量)的描述及对激励信号的描述而产生上下文信号S50的多个帧。上下文产生引擎140的此种实施方案可经配置以逐帧地随机化所述组参数值以减小对所产生上下文的重复的觉察。
可能需要上下文产生引擎140基于描述声音纹理(sound texture)的模板产生所产生上下文信号S50。在一个所述实例中,上下文产生引擎140经配置以基于包括多个不同长度的自然颗粒的模板执行颗粒合成。在另一实例中,上下文产生引擎140经配置以基于包括级联时间频率线性预测(CTFLP)分析(在CTFLP分析中,原始信号在频域中使用线性预测进行模型化,且此分析的剩余部分接着在频域中使用线性预测进行模型化)的时域及频域系数的模板执行CTFLP合成。在另一实例中,上下文产生引擎140经配置以基于包括多分辨分析(MRA)树的模板执行多分辨合成,所述多分辨分析(MRA)树描述至少一个基底函数在不同时间及频率标度处的系数(例如,例如多贝西(Daubechies)比例缩放函数的比例缩放函数的系数,及例如多贝西小波函数的小波函数的系数)。图10展示基于平均系数及详细系数的序列的所产生上下文信号S50的多分辨合成的一个实例。
可能需要上下文产生引擎140根据语音通信会话的预期长度产生所产生上下文信号S50。在一个所述实例中,上下文产生引擎140经配置以根据平均电话呼叫长度产生所产生上下文信号S50。平均呼叫长度的典型值在一到四分钟的范围内,且上下文产生引擎140可经实施以使用可根据用户选择而变化的默认值(例如,两分钟)。
可能需要上下文产生引擎140产生所产生上下文信号S50以包括基于相同模板的若干或许多不同上下文信号削波。所要数目的不同削波可设定为默认值或由设备X100的用户选择,且此数目的典型范围为五到二十。在一个所述实例中,上下文产生引擎140经配置以根据基于平均呼叫长度及不同削波的所要数目的削波长度计算不同削波中的每一者。削波长度通常比帧长度大一、二或三个数量级。在一个实例中,平均呼叫长度值为两分钟,不同削波的所要数目为十,且通过将两分钟除以十而计算削波长度为十二秒。
在此类情形下,上下文产生引擎140可经配置以产生所要数目的不同削波(各自基于相同模板且具有所计算的削波长度),且级联或以其它方式组合这些削波以产生所产生上下文信号S50。上下文产生引擎140可经配置以重复所产生上下文信号S50(如果必要)(例如,假如通信的长度超过平均呼叫长度)。可能需要配置上下文产生引擎140以根据音频信号S10从有声到无声帧的过渡产生新削波。
图9D展示用于产生所产生上下文信号S50的可由上下文产生引擎140的实施方案执行的方法M100的流程图。任务T100基于平均呼叫长度值及不同削波的所要数目计算削波长度。任务T200基于模板产生所要数目的不同削波。任务T300将削波进行组合以产生所产生上下文信号S50。
任务T200可经配置以从包括MRA树的模板产生上下文信号削波。举例来说,任务T200可经配置以通过产生统计学上类似于模板树的新MRA树且根据所述新树合成上下文信号削波而产生每一削波。在此种情形下,任务T200可经配置以将新MRA树产生为模板树的复本,其中一个或一个以上(可能全部)序列的一个或一个以上(可能全部)系数由具有类似祖系体(ancestor)(即,在较低分辨率下的序列中)及/或前体(predecessor)(即,在相同序列中)的模板树的其它系数取代。在另一实例中,任务T200经配置以根据通过向一组模板系数值的复本的每一值加上小随机值而计算的一组新系数值产生每一削波。
任务T200可经配置以根据音频信号S10及/或基于其的信号(例如,信号S12及/或S13)的一个或一个以上特征而按比例缩放上下文信号削波中的一者或一者以上(可能全部)。所述特征可包括信号电平、帧能量、SNR、一个或一个以上梅尔频率倒谱系数(MFCC)及/或对信号的语音活动性检测操作的一个或一个以上结果。对于任务T200经配置以从所产生的MRA树合成削波的情形来说,任务T200可经配置以对所产生MRA树的系数执行此种按比例缩放。上下文产生器120的实施方案可经配置以执行任务T200的此种实施方案。另外或在替代方案中,任务T300可经配置以对经组合的所产生上下文信号执行此种按比例缩放。上下文混合器190的实施方案可经配置以执行任务T300的此种实施方案。
任务T300可经配置以根据相似性的测量组合上下文信号削波。任务T300可经配置以级联具有类似MFCC向量的削波(例如,根据候选削波组上的MFCC向量的相对相似性级联削波)。举例来说,任务T200可经配置以最小化相邻削波的MFCC向量之间的在经组合削波串上计算的总距离。对于任务T200经配置以执行CTFLP合成的情形来说,任务T300可经配置以级联或以其它方式组合从类似系数产生的削波。举例来说,任务T200可经配置以最小化相邻削波的LPC系数之间的在经组合削波串上计算的总距离。任务T300还可经配置以串连具有类似边界瞬变的削波(例如,避免从一个削波到下一削波的可听见的不连续性)。举例来说,任务T200可经配置以最小化相邻削波的边界区域上的能量之间的在经组合削波串上计算的总距离。在这些实例中的任一者中,任务T300可经配置以使用叠加(overlap-and-add)或交叉淡化(cross-fade)操作(而非级联)来组合相邻削波。
如上文所描述,上下文产生引擎140可经配置以基于可以允许低存储成本及扩展非重复产生的紧密表示形式下载或检索的对声音纹理的描述而产生所产生上下文信号S50。此等技术亦可应用于视频或视听应用。举例来说,设备X100的具有视频能力的实施方案可经配置以执行多分辨合成操作以增强或取代视听通信的视觉上下文(例如,背景及/或照明特性)。
上下文产生引擎140可经配置以贯穿通信会话(例如,电话呼叫)重复地产生随机MRA树。由于可预期较大树需要较长时间产生,所以可基于对延迟的容许度选择MRA树的深度。在另一实例中,上下文产生引擎140可经配置以使用不同模板产生多个短MRA树,及/或选择多个随机MRA树,且混合及/或级联这些树中的两者或两者以上以获得样本的较长序列。
可能需要配置设备X100以根据增益控制信号S90的状态控制所产生上下文信号S50的电平。举例来说,上下文产生器120(或其元件,例如上下文产生引擎140)可经配置以根据增益控制信号S90的状态(可能通过对所产生上下文信号S50或对信号S50的前体执行按比例缩放操作(例如,对模板树或从模板树产生的MRA树的系数))以特定电平产生所产生上下文信号S50。在另一实例中,图13A展示包括按比例缩放器(例如,乘法器)的上下文混合器190的实施方案192的框图,所述按比例缩放器经布置以根据增益控制信号S90的状态对所产生上下文信号S50执行按比例缩放操作。上下文混合器192还包括经配置以将经按比例缩放的上下文信号相加到上下文受抑制音频信号S13的加法器。
包括设备X100的装置可经配置以根据用户选择来设定增益控制信号S90的状态。举例来说,此种装置可装备有音量控制(例如,开关或旋钮,或提供此种功能性的图形用户接口),装置的用户可通过所述音量控制选择所产生上下文信号S50的所要电平。在此情形下,装置可经配置以根据所选电平设定增益控制信号S90的状态。在另一实例中,此种音量控制可经配置以允许用户选择所产生上下文信号S50相对于话音分量的(例如,上下文受抑制音频信号S13的)电平的所要电平。
图11A展示包括增益控制信号计算器195的上下文处理器102的实施方案108的框图。增益控制信号计算器195经配置以根据可随时间推移而改变的信号S13的电平计算增益控制信号S90。举例来说,增益控制信号计算器195可经配置以基于信号S13的活动帧的平均能量来设定增益控制信号S90的状态。另外或在任一此种情形的替代方案中,包括设备X100的装置可装备有音量控制,所述音量控制经配置以允许用户直接控制话音分量(例如,信号S13)或上下文经增强音频信号S15的电平,或间接控制此种电平(例如,通过控制前驱信号的电平)。
设备X100可经配置以控制所产生上下文信号S50相对于音频信号S10、S12及S13中的一者或一者以上的电平的电平,其可随时间推移而变化。在一个实例中,设备X100经配置以根据音频信号S10的原始上下文的电平控制所产生上下文信号S50的电平。设备X100的此种实施方案可包括经配置以根据在活动帧期间上下文抑制器110的输入电平与输出电平之间的关系(例如,差别)来计算增益控制信号S90的增益控制信号计算器195的实施方案。举例来说,此种增益控制计算器可经配置以根据音频信号S10的电平与上下文受抑制音频信号S13的电平之间的关系(例如,差别)来计算增益控制信号S90。此种增益控制计算器可经配置以根据音频信号S10的可从信号S10及S13的活动帧的电平而计算的SNR来计算增益控制信号S90。此种增益控制信号计算器可经配置以基于随时间推移而平滑化(例如,平均化)的输入电平来计算增益控制信号S90,及/或可经配置以输出随时间推移而平滑化(例如,平均化)的增益控制信号S90。
在另一实例中,设备X100经配置以根据所要SNR控制所产生上下文信号S50的电平。可特征化为上下文经增强音频信号S15的活动帧中的话音分量(例如,上下文受抑制音频信号S13)的电平与所产生上下文信号S50的电平之间的比率的SNR还可称为“信号上下文比(signal-to-context ratio)”。所要SNR值可为用户选择的,及/或在不同所产生上下文中不同。举例来说,不同所产生上下文信号S50可与不同对应所要SNR值相关联。所要SNR值的典型范围为20dB到25dB。在另一实例中,设备X100经配置以控制所产生上下文信号S50(例如,背景信号)的电平为小于上下文受抑制音频信号S13(例如,前景信号)的电平。
图11B展示包括增益控制信号计算器195的实施方案197的上下文处理器102的实施方案109的框图。增益控制计算器197经配置及布置以根据(A)所要SNR值与(B)信号S13与S50的电平之间的比率之间的关系来计算增益控制信号S90。在一个实例中,如果所述比率小于所要SNR值,则增益控制信号S90的对应状态致使上下文混合器192以较高电平混合所产生上下文信号S50(例如,以在将所产生上下文信号S50相加到上下文受抑制信号S13之前提高所产生上下文信号S50的电平),且如果所述比率大于所要SNR值,则增益控制信号S90的对应状态致使上下文混合器192以较低电平混合所产生上下文信号S50(例如,以在将信号S50相加到信号S13之前降低信号S50的电平)。
如上文所描述,增益控制信号计算器195经配置以根据一个或一个以上输入信号(例如,S10、S13、S50)中的每一者的电平来计算增益控制信号S90的状态。增益控制信号计算器195可经配置以将输入信号的电平计算为在一个或一个以上活动帧上进行平均的信号振幅。或者,增益控制信号计算器195可经配置以将输入信号的电平计算为在一个或一个以上活动帧上进行平均的信号能量。通常,帧的能量计算为帧的平方样本的和。可能需要配置增益控制信号计算器195以对所计算电平及/或增益控制信号S90中的一者或一者以上进行滤波(例如,平均化或平滑化)。举例来说,可能需要配置增益控制信号计算器195以计算例如S10或S13的输入信号的帧能量的运行平均值(例如,通过将一阶或更高阶的有限脉冲响应或无限脉冲响应滤波器应用到信号的经计算的帧能量),且使用平均能量来计算增益控制信号S90。同样,可能需要配置增益控制信号计算器195以在将增益控制信号S90输出到上下文混合器192及/或上下文产生器120之前将此种滤波器应用到增益控制信号S90。
音频信号S10的上下文分量的电平可能独立于话音分量的电平而改变,且在此种情形下,可能需要对应地改变所产生上下文信号S50的电平。举例来说,上下文产生器120可经配置以根据音频信号S 10的SNR改变所产生上下文信号S50的电平。以此种方式,上下文产生器120可经配置以控制所产生上下文信号S50的电平从而接近音频信号S10中的原始上下文的电平。
为维持独立于话音分量的上下文分量的错觉,可能需要即使信号电平改变也要维持恒定上下文电平。举例来说,归因于说话者的嘴对于麦克风的方位的改变或归因于例如音量调制或另一表达性效果的说话者语音的改变而可能发生信号电平的改变。在此种情形下,可能需要所产生上下文信号S50的电平在通信会话(例如,电话呼叫)的持续时间内保持恒定。
如本文描述的设备X100的实施方案可包括于经配置用于语音通信或存储的任何类型的装置中。此种装置的实例可包括(但不限于)以下各物:电话、蜂窝式电话、头戴式耳机(例如,经配置以经由BluetoothTM无线协议的版本与移动用户终端全双工地进行通信的耳机)、个人数字助理(PDA)、膝上型计算机、语音记录器、游戏机、音乐播放器、数字相机。所述装置还可配置为用于无线通信的移动用户终端,以使得如本文所描述的设备X100的实施方案可包括于其内,或可以其它方式经配置以向装置的发射器或收发器部分提供经编码音频信号S20。
用于语音通信的系统(例如用于有线及/或无线电话的系统)通常包括若干发射器及接收器。发射器及接收器可经集成或以其它方式作为收发器一起实施于共同外壳内。可能需要将设备X100实施为对发射器或收发器的具有足够可用处理、存储及可升级性的升级。举例来说,可通过将上下文处理器100的元件(例如,在固件更新中)添加到已包括话音编码器X10的实施方案的装置而实现设备X100的实施方案。在一些情形下,可执行此种升级而不改变通信系统的任何其它部分。举例来说,可能需要升级通信系统中的发射器中的一者或一者以上(例如,用于无线蜂窝式电话的系统中的一个或一个以上移动用户终端中的每一者的发射器部分)以包括设备X100的实施方案,而不对接收器作出任何对应改变。可能需要以使得所得装置保持为向后可兼容(例如,以使得装置保持为能够执行全部或大致上全部的不涉及上下文处理器100的使用的其先前操作)的方式执行升级。
对于设备X100的实施方案用以将所产生上下文信号S50插入于经编码音频信号S20中的情形来说,可能需要说话者(即,包括设备X100的实施方案的装置的用户)能够监视传输。举例来说,可能需要说话者能够听到所产生上下文信号S50及/或上下文经增强音频信号S15。此种能力对于所产生上下文信号S50不同于现存上下文的情形来说可为尤其需要的。
因此,包括设备X100的实施方案的装置可经配置以将所产生上下文信号S50及上下文经增强音频信号S15中的至少一者反馈到耳机、扬声器或位于装置的外壳内的其它音频转变器;到位于装置的外壳内的音频输出插口;及/或到位于装置的外壳内的短程无线发射器(例如,如符合由蓝牙技术联盟(Bluetooth Special Interest Group)在华盛顿州(WA)的贝尔维尤(Bellevue)发布的蓝牙协议的版本及/或另一个人区域网络协议的发射器)。此种装置可包括经配置及布置以从所产生上下文信号S50或上下文经增强音频信号S15产生模拟信号的数/模转换器(DAC)。此种装置还可经配置以在将模拟信号应用到插口及/或转变器之前对其执行一个或一个以上模拟处理操作(例如,滤波、均等化及/或放大)。设备X100可能(但不必)经配置以包括此种DAC及/或模拟处理路径。
在语音通信的解码器端处(例如,在接收器处或在检索后),可能需要以类似于上文描述的编码器侧技术的方式取代或增强现存上下文。还可能需要实施此种技术而不要求改变对应发射器或编码设备。
图12A展示经配置以接收经编码音频信号S20且产生对应经解码音频信号S 110的话音解码器R10的框图。语音解码器R10包括译码方案检测器60、活动帧解码器70及非活动帧解码器80。经编码音频信号S20为可由话音编码器X10产生的数字信号。解码器70及80可经配置以对应于如上文所描述的话音编码器X10的编码器,以使得活动帧解码器70经配置以解码已由活动帧编码器30进行编码的帧,且非活动帧解码器80经配置以解码已由非活动帧编码器40进行编码的帧。语音解码器R10通常还包括经配置以处理经解码音频信号S110以减少量化噪声(例如,通过强调共振峰频率及/或衰减频谱谷值)的后滤波器(postfilter),且还可包括自适应增益控制。包括解码器R10的装置可包括经配置及布置以从经解码音频信号S110产生模拟信号以供输出到耳机、扬声器或其它音频转变器及/或位于装置的外壳内的音频输出插口的数/模转换器(DAC)。此种装置还可经配置以在将模拟信号应用到插口及/或转变器之前对其执行一个或一个以上模拟处理操作(例如,滤波、均等化及/或放大)。
译码方案检测器60经配置以指示对应于经编码音频信号S20的当前帧的译码方案。适当的译码位速率及/或译码模式可由帧的格式指示。译码方案检测器60可经配置以执行速率检测或从设备(话音解码器R10嵌埋于其内)的另一部分(例如多路复用子层)接收速率指示。举例来说,译码方案检测器60可经配置以从多路复用子层接收指示位速率的包类型指示符。或者,译码方案检测器60可经配置以从例如帧能量的一个或一个以上参数确定经编码帧的位速率。在一些应用中,译码系统经配置以针对特定位速率仅使用一个译码模式,以使得经编码帧的位速率还指示译码模式。在其它情形下,经编码帧可包括例如一组一个或一个以上位的识别对帧进行编码所根据的译码模式的信息。此种信息(还称为“译码索引”)可明确地或隐含地指示译码模式(例如,通过指示对于其它可能的译码模式来说无效的值)。
图12A展示由译码方案检测器60产生的译码方案指示用以控制话音解码器R10的一对选择器90a及90b以选择活动帧解码器70及非活动帧解码器80中的一者的实例。注意,话音解码器R10的软件或固件实施方案可使用译码方案指示来引导对帧解码器中的一者或另一者的执行的流程,且此种实施方案可能不包括针对选择器90a及/或选择器90b的模拟。图12B展示支持对以多个译码方案进行编码的活动帧的解码的话音解码器R10的实施方案R20的实例,其特征可包括于本文描述的其它话音解码器实施方案中的任一者中。语音解码器R20包括译码方案检测器60的实施方案62;选择器90a、90b的实施方案92a、92b;及活动帧解码器70的实施方案70a、70b,其经配置以使用不同译码方案(例如,全速率CELP及半速率NELP)来解码经编码的帧。
活动帧解码器70或非活动帧解码器80的典型实施方案经配置以从经编码帧提取LPC系数值(例如,经由反量化,继之以经反量化向量向LPC系数值形式的转换),且使用那些值来配置合成滤波器。根据来自经编码帧的其它值及/或基于伪随机噪声信号计算或产生的激励信号用以激励合成滤波器以再现对应经解码帧。
注意,两个或两个以上的帧解码器可共享共同结构。举例来说,解码器70及80(或解码器70a、70b及80)可共享LPC系数值的计算器,其可能经配置以产生针对活动帧与非活动帧具有不同阶数的结果,但具有分别不同的时间描述计算器。还注意,话音解码器R10的软件或固件实施方案可使用译码方案检测器60的输出来引导对帧解码器中的一者或另一者的执行的流程,且此种实施方案可能不包括针对选择器90a及/或选择器90b的模拟。
图13B展示根据一般配置的设备R100(还称为解码器、解码设备或用于解码的设备)的框图。设备R100经配置以从经解码音频信号S110移除现存上下文且将其取代为可能类似于或不同于现存上下文的所产生上下文。除话音解码器R10的元件之外,设备R100包括经配置及布置以处理音频信号S110以产生上下文经增强音频信号S115的上下文处理器100的实施方案200。包括设备R100的例如蜂窝式电话的通信装置可经配置以对从有线、无线或光学传输信道(例如,经由一个或一个以上载波的射频解调制)接收的信号执行处理操作,例如错误校正、冗余及/或协议(例如,以太网络、TCP/IP、CDMA2000)译码,以获得经编码音频信号S20。
如图14A中所展示,上下文处理器200可经配置以包括上下文抑制器110的例子210,上下文产生器120的例子220及上下文混合器190的例子290,其中所述例子根据上文关于图3B及图4B描述的各种实施方案中的任一者进行配置(除上下文抑制器110的使用来自如上文所描述的多个麦克风的信号的实施方案可能不适合用于设备R100中以外)。举例来说,上下文处理器200可包括经配置以对音频信号S110执行如上文关于噪声抑制器10所描述的噪声抑制操作的冒进实施方案(例如维纳(Wiener)滤波操作)以获得上下文受抑制音频信号S113的上下文抑制器110的实施方案。在另一实例中,上下文处理器200包括上下文抑制器110的实施方案,上下文抑制器110的所述实施方案经配置以根据如上文所描述的现存上下文(例如,音频信号S110的一个或一个以上非活动帧的)的统计学描述对音频信号S110执行频谱相减操作以获得上下文受抑制音频信号S113。另外或在对于任一此种情形的替代方案中,上下文处理器200可经配置以对音频信号S110执行如上文所描述的中心削波操作。
如上文关于上下文抑制器100所描述,可能需要将上下文抑制器200实施为可在两个或两个以上不同操作模式中进行配置(例如,从无上下文抑制到大致上完全上下文抑制的范围)。图14B展示包括经配置以根据处理控制信号S30的例子S130的状态进行操作的上下文抑制器112的例子212及上下文产生器122的例子222的设备R100的实施方案R110的框图。
上下文产生器220经配置以根据上下文选择信号S40的例子S140的状态产生所产生上下文信号S50的例子S150。控制两个或两个以上上下文中的至少一者的选择的上下文选择信号S 140的状态可能是基于一个或一个以上准则,例如:与包括设备R100的装置的物理位置有关的信息(例如,基于GPS及/或上文论述的其它信息)、将不同时间或时间周期与对应上下文相关联的时间表、呼叫者的身份(例如,如经由呼叫号码识别(CNID)进行确定,还称为“自动号码识别”(ANI)或呼叫者ID信令)、用户选择的设定或模式(例如商务模式、舒缓模式、聚会模式),及/或两个或两个以上上下文的列表中的一者的用户选择(例如,经由例如菜单的图形用户接口)。举例来说,设备R100可经实施以包括如上文所描述的将此种准则的值与不同上下文相关联的上下文选择器330的例子。在另一实例中,设备R100经实施以包括如上文所描述的经配置以基于音频信号S110的现存上下文的一个或一个以上特性(例如,与音频信号S110的一个或一个以上非活动帧的一个或一个以上时间及/或频率特性有关的信息)产生上下文选择信号S140的上下文分类器320的例子。上下文产生器220可根据如上文所描述的上下文产生器120的各种实施方案中的任一者进行配置。举例来说,上下文产生器220可经配置以从本地存储装置检索描述所选上下文的参数值,或从例如服务器的外部装置下载所述参数值(例如,经由SIP)。可能需要配置上下文产生器220以分别使产生上下文选择信号S50的起始及终止与通信会话(例如,电话呼叫)的开始及结束同步。
处理控制信号S130控制上下文抑制器212的操作以启用或停用上下文抑制(即,以输出具有音频信号S110的现存上下文或者取代上下文的音频信号)。如图14B中所展示,处理控制信号S130还可经布置以启用或停用上下文产生器222。或者,上下文选择信号S140可经配置以包括选择上下文产生器220的空值输出的状态,或者上下文混合器290可经配置以将处理控制信号S130接收为如上文关于上下文混合器190所描述的启用/停用控制输入。处理控制信号S130可经实施以具有一个以上状态,以使得其可用以改变由上下文抑制器212执行的抑制的电平。设备R100的另外的实施方案可经配置以根据接收器处周围声音的电平控制上下文抑制的电平及/或所产生上下文信号S150的电平。举例来说,此种实施方案可经配置以控制音频信号S115的SNR与周围声音的电平成反比关系(例如,如使用来自包括设备R100的装置的麦克风的信号进行感测)。还明确地指出,当选择使用人工上下文时可将非活动帧解码器80断电。
一般来说,设备R100可经配置以通过根据适当译码方案解码每一帧、抑制现存上下文(可能达可变的程度)及根据某一电平添加所产生上下文信号S150而处理活动帧。对于非活动帧来说,设备R100可经实施以解码每一帧(或每一SID帧)及添加所产生上下文信号S150。或者,设备R100可经实施以忽略或丢弃非活动帧,且将其取代为所产生上下文信号S150。举例来说,图15展示经配置以在选择上下文抑制时丢弃非活动帧解码器80的输出的设备R200的实施方案。此实例包括经配置以根据处理控制信号S130的状态选择所产生上下文信号S150及非活动帧解码器80的输出中的一者的选择器250。
设备R100的另外的实施方案可经配置以使用来自经解码音频信号的一个或一个以上非活动帧的信息来改进由上下文抑制器210应用的用于活动帧中的上下文抑制的噪声模型。另外或在替代方案中,设备R100的所述另外的实施方案可经配置以使用来自经解码音频信号的一个或一个以上非活动帧的信息来控制所产生上下文信号S150的电平(例如,以控制上下文经增强音频信号S115的SNR)。设备R100还可经实施以使用来自经解码音频信号的非活动帧的上下文信息来补充经解码音频信号的一个或一个以上活动帧及/或经解码音频信号的一个或一个以上其它非活动帧内的现存上下文。举例来说,此种实施方案可用以取代已归因于如发射器处的过度冒进噪声抑制及/或不足的译码速率或SID传输速率的因素而丢失的现存上下文。
如上所述,设备R100可经配置以在产生经编码音频信号S20的编码器不作用及/或不改变的情形下执行上下文增强或取代。设备R100的此种实施方案可包括于经配置以在对应发射器(从其处接收信号S20)不作用及/或不改变的情形下执行上下文增强或取代的接收器内。或者,设备R100可经配置以独立地或根据编码器控制而下载上下文参数值(例如,从SIP服务器),及/或此种接收器可经配置以独立地或根据发射器控制而下载上下文参数值(例如,从SIP服务器)。在所述情形下,SIP服务器或其它参数值源可经配置以使得编码器或发射器的上下文选择优先于解码器或接收器的上下文选择。
可能需要根据本文描述的原理(例如,根据设备X100及R100的实施方案)实施在上下文增强及/或取代的操作中进行协作的话音编码器及解码器。在此种系统内,可将指示所要上下文的信息传送到呈若干不同形式中的任一者的解码器。在第一类实例中,将上下文信息传送为描述,所述描述包括一组参数值,例如LSF值及对应能量值序列的向量(例如,静默描述符或SID),或例如平均序列及对应组的详细序列(如图10的MRA树实例中所展示)。一组参数值(例如,向量)可经量化以供传输为一个或一个以上码簿索引。
在第二类实例中,将上下文信息作为一个或一个以上上下文识别符(还称为“上下文选择信息”)传送到解码器。可将上下文识别符实施为对应于两个或两个以上不同音频上下文的列表中的特定条目的索引。在所述情形下,加索引列表条目(其可存储于本地或存储于解码器外部)可包括包括一组参数值的对对应上下文的描述。另外或在一个或一个以上上下文识别符的替代方案中,音频上下文选择信息可包括指示编码器的物理位置及/或上下文模式的信息。
在这些类别中的任一者中,可直接及/或间接地将上下文信息从编码器传送到解码器。在直接传输中,编码器将上下文信息在经编码音频信号S20内(即,经由相同逻辑信道及经由与话音分量相同的协议堆栈)及/或经由单独传输信道(例如,可使用不同协议的数据信道或其它单独逻辑信道)发送到解码器。图16展示经配置以经由不同逻辑信道(例如,在相同无线信号内或在不同信号内)传输所选音频上下文的话音分量及经编码(例如,经量化)参数值的设备X100的实施方案X200的框图。在此特定实例中,设备X200包括如上文所描述的处理控制信号产生器340的例子。
图16中展示的设备X200的实施方案包括上下文编码器150。在此实例中,上下文编码器150经配置以产生基于上下文描述(例如,一组上下文参数值S70)的经编码上下文信号S80。上下文编码器150可经配置以根据认为适于特定应用的任何译码方案产生经编码上下文信号S80。此种译码方案可包括例如霍夫曼(Huffman)译码、算术译码、范围编码及游程长度编码(run-length-encoding)的一个或一个以上压缩操作。此种译码方案可为有损及/或无损的。此种译码方案可经配置以产生具有固定长度的结果及/或具有可变长度的结果。此种译码方案可包括量化上下文描述的至少一部分。
上下文编码器150还可经配置以执行上下文信息的协议编码(例如,在运输层及/或应用层处)。在此种情形下,上下文编码器150可经配置以执行例如包形成及/或信号交换的一个或一个以上相关操作。甚至可能需要配置上下文编码器150的此种实施方案以发送上下文信息而不执行任何其它编码操作。
图17展示经配置以将识别或描述所选上下文的信息编码为经编码音频信号S20的对应于音频信号S10的非活动帧的帧周期的设备X100的另一实施方案X210的框图。所述帧周期在本文还称为“经编码音频信号S20的非活动帧”。在一些情形下,可能在解码器处导致延迟,直到已针对上下文产生接收对所选上下文的足够量的描述。
在相关实例中,设备X210经配置以发送对应于本地地存储于解码器处及/或从例如服务器的另一装置下载的上下文描述(例如,在呼叫建立期间)的初始上下文识别符,且还经配置以发送对所述上下文描述的随后更新(例如,经由经编码音频信号S20的非活动帧)。图18展示经配置以将音频上下文选择信息(例如,所选上下文的识别符)编码为经编码音频信号S20的非活动帧的设备X100的相关实施方案X220的框图。在此种情形下,设备X220可经配置以在通信会话的过程期间(甚至从一个帧到下一帧)更新上下文识别符。
图18中展示的设备X220的实施方案包括上下文编码器150的实施方案152。上下文编码器152经配置以产生基于音频上下文选择信息(例如,上下文选择信号S40)的经编码上下文信号S80的例子S82,其可包括一个或一个以上上下文识别符及/或其它例如物理位置及/或上下文模式的指示的信息。如上文关于上下文编码器150所描述,上下文编码器152可经配置以根据认为适于特定应用及/或可经配置以执行上下文选择信息的协议编码的任何译码方案产生经编码上下文信号S82。
经配置以将上下文信息编码为经编码音频信号S20的非活动帧的设备X100的实施方案可经配置以编码每一非活动帧内的此种上下文信息或不连续地编码此种上下文信息。在不连续传输(DTX)的一个实例中,设备X100的此种实施方案经配置以根据规则间隔(例如每五秒或十秒,或每128或256个帧)将识别或描述所选上下文的信息编码为经编码音频信号S20的一个或一个以上非活动帧的序列。在不连续传输(DTX)的另一实例中,设备X100的此种实施方案经配置以根据例如不同上下文的选择的某一事件将此种信息编码为经编码音频信号S20的一个或一个以上非活动帧的序列。
设备X210及X220经配置以根据处理控制信号S30的状态执行现存上下文的编码(即,遗留操作)或上下文取代。在这些情形下,经编码音频信号S20可包括指示非活动帧是否包括现存上下文或与取代上下文有关的信息的旗标(例如,可能包括于每一非活动帧中的一个或一个以上位)。图19及图20展示配置为在非活动帧期间不支持现存上下文的传输的对应设备(分别为设备X300及设备X300的实施方案X310)的框图。在图19的实例中,活动帧编码器30经配置以产生第一经编码音频信号S20a,且译码方案选择器20经配置以控制选择器50b将经编码上下文信号S80插入于第一经编码音频信号S20a的非活动帧中以产生第二经编码音频信号S20b。在图20的实例中,活动帧编码器30经配置以产生第一经编码音频信号S20a,且译码方案选择器20经配置以控制选择器50b将经编码上下文信号S82插入于第一经编码音频信号S20a的非活动帧中以产生第二经编码音频信号S20b。在所述实例中,可能需要配置活动帧编码器30而以包化形式(例如,作为一系列经编码帧)产生第一经编码音频信号20a。在所述情形下,选择器50b可经配置以如译码方案选择器20所指示将经编码上下文信号插入于第一经编码音频信号S20a的对应于上下文受抑制信号的非活动帧的包(例如,经编码帧)内的适当位置处,或者选择器50b可经配置以如译码方案选择器20所指示将由上下文编码器150或152产生的包(例如,经编码帧)插入于第一经编码音频信号S20a内的适当位置处。如上所述,经编码上下文信号S80可包括与经编码上下文信号S80有关的信息(例如描述所选音频上下文的一组参数值),且经编码上下文信号S82可包括与经编码上下文信号S80有关的信息(例如识别一组音频上下文中的所选一者的上下文识别符)。
在间接传输中,解码器不仅经由与经编码音频信号S20不同的逻辑信道而且还从例如服务器的不同实体接收上下文信息。举例来说,解码器可经配置以使用编码器的识别符(例如,统一资源识别符(URI)或统一资源定位符(URL),如RFC 3986中所描述,以www.ietf.org在线可得)、解码器的识别符(例如,URL)及/或特定通信会话的识别符来请求来自服务器的上下文信息。图21A展示解码器根据经由协议堆栈P20及经由第一逻辑信道从编码器接收的信息而经由协议堆栈P10(例如,在上下文产生器220及/或上下文解码器252内)及经由第二逻辑信道从服务器下载上下文信息的实例。堆栈P10及P20可为分离的或可共享一个或一个以上层(例如,物理层、媒体接入控制层及逻辑链路层中的一者或一者以上)。可使用例如SIP的协议执行可以类似于下载铃声或音乐文件或流的方式执行的上下文信息从服务器到解码器的下载。
在其它实例中,可通过直接与间接传输的某一组合将上下文信息从编码器传送到解码器。在一个一般实例中,编码器将上下文信息以一种形式(例如,如音频上下文选择信息)发送到系统内的例如服务器的另一装置,且其它装置将对应上下文信息以另一形式(例如,作为上下文描述)发送到解码器。在此种传送的特定实例中,服务器经配置以将上下文信息输送到解码器而不接收针对来自解码器的信息的请求(还称为“推送”)。举例来说,服务器可经配置以在呼叫建立期间将上下文信息推送到解码器。图21B展示服务器根据编码器经由协议堆栈P30(例如,在上下文编码器152内)及经由第三逻辑信道发送的可包括解码器的URL或其它识别符的信息将上下文信息经由第二逻辑信道下载到解码器的实例。在此种情形下,可使用例如SIP的协议执行从编码器到服务器的传送及/或从服务器到解码器的传送。此实例还说明经编码音频信号S20经由协议堆栈P40及经由第一逻辑信道从编码器到解码器的传输。堆栈P30及P40可为分离的,或可共享一个或一个以上层(例如,物理层、媒体接入控制层及逻辑链路层中的一者或一者以上)。
如图21B中所展示的编码器可经配置以通过在呼叫建立期间将INVITE消息发送到服务器而起始SIP会话。在一个此种实例中,编码器将例如上下文识别符或物理位置(例如,作为一组GPS坐标)的音频上下文选择信息发送到服务器。编码器还可将例如解码器的URI及/或编码器的URI的实体识别信息发送到服务器。如果服务器支持所选音频上下文,则其将ACK消息发送到编码器,且SIP会话结束。
编码器-解码器系统可经配置以通过抑制编码器处的现存上下文或通过抑制解码器处的现存上下文而处理活动帧。可通过在编码器处(而非解码器处)执行上下文抑制来实现一个或一个以上潜在优点。举例来说,活动帧编码器30可预期实现对上下文受抑制音频信号比对现存上下文未经抑制的音频信号的更好的译码结果。更好的抑制技术也可能在编码器处可用,例如使用来自多个麦克风的音频信号的技术(例如,盲源分离)。还可能需要说话者能够听到与收听者将听到的上下文受抑制话音分量相同的上下文受抑制话音分量,且在编码器处执行上下文抑制可用以支持此种特征。当然,在编码器及解码器两者处实施上下文抑制也是可能的。
可能需要在编码器-解码器系统内所产生上下文信号S150在编码器及解码器两者处均可用。举例来说,可能需要说话者能够听到与收听者将听到的上下文经增强音频信号相同的上下文经增强音频信号。在此种情形下,对所选上下文的描述可存储于及/或下载到编码器及解码器两者。此外,可能需要配置上下文产生器220以确定地产生所产生上下文信号S150,以使得待在解码器处执行的上下文产生操作可在编码器处进行复制。举例来说,上下文产生器220可经配置以使用对于编码器及解码器两者均已知的个或一个以上值(例如,经编码音频信号S20的一个或一个以上值)以计算可用于产生操作中的任何随机值或信号(例如用于CTFLP合成的随机激励信号)。
编码器-解码器系统可经配置而以若干不同方式中的任一者处理非活动帧。举例来说,编码器可经配置以将现存上下文包括于经编码音频信号S20内。包括现存上下文对于支持遗留操作可能为需要的。此外,如上文所论述,解码器可经配置以使用现存上下文来支持上下文抑制操作。
或者,编码器可经配置以使用经编码音频信号S20的非活动帧中的一者或一者以上来携载与所选上下文有关的信息(例如一个或一个以上上下文识别符及/或描述)。如图19中所展示的设备X300为不传输现存上下文的编码器的一个实例。如上所述,非活动帧中的上下文识别符的编码可用以在例如电话呼叫的通信会话期间支持更新所产生的上下文信号S150。对应解码器可经配置以快速且甚至可能逐帧地执行此种更新。
在另一替代方案中,编码器可经配置以在非活动帧期间传输极少或不传输位,其可允许编码器针对活动帧使用较高译码速率而不增加平均位速率。视系统而定,编码器可能需要在每一非活动帧期间包括某一最小数目的位以便维持连接。
可能需要例如设备X100的实施方案(例如,设备X200、X210或X220)或X300的编码器发送所选音频上下文的电平随时间推移的改变的指示。此种编码器可经配置以在经编码上下文信号S80内及/或经由不同逻辑信道将此种信息发送为参数值(例如,增益参数值)。在一个实例中,对所选上下文的描述包括描述上下文的频谱分布的信息,且编码器经配置以将与上下文的音频电平随时间推移的改变有关的信息发送为单独时间描述(其可以与频谱描述不同的速率进行更新)。在另一实例中,对所选上下文的描述描述上下文在第一时间标度(例如,在帧或类似长度的其它间隔上)上的频谱及时间特性两者,且编码器经配置以将与上下文的音频电平在第二时间标度(例如,例如从帧到帧的较长时间标度)上的改变有关的信息发送为单独时间描述。可使用包括针对每一帧的上下文增益值的单独时间描述来实施此种实例。
在可应用到上文两个实例中的任一者中的另一实例中,使用不连续传输(在经编码音频信号S20的非活动帧内或经由第二逻辑信道)发送对所选上下文的描述的更新,且还使用不连续传输(在经编码音频信号S20的非活动帧内,经由第二逻辑信道,或经由另一逻辑信道)发送对单独时间描述的更新,两个描述以不同间隔及/或根据不同事件进行更新。举例来说,此种编码器可经配置以比单独时间描述更不频繁地更新对所选上下文的描述(例如,每512、1024或2048个帧对每四个、八个或十六个帧)。此种编码器的另一实例经配置以根据现存上下文的一个或一个以上频率特性的改变(及/或根据用户选择)而更新对所选上下文的描述,且经配置以根据现存上下文的电平的改变而更新单独时间描述。
图22、图23及图24说明经配置以执行上下文取代的用于解码的设备的实例。图22展示包括经配置以根据上下文选择信号S140的状态产生所产生上下文信号S150的上下文产生器220的例子的设备R300的框图。图23展示包括上下文抑制器210的实施方案218的设备R300的实施方案R310的框图。上下文抑制器218经配置以使用来自非活动帧的现存上下文信息(例如,现存上下文的频谱分布)来支持上下文抑制操作(例如,频谱相减)。
图22及图23中展示的设备R300及R310的实施方案还包括上下文解码器252。上下文解码器252经配置以执行经编码上下文信号S80的数据及/或协议解码(例如,与上文关于上下文编码器152描述的编码操作互补)以产生上下文选择信号S140。替代地或另外,设备R300及R310可经实施以包括与如上文所描述的上下文编码器150互补的上下文解码器250,其经配置以基于经编码上下文信号S80的对应例子产生上下文描述(例如,一组上下文参数值)。
图24展示包括上下文产生器220的实施方案228的话音解码器R300的实施方案R320的框图。上下文产生器228经配置以使用来自非活动帧的现存上下文信息(例如,与现存上下文的能量在时域及/或频域中的分布有关的信息)来支持上下文产生操作。
如本文描述的用于编码的设备(例如,设备X100及X300)及用于解码的设备(例如,设备R100、R200及R300)的实施方案的各种元件可实施为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子及/或光学装置,但还可预期没有此种限制的其它布置。此种设备的一个或一个以上元件可整个地或部分地实施为经布置以在逻辑元件(例如,晶体管、门)的一个或一个以上固定或可编程阵列上执行的一个或一个以上指令集,所述逻辑元件例如微处理器、嵌埋式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路)。
此种设备的实施方案的一个或一个以上元件用以执行任务或执行与设备的操作不直接有关的其它指令集(例如与设备所嵌埋于其中的装置或系统的另一操作有关的任务)是可能的。此种设备的实施方案的一个或一个以上元件具有共同结构(例如,用以执行在不同时间对应于不同元件的代码部分的处理器,经执行以执行在不同时间对应于不同元件的任务的指令集,或在不同时间执行不同元件的操作的电子及/或光学装置的布置)也是可能的。在一个实例中,上下文抑制器110、上下文产生器120及上下文混合器190实施为经布置以在同一处理器上执行的指令集。在另一实例中,上下文处理器100及话音编码器X10经实施为经布置以在同一处理器上执行的指令集。在另一实例中,上下文处理器200及话音解码器R10实施为经布置以在同一处理器上执行的指令集。在另一实例中,上下文处理器100、话音编码器X10及话音解码器R10实施为经布置以在同一处理器上执行的指令集。在另一实例中,活动帧编码器30及非活动帧编码器40经实施以包括在不同时间执行的相同指令集。在另一实例中,活动帧解码器70及非活动帧解码器80经实施以包括在不同时间执行的相同指令集。
用于无线通信的装置(例如蜂窝式电话或具有此种通信能力的其它装置)可经配置以包括编码器(例如,设备X100或X300的实施方案)及解码器(例如,设备R100、R200或R300的实施方案)两者。在此种情形下,编码器及解码器具有共同结构是可能的。在一个此种实例中,编码器及解码器经实施以包括经布置以在同一处理器上执行的指令集。
本文描述的各种编码器及解码器的操作还可视作信号处理方法的特定实例。此种方法可实施为一组任务,其一者或一者以上(可能全部)可由逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的一个或一个以上阵列执行。任务中的一者或一者以上(可能全部)还可实施为可由一个或一个以上逻辑元件阵列执行的代码(例如,一个或一个以上指令集),代码可有形地体现于数据存储媒体中。
图25A展示根据所揭示配置的处理包括第一音频上下文的数字音频信号的方法A100的流程图。方法A100包括任务A110及A120。基于第一麦克风产生的第一音频信号,任务A110抑制来自数字音频信号的第一音频上下文以获得上下文受抑制信号。任务A120将第二音频上下文与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号。在此方法中,数字音频信号是基于由不同于第一麦克风的第二麦克风产生的第二音频信号。举例来说,可通过如本文描述的设备X100或X300的实施方案执行方法A100。
图25B展示根据所揭示配置用于处理包括第一音频上下文的数字音频信号的设备AM100的框图。设备AM100包括用于执行方法A100的各种任务的装置。设备AM100包括用于基于由第一麦克风产生的第一音频信号抑制来自数字音频信号的第一音频上下文以获得上下文受抑制信号的装置AM10。设备AM100包括用于将第二音频上下文与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号的装置AM20。在此设备中,数字音频信号是基于由不同于第一麦克风的第二麦克风产生的第二音频信号。可使用能够执行所述任务的任何结构实施设备AM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备AM100的各种元件的实例在本文中揭示于设备X100及X300的描述中。
图26A展示根据所揭示配置的根据处理控制信号的状态处理数字音频信号的方法B100的流程图,所述数字音频信号具有话音分量及上下文分量。方法B100包括任务B110、B120、B130及B140。任务B110在处理控制信号具有第一状态时以第一位速率编码缺少话音分量的数字音频信号部分的帧。任务B120在处理控制信号具有不同于第一状态的第二状态时抑制来自数字音频信号的上下文分量以获得上下文受抑制信号。任务B130在处理控制信号具有第二状态时将音频上下文信号与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号。任务B140在处理控制信号具有第二状态时以第二位速率编码缺少话音分量的上下文经增强信号部分的帧,第二位速率高于第一位速率。举例来说,可通过如本文描述的设备X100的实施方案执行方法B100。
图26B展示根据所揭示配置的用于根据处理控制信号的状态处理数字音频信号的设备BM100的框图,所述数字音频信号具有话音分量及上下文分量。设备BM100包括用于在处理控制信号具有第一状态时以第一位速率编码缺少话音分量的数字音频信号部分的帧的装置BM10。设备BM100包括用于在处理控制信号具有不同于第一状态的第二状态时抑制来自数字音频信号的上下文分量以获得上下文受抑制信号的装置BM20。设备BM100包括用于在处理控制信号具有第二状态时将音频上下文信号与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号的装置BM30。设备BM100包括用于在处理控制信号具有第二状态时以第二位速率编码缺少话音分量的上下文经增强信号部分的帧的装置BM40,第二位速率高于第一位速率。可使用能够执行此类任务的任何结构实施设备BM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备BM100的各种元件的实例在本文中揭示于设备X100的描述中。
图27A展示根据所揭示配置的处理基于从第一转变器接收的信号的数字音频信号的方法C100的流程图。方法C100包括任务C110、C120、C130及C140。任务C110抑制来自数字音频信号的第一音频上下文以获得上下文受抑制信号。任务C120将第二音频上下文与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号。任务C130将基于(A)第二音频上下文与(B)上下文经增强信号中的至少一者的信号转换为模拟信号。任务C140从第二转变器产生基于所述模拟信号的可听信号。在此方法中,第一转变器及第二转变器两者位于共同外壳内。举例来说,可通过如本文描述的设备X100或X300的实施方案执行方法C100。
图27B展示根据所揭示配置的用于处理基于从第一转变器接收的信号的数字音频信号的设备CM100的框图。设备CM100包括用于执行方法C100的各种任务的装置。设备CM100包括用于抑制来自数字音频信号的第一音频上下文以获得上下文受抑制信号的装置CM110。设备CM100包括用于将第二音频上下文与基于上下文受抑制信号的信号进行混合以获得上下文经增强信号的装置CM120。设备CM100包括用于将基于(A)第二音频上下文与(B)上下文经增强信号中的至少一者的信号转换为模拟信号的装置CM130。设备CM100包括用于从第二转变器产生基于模拟信号的可听信号的装置CM140。在此设备中,第一转变器及第二转变器两者位于共同外壳内。可使用能够执行所述任务的任何结构实施设备CM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备CM100的各种元件的实例在本文中揭示于设备X100及X300的描述中。
图28A展示根据所揭示配置的处理经编码音频信号的方法D100的流程图。方法D100包括任务D110、D120及D130。任务D110根据第一译码方案解码经编码音频信号的第一多个经编码帧以获得包括话音分量及上下文分量的第一经解码音频信号。任务D120根据第二译码方案解码经编码音频信号的第二多个经编码帧以获得第二经解码音频信号。基于来自第二经解码音频信号的信息,任务D130抑制来自基于第一经解码音频信号的第三信号的上下文分量以获得上下文受抑制信号。举例来说,可通过如本文描述的设备R100、R200或R300的实施方案执行方法D100。
图28B展示根据所揭示配置的用于处理经编码音频信号的设备DM100的框图。设备DM100包括用于执行方法D100的各种任务的装置。设备DM100包括用于根据第一译码方案解码经编码音频信号的第一多个经编码帧以获得包括话音分量及上下文分量的第一经解码音频信号的装置DM10。设备DM100包括用于根据第二译码方案解码经编码音频信号的第二多个经编码帧以获得第二经解码音频信号的装置DM20。设备DM100包括用于基于来自第二经解码音频信号的信息抑制来自基于第一经解码音频信号的第三信号的上下文分量以获得上下文受抑制信号的装置DM30。可使用能够执行所述任务的任何结构实施设备DM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备DM100的各种元件的实例在本文中揭示于设备R100、R200及R300的描述中。
图29A展示根据所揭示配置的处理包括话音分量及上下文分量的数字音频信号的方法E100的流程图。方法E100包括任务E110、E120、E130及E140。任务E110抑制来自数字音频信号的上下文分量以获得上下文受抑制信号。任务E120编码基于上下文受抑制信号的信号以获得经编码音频信号。任务E130选择多个音频上下文中的一者。任务E140将与所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中。举例来说,可通过如本文描述的设备X100或X300的实施方案执行方法E100。
图29B展示根据所揭示配置的用于处理包括话音分量及上下文分量的数字音频信号的设备EM100的框图。设备EM100包括用于执行方法E100的各种任务的装置。设备EM100包括用于抑制来自数字音频信号的上下文分量以获得上下文受抑制信号的装置EM10。设备EM100包括用于编码基于上下文受抑制信号的信号以获得经编码音频信号的装置EM20。设备EM100包括用于选择多个音频上下文中的一者的装置EM30。设备EM100包括用于将与所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中的装置EM40。可使用能够执行所述任务的任何结构实施设备EM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备EM100的各种元件的实例在本文中揭示于设备X100及X300的描述中。
图30A展示根据所揭示配置的处理包括话音分量及上下文分量的数字音频信号的方法E200的流程图。方法E200包括任务E110、E120、E150及E160。任务E150将经编码音频信号经由第一逻辑信道发送到第一实体。任务E160向第二实体且经由不同于第一逻辑信道的第二逻辑信道发送(A)音频上下文选择信息及(B)识别第一实体的信息。举例来说,可通过如本文描述的设备X100或X300的实施方案执行方法E200。
图30B展示根据所揭示配置的用于处理包括话音分量及上下文分量的数字音频信号的设备EM200的框图。设备EM200包括用于执行方法E200的各种任务的装置。设备EM200包括如上文所描述的装置EM10及EM20。设备EM100包括用于将编码音频信号经由第一逻辑信道发送到第一实体的装置EM50。设备EM100包括用于向第二实体且经由不同于第一逻辑信道的第二逻辑信道发送(A)音频上下文选择信息及(B)识别第一实体的信息的装置EM60。可使用能够执行所述任务的任何结构实施设备EM200的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备EM200的各种元件的实例在本文中揭示于设备X100及X300的描述中。
图31A展示根据所揭示配置的处理经编码音频信号的方法F100的流程图。方法F100包括任务F110、F120及F130。在移动用户终端内,任务F110解码经编码音频信号以获得经解码音频信号。在移动用户终端内,任务F120产生音频上下文信号。在移动用户终端内,任务F130将基于音频上下文信号的信号与基于经解码音频信号的信号进行混合。举例来说,可通过如本文描述的设备R100、R200或R300的实施方案执行方法F100。
图31B展示根据所揭示配置的用于处理经编码音频信号且位于移动用户终端内的设备FM100的框图。设备FM100包括用于执行方法F100的各种任务的装置。设备FM100包括用于解码经编码音频信号以获得经解码音频信号的装置FM10。设备FM100包括用于产生音频上下文信号的装置FM20。设备FM100包括用于将基于音频上下文信号的信号与基于经解码音频信号的信号进行混合的装置FM30。可使用能够执行所述任务的任何结构实施设备FM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备FM100的各种元件的实例在本文中揭示于设备R100、R200及R300的描述中。
图32A展示根据所揭示配置的处理包括话音分量及上下文分量的数字音频信号的方法G100的流程图。方法G100包括任务G110、G120及G130。任务G100抑制来自数字音频信号的上下文分量以获得上下文受抑制信号。任务G120产生基于第一滤波器及第一多个序列的音频上下文信号,所述第一多个序列中的每一者具有不同时间分辨率。任务G120包括将第一滤波器应用到第一多个序列中的每一者。任务G130将基于所产生音频上下文信号的第一信号与基于上下文受抑制信号的第二信号进行混合以获得上下文经增强信号。举例来说,可通过如本文描述的设备X100、X300、R100、R200或R300的实施方案执行方法G100。
图32B展示根据所揭示配置的用于处理包括话音分量及上下文分量的数字音频信号的设备GM100的框图。设备GM100包括用于执行方法G100的各种任务的装置。设备GM100包括用于抑制来自数字音频信号的上下文分量以获得上下文受抑制信号的装置GM10。设备GM100包括用于产生基于第一滤波器及第一多个序列的音频上下文信号的装置GM20,所述第一多个序列中的每一者具有不同时间分辨率。装置GM20包括用于将第一滤波器应用到第一多个序列中的每一者的装置。设备GM100包括用于将基于所产生音频上下文信号的第一信号与基于上下文受抑制信号的第二信号进行混合以获得上下文经增强信号的装置GM30。可使用能够执行所述任务的任何结构实施设备GM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备GM100的各种元件的实例在本文中揭示于设备X100、X300、R100、R200及R300的描述中。
图33A展示根据所揭示配置的处理包括话音分量及上下文分量的数字音频信号的方法H100的流程图。方法H100包括任务H110、H120、H130、H140及H150。任务H110抑制来自数字音频信号的上下文分量以获得上下文受抑制信号。任务H120产生音频上下文信号。任务H130将基于所产生音频上下文信号的第一信号与基于上下文受抑制信号的第二信号进行混合以获得上下文经增强信号。任务H140计算基于数字音频信号的第三信号的电平。任务H120及H130中的至少一者包括基于第三信号的所计算电平控制第一信号的电平。举例来说,可通过如本文描述的设备X100、X300、R100、R200或R300的实施方案执行方法H100。
图33B展示根据所揭示配置的用于处理包括话音分量及上下文分量的数字音频信号的设备HM100的框图。设备HM100包括用于执行方法H100的各种任务的装置。设备HM100包括用于抑制来自数字音频信号的上下文分量以获得上下文受抑制信号的装置HM10。设备HM100包括用于产生音频上下文信号的装置HM20。设备HM100包括用于将基于所产生音频上下文信号的第一信号与基于上下文受抑制信号的第二信号进行混合以获得上下文经增强信号的装置HM30。设备HM100包括用于计算基于数字音频信号的第三信号的电平的装置HM40。装置HM20及HM30中的至少一者包括用于基于第三信号的所计算电平控制第一信号的电平的装置。可使用能够执行所述任务的任何结构实施设备HM100的各种元件,所述结构包括用于执行本文揭示的所述任务的结构中的任一者(例如,一个或一个以上指令集、一个或一个以上逻辑元件阵列等)。设备HM100的各种元件的实例在本文中揭示于设备X100、X300、R100、R200及R300的描述中。
提供所描述配置的前文陈述以使得任何所属领域的技术人员能够制造或使用本文揭示的方法及其它结构。本文展示且描述的流程图、框图及其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且还可将本文呈现的一般原理应用到其它配置。举例来说,强调本发明的范围不限于所说明的配置。而是,明确地预期且特此揭示,对于如本文描述的不同特定配置的特征彼此不矛盾的任何情形来说,可组合所述特征以产生包括于本发明的范围内的其它配置。举例来说,可组合上下文抑制、上下文产生及上下文混合的各种配置中的任一者,只要此种组合与对本文中那些元件的描述不矛盾即可。还明确地预期且特此揭示,在连接描述为在设备的两个或两个以上元件之间的情况下,可能存在一个或一个以上介入元件(例如滤波器),且在连接描述为在方法的两个或两个以上任务之间的情况下,可能存在一个或一个以上介入任务或操作(例如滤波操作)。
可与如本文描述的编码器及解码器一起使用或适合于与所述编码器及解码器一起使用的编解码器的实例包括:如描述于上文提及的3GPP2文件C.S0014-C中的经增强可变速率编解码器(EVRC);如描述于ETSI文件TS 126 092 V6.0.0(第6章,2004年12月)中的自适应多速率(AMR)话音编解码器;及如描述于ETSI文件TS 126 192V6.0.0.(第6章,2004年12月)中的AMR宽带话音编解码器。可与如本文描述的编码器及解码器一起使用的无线电协议的实例包括临时标准95(IS-95)及CDMA2000(如由电信产业协会((TIA),弗吉尼亚州,阿灵顿(Arlington,VA))发布的规范中所描述)、AMR(如ETSI文件TS 26.101中所描述)、GSM(全球移动通信系统,如ETSI发布的规范中所描述)、UMTS(全球移动电信系统,如ETSI发布的规范中所描述)及W-CDMA(宽带码分多址,如由国际电信联盟发布的规范中所描述)。
本文描述的配置可部分或整体地实施为硬连线电路、制造于专用集成电路中的电路配置,或加载于非易失性存储装置中的固件程序或作为机器可读代码从计算机可读媒体加载或加载于计算机可读媒体中的软件程序,此种代码为可由例如微处理器或其它数字信号处理单元的逻辑元件的阵列执行的指令。计算机可读媒体可为例如半导体存储器(其可包括(但不限于)动态或静态RAM(随机存取存储器)、ROM(只读存储器)及/或快闪RAM)或铁电存储器、磁电阻存储器、双向存储器、聚合物存储器或相变存储器的存储元件的阵列;例如磁盘或光盘的盘片媒体;或用于数据存储的任何其它计算机可读媒体。术语“软件”应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏代码、微代码、可由逻辑元件的阵列执行的任何一个或一个以上指令集或序列,及所述实例的任何组合。
本文揭示的方法中的每一者还可有形地体现为(举例来说,在上文列举的一个或一个以上计算机可读媒体中)可由包括逻辑元件的阵列的机器(例如,处理器、微处理器、微控制器或其它有限状态机)读取及/或执行的一个或一个以上指令集。因此,不希望本发明限于上文展示的配置,而应赋予其与本文中以任何方式揭示的原理及新颖特征(包括于形成原始揭示内容的一部分的所申请的附加权利要求书中)相一致的最广泛范围。
Claims (128)
1.一种处理数字音频信号的方法,所述数字音频信号是基于从麦克风接收的信号,所述数字音频信号包括话音分量及上下文分量,所述方法包含:
抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号;
对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号;
选择多个音频上下文中的一者;以及
将与所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中。
2.根据权利要求1所述的处理数字音频信号的方法,其中所述与所述所选音频上下文有关的信息包括识别所述所选音频上下文的上下文识别符。
3.根据权利要求1所述的处理数字音频信号的方法,其中所述与所述所选音频上下文有关的信息包含包括一组参数值的对所述所选音频上下文的描述。
4.根据权利要求3所述的处理数字音频信号的方法,其中所述组参数值包括第一多个序列,所述第一多个序列中的每一者具有不同时间分辨率。
5.根据权利要求1所述的处理数字音频信号的方法,其中所述抑制所述上下文分量包含对所述数字音频信号执行频谱相减操作。
6.根据权利要求1所述的处理数字音频信号的方法,其中所述抑制所述上下文分量包含:
基于所述数字音频信号的多个非活动帧计算多个增益因数值;以及
将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带。
7.根据权利要求1所述的处理数字音频信号的方法,其中所述抑制所述上下文分量是基于来自位于共同外壳内的两个不同麦克风的信息。
8.根据权利要求1所述的处理数字音频信号的方法,其中所述选择多个音频上下文中的一者是基于与执行所述方法所在的物理位置有关的信息。
9.根据权利要求1所述的处理数字音频信号的方法,其中所述编码包括对基于所述上下文受抑制信号的信号执行线性预测译码分析。
10.根据权利要求1所述的处理数字音频信号的方法,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
11.根据权利要求1所述的处理数字音频信号的方法,其中所述将与所述所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中包括将所述信息插入于所述经编码音频信号的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中。
12.根据权利要求11所述的处理数字音频信号的方法,其中以在从所述数字音频信号的一百到两千个帧的范围中的间隔不连续地执行所述将所述信息插入于所述经编码音频信号的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中。
13.根据权利要求1所述的处理数字音频信号的方法,其中所述与所述所选音频上下文有关的信息包括描述所述音频上下文的电平随时间推移的所要改变的信息。
14.根据权利要求1所述的处理数字音频信号的方法,其进一步包含:
抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号;
将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号;
将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号;以及
使用扬声器产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
15.根据权利要求14所述的处理数字音频信号的方法,所述方法包含对基于所述上下文经增强信号的信号执行线性预测译码分析。
16.根据权利要求15所述的处理数字音频信号的方法,所述方法包含使用位于所述共同外壳内的发射器来发射基于所述执行线性预测译码分析的结果的信号。
17.根据权利要求14所述的处理数字音频信号的方法,其中所述抑制来自所述数字音频信号的第一音频上下文是基于由第二麦克风产生的音频信号。
18.一种用于处理数字音频信号的设备,所述数字音频信号是基于从麦克风接收的信号,所述数字音频信号包括话音分量及上下文分量,所述设备包含:
上下文抑制器,其经配置以抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号;
编码器,其经配置以对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号;
上下文选择器,其经配置以选择多个音频上下文中的一者;以及
上下文编码器,其经配置以将与所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中。
19.根据权利要求18所述的用于处理数字音频信号的设备,其中所述与所述所选音频上下文有关的信息包括识别所述所选音频上下文的上下文识别符。
20.根据权利要求18所述的用于处理数字音频信号的设备,其中所述与所述所选音频上下文有关的信息包含包括一组参数值的对所述所选音频上下文的描述。
21.根据权利要求20所述的用于处理数字音频信号的设备,其中所述组参数值包括第一多个序列,所述第一多个序列中的每一者具有不同时间分辨率。
22.根据权利要求18所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以对所述数字音频信号执行频谱相减操作。
23.根据权利要求18所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以:
基于所述数字音频信号的多个非活动帧计算多个增益因数值;以及
将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带。
24.根据权利要求18所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以基于来自位于共同外壳内的两个不同麦克风的信息抑制所述上下文分量。
25.根据权利要求18所述的用于处理数字音频信号的设备,其中所述上下文选择器经配置以基于与所述设备的物理位置有关的信息选择多个音频上下文中的一者。
26.根据权利要求18所述的用于处理数字音频信号的设备,其中所述编码器经配置以对基于所述上下文受抑制信号的信号执行线性预测译码分析。
27.根据权利要求18所述的用于处理数字音频信号的设备,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
28.根据权利要求18所述的用于处理数字音频信号的设备,其中所述上下文编码器经配置以将所述信息插入于所述经编码音频信号的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中。
29.根据权利要求28所述的用于处理数字音频信号的设备,其中所述上下文编码器经配置以将所述信息以在从所述数字音频信号的一百到两千个帧的范围中的间隔不连续地插入于所述经编码音频信号的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中。
30.根据权利要求18所述的用于处理数字音频信号的设备,其中所述与所述所选音频上下文有关的信息包括描述所述音频上下文的电平随时间推移的所要改变的信息。
31.根据权利要求18所述的用于处理数字音频信号的设备,其进一步包含:
上下文抑制器,其经配置以抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号;
上下文混合器,其经配置以将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号;
转换器,其经配置以将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号;以及
扬声器,其经配置以产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
32.根据权利要求31所述的用于处理数字音频信号的设备,所述设备包含经配置以对基于所述上下文经增强信号的信号执行线性预测译码分析的编码器。
33.根据权利要求32所述的用于处理数字音频信号的设备,所述设备包含位于所述共同外壳内且经配置以发射基于所述线性预测译码分析的结果的信号的发射器。
34.根据权利要求31所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以基于由第二麦克风产生的音频信号抑制来自所述数字音频信号的所述第一音频上下文。
35.一种用于处理数字音频信号的设备,所述数字音频信号是基于从麦克风接收的信号,所述数字音频信号包括话音分量及上下文分量,所述设备包含:
用于抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号的装置;
用于对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号的装置;
用于选择多个音频上下文中的一者的装置;以及
用于将与所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中的装置。
36.根据权利要求35所述的用于处理数字音频信号的设备,其中所述与所述所选音频上下文有关的信息包括识别所述所选音频上下文的上下文识别符。
37.根据权利要求35所述的用于处理数字音频信号的设备,其中所述与所述所选音频上下文有关的信息包含包括一组参数值的对所述所选音频上下文的描述。
38.根据权利要求37所述的用于处理数字音频信号的设备,其中所述组参数值包括第一多个序列,所述第一多个序列中的每一者具有不同时间分辨率。
39.根据权利要求35所述的用于处理数字音频信号的设备,其中所述用于抑制所述上下文分量的装置包含用于对所述数字音频信号执行频谱相减操作的装置。
40.根据权利要求35所述的用于处理数字音频信号的设备,其中所述用于抑制所述上下文分量的装置包含:
用于基于所述数字音频信号的多个非活动帧计算多个增益因数值的装置;以及
用于将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带的装置。
41.根据权利要求35所述的用于处理数字音频信号的设备,其中所述用于抑制所述上下文分量的装置经配置以基于来自位于共同外壳内的两个不同麦克风的信息抑制所述上下文分量。
42.根据权利要求35所述的用于处理数字音频信号的设备,其中所述用于选择多个音频上下文中的一者的装置经配置以基于与所述设备的物理位置有关的信息选择所述音频上下文。
43.根据权利要求35所述的用于处理数字音频信号的设备,其中所述用于编码的装置包括用于对基于所述上下文受抑制信号的信号执行线性预测译码分析的装置。
44.根据权利要求35所述的用于处理数字音频信号的设备,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
45.根据权利要求35所述的用于处理数字音频信号的设备,其中所述用于将与所述所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中的装置包括用于将所述信息插入于所述经编码音频信号中的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中的装置。
46.根据权利要求45所述的用于处理数字音频信号的设备,其中所述用于将所述信息插入于所述经编码音频信号的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中的装置经配置而以在从所述数字音频信号的一百到两千个帧的范围中的间隔不连续地执行此插入。
47.根据权利要求35所述的用于处理数字音频信号的设备,其中所述与所述所选音频上下文有关的信息包括描述所述音频上下文的电平随时间推移的所要改变的信息。
48.根据权利要求35所述的用于处理数字音频信号的设备,其进一步包含:
用于抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号的装置;
用于将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号的装置;
用于将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号的装置;以及
扬声器,其经配置以产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
49.根据权利要求48所述的用于处理数字音频信号的设备,所述设备包含用于对基于所述上下文经增强信号的信号执行线性预测译码分析的装置。
50.根据权利要求49所述的用于处理数字音频信号的设备,所述设备包含位于所述共同外壳内且经配置以发射基于所述线性预测译码分析的结果的信号的用于发射的装置。
51.根据权利要求48所述的用于处理数字音频信号的设备,其中所述用于抑制的装置经配置以基于由第二麦克风产生的音频信号抑制来自所述数字音频信号的所述第一音频上下文。
52.一种计算机可读媒体,其包含用于处理数字音频信号的指令,所述数字音频信号是基于从麦克风接收的信号,所述数字音频信号包括话音分量及上下文分量,当由处理器执行时所述指令致使所述处理器:
抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号;
对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号;
选择多个音频上下文中的一者;以及
将与所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中。
53.根据权利要求52所述的计算机可读媒体,其中所述与所述所选音频上下文有关的信息包括识别所述所选音频上下文的上下文识别符。
54.根据权利要求52所述的计算机可读媒体,其中所述与所述所选音频上下文有关的信息包含包括一组参数值的对所述所选音频上下文的描述。
55.根据权利要求54所述的计算机可读媒体,其中所述组参数值包括第一多个序列,所述第一多个序列中的每一者具有不同时间分辨率。
56.根据权利要求52所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述上下文分量的指令经配置以致使所述处理器对所述数字音频信号执行频谱相减操作。
57.根据权利要求52所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述上下文分量的指令经配置以致使所述处理器:
基于所述数字音频信号的多个非活动帧计算多个增益因数值;以及
将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带。
58.根据权利要求52所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述上下文分量的指令经配置以致使所述处理器基于来自位于共同外壳内的两个不同麦克风的信息抑制所述上下文分量。
59.根据权利要求52所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器选择多个音频上下文中的一者的指令经配置以致使所述处理器基于与所述处理器的物理位置有关的信息选择所述音频上下文。
60.根据权利要求52所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器进行编码的指令经配置以致使所述处理器对基于所述上下文受抑制信号的信号执行线性预测译码分析。
61.根据权利要求52所述的计算机可读媒体,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
62.根据权利要求52所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器将与所述所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中的指令经配置以致使所述处理器将所述信息插入于所述经编码音频信号的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中。
63.根据权利要求62所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器将所述信息插入于所述经编码音频信号的对应于所述数字音频信号的非活动帧的多个帧周期中的至少一者中的指令经配置以致使所述处理器以在从所述数字音频信号的一百到两千个帧的范围中的间隔不连续地执行此插入。
64.根据权利要求52所述的计算机可读媒体,其中所述与所述所选音频上下文有关的信息包括描述所述音频上下文的电平随时间推移的所要改变的信息。
65.根据权利要求52所述的计算机可读媒体,其中当由处理器执行时所述指令致使所述处理器:
抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号;
将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号;
将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号;以及
使用扬声器来产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
66.根据权利要求65所述的计算机可读媒体,所述媒体包含当由处理器执行时致使所述处理器对基于所述上下文经增强信号的信号执行线性预测译码分析的指令。
67.根据权利要求66所述的计算机可读媒体,所述媒体包含当由处理器执行时致使所述处理器使用位于所述共同外壳内的发射器来发射基于所述线性预测译码分析的结果的信号的指令。
68.根据权利要求65所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述第一音频上下文的指令经配置以致使所述处理器基于由第二麦克风产生的音频信号抑制来自所述数字音频信号的所述第一音频上下文。
69.一种处理数字音频信号的方法,所述数字音频信号是基于从麦克风接收的信号,所述数字音频信号包括话音分量及上下文分量,所述方法包含:
抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号;
对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号;
经由第一逻辑信道将所述经编码音频信号发送到第一实体;以及
经由不同于所述第一逻辑信道的第二逻辑信道向第二实体发送(A)音频上下文选择信息及(B)识别所述第一实体的信息。
70.根据权利要求69所述的处理数字音频信号的方法,其中所述向第二实体进行发送包括在符合会话起始协议的版本的消息中向所述第二实体发送(A)所述音频上下文选择信息及(B)所述识别所述第一实体的信息中的至少一者。
71.根据权利要求69所述的处理数字音频信号的方法,其中所述识别所述第一实体的信息是统一资源识别符。
72.根据权利要求69所述的处理数字音频信号的方法,其中所述音频上下文选择信息包括与执行所述方法所在的物理位置有关的信息。
73.根据权利要求69所述的处理数字音频信号的方法,其中所述方法包含选择多个音频上下文中的一者,且
其中所述音频上下文选择信息包括识别所述所选音频上下文的上下文识别符。
74.根据权利要求73所述的处理数字音频信号的方法,其中所述选择多个音频上下文中的一者是基于与执行所述方法所在的物理位置有关的信息。
75.根据权利要求69所述的处理数字音频信号的方法,其中所述抑制所述上下文分量包含对基于所述数字音频信号的信号执行频谱相减操作。
76.根据权利要求69所述的处理数字音频信号的方法,其中所述抑制所述上下文分量包含:
基于所述数字音频信号的多个非活动帧计算多个增益因数值;以及
将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带。
77.根据权利要求69所述的处理数字音频信号的方法,其中所述抑制所述上下文分量是基于来自位于共同外壳内的两个不同麦克风的信息。
78.根据权利要求69所述的处理数字音频信号的方法,其中所述编码包括对基于所述上下文受抑制信号的信号执行线性预测译码分析。
79.根据权利要求69所述的处理数字音频信号的方法,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
80.根据权利要求69所述的处理数字音频信号的方法,其进一步包含:
抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号;
将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号;
将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号;以及
使用扬声器来产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
81.根据权利要求80所述的处理数字音频信号的方法,所述方法包含对基于所述上下文经增强信号的信号执行线性预测译码分析。
82.根据权利要求81所述的处理数字音频信号的方法,所述方法包含使用位于所述共同外壳内的发射器来发射基于所述执行线性预测译码分析的结果的信号。
83.根据权利要求80所述的处理数字音频信号的方法,其中所述抑制来自所述数字音频信号的第一音频上下文是基于由第二麦克风产生的音频信号。
84.一种用于处理数字音频信号的设备,所述数字音频信号是基于从麦克风接收的信号,所述数字音频信号包括话音分量及上下文分量,所述设备包含:
上下文抑制器,其经配置以抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号;
编码器,其经配置以对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号;
上下文编码器,其经配置以将与所选音频上下文有关的信息插入于基于所述经编码音频信号的信号中;
第一协议堆栈,其经配置以经由第一逻辑信道将所述经编码音频信号发送到第一实体;以及
不同于所述第一协议堆栈的第二协议堆栈,其经配置以经由不同于所述第一逻辑信道的第二逻辑信道向第二实体发送(A)音频上下文选择信息与(B)识别所述第一实体的信息。
85.根据权利要求84所述的用于处理数字音频信号的设备,其中所述第二协议堆栈经配置以在符合会话起始协议的版本的消息中向所述第二实体发送(A)所述音频上下文选择信息与(B)所述识别所述第一实体的信息中的至少一者。
86.根据权利要求84所述的用于处理数字音频信号的设备,其中所述识别所述第一实体的信息是统一资源识别符。
87.根据权利要求84所述的用于处理数字音频信号的设备,其中所述音频上下文选择信息包括与所述设备的物理位置有关的信息。
88.根据权利要求84所述的用于处理数字音频信号的设备,其中所述设备包含经配置以选择多个音频上下文中的一者的上下文选择器,且
其中所述音频上下文选择信息包括识别所述所选音频上下文的上下文识别符。
89.根据权利要求88所述的用于处理数字音频信号的设备,其中所述上下文选择器经配置以基于与所述设备的物理位置有关的信息选择多个音频上下文中的一者。
90.根据权利要求84所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以对基于所述数字音频信号的信号执行频谱相减操作。
91.根据权利要求84所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以:
基于所述数字音频信号的多个非活动帧计算多个增益因数值;以及
将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带。
92.根据权利要求84所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以基于来自位于共同外壳内的两个不同麦克风的信息抑制所述上下文分量。
93.根据权利要求84所述的用于处理数字音频信号的设备,其中所述编码器经配置以对基于所述上下文受抑制信号的信号执行线性预测译码分析。
94.根据权利要求84所述的用于处理数字音频信号的设备,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
95.根据权利要求84所述的用于处理数字音频信号的设备,其进一步包含:
上下文抑制器,其经配置以抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号;
上下文混合器,其经配置以将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号;
转换器,其经配置以将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号;以及
扬声器,其经配置以产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
96.根据权利要求95所述的用于处理数字音频信号的设备,所述设备包含编码器,所述编码器经配置以对基于所述上下文经增强信号的信号执行线性预测译码分析。
97.根据权利要求96所述的用于处理数字音频信号的设备,所述设备包含位于所述共同外壳内且经配置以发射基于所述线性预测译码分析的结果的信号的发射器。
98.根据权利要求95所述的用于处理数字音频信号的设备,其中所述上下文抑制器经配置以基于由第二麦克风产生的音频信号抑制来自所述数字音频信号的所述第一音频上下文。
99.一种用于处理数字音频信号的设备,所述数字音频信号是基于从麦克风接收的信号,所述数字音频信号包括话音分量及上下文分量,所述设备包含:
用于抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号的装置;
用于对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号的装置;
用于经由第一逻辑信道向第一实体发送所述经编码音频信号的装置;以及
用于经由不同于所述第一逻辑信道的第二逻辑信道向第二实体发送(A)音频上下文选择信息与(B)识别所述第一实体的信息的装置。
100.根据权利要求99所述的用于处理数字音频信号的设备,其中所述用于向第二实体进行发送的装置包括用于在符合会话起始协议的版本的消息中向所述第二实体发送(A)所述音频上下文选择信息与(B)所述识别所述第一实体的信息中的至少一者的装置。
101.根据权利要求99所述所述的用于处理数字音频信号的设备,其中所述识别所述第一实体的信息是统一资源识别符。
102.根据权利要求99所述的用于处理数字音频信号的设备,其中所述音频上下文选择信息包括与所述设备的物理位置有关的信息。
103.根据权利要求99所述的用于处理数字音频信号的设备,其中所述设备包含用于选择多个音频上下文中的一者的装置,且
其中所述音频上下文选择信息包括识别所述所选音频上下文的上下文识别符。
104.根据权利要求103所述的用于处理数字音频信号的设备,其中所述用于选择的装置经配置以基于与所述设备的物理位置有关的信息选择多个音频上下文中的一者。
105.根据权利要求99所述的用于处理数字音频信号的设备,其中所述用于抑制所述上下文分量的装置包含用于对基于所述数字音频信号的信号执行频谱相减操作的装置。
106.根据权利要求99所述的用于处理数字音频信号的设备,其中所述用于抑制所述上下文分量的装置包含:
用于基于所述数字音频信号的多个非活动帧计算多个增益因数值的装置;以及
用于将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带的装置。
107.根据权利要求99所述的用于处理数字音频信号的设备,其中所述用于抑制所述上下文分量的装置经配置以基于来自位于共同外壳内的两个不同麦克风的信息抑制所述上下文分量。
108.根据权利要求99所述的用于处理数字音频信号的设备,其中所述用于编码的装置包括用于对基于所述上下文受抑制信号的信号执行线性预测译码分析的装置。
109.根据权利要求99所述的用于处理数字音频信号的设备,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
110.根据权利要求99所述的用于处理数字音频信号的设备,其进一步包含:
用于抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号的装置;
用于将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号的装置;
用于将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号的装置;以及
扬声器,其经配置以产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
111.根据权利要求110所述的用于处理数字音频信号的设备,所述设备包含用于对基于所述上下文经增强信号的信号执行线性预测译码分析的装置。
112.根据权利要求111所述的用于处理数字音频信号的设备,所述设备包含位于所述共同外壳内且经配置以发射基于所述线性预测译码分析的结果的信号的用于发射的装置。
113.根据权利要求110所述的用于处理数字音频信号的设备,其中所述用于抑制的装置经配置以基于由第二麦克风产生的音频信号抑制来自所述数字音频信号的所述第一音频上下文。
114.一种计算机可读媒体,其包含用于处理数字音频信号的指令,所述数字音频信号包括话音分量及上下文分量,当由处理器执行时所述指令致使所述处理器:
抑制来自所述数字音频信号的所述上下文分量以获得上下文受抑制信号;
对基于所述上下文受抑制信号的信号进行编码以获得经编码音频信号;
经由第一逻辑信道向第一实体发送所述经编码音频信号;以及
经由不同于所述第一逻辑信道的第二逻辑信道向第二实体发送(A)音频上下文选择信息与(B)识别所述第一实体的信息。
115.根据权利要求114所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器向第二实体进行发送的指令经配置以致使所述处理器在符合会话起始协议的版本的消息中向所述第二实体发送(A)所述音频上下文选择信息与(B)所述识别所述第一实体的信息中的至少一者。
116.根据权利要求114所述的计算机可读媒体,其中所述识别所述第一实体的信息是统一资源识别符。
117.根据权利要求114所述的计算机可读媒体,其中所述音频上下文选择信息包括与所述处理器的物理位置有关的信息。
118.根据权利要求114所述的计算机可读媒体,其中所述媒体包含当由处理器执行时致使所述处理器选择多个音频上下文中的一者的指令,且
其中所述音频上下文选择信息包括识别所述所选音频上下文的上下文识别符。
119.根据权利要求118所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器选择多个音频上下文中的一者的指令经配置以致使所述处理器基于与所述处理器的物理位置有关的信息选择多个音频上下文中的一者。
120.根据权利要求114所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述上下文分量的指令经配置以致使所述处理器对基于所述数字音频信号的信号执行频谱相减操作。
121.根据权利要求114所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述上下文分量的指令经配置以致使所述处理器:
基于所述数字音频信号的多个非活动帧计算多个增益因数值;以及
将所述多个不同增益因数中的每一者应用到基于所述数字音频信号的信号的活动帧的对应频率子带。
122.根据权利要求114所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述上下文分量的指令经配置以致使所述处理器基于来自位于共同外壳内的两个不同麦克风的信息抑制所述上下文分量。
123.根据权利要求114所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器进行编码的指令经配置以致使所述处理器对基于所述上下文受抑制信号的信号执行线性预测译码分析。
124.根据权利要求114所述的计算机可读媒体,其中所述经编码音频信号包含多个经编码帧,每一经编码帧包括对激励信号的描述。
125.根据权利要求114所述的计算机可读媒体,其中当由处理器执行时所述指令致使所述处理器:
抑制来自所述数字音频信号的第一音频上下文以获得上下文受抑制信号;
将第二音频上下文与基于所述上下文受抑制信号的信号进行混合以获得上下文经增强信号;
将基于(A)所述第二音频上下文与(B)所述上下文经增强信号中的至少一者的信号转换为模拟信号;以及
使用扬声器来产生基于所述模拟信号的可听信号,
其中所述麦克风及所述扬声器两者位于共同外壳内。
126.根据权利要求125所述的计算机可读媒体,所述媒体包含当由处理器执行时致使所述处理器对基于所述上下文经增强信号的信号执行线性预测译码分析的指令。
127.根据权利要求126所述的计算机可读媒体,所述媒体包含当由处理器执行时致使所述处理器使用位于所述共同外壳内的发射器来发射基于所述线性预测译码分析的结果的信号的指令。
128.根据权利要求125所述的计算机可读媒体,其中所述当由处理器执行时致使所述处理器抑制所述第一音频上下文的指令经配置以致使所述处理器基于由第二麦克风产生的音频信号抑制来自所述数字音频信号的所述第一音频上下文。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US2410408P | 2008-01-28 | 2008-01-28 | |
US61/024,104 | 2008-01-28 | ||
US12/129,525 | 2008-05-29 | ||
US12/129,525 US8600740B2 (en) | 2008-01-28 | 2008-05-29 | Systems, methods and apparatus for context descriptor transmission |
PCT/US2008/078327 WO2009097021A1 (en) | 2008-01-28 | 2008-09-30 | Systems, methods, and apparatus for context descriptor transmission |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101896964A true CN101896964A (zh) | 2010-11-24 |
Family
ID=40899262
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008801198722A Pending CN101896970A (zh) | 2008-01-28 | 2008-09-30 | 使用多分辨率分析进行上下文处理的系统、方法及设备 |
CN200880119860XA Pending CN101896969A (zh) | 2008-01-28 | 2008-09-30 | 用于通过音频电平进行上下文取代的系统、方法及设备 |
CN2008801206080A Pending CN101896971A (zh) | 2008-01-28 | 2008-09-30 | 用于使用多个麦克风进行上下文处理的系统、方法及设备 |
CN2008801214180A Pending CN101903947A (zh) | 2008-01-28 | 2008-09-30 | 使用接收器进行上下文抑制的系统、方法及设备 |
CN2008801198597A Pending CN101896964A (zh) | 2008-01-28 | 2008-09-30 | 用于上下文描述符传输的系统、方法及设备 |
Family Applications Before (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008801198722A Pending CN101896970A (zh) | 2008-01-28 | 2008-09-30 | 使用多分辨率分析进行上下文处理的系统、方法及设备 |
CN200880119860XA Pending CN101896969A (zh) | 2008-01-28 | 2008-09-30 | 用于通过音频电平进行上下文取代的系统、方法及设备 |
CN2008801206080A Pending CN101896971A (zh) | 2008-01-28 | 2008-09-30 | 用于使用多个麦克风进行上下文处理的系统、方法及设备 |
CN2008801214180A Pending CN101903947A (zh) | 2008-01-28 | 2008-09-30 | 使用接收器进行上下文抑制的系统、方法及设备 |
Country Status (7)
Country | Link |
---|---|
US (5) | US8554550B2 (zh) |
EP (5) | EP2245624A1 (zh) |
JP (5) | JP2011512550A (zh) |
KR (5) | KR20100125272A (zh) |
CN (5) | CN101896970A (zh) |
TW (5) | TW200947423A (zh) |
WO (5) | WO2009097019A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803425A (zh) * | 2011-06-01 | 2017-06-06 | 三星电子株式会社 | 音频编码方法和设备、音频解码方法和设备 |
CN107533846A (zh) * | 2015-04-24 | 2018-01-02 | 索尼公司 | 发送装置、发送方法、接收装置与接收方法 |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2419171C2 (ru) * | 2005-07-22 | 2011-05-20 | Франс Телеком | Способ переключения скорости передачи битов при аудиодекодировании с масштабированием скорости передачи битов и масштабированием полосы пропускания |
RU2008146977A (ru) * | 2006-04-28 | 2010-06-10 | НТТ ДоКоМо, Инк. (JP) | Устройство прогнозирующего кодирования изображений, способ прогнозирующего кодирования изображений, программа прогнозирующего кодирования изображений, устройство прогнозирующего декодирования изображений, способ прогнозирующего декодирования изображений и программа прогнозирующего декодирования изображений |
US20080152157A1 (en) * | 2006-12-21 | 2008-06-26 | Vimicro Corporation | Method and system for eliminating noises in voice signals |
ATE456130T1 (de) * | 2007-10-29 | 2010-02-15 | Harman Becker Automotive Sys | Partielle sprachrekonstruktion |
US8554550B2 (en) * | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multi resolution analysis |
DE102008009719A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen |
CN102132494B (zh) * | 2008-04-16 | 2013-10-02 | 华为技术有限公司 | 通信方法和通信装置 |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
BR122021003726B1 (pt) * | 2008-07-11 | 2021-11-09 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio. |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US8290546B2 (en) * | 2009-02-23 | 2012-10-16 | Apple Inc. | Audio jack with included microphone |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
CN101859568B (zh) * | 2009-04-10 | 2012-05-30 | 比亚迪股份有限公司 | 一种语音背景噪声的消除方法和装置 |
US10008212B2 (en) * | 2009-04-17 | 2018-06-26 | The Nielsen Company (Us), Llc | System and method for utilizing audio encoding for measuring media exposure with environmental masking |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
WO2011037587A1 (en) * | 2009-09-28 | 2011-03-31 | Nuance Communications, Inc. | Downsampling schemes in a hierarchical neural network structure for phoneme recognition |
US8903730B2 (en) * | 2009-10-02 | 2014-12-02 | Stmicroelectronics Asia Pacific Pte Ltd | Content feature-preserving and complexity-scalable system and method to modify time scaling of digital audio signals |
CN102576528A (zh) * | 2009-10-19 | 2012-07-11 | 瑞典爱立信有限公司 | 用于语音活动检测的检测器和方法 |
MX2012004564A (es) | 2009-10-20 | 2012-06-08 | Fraunhofer Ges Forschung | Codificador de audio, decodificador de audio, metodo para codificar informacion de audio y programa de computacion que utiliza una reduccion de tamaño de intervalo interactiva. |
KR101309671B1 (ko) | 2009-10-21 | 2013-09-23 | 돌비 인터네셔널 에이비 | 결합된 트랜스포저 필터 뱅크에서의 오버샘플링 |
US20110096937A1 (en) * | 2009-10-28 | 2011-04-28 | Fortemedia, Inc. | Microphone apparatus and sound processing method |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8908542B2 (en) * | 2009-12-22 | 2014-12-09 | At&T Mobility Ii Llc | Voice quality analysis device and method thereof |
SG182464A1 (en) | 2010-01-12 | 2012-08-30 | Fraunhofer Ges Forschung | Audio encoder, audio decoder, method for encoding and decoding an audio information, and computer program obtaining a context sub-region value on the basis of a norm of previously decoded spectral values |
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US8538035B2 (en) * | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8805697B2 (en) * | 2010-10-25 | 2014-08-12 | Qualcomm Incorporated | Decomposition of music signals using basis functions with time-evolution information |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
KR101726738B1 (ko) * | 2010-12-01 | 2017-04-13 | 삼성전자주식회사 | 음성처리장치 및 그 방법 |
WO2012127278A1 (en) * | 2011-03-18 | 2012-09-27 | Nokia Corporation | Apparatus for audio signal processing |
ITTO20110890A1 (it) * | 2011-10-05 | 2013-04-06 | Inst Rundfunktechnik Gmbh | Interpolationsschaltung zum interpolieren eines ersten und zweiten mikrofonsignals. |
US9875748B2 (en) * | 2011-10-24 | 2018-01-23 | Koninklijke Philips N.V. | Audio signal noise attenuation |
US9992745B2 (en) * | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
EP2788978B1 (en) | 2011-12-07 | 2020-09-23 | QUALCOMM Incorporated | Low power integrated circuit to analyze a digitized audio stream |
CN103886863A (zh) * | 2012-12-20 | 2014-06-25 | 杜比实验室特许公司 | 音频处理设备及音频处理方法 |
MY178710A (en) * | 2012-12-21 | 2020-10-20 | Fraunhofer Ges Forschung | Comfort noise addition for modeling background noise at low bit-rates |
RU2650025C2 (ru) | 2012-12-21 | 2018-04-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Генерирование комфортного шума с высоким спектрально-временным разрешением при прерывистой передаче аудиосигналов |
KR20140089871A (ko) * | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 대화형 서버, 그 제어 방법 및 대화형 시스템 |
JP6321684B2 (ja) | 2013-01-29 | 2018-05-09 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | サブバンドの時間的平滑化を用いて周波数増強信号を生成する装置および方法 |
US9711156B2 (en) * | 2013-02-08 | 2017-07-18 | Qualcomm Incorporated | Systems and methods of performing filtering for gain determination |
US9741350B2 (en) * | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
PL3098811T3 (pl) * | 2013-02-13 | 2019-04-30 | Ericsson Telefon Ab L M | Ukrywanie błędu ramki |
WO2014188231A1 (en) * | 2013-05-22 | 2014-11-27 | Nokia Corporation | A shared audio scene apparatus |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
JP6098654B2 (ja) * | 2014-03-10 | 2017-03-22 | ヤマハ株式会社 | マスキング音データ生成装置およびプログラム |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
US10304472B2 (en) * | 2014-07-28 | 2019-05-28 | Nippon Telegraph And Telephone Corporation | Method, device and recording medium for coding based on a selected coding processing |
WO2016040885A1 (en) | 2014-09-12 | 2016-03-17 | Audience, Inc. | Systems and methods for restoration of speech components |
US9741344B2 (en) * | 2014-10-20 | 2017-08-22 | Vocalzoom Systems Ltd. | System and method for operating devices using voice commands |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
US9378753B2 (en) | 2014-10-31 | 2016-06-28 | At&T Intellectual Property I, L.P | Self-organized acoustic signal cancellation over a network |
WO2016112113A1 (en) | 2015-01-07 | 2016-07-14 | Knowles Electronics, Llc | Utilizing digital microphones for low power keyword detection and noise suppression |
TWI595786B (zh) * | 2015-01-12 | 2017-08-11 | 仁寶電腦工業股份有限公司 | 基於時間戳記的音訊與視訊處理方法及其系統 |
DE112016000545B4 (de) | 2015-01-30 | 2019-08-22 | Knowles Electronics, Llc | Kontextabhängiges schalten von mikrofonen |
US9916836B2 (en) * | 2015-03-23 | 2018-03-13 | Microsoft Technology Licensing, Llc | Replacing an encoded audio output signal |
CN106210219B (zh) * | 2015-05-06 | 2019-03-22 | 小米科技有限责任公司 | 降噪方法及装置 |
KR102446392B1 (ko) * | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
US10373608B2 (en) * | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
CN107564512B (zh) * | 2016-06-30 | 2020-12-25 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
JP6790817B2 (ja) * | 2016-12-28 | 2020-11-25 | ヤマハ株式会社 | 電波状態解析方法 |
US10361712B2 (en) | 2017-03-14 | 2019-07-23 | International Business Machines Corporation | Non-binary context mixing compressor/decompressor |
US10797723B2 (en) | 2017-03-14 | 2020-10-06 | International Business Machines Corporation | Building a context model ensemble in a context mixing compressor |
KR102491646B1 (ko) | 2017-11-30 | 2023-01-26 | 삼성전자주식회사 | 오디오 신호의 음량에 따라 설정된 해상도에 기반하여, 오디오 신호를 처리하는 방법 및 그 전자 장치 |
US10862846B2 (en) | 2018-05-25 | 2020-12-08 | Intel Corporation | Message notification alert method and apparatus |
CN108962275B (zh) * | 2018-08-01 | 2021-06-15 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
WO2020039597A1 (ja) * | 2018-08-24 | 2020-02-27 | 日本電気株式会社 | 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム |
JP7130878B2 (ja) * | 2019-01-13 | 2022-09-05 | 華為技術有限公司 | 高分解能オーディオコーディング |
US10978086B2 (en) | 2019-07-19 | 2021-04-13 | Apple Inc. | Echo cancellation using a subset of multiple microphones as reference channels |
CN111757136A (zh) * | 2020-06-29 | 2020-10-09 | 北京百度网讯科技有限公司 | 网页音频直播方法、装置、设备和存储介质 |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5537509A (en) | 1990-12-06 | 1996-07-16 | Hughes Electronics | Comfort noise generation for digital communication systems |
SE502244C2 (sv) | 1993-06-11 | 1995-09-25 | Ericsson Telefon Ab L M | Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation |
SE501981C2 (sv) | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
US5657422A (en) | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JP3418305B2 (ja) | 1996-03-19 | 2003-06-23 | ルーセント テクノロジーズ インコーポレーテッド | オーディオ信号を符号化する方法および装置および知覚的に符号化されたオーディオ信号を処理する装置 |
US5960389A (en) | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
US5909518A (en) | 1996-11-27 | 1999-06-01 | Teralogic, Inc. | System and method for performing wavelet-like and inverse wavelet-like transformations of digital data |
US6301357B1 (en) | 1996-12-31 | 2001-10-09 | Ericsson Inc. | AC-center clipper for noise and echo suppression in a communications system |
US6167417A (en) * | 1998-04-08 | 2000-12-26 | Sarnoff Corporation | Convolutive blind source separation using a multiple decorrelation method |
JP2002515608A (ja) | 1998-05-11 | 2002-05-28 | シーメンス アクチエンゲゼルシヤフト | 発声された表出のスペクトル的な音声特徴を求める方法および装置 |
TW376611B (en) | 1998-05-26 | 1999-12-11 | Koninkl Philips Electronics Nv | Transmission system with improved speech encoder |
US6549586B2 (en) | 1999-04-12 | 2003-04-15 | Telefonaktiebolaget L M Ericsson | System and method for dual microphone signal noise reduction using spectral subtraction |
US6717991B1 (en) | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
JP4196431B2 (ja) | 1998-06-16 | 2008-12-17 | パナソニック株式会社 | 機器内蔵型マイクロホン装置及び撮像装置 |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
JP3438021B2 (ja) | 1999-05-19 | 2003-08-18 | 株式会社ケンウッド | 移動体通信端末 |
US6782361B1 (en) * | 1999-06-18 | 2004-08-24 | Mcgill University | Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system |
US6330532B1 (en) * | 1999-07-19 | 2001-12-11 | Qualcomm Incorporated | Method and apparatus for maintaining a target bit rate in a speech coder |
US6604070B1 (en) | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
GB9922654D0 (en) * | 1999-09-27 | 1999-11-24 | Jaber Marwan | Noise suppression system |
AU1359601A (en) | 1999-11-03 | 2001-05-14 | Tellabs Operations, Inc. | Integrated voice processing system for packet networks |
US6407325B2 (en) | 1999-12-28 | 2002-06-18 | Lg Electronics Inc. | Background music play device and method thereof for mobile station |
JP4310878B2 (ja) | 2000-02-10 | 2009-08-12 | ソニー株式会社 | バスエミュレーション装置 |
EP1139337A1 (en) | 2000-03-31 | 2001-10-04 | Telefonaktiebolaget L M Ericsson (Publ) | A method of transmitting voice information and an electronic communications device for transmission of voice information |
WO2001075863A1 (en) | 2000-03-31 | 2001-10-11 | Telefonaktiebolaget Lm Ericsson (Publ) | A method of transmitting voice information and an electronic communications device for transmission of voice information |
US8019091B2 (en) | 2000-07-19 | 2011-09-13 | Aliphcom, Inc. | Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression |
US6873604B1 (en) | 2000-07-31 | 2005-03-29 | Cisco Technology, Inc. | Method and apparatus for transitioning comfort noise in an IP-based telephony system |
JP3566197B2 (ja) * | 2000-08-31 | 2004-09-15 | 松下電器産業株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
US7260536B1 (en) * | 2000-10-06 | 2007-08-21 | Hewlett-Packard Development Company, L.P. | Distributed voice and wireless interface modules for exposing messaging/collaboration data to voice and wireless devices |
DE60029147T2 (de) * | 2000-12-29 | 2007-05-31 | Nokia Corp. | Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk |
US7165030B2 (en) * | 2001-09-17 | 2007-01-16 | Massachusetts Institute Of Technology | Concatenative speech synthesis using a finite-state transducer |
DE60212600T2 (de) | 2001-11-14 | 2007-07-05 | Matsushita Electric Industrial Co., Ltd., Kadoma | Audiocodierung und decodierung |
TW564400B (en) | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
US7657427B2 (en) * | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7174022B1 (en) * | 2002-11-15 | 2007-02-06 | Fortemedia, Inc. | Small array microphone for beam-forming and noise suppression |
US20040204135A1 (en) | 2002-12-06 | 2004-10-14 | Yilin Zhao | Multimedia editor for wireless communication devices and method therefor |
RU2315371C2 (ru) | 2002-12-28 | 2008-01-20 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для смешивания аудиопотока и носитель информации |
KR100486736B1 (ko) | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
US7295672B2 (en) * | 2003-07-11 | 2007-11-13 | Sun Microsystems, Inc. | Method and apparatus for fast RC4-like encryption |
DE60304859T2 (de) | 2003-08-21 | 2006-11-02 | Bernafon Ag | Verfahren zur Verarbeitung von Audiosignalen |
US20050059434A1 (en) * | 2003-09-12 | 2005-03-17 | Chi-Jen Hong | Method for providing background sound effect for mobile phone |
US7162212B2 (en) | 2003-09-22 | 2007-01-09 | Agere Systems Inc. | System and method for obscuring unwanted ambient noise and handset and central office equipment incorporating the same |
US7133825B2 (en) | 2003-11-28 | 2006-11-07 | Skyworks Solutions, Inc. | Computationally efficient background noise suppressor for speech coding and speech recognition |
US7613607B2 (en) | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
CA2454296A1 (en) | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
JP4162604B2 (ja) * | 2004-01-08 | 2008-10-08 | 株式会社東芝 | 雑音抑圧装置及び雑音抑圧方法 |
US7536298B2 (en) * | 2004-03-15 | 2009-05-19 | Intel Corporation | Method of comfort noise generation for speech communication |
CN102122509B (zh) | 2004-04-05 | 2016-03-23 | 皇家飞利浦电子股份有限公司 | 多信道解码器和多信道解码方法 |
US7649988B2 (en) * | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
JP4556574B2 (ja) | 2004-09-13 | 2010-10-06 | 日本電気株式会社 | 通話音声生成装置及び方法 |
US7454010B1 (en) | 2004-11-03 | 2008-11-18 | Acoustic Technologies, Inc. | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
US20060215683A1 (en) | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US7567898B2 (en) * | 2005-07-26 | 2009-07-28 | Broadcom Corporation | Regulation of volume of voice in conjunction with background sound |
US7668714B1 (en) | 2005-09-29 | 2010-02-23 | At&T Corp. | Method and apparatus for dynamically providing comfort noise |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8032370B2 (en) * | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
US8041057B2 (en) | 2006-06-07 | 2011-10-18 | Qualcomm Incorporated | Mixing techniques for mixing audio |
TW200849219A (en) * | 2007-02-26 | 2008-12-16 | Qualcomm Inc | Systems, methods, and apparatus for signal separation |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
JP4456626B2 (ja) * | 2007-09-28 | 2010-04-28 | 富士通株式会社 | ディスクアレイ装置、ディスクアレイ装置制御プログラムおよびディスクアレイ装置制御方法 |
US8554550B2 (en) | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multi resolution analysis |
-
2008
- 2008-05-29 US US12/129,466 patent/US8554550B2/en not_active Expired - Fee Related
- 2008-05-29 US US12/129,455 patent/US8560307B2/en not_active Expired - Fee Related
- 2008-05-29 US US12/129,483 patent/US8554551B2/en not_active Expired - Fee Related
- 2008-05-29 US US12/129,525 patent/US8600740B2/en not_active Expired - Fee Related
- 2008-05-29 US US12/129,421 patent/US8483854B2/en not_active Expired - Fee Related
- 2008-09-30 KR KR1020107019243A patent/KR20100125272A/ko not_active Application Discontinuation
- 2008-09-30 JP JP2010544966A patent/JP2011512550A/ja active Pending
- 2008-09-30 EP EP08871771A patent/EP2245624A1/en not_active Withdrawn
- 2008-09-30 CN CN2008801198722A patent/CN101896970A/zh active Pending
- 2008-09-30 TW TW097137522A patent/TW200947423A/zh unknown
- 2008-09-30 TW TW097137524A patent/TW200933609A/zh unknown
- 2008-09-30 EP EP08871634A patent/EP2245619A1/en not_active Withdrawn
- 2008-09-30 KR KR1020107019222A patent/KR20100129283A/ko not_active Application Discontinuation
- 2008-09-30 EP EP08871915A patent/EP2245625A1/en not_active Withdrawn
- 2008-09-30 EP EP08872004A patent/EP2245626A1/en not_active Withdrawn
- 2008-09-30 WO PCT/US2008/078324 patent/WO2009097019A1/en active Application Filing
- 2008-09-30 TW TW097137517A patent/TW200947422A/zh unknown
- 2008-09-30 CN CN200880119860XA patent/CN101896969A/zh active Pending
- 2008-09-30 CN CN2008801206080A patent/CN101896971A/zh active Pending
- 2008-09-30 JP JP2010544963A patent/JP2011516901A/ja active Pending
- 2008-09-30 WO PCT/US2008/078332 patent/WO2009097023A1/en active Application Filing
- 2008-09-30 JP JP2010544964A patent/JP2011511962A/ja active Pending
- 2008-09-30 WO PCT/US2008/078327 patent/WO2009097021A1/en active Application Filing
- 2008-09-30 TW TW097137540A patent/TW200933610A/zh unknown
- 2008-09-30 CN CN2008801214180A patent/CN101903947A/zh active Pending
- 2008-09-30 EP EP08871665A patent/EP2245623A1/en not_active Withdrawn
- 2008-09-30 KR KR1020107019225A patent/KR20100113144A/ko not_active Application Discontinuation
- 2008-09-30 KR KR1020107019242A patent/KR20100125271A/ko not_active Application Discontinuation
- 2008-09-30 JP JP2010544962A patent/JP2011511961A/ja active Pending
- 2008-09-30 JP JP2010544965A patent/JP2011512549A/ja active Pending
- 2008-09-30 KR KR1020107019244A patent/KR20100113145A/ko not_active Application Discontinuation
- 2008-09-30 WO PCT/US2008/078325 patent/WO2009097020A1/en active Application Filing
- 2008-09-30 CN CN2008801198597A patent/CN101896964A/zh active Pending
- 2008-09-30 WO PCT/US2008/078329 patent/WO2009097022A1/en active Application Filing
- 2008-09-30 TW TW097137510A patent/TW200933608A/zh unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803425A (zh) * | 2011-06-01 | 2017-06-06 | 三星电子株式会社 | 音频编码方法和设备、音频解码方法和设备 |
CN106803425B (zh) * | 2011-06-01 | 2021-01-12 | 三星电子株式会社 | 音频编码方法和设备、音频解码方法和设备 |
CN107533846A (zh) * | 2015-04-24 | 2018-01-02 | 索尼公司 | 发送装置、发送方法、接收装置与接收方法 |
US11636862B2 (en) | 2015-04-24 | 2023-04-25 | Sony Group Corporation | Transmission device, transmission method, reception device, and reception method |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101896964A (zh) | 用于上下文描述符传输的系统、方法及设备 | |
CN1306472C (zh) | 分布式语音识别系统中用于发送语音活动的系统和方法 | |
CN101006495A (zh) | 语音编码装置、语音解码装置、通信装置以及语音编码方法 | |
WO2015009293A1 (en) | Background noise reduction in voice communication | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
EP1944761A1 (en) | Disturbance reduction in digital signal processing | |
Ito | Muting machine speech using audio watermarking | |
CN117334204A (zh) | 信号处理方法、装置、计算机设备、存储介质及程序产品 | |
Perez-Meana et al. | Introduction to audio and speech signal processing | |
Ghous et al. | Modified Digital Filtering Algorithm to Enhance Perceptual Evaluation of Speech Quality (PESQ) of VoIP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20101124 |