CN104137179B - 在音频数据信号中检测预定频带的方法、检测设备以及相应的计算机程序 - Google Patents
在音频数据信号中检测预定频带的方法、检测设备以及相应的计算机程序 Download PDFInfo
- Publication number
- CN104137179B CN104137179B CN201280070157.0A CN201280070157A CN104137179B CN 104137179 B CN104137179 B CN 104137179B CN 201280070157 A CN201280070157 A CN 201280070157A CN 104137179 B CN104137179 B CN 104137179B
- Authority
- CN
- China
- Prior art keywords
- frequency spectrum
- parameter
- block
- frequency
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 title claims description 95
- 238000004590 computer program Methods 0.000 title description 3
- 238000001228 spectrum Methods 0.000 claims abstract description 89
- 230000003595 spectral effect Effects 0.000 claims abstract description 19
- 230000009466 transformation Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 12
- 238000007620 mathematical function Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 description 26
- 239000000523 sample Substances 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 11
- 238000013139 quantization Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000033228 biological regulation Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 101100382340 Arabidopsis thaliana CAM2 gene Proteins 0.000 description 4
- 101100494530 Brassica oleracea var. botrytis CAL-A gene Proteins 0.000 description 4
- 101100165913 Brassica oleracea var. italica CAL gene Proteins 0.000 description 4
- 101150118283 CAL1 gene Proteins 0.000 description 4
- 101100029577 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CDC43 gene Proteins 0.000 description 4
- 101100439683 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CHS3 gene Proteins 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 101150014174 calm gene Proteins 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 102100021849 Calretinin Human genes 0.000 description 3
- 102000012677 DET1 Human genes 0.000 description 3
- 101150113651 DET1 gene Proteins 0.000 description 3
- 101000898072 Homo sapiens Calretinin Proteins 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000004043 responsiveness Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 101100221077 Arabidopsis thaliana CML12 gene Proteins 0.000 description 2
- 101150066284 DET2 gene Proteins 0.000 description 2
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 2
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 2
- 102100021133 Nuclear protein 1 Human genes 0.000 description 2
- 208000009989 Posterior Leukoencephalopathy Syndrome Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000002650 habitual effect Effects 0.000 description 2
- 101100006352 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CHS5 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000003637 basic solution Substances 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000001453 impedance spectrum Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种在之前已经根据数据块序列(B1,B2,…,Bz)来编码的音频数据信号中检测预定频带的方法,其中至少特定的块分别包含表示线性预测滤波器的频谱参数的至少一个集合。针对所述至少特定块中的当前块,并且就此所述集合中的至少多个频谱参数之前已被解码,该检测方法实现下列步骤:‑在所述多个之前已解码频谱参数中确定(S1)与阈值频率最接近的第一频谱参数的索引,‑基于所述确定的索引来计算(S2)至少一个标准,‑根据计算的标准来判定(S3)是否在所述当前块中检测到所述预定频带。
Description
技术领域
本发明大体属于声音数据处理的领域。
该处理尤其适于诸如音频信号(语音和/或声音)之类的多媒体信号的传输和/或存储。
本发明的更具体的目标是通过该处理来分析音频信号。
更准确地说,该处理包括LPC线性预测类型的编码阶段。
背景技术
在压缩的领域,编码器使用信号属性,诸如被长期预测滤波器利用的其谐波结构以及被短期预测滤波器利用的其局部平稳性。典型地,语音信号在诸如10到20ms的时间间隔上可被认为是稳定信号。因此可以在合适的窗口之后通过被称为帧的样本的块来分析该信号。可以通过时变线性滤波器对短期相关进行建模,该滤波器的系数是在对短持续时间(在上述例子中从10到20ms)的帧的线性预测分析的帮助下得到的。
LPC线性预测编码是一种最广泛使用的数字编码技术,特别是在移动电话领域,特别是在3GPP AMR-WB编码器中,诸如文档“3GPP TS 26.190V10.0.0(2011-03)3rdGeneration Partnership Project;Technical Specification Group Services andSystem Aspects;Speech codec speech processing functions;Adaptive Multi-Rate-Wideband(AMR-WB)speech codec;Transcoding functions(Release 10)”所描述。LCP编码包括对要编码的信号执行LPC分析以确定LPC滤波器,然后一方面量化该滤波器并且在另一方面对激励信号进行建模和编码。通过最小化被建模的信号或者该信号的调整版本的预测误差来执行LPC分析。P阶的线性预测的自动回归模型包括通过P个过去的样本的线性组合来确定n时刻的信号样本(预测的原则)。用A(z)表示的短期预测滤波器对信号的频谱包络进行建模:
n时刻的信号S(n)与其预测值之间的差异是预测误差:
通过最小化由下式给出的预测误差的能量E来执行预测系数的计算:
解决该系统的方式是众所周知的,特使是使用Levinson-Durbin算法或Schur算法。
滤波器的系数ai必须被发送到接收器。但是,由于这些系数没有很好的量化属性,所以优选地使用变换。最普通的可以引用如下:
-PARCORs系数(“部分相关”的缩写),其包括反射系数或部分相关的系数,
-PARCORs系数的对数面积比LAR,
-线谱对LSP。
LSP系数现被最广泛地用于表示LPC滤波器,因为它们很好地支持向量量化。
存在LSP系数的其他等价表示:
-LSF系数(“线谱频率”的缩写),
-ISP系数(“导抗谱对”的缩写),
-或者ISF系数(“导抗谱频率”的缩写)。
LPC线性预测编码技术允许大幅降低比特率以有利于高音频回放质量。但是,线性预测编码对已编码的音频信号进行处理的特定应用的支持较差,诸如在这样的编码信号中检测预定的频带。
合理地回顾一下,这样的检测在目前对于不断增加的音频压缩格式的多样化是有用的或者确实是需要的。
确实,为了提供移动性和连续性,现代且创新的多媒体通信服务必须能够在多种条件下操作。多媒体通信领域的活力以及网络、接入和终端的异质性带来了压缩格式的激增,其在通信链中的存在需要层叠(转码)或并行(多格式编码或多模式编码)的若干种编码。
除了上面提到的线性预测编码技术,存在其他音频压缩技术,用于降低比特率而同时保持高质量,例如诸如:
-PCM“脉冲编码调制”技术,
-以及基于频率变换的技术,诸如MDCT类型(“修正离散余弦变换”的缩写)或FFT类型(“快速傅里叶变换”的缩写)的技术。
特定的编码器组合各种编码技术。于是在文档Combescure P.,Schnitzler J.,Fischer K.,Kircherr R.,Lamblin C.,Le Guyader A.,Massaloux D.,Quinquis C.,Stegmann J.,Vary P.,A 16,24,32kbit/s wideband speech codec based on ATCELP,inIEEE International Conference on Acoustics,Speech,and Signal Processing,1999(ICASSP99),Page(s):5-8vol.1中,建议将MDCT类型的频率变换技术与CELP类型(“代码激励线性预测”的缩写)的线性预测编码技术进行组合以对宽带信号进行编码,两种技术之间的切换由信号分类来控制。
在传输链中转码是必要的,编码器发射的压缩信号帧不能再以该格式在其路径上继续。转码使其可能将该帧转换为与剩余传输链兼容的另一格式。最基本的解决方案(以及目前最普通的解决方案)是解码器和编码器的端到端放置。压缩的帧以第一格式到达,然后被解压缩。解压缩的信号然后被再次压缩为剩余通信链所接受的第二格式。该编码器和解码器的层叠被称为串联。
在串联的特定情形下,可以层叠地放置对不同频带分别进行编码的编码器。于是,可以需要在也被称为WB带(“宽带”的缩写)的宽频带[50Hz–7kHz]中操作的编码器,以对在比宽带更严格的频带中操作的音频内容进行编码。例如,如果该内容之前已经被在也被称为NB带(“窄带”的缩写)的窄频带[300Hz,3400Hz]中操作的编码器编码,则尽管以16kHz来采样,但是通过诸如上述3GPP AMR-WB编码器来编码的内容事实上仅可以处于电话频带中。还有可能发射器终端的受限音质使其不能覆盖整个宽带。
因此很明显在给定采样频率下采样的信号上操作的编码器所编码的流的音频带可以比编码器实际支持的音频带严格地多。
在有利地利用待处理内容的音频带知识的音频信号处理应用中,可以引用:
-音频信号分类,
-自动语音识别,
-包含窄带通道的无线电或电视传输的语音到文本(STT)转换,
-数字水印,
-在网络的介质平面上放置的探针对流的非侵入分析,由此使其可以特别地检测传输内容的频带改变以及可选地在该频带改变后的网络中检测给定频带中的所述内容的持续时间,
-“HD语音”徽标(“高清语音”)的移动终端上的显示器,诸如在2011年8月的GSMA针对移动终端和网络所证明的,并且诸如在互联网地址http://www.gsm.org/membership/industry_logos.htm上可用的文档中所述的,
-已经在移动语音讯息的宽带中留下的呼叫数量的指示符。
在检测数字音频信号的频带的已知方案中,这些是在(原始或解码的)信号域中操作的以及在已编码的域中操作的。
信号域中的频带检测依赖于数字音频信号的频谱分析。通过示例,该检测在诸如文档“3GPP2 C.S0052-0(June 11,2004)"Source-Controlled Variable-Rate MultimodeWideband Speech Codec(VMR-WB)Service Option62for Spread Spectrum Systems”中描述的3GPP2 VMR-WB编解码器中实现,以检测在专用于该编解码器的16KHz采样频率下已经过采样的窄带音频内容。
上述编解码器通过在每帧256个样本上执行两次FFT频率变换(在12.8kHz的子采样、高通滤波以及预加重之后)对时域信号进行频谱分析,以得到每帧两个频谱参数集合。通过FFT分析得到的频谱被分为20个临界频带(critical band),这20个频带中的频段的数量是MCB={2,2,2,2,2,2,3,3,3,4,4,5,6,6,8,9,11,14,18,21}。接下来,根据下列公式来计算每临界频带的能量:
索引ji是第一频带区间的索引,并且XR(k)和XI(k)是FFT频谱的实数和虚数部分。
为了正确地处理过采样的窄带信号,检测算法被用于检测该信号。它包括测试最后两个频带中的平滑能量级别。
作为上述FFT变换的变型,也可以使用其他频率变换,诸如例如MDCT变换(“修正的离散余弦变换”的缩写)。
已编码的域中的频带检测可以依赖于之前对被编码信号的在先解码且然后依赖于以上诸如在信号域中用于分析(未被编码或编码之前的)原始音频内容的频谱分析技术的应用。但是,解码增加了处理的复杂度和延迟。在很多应用中,为了避免复杂度和/或延迟的问题,因此需要提取信号的特征而不用执行信号的完整解码。
已经提出了已编码的域中的若干种分析技术。它们涉及变换或基于子带的编码器诸如MPEG编码器(诸如MP3、AAC等)。
在该编码器中,已编码的流确实包括已编码的频谱系数,诸如MP3编码器中的MDCT系数。于是在文档Liaoyu Chang,Xiaoqing Yu,Haiying Tan,Wanggen Wan,Research andApplication of Audio Feature in Compressed Domain,IET Conference on Wireless,Mobile and Sensor Networks,2007.(CCWMSN07),Page(s):390–393,2007中,建议仅解码MDCT系数而不是解码整个已编码的音频信号,其自身使其可能确定被编码信号的频谱特征。由此基于这些MDCT系数在下列表达式的帮助下确定已编码的音频内容的带宽BW:
BW=Max{i|SMRSi≥TSRMS}-Min{i|SMRSi≤TSRMS}
其中,SMRSi是第i个频带的能量的平方根(其中Si,j表示第i个频带的第j个系数,以及Ni,第i个频带中的系数数量),并且TSRMS是阈值。
刚才描述的检测数字音频信号的频带的方案主要依赖于信号的频谱的频率分析。在音频内容已经通过频率变换来编码的情形下,被编码内容中的音频带的检测有利地利用了已编码的二进制流中包含的频谱信息而不用完全解码信号。通过取消对已编码的音频信号完整解码和频谱分析(基于FFT或MDCT)所需的昂贵操作,这显著地降低了检测的复杂度。
现在,尽管基于压缩技术的变换在音频编码中非常广泛(高比特率、高采样频率),但是在语音编码中不是这种情况,在语音编码中,编码方法主要使用诸如如前所述的线性预测压缩技术,并且仍然依赖于通过短期LPC滤波器的线性预测系数以及用于量化的多样变换(诸如LSP)对信号的频谱包络进行建模。
确定通过线性预测编码器编码的信号的音频带的解决方案包括对信号进行解码且然后对它使用诸如如上所述的用于检测信号域中的频带的方案。但是,该解决方案在计算复杂度方面非常昂贵,由此带来中央处理单元CPU的不期望的资源消耗。计算复杂度是使用保持复杂操作的FFT或MDCT频率变换而带来的。
此外,尽管在受益于音频带知识的某些上述音频信号处理的应用中,被解码的信号是可用的,诸如包括在“HD语音”徽标的移动终端上显示的应用,但不是对所用应用都是这样。于是,例如,在与移动语音讯息的宽带中已经留下的呼叫数量的指示符相关的应用中,解码的复杂度于是必须被加到时间频率变换的复杂度以及基于每频带能量的音频带检测的复杂度。现在,在编码器中,诸如特别是在上述AMR-WB编码器中,解码表示解码器的总复杂度的20%,其自身被评估为在40WMOPS左右(“加权的每秒百万次操作”的缩写)。
如上所示,特定的编码器将线性预测编码技术和诸如例如基于MDCT类型的编码技术的频率转换之类的其他压缩技术进行组合。然后可以使用用于这些块的现有方案,仅对通过频率变换技术来编码的音频信号块进行检测。但是,该解决方案将损害检测的响应率,因为根据内容类型和/或比特率,可以主要使用线性预测编码。
发明内容
本发明的一个目标是纠正上述技术领域中的缺陷。
为此,本发明的主题涉及一种在已经根据连续(succession)数据块来编码的音频数据信号中检测预定频带的方法,其中至少特定的块分别包含表示线性预测滤波器的频谱参数的至少一个集合。
根据本发明的方法值得注意在于,针对所述至少特定块中的当前块、并且就此所述集合中的至少多个频谱参数之前已被解码,它实现下列步骤:
-在所述多个之前已解码频谱参数中确定与阈值频率最接近的第一频谱参数的索引,
-基于确定的索引来计算至少一个标准,
-根据计算的标准来判定是否在当前块中检测到预定频带。
该规定使其可能以低计算成本来识别之前通过线性预测编码器来编码的内容的音频带是否比该编码器在其中操作的音频带更为严格。
在例如以16kHz来采样信号、然后为了后者的LPC分析而以12.8kHz来欠采样的AMR-WB编码器的例子中,本发明使其可能确定例如频率高于4kHz的音频内容的存在。
在不需要对音频信号进行完整解码时,该规定尤其有利。于是,本发明可以有利地在用于检测频带的特定的应用中实现,其不需要实现已编码的音频信号(诸如例如已经在移动语音讯息的宽带中留下的呼叫数量的指示符)的解码。
由于该检测的主要基于仅部分被解码的线性预测频谱参数的分布差异分析的简单性,该检测的性能由此最优化。此外,与现有频带检测方案中将FFT或MDCT频率变换用于被解码的信号所带来的计算复杂度相比,实现该检测所执行的计算的复杂度被显著降低。
在特定的实施例中,上述频谱参数集合的所有频谱参数被事先解码。
通过直接访问与该内容关联的被解码的线性预测参数,该规定使其可能以简单的方式来检测被解码的音频内容的频带,而不用增加额外的复杂度(完整解码、时间频率变换)。
于是,例如,被本发明特别适于在固定或移动的通信终端中实现,该终端天然包括音频编码器和解码器,且更准确地说,适于在该终端中应用,其包括在后者的屏幕上显示“HD语音”徽标。
在另一实施例中,在所述连续数据块中特定的块每一个包含表示线性预测滤波器的频谱参数的集合并且特定的其他块每一个包含通过频率变换得到的频谱参数的集合的情形下,根据本发明的检测仅考虑其每一个块包含表示线性预测滤波器的频谱参数的集合的块。
由于这涉及某些块,其中每一个块包含通过频率变换得到的频谱参数的集合的块,所以诸如能够应用现有技术的频带检测方案。
在另一特定的实施例中,当待检测的预定频带是高频率带时,所述确定步骤包括优选地搜索高于阈值频率的第一频谱参数的索引。
根据本发明,“高频率带”意图表示频率高于特定阈值的频带。例如,在宽带中,可以认为高频率带对应于高于4kHz(或3.4kHz)的频率。更一般地,针对以采样频率Fe采样并且带宽小于等于0.5Fe的信号,高频带将会是频率大于α'0.5Fe(0<α'<1)的频带,α'是可调整的。
类似地,“低频带”表示频率低于特定阈值的频带。当待检测的预定频带是低频带时,所述确定步骤包括优选地搜索低于阈值频率的最后一个频谱参数的索引。
该规定由此使其例如可能在HD质量语音处理应用中实现本发明,特别是在能够以上述频率范围中操作的移动终端中、或者在能够处理HD音频内容的语音讯息服务器中、或者在拼接成通信网络的音频流的探针中也同样好地实现。
在又一特定实施例中,当前块包含表示语音活动的数据。
在通过不对包含表示线性预测滤波器的频谱参数的至少一个集合的所有帧、而仅对可能包含高频的相关帧执行检测,而在涉及在已编码的音频信号中检测位于高频的频带的特定情形下,这样的可选规定使其可能优化检测方法的复杂度降低。
在另一特定的实施例中,通过下列两者间的比较来计算所述标准:
-两个相邻的解码频谱参数之间距离的最大值,所述值是针对在所述确定步骤完成时已经得到的第一已解码频谱参数的索引的值来确定的,
-两个相邻的解码频谱参数之间距离的最小值,所述值是针对在所述确定步骤完成时已经得到的第一已解码频谱参数的索引的值来确定的。
如果检测到预定的频带,则该规定使其可能基于简单的计算来实现,同时遵循检测复杂度/可靠性/响应率的折衷。
作为变型,至少使用在所述确定步骤完成时得到的第一已解码频谱参数的索引在数学函数的帮助下计算上述标准。
在又一特定实施例中,在针对当前块实现的判定步骤之后,通过对判定步骤的结果以及关于当前块前面的K个块的K个更早的判定结果的平滑来实现全局判定步骤。对专用于每一个块的局部检测的若干个块的该平滑使其可能增加检测的可靠性,且诸如防止实际上几帧都是窄带的音频内容(诸如噪声)。
相关地,本发明涉及一种旨在实现根据本发明的检测方法的检测设备。根据本发明的检测设备因此旨在在之前已经根据数据块序列来编码的音频数据信号中检测预定频带,其中,至少特定的块分别包含表示线性预测滤波器的频谱参数的至少一个集合。
该检测设备值得注意之处在于它包括用于处理所述至少特定块中的当前块的装置,并且其中所述集合的至少一个多个频谱参数之前已被解码,该装置能够:
-在多个之前已解码频谱参数中确定与阈值频率最接近的第一频谱参数的索引,
-基于确定的索引来计算至少一个标准,
-根据计算的标准来判定是否在当前块中检测到预定频带。
特别地,该检测设备旨在实现上述检测方法的所有实施例。在其他特定的实施例中,检测设备能被包含在通信终端或语音讯息服务器或探针中。
本发明的目标还在于一种包含指令的计算机程序,在计算机上执行程序时,该指令用于实现上述检测方法的步骤。
该程序可以使用任意语言,并且可以是源代码、目标代码或介于域代码和目标代码之间的代码的形式,诸如部分编译的形式或任意其他想要的形式。
本发明的另一主题是一种记录介质,其可被计算机读取,并且包含诸如上述计算机程序的指令。
记录介质可以是能够存储介质的任意实体或设备。例如,该介质可以包括存储装置诸如ROM诸如CD ROM或微电子电路ROM,或者磁记录装置诸如磁盘(软盘)或硬盘。
此外,该记录介质可以是可传输介质诸如电或光信号,其可以经电或光缆通过无线电或其他装置来传递。根据本发明的程序尤其可以通过互联网类型的网络来下载。
或者,该记录介质可以是包含程序的集成电路,该电路适于执行所讨论的方法或用于后者的执行。
上述检测设备或计算程序至少表现出与根据本发明的检测方法所给予的相同的优势。
附图说明
阅读参考附图描述的优选实施例,其他特征和优势将变得明显,在附图中:
-图1表示根据本发明的检测方法的主要步骤,
-图2表示根据本发明的检测设备的实施例,
-图3表示在根据本发明的检测方法和设备中使用的阈值频率的不同例子,
-图4A表示针对被AMR-WB编码器编码的包含表示语音活动(flagVAD=1)的数据的块、大于4kHz的第一频谱参数的索引的直方图,
-图4B表示在不考虑语音活动指示时针对所有被AMR-WB编码器编码的块、大于4kHz的第一频谱参数的索引的直方图,
-图5A表示针对被AMR-WB编码器编码的包含表示语音活动(flagVAD=1)的数据的块、基于大于4kHz的第一频谱参数的索引的两个连续频谱参数之间的最大差异和最小差异之间的比率的累积直方图,
-图5B表示在不考虑语音活动指示时针对所有被AMR-WB编码器编码的块、基于大于4kHz的第一频谱参数的索引的两个连续频谱参数之间的最大差异和最小差异之间的比率的累积直方图,
-图6A表示能够实现如图1所示的检测方法的移动通信终端,
-图6B表示能够实现如图1所示的检测方法的语音讯息服务器。
具体实施方式
现在将参考图1和2来描述本发明的一般原则。
在图1中,以包含步骤S0到S4的算法的形式来展示根据本发明的频带检测方法。
在图2中,在图2所示的检测设备DET中以软件或硬件的方式来实现上述检测方法,该设备为此包含专用于检测的处理模块TR。
为了检测所考虑的音频信号中的预定频带,该检测设备DET被布置为:
-与音频解码器关联,以恢复与所述被解码的音频信号关联的特定的被解码参数,这将在本描述中进一步说明,
-或者独立于解码器,以读取已编码的音频信号,然后对与所述已编码的音频信号关联的特定的被编码参数进行部分解码,这将在本描述中进一步说明,
-或者被拼接成已编码的音频信号,以读取所述信号,然后对与所述已编码的音频信号关联的特定的被编码参数进行部分解码,这将在本描述中进一步说明。
在音频解码器中布置检测设备DET的情形下,检测设备DET例如被包含在固定或移动的通信终端中。
在独立于编码器来布置检测设备DET或者被拼接为已编码的音频信号的情形下,检测设备DET例如被包含在音频信号传输链的元件中(例如,讯息服务器,其中音频信号被存储而没有解码)。
在实现检测音频信号中的预定频带的方法之前,对之前已经以预定采样频率Fe采样的该信号进行编码。
根据本发明,使用诸如ISP系数或相关的表示之类的短期LPC频谱参数,在诸如线性预测编码器中执行所述信号的编码,覆盖频率中的至少部分频谱(被归一化或未被归一化)。
所述编码器诸如是如上所述的3GPP AMR-WB编码器。
通过替代,可以通过诸如例如如上所述的编码器来执行所述信号的编码,该编码器将MDCT类型的频率变换技术与CELP类型的线性预测编码技术进行组合。
在所示例子中,采样频率等于16kHz,对应于在从50Hz到7kHz的有用频带中操作的AMR-WB编码器的名义采样频率。
在完成AMR-WB编码器中实现的线性预测编码步骤时,得到如图1和2所示的多个(Z个)连续的数据块B1,B2,…,BZ。每一个块包含表示线性预测滤波器的频谱参数的至少一个集合。
在上述替代的情形下,在完成编码步骤时得到多个连续的数据块,所述块中的特定块包含表示线性预测滤波器的频谱参数的至少一个集合,且所述块中的特定的其他块包含通过频率变换得到的频谱参数的至少一个集合。
接下来基于对每一个上述块的分析来实现检测刚才已编码的音频信号中的预定频带的方法。
根据本发明的检测方法仅被用于检测某些块,该块包含表示线性预测滤波器的频谱参数的至少一个集合,多个这样的参数之前已被解码。
在上述替代的情形下,由于这涉及某些块,其中每一个块包含通过频率变换得到的频谱参数的集合,所以例如能够应用现有技术的频带检测方案。
根据实施例,预定频带是宽带内容的HF频带。
在图1所示的步骤S1中,对当前块Bn进行处理(n是整数从而1≤n≤Z)。当前块Bn包含M个之前已解码频谱参数p(ik),具有M'(M'≤M)个频谱参数的有序子集,该子集例如在索引imin和imax之间延伸,以使得p(imin)<...p(ik)<...<p(imax),其中,imin表示所述子集中的最小频谱参数的索引,而imax表示所示子集中的最大频谱参数的索引。
简明起见,下面描述有序子集的频谱参数满足关系p(i)<p(j)if i<j,i,j∈{imin,…,imax}的情形。对于本领域技术人员来说很明显,本发明也被用于其他情形:诸如例如有序子集的频谱参数满足关系p(i)>p(j)if i<j,i,j∈{imin,…,imax}的情形。
通过如图2所示的检测设备DET中的计算软件子模块CAL1来实现上述步骤S1。
为此,计算子模块CAL1确定所述M'个频谱参数中与阈值频率最接近的第一频谱参数的索引iF,所述阈值频率是基于所述音频信号的采样频率Fe来确定的。
在所示例子中,Fth=αFe(α<0.5),其中,α是可调整的参数。图3表示根据所使用的采样频率Fe的各个可能的Fth值,以及参数α的值。
更具体而言,在步骤S1的过程中,计算子模块CAL1根据下列操作来搜索大于Fth的第一频谱参数p(ik)的索引iHF:
或者相反,在步骤S1中,计算子模块CAL1根据下列操作来搜索小于Fth的最后一个频谱参数p(i)的索引iBF:
优选地,步骤S1之前是预选步骤S0,在该步骤中在块B1,B2,…,BZ中仅预选包含表示语音活动的数据的块。
传统地在通过语音活动检测VAD模块对这些块进行编码时执行该块的语音活动检测,其:
-使用块中可用的信息(例如:已编码的块中的指示符VAD=1、DTX不连续传输模块的“DTX开启”模式、在块已由EVRC编码器(“增强可变速率CODEC”的缩写)编码时将已编码的块分类为包含语音活动),
-或者在已编码的信号中计算语音活动标准。
预选步骤S0由图2所示的预选软件模块PRES来实现。
步骤S0是可选的,在图1中它被表示为虚线。通过相应的方式,图2中的模块PRES也被表示为虚线。
然后在图1所示的步骤S2中,基于确定的所述索引iF来计算至少一个标准。该步骤由诸如图2所示的检测设备DET中的第二计算软件子模块CAL2来实现。
根据第一变型实施例,该标准基于针对确定的索引iF的两个连续频谱参数之间的“距离”的比较。
根据以下关系来估算该距离:
d(i)=dist(p(i),p(i-1))
优选地,该距离对应于两个连续的频谱参数之间的简单差:
d(i)=dist(p(i),p(i-1))=((p(i)-p(i-1))
更准确地说,软件子模块CAL2首先分别计算:
-两个相邻的频谱参数之间的距离的最大值dmax,所述值是关于确定的索引iF来估算的,以及
-两个相邻的频谱参数之间的距离的最小值dmin,所述值是关于确定的索引iF来估算的。
根据下列关系来执行该计算:
或者
接下来,计算软件子模块CAL2根据两个计算的距离dmax和dmin来计算标准,以检测HF(或LF)音频内容的存在。该标准例如被表示为crit(dmin,dmax)。
优选地,该标准是之前计算的两个距离之间的比率ρ,从而:
ρ=crit(dmin,dmax)=dmax/dmin(或者crit(dmin,dmax)=dmin/dmax)
根据第二变型实施例,该标准基于使用索引iF作为参数的数学函数F(iF)。
所述数学函数F(iF)包括例如分段仿射函数从而:
如果imin≤iF<l0,则F(iF)=a0iF+b0
如果i0≤iF<l1,则F(iF)=a1iF+b1
如果lN-2≤iF<imax,则F(iF)=aN-1iF+bN-1
特别地,所述函数可以分为四段,从而:
如果imin≤iF<8,则F(iF)=4*iF-36
如果8≤iF<10,则F(iF)=3*iF-30
如果10≤iF<13,则F(iF)=2*iF-21
如果13≤iF≤imax,则F(iF)=3*iF-30
于是,根据该变型,该标准依赖于仿射函数的值。
当然可以使用其他函数。诸如将引用下列函数:
F(iF)=sign(iF-c)*(iF-c)2,其中如果x<0,sign(x)=-1,否则=1sign(x)=1,其中,c是变量或等于大约10.5的常量。
在上述步骤S2之后,图1所示的步骤S3包括根据在步骤S2中计算的一个标准来判定是否在当前块Bn中检测到预定频带。该步骤由诸如图2所示的检测设备DET中的第三计算软件子模块CAL3来实现。
通过替代,该判定依赖于上述一个或其他两个标准,或者它们的组合。
在所计算的标准符合第一所述变型即ρ=dmax/dmin的情形下,判定可以是软或硬的。
简明起见,以下描述了与高频率带检测相关的判定步骤的情形。对于本领域技术人员来说很明显,以类似的方式来应用该判定步骤,涉及诸如低频率带之类的另一频带的检测。
硬判定包括将标准ρ与用critth表示的适应性或非适应性预定阈值进行比较。诸如根据以下计算来执行比较:
如果ρ>critth,则flagHF=1
否则flagHF=0
其中,flagHF是一比特,在被设置为1时表示检测到HF内容,或者在被设置为0时表示未检测到HF内容。
软判定包括诸如使用限制在区间[1,3]内的ρ值。该值越接近区间的下边界“1”,更多地认为未在音频信号的块中检测到HF内容。该值越接近区间的上边界“3”,更多地认为在音频信号中检测到HF内容。
考虑标准为ρ'=dmin/dmax的情形。
硬判定包括将标准ρ'与用crit'th表示的适应性或非适应性预定阈值进行比较。则比较是:
如果ρ'>crit'th,则flagHF=0
否则flagHF=1
其中,flagHF等于1(或0)表示检测到HF内容(或未检测到HF内容)。
软判定包括例如使用区间[0,1]中的ρ'值。该值越接近区间的下边界“0”,更多地认为在音频信号的块中检测到HF内容。该值越接近区间的上边界“1”,更多地认为在音频信号中未检测到HF内容。标准的值越接近区间的边界,块的判定(检测或未检测到HF内容)看起来更可靠,而接近阈值crit'th的ρ'值表示判定的低可靠性。
在所计算的标准符合第二变型的情形即数学函数F(iF)的情形下,判定可以是软或硬的。
例如考虑数学函数F(iF)=sign(iF-c)*(iF-c)2用于检测是否存在HF内容的情形。
硬判定诸如包括根据下列计算将标准F(iHF)与0进行比较:
如果F(iHF)<0,则flagHF=1
否则flagHF=0
其中flagHF是一个比特,其被设置为1表示已经检测到HF内容,或者被设置为0表示尚未检测到HF内容。
在该情形下,软判定然后可以包括采用数学函数的值。该值越负(或正),HF内容的存在(或不存在)的检测越可靠。另一方面,数学函数的值接近零表示检测的可靠性低。
在检测设备DET已经持有与当前块Bn之前的K个块分别相关的K个判定结果的情形下,为了增加检测的可靠性,有利地在图1所示的下列步骤S4中通过可选滑动的窗口对这K个结果与刚才在前述步骤S3中针对当前块Bn获取的判定结果进行平滑。这里再一次,窗口上的检测可以是软或硬判定,是否已通过软或硬判定得到与每一个块相关的局部检测。该平滑步骤S4由图2所示的第四计算软件子模块CAL4来实现。
步骤S4是可选的,在图1中用虚线表示。通过相应的方式,图2中的子模块CAL4也用虚线表示。
在所示实施例中,其中音频编码器是3GPP AMR-WB编码器,已编码的数据的每一个块包含16个参数,其中前15个参数是覆盖0到6.4kHz之间的(归一化(normalize))频谱的有序频谱参数。
图4A和4B每一个表示AMR-WB编解码器的大于Fth=4kHz的频谱参数p(i)的索引iHF的直方图。索引被表示为横坐标,而这些索引的百分比分布被表示为纵坐标。在图4A中,已经实现的检测方法包括预选包含语音活动的块的步骤S0。在图4B中,已经实现的方法不包括步骤S0。在图4A和4B中通过示例展示了四个不同的配置:用粗实线表示,其仅对应于AMR-WB编解码器;用虚线表示,其对应于在另一WB编码器诸如例如64kbit/s的G.722HD固定编码器之后串联放置的AMR-WB编码器;用细线表示,其对应于在NB编码器诸如G.711旋转(pivot)编码器之后串联放置的AMR-WB编码器;以及用点划线表示,其对应于在NB编码器诸如FR移动编码器(“全速率”的缩写)之后串联放置的AMR-WB编码器。
考虑三种不同的信噪比SNR(SNR=5、10、20dB),在具有各种背景噪声(道路交通、自助餐厅、喧哗)的长语音文件中获得直方图。
如图4A和4B所示,高于4kHz的第一频谱参数的索引分布取决于是WB还是NB类型的第一编码器而明显不同。特别是针对WB编码器,在索引iHF=10得到尖峰。
通过相应的方式,图5A和5B每一个表示基于AMR-WB编解码器的大于Fth=4kHz的频谱参数的索引iHF、在两个连续的频谱参数之间的最大差异和最小差异之间的比率ρ的累积直方图。比率ρ的值被表示为横坐标,而这些比率的百分比分布被表示为纵坐标。在图5A中,已经实现的检测方法包括预选包含语音活动的块的步骤S0。在图5B中,已经实现的检测方法不包括步骤S0。图5A和5B示出了与图4A和4B中的配置分别对应的四个配置。以和图4A和4B类似的方式用符号来表示图5A和5B中的四个配置。
如图5A和5B所示,比率ρ的分布取决于编码器是WB还是NB类型而明显不同。特别地,与WB编码器相关的比率ρ的分布和与NB编码器相关的比率ρ的分布互相偏离ρ=1.9起。
本发明由此有利地利用该分布的例子来检测被诸如AMR-WB编码器之类的线性预测编码器编码的音频信号是否包含高频,有利地以下列方式来执行该检测:
-低算法复杂度,
-对于不提供任何音频解码的特定音频应用,不需要音频信号的完全解码,
-不需要使用昂贵的频率变换。
现在应描述刚才为了在HD移动通信终端上显示HD徽标而以上描述的检测方法的第一应用。
该终端由图6A中的参考(符号)TER来表示。
通过本身已知的方式,终端TER包括:
-用户界面INT,传统地包括键盘、屏幕、耳机和扬声器,
-例如3G类型的通信模块COM1,
-只读存储器MEM1,包括音频编码模块CO1和音频解码模块DO1。
在所示例子中,编码模块CO1和解码模块DO1是AMR-WB类型的。
根据本发明,移动终端TER的只读存储器MEM1或另一存储器还包括用于检测预定频带的检测设备DET1,与图2所示的检测设备DET类似。
在该应用中,通过传统的方式,已编码的音频流由通信模块COM1接收到,然后通过解码模块DO1来完全解码,由此移动终端TER通过其用户界面INT的扬声器来回放语音。从解码器DO1传递到检测设备DET1的被解码参数之中的特征是前15个ISF系数、覆盖0和6.4kHz之间的(归一化)频谱的有序频谱参数、以及可选的指示符VAD,如果将已编码的音频流发射到终端TER的终端的编码器已经估算帧信号是活动的(音调、语音、音乐),则该指示符VAD的值被设置为1,否则被设置为0。
基于所述前15个ISF系数以及可选的指示符VAD,终端TER的检测设备DET1,然后以比诸如将时间频率变换应用于之前被解码的信号的复杂度小得多的复杂度来直接实现诸如图1所述的预定频带检测方法。
为此,在实现上述步骤S0之前,在实现可选的平滑步骤S4的情形下,将下列四个值初始化为零:
-全局标准critGlob,
-索引ind,用于对局部标准的表进行索引,
-与进行判定的帧相关的帧计数器nbFrm,
-局部判定的数组tabDec。
在完成初始化步骤时,得到下列值:
critGlob=0;
ind=0;
nbFrm=0;
tabDec[i]=0;其中i=0,…,nbCount,
其中,nbCount是局部判定的数量,在其基础上进行全局判定(0<nbCount)。
在图1所示的步骤S1中,对当前块Bn进行处理(n是整数从而1≤n≤Z)。当前块Bn包括上述15/16个参数(15个频谱系数以及可选的指示符VAD),其已经被解码模块DO1解码。
优选地,步骤S1之前是预选步骤S0,在该步骤中,在块B1,B2,…,BZ中仅预选包含表示语音活动的数据的块,就此指示符VAD等于1。
在处理所述当前块Bn的过程中,根据下列操作来搜索大于Fth的第一频谱参数p(ik)的索引iHF。
明显地可以选择i0=0和i1=15作为搜索间隔。有利地,搜索间隔被减小,由此带来更快且更少复杂的检测。例如,通过选择io=8而不是i0=0。
类似地,可以通过选择i1=12而不是i1=15来更多地限制搜索间隔。
在所示例子中,阈值频率Fth等于4kHz。被表示为关于0.5(对应于6.4kHz)的归一化频率的该频率值于是等于0.3125(即在定点算术Q15中1024=0.3125*32768)。
下面给出了该步骤的C计算机语言的伪代码的例子。
然后在图1所示的步骤2中,基于索引iHF的所述频谱参数来计算当前块Bn的至少一个局部标准。
在该实施例中选择的标准是:
F(iHF)=sign(iHF-c)*(2iHF-c)2,
其中,如果x<0,则sign(x)=-1,否则sign(x)=1,其中c=21。
下面给出了该步骤的C伪代码的例子:
在上述步骤S2之后,图1所示的步骤S3包括根据在步骤S2中计算的一个标准来判定是否在当前块Bn中检测到预定频率。
优选地,该判定是由上述步骤中计算的局部标准给出的软判定。
下面给出了该步骤的C伪代码的例子:
decLoc=critLoc;move16();
在实践中,在完成该步骤时,HD徽标将以和所计算的标准的较高或较低值分别对应的较高或较低的对比显示在终端TER的屏幕上。
通过替代,该判定是由上述步骤中计算的局部标准确定的硬判定。
下面给出了该替代步骤的C伪代码的例子:
在实践中,在完成该替代步骤时,如果所计算的标准小于0,则HD徽标将被显示在终端TER的屏幕上,否则不被显示。
有利地,在图1所示的可选步骤S4中,为了增加检测的可靠性,通过可选滑动的窗口在若干个块(nbCount>1)上平滑局部检测。这里再一次,通过与前述步骤类似的方式,对窗口的检测可以是软或硬判定decGlob,局部检测是否通过软或硬判定来获取。
因此,局部判定(软或硬)被存储在局部判定的数组中,并被用于更新全局标准critGlob。
在局部判定是软的(decLoc=critLoc)而全局判定是硬的情形下,下面给出了该步骤的C伪代码的例子:
在初始化步骤之后——针对已经确定局部判定decLoc的每一个数据块,将变量critGlob和ind以及数组tabDec[nbCount]设置为0:
这里在滑动窗口上进行全局判定。
在变型实施例中,在非重叠的窗口上进行全局判定。在该情形下,不需要存储局部判定的数组,它足以将局部判定加到全局判定,该全局判定在每一个被处理窗口开始时被重新初始化为0。在局部判定是软的(decLoc=critLoc)而全局判定是硬的情形下,下面给出了该变型的C伪代码的例子:
在初始化步骤之后——针对已经确定局部判定decLoc的每一个数据块,将变量critGlob和ind设置为0:
以上刚刚描述的应用由此影响显示或不显示HD徽标的响应时间和检测可靠性之间的折衷。
此外,如下表所示,计算复杂度相对较低,下表表示上述特定指令的权重:
为了表示已经在移动语音讯息服务器的宽带中留下的呼叫数量,现在将描述以上参考图1所述的检测方法的第二应用。
该服务器由图6B中的参考(符号)SER来表示。
特别地,该服务器以传统的方式包括:
-消息收件箱的集合EBR,
-例如IP类型的通信模块COM2,
-只读存储器MEM2,其包含模块GES,用于管理在上述集合EBR的收件箱中记录的语音消息。
存储器MEM2还包括解码模块DO2和编码模块CO2,如果需要,其分别用于对被留下的语音消息的音频内容进行解码然后重新编码。
在已留下的语音消息的音频内容被编码器初始编码的情形下该操作变得必要,该编码器不同于要询问所述语音消息的终端中包含的编码器或者在所述消息询问期间由网络提供的编码器。
为了存储以不同编码格式留下的语音消息,该操作也变得必要,并且这可以是操作者对网页邮件类型的应用的选择,其目标是提供语音讯息的所有者的邮箱中的消息。
根据本发明,只读存储器MEM2或者服务器SER的另一存储器还包括:
-用于检测预定频带的检测设备DET2,与图2所示的检测设备DET类似,
-部分解码模块DP。
在服务器SER中留下的语音消息是已编码的流、其不需要被解码模块DO2和编码模块CO2分别立即解码并重新编码的情形下,由于例如网页邮件在操作者处不可用,在检测HF内容之前部分解码模块DP能够仅部分解码前15个ISF系数以及可选的指示符VAD。该规定可能与根据两个子向量的ISF系数的向量量化(例如在AMR-WB类型的编码器中实现的)有关。合理地回顾,在本领域技术人员众所周知的产品代码类型SVQ(“分割向量量化”的缩写)的量化方案与多阶段类型MSVQ(“多阶段向量量化”的缩写)的量化方案的组合的帮助下实现该量化。
于是,根据本发明,解码模块DP仅解码ISF系数的第二子向量,即包含最后八个ISF系数的最高索引的子向量,该最后八个ISF系数分布更易于展示HF内容的存在。可选地,解码模块DP对指示符VAD进行解码。
该规定使其可能有利地降低已编码的音频流的频带检测的计算复杂度。该规定还使其可能通过取消对ISF系数的第一子向量进行解码以及存储其向量量化字典的指令来节省存储器MEM2的资源。
基于由此得到的被解码的频谱系数的一部分,服务器SER的检测设备DET2于是直接实现诸如图1所述的预定频带检测方法。
该方法的步骤S0到S4与刚才结合图6A的终端TER的以上所述的类似。因此不会再次描述它们。
在该第二应用中更具体而言,将解码限制为仅频谱参数的一部分有利地使其可能,作为低处理成本的交换,在由诸如AMR-WB之类的线性预测编码器编码的帧上识别已编码的内容是否确实具有高频分量且因此它是否实际上是HD,且由此在不执行任意二进制流的解码的系统级别上具有内容的音频带的相关信息(诸如语音讯息服务器)。
根据与在服务器SER中留下的语音消息是需要被解码模块DO2和编码模块CO2分别解码然后被重新编码的被编码流的情形相对应的替代(诸如网页邮件应用),解码模块DP然后以和参考图6A所述的解码模块DO1相同的方式来操作。
毋庸赘述,在纯指示性且完全非限制的基础上给出以上描述的实施例,并且本领域技术人员可以容易地进行多种调整而不偏离本发明的范围。
于是例如,代替在部分解码模式下在讯息服务器中使用,用于检测预定频带的方法可以类似的方式用于被拼接成音频流的探针。
此外,用于检测预定频带的方法不是必须受限于通过宽带编码器来编码的内容。该带宽也可以是可变的。
类似地,可以实现检测方法以检测低频率带中的内容而不是高频率带中的内容。在该情形下,如前所述,上述确定步骤S2可以自然包含在频谱参数集合中的至少一个多个之前已编码的频谱参数中搜索低于阈值频率的最大频谱参数的索引。
于是频率Fth还可以在上述一个应用的过程中变化。
还可以根据在标准选择、可选地组合若干个标准的方式、或者局部和全局地使用软或硬判定等方面的若干个变型来实现检测方法。根据选择的变型,于是可以优化检测复杂度/可靠性/响应率的折衷。
最后,尽管结合移动通信网络来描述本发明,前者当然可以结合易于使用线性预测编码器的其他类型的通信网络(RTC的固定网络、移动VoIP类型等)来实现。
Claims (13)
1.一种在之前已经根据连续数据块(B1,B2,…,Bz)来编码的音频数据信号中检测预定频带的方法,所述连续数据块中的至少特定的块分别包含表示线性预测滤波器的频谱参数的至少一个集合,所述检测方法的特征在于,针对所述至少特定块中的当前块(Bn),并且就此所述集合中的至少多个频谱参数之前已被解码,该检测方法实现下列步骤:
-在所述多个之前已解码频谱参数中确定(S1)与阈值频率最接近的第一频谱参数的索引,
-基于所述确定的索引的两个连续频谱参数之间的“距离”的比较和/或基于使用所述确定的索引作为参数的数学函数,来计算(S2)至少一个标准,
-根据计算的标准来判定(S3)是否在所述当前块中检测到所述预定频带。
2.如权利要求1所述的检测方法,其中所述集合的所有频谱参数被事先解码。
3.如权利要求1或2所述的检测方法,其中,在所述数据块序列中特定的块每一个包含表示线性预测滤波器的频谱参数的集合并且特定的其他块每一个包含通过频率变换得到的频谱参数的集合的情形下,所述检测仅考虑其每一个块包含表示线性预测滤波器的频谱参数的集合的块。
4.如权利要求1所述的检测方法,其中,当待检测的所述预定频带是高频带时,所述确定步骤包括搜索高于阈值频率的第一频谱参数的索引。
5.如权利要求1所述的检测方法,其中,当待检测的所述预定频带是低频带时,所述确定步骤包括搜索低于阈值频率的最后频谱参数的索引。
6.如权利要求1所述的检测方法,其中,所述当前块包含表示语音活动的数据。
7.如权利要求1所述的检测方法,其中,通过下列两者间的比较来计算所述标准:
-两个相邻的已解码频谱参数之间距离的最大值(dmax),所述值是针对在所述确定步骤完成时已经得到的第一已解码频谱参数的索引的值来估计的,
-两个相邻的已解码频谱参数之间距离的最小值(dmin),所述值是针对在所述确定步骤完成时已经得到的第一已解码频谱参数的索引的值来估计的。
8.如权利要求1所述的检测方法,其中,至少使用在所述确定步骤完成时得到的第一已解码频谱参数的索引(iF)作为参数在数学函数(F(iF))的帮助下计算所述标准。
9.如权利要求1所述的检测方法,其中,在针对所述当前块实现的所述判定步骤之后,通过对所述判定步骤的结果以及分别关于所述当前块前面的K个块的K个更早的判定结果的平滑来实现全局判定步骤(S4)。
10.一种旨在实现如权利要求1到9中任一个所述的检测方法的检测设备,所述设备的特征在于,它包括用于处理所述至少特定块中的当前块(Bn)的装置(TR),并且就此其中所述集合的至少一个多个频谱参数之前已被解码,该装置能够:
-在所述多个之前已解码频谱参数中确定与阈值频率最接近的第一频谱参数的索引,
-基于所述确定的索引的两个连续频谱参数之间的“距离”的比较和/或基于使用所述确定的索引作为参数的数学函数,来计算至少一个标准,
-根据计算的标准来判定是否在所述当前块中检测到所述预定频带。
11.如权利要求10所述的检测设备,所述设备能被包含在通信终端(TER)或语音讯息服务器(SER)中。
12.一种用于接收之前已经根据连续数据块(B1,B2,…,Bz)来编码的音频数据信号的方法,在所述连续数据块中至少特定的块分别包含表示线性预测滤波器的频谱参数的至少一个集合,所述接收方法包括对所述编码的音频数据信号进行解码的步骤,
所述方法的特征在于,针对所述音频数据信号的至少一个当前块,所述解码步骤包括解码在所述至少一个当前块中包括的集合的至少多个频谱参数,
所述方法进一步实现下列步骤:
-在所述多个解码的频谱参数之中确定(S1)与阈值频率最接近的第一频谱参数的索引,
-基于所述确定的索引的两个连续频谱参数之间的“距离”的比较和/或基于使用所述确定的索引作为参数的数学函数,来计算(S2)与在所述接收到的音频数据信号中检测预定频带相关的判定标准的值,
-根据分别较高或较低的对比,在终端的屏幕上显示与所计算的判定标准的较高或较低值分别对应的信息项。
13.一种用于接收之前已经根据连续数据块(B1,B2,…,Bz)来编码的音频数据信号的终端,所述连续数据块中至少特定的块分别包含表示线性预测滤波器的频谱参数的至少一个集合,所述接收终端包括对所述编码的音频数据信号进行解码的装置(DO1),
所述终端的特征在于,针对所述音频数据信号的至少一个当前块,所述进行解码的装置能够解码在所述至少一个当前块中包括的集合的至少多个频谱参数,
并且所述终端进一步包括:
-用于在所述多个解码的频谱参数之中确定与阈值频率最接近的第一频谱参数的索引的装置(DET1),
-基于所述确定的索引的两个连续频谱参数之间的“距离”的比较和/或基于使用所述确定的索引作为参数的数学函数,来计算与在接收到的所述音频数据信号中检测预定频带相关的判定标准的值的装置(DET1),
-用于根据分别较高或较低的对比、在终端的屏幕上显示与所计算的判定标准的较高或较低值分别对应的信息项的装置(INT)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1161992 | 2011-12-20 | ||
FR1161992A FR2984580A1 (fr) | 2011-12-20 | 2011-12-20 | Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant |
PCT/FR2012/052882 WO2013093291A1 (fr) | 2011-12-20 | 2012-12-11 | Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104137179A CN104137179A (zh) | 2014-11-05 |
CN104137179B true CN104137179B (zh) | 2018-08-28 |
Family
ID=47599055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280070157.0A Active CN104137179B (zh) | 2011-12-20 | 2012-12-11 | 在音频数据信号中检测预定频带的方法、检测设备以及相应的计算机程序 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9431030B2 (zh) |
EP (1) | EP2795618B1 (zh) |
CN (1) | CN104137179B (zh) |
FR (1) | FR2984580A1 (zh) |
WO (1) | WO2013093291A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517611B (zh) * | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
CN103905129B (zh) * | 2014-01-22 | 2015-09-30 | 中国人民解放军理工大学 | 基于谱型分析的信号检测及信号信息判读方法 |
CN107452391B (zh) | 2014-04-29 | 2020-08-25 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN106228991B (zh) | 2014-06-26 | 2019-08-20 | 华为技术有限公司 | 编解码方法、装置及系统 |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
CN110796644B (zh) * | 2019-10-23 | 2023-09-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频文件的缺陷检测方法及相关设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101023471A (zh) * | 2004-09-17 | 2007-08-22 | 松下电器产业株式会社 | 可伸缩性编码装置、可伸缩性解码装置、可伸缩性编码方法、可伸缩性解码方法、通信终端装置以及基站装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3739959B2 (ja) * | 1999-03-23 | 2006-01-25 | 株式会社リコー | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
WO2009068084A1 (en) * | 2007-11-27 | 2009-06-04 | Nokia Corporation | An encoder |
-
2011
- 2011-12-20 FR FR1161992A patent/FR2984580A1/fr not_active Withdrawn
-
2012
- 2012-12-11 EP EP12816709.5A patent/EP2795618B1/fr active Active
- 2012-12-11 WO PCT/FR2012/052882 patent/WO2013093291A1/fr active Application Filing
- 2012-12-11 CN CN201280070157.0A patent/CN104137179B/zh active Active
- 2012-12-11 US US14/367,435 patent/US9431030B2/en active Active
-
2015
- 2015-12-10 US US14/965,528 patent/US9928852B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101023471A (zh) * | 2004-09-17 | 2007-08-22 | 松下电器产业株式会社 | 可伸缩性编码装置、可伸缩性解码装置、可伸缩性编码方法、可伸缩性解码方法、通信终端装置以及基站装置 |
CN102103860A (zh) * | 2004-09-17 | 2011-06-22 | 松下电器产业株式会社 | 频谱包络信息量化装置及方法、频谱包络信息解码装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
US9928852B2 (en) | 2018-03-27 |
WO2013093291A1 (fr) | 2013-06-27 |
CN104137179A (zh) | 2014-11-05 |
EP2795618B1 (fr) | 2017-11-01 |
US9431030B2 (en) | 2016-08-30 |
US20150179190A1 (en) | 2015-06-25 |
EP2795618A1 (fr) | 2014-10-29 |
FR2984580A1 (fr) | 2013-06-21 |
US20160171986A1 (en) | 2016-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101997037B1 (ko) | 선형예측계수 양자화장치, 사운드 부호화장치, 선형예측계수 역양자화장치, 사운드 복호화장치와 전자기기 | |
AU2017268591B2 (en) | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium | |
RU2729603C2 (ru) | Способ и система для кодирования стереофонического звукового сигнала с использованием параметров кодирования первичного канала для кодирования вторичного канала | |
CN106463142B (zh) | 话音简档管理和语音信号产生 | |
CN104137179B (zh) | 在音频数据信号中检测预定频带的方法、检测设备以及相应的计算机程序 | |
US7426466B2 (en) | Method and apparatus for quantizing pitch, amplitude, phase and linear spectrum of voiced speech | |
JP4659314B2 (ja) | 音声符号器用のスペクトル・マグニチュード量子化 | |
CN103548081B (zh) | 噪声稳健语音译码模式分类 | |
EP1738355A1 (en) | Signal encoding | |
JP2004501391A (ja) | 可変レート音声符号器におけるフレーム消去補償方法 | |
BRPI0012537B1 (pt) | método de processamento de um protótipo de um frame em um codificador de fala e codificador de fala | |
US10950251B2 (en) | Coding of harmonic signals in transform-based audio codecs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |