CN102568484B - 弯曲谱和精细估计音频编码 - Google Patents

弯曲谱和精细估计音频编码 Download PDF

Info

Publication number
CN102568484B
CN102568484B CN201110415397.7A CN201110415397A CN102568484B CN 102568484 B CN102568484 B CN 102568484B CN 201110415397 A CN201110415397 A CN 201110415397A CN 102568484 B CN102568484 B CN 102568484B
Authority
CN
China
Prior art keywords
spectrum
expression
estimation
audio signal
original audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110415397.7A
Other languages
English (en)
Other versions
CN102568484A (zh
Inventor
M·L·塞尔泽
J·G·德罗珀
H·S·玛尔瓦
A·阿塞罗
樊星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102568484A publication Critical patent/CN102568484A/zh
Application granted granted Critical
Publication of CN102568484B publication Critical patent/CN102568484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及弯曲谱和精细估计音频编码。原始音频信号的弯曲谱估计可用于对该原始信号的精细估计的表示进行编码。可将弯曲谱估计的表示和精细估计的表示发送至语音识别系统。可将弯曲谱估计的表示传递至语音识别引擎,在其中它可用于语音识别。弯曲谱估计的表示可与精细估计的表示一起使用以重构原始音频信号的表示。

Description

弯曲谱和精细估计音频编码
技术领域
本发明涉及音频编解码。
背景技术
诸如在移动电话和IP语音(VOIP)网络中所使用的那些典型的语音编解码器使用设计来改善人类听者的感知质量而非语音识别性能的方案来对原始的语音信号编码。相反,语音识别系统通常使用设计来改善语音识别性能的方案来对诸如弯曲频谱估计表示(此处也称为弯曲谱估计)之类的语音识别特征进行编码。一些方案尝试使用已编码语音识别特征来构造音频信号,而一些方案尝试使用已编码的语音编解码器特征来进行语音识别。
发明内容
先前尝试使用已编码语音识别特征来构造音频信号仅取得了有限的成功,导致所构造的音频信号并非原始音频信号的接近表示。类似地,先前尝试使用已编码的语音编解码器特征来用于语音识别也取得了有限的成功。此处所描述的工具和技术可包括使用原始音频信号的弯曲谱估计以对原始信号的精细特征的精细估计进行编码。弯曲谱估计的表示可用于语音识别,并且还可与精细估计的表示一起被用于重构表示原始音频信号的重构音频信号。
如此处所使用的,原始音频信号或原始语音信号是用于编码弯曲谱估计表示的音频信号。原始信号可以是未经处理的音频信号,或者采用多种方式中的一种或多种进行预处理后的音频信号。弯曲谱估计是音频信号的频域估计,该音频信号通过改变由频谱表示的频率组范围而被弯曲。平滑估计是提供关于对应的音频信号的高级(或粗略)细节的经平滑的估计。精细估计是原始音频信号的波形的精细细节的估计,其中精细细节比用于编码精细估计的平滑估计中所提供的细节更精细。精细估计不仅仅是诸如基音信息——其提供了与音频波形的特征有关的一些细节——之类的信息,而且实际上并不估计波形的精细细节。重构的音频信号是从原始音频信号的估计中构造的信号,因而该重构的音频信号表示原始音频信号的近似。
在一实施例中,本发明的工具和技术可包括对来自原始音频信号的弯曲频谱估计的表示进行编码。该编码可基于弯曲频谱并可包括动态范围缩减操作。原始音频信号的平滑估计的表示可使用弯曲频谱估计表示来生成。此外,原始音频信号的精细细节的精细估计表示可使用平滑估计的表示来编码。
在本发明的工具和技术的另一实施例中,原始音频信号的弯曲频谱估计的表示可以被解码。原始音频信号的精细估计的表示也可以被解码。可将弯曲频谱估计的表示传递至语音识别引擎。此外,可使用弯曲频谱估计的表示和精细估计的表示来重构表示原始音频信号的音频信号。重构可包括扩展弯曲频谱估计的表示的动态范围。
提供本发明内容是为了以简化的形式介绍一些概念。这些概念将在以下具体实施方式中进一步描述。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。类似地,本发明不限于解决在背景技术、具体实施方式、或附图中讨论的特定技术、工具、环境、缺点、或优点的实现。
附图说明
图1是其中可实现所描述的各实施例中的一个或多个实施例的合适的计算环境的框图。
图2是音频编码系统的示意图。
图3是语音识别系统的示意图。
图4是用于弯曲谱和精细估计音频编码的技术的流程图。
图5是用于弯曲谱和精细估计音频编码的另一技术的流程图。
图6是用于弯曲谱和精细估计音频编码的又一技术的流程图。
具体实施方式
此处所描述的实施例涉及用于音频特征的经改进的编码/解码的技术和工具,诸如可用在语音识别中以及也可用在音频信号重构中的特征的经改进的编码/解码。这样的改善可源于分开或组合地使用各种技术和工具。
这样的技术和工具可以包括使用弯曲谱估计——其传统上已被用于语音识别——以对原始音频信号的精细估计进行编码。可将弯曲谱估计的表示和精细估计的表示发送至语音识别系统并将其用于语音识别以及重构原始音频信号的表示。例如,可将弯曲谱估计表示传递至语音识别引擎。此外,弯曲谱估计表示可与精细估计表示一起使用以重构音频信号的表示。例如,弯曲谱估计表示可用于生成平滑估计,其可与精细估计组合以对表示原始音频信号的重构音频信号进行编码。
由此,从此处描述的工具和技术中可以实现一个或多个实质的益处。例如,语音识别特征(弯曲谱估计表示)可用于语音识别和用于对原始音频信号的精细估计进行编码以及重构表示原始音频信号的音频信号。所附权利要求中定义的主题不必限于本文描述的益处。本发明的具体实现可提供本文描述的益处的全部、一些、或未提供本文描述的益处。尽管本文出于呈现的目的以特定的顺序次序描述了用于各种技术的操作,但应理解除非要求特定的排序,否则这种描述方式涵盖了操作顺序上的重新安排。例如,在某些情况下,顺序地描述的操作可以被重新安排或并发执行。本文参照流程图描述的技术可被用于本文描述的一个或多个系统和/或用于一个或多个其他系统。例如,本文描述的各种过程可用硬件或软件、或两者的组合来实现。此外,为了简单起见,流程图可能未示出可结合其他技术来使用特定技术的各种方式。
I.示例性计算环境
图1示出其中可实现所描述的各实施例中的一个或多个实施例的合适的计算环境(100)的一般化示例。例如,可将一个或多个此类计算环境用作编码系统和/或语音识别系统。一般而言,可使用各种不同的通用或专用计算系统配置。适用于此处所描述的工具和技术的公知计算系统配置的示例包括,但不限于,服务器场和服务器集群、个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、网络PC、小型机、大型计算机、包括上述系统或设备中的任一个的分布式计算环境等。
计算环境(100)不旨在对本发明的使用范围或功能提出任何限制,因为本发明可以在完全不同的通用或专用计算环境中实现。
参考图1,计算环境(100)包括至少一个处理单元(110)和存储器(120)。在图1中,这一最基本的配置(130)被包括在虚线内。处理单元(110)执行计算机可执行指令,并且可以是真实或虚拟处理器。在多处理系统中,多个处理单元执行计算机可执行指令以提高处理能力。存储器(120)可以是易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、闪存)、或两者的某种组合。存储器(120)存储实现弯曲谱和精细估计音频编码的软件(180)。
尽管为了清楚起见用线条示出了图1的各框,但是,实际上,描绘各组件并不是那样清楚,并且用比喻方法,图1以及下文讨论的其他附图的线条更精确地将是灰色的和模糊的。例如,可以将诸如显示设备等呈现组件认为是I/O组件。而且,处理器具有存储器。发明人关于此点认识到,这是本领域的特性,并且重申,图1的图示只是例示可结合本发明的一个或多个实施例来使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它们全部都被认为是在图1的范围之内的并且被称为“计算机”、“计算环境”、或“计算设备”。
计算环境(100)可具有附加特征。在图1中,计算环境(100)包括存储(140)、一个或多个输入设备(150)、一个或多个输出设备(160)以及一个或多个通信连接(170)。诸如总线、控制器或网络等互连机制(未示出)将计算环境(100)的各组件互连。通常,操作系统软件(未示出)为在计算环境(100)中执行的其它软件提供操作环境,并协调计算环境(100)的各组件的活动。
存储(140)可以是可移动或不可移动的,并可包括诸如磁盘、磁带或磁带盒、CD-ROM、CD-RW、DVD之类的非瞬态计算机可读存储介质,或者可用于储存信息并可在计算环境(100)内访问的任何其它介质。存储(140)储存用于软件(180)的指令。
输入设备(150)可以是诸如键盘、鼠标、笔或跟踪球等触摸输入设备;语音输入设备;扫描设备;网络适配器;CD/DVD读取器;或可向计算环境(100)提供输入的另一设备。输出设备(160)可以是显示器、打印机、扬声器、CD/DVD刻录机、网络适配器、或从计算环境(100)提供输出的另一设备。
通信连接(170)允许通过通信介质与另一计算实体进行通信。因此,计算环境(100)可使用通往诸如个人计算机、服务器、路由器、网络PC、对等设备或另一常见网络节点等一个或多个远程计算设备的逻辑连接而工作在联网环境中。通信介质以已调制数据信号的形式传达诸如数据或计算机可执行指令或请求等信息。已调制数据信号是其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非局限,通信介质包括以电、光、RF、红外、声学或其他载波实现的有线或无线技术。
各种工具和技术可以在计算机可读存储介质的一般上下文中描述。计算机可读存储介质可以是可在计算环境内访问的任何可用的非瞬态的存储介质。作为示例而非局限,结合计算环境(100),计算机可读介质包括存储器(120)、存储(140)、和以上的组合。
这些工具和技术可在诸如程序模块中所包括的在目标真实或虚拟处理器上的计算环境中执行的计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。程序模块的功能可以如各实施例中所需的组合或在程序模块之间分离。用于程序模块的计算机可执行指令可以在本地或分布式计算环境中执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储介质中。
出于演示的目的,详细描述使用了如“确定”、“选择”、“调整”和“操作”等术语来描述计算环境中的计算机操作。这些以及其他类似术语是对计算机执行的操作的高层抽象,并且不应与人类执行的动作混淆,除非明确指出人类(诸如“用户”)的动作执行。对应于这些术语的实际的计算机操作取决于实现而不同。
II.音频编码系统和环境
图2是音频编码系统(200)的示意图。音频编码系统(200)可包括用于执行以下参考图2所描述的动作的软件和/或硬件。尽管音频编码系统(200)被示为移动手持设备,但该音频编码系统可以是某种其他类型的计算机系统,诸如以上参考图1所描述的各类计算机系统中的一种或多种。
可在音频编码系统(200)处接收原始语音信号(220)。原始语音信号(220)可以是未经处理的音频信号,或者采用一种或多种方式进行预处理后的音频信号。音频编码系统可执行帧提取(230)以将原始语音信号(220)分成基于时间的帧。各帧可以重叠。例如,各帧可以重叠百分之五十或某个其他的百分比。图2的其他操作以及以下所讨论的图3的操作可以在逐帧的基础上执行,直至音频信号的重构,其可以组合各帧(例如,使用重叠累加技术)。
对于每一帧,音频编码系统(200)可执行弯曲频谱估计(240)。例如,弯曲谱估计(240)可以是梅尔谱估计,其可以计算每音频帧24或某个其他数量的梅尔谱能量。作为示例,对于窄带语音,该估计(240)可以应用从0至4千赫兹范围内的22个滤波器。作为另一示例,对于宽带语音,该估计(240)可以应用从0至8千赫兹范围内的24个滤波器。另选地,弯曲谱估计(240)可以是某种其他类型的估计,诸如基于梅尔标度以外的某个其他频率标度(诸如线性或指数标度)的弯曲频谱估计。音频编码系统(200)可执行梅尔谱能量的动态范围缩减(242)。例如,这可以通过执行对数运算(例如,自然对数运算或基10对数运算)、开方运算(立方根运算、十五次方根等)或动态范围缩减(242)的某个其他运算来完成。音频编码系统(200)还可以对能量执行诸如离散余弦变换之类的变换(244),产生经范围缩减的和变换的梅尔频率倒谱系数(MFCC)。
音频编码系统可对MFCC执行诸如量化(246)之类的有损压缩操作,以产生弯曲谱估计表示(248)(当然,由弯曲谱估计(240)、范围缩减(242)、变换(244)中的每一个所产生的值也可被认为是弯曲谱估计表示)。量化(246)可以是各种不同类型的量化中的任何一个。作为示例,量化(246)可以是使用自适应差分编码的标量量化。该量化(246)可以类似于对自适应差分脉冲编码调制(ADPCM)所做的量化,除了该量化可应用于表示MFCC的向量的每一分量,如同该组件是波形那样。作为示例,如果有24个MFCC,则自适应差分编码可将这24个MFCC中的每一个作为时间序列来对待,并对该序列应用自适应差分编码。动态均值归一化可应用在量化(246)和以下所讨论的量化操作中。例如,该归一化可以仅在前两个MFCC C0和C1中进行。为了去除系数的时间相关,根据下面的等式1,可以从当前样本中减去先前经量化的值的缩放版本,以产生系数时间序列中第n个值的误差值e(n)。
e ( n ) = x ( n ) - α x ^ ( n - 1 ) 等式1
在等式1中,x(n)为当前样本,α为缩放因子,且为经量化的先前值。误差值e(n)可被馈送至均匀标量量化器。如在常规的ADPCM中一样,量化步长可基于e(n)的最新近的值来动态地调节。该量化操作可以使用两阶段查找表来实现。当前量化的值可以用作查找步长调整因子的索引。该值可添加到当前调整因子中,所得新的值可被用作在步长表中查找步长的索引。另选地,量化(246)可包括某种其他类型的量化,诸如使用码本的向量量化。
可执行与量化(246)匹配的解量化(260)以产生经解量化的弯曲谱估计表示。这些解量化的弯曲谱估计表示可以用于执行平滑估计(262)。所得的平滑估计表示可与对应帧的经帧提取的音频信号一起用来执行精细估计(264),这可产生音频信号的精细特征的表示。
平滑估计(262)可取决于将被执行的精细估计(264)的类型而变化,并且精细估计(264)可根据现有的语音编解码器方案来执行。例如,精细估计(264)可使用变换编解码器方案来完成。另选地,精细估计可使用源-滤波器模型方案来完成。例如,平滑估计可以定义源-滤波器模型方案中的滤波器。在任何情况下,平滑估计(262)可采用提供平滑估计(262)的方式来执行,平滑估计(262)是以如下方式来格式化的:它可用在编解码器方案中以产生精细评估(264)。
以下是使用Siren编解码器来提供实现平滑估计(262)的上下文的平滑估计(262)的示例。然而,此处所描述的平滑估计(262)以及总体工具和技术可以与各种各样的编解码器一起使用,包括各种变换编解码器和各种源-滤波器模型编解码器。Siren是一种对来自0-7kHz的音频进行编码的宽带编解码器。它操作具有50%帧重叠的40ms帧(640个样本)。每一帧由调制重叠变换(MLT)处理,得到320个实数值MLT系数。对每一帧的编码和解码是独立执行的。为了对信号进行编码,平滑谱估计被计算如下。对应于500Hz的宽度,每一帧的MLT系数首先被划分成0和7kHz之间的14个均匀的区域。根据MLT系数计算每一区域中的均方根(RMS)能量以提供频谱包络的粗略表示。
基于RMS能量值,使用称为分类的过程对14个区域的每一个中的MLT系数进行量化。在分类过程中,执行确定性搜索以找到在最大化而不超过给定的比特预算情况下最准确地表示每一区域中的MLT系数的量化和编码参数集合。
总之,由Siren执行的编码是基于两个阶段的:(1)包括14个频谱子带中的RMS能量的平滑谱估计的计算;(2)使用RMS能量值对全部MLT系数进行编码的分类过程。
在平滑估计(262)中,14个RMS能量值可从经编码的MFCC系数导出,而非直接根据MLT系数来计算它们。然后,精细估计(264)可包括使用导出的RMS能量值对全部MLT系数进行编码的分类过程。
例如,根据Siren编解码器,为了执行平滑估计(262)以产生平滑估计表示以在精细估计(264)中使用,24个MFCC(其表示24个梅尔间隔的频率子带的能量值)可被用于计算14个均匀间隔的频率子带中的能量。帧提取(230)可为弯曲谱估计(240)提供不同于提供给精细估计(264)的帧大小和帧速率(例如,帧提取(230)可以包括两个不同的帧提取过程或可以集成两个不同的过程)。作为示例,帧提取(230)可提供具有语音编解码器标准的帧大小和速率的精细估计(264),并可以提供具有语音识别方案标准的帧大小和速率的弯曲谱估计(24)。在一特定实现中,弯曲谱估计(240)可以以每秒100帧的速率接收25ms帧,而精细估计(264)可以以每秒50帧来使用40ms帧。此外,弯曲谱估计(240)和精细估计(264)可以在不同的域中使用不同的表示。作为示例,弯曲谱估计(240)可使用基于快速傅里叶变换(FFT)的频谱表示,而精细估计可使用从MLT导出的频谱。平滑估计(262)可包括转换以考虑这些差别。
例如,为了计算14个均匀间隔的子带中的能量,MFCC处理流水线(包括弯曲谱估计(240)、范围缩减(242)、变换(244)和量化(246))可基本上被逆转以获取功率谱估计。对于计算MFCC的典型方法,由于MFCC编码是有损过程,所以该过程实际上并不是可逆的。然而,可根据以下的等式2来估计平滑的功率谱。
等式2
在等式2中,是包含梅尔滤波器组的矩阵的伪逆,C-1是平方逆离散余弦变换,exp()运算符在元素级上应用于MFCC向量。从这一平滑功率谱中,0和7kHz之间的14个均匀间隔的子带中的RMS能量可以通过对适当的FFT组中的值求平均来估计。
如上所述,弯曲谱估计(240)和精细估计(264)可以使用基于不同变换的频率表示。例如,弯曲谱估计(240)使用基于FFT的表示,而精细估计(264)可使用基于MLT的表示。当与从MLT计算的那些值比较时,从基于FFT的功率谱估计的RMS能量值可被偏置。例如,对于500Hz子带之一中的一个RMS能量考虑以下等式3中的表达式,其从20个MLT系数的平均中计算得到。
MLT RMS = 1 20 Σ m = 0 19 | m 1 t ( m ) | 2
= 2 20 N { Σ m = 0 19 [ | fft ( m + 0.5 ) | 2 - ( - 1 ) m O ( m ) ] } 等式3
= 2 N 1 20 Σ m = 0 19 [ | fft ( m + 0.5 ) | 2 ≈ 2 N FFT RMS
在等式3中,O(m)=(R2-I2)sin(2A),R和I是fft(m+0.5)的实部和虚部,N是MLT的大小。由此,从MLT计算出的RMS可被认为与从FFT计算出的RMS相差一常数比例因子。因此,从MFCC导出的RMS能量值在用于精细估计(264)中之前可以被适当地缩放。
如上所讨论的,还可以考虑不同的帧大小和速率。例如,弯曲谱估计(240)可以以每秒100帧的速率接收25ms帧,而精细估计(264)可以以每秒50帧来使用40ms帧。因此,从MFCC特征计算出的RMS估计仅对于对应的编解码器帧的一部分是准确的。因为弯曲谱估计(240)的帧速率是精细估计(264)的帧速率的两倍,所以估计可以执行如下:来自两个连续的MFCC特征向量的RMS能量估计可以被平均以获得精细估计(264)的对应帧的估计。从MFCC特征向量导出所得的14个RMS能量值可用于精细估计(264),其可根据多种音频编解码器其中之一来进行,诸如使用Siren编解码器的分类。
可以对由精细估计(264)所得到的值执行量化(266),这可造成精细估计表示(268)(量化(266)之前的估计的表示也是这样的表示)。例如,该量化(266)可以是基于规则的向量量化。可以对经量化的弯曲谱估计表示(248)和精细估计表示(268)执行数据流打包(280)。该打包(280)可包括熵编码、将各比特拆分成各分组以供传输,等等。因此,打包(280)可产生包括弯曲谱估计表示(248)和精细估计表示(268)的组合数据流(290)。该组合数据流(290)可被发送至语音识别系统,诸如以下参考图3所讨论的。
III.语音识别系统和环境
图3是语音识别系统(300)的示意图。语音识别系统(300)可包括用于执行以下参考图3所描述的动作的软件和/或硬件。尽管语音识别系统(300)被示为服务器设备,但语音识别系统可以是某种其他类型的计算机系统,诸如以上参考图1所讨论的各类计算机系统中的一种或多种。实际上,图2的音频编码系统(200)和图3的语音识别系统(300)可以实现于多种环境中,诸如同一计算机系统中(例如,同一物理和/或虚拟机中)或彼此远离的计算机系统中(例如,其中计算机系统包括在不同的真实和/或虚拟机中)。
语音识别系统(300)可接收组合数据流(320)并执行数据流解包(330),这可以逆转图2的数据流打包(280)的操作并将组合数据流(320)拆分为弯曲谱估计表示(332)和精细估计表示(334)。可将弯曲谱估计表示(332)解量化(340)(可以使用对应于量化(246)的解量化操作来完成),并将经解量化的表示(例如,MFCC)发送至语音识别引擎(352)。在没有音频信号将被重构的一个操作模式中,可不执行以下讨论的其余操作中的一个或多个。然而,如果音频信号将被重构,那么可执行以下操作。这些音频重构操作可以和语音识别操作同时执行,或在某个其他时间执行。类似地,这些音频重构操作可以和语音识别在同一机器中执行,或者可以在位于语音识别机器本地和/或远程的其他某个机器中执行。可以对经解量化的弯曲谱估计表示执行平滑估计(360)以产生平滑估计表示(362)。该平滑估计(360)可与被完成来产生将用在图2的音频编码系统(200)的精细估计(264)中的平滑估计表示的平滑估计(262)相同。
此外,可以对精细估计表示(334)执行解量化(364)以产生经解量化的精细估计表示(366)。该解量化(364)可对应于在音频编码系统(200)中执行的量化(266),并可使用平滑估计表示(362)。语音识别系统(300)可执行表示在编码系统(200)中编码的原始语音信号(220)的语音信号(372)的重构(370)。该重构(370)可使用平滑估计表示(362)和经解量化的精细估计表示(366),根据语音编解码器组合这些表示(362和366)。例如,该重构(370)可包括将精细估计表示(366)和平滑估计表示(362)的值相加、执行逆MLT以及重叠累加各帧。
如上所述,此处提供了涉及变换编解码器和使用MFCC值的语音识别系统的特定示例。然而,此处所描述的工具和技术可以和使用弯曲频谱估计的多种不同的语音识别方案和/或多种不同的音频编解码器方案(例如,变换编解码器、源-滤波器模型编解码器等)一起使用。
IV.用于弯曲谱和精细估计音频编码的技术
现在将讨论用于弯曲谱和精细估计音频编码的若干技术。可以在计算环境中执行这些技术中的每一个。例如,每种技术可在包括至少一个处理器和存储器的计算机系统中执行,该存储器包括存储于其上的、在由该至少一个处理器执行时使该至少一个处理器执行该技术的指令(存储器存储指令(例如,目标代码),并且当处理器执行这些指令时,处理器执行该技术)。类似地,一个或多个计算机可读存储介质上可包括计算机可执行指令,该些指令在由至少一个处理器执行时使该至少一个处理器执行该技术。
参考图4,将描述用于弯曲谱和精细估计音频编码的技术。该技术可包括对原始音频信号的弯曲频谱估计的表示进行编码(420),诸如梅尔频谱估计。编码(420)可基于弯曲频谱。此外,编码(420)可包括动态范围缩减操作,且还可包括对弯曲频谱执行离散余弦变换操作和/或使用自适应差分编码进行量化。该技术还可包括生成(430)原始音频信号的平滑估计的表示。生成(430)可使用弯曲频谱估计表示,并且它可以包括执行变换操作。平滑估计表示可用于对原始音频信号的精细细节的精细估计表示进行编码(440)。精细估计表示可根据变换编解码器框架来配置。例如,精细估计可根据Siren编解码器或某种其他编解码器来配置。精细估计可表示频域中的精细谱估计,对精细估计进行编码(440)可至少部分地在频域中执行。
可将弯曲频谱估计的表示发送(450)至语音识别系统。可将弯曲频谱估计的表示可被传递(460)至语音识别引擎。此外,该技术可包括使用弯曲频谱估计的表示和精细估计的表示来生成(470)表示原始音频信号的重构的音频信号。如此处所使用的,可以采用多种方法来处理表示,诸如对其进行变换,执行有损和/或无损压缩技术,等等,并且只要在这样的处理之前和之后它仍然表示相同的项目,那么它仍然可被认为是相同的表示。例如,精细谱估计的表示可被量化和熵编码,并且仍然被认为是精细谱估计的表示。
参考图5,将描述用于弯曲谱和精细估计音频编码的另一技术。该技术可包括对原始音频信号的弯曲频谱估计的表示进行解码(510)。该技术还可包括对原始音频信号的精细估计的表示进行解码(520),这可以包括使用经解码的弯曲频谱估计。弯曲频谱估计的表示和精细估计的表示都可从同一数据流中提取。可将弯曲频谱估计的表示传递(530)至语音识别引擎。可使用弯曲频谱估计的表示和精细估计的表示来重构(540)表示原始音频信号的音频信号。重构(540)可包括扩展弯曲频率估计的表示的动态范围。此外,重构(540)可包括对弯曲频谱估计的表示执行逆变换操作。例如,变换操作可以是离散余弦变换操作,从而逆变换操作就是逆离散余弦变换操作。
为了以下讨论清楚起见,该弯曲频谱估计可被称为第一弯曲频谱估计,原始音频信号可被称为第一原始音频信号。此外,对第一弯曲频谱估计的表示进行解码,对精细估计的表示进行解码,将第一弯曲频谱估计的表示传递至语音识别引擎,以及重构表示第一原始音频信号的音频信号可以全部在第一操作模式(550)中执行。该技术还可包括在省略音频信号重构的第二操作模式(552)中执行各动作。例如,有时当需要重构音频信号并对其回放时可以使用第一操作模式(550),而在其他时间当不需要信号重构和回放时可以使用第二操作模式(552)。在第二操作模式(552)中,可以对第二原始音频信号的第二弯曲频谱估计的表示进行解码(570)。还是在第二操作模式(552)中,可将第二弯曲频谱估计的表示传递(580)至语音识别引擎。然而,第二模式(552)可省略表示第二原始音频信号的音频信号的重构。因此,取决于是否仅语音识别将被完成或者是否语音识别和音频信号重构都将被完成,语音识别系统可以在第一操作模式(550)和第二操作模式(552)之间切换。语音识别系统还可以包括第三模式,其中仅音频信号重构被完成而没有进行语音识别。
参考图6,将描述用于弯曲谱和精细估计音频编码的又一技术。该技术可以由移动手持设备或某种其他设备来执行。该技术可被划分成将在编码系统(620)中执行的动作以及将在解码和识别系统(650)中执行的动作。在编码系统(620)中执行的动作可包括基于弯曲频谱对原始音频信号的弯曲频谱估计的表示进行编码(625)。编码(625)可包括动态范围缩减操作和余弦变换操作。在编码系统(620)中执行的动作还可包括使用弯曲频谱估计表示来生成(630)原始音频信号的频谱的平滑谱估计的表示。此外,在编码系统(620)中执行的动作可包括使用平滑估计表示对原始音频信号的精细细节的精细频谱估计的表示进行编码(640)。同样在编码系统(620)中,弯曲频谱估计的表示和精细估计的表示可被量化(642)并打包(644)至数据流中,并且该数据流可被发送(646)至语音解码和识别系统。
在解码和识别系统(650)中,数据流可被接收(652)并且该数据流的各分量可被解码(654)。解码(654)可包括对原始音频信号的弯曲频谱估计的表示进行解码,并对原始音频信号的精细谱估计的表示进行解码。弯曲频谱估计的表示可被传递(660)至语音识别系统中的语音识别引擎。此外,表示原始音频信号的音频信号可以被重构(670)。重构可包括扩展弯曲频谱估计的表示的动态范围、执行逆余弦变换操作、使用弯曲频谱估计表示来生成平滑谱估计表示以及将平滑谱估计与精细谱估计进行组合。各分量的解码(654)、传递(660)和重构(670)可全部在语音解码和识别系统中执行。然而,这些动作可以在彼此远离的不同子系统中执行,并且这些动作可以在彼此不同的时间执行,和/或在不同于在语音编码系统(620)中执行的动作中的一个或多个的时间执行。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (10)

1.一种用于音频编码的计算机实现的方法,包括:
从原始音频信号(220)对弯曲频谱估计的表示(248)进行编码,所述编码基于弯曲频谱;
使用所述弯曲频谱估计表示(248)来生成所述原始音频信号的平滑估计的表示;以及
使用所述平滑估计的表示来对所述原始音频信号(220)的精细细节的精细估计表示(268)进行编码。
2.如权利要求1所述的方法,其特征在于,所述弯曲频谱估计是梅尔频谱估计。
3.如权利要求1所述的方法,其特征在于,根据变换编解码器框架来配置所述精细估计表示。
4.如权利要求1所述的方法,其特征在于,所述精细估计表示表示频域中的精细谱估计。
5.如权利要求1所述的方法,其特征在于,生成所述平滑估计的表示包括执行逆变换操作。
6.如权利要求1所述的方法,其特征在于,对所述精细估计进行编码至少部分在频域中执行。
7.一种用于音频编码的方法,包括以下动作:
对原始音频信号(220)的弯曲频谱估计的表示(332)进行解码;
对所述原始音频信号(220)的精细估计的表示(334)进行解码;
将所述弯曲频谱估计的表示(332)传递至语音识别引擎;以及
使用所述弯曲频谱估计的表示(332)和所述精细估计的表示(366)来重构表示所述原始音频信号(220)的音频信号(372)。
8.如权利要求7所述的方法,其特征在于,
所述弯曲频谱估计是第一弯曲频谱估计;
所述原始音频信号是第一原始音频信号;
对所述第一弯曲频谱估计的表示进行解码、对所述精细估计的表示进行解码、将所述第一弯曲频谱估计的表示传递至所述语音识别引擎、以及重构表示所述第一原始音频信号的音频信号全部在第一操作模式中执行;以及
所述动作还包括从所述第一操作模式切换至第二操作模式并在所述第二操作模式中执行各动作,所述第二操作模式中的动作包括:
对第二原始音频信号的第二弯曲频谱估计的表示进行解码;以及
将所述第二弯曲频谱估计的表示传递至所述语音识别引擎;
其中所述第二操作模式不包括重构表示所述第二原始音频信号的音频信号。
9.一种用于音频编码的计算机实现的方法,包括:
在语音编码系统(200)中,执行以下动作:
基于弯曲频谱对原始音频信号(220)的弯曲频谱估计的表示(248)进行编码,所述编码包括动态范围缩减操作和余弦变换操作;
使用所述弯曲频谱估计表示(248)来生成所述原始音频信号(220)的谱的平滑谱估计的表示;
使用所述平滑估计表示来对所述原始音频信号(220)的精细细节的精细频谱估计的表示(268)进行编码;
将所述精细估计的表示(268)和所述弯曲频谱估计的表示(248)打包在数据流(290)中;以及
将所述数据流(290)发送至语音解码和识别系统(300)。
10.如权利要求9所述的计算机实现的方法,其特征在于,还包括:
在所述语音解码和识别系统处接收所述数据流;
在所述语音解码和识别系统中,执行以下动作:
对所述数据流的各分量进行解码,包括对所述原始音频信号的弯曲频谱估计的表示进行解码,以及对所述原始音频信号的精细估计的表示进行解码;
将所述弯曲频谱估计的表示传递至所述语音识别系统中的语音识别引擎;以及
重构表示所述原始音频信号的音频信号,所述重构包括扩展所述弯曲频谱估计的表示的动态范围、执行逆余弦变换操作、使用所述弯曲频谱估计表示来生成平滑谱估计表示,以及将所述平滑谱估计与所述精细估计进行组合。
CN201110415397.7A 2010-12-03 2011-12-02 弯曲谱和精细估计音频编码 Active CN102568484B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/959,386 2010-12-03
US12/959,386 US8532985B2 (en) 2010-12-03 2010-12-03 Warped spectral and fine estimate audio encoding

Publications (2)

Publication Number Publication Date
CN102568484A CN102568484A (zh) 2012-07-11
CN102568484B true CN102568484B (zh) 2014-08-13

Family

ID=46163068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110415397.7A Active CN102568484B (zh) 2010-12-03 2011-12-02 弯曲谱和精细估计音频编码

Country Status (5)

Country Link
US (1) US8532985B2 (zh)
EP (1) EP2647004A4 (zh)
KR (1) KR20140000260A (zh)
CN (1) CN102568484B (zh)
WO (1) WO2012075476A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055493B2 (en) * 2011-05-09 2018-08-21 Google Llc Generating a playlist
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
WO2015134579A1 (en) 2014-03-04 2015-09-11 Interactive Intelligence Group, Inc. System and method to correct for packet loss in asr systems
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
KR102495523B1 (ko) * 2016-02-04 2023-02-03 삼성전자 주식회사 음성 명령을 처리하는 방법 및 이를 제공하는 전자 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3351746B2 (ja) 1997-10-03 2002-12-03 松下電器産業株式会社 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
DE69836785T2 (de) * 1997-10-03 2007-04-26 Matsushita Electric Industrial Co., Ltd., Kadoma Audiosignalkompression, Sprachsignalkompression und Spracherkennung
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US7110953B1 (en) 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
US20020065649A1 (en) 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US7050969B2 (en) 2001-11-27 2006-05-23 Mitsubishi Electric Research Laboratories, Inc. Distributed speech recognition with codec parameters
US7062444B2 (en) 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform
DE60307634T2 (de) * 2002-05-30 2007-08-09 Koninklijke Philips Electronics N.V. Audiocodierung
KR100636317B1 (ko) 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Fine Pitch Model for Speech;J. Droppo and A. Acero;《INTERSPEECH-2007》;20080831 *
J. Droppo and A. Acero.A Fine Pitch Model for Speech.《INTERSPEECH-2007》.2008,

Also Published As

Publication number Publication date
WO2012075476A2 (en) 2012-06-07
KR20140000260A (ko) 2014-01-02
EP2647004A2 (en) 2013-10-09
US20120143599A1 (en) 2012-06-07
WO2012075476A3 (en) 2012-07-26
CN102568484A (zh) 2012-07-11
EP2647004A4 (en) 2013-12-11
US8532985B2 (en) 2013-09-10

Similar Documents

Publication Publication Date Title
US10037766B2 (en) Apparatus and method for generating bandwith extension signal
CN104011793A (zh) 帧错误隐藏方法和设备以及音频解码方法和设备
CN102568484B (zh) 弯曲谱和精细估计音频编码
US7512539B2 (en) Method and device for processing time-discrete audio sampled values
CN102822889B (zh) 用于tts级联成本的预先保存的数据压缩
EP1676262A2 (en) Method and system for speech coding
Goodwin The STFT, sinusoidal models, and speech modification
US20140142959A1 (en) Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis
US20110135007A1 (en) Entropy-Coded Lattice Vector Quantization
CN110291583B (zh) 用于音频编解码器中的长期预测的系统和方法
WO2022046155A1 (en) Maintaining invariance of sensory dissonance and sound localization cues in audio codecs
US8924202B2 (en) Audio signal coding system and method using speech signal rotation prior to lattice vector quantization
JP3058640B2 (ja) 符号化方法
Kang et al. A High-Rate Extension to Soundstream
CN118609581B (zh) 音频编码和解码方法、装置、设备、存储介质和产品
Hosoda et al. Speech bandwidth extension using data hiding based on discrete hartley transform domain
US20240331720A1 (en) Studio quality audio enhancement
Li et al. Apollo: Band-sequence Modeling for High-Quality Audio Restoration
Bouzid et al. Multi-coder vector quantizer for transparent coding of wideband speech ISF parameters
CN118737120A (zh) 歌声合成模型的处理方法、歌声合成方法、设备和介质
Prasanna Kumar et al. A hybrid model for unsupervised single channel speech separation
Algazi et al. Transform representation of the spectra of acoustic speech segments with applications. II. Speech analysis, synthesis, and coding
Jiang Vector-quantized speech separation
CN116704999A (zh) 一种音频数据处理方法、装置、存储介质和电子设备
CN118609581A (zh) 音频编码和解码方法、装置、设备、存储介质和产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150430

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150430

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.