CN102714037A - 针对恒定的比特率应用的具有最佳比特分配的音频和语音处理 - Google Patents

针对恒定的比特率应用的具有最佳比特分配的音频和语音处理 Download PDF

Info

Publication number
CN102714037A
CN102714037A CN2010800585797A CN201080058579A CN102714037A CN 102714037 A CN102714037 A CN 102714037A CN 2010800585797 A CN2010800585797 A CN 2010800585797A CN 201080058579 A CN201080058579 A CN 201080058579A CN 102714037 A CN102714037 A CN 102714037A
Authority
CN
China
Prior art keywords
frame
bit
allocation
discrete
conversion coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800585797A
Other languages
English (en)
Other versions
CN102714037B (zh
Inventor
S·马宗达
A·法泽勒德库尔迪
H·加鲁达德里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN102714037A publication Critical patent/CN102714037A/zh
Application granted granted Critical
Publication of CN102714037B publication Critical patent/CN102714037B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

用于音频和语音处理的方法和装置包括:生成多个帧,其中所述帧中的每个帧包括多个变换系数;以及向所述帧中的每个帧中的变换系数分配比特,使得同一帧中的变换系数中的至少两个具有不同的比特分配并且向所述帧中的至少两个帧中的变换系数分配的比特总数相等。

Description

针对恒定的比特率应用的具有最佳比特分配的音频和语音处理
相关申请的交叉引用
本专利申请要求享受于2009年12月22日提交的、题目为“AUDIO ANDSPEECH PROCESSING WITH OPTIMAL BIT-ALLOCATION FORCONSTANT BIT RATE APPLICATION”的临时申请No.61/289,287的优先权,该临时申请被转让给本申请的受让人,故明确地以引用的方式并入本文。
技术领域
概括地说,本公开内容涉及通信,具体地说,涉及用于处理音频和语音信号的技术。
背景技术
在通信世界中,在带宽是基本限制的情况下,音频和语音处理在多媒体应用中起到了重要的作用。音频和语音处理通常包括各种形式的信号压缩,以大幅减少表示音频和语音信号所需的信息量,并从而减少传输带宽。这些处理系统通常被称为用于对音频和语音进行压缩的编码器以及用于对音频和语音进行解压缩的解码器。
传统的音频和语音处理系统以高复杂度和延迟为代价使用复杂的心理声学模型和滤波器实现显著的压缩比。然而,在人体局域网的上下文中,对功率和延迟要求的紧约束越简单,信号压缩的解决方案的复杂度越低。通常针对功率和延迟增益来对压缩比进行折中。
发明内容
在本公开内容的一个方面,一种音频或语音处理的方法包括:生成多个帧,所述帧中的每个帧包括多个变换系数;以及,向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的比特的总数相等。
在本公开内容的另一个方面,一种用于音频或语音处理的装置包括处理系统,其配置为:生成多个帧,所述帧中的每个帧包括多个变换系数;以及向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的比特的总数相等。
在本公开内容的另一个方面,一种用于音频或语音处理的装置包括:用于生成多个帧的模块,所述帧中的每个帧包括多个变换系数;以及,用于向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配并且向所述帧中的至少两个帧中的变换系数分配的比特的总数相等的模块。
在本公开内容的另一个方面,一种用于处理音频或语音的计算机程序产品包括使用代码进行编码的计算机可读介质,所述代码可以由一个或多个处理器执行以进行以下操作:生成多个帧,所述帧中的每个帧包括多个变换系数;以及,向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的比特的总数相等。
在本公开内容的另一个方面,一种耳机包括:换能器;处理系统,其配置为根据从所述换能器输出的音频或语音生成多个帧,所述帧中的每个帧包括多个变换系数;以及向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的所述比特的总数相等;以及发射机,其配置为发送所述帧。
在本公开内容的另一个方面,一种手表包括:用户接口;处理系统,其配置为根据从所述用户接口输出的音频或语音生成多个帧,所述帧中的每个帧包括多个变换系数;以及,向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的所述比特的总数相等;以及发射机,其配置为发送所述帧。
在本公开内容的另一个方面,一种感测装置包括:传感器;处理系统,其配置为根据从所述传感器输出的音频或语音生成多个帧,所述帧中的每个帧包括多个变换系数;以及向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的所述比特的总数相等;以及发射机,其配置为发送所述帧。
附图说明
图1是示出了无线通信网络的示例的概念图;
图2是示出了用于无线通信的装置的概念框图;
图3是示出了在发射装置与接收装置进行通信的上下文中的音频或语音处理系统的示例的概念框图;
图4是示出了音频或语音处理系统的示例的功能框图;
图5是用于处理音频或语音的算法的方法的示例的流程图;
图6是示出了图5的方法或算法中的向变换系数分配比特的过程的示例的流程图;以及
图7是示出了图5的算法的方法中的向变换系数分配比特的过程的替代示例的流程图。
具体实施方式
下面将参照附图来更全面地描述方法和装置的各个方面。然而,这些方法和装置可以用多种不同的形式来体现,并且不应当被解释为限制于本公开内容中给出的任何具体的结构或功能。相反,提供这些方面使得本公开内容将是详尽的和完整的,并且将向本领域技术人员充分地传达这些方法和装置的范围。基于本文的教导,本领域技术人员应当意识到的是,本公开内容的范围旨在涵盖本文所公开的方法和装置的任意方面,而不论其是独立于本公开内容的任何其它方面实现的还是与本公开内容的任何其它方面相结合实现的。例如,可以使用本文阐述的任意数量的方面来实现装置或者实践方法。此外,本公开内容的范围旨在涵盖除了贯穿本文的公开内容所给出的方面以外或不同于贯穿本文的公开内容所给出的方面,还使用其它结构、功能、或结构和功能实现的这种装置或方法。应当理解的是,本文的公开内容的任意方面可以由权利要求的一个或多个要素来体现。
现在将给出音频和语音处理的多个方面。将参照无线通信网络中的发射和接收装置来给出这些方面。发射装置包括用于对音频或语音进行压缩以便通过无线介质进行传输的编码器。接收装置包括用于对通过无线介质从发射装置接收的音频或语音进行扩展的解码器。在很多应用中,发射装置可以是进行接收以及发射的装置的一部分。因此,这种装置将需要解码器,该解码器可以是单独的处理系统或者与编码器一起集成在称作“编解码器”的单个处理系统中。类似地,接收装置可以是进行发射以及接收的装置的一部分。因此,这种装置将需要编码器,该编码器可以是单独的处理系统或者与解码器一起集成在编解码器中。本领域技术人员将易于意识到的是,贯穿本公开内容所描述的各个概念可应用于任何适当的编码或解码功能,而不论这种功能是实现在独立的处理系统中,集成在编解码器中,还是分布在无线装置或无线通信网络中的多个实体之间。
贯穿本公开内容所给出的各种音频和语音处理技术将非常适合于集成到各种无线装置中,这些无线装置包括耳机、电话(例如,蜂窝电话)、个人数字助理(PDA)、娱乐设备(例如,音乐或视频设备)、麦克风、医疗感测设备(例如,生物传感器、心率监测器、计步器、EKG设备、智能绷带等)、用户I/O设备(例如,手表、遥控器、电灯开关、键盘、鼠标等)、可以接收来自医疗感测设备的数据的医疗监测器、环境感测设备(例如,轮胎气压监测器)、计算机、销售点设备、娱乐设备、助听器、机顶盒、或处理音频或语音信号的任何其它设备。除了音频或语音处理以外,无线装置还可以包括其它功能。举例说明,耳机、手表或传感器可以包括用于用户与装置进行交互的各种音频或语音换能器(例如,麦克风和扬声器)。
在图1中示出了可以受益于贯穿本公开内容给出的各种概念的无线通信网络的示例。在该示例中,用户佩戴的耳机102被示出为与各种无线装置进行通信,这些无线装置包括蜂窝电话104、数字音频播放器106(例如,MP3播放器)和计算机108。在任何给定时间,耳机102可以向这些装置中的一个或多个发送音频或语音、或者从这些装置中的一个或多个接收音频或语音。举例说明,音频可以以存储在数字音频播放器106或计算机108的存储器中的音频文件的形式由耳机102进行接收。可替换地或此外,耳机102还可以通过与远程网络(例如,因特网)的连接从计算机108接收流式音频。耳机102还可以在通过蜂窝网络进行呼叫期间支持与蜂窝电话104的语音通信。耳机可以包括使得用户能够参与呼叫的各种换能器(例如,麦克风、扬声器)。用户还可以具有可穿戴的或者植入人体内的多种其它移动或紧凑型装置。举例说明,用户可以佩戴向计算机108发送来自用户接口的时间和其它信息(其可以包括音频或语音)的手表110,和/或监测至关重要的身体参数的传感器112(例如,生物传感器、心率监测器、计步器、EKG设备等)。传感器112将来自人体的信息(其可以包括音频或语音)发送到计算机108,在计算机108处,可以将该信息通过去往因特网或其它远程网络的回程连接转发给医疗设施(例如,医院、诊所等)。
贯穿本公开内容给出的各种音频和语音处理技术可以用于支持任何适当的无线技术或无线协议的无线装置中。举例说明,图1中所示的无线装置可以是被配置为支持超宽带(UWB)技术的个域网的一部分。UWB是用于高速近程通信的常用技术,并且被定义为具有占用大于中心频率的20%的带宽或者至少500MHz的带宽的频谱的任何无线技术。或者,无线装置可以被配置为支持蓝牙或者用于个域网的某些其它适当的无线协议。蜂窝电话104可以被配置为支持去往使用以下标准的广域网的连接:码分多址(CDMA)2000、演进数据优化(EV-DO)、超移动宽带(UMB)、通用陆地无线接入网络(UTRAN)、长期演进(LTE)、宽带CDMA(W-CDMA)、高速下行链路分组数据(HSDPA)、时分码分多址(TD-CDMA)、时分同步码分多址(TD-SCDMA)、或者一些其它适当的电信标准。计算机102可以被配置为还支持去往这些网络中的一个或多个的连接和/或去往IEEE802.11网络的连接。可替换地或此外,计算机102可以被配置为支持使用标准双绞线、电缆调制解调器、数字用户线(DSL)、光纤、以太网、HomeRF或者任何其它适当的有线接入协议的有线连接。
图2是示出了用于无线通信的装置的概念框图。装置200被示出为具有音频或语音源202、音频或语音宿204、音频或语音处理系统206、以及收发机208。在这个方面,装置200是具有用作音频或语音编解码器的处理系统206的双向通信装置。术语“音频或语音处理系统”旨在意指仅能够处理音频的处理系统、仅能够处理语音的处理系统、或者能够处理音频和语音二者的处理系统。贯穿本公开内容给出的各种概念旨在应用于这些处理系统中的每一个。
音频或语音源202概念地表示任何适当的音频或语音的源。举例说明,音频或语音源202可以表示在装置200中运行的各种应用,所述应用从存储器得到压缩的音频文件(例如,MP3文件),并且使用适当的文件格式解码方案来对其进行解压缩。或者,音频或语音源202可以表示用于将来自装置的用户的模拟语音信号处理成数字采样的麦克风和相关联的电路。相反,音频或语音源202可以表示能够从有线或无线回程存取音频或语音的收发机或调制解调器。本领域技术人员将易于意识到的是,实现音频或语音源202的方式将取决于发射装置200的特定设计和应用。
音频或语音宿204概念地表示能够接收音频或语音的任何适当的实体。举例说明,音频或语音宿204可以表示在装置200中运行的各种应用,所述应用使用适当的文件格式编码方案(例如,MP3文件)来压缩音频文件以便存储在存储器中。或者,音频或语音宿204可以表示用于向装置200的用户提供音频或语音的扬声器和相关联的电路。相反,音频或语音宿204可以表示能够通过有线或无线回程来发送音频或语音的收发机或调制解调器。本领域技术人员将易于意识到的是,实现音频或语音宿204的方式将取决于发射装置200的特定设计和应用。
音频或语音处理系统206可以实现压缩算法以对音频和语音进行编码和解码。压缩算法可以使用变换在采样的音频和语音与变换域(通常是频域)之间进行转换。在变换域中,根据分量频率的可听度来向其分配比特。在该示例中,处理系统206可以利用任何变换域方法中涉及的逐帧处理来确保针对每个帧的最佳比特分配。虽然比特分配是专门针对每个帧而进行的,但是处理系统206可以被配置为确保跨帧的恒定比特率。这种方法使得能够在所关注的整个信号上实现最佳的比特分配策略,这转而确保了针对给定的质量要求的最佳压缩比,以及针对给定的压缩比的最佳质量。
收发机208可以用于执行与音频或语音跨无线介质的传输相结合的各种物理(PHY)和介质访问控制(MAC)层功能。PHY层功能可以包括多种信号处理功能,诸如前向纠错(例如,Turbo编码/解码)、数字调制/解调(例如,FSK、PSK、QAM等)、以及RF载波的模拟调制/解调。MAC层功能可以包括对跨PHY层发送的音频或语音内容进行管理,使得多个装置可以共享对无线介质的访问。
图3是示出了在发射装置与接收装置进行通信的上下文中的音频或语音处理系统的更详细的示例的概念框图。在下面的讨论中,术语发射装置和接收装置用于说明的目的,而并不暗指这种装置不能执行发射功能和接收功能二者。
发射装置300被示出为具有音频或语音源302、音频或语音处理系统304、以及发射机306。接收装置310被示出为具有接收机312、音频或语音处理系统314、以及音频或语音宿316。发射装置300中的音频或语音源302和发射机306以及接收装置310中的接收机312和音频或语音宿316以与前面接合图2所描述的方式相同的方式工作,并且因此将不进行任何进一步的描述。将在变换域对数压缩扩展的上下文中给出音频和语音处理系统304、314,然而,本领域技术人员将容易意识到的是,这些概念可以扩展到在其中音频或语音压缩涉及逐帧处理的任何域。
发射装置300中的音频或语音处理系统304包括变换322。变换322可以是将来自源302的音频或语音转换为频域中的一系列变换系数的离散余弦变换(DCT)。在称作帧的系数集合中对变换322的输出进行处理。每个帧由N个变换系数构成。在被输入到量化器326中以前,每个帧中的N个变换系数由对数压缩器324用对数进行压缩。在被提供给发射机306并且被调制到RF载波上以便通过无线介质308进行传输之前,量化器326对用对数压缩的N个变换系数进行量化。
比特分配器328被配置为对由量化器326应用于用对数压缩的N个变换系数的量化水平进行控制。在处理系统304的至少一种配置中,比特分配器328被配置为将固定数量的比特B分发到每个帧的用对数压缩的N个系数。这可以通过基于与帧中的每个系数的能量有关的Mi(i=1,2,…,N)中的至少一个来计算度量M’来实现。举例说明,M可以简单地是系数的幅度的平方。M’也可以是在一个以上的帧上计算的,并且可以是每个变换频段的方差。通过分发与M’成比例的B个比特来计算长度为N的理论上的最佳比特分配向量v。然后,将其映射到大小“最接近于”理想向量v的字典V 330中的K个可用的向量中的一个。K个可用的向量可以由dk表示。
字典330包含向量集合dk,向量集合中的每个向量为N个元素长。向量dk中的每个元素表示针对帧中的相应系数的可能的比特分配。字典330中的每个向量dk的元素的总额等于B。这确保跨帧和跨帧集合(例如,MAC分组)的恒定比特率。对于每个帧,一旦由比特分配器328选择了向量dk,则可以将其提供给量化器326,以对所述帧的用对数压缩的N个变换系数进行量化。
对于包括K个向量的字典V,需要ceiling(log2(K))个比特来对字典的元素进行索引。一旦由比特分配器328针对帧选择了向量dk,则可以将标识所选择的向量dk的相应索引与该帧一起发送到接收装置310以便对该帧进行解码。可以通过带外信令、边信道、在帧内进行交织、或者通过某些其它适当的手段来发送索引。字典330中的向量的数量通常可以是用于在无线介质308上发送索引的带宽限制的函数。
可以使用各种方法来创建字典330。举例说明,可以针对跨越训练数据库的多个帧的每个频段来计算统计度量Si。然后,可以在诸如k均值聚类的技术中使用统计度量Si来创建字典的元素。字典中的每个向量可以被构造为确保其元素的总额等于B。此外,每个向量可以被限制为由正整数构成。
在接收装置310处,每个帧及其相应的索引由接收机312从RF载波中恢复,并且被提供给音频或语音处理系统314。处理系统314包括逆量化器332,逆量化器332使用索引来扩展帧中的系数。然后,在被提供给逆变换336以将帧中的系数转换回时域中的数字采样之前,可以将该帧的经扩展的系数提供给对数扩展器334,对数扩展器334执行逆对数功能。可以将时域采样提供给音频或语音宿316以便进行进一步的处理。
音频和语音处理技术可以扩展为使用其联合统计一次处理多个帧,以决定针对该帧的集合的理想比特分配向量。通过跨越多个连续的帧使用相同的比特分配向量,将减小需要在无线介质上发送的信息量。这将适合于诸如在帧之间存在相当大的关联的语音或音频之类的信号。
在由于架构和/或容量约束而需要单个比特分配向量的情况下,音频或语音处理系统可以专用于单元素字典,该单元素字典不需要跨无线介质与帧一起发送任何额外的信息。
贯穿本公开内容给出的多个概念提供了用于将压缩因子专门化为帧水平的方法。该方法实质上在确保每个语音或音频帧被最佳压缩的同时保持了恒定的比特率。该方法还满足了对通常与动态比特分配方案相关联的用于传输的可变比特率管道的需要,这使得MAC/PHY的设计更加复杂。
此外,这些构思不知道信号结构,并且不需要对时域或变换域中的信号结构的任何心理声学或先验知识。使用每个帧中的各个分量的能量来最优化地做出比特分配决策。
“音频或语音处理系统”将被广泛地解释为意指执行贯穿本公开内容给出的各种功能的任何装置、组件、设备、电路、块、单元、模块、元件或者任何其它实体,而不论其是实现为硬件、软件还是这二者的组合。至于这种功能是实现为硬件还是软件取决于特定的应用和施加于整个系统的设计约束。熟练的技术人员可以以针对每个特定的应用的不同的方式来实现所描述的功能。
可以使用一个或多个处理器来实现处理系统。该一个或多个处理器或者其中的任意一个可以是用于执行计算机可读介质上的软件的专用硬件或软件平台。不论是被称为软件、固件、中间件、微代码、硬件描述语言还是其它名称,软件都应被广义地解释为指代指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行程序、执行的线程、进程、功能等。举例说明,所述一个或多个处理器可以包括以下各项的任意组合:微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立硬件电路、以及配置为执行贯穿本公开内容所描述的各种功能的其它适当的处理器。举例说明,计算机可读介质可以包括磁存储设备(例如,硬盘、软盘、磁带)、光盘(例如,压缩光盘(CD)、数字多功能光盘(DVD))、智能卡、闪存设备(例如,卡、棒、钥匙驱动器)、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦写PROM(EPROM)、电可擦写PROM(EEPROM)、寄存器、可移动磁盘、载波、传输线、或用于存储或传送软件的任何其它适当的介质。计算机可读介质可以位于处理系统内部、位于处理系统外部、或分布于包括处理系统的多个实体上。计算机可读介质可以体现在计算机程序产品中。举例说明,计算机程序产品可以包括位于封装材料中的计算机可读介质。计算机可读介质还可以用于实现字典。
所述处理系统或所述处理系统的任意部分可以提供用于执行本文记载的功能的模块。转向图4,处理系统400可以提供:用于生成多个帧的电路402,其中,所述帧中的每个帧包括多个变换系数;以及用于向所述帧中的每个帧中的变换系数分配比特,使得同一帧中的变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的比特的总数相等的电路404。或者,计算机可读介质上的代码可以提供用于执行本文记载的功能的模块。
图5是示出用于对音频或语音进行处理的方法或算法的示例的流程图。该方法、处理或算法可以由音频或语音处理系统或者由某些其它适当的模块来实现。转向图5,在步骤502中,生成多个帧。所述帧中的每个帧包括多个变换系数。在步骤504中,向所述帧中的每个帧中的变换系数分配比特,使得同一帧中的变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的变换系数分配的比特的总数相等。该分配可以基于包括多个比特分配向量的字典。所述比特分配向量中的每一个可以包括多个元素,其中,所述元素中的每一个代表针对所述帧中的任意一个帧中的变换系数中的相应的一个变换系数的可能的比特分配。所述比特分配向量中的每一个中的元素的总额等于固定的数目。
图6是示出向多个帧中的每个帧中的变换系数分配比特的过程的示例的流程图。在步骤602中,基于所述帧的变换系数中的至少一个的量级来计算度量。在步骤604中,基于所述度量从针对该帧的字典中选择比特分配向量中的一个分配向量。在步骤606中,基于所选择的比特分配向量来对该帧的变换系数进行量化。在步骤608中,标识所选择的比特分配向量的索引与该帧一起进行发送。索引可以在该帧中进行发送或者独立于该帧进行发送。
图7是示出用于向多个帧中的每个帧中的变换系数分配比特的过程的替代示例的流程图。在步骤702中,基于至少两个帧的变换系数中的至少一个的量级来计算度量。在步骤704中,基于该度量,针对所述至少两个帧来从字典中选择比特分配向量中的一个分配向量。在步骤706中,基于所选择的比特分配向量,对所述多个帧中的所述至少两个帧中的每个帧的变换系数进行量化。在步骤708中,将标识所选择的比特分配向量的索引与所述至少两个帧中的每个帧一起进行发送。
应该理解的是,在公开的过程中的步骤的特定顺序或层次是示例性方法的一个例子。应该理解的是,根据设计偏好,过程中的步骤的特定顺序或层次可以被重新排列。所附的方法权利要求以示例性顺序呈现了多个步骤的要素,而并不意味着受限于所呈现的特定顺序或层次。
提供前面的描述以使本领域任何技术人员能够实现本文所描述的各个方面。对于本领域技术人员来说,对这些方面的各种修改将是显而易见的,并且本文定义的总体原理可以应用于其它方面。因此,权利要求并不旨在限于本文所示的各个方面,而是与符合书面权利要求的最广范围相一致,其中,除非另外指定,否则以单数形式引用某一要素并不旨在意味着“一个且仅仅一个”,而是“一个或多个”。除非另外专门指定,否则术语“一些”是指一个或多个。男性的代词(例如,他的)包括女性和中性(例如,她的和它的),并且反之亦然。贯穿本发明所描述的各个方面的要素的所有结构和功能等价物以引用方式明确地并入本文中并且旨在由权利要求涵盖,这些结构和功能等价物对于本领域普通技术人员来说是公知的或将要是公知的。此外,本文中没有任何公开内容是想要奉献给公众的,不管这样的公开内容是否明确地记载在权利要求书中。不应依据35U.S.C.§112第6段的规定来解释任何权利要求的要素,除非该要素是用短语“用于……的模块”来明确地叙述的,或者在方法权利的情况下,该要素是使用短语“用于……的步骤”来叙述的。

Claims (43)

1.一种音频或语音处理的方法,包括:
生成多个帧,所述帧中的每个帧包括多个变换系数;以及
向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的所述变换系数分配的所述比特的总数相等。
2.根据权利要求1所述的方法,其中,所述比特的所述分配是基于包括多个比特分配向量的字典的。
3.根据权利要求2所述的方法,其中,所述比特分配向量中的每一个包括多个元素,所述元素中的每一个代表针对所述帧中的任一帧中的所述变换系数中的相应的一个的可能的比特分配,其中,所述字典中的所有比特分配向量的所述元素的总额等于固定的数目。
4.根据权利要求2所述的方法,其中,所述分配包括针对所述帧中的每个帧从所述字典中选择所述比特分配向量中的一个分配向量。
5.根据权利要求4所述的方法,其中,所述分配包括基于针对所述帧中的每个帧所选择的比特分配向量来对该帧中的所述变换系数进行量化。
6.根据权利要求4所述的方法,其中,所述选择包括基于所述帧的所述变换系数中的至少一个的量级来计算度量,以及基于所述度量来选择所述比特分配向量。
7.根据权利要求4所述的方法,其中,所述比特分配向量中的每一个是由索引来标识的,所述方法还包括发送所述帧中的每个帧与针对该帧所选择的所述比特分配向量的所述索引。
8.根据权利要求7所述的方法,其中,所述帧中的每个帧的所述索引是在所述帧中的每个帧中发送的。
9.根据权利要求7所述的方法,其中,所述帧中的每个帧的所述索引是独立于所述帧中的每个帧的发送而发送的。
10.根据权利要求2所述的方法,其中,所述分配包括针对所述帧中的至少两个帧从所述字典中选择所述比特分配向量中的一个分配向量。
11.根据权利要求10所述的方法,其中,所述选择包括基于所述帧中的所述至少两个帧中的所述变换系数中的至少一个的量级来计算度量,以及基于所述度量来选择所述比特分配向量。
12.根据权利要求10所述的方法,其中,所述分配还包括基于所选择的比特分配向量来对所述帧中的所述至少两个帧中的每个帧中的所述变换系数进行量化。
13.根据权利要求10所述的方法,其中,所述比特分配向量中的每一个是由索引来标识的,所述方法还包括发送所述帧中的所述至少两个帧与所述比特分配向量的所述索引。
14.一种用于音频或语音处理的装置,包括:
处理系统,其配置为:
生成多个帧,所述帧中的每个帧包括多个变换系数;以及
向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的所述变换系数分配的所述比特的总数相等。
15.根据权利要求14所述的装置,其中,所述处理系统还包括具有多个比特分配向量的字典,并且其中,所述处理系统还配置为基于所述字典来分配所述比特。
16.根据权利要求15所述的装置,其中,所述比特分配向量中的每一个包括多个元素,所述元素中的每一个代表针对所述帧中的任意一个帧中的所述变换系数中的相应的一个的可能的比特分配,其中,所述字典中的所有所述比特分配向量的所述元素的总额等于固定的数目。
17.根据权利要求15所述的装置,其中,所述处理系统还配置为通过针对所述帧中的每个帧从所述字典中选择所述比特分配向量中的一个分配向量来分配比特。
18.根据权利要求17所述的装置,其中,所述处理系统还配置为通过基于针对所述帧中的每个帧所选择的比特分配向量对该帧中的所述变换系数进行量化来分配比特。
19.根据权利要求17所述的装置,其中,所述处理系统还配置为通过下列操作来选择所述比特分配向量中的一个分配向量:基于所述帧中所述变换系数中的至少一个的量级来计算度量,并且基于所述度量选择所述比特分配向量。
20.根据权利要求17所述的装置,其中,所述比特分配向量中的每一个是由索引来标识的,并且其中,所述装置还包括发射机,所述发射机配置为发送所述帧中的每个帧与针对该帧所选择的所述比特分配向量的所述索引。
21.根据权利要求20所述的装置,其中,所述发射机配置为在所述帧中的每个帧中发送该帧的所述索引。
22.根据权利要求20所述的装置,其中,所述发射机配置为将所述帧中的每个帧的所述索引独立于所述帧中的每个帧的传输来进行发送。
23.根据权利要求15所述的装置,其中,所述处理系统还配置为通过针对所述帧中的至少两个帧从所述字典中选择所述比特分配向量中的一个分配向量来分配比特。
24.根据权利要求23所述的装置,其中,所述处理系统还配置为通过以下操作来选择所述比特分配向量:基于所述帧中的所述至少两个帧的所述变换系数中的至少一个的量级来计算度量,并且基于所述度量来选择所述比特分配向量。
25.根据权利要求23所述的装置,其中,所述处理系统还配置为通过基于所选择的比特分配向量对所述帧中的所述至少两个帧中的每个帧的所述变换系数进行量化来分配比特。
26.根据权利要求23所述的装置,其中,所述比特分配向量中的每一个是由索引来标识的,并且其中,所述装置还包括发射机,所述发射机配置为将所述帧中的所述至少两个帧与针对所述帧中的所述至少两个帧所选择的所述比特分配向量的所述索引一起进行发送。
27.一种用于音频或语音处理的装置,包括:
用于生成多个帧的模块,所述帧中的每个帧包括多个变换系数;以及
用于向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的所述变换系数分配的所述比特的总数相等的模块。
28.根据权利要求27所述的装置,其中,所述用于分配比特的模块包括用于基于包括多个比特分配向量的字典来分配所述比特的模块。
29.根据权利要求28所述的装置,其中,所述比特分配向量中的每一个包括多个元素,所述元素中的每一个代表针对所述帧中的任意一个帧中的所述变换系数中的相应的一个的可能的比特分配,其中,所述字典中的所有所述比特分配向量的所述元素的总额等于固定的数目。
30.根据权利要求28所述的装置,其中,所述用于分配比特的模块包括用于针对所述帧中的每个帧从所述字典中选择所述比特分配向量中的一个分配向量的模块。
31.根据权利要求30所述的装置,其中,所述用于分配的模块包括用于基于针对所述帧中的每个帧所选择的比特分配向量来对该帧中的所述变换系数进行量化的模块。
32.根据权利要求30所述的装置,其中,所述用于选择的模块包括用于基于所述帧中的所述变换系数的量级来计算度量的模块,以及用于基于所述度量来选择所述比特分配向量的模块。
33.根据权利要求30所述的装置,其中,所述比特分配向量中的每一个是由索引来标识的,所述装置还包括用于发送所述帧中的每个帧与针对该帧所选择的所述比特分配向量的所述索引的模块。
34.根据权利要求33所述的装置,其中,所述用于发送的模块包括用于在所述帧中的每个帧中发送该帧的所述索引的模块。
35.根据权利要求33所述的装置,其中,所述用于发送的模块包括用于将所述帧中的每个帧的所述索引独立于所述帧中的每个帧的传输来进行发送的模块。
36.根据权利要求28所述的装置,其中,用于分配比特的模块还包括用于针对所述帧中的至少两个帧从所述字典中选择所述比特分配向量中的一个分配向量的模块。
37.根据权利要求36所述的装置,其中,所述用于选择所述比特分配向量中的一个分配向量的模块包括用于基于所述帧中的所述至少两个帧的所述变换系数中的至少一个的量级来计算度量的模块,以及用于基于所述度量来选择所述比特分配向量的模块。
38.根据权利要求36所述的装置,其中,所述用于分配比特的模块还包括用于基于所选择的比特分配向量对所述帧中的所述至少两个帧中的每个帧的所述变换系数进行量化的模块。
39.根据权利要求36所述的装置,其中,所述比特分配向量中的每一个是由索引来标识的,所述装置还包括用于将所述帧中的所述至少两个帧与针对所述帧中的所述至少两个帧所选择的所述比特分配向量的所述索引一起进行发送的模块。
40.一种用于处理音频或语音的计算机程序产品,包括:
使用代码进行编码的计算机可读介质,所述代码可以由处理器执行以进行以下操作:
生成多个帧,所述帧中的每个帧包括多个变换系数;以及
向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的所述变换系数分配的所述比特的总数相等。
41.一种耳机,包括:
换能器;
处理系统,其配置为:
根据从所述换能器输出的音频或语音生成多个帧,所述帧中的每个帧包括多个变换系数;以及
向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的所述变换系数分配的所述比特的总数相等;以及
发射机,其配置为发送所述帧。
42.一种手表,包括:
用户接口;
处理系统,其被配置为:
根据从所述用户接口输出的音频或语音生成多个帧,所述帧中的每个帧包括多个变换系数;以及
向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的所述变换系数分配的所述比特的总数相等;以及发射机,其配置为发送所述帧。
43.一种感测装置,包括:
传感器;
处理系统,其配置为:
根据从所述传感器输出的音频或语音生成多个帧,所述帧中的每个帧包括多个变换系数;以及
向所述帧中的每个帧中的所述变换系数分配比特,使得同一帧中的所述变换系数中的至少两个具有不同的比特分配,并且向所述帧中的至少两个帧中的所述变换系数分配的所述比特的总数相等;以及
发射机,其配置为发送所述帧。
CN201080058579.7A 2009-12-22 2010-12-22 针对恒定的比特率应用的具有最佳比特分配的音频和语音处理 Expired - Fee Related CN102714037B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US28928709P 2009-12-22 2009-12-22
US61/289,287 2009-12-22
US12/698,534 2010-02-02
US12/698,534 US8781822B2 (en) 2009-12-22 2010-02-02 Audio and speech processing with optimal bit-allocation for constant bit rate applications
PCT/US2010/061751 WO2011087833A1 (en) 2009-12-22 2010-12-22 Audio and speech processing with optimal bit-allocation for constant bit rate applications

Publications (2)

Publication Number Publication Date
CN102714037A true CN102714037A (zh) 2012-10-03
CN102714037B CN102714037B (zh) 2014-09-03

Family

ID=44152336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080058579.7A Expired - Fee Related CN102714037B (zh) 2009-12-22 2010-12-22 针对恒定的比特率应用的具有最佳比特分配的音频和语音处理

Country Status (6)

Country Link
US (1) US8781822B2 (zh)
EP (1) EP2517198A1 (zh)
JP (1) JP5437505B2 (zh)
KR (1) KR101389830B1 (zh)
CN (1) CN102714037B (zh)
WO (1) WO2011087833A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9224089B2 (en) * 2012-08-07 2015-12-29 Qualcomm Incorporated Method and apparatus for adaptive bit-allocation in neural systems
US9942848B2 (en) * 2014-12-05 2018-04-10 Silicon Laboratories Inc. Bi-directional communications in a wearable monitor
CN106898349A (zh) * 2017-01-11 2017-06-27 梅其珍 一种语音控制计算机的方法和智能语音助手系统
EP4120062A1 (en) * 2021-07-15 2023-01-18 Nxp B.V. Method and apparatus for audio streaming

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1151638A (zh) * 1994-12-30 1997-06-11 现代电子产业株式会社 给mpeg声频数据分配最佳比特量的快速方法
CN1247415A (zh) * 1998-06-15 2000-03-15 松下电器产业株式会社 声音编码方式、声音编码装置、以及数据记录媒体
US20020007273A1 (en) * 1998-03-30 2002-01-17 Juin-Hwey Chen Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US20060149538A1 (en) * 2004-12-31 2006-07-06 Samsung Electronics Co., Ltd. High-band speech coding apparatus and high-band speech decoding apparatus in wide-band speech coding/decoding system and high-band speech coding and decoding method performed by the apparatuses
CN101030379A (zh) * 2007-03-26 2007-09-05 北京中星微电子有限公司 一种数字音频信号比特分配的方法和装置
CN101308661A (zh) * 2007-05-16 2008-11-19 中兴通讯股份有限公司 一种基于先进音频编码器的量化器码率失真控制方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP2906646B2 (ja) * 1990-11-09 1999-06-21 松下電器産業株式会社 音声帯域分割符号化装置
ATE477571T1 (de) * 1991-06-11 2010-08-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
JPH08251031A (ja) * 1995-03-07 1996-09-27 Mitsubishi Electric Corp 符号器および復号器
US5819224A (en) * 1996-04-01 1998-10-06 The Victoria University Of Manchester Split matrix quantization
JPH09288498A (ja) 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP2000206990A (ja) 1999-01-12 2000-07-28 Ricoh Co Ltd デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US7436884B2 (en) * 2002-03-26 2008-10-14 Lockheed Martin Corporation Method and system for wavelet packet transmission using a best base algorithm
CN1492292A (zh) * 2003-07-14 2004-04-28 �׳��� Mp4多功能手表
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
DE102006004342B4 (de) * 2006-01-30 2011-09-15 Sennheiser Electronic Gmbh & Co. Kg Drahtlos-Kopfhörereinrichtung

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1151638A (zh) * 1994-12-30 1997-06-11 现代电子产业株式会社 给mpeg声频数据分配最佳比特量的快速方法
US20020007273A1 (en) * 1998-03-30 2002-01-17 Juin-Hwey Chen Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
CN1247415A (zh) * 1998-06-15 2000-03-15 松下电器产业株式会社 声音编码方式、声音编码装置、以及数据记录媒体
US20060149538A1 (en) * 2004-12-31 2006-07-06 Samsung Electronics Co., Ltd. High-band speech coding apparatus and high-band speech decoding apparatus in wide-band speech coding/decoding system and high-band speech coding and decoding method performed by the apparatuses
CN101030379A (zh) * 2007-03-26 2007-09-05 北京中星微电子有限公司 一种数字音频信号比特分配的方法和装置
CN101308661A (zh) * 2007-05-16 2008-11-19 中兴通讯股份有限公司 一种基于先进音频编码器的量化器码率失真控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BANDENBURG ET AL: "ISO-MPEG-1 AUDIO: A Generic Standard for Coding of High-Quality Digital Audio", 《 JOURNAL OF THE AUDIO ENGINEERING SOCIETY》 *

Also Published As

Publication number Publication date
CN102714037B (zh) 2014-09-03
US20110153315A1 (en) 2011-06-23
JP5437505B2 (ja) 2014-03-12
KR101389830B1 (ko) 2014-04-29
WO2011087833A1 (en) 2011-07-21
EP2517198A1 (en) 2012-10-31
JP2013515291A (ja) 2013-05-02
KR20120098905A (ko) 2012-09-05
US8781822B2 (en) 2014-07-15

Similar Documents

Publication Publication Date Title
CN102812644B (zh) 用于处理和重构数据的方法和装置
CN1145928C (zh) 用参数噪声模型统计量产生舒适噪声的方法及装置
CN102714037B (zh) 针对恒定的比特率应用的具有最佳比特分配的音频和语音处理
US7542813B2 (en) Rapidly optimized wireless microphone system and method for controlling thereof
CN108966197A (zh) 基于蓝牙的音频传输方法、系统、音频播放设备及计算机可读存储介质
CN104025190A (zh) 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备
EP2054883A1 (en) Audio encoding system
US9424850B2 (en) Method and apparatus for allocating bit in audio signal
CN103187065A (zh) 音频数据的处理方法、装置和系统
JP2016535317A (ja) エネルギー無損失符号化方法及びその装置、信号符号化方法及びその装置、エネルギー無損失復号化方法及びその装置、並びに信号復号化方法及びその装置
JP2002196792A (ja) 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
CN104509130A (zh) 立体声音频信号编码器
JP2019529979A (ja) インデックスコーディング及びビットスケジューリングを備えた量子化器
CN106409303B (zh) 处理信号的方法及设备
CN105957533B (zh) 语音压缩方法、语音解压方法及音频编码器、音频解码器
CN100423467C (zh) 用于降低每个软比特的比特数的方法和装置及其系统
Facchinetti et al. Real-time voice streaming over IEEE 802.15. 4
CN101308657B (zh) 一种基于先进音频编码器的码流合成方法
CN103533347A (zh) 用于视频的多次量化和位压缩控制
CN107257260B (zh) 无线电通信参数自适应配置方法和发射机
CN109168109A (zh) 一种基于移动终端的无线扬声系统
CN103035249B (zh) 一种基于时频平面上下文的音频算术编码方法
EP4362012A1 (en) Encoding and decoding methods and apparatuses for multi-channel signals
CN117789701A (zh) 数据传输方法、模型训练方法、装置、芯片及终端
KR20240013221A (ko) 3차원 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140903

CF01 Termination of patent right due to non-payment of annual fee