CN101120399A - 加权叠加方法 - Google Patents

加权叠加方法 Download PDF

Info

Publication number
CN101120399A
CN101120399A CNA200680003570XA CN200680003570A CN101120399A CN 101120399 A CN101120399 A CN 101120399A CN A200680003570X A CNA200680003570X A CN A200680003570XA CN 200680003570 A CN200680003570 A CN 200680003570A CN 101120399 A CN101120399 A CN 101120399A
Authority
CN
China
Prior art keywords
sampling
frame
signal
hiding
subsequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200680003570XA
Other languages
English (en)
Other versions
CN101120399B (zh
Inventor
瑟伦·旺·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Sonorit ApS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=59285473&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN101120399(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Sonorit ApS filed Critical Sonorit ApS
Publication of CN101120399A publication Critical patent/CN101120399A/zh
Application granted granted Critical
Publication of CN101120399B publication Critical patent/CN101120399B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Complex Calculations (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Dc Digital Transmission (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)

Abstract

一种响应采样的第一和第二子序列生成采样输出序列的方法,该方法包括:将加权叠加过程应用于所述的第一和第二子序列,以产生所述采样的输出序列,响应采样的所述输出序列与采样的一个或者多个目标序列之间的匹配测量,优化与所述加权叠加过程有关的加权函数。

Description

加权叠加方法
技术领域
本发明涉及信号处理。更具体地,本发明涉及一种方法、设备和装置,其能使在信号子序列的加权叠加中出现的信号伪现象减轻。应用包括信号处理,例如降噪、增强、编码、隐藏和合成。作为示例,通过本发明改善语音和音频降噪、增强、编码、隐藏和合成应用。本发明有利地应用于关于减轻电信和无线通信系统中的信号信息包的丢失和/或延迟抖动和/或时钟歪斜(clock skew)的影响的系统。
背景技术
本发明在此从其在电信系统中的应用得到启发,特别是关于其在减轻信号信息包的丢失和/或延迟抖动和/或时钟歪斜的影响的应用。通过阅读本发明的摘要、优选实施方式、附图和权利要求书,对本领域的技术人员来说,本发明通常在信号数字处理中应用加权叠加过程的情况下具有应用优势是显而易见的。
现代电信是基于信号的数字传输的。例如,在图1中,发射机200收集来自源100的声音信号。这个源可以是一个或者多个人的谈话结果和由麦克风收集的其他声波源,或者其可以是声音信号存储或者产生系统,例如文本到语音合成或者对话系统。如果该源信号是模拟的,则其通过模拟-数字转换器转换为数字表示形式。根据适合数字信道300的格式,对该数字表示随后进行编码和打包。该信息包在该数字信道上传输。该数字信道典型地包含多个抽象层。
在图1中的抽象层,该数字信道接收一系列信息包作为输入,并传送一系列信息包作为输出。由于典型地在信道中的噪音、缺陷(imperfection)和过载导致的信道中的衰减,输出的信息包序列典型地受到一些信息包丢失以及其他信息包的到达时间延迟和延迟抖动的损害。另外,发射机与接收机的时钟差能够引起时钟歪斜。接收机400的任务是对从信息包流接收的数据包进行解码,并且将解码的数字表示转换并解码为数字信号表示,并进一步将这些表示转换为具有适于输出到信号信宿(signal sink)500的格式的解码的声音信号。这个信号信宿可以是一个或者更多个人,通过例如一个或者多个扩音器将该解码的声音信号提供给他们。可选地,该信号信宿可以是语音或者音频存储系统,或者语音或者音频对话系统或者识别器。
接收机的任务是精确地重现能够向该信宿提供的信号。当该信宿直接或者间接地包括收听人时,该接收机的目的是获得这样的声音信号的表示:当呈现给该收听人时,该表示精确地重现能够由人类感知的印象和来自一个或多个源的声音信号信息。为了在由于信道丢失、延迟、延迟抖动和时钟歪斜而使接收的信息包序列变差的通常情况下确保这个任务,需要一个有效隐藏作为该接收机子系统的一部分。
作为示例,图2中所示的是完成这个任务的接收机子系统的一个可能实现。如这个图中所示,进来的信息包保存在抖动缓冲器410中,从所述抖动缓冲器410,解码和隐藏单元420获得接收的编码信号表示,并且将这些编码信号表示解码和隐藏,以获得适于存储在播放缓冲器430中并随后播放的信号表示。控制何时开始隐藏和这个隐藏的哪些特定参数,例如隐藏信号的长度,可以例如由控制单元440来完成,其监控该抖动缓冲器和该播放缓冲器的内容,并控制该解码和隐藏单元420的作用。
隐藏也可作为信道子系统的一部分来实现。图3所示的是一个信道子系统例子的示意图,其中信息包经由子系统320从信道310转发到信道330,我们在后面以术语中继引用。在实际系统中,中继功能可由多个单元来完成,这些单元可采用多种上下文相关名称,例如各种类型的路由器、代理服务器、边缘服务器、网络接入控制器、无线局域网控制器、IP语音网关、媒体网关、未经授权的网络控制器和其他的名称。在本上下文中所有这些都是中继系统的例子。
图4中所示的是能够进行音频隐藏的中继系统的一个例子。如这个图中所示,信息包经由信息包交换子系统320和350从输入缓冲器310转发到输出缓冲器360。该控制单元370监控该输入和输出缓冲器,并且作为这个监控的结果,确定是否需要译码和隐藏。如果需要,则这些交换子系统经由该译码和隐藏单元330控制该信息包。如果不需要,这些交换子系统经由最小协议作用子系统340控制该信息包,最小协议作用子系统340将在该信息包报头上执行最小操作,以保持与应用的协议一致。这可包括改变该信息包的序列号和时间戳的步骤。
在利用但并不限于上面举例说明的系统来传输音频信号时,需要隐藏表示或者部分表示声音信号的信号中的丢失、延迟、延迟抖动、和/或时钟歪斜。有时包含在振荡器模块中的基音重复(pitch repetition)方法,基于的是对有声语音中基音周期的估计,或者可选地,基于的是对有声语音信号的相应基频的估计。给定基音周期后,通过反复读取最后的基音周期来获得隐藏帧。可利用窗口叠加过程来使隐藏帧在开始和结束处的不连续,以及基音周期的每次重复之间的不连续平滑。对于基音重复方法的例子,参阅专利WO 0148736和国际电信联盟规则ITU-T G.711附录1。在先技术系统将基于基音重复的隐藏与基于线性预测编码原理的解码器集成在一起。在这些系统中,该基音重复典型地在线性预测激励域中通过从长期预测程序或者自适应码本循环的读取来实现。对于线性预测激励域中基于基音重复的隐藏的例子,参阅专利US5699481,国际电信联盟规则ITU-T G.729,和因特网工程任务组请求说明3951(Internet Engineering Task Force Request For Comments3951)。上面的方法适于隐藏丢失或者渐增的延迟,即正延迟抖动,和例如由于时钟歪斜的原因而引起的输入或者抖动缓冲器的下溢或者接近下溢的情况。为了隐藏渐减的延迟、负延迟抖动、或者输入或抖动缓冲器的上溢或者接近上溢,需要产生缩短的隐藏信号。基于基音的方法通过在基音周期和在先基音周期之间的叠加过程来实现这点。对于这种方法的例子,参阅专利WO 0148736。同样这点可以在使用线性预测解码器中存在的手段时实现。举例来说,专利US5699481公开了一种方法,通过该方法,依赖于该自适应码本的状态,固定码本贡献矢量从再现信号中被完全丢弃,以确保该再现信号中的基音周期。关于基音重复方法,一个目的是从隐藏帧到下一个帧的无缝信号连续。专利WO 0148736公开了一种达到这个目的的方法。利用WO 0148736中公开的发明,通过时变隐藏帧和可能信号相关长度来达到这个目的。虽然这能够有效地确保与延迟抖动和时钟歪斜的隐藏有关的无缝信号连续,但是,这个方法引入了与图4中所示类型的系统有关的缺点:依据这种类型的隐藏,不能确保将该隐藏编码到固定预定长度的帧中,该固定预定长度的帧是与优选地经由最小协议作用340中继的已经编码的帧进行无缝连接的帧。
因此,一个重要的目的是获得预定长度等于正常信号帧长度的隐藏帧。一个具有预定长度的隐藏方法是,完成超过预定帧长度的采样之间的平滑叠加,该预定帧长度是隐藏帧数目的倍数,具有来自紧随该隐藏帧的该帧的采样尾部(tailing)子集。这个方法在现有技术中是众所周知的,并被用于例如国际电信联盟规则ITU-T G.711附录1中。在原理上,还可在连接一个帧和另一个帧时使用这个方法,其中,这两个帧与原始音频信号中的非连续帧有关。因此,本领域的技术人员可这样实现这点:获得隐藏帧作为第一帧的继续,并且与第二帧一起将这个隐藏帧输入到该叠加过程,从而部分地减小在该第一帧的最后采样和该第二帧的第一采样间的边界发生的不连续。
对这些情况来说上面的方案是有问题的。这是因为,根据输入到这个叠加过程中的两个或者多个信号的实际波形形状,结果音频信号中会遗留明显的不连续。这个不连续会作为信号中的“冲击”或者“衰减”而被收听人觉察到。
在第一个情况中,其中涉及一个或者多个隐藏帧,这些隐藏帧的重采样已经在文献中提及,对于这种方法,参阅例如Valenzuela和Animalu,“A new voice-packet reconstruction technique”,IEEE,1989年。当目的是连接两个现有的帧而不是与隐藏帧相连时,这种方法不提供解决方案,另外,对于隐藏帧与后续帧的连接,这个方法仍存在问题。这是因为,为了减轻由收听人觉察到的不连续而需要的重采样可能反而会引入明显的频率失真,即频移,这个频率失真也会由收听人觉察到,成为令人讨厌的伪现象。
发明内容
本公开的发明,或者更确切地说是其具体实施方式,有效地减轻上面指出的已知解决方法中的局限,和已知解决方法中的以及用于信号的数字处理的其他系统中的相关问题的解决方案中的其他未指明的不足。根据本发明,这些目的都通过一种方法、一种程序存储设备和装置来达到,所有这些都是本发明的不同方面,具有如所附权利要求书中限定的特征。
本公开的发明提供了利用子序列间的加权叠加来执行信号子序列的平滑连接的技术。典型地,但并不总是,根据相似性相关测量或者失真测量,这些子序列是相似的但并不相同。具体地,与已知的使用给定信号独立加权窗函数的叠加方法比较,本公开的发明提供连接具有固有不相似性(de-similarity)的信号帧的技术,与已知的现有技术相比,具有明显较少的可察觉的伪现象。因此,本公开的发明减小现有技术系统的局限,具有直接改善感觉质量的结果。
下面的定义将贯穿使用在本发明的公开中。“采样”理解为产生自数字化信号或者从其来源的信号的取样,或者表示这种信号的系数或参数,这些系数或者参数为标量或者矢量值。“帧”理解为连续采样的集合,使用上面采样的定义。“子序列”理解为一个或者多个连续采样的集合,使用上面采样的定义。在使用例如叠加的情况下,两个连续子序列可包括重叠采样。根据帧的选择,一个子序列可在两个连续帧之间扩展。
在第一方案中,本发明提供一种响应采样的第一和第二子序列生成采样的输出序列的方法,该方法包括
-将加权叠加过程应用于该第一和第二子序列,以产生采样的输出序列,
-响应该采样输出序列和采样的一个或者多个目标序列之间的匹配测量,优化与该加权叠加过程有关的加权函数。
该加权函数可响应采样的两个或者三个目标序列而得到优化。
优选地,该优化包括调整与该加权叠加过程有关的至少一个加权函数,例如,调整与该加权叠加过程有关的两个或者三个加权函数。
与该加权叠加过程有关的至少一个加权函数可通过一组参数来表示。该组参数可基于将至少一个加权函数的时间形状分解为基本窗口形状的线性组合。该组参数可基于将至少一个加权函数的时间形状分解为两个或者三个基本窗口形状的线性组合。该组参数的产生可包括将至少一个抽头延迟线应用于采样的第一和第二子序列中的至少一个。该组参数的产生可包括将两个抽头延迟线应用于采样的第一和第二子序列。该组参数的产生可包括应用三个抽头延迟线。
与该加权叠加过程有关的加权函数可响应该采样的输出序列与采样的至少一个目标序列之间的距离测量而进行改变。这个距离测量可基于平方和误差(summed squared error),例如加权的平方和误差。该距离测量可根据最小二乘法(least squares)进行最小化,例如加权的最小二乘法。
第一和第二子序列的采样表示数字化的音频采样,例如包括语音的音频信号。
该采样的第一和第二子序列之一可以是隐藏采样的一个序列。
因而,本发明提供一种将加权叠加过程应用到连接两个或者多个信号子序列的方法。叠加中的加权函数响应该叠加过程的输出和一个或者多个目标子序列之间的失真测量而得到优化。该目标子序列构成希望的,或者部分希望的该叠加过程的输出近似。有利地,该失真测量加权这些目标。本发明中的加权函数是带有平坦(flat)或者不平坦(non-flat)时间和/或频率响应的一般函数。本发明的简单实施方式构成预定窗口形状的优化标量加权,例如,用于优化该叠加过程的输出和目标信号之间的相似性。更先进的实施方式有利地引入多个目标信号和该加权函数的进一步有利参数化。这种有利参数化包括将标量加权应用在多于一个加权函数上;包括将一个或者多个加权函数分解为基本窗口形状的线性组合;和/或包括一个或者多个加权函数中的抽头延迟线。有利地,平方和误差或者加权平方和误差测量在优化中得到最小化,并且有利地将最小二乘法或者加权的最小二乘法应用于这个最小化。
在第二方案中,本发明提供一种适于执行根据第一方案的方法的计算机可执行程序代码。这种程序代码可以以依赖机器或者独立于机器的形式和以任一程序语言编写,例如机器代码或者高级程序语言。
在第三方案中,本发明提供一种包含微处理器指令序列的程序存储装置,例如通用的微处理器,以执行所述第一方案的方法。该存储装置可以是任一类型的数据存储装置,例如磁盘、存储卡或者记忆棒、硬盘等。
在第四方案中,本发明提供一种用于接收数字化音频信号的设备,例如,装置或者仪器,该设备包括:
-存储器装置,用于存储表示接收的数字化音频信号的采样,和
-处理装置,用于执行所述第一方案的方法。
用适当的装置来执行本发明,例如下面的优选实施方式中描述的装置,使得信号处理系统有效地连接相似但不相同的子序列,减轻现有技术已知形式的加权叠加的伪现象。因此,我们的发明使得在严重的时钟歪斜、信道损耗和/或延迟抖动的情况下在其中获得高质量的双向音频通信。
附图说明
下面参照附图对本发明进行更详细的描述,其中
图1所示的是已知的易受到丢失、延迟、延迟抖动和/或时钟歪斜影响的端到端信息包交换声音传输系统的方框图。
图2是示例性的接收机子系统,在控制单元的控制下,该接收机子系统完成抖动-缓冲、解码和隐藏、以及播放缓冲;
图3所示的是易受时钟歪斜、丢失、延迟和延迟抖动影响的信息包交换信道的中继子系统的示意图;
图4是示例性的中继子系统,在控制单元的控制下,该中继子系统完成输入缓冲、输出缓冲、并在需要时进行译码和隐藏;
图5所示的是本发明的一组优选实施方式的方框图;
图5A所示的是隐藏帧中的子序列的概略图,其以相反的时间顺序从基于最后缓冲的子序列的子序列开始;
图5B所示的是隐藏帧中的子序列的较大序列的另一个例子,其以相反的时间顺序从最后两个缓冲子序列开始,并且其中连续子序列基于进一步在时间上向后的缓冲的子序列;
图5C示出由后退(step back)和读取长度格式化的索引模式下的采样计数索引;
图6所示的是涉及索引和插值函数的信号的概略图;
图7所示的是执行停止标准判断逻辑的一种可能方式的流程图;
图8所示的是实现平滑和均等化、停止标准和允许重复数量的迭代联合优化的一种可能方式的流程图;
图9所示的是与相位调节滤波器的初始化和馈送有关的环形移位和叠加的使用,和
图10所示的是所公开的加权叠加过程的一种实施方式。
虽然本发明容许各种改变和可选择的形式,但是,通过示例对具体实施方式在附图中进行了显示,并将在这里进行详细描述。但是,应该理解,本发明并不意在限定于公开的特定形式。相反,本发明应涵盖所有的改变、等效形式和可选择的形式,这些形式都在由所附的权利要求书限定的本发明的构思和范围之内。
具体实施方式
下面,结合隐藏帧的产生对本发明进行描述。但是,正如将从权利要求书的范围可以理解的,本创造性的连接方法具有比其更广的应用范围。
该创造性的方法在如图2中所示接收机的解码和隐藏单元420中被激活,或者在如图4所示中继的译码和隐藏单元330中被激活,或者在其作用适当的通信系统的任一其他位置被激活。在这些位置可获得大量缓冲信号帧,并需要大量的隐藏帧。可获得的信号帧与需要的隐藏帧可由音频信号例如语音信号的时域采样组成,或者它们可由从其起源的采样组成,例如线性预测激励采样,或者它们可由来自该音频信号和声音信号帧的完全或者部分表示的其它系数组成。这种系数的示例是频域系数、正弦模型系数、线性预测编码系数、波形内插系数,和其他完全或者部分表示该音频信号采样的系数组。
图5所示的是本发明的优选实施方式。根据图5,可获得的信号帧595存储在帧缓冲器600中,该信号帧595可以是来自这个或者其他方法的较前操作中接收和解码或译码的信号帧或者隐藏帧,以产生隐藏帧或者上述类型的信号帧组合。该帧缓冲器中的信号由索引模式发生器660分析。该索引模式发生器能够方便地利用信号基音596和合声597的估计。根据整个系统的设计,来自其他过程例如编码、解码或者译码过程的这些估计可用于输入,或者它们通过其它的方法,优选地利用现有技术的信号分析方法进行计算。而且,该索引模式发生器将要产生的隐藏信号帧的数目598作为输入,并且将599指向该帧缓冲器中该一个或多个隐藏帧取代的特定信号帧的开端和末端。作为示例,如果这些缓冲器指向该帧缓冲器的末端,那么这表示该一个或多个隐藏帧应当适于跟随存储在该帧缓冲器中的信号。作为另一个示例,如果这些指针指向帧缓冲器中的连续帧的一个非空子集,那么这表示该一个或多个隐藏帧应当取代表示或者部分表示声音信号的帧序列中的这些帧。
为了进一步说明这一点,假定该帧缓冲器600包括信号帧A、B、C、D、E,并且隐藏帧598的数目为2。那么,如果取代599的帧的指针指向该帧缓冲器的末端,这表示两个隐藏信号帧应当顺次紧随信号帧E之后。相反地,如果指针599指向信号帧B、C、D,那么这两个隐藏帧应当取代信号帧B、C、D,并顺次紧随在信号帧A之后,并且由信号帧E顺次紧随其后。
关于确定隐藏帧598的数目和隐藏帧最终要取代的帧子集,即,指针599的方法,优选使用现有技术方法。这样,数据596、597、598和599与该信号帧595一起构成向本发明的方法的装置和设备的输入。
在某个整体系统的设计中,在该隐藏单元的执行期间,信号帧的长度或者维数(dimension)有利地保持为常数。在其他情况中,这典型的是当该隐藏单元集成在中继系统中时,在该中继系统中,该隐藏的结果应当置于表示在预定长度的时间间隔内的声音信号的信息包中,另外确定该预定长度。作为示例,这个预定长度可以在IP系统的语音呼叫建立期间的协议协商期间确定,并可在响应例如网络拥塞控制机制的对话期间改变。正如将在后面会变得清楚的,本发明的一些实施方式以有利的方式满足以预定长度的信号帧工作的要求。但是,这种创新并不限于这些系统的要求;本创新的其他实施方式能够以非整数数目的帧的隐藏和具有时变长度的隐藏帧进行工作,其中这些长度也许与其他要素结合,能够是该帧缓冲器中的特定内容的函数。
本发明的实施方式可有利地利用平滑和均等操作610对来自该帧缓冲器的信号605进行操作。这个平滑和均等产生信号615,其中在时间上比隐藏帧早的帧与该隐藏帧替代的信号帧或直接在其之前的帧具有增加的相似性。可选地,如果该隐藏帧与没有替代的现有帧被顺次插入,那么和与直接在隐藏帧的预期位置之前的帧是类似的。用于后面引用,我们简单地称这两种情况为相似。相似正如收听人所理解的。平滑和均等获得具有增加的相似性的信号,同时保留信号615自然的声音变化。相似性增加操作的例子由该平滑和均等610有利地执行,包括参数中增加的平滑度和相似性,例如能量包络、基音轮廓、声音等级、声音中断、谱包络和其他感知方面的重要参数。
关于每个这些参数,过滤出在要被平滑和均等的帧内的参数变化中的瞬间突变,并且这些帧中的参数的平均水平被平滑地修改,从而在上面定义的相似含义上变得更加相似。有利地,仅在一定范围内引入相似性,其仍保持信号的自然声音变化。在该索引模式发生器660的控制下,平滑和均等能够有利地减轻否则可出现在随后的索引和插值操作620中的瞬变和不连续。此外,基音轮廓的平滑和均等能够有利地通过该索引模式发生器660以最小化失真的方式得到控制,否则,其最终由相位滤波器650在后面引入到隐藏帧中。该平滑和均等操作能够有利地利用信号或对在帧缓冲器600中在时间上更向后所得到的信号帧(或从其导出的参数)进行参数替代、混合、插值和/或合并。该平滑和均等操作610能够从该系统中省去,这并不脱离本发明的通常的范围。在这种情况下,信号615等同于信号605,并且在那种情况下,索引模式发生器660的信号输入656和控制输出665能够从系统设计中省略。
索引和插值操作620将可能经过平滑和均等的信号615和索引模式666作为输入。此外,在本发明的一些有利实施方式中,索引和插值操作将匹配质量指示器667作为输入。该匹配质量指示器可以是每个瞬间时刻的标量值,或者其可以是时间和频率的函数。该匹配质量指示器的目的在本说明书的后面会变得明显。该索引模式666确定该索引和插值函数操作的参数。
图5A所示的是索引模式是如何可以在一个或者多个隐藏帧的合成中逐渐在时间上向后移动中,对缓冲采样中的子序列BS1、BS2、BS3、BS4建立索引的。在所示的示例中,隐藏帧CF1、CF2、CF3中的连续子序列CS1、CS2、CS3、CS4、CS5、CS6、CS7基于帧BF1、BF2中的采样的缓冲子序列BS1、BS2、BS3和BS4。如图所示,从具有位置指针的缓冲子序列BS1-BS4对隐藏子序列CS1-CS7建立索引,该位置指针在时间上逐渐向后移动然后逐渐向前移动,如函数记号CS1(BS4)、CS2(BS3)、CS3(BS2)表示的那样,意思是CS1是基于BS4的,等等。因而,图5A是作为说明隐藏帧中的连续子序列是如何可以基于连续缓冲子序列、但在时间上重新排序而相互连接的一个示例。如图所示,基于缓冲采样的最后四个子序列BS1、BS2、BS3、BS4,以连续顺序但是以相反的时间顺序,由此从最后的缓冲子序列BS1开始,选择第一四个隐藏子序列CS1(BS4)、CS2(BS3)、CS3(BS2)和CS4(BS1)。在以相反时间顺序的第一四个子序列后,分别紧随三个子序列CS5、CS6、CS7,其全部基于按时间顺序的连续的缓冲子序列,即BS2、BS3和BS4。优选的索引模式是该索引模式发生器660的结果,并可能随到这个模块的输入656、596、597、598和599发生很大的变化。接着图5A的记号,图5B示出隐藏子序列CS1-CS11如何可基于按时间重新排序的缓冲子序列BS1-BS4的另一个说明性示例。如图所示,后面的隐藏子序列逐渐基于在时间上更向后的缓冲子序列。举例来说,第一两个连续隐藏子序列CS1和CS2基于上两个以相反时间排序的缓冲的子序列BS3、BS4,但是,后面的隐藏子序列,例如CS10是基于BS1,即,比那些用于计算CS1和CS2的子序列,在时间上更向后的缓冲子序列。因而,图5B用于说明连续隐藏子序列是以索引随时间逐渐向后变化的方式、基于在时间上向前和向后索引的缓冲子序列的。
在本发明的有利的实施方式中,这个在时间上逐渐向后的变化被确定为为了本说明书的目的我们称之为后退的顺序的形式和为了本说明书的目的我们称之为读取长度的顺序的形式。在这种格式的索引模式的简单实施方式中,指向信号采样、或者表示其的参数或系数的指针向后移动一定的量,这个量与第一后退的量相等,之后,采样量、或者表示其的参数或系数被插入到该隐藏帧中,这个量与第一读取长度相等。其后,该指针向后移动与第二后退的量相等的量,并读取等于第二读取长度的采样量、或者参数或表示其的系数,等等。
图5C所示的是对第一列举的索引采样进行重新排序的过程的示例。这个第一列举被列在信号时间轴上,而在图5C的隐藏时间轴上的列举表与重新排序的原始采样对应,这些原始采样被置于该隐藏帧中。对于这个说明性的示例来说,随意选择第一、第二和第三后退分别作为5、6、5,并且,同样地随意选择第一、第二和第三读取长度分别作为3、4、3。在这个示例中,分别具有时间索引组{6,7,8}、{3,4,5,6}和{2,3,4}的子序列是时间上向后逐渐变化的子序列。这里选择的后退和读取长度的顺序纯粹是为了说明的目的。以16kHz进行采样的语音剩余采样作为示例,后退的典型值为40到240的范围,但并不限于这个范围,读取长度的典型值为5到1000采样的范围,但并不限于这个范围。在这种格式的更先进的实施方式中,从向前控制(directed)序列(例如原始时间或者时间上向后索引的子序列)到时间上向后一步的另一个向前控制序列的转变,是通过渐变插值逐渐进行的。
图6所示的是响应一个后退和相应读取长度和匹配质量指示器的索引和插值函数的简单实施方式的操作。仅是为了说明的目的,这里的信号帧包括时域音频采样。以一种相似并从而直接的方式,将该渐变插值应用于在本说明书中使用的“采样”的一般定义上,即,包括表示时域音频采样的标量或者矢量值系数或者参数。在图中数字700说明信号615的片段。指针705是采样时刻,该采样时刻接着在索引和插值输出信号625中最后产生的采样的采样时刻。时间间隔750具有与读取长度相等的长度。时间间隔770也具有与读取长度相等的长度。该时间间隔760具有与后退相等的长度。在700中从时刻705开始的信号采样和在时间上向前的读取长度一个接一个地与窗函数720相乘。同样,从700中后退向后之后、位置706之前的一个采样的位置开始的信号采样,和在此之前的读取长度采样一个接一个地与窗函数710相乘。与窗710和窗720相乘产生的采样一个接一个地与730相加产生采样740,其构成新一批的针对来自索引和插值操作的输出625的采样。这个操作完成后,指针705移到位置706。
在本发明的简单实施方式中,窗函数710和720是读取长度750的简单函数。一个这种简单函数分别选择窗710和窗720作为长度两倍于读取长度的汉宁窗(Hanning window)的第一和第二半部分。但是,这里也可选择宽范围的函数,要注意的是这个函数在本发明的上下文中是有意义的,它们必须完成由750指示的片段中的采样与由770指示的采样之间的加权插值,以这样的方式,即,我们逐渐地,但不必是单调的,从750指示的片段的高加权移动到770指示的片段的高加权。
在本发明的其他实施方式中,窗函数710和720是匹配质量指示器的函数。这种函数的简单示例是,根据由时间间隔750和770指示的在信号700的片段上归一化关联(normalized correlation)的阈值,选择插值操作对幅度或者能量进行求和到整数。这种函数的另一个示例是避免将振幅或者能量总和限制到一,而是将优化窗加权仅作为匹配测量的函数。另外,这种方法的进一步改进采用归一化关联的实际值,并响应它而优化该插值操作,例如,利用经典的线性估值方法。但是,后面将描述优选方法的示例。在这些示例中,阈值和归一化关联的实际值分别给出由匹配质量指示器667传送的有利信息的示例。根据后面描述的优选实施方式,该插值操作可用于实现在不同频率的不同加权。在这种情况下,匹配质量指示器667能够有利地传送作为频率函数的匹配测量。在有利实施方式中,这个作为频率的函数的加权被实现为抽头延迟线或者其他参数滤波器的形式,该形式能够被优化以达到最大匹配标准。
图6中所示的是,当信号615(和由此的信号片断700)包含表示声音信号的或者从其起源的时域信号的时域采样的采样时,所给出的索引和插值操作的说明。如上面提到的那样,在帧595中的和由此在信号605和615中的采样能够有利地成为:每个采样都是一个矢量(矢量值采样),其中这个矢量包含系数或者参数,该系数或者参数表示或者部分表示该声音信号。这种系数的例子是线性谱对参数(line spectralfrequency)、频域系数、或者定义正弦信号模型的系数,例如振幅、频率和相位的集合。以本发明的优选实施方式的这个详细说明为根本,对本领域的技术人员来说,有利地应用到矢量值采样的插值操作的设计是可行的,其余的细节能够在针对这种矢量值采样的每种特定情况的一般文献的描述中找到。
对本发明的理解能有利地观察到,当反复应用读取长度小于后退的索引和插值操作时,那么结果会是,信号625中的采样变成信号采样的表示,其在信号615中逐渐地进一步并且更进一步地向后。于是,当后退和或读取长度改变,以使得该读取长度变得比后退大时,那么这个过程将返回并且这时信号625中的采样变成信号采样的表示,其在信号615中逐渐地进一步并更进一步地向前。通过对后退序列和读取长度序列进行有利地选择,无需在时间上提前从帧缓冲器600中最新接收的的信号帧进行采样,或者甚至无需在另一个预置时刻提向前行采样,就能够获得具有丰富和自然变化的长隐藏信号,其能够置于比帧缓冲器600中的最新接收帧中的最新采样早的地方。从而,本发明对具有低延迟播放或者输出缓冲时序安排的系统中的延迟脉冲(delay spikes)的隐藏成为可能。在本说明书的描述中,通过反复使用一个采样的读取长度、两个采样的后退和包括值为0的单个采样的窗720和包括值为1.0的单个采样的窗710,来实现信号的简单严格向后(strict backwards)的时间变化,该时间变化能够用于考虑作为本发明的简单实施方式中的一部分。
索引模式发生器660的主要目的是控制索引和插值操作620的作用。在一组优选实施方式中,这个控制是在索引模式666中确定形式的,该索引模式666可由后退序列和读取长度序列组成。这个控制可进一步随同匹配质量指示器序列一起增大,该匹配质量指示器序列依次每个都可以是例如频率的函数。另一个特征是重复计数668,其可从该索引模式发生器输出,并且其应用在本说明书的后面会变得清楚。重复计数的意思是,时间上向后变化的次数,其是从该隐藏帧的构成中开始的。该索引模式发生器获得这些来自信息基础的序列,其可包括由该平滑和均等操作610输出的平滑和均等信号656;要产生的隐藏帧的基音估计596、声音估计597、数目598,以及指向取代帧的指针599。在索引模式发生器的一个实施方式中,它将根据声音指示器输入不同的模式。这种模式在下面进行举例说明。
作为有利地在线性预测激励域使用的示例,如果该声音指示器鲁棒地(robustly)指示该信号为无声语音,或者在该信号中不存在有效语音,即该信号包括背景噪声,则该索引模式发生器能够输入一个模式,以这个模式开始该信号采样的简单逆时变化。如前面所述,这个能够通过例如提交后退值等于2的序列和读取长度值等于1的序列来实现(这个说明书基于这样的设计选择,即该索引和插值操作本身会识别这些值,并应用上面描述的适当的窗函数)。在一些情况下,这个序列能够继续,直到信号的逆时变化已经针对隐藏帧中需要的新采样数目的一半执行,之后,后退序列中的值可变为0,借此开始信号的前向时间变化,并继续,直到指针706有效地回到指针705在后退的第一应用中的出发点。但是,对高质量的隐藏帧来说,这个简单的过程不总会是充分的。该索引模式发生器的一个重要任务是监控适当的停止标准。在上面的示例中,逆时变化可将指针706带回到信号中的位置,在该位置,如收听人感知的那样,声音与开始点明显不同。在出现这个之前,应改变时间变化的方向。
本发明的优选实施方式可应用基于一组测量的一组停止标准。下面举例说明一些这些测量和停止标准。如果声音表示指针706处的信号是有声音,那么在上面从无声开始的示例中,该时间变化的方向能够有利地改变,同样,如果指针706的周围区域的信号能量不同于(正如由绝对或者相对阈值确定的)指针705出发点处的信号能量,该时间变化方向能够有利地改变。作为第三个示例,指针705出发点周围区域和指针706当前位置之间的频谱差可能超过阈值,那么该时间变化方向应当改变。
当信号不能鲁棒地确定为无声或者包含非有效语音时,可引起模式的第二个示例。在这个模式中,基音估计596构成用于确定该索引模式的基础。进行这个的一个过程是,搜索每个后退,以给出一个来自指针705与时间上在前的一个基音周期的信号和来自比指针705早的后退的点与在前的一个基音周期的信号之间的最大的归一化关联。对后退可能值的搜索可有利地限定在一个区域内。如果没有发现前面的后退,这个区域能够有利地设置来在前面发现的后退或者基音滞后周围加减10%。一旦确定了后退,读取长度的值将确定时间信号变化是否应在时间上向后或向前变化,以及这个变化应当进行多快。通过选择接近后退识别值的读取长度来获得一个慢变化。通过在向后和向前变化的情况下分别选择比后退小得多或者大得多的读取长度来获得一个快变化。该索引模式发生器的一个目的是,选择读取长度以优化由收听人感知的声音质量。选择读取长度特别接近于后退向后可在一些信号中,例如非充分周期性的信号,引起感觉上令人厌恶的伪现象,例如串音。选择的读取长度特别远离后退,意味着隐藏帧的时间变化期间,最终扫光(swept)帧缓冲器中的较大时间间隔,可选地,在为隐藏帧产生足够数量的采样之前,时间变化的方向必须改变更多次。
在诸如不是十分平稳(可选择地不是十分平滑和均等)信号的一些信号中,第一种情形可以产生一种可感知的令人厌恶的伪现象,该伪现象与隐藏帧或多个隐藏帧的声音中断续现象具有某种相似之处。在第二种情形中,可以发生类似串音的伪现象。本发明的有利实施方式的特点在于,可以将读取长度确定为后退和归一化关联的函数,其在搜索最佳后退中被优化。下面的函数给出作用于语音信号上的本发明实施方式中这个功能的一个简单而有利的选择,并且在信号帧包含在16kHz采样的20ms线性预测激励信号时的示例:
ReadLength=[(0.2+NormalizedCorrelation/3)*StepBack]
其中方括号[]被用于表示取最接近的整数,以及其中符号ReadLength、NormalizedCorrelation和StepBack分别用于表示读取长度、针对最佳后退获得的归一化关联、以及对应的后退。上面的函数仅作为示例被包含,以表示本发明某些实施方式中的一种有利选择。包括任一功能相关以获得这个读取长度的的读取长度的任一选择是可能的,都不脱离本发明的构思。具体地,选择读取长度的有利方法包括利用控制665均等确定平滑和均等操作610的参数,例如在中间隐藏帧625中实现间歇状和串音状伪现象的共同最小化。这解释了为什么索引模式发生器660将中间信号656而不是来自平滑和均等操作的输出615当作输入:信号656表示在控制665下的最终信号615的可能形式(potential version),并且使索引模式发生器能够通过迭代完成优化任务。对于上面无声和非有效声音模式的情形通常就是这种情况,在这种模式中停止标准也是必需的。将上面模式中列举的停止标准的所有示例也应用到这个模式中。另外,在这种模式中,根据对基音和归一化关联的测量,停止标准可有利地成为本发明实施方式的一部分。
图7,作为示例,示出用于停止标准组合的有利的判定逻辑。图7中,参考标记指示如下:
800:识别信号是否为高关联类型、低关联类型或均不是。
确定初始能量等级
801:确定下一后退和归一化关联及读取长度
802:确定信号是否进入低关联类型
803:确定信号是否进入高关联类型
804:信号为高关联类型吗?
805:信号为低关联类型吗?
806:能量低于相对最小阈值或高于相对最大阈值?
807:归一化关联低于用于高关联类型的阈值?
808:归一化关联高于用于低关联类型的阈值?
809:生成足够的采样了?
在16kHz采样的语音的线性预测激励域中操作的情况中。图7中标注的阈值可以有利地如下进行选择:当遇到大于0.8的归一化关联时,可以进入高关联类型;保持在高关联类型中的阈值在归一化关联中可以设为0.5;当遇到小于0.5的归一化关联时,可以进入低关联类型;保持在低关联类型中的阈值在归一化关联中可以设为0.8;最小相对能量可以被设为0.3;并且最大相对能量可以设为3.0。此外,不脱离本发明的构思和范围,在本发明的上下文中,可以使用其他逻辑以及其他停止标准。
停止标准的应用表示,不保证时间上向后直至产生足够的采样或者符合停止标准,然后在时间上再次向前的单一变化对隐藏帧给出所需数量的采样。因此,在时间上向后和向前的更多变化可以由索引模式发生器应用。但是,太多的向后和向前变化可能会在一些信号中产生串音状伪现象。因此,本发明的优选实施方式可共同优化停止标准、应用于读取长度计算中的函数、平滑和均等控制665、和来回变化的数目,即重复计数668,并且如果使得指针指向帧以取代599,那么在每个时间上向后的新变化之前,还开始在时间上进行向前变化的采样数。至此,均等也可以有利地控制平滑和均等操作,以略微改变信号的基音轮廓。此外,共同优化可考虑相位滤波器650的操作,并对基音轮廓进行略微改变,以致产生索引模式,该索引模式与上面提到的其他参数一起最小化引入的相位滤波器的失真。基于对本发明优选实施方式的说明,本领域熟练技术人员理解将各种通常的优化工具应用于这个任务,这些工具包括迭代优化、马尔可夫(Markov)决策过程、维特比(Viterbi)方法及其他。不脱离本发明的范围,任一所述工具都可应用于这个任务。
图8通过流程图示出迭代过程的例子,该过程完成对这些参数的简单而有效的优化。在图8中,参考标记表示如下:
820:开始控制平滑和均等665
821:获得新的平滑信号656
822:开始停止标准
823:开始允许的重复次数
824:识别均匀分布在由指针599所指示的可利用帧上的向后和向前变化序列的索引模式,或者如果指向可利用帧的末端,向后变化直接跟随向前变化
825:产生用于隐藏帧598的数目的足够采样量了吗?
826:是否达到重复的最大数?
827:增加允许的重复数
828:是否达到停止标准的最宽松的阈值?
829:放宽停止标准的阈值
830:改变控制增加平滑和均等的作用
要注意的是,在前一变化或者时间上向后和向前的变化中还没有合成足够信号的情况下,一个时间上向后和向前的变化以及其后的时间上向后和向前的变化可有利地不同。作为例子,应当设计后退、读取长度、和插值函数序列、还有在时间上向后和向前变化之后的结束位置指针,以对否则产生自相似索引模式重复的周期性伪现象进行最小化。将在16kHz的有声语音剩余域采样作为例子,一个产生大约320个采样的时间上向后和向前的变化,与时间上向后和向前的更早的变化相比,能够优选地在信号中更向后终止大约100个采样。
至此,所公开的实施例有效地减轻现有技术方法中已知的声音串音的伪现象问题,同时,能够有效隐藏突发的延迟抖动脉冲和突然出现的重复信息包的丢失。然而,在不利网络条件中,如例如在一些无线系统和无线自组织(ad hoc)网络及尽力服务(best effort)网络和其他传输情况中所遇到的,甚至所公开的方法在某些情形中可能在隐藏帧中引入少量音调成分。因此,可将小噪声混合操作630和功能衰减(graceful attenuation)滤波器640有利地应用于本发明的一些实施方式中。通常的噪声混合和衰减技术对于本领域技术人员而言是众所周知的。这包括对噪声成分的功率的频率相关时变和衰减功能的频率相关时变的有利使用。在本发明的上下文中,噪声混合和衰减使用的特定特征,是对用于自适应确定噪声混合和衰减操作参数的索引模式666、匹配质量测量667和/或重复计数668的明确使用。具体地,索引模式对未改变的信号采样位于隐藏帧中的地方和隐藏帧采样作为插值操作结果的地方做出标引。而且,相对于读取长度的后退比率与匹配质量测量的结合指示了从插值操作中得到的感知质量。因此,很少或没有噪声可被有利地混入原始采样,更多噪声可以被有利地混入由插值过程产生的采样中,并且被混入到这些采样中的噪声量可有利地成为匹配质量测量的函数,有利地以频率微分(differentiated)方式。此外,相对于后退的读取长度的值还指示可能发生的周期数,噪声混合可有利地包括在确定要混入隐藏信号中的噪声量中的这种测量。将同样的原理应用于衰减;有利地使用功能衰减,但是可能引入用于表示原始信号采样的采样的较少衰减,并且可能引入用于从插值操作中得到的采样的较多衰减。此外,这些采样中的衰减量可有利地成为匹配质量指示的函数,且有利地以频率微分方式。同样,相对于后退的读取长度值表示可能出现的周期数;衰减操作可有利地包括衰减设计中的这种测量。
如在本发明的背景技术中所提到的,本发明实施方式的子集的重要目标获得预置长度等于普通信号帧长度的隐藏帧。当想从系统的观点中得到这时,达到这个目的的装置可有利地是相位滤波器650。这个块的在计算上简单、近似而经常充分的操作是为了完成采样之间的平滑叠加,该采样超过该预定帧的长度乘以具有来自隐藏帧后面的帧的采样的尾部子集的隐藏帧数。单独地看,根据现有技术这种方法是众所周知的,并在例如国际电信联盟规则ITU-T G.711附录1中使用。在依据系统观点实施时,无论何时其增加叠加区域中的关联性,通过将随后的帧与-1相乘,可以改善该简单叠加过程。然而,也可有利地使用其他方法,例如在有声信号帧之间的转变中,进一步减轻帧边界处不连续的影响。一种这样的方法是对隐藏帧进行重采样。作为一种独立的方法,这在现有技术中也非常公知。参见例如Valenzuela和Animalu,″一种新的声音包的重构技术(A new voice-packet reconstructiontechnique)″,IEEE,1989。因此,本领域技术人员可以实施减轻帧边界处不连续的操作。然而,在此所公开的本发明的优选实施方式中,重采样可被有利地连续到紧随上一隐藏帧的帧中。从而,使得当由收听人接收时,其觉察不到作为重采样技术的结果的时变的斜率以及由此而产生的频移。此外,代替重采样,减轻帧边界处不连续的时变全通滤波器的使用在本发明中被公开。这种的一个实施方式通过滤波器方程给出
H_L(z,t)=(alpha_1(t)+alpha_2(t)*zΛ(-L))/(alpha_2(t)+alpha_1(t)*zΛ(-L))
该函数的解释如下。假定需要在扫描区间(sweep interval)上从L采样延迟到0采样延迟的扫描,其可包括所有或部分隐藏帧中的、在该隐藏帧之前的帧中的、和在该隐藏帧之后的帧中的所有或部分采样。然后,在扫描区间的开始,将alpha_1(t)设为零,alpha_2(t)设为1.0,以执行L采样延迟。随着t上的扫描开始,alpha_1(t)应逐渐向0.5增加,alpha_2(t)应逐渐向0.5减小。当扫描区间alpha_1(t)最终等于alpha_2(t)时,滤波器H_L(z,t)引入零延迟。相反地,如果需要在扫描区间上从0采样延迟到L采样延迟的扫描,其可包括所有或部分隐藏帧中的、在该隐藏帧之前的帧中的、和在该隐藏帧之后的帧中的所有或部分采样。然后,在扫描区间的开始,将alpha_1(t)设为0.5,alpha_2(t)设为0.5,以执行0采样延迟。随着t上的扫描开始,alpha_1(t)应逐渐向0减小,alpha_2(t)应逐渐向1.0增加。当扫描区间alpha_l(t)最终等于0并且alpha_2(t)等于1.0时,滤波器H_L(z,t)引入L采样延迟。
上面的滤波在计算上是简单的,但是它具有非线性相位响应。因感知的原因,这个非线性相位将其使用限制至相对小的L。有利地,L<10用于在16kHz的采样率处的语音。对起始L较大值实现滤波的一种方法是启动几个较小L值的滤波器,所述较小L值的总和为期望的总L值,这几个滤波器可有利地在不同时刻启动,并在不同的时间间隔上扫描alpha范围。另一种此滤波器可在其中应用的增加L范围的方法将在后面公开。实现与上面在功能上相同的滤波的结构是,将信号分为L多相位,并在每个这些多相位中执行下面的滤波
H_1(z,t)=(alpha_1(t)+alpha_2(t)*zΛ(-l))/(alpha_2(t)+alpha_1(t)*zΛ(-l))
依据本发明,通过使用向上采样(up-sampling)来有利地实现多相位滤波。有利地实施这个的一种方法是对带有系数K的每个多相位进行向上采样,并且对带有系数K的、在向下采样(down-sampling)之前的每个向上采样的多相位中进行K次滤波H_1(z,t),并从所述多相位对相位改变的信号进行重构。系数K可有利地选择为K=2。通过向上采样过程,获得接近线性的相位响应。从而,改善了收听人接收的感知品质。
当隐藏帧被无丢失地插入接收帧序列中时,可应用上面描述的在多帧上的相位调整。它也可应用于当为了减小后续帧的播放延迟而将帧从信号序列中去掉的情况。以及,其可应用于当丢失多个帧并且将零或多个隐藏帧插入到丢失前接收的帧和丢失后接收的帧之间时。在这些情形下,获得用于这个滤波器的输入信号以及得到延迟L的有利的方法如下:
1)在时间上比不连续点早的帧上,继续或者开始这里或者任一其他所公开的隐藏方法。
2)在时间上比不连续点晚的帧上,将数量L_test采样插入由隐藏方法开始的帧中,该隐藏方法是这里或者任一其他所公开的一种隐藏方法,但是具有时间采样的逆向索引。
3)匹配测量,例如归一化关联,应用于来自1)的隐藏帧和来自
2)的包括标题L_test采样的帧之间。
4)最大化匹配测量的L_test选择为L。
5)利用加权叠加过程,现在将来自2)的隐藏帧和来自3)的帧加在一起。然而,这个加权叠加方法能如本领域的技术人员所知的执行,优选地,它能够根据本说明书中后面公开的内容进行优化。
6)从确定值L开始,将得到的帧用作上述相位拟合滤波的输入。
如果L大于阈值,则在不同时刻和时间间隔启动和系数扫描几个滤波器,将它们的L值加到确定的值L。
有利地,在以8或16kHz采样的语音或剩余语音中,上面阈值可以在范围5至50内进行选择。另外有利地,在有声语音或剩余有声语音中,通过对帧的第一基音周期的采样进行循环移位而获得隐藏采样L_test及其进入到随后帧中的继续。从而与整个基音周期关联的、无需归一化的关联性测量可有利被用作匹配测量,以得到优选循环移位L。
图9示出这种方法的一个实施方式。在这个图中,相位调整产生信号帧900和后续帧之间的平滑变换。这根据如下完成:从信号帧900和较早的帧中,生成隐藏信号910。这个隐藏信号可利用这里所公开的方法来生成,或者利用本领域公知的其他方法来生成。该隐藏信号与窗920相乘,并将925与另一窗930相加,窗930与按如下方式生成的信号相乘:从后面采样950和可能的960,通过有效地应用例如这里所公开的隐藏方法或者使用本领域公知的其他方法生成隐藏信号940,并与后面的采样950连接。优化隐藏940中的采样数,以使得对隐藏910,与940和后面的采样950的连接之间进行最大化匹配。
有利地,归一化关联可用作对这种匹配的测量。而且,为了减少计算上的复杂度,该匹配可适用于被限制为包含一个基音周期的有声语音或者剩余有声语音。在这种情况下,隐藏采样940可作为一个基音周期的循环移位的第一部分而获得,并且,此时无需对一个基音周期上的关联测量进行归一化。因此,避免了对归一化系数的计算。就先前在优选实施方式的详细说明中所述的索引和插值操作来说,窗可再次有利地成为匹配质量指示器的函数和/或频率的函数,并有利地作为抽头延迟线进行实施。滤波器970的操作如下。直接向其输出传递产生自叠加过程的第一L采样,并且该第一L采样用于设置滤波器的初始状态。此后,对滤波器系数进行如上所述的初始化,并且随着滤波器从采样L+1滤波和转发,这些系数被逐渐调整,从而逐渐去除延迟的L采样,如上面所公开的那样。
此外,在上面描述过程中,如上所述,根据最大化匹配标准而对窗的权重进行优化的方法以及该窗函数的统一化(generalization),应用于基于频率的权重和以抽头延迟线或者其他参数的滤波器形式的匹配滤波器。在有利的实施方式中,通过三个顺序的叠加序列获得基于频率的滤波器加权时变,三个叠加序列中,第一个减弱(fade down)来自先前帧的隐藏帧,第二个以滤波器增强(fade up)这些滤波形式,以匹配来自在逆向索引时间中获得的随后帧的隐藏帧,然后对此再次减弱,第三个增强时间上在后的帧。在另外一组的有利实施方式中,通过四个顺序的叠加序列获得基于频率的滤波器加权时变,第一个减弱来自先前帧的隐藏帧,第二个以滤波器增强这些滤波形式,以匹配来自在逆向索引时间中获得的随后帧的隐藏帧,然后对此再次减弱,第三个增强时间上在后的滤波形式,以进一步改善这种匹配,此后再次减弱,最后第四个窗增强时间上在后的帧。加权叠加方法另外的有利实施方式在这个说明书中的后面公开。
关于将剩余域采样用作表示该语音信号的部分信息的实施例中的平滑和均等操作610,利用基音自适应滤波,例如梳状滤波器或者周期陷波滤波器,能够将平滑和均等操作有利地应用在这个剩余信号上。此外,也可有利地应用具有作为未滤波剩余的模型的长期关联滤波器加噪音的维纳或卡尔曼(Wiener或Kalman)滤波。在应用维纳或卡尔曼滤波器的这种方式中,应用这个模型中的噪声变化来调整平滑和均等量。由于在维纳或卡尔曼滤波理论中,这个成分传统上应用到对存在的不希望的噪声成分进行建模,因此,这有些违反直觉的使用。在应用于本创新中时,目的是设置平滑和均等的水平。在本发明的上下文中,作为基音自适应梳状滤波或者陷波滤波以及维纳或者卡尔曼类型滤波的可选形式,有利地应用第三种方法对剩余信号进行平滑和均等。通过这第三种方法,或者是采样振幅,如有利地用于例如无声语音中,或者是采样的连续矢量,如有利地用于例如有声语音中,都愈加相似。下面分别就有声语音矢量和无声语音采样的完成的可能过程进行概述。
对于有声语音来说,以矢量形式收集语音或者剩余语音的连续采样,并且每个矢量中的采样数等于一个基音周期。为了说明的方便,我们在这里将这个矢量表示为v(k)。现在,该方法将获得剩余矢量r(k)作为v(k)分量,该v(k)分量不能通过一些方法在周围矢量v(k-L1)、v(k-L1+1)、...、v(k-1)和v(k+1)、v(k+2)、...、v(k+L2)中得到。为了说明的方便,在周围矢量中得到的分量表示为a(k)。随后以某种线性或非线性方式对剩余矢量r(k)进行处理,以降低其可听度,同时保留得到的重构矢量的自然性,所得到的重构矢量是通过将分量a(k)再次插入已处理的r(k)的形式中而获得的。
这带来有声语音或者有声剩余语音的平滑和均等形式。下面给出上面所述的原理的一个简单的实施方式,为了方便,利用矩阵矢量符号,并且为了示例的简单性,利用线性组合和最小平方的概念对a(K)进行定义。这仅仅用作用于平滑和均等的上面一般原理的单一简单实施方式中的一个例子。
为了这个例子的目的,将矩阵M(k)定义为
M(k)=[v(k-L1)v(k-L1+1)....v(k-1)v(k+1)v(k+2)....V(k+L2)]
据此,可将a(k)计算为例如M(k)已知情况下v(k)的最小平方估计
a(k)=M(k)inv(trans(M(k))M(k))v(k)
其中inv()表示矩阵求逆或伪求逆,trans()表示矩阵变换。现在,例如通过减法计算剩余矢量r(k)。
r(k)=v(k)-a(k)
处理r(k)的一个例子是,通过削去这个矢量中的峰值,例如为了限制采样的最大绝对值到等于最接近向后-向前隐藏过程中起始点的矢量r(k)的最大幅度的水平,或者限制到在矢量中相同位置处采样的幅度乘以的某系数,该矢量不是最接近于向后-向前隐藏过程中起始点的矢量。已处理的剩余矢量rm(k)随后与矢量a(k)结合,以重构v(k)的均等形式,在这里为了方便由ve(k)表示。作为一个示例可以通过简单的加法来完成这种结合:
ve(k)=alpha*rm(k)+a(k)
这个示例中的参数alpha可被设定为1.0或可有利地被选择小于1.0,alpha的一个有利选择是0.8。
对于无声语音来说,可有利地利用另一种平滑和均等方法。无声语音平滑和均等的一个示例计算对数域中剩余信号幅度的多项式拟合。作为例子,可在log10域使用二阶多项式。将多项式拟合从对数域转换回线性域之后,在对应向后-向前过程起始点的点处,有利地将拟合曲线归一化为1.0。随后,降低限制拟合曲线到例如0.5,其中在剩余信号的幅度能够利用拟合曲线进行分解后,以便于平滑地均等无声剩余信号幅度的变化。
至于加权叠加过程,在本说明书的前面公开了其一些而不是所有的应用,即,索引和插值操作620和开始相位调整滤波970的输入信号的方法,已知的这些方法可由本领域的技术人员实施。然而,在加权叠加过程的优选实施方式中,可有利地使用在下面公开的方法。
在响应于匹配质量指示器而修正的加权叠加过程的简单实施方式中,我们考虑第一窗口乘以第一子序列及第二窗口乘以第二子序列,以及将这两个乘积输入叠加操作。现在,作为例子,我们让第一窗口为逐渐减小的窗口,例如单调递减函数,以及我们让第二窗口为逐渐增加的窗口,例如单调递增函数。其次,为了简化例子的目的,我们让第二窗口通过基本窗口形状乘以标量乘数被参数化。现在,我们定义:target为所述第一子序列;w_target为逐个与所述逐渐减小窗口相乘的采样的所述第一子序列;w_regressor为逐个与用于逐渐增加窗口的所述基本窗口形状相乘的采样的所述第二子序列;coef为所述标量乘数。现在可优化第二窗口的标量乘数分量,以便最小化target和叠加操作结果之间的平方和误差。为了方便用矩阵矢量符号,这个问题可表示为最小化目标和数量之间的平方和差
w_target+w_regressor*coef
在这里定义矢量T和H为
T=target-w_target
H=w_regressor
给出这种优化的解为
coef=inv(trans(H)*H)*trans(H)*T
其中inv()表示标量或矩阵求逆,trans()表示矩阵或矢量的转置,以及*是矩阵或矢量相乘。现在,如这里本发明所公开的主要部分一样,可扩展本方法,以优化窗口的实际形状。获得这个的一种方式如下。我们定义一个形状的集合,获得所要的窗口作为这个集合中元素的线性组合。我们现在定义H,使得H的每个列是这个集合一个采样接着一个采样与所述的第二子序列相乘的形状,我们将coef定义为包含优化的窗函数中这些形状的未知权重的列向量。根据这些定义,现在将表示这个问题及其解的上面的等式用于解决更一般窗口的形状。自然地,在上面中,第一和第二窗口的作用可以互换,以便现在对第一窗口进行优化。
本发明的更先进的实施方式共同优化两种窗口形状。这通过以下进行:定义基本窗口形状的第二集合,其可能与窗口形状的第一集合相同,并且有利地被选择作为窗口形状的第一集合中的每个窗口形状中的采样的逆时索引。现在将w_target定义为矩阵,其中每个列为来自一个采样接着一个采样与该第一子序列相乘的窗口形状的所述第二集合的基本窗口形状,将coef定义为列向量,该列向量包含用于第一窗口的第一权重和用于第二窗口的第二权重。然后,更一般的问题可用公式表示为目标和数量间的平方和差的最小值
[w_target w_regressor]*coef
其中方括号[]用于根据子矩阵或矢量构成矩阵。现在,这里定义矢量T和H为
T=target
H=[w_target w_regressor]
对这种优化的解为
coef=inv(trans(H)*H)*trans(H)*T
另外,本发明更先进的实施方式不仅优化瞬时窗口形状,还优化具有基于优化频率权重的窗口。虽然本发明的一个实施方式应用抽头延迟线的形式,但整个发明并不限于这种形式。完成这种普遍化的一种途径是,在上面w_target和w_tegressor的定义中,用多个列替换每个列,一个采样接着一个采样地和对应于它们替换的列的基本窗口形状相乘,但是,其中这个基本窗口形状现在是一个采样接着一个采样地与相应的子序列相乘,该子序列在对应抽头延迟线中的特定位置延迟。
有利地,不脱离这里所公开的本发明,这些方法的系数优化考虑系数的加权、约束或顺序计算。这种加权可有利地包括向对应低绝对延迟值的系数加更多的权重。这种顺序计算可有利地首先计算低绝对延迟值的系数,从而仅使用那些系数最小化平方和误差,然后顺序地重复这个过程,以增加延迟值,但是,在这个过程中仅在来自这个过程中前面步骤的剩余误差上重复这个过程。
一般地,本发明的实施方式将几个子序列作为优化的目标。总的来说,该优化使失真函数最小化,该失真函数是这些目标子序列的函数并且从加权叠加系统输出。这种优化不脱离本发明,将各种限制应用在对基本形状和延迟以及它们在整个叠加中的权重的选择上。根据形状的精确选择,叠加的影响有利地逐渐从时间上紧随叠加区域的子序列减弱。
图10所示的是公开的叠加方法的一个实施方式。由于本发明并不限于该图中的精确结构,所以该图仅仅用于说明本发明一个实施方式的目的。图10中,一个子序列1000输入与另一个子序列1010进行优化叠加的时间和频率形状。每个这些子序列输入单独的延迟线,图中,z表示一个采样提前的时间,z-1表示一个采样延迟的时间,并且选择的延迟1、-1和0纯粹是为了说明的目的:其它、更多的或更少的延迟可有利地与本发明结合使用。现在,将各个子序列的各个延迟形式与多个基本窗口形状相乘,并且将这些的每个结果与要得到的系数连同优化过程中的其他系数一起相乘。与这些系数相乘后产生的子序列相加产生来自优化叠加的时间和频率形状的输出1020。在图10的例子中,系数优化1030将子序列1040和1050作为输入,并最小化作为1040和1050以及输出1020函数的失真函数。
在权利要求书中,仅为了清楚的原因而包含附图的参考标记。附图中典型实施方式的参考标记不应以任何方式构成对权利要求范围的限制。

Claims (20)

1.一种响应采样的第一和第二子序列生成采样的输出序列的方法,所述的方法包括:
-将加权叠加过程应用于所述的第一和第二子序列,以产生所述采样的输出序列,
-响应采样的输出序列与采样的一个或者多个目标序列之间的匹配的测量,优化与所述加权叠加过程有关的加权函数。
2.根据权利要求1所述的方法,其中,响应采样的两个或者三个目标序列,对所述加权函数进行优化。
3.根据权利要求1或2所述的方法,其中,所述优化包括调整与所述加权叠加过程有关的至少一个加权函数。
4.根据权利要求3所述的方法,其中,所述优化包括调整与所述加权叠加过程有关的两个或者三个加权函数。
5.根据前述任一项权利要求所述的方法,其中,用一组参数表示与所述加权叠加过程有关的所述至少一个加权函数。
6.根据权利要求5所述的方法,其中,所述一组参数基于的是将至少一个加权函数的时间形状分解为基本窗口形状的线性组合。
7.根据权利要求6所述的方法,其中,所述一组参数基于的是将至少一个加权函数的时间形状分解为两个或者三个基本窗口形状的线性组合。
8.根据权利要求5-7中任一项所述的方法,其中,所述一组参数的产生包括将至少一个抽头延迟线应用于所述采样的第一和第二子序列的至少一个。
9.根据权利要求8所述的方法,其中,所述一组参数的产生包括将两个抽头延迟线应用于所述采样的第一和第二子序列。
10.根据权利要求8或9所述的方法,其中,所述一组参数的产生包括应用三个抽头延迟线。
11.根据前述任一项权利要求所述的方法,其中,响应所述采样的输出序列与所述采样的至少一个目标序列之间的距离的测量,修改与所述加权叠加过程有关的加权函数。
12.根据权利要求11所述的方法,其中,所述距离的测量基于平方和误差。
13.根据权利要求12所述的方法,其中,所述距离的测量基于加权的平方和误差。
14.根据权利要求11-13中任一项所述的方法,其中,根据最小二乘法对所述距离的测量进行最小化。
15.根据权利要求14所述的方法,其中,根据加权的最小二乘法对所述距离的测量进行最小化。
16.根据前述任一项权利要求所述的方法,其中,所述第一和第二子序列的采样表示数字化的音频采样。
17.根据前述任一项权利要求所述的方法,其中,所述采样的第一和第二子序列之一是隐藏采样序列。
18.计算机可执行的程序代码适用于执行根据前述任一项权利要求所述的方法。
19.一种程序存储装置,包括用于微处理器,例如通用微处理器的指令序列,所述程序存储装置用于执行权利要求1-17中任一项所述的方法。
20.一种用于接收数字化音频信号的装置,所述装置包括:
-存储器装置,用于存储表示接收的数字化音频信号的帧,和
-处理器装置,用于执行权利要求1-17中任一项所述的方法。
CN200680003570XA 2005-01-31 2006-01-31 加权叠加方法 Expired - Fee Related CN101120399B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DKPA200500146 2005-01-31
DKPA200500146 2005-01-31
PCT/DK2006/000054 WO2006079349A1 (en) 2005-01-31 2006-01-31 Method for weighted overlap-add

Publications (2)

Publication Number Publication Date
CN101120399A true CN101120399A (zh) 2008-02-06
CN101120399B CN101120399B (zh) 2011-07-06

Family

ID=59285473

Family Applications (3)

Application Number Title Priority Date Filing Date
CN2006800035697A Expired - Fee Related CN101120398B (zh) 2005-01-31 2006-01-31 通信系统中用于帧连接的方法
CN2006800035714A Expired - Fee Related CN101120400B (zh) 2005-01-31 2006-01-31 在通信系统中生成隐藏帧的方法
CN200680003570XA Expired - Fee Related CN101120399B (zh) 2005-01-31 2006-01-31 加权叠加方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN2006800035697A Expired - Fee Related CN101120398B (zh) 2005-01-31 2006-01-31 通信系统中用于帧连接的方法
CN2006800035714A Expired - Fee Related CN101120400B (zh) 2005-01-31 2006-01-31 在通信系统中生成隐藏帧的方法

Country Status (15)

Country Link
US (5) US9047860B2 (zh)
EP (3) EP1846921B1 (zh)
JP (4) JP2008529073A (zh)
KR (3) KR101203348B1 (zh)
CN (3) CN101120398B (zh)
AU (3) AU2006208528C1 (zh)
BR (3) BRPI0607246B1 (zh)
CA (3) CA2596337C (zh)
ES (1) ES2625952T3 (zh)
HK (1) HK1108760A1 (zh)
IL (3) IL184864A (zh)
NO (3) NO338798B1 (zh)
RU (3) RU2417457C2 (zh)
WO (3) WO2006079348A1 (zh)
ZA (3) ZA200706261B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930946A (zh) * 2011-06-28 2014-07-16 奥兰吉公司 延迟优化的重叠变换,编码/解码加权窗口
CN105531934A (zh) * 2013-09-12 2016-04-27 高通股份有限公司 用于流式传输数据的压缩感测的方法和用于执行所述方法的设备

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
WO2007086380A1 (ja) * 2006-01-26 2007-08-02 Pioneer Corporation 高音質化装置及び方法、並びにコンピュータプログラム
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
EP2080194B1 (fr) * 2006-10-20 2011-12-07 France Telecom Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN101437009B (zh) 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
JP5336522B2 (ja) * 2008-03-10 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
RU2475868C2 (ru) * 2008-06-13 2013-02-20 Нокиа Корпорейшн Способ и устройство для маскирования ошибок кодированных аудиоданных
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
JP5664291B2 (ja) * 2011-02-01 2015-02-04 沖電気工業株式会社 音声品質観測装置、方法及びプログラム
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
RU2585999C2 (ru) * 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Генерирование шума в аудиокодеках
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
CN103503062B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US9008170B2 (en) 2011-05-10 2015-04-14 Qualcomm Incorporated Offset type and coefficients signaling method for sample adaptive offset
US8935308B2 (en) * 2012-01-20 2015-01-13 Mitsubishi Electric Research Laboratories, Inc. Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102259112B1 (ko) 2012-11-15 2021-05-31 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
WO2014118139A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for coding mode switching compensation
AU2014211544B2 (en) * 2013-01-29 2017-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in perceptual transform audio coding
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
BR112015017222B1 (pt) 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
KR102238376B1 (ko) * 2013-02-05 2021-04-08 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
US9406308B1 (en) 2013-08-05 2016-08-02 Google Inc. Echo cancellation via frequency domain modulation
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
CN104751851B (zh) * 2013-12-30 2018-04-27 联芯科技有限公司 一种基于前后向联合估计的丢帧差错隐藏方法及系统
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
EP3090574B1 (en) * 2014-01-03 2019-06-26 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
US10157620B2 (en) 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
NO2780522T3 (zh) 2014-05-15 2018-06-09
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
WO2017153300A1 (en) 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
WO2017153299A2 (en) * 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
JP6652469B2 (ja) * 2016-09-07 2020-02-26 日本電信電話株式会社 復号装置、復号方法及びプログラム
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
EP3984026A1 (en) * 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment
EP3901950A1 (en) * 2020-04-21 2021-10-27 Dolby International AB Methods, apparatus and systems for low latency audio discontinuity fade out

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
EP0123616B1 (en) * 1983-04-20 1987-03-04 Nippon Telegraph And Telephone Corporation Interframe coding method and apparatus therefor
FR2606239A1 (fr) 1986-10-30 1988-05-06 Bull Sa Procede et dispositif de transmission de donnees numeriques
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
US5371853A (en) 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5995539A (en) 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
SE503547C2 (sv) 1993-06-11 1996-07-01 Ericsson Telefon Ab L M Anordning och förfarande för döljande av förlorade ramar
JP3520555B2 (ja) * 1994-03-29 2004-04-19 ヤマハ株式会社 音声符号化方法及び音声音源装置
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
TW294867B (zh) 1994-12-23 1997-01-01 Qualcomm Inc
US5699481A (en) 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
CA2206652A1 (en) 1996-06-04 1997-12-04 Claude Laflamme Baud-rate-independent asvd transmission built around g.729 speech-coding standard
JP3623056B2 (ja) 1996-09-10 2005-02-23 ソニー株式会社 動画像圧縮装置
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6766300B1 (en) 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JP3596841B2 (ja) 1997-01-24 2004-12-02 株式会社ルネサステクノロジ 受信データ伸長装置
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE69836785T2 (de) 1997-10-03 2007-04-26 Matsushita Electric Industrial Co., Ltd., Kadoma Audiosignalkompression, Sprachsignalkompression und Spracherkennung
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
SE513520C2 (sv) * 1998-05-14 2000-09-25 Ericsson Telefon Ab L M Förfarande och anordning för maskering av fördröjda paket
US6292454B1 (en) 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6418408B1 (en) 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
US6765931B1 (en) 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
KR100633720B1 (ko) 1999-04-19 2006-10-16 에이티 앤드 티 코포레이션 패킷 손실 또는 프레임 삭제 은폐를 수행하는 방법 및 장치
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP2001142477A (ja) * 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
SE517156C2 (sv) 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US6661842B1 (en) 2000-09-22 2003-12-09 General Dynamics Decision Systems, Inc. Methods and apparatus for error-resilient video coding
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
EP1217613A1 (fr) 2000-12-19 2002-06-26 Koninklijke Philips Electronics N.V. Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
KR100591350B1 (ko) 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
ATE323935T1 (de) 2001-04-09 2006-05-15 Koninkl Philips Electronics Nv Adpcm sprachkodiersystem mit phasenfaltungs und - entfaltungsfiltern
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2002095731A1 (fr) 2001-05-22 2002-11-28 Fujitsu Limited Processeur de signaux vocaux
FI20011392A (fi) * 2001-06-28 2002-12-29 Nokia Corp Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7711563B2 (en) 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6681842B2 (en) * 2001-12-03 2004-01-27 Agilent Technologies, Inc. Cooling apparatus
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7496086B2 (en) 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4089347B2 (ja) 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
BR0316963A (pt) * 2002-12-04 2005-10-25 Thomson Licensing Sa Codificação de fusões de vìdeo usando predição ponderada
KR20060011854A (ko) 2003-05-14 2006-02-03 오끼 덴끼 고오교 가부시끼가이샤 소거된 주기 신호 데이터를 은닉하는 장치 및 방법
JP4233931B2 (ja) 2003-06-17 2009-03-04 日本電信電話株式会社 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体
US7356748B2 (en) 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
JP2005315973A (ja) * 2004-04-27 2005-11-10 Seiko Epson Corp 半導体集積回路
TWI273562B (en) 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US9160382B2 (en) * 2013-10-08 2015-10-13 Blackberry Limited Phase noise mitigation for wireless communications

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930946A (zh) * 2011-06-28 2014-07-16 奥兰吉公司 延迟优化的重叠变换,编码/解码加权窗口
CN103930946B (zh) * 2011-06-28 2016-12-14 奥兰吉公司 延迟优化的重叠变换,编码/解码加权窗口
CN105531934A (zh) * 2013-09-12 2016-04-27 高通股份有限公司 用于流式传输数据的压缩感测的方法和用于执行所述方法的设备
CN105531934B (zh) * 2013-09-12 2019-06-07 高通股份有限公司 用于流式传输数据的压缩感测的方法和用于执行所述方法的设备
US10728298B2 (en) 2013-09-12 2020-07-28 Qualcomm Incorporated Method for compressed sensing of streaming data and apparatus for performing the same

Also Published As

Publication number Publication date
JP2014038347A (ja) 2014-02-27
KR20080002757A (ko) 2008-01-04
ZA200706261B (en) 2009-09-30
CN101120398B (zh) 2012-05-23
CA2596341A1 (en) 2006-08-03
KR20080001708A (ko) 2008-01-03
WO2006079350A1 (en) 2006-08-03
JP5420175B2 (ja) 2014-02-19
IL184864A0 (en) 2007-12-03
NO20074349L (no) 2007-10-18
NO340871B1 (no) 2017-07-03
CN101120400B (zh) 2013-03-27
CA2596337A1 (en) 2006-08-03
KR101203244B1 (ko) 2012-11-20
EP1846921A1 (en) 2007-10-24
EP1849156B1 (en) 2012-08-01
AU2006208528B2 (en) 2011-08-18
CN101120400A (zh) 2008-02-06
HK1108760A1 (en) 2008-05-16
RU2007132728A (ru) 2009-03-10
US9047860B2 (en) 2015-06-02
RU2417457C2 (ru) 2011-04-27
AU2006208529A1 (en) 2006-08-03
US9270722B2 (en) 2016-02-23
KR101237546B1 (ko) 2013-02-26
NO20074418L (no) 2007-08-29
NO338702B1 (no) 2016-10-03
AU2006208530B2 (en) 2010-10-28
CN101120399B (zh) 2011-07-06
CA2596341C (en) 2013-12-03
EP1849156A1 (en) 2007-10-31
RU2007132729A (ru) 2009-03-10
CA2596338A1 (en) 2006-08-03
RU2007132735A (ru) 2009-03-10
EP1846921B1 (en) 2017-10-04
US20150207842A1 (en) 2015-07-23
BRPI0607251A2 (pt) 2017-06-13
KR101203348B1 (ko) 2012-11-20
NO338798B1 (no) 2016-10-24
US20100161086A1 (en) 2010-06-24
US8918196B2 (en) 2014-12-23
ZA200706534B (en) 2008-07-30
EP1846920A1 (en) 2007-10-24
WO2006079348A1 (en) 2006-08-03
RU2405217C2 (ru) 2010-11-27
BRPI0607246A2 (pt) 2010-03-23
US20080275580A1 (en) 2008-11-06
IL184864A (en) 2011-01-31
AU2006208529B2 (en) 2010-10-28
ZA200706307B (en) 2008-06-25
US20120158163A1 (en) 2012-06-21
BRPI0607247A2 (pt) 2010-03-23
ES2625952T3 (es) 2017-07-21
AU2006208528A1 (en) 2006-08-03
EP1846920B1 (en) 2017-04-19
IL184948A0 (en) 2007-12-03
BRPI0607247B1 (pt) 2019-10-29
CA2596337C (en) 2014-08-19
US8068926B2 (en) 2011-11-29
NO20074348L (no) 2007-10-21
RU2407071C2 (ru) 2010-12-20
IL184948A (en) 2012-07-31
WO2006079349A1 (en) 2006-08-03
IL184927A0 (en) 2007-12-03
JP2008529073A (ja) 2008-07-31
AU2006208530A1 (en) 2006-08-03
BRPI0607246B1 (pt) 2019-12-03
CA2596338C (en) 2014-05-13
US20080154584A1 (en) 2008-06-26
IL184927A (en) 2016-06-30
AU2006208528C1 (en) 2012-03-01
JP2008529072A (ja) 2008-07-31
JP2008529074A (ja) 2008-07-31
KR20080002756A (ko) 2008-01-04
CN101120398A (zh) 2008-02-06
JP5925742B2 (ja) 2016-05-25
JP5202960B2 (ja) 2013-06-05

Similar Documents

Publication Publication Date Title
CN101120399B (zh) 加权叠加方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SKYPER LTD.

Free format text: FORMER OWNER: SONORIT APS

Effective date: 20100825

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: AALBORG, DENMARK TO: DUBLIN, IRELAND

TA01 Transfer of patent application right

Effective date of registration: 20100825

Address after: Dublin, Ireland

Applicant after: Skype Ltd.

Address before: Aalborg

Applicant before: Sonorit APS

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: SKYPE LTD.

Free format text: FORMER NAME: SKYPER LTD.

CP01 Change in the name or title of a patent holder

Address after: Dublin, Ireland

Patentee after: SKYPE Ltd.

Address before: Dublin, Ireland

Patentee before: Skype Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200511

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Ai Erlandubailin

Patentee before: SKYPE Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110706