CN101120398A - 通信系统中用于帧连接的方法 - Google Patents

通信系统中用于帧连接的方法 Download PDF

Info

Publication number
CN101120398A
CN101120398A CNA2006800035697A CN200680003569A CN101120398A CN 101120398 A CN101120398 A CN 101120398A CN A2006800035697 A CNA2006800035697 A CN A2006800035697A CN 200680003569 A CN200680003569 A CN 200680003569A CN 101120398 A CN101120398 A CN 101120398A
Authority
CN
China
Prior art keywords
frame
sampling
signal
hiding
phase filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800035697A
Other languages
English (en)
Other versions
CN101120398B (zh
Inventor
瑟伦·旺·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Sonorit ApS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=59285473&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN101120398(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Sonorit ApS filed Critical Sonorit ApS
Publication of CN101120398A publication Critical patent/CN101120398A/zh
Application granted granted Critical
Publication of CN101120398B publication Critical patent/CN101120398B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

一种用于连接采样的第一帧和随后的采样的第二帧的方法,所述方法包括应用适于最小化所述采样的第一和第二帧之间边界处不连续性的相位滤波器。

Description

通信系统中用于帧连接的方法
发明领域
本发明涉及电信系统。更特别地,本发明涉及一种减轻不连续的方法、设备和装置,该不连续出现在连接与原始音频信号中非连续帧相关的帧的时候,或者出现在连接与隐藏方法相关的一个或者两个帧的时候。这特别地结合信号信息包的丢失和/或延迟抖动和/或时钟脉冲相位差发生。本发明改进无线电信系统和报文分组交换网络上的信号传输质量。
发明背景
现代电信是基于信号的数字传输。例如,在图1中,发射机200收集来自源100的声音信号。这个源可以是由麦克风收集的一个或者多个人的谈话结果和其它声波源,或者其可以是声音信号存储或者产生系统,例如文本到语音合成或者对话系统。如果该源信号是模拟的,则其通过模拟一数字转换器转换为数字表示形式。根据适合数字信道300的格式,对该数字表示随后进行编码和打包。该信息包在该数字信道上传输。该数字信道典型地包含多个抽象层。
在图1中的抽象层中,该数字信道接收信息包序列作为输入,并传送信息包序列作为输出。由于信道中的衰减,其典型地由信道中的噪音、缺陷(imperfection)和过载产生输出的信息包序列典型地受到一些信息包丢失以及其它信息包的到达时间延迟和延迟抖动的干扰(contaminated)。另外,发射机与接收机的时钟差能够引起时钟脉冲相位差。接收机400的任务是对接收的数据包进行解码,并且将来自信息包流的解码数字表示转换并解码为数字信号表示,并进一步将这些表示转换为具有适于输出到信号接收器(signal sink)500的格式的解码声音信号。这个信号接收器可以是一个或者更多个人,通过例如一个或者多个扩音器将该解码的声音信号提供给他们。可选地,该信号接收器可以是语音或者音频存储系统,或者语音或者音频对话系统或者识别器。
该接收机的任务是精确地重现能够向该接收器提供的信号。当该接收器直接或者间接地包括人类收听者时,该接收机的一个目的是获得该声音信号的表示,当呈现给该人类收听者时,该表示精确地重现来自一个源或多个源的能够由人类感知的印象和听觉信号信息。为了确保通常情况下的这个任务,其中在这个通常情况下,信道由于丢失、延迟、延迟抖动和可能进一步存在的时钟脉冲相位差而使接收的信息包序列降质,这时需要一个有效隐藏作为该接收机子系统的一部分。
作为示例,图2中所示的是完成这个任务的接收机子系统的一个可能实现。如这个图中所示,输入的信息包保存在抖动缓冲器410中,从这里解码和隐藏单元420获得接收的编码信号表示,并且将这些编码信号表示解码和隐藏,以获得适于保存在播放缓冲器430中并随后播放的信号表示。对于何时开始隐藏和这个隐藏的哪些特定参数,例如隐藏信号的长度的控制,可以例如由控制单元440来完成,该控制单元440监控该抖动缓冲器和该播放缓冲器的内容,并控制该解码和隐藏单元420的动作。
隐藏也可作为信道子系统的一部分来实现。图3所示为一个信道子系统的例子,其中信息包经由子系统320从信道310转送到信道330,这在后面我们以中继作为其参考术语。在实际系统中,中继功能可由多个单元来完成,这些单元可能采用不同的上下文相关名称,例如各种类型的路由器、代理服务器、边缘服务器、网络访问控制器、无线局域网控制器、IP语音网关、媒体网关、未经授权网络控制器和其它的名称。在本上下文中所有这些都是中继系统的例子。
图4中所示的是能够进行音频隐藏的中继系统的一个例子。如这个图中所示,信息包经由信息包交换子系统320和350从输入缓冲器310转送到输出缓冲器360。该控制单元370监控该输入和输出缓冲器,并且作为这个监控的结果,确定是否需要进行代码转换和隐藏。如果是这种情况,这些交换子系统经由该代码转换和隐藏单元330控制该信息包。如果不是这种情况,这些交换子系统经由最小协议动作子系统340控制该信息包,该最小协议动作子系统340将在该信息包报头上执行最小操作,以保持与应用协议的适应。这可包括改变该信息包的序列号和时间戳的步骤。
在利用但并不限于上面举例说明的系统来传输音频信号时,需要对表示或者部分表示声音信号的信号中的丢失、延迟、延迟抖动、和/或时钟脉冲相位差进行隐藏。
有时包含在振荡器模型中的音调重复(pitch repetition)方法,是基于对有声语音(voiced speech)中音调周期的估计,或者可选地,是基于对有声语音信号的相应基频的估计。给定音调周期后,通过反复读取最后的音调周期来获得隐藏帧。可利用窗叠加方法,来对隐藏帧的开始和末端处的不连续以及每个重复的音调周期之间的不连续进行平滑。对于音调重复方法的例子,参阅专利WO0148736和国际电信联盟建议ITU-T G711附录1。在先技术的系统将基于音调重复的隐藏与基于线性预测编码原理的解码器集成在一起。在这些系统中,该音调重复典型地在线性预测激励域中通过来自长期预测器或者自适应码本循环的读取来实现。对于线性预测激励域中基于音调重复的隐藏的例子,参阅专利US5699481,国际电信联盟建议ITU-T G729,和Intemet工程工作小组对注释3951的请求(Intemet Engineering Task Force Request For Comments 3951)。上面的方法适用于隐藏丢失,或者渐增的延迟即正延迟抖动,和例如由于时钟脉冲相位差而引起的输入或者抖动缓冲器的下溢或者接近下溢的情况。为了隐藏渐减的延迟、负延迟抖动、或者输入或抖动缓冲器的上溢或者接近上溢,需要产生缩短的隐藏信号。基于音调的方法通过在一个音调周期和一个在先音调周期之间的叠加过程来实现这点。对于这种方法的例子,参阅专利WO 0148736。此外这点可以在开发线性预测解码器中存在的设备时实现。举例来说,专利US5699481公开了一种方法,通过该方法,依赖于该自适应码本的状态,固定码本贡献矢量(fixed codebook contribution vectors)从再现信号中被筒单地丢弃,以确保该再现信号中的音调周期。结合音调重复方法,一个目的是从隐藏帧到下一个帧的无缝信号连续。专利WO 0148736公开了一种达到这个目的的方法。利用WO 0148736中公开的发明,通过时变隐藏帧和可能地信号决定长度来达到这个目的。虽然这能够有效地确保与延迟抖动和时钟脉冲相位差的隐藏有关的无缝信号连续,但是,这个方法引入了与图4中所示类型的系统有关的缺点:依据这种类型的隐藏,不能确保将该隐藏编码到有固定预定长度的帧中,其中该固定长度的帧与已经编码的最好经由最小协议动作340进行中继的帧无缝连接。
因此,一个重要的目的是获得预定长度等于正常信号帧长度的隐藏帧。一个具有预定长度的隐藏方法是,实现超过预定帧长度的采样之间的平滑叠加,该预定帧长度是隐藏帧数目的倍数,具有来自紧随该隐藏帧的该帧的采样尾部(tailing)子集。这个方法在现有技术中是众所周知的,并被用于例如国际电信联盟建议ITU-T G 711附录1中。原则上,还可在连接一个帧和另一个帧时使用这个方法,其中,这两个帧与原始音频信号中的非连续帧有关。因此,本领域的技术人员可通过获得隐藏帧作为第一帧的延续来实现这点,并且将这个隐藏帧与第二帧一起输入到该叠加过程,从而部分地减小在该第一帧的最后采样和该第二帧的第一采样间的边界处发生的不连续。
对这些预期模式来说上面的解决方法是有问题的。这是因为,取决于输入到这个叠加过程中的两个信号的实际波形形状,会有明显的不连续残留在结果音频信号中。该不连续会被人类收听者当作信号中的“冲击(bump)”或者“衰减(fade)”而觉察到。
在第一个预期模式中,其中涉及一个或者多个隐藏帧,这些隐藏帧的重采样已经在文献中提及,对于这种方法,参阅例如Valenzuela和Animalu,“A newvoice-packet reconstruction technique”,IEEE,1989年。当目的是连接两个现有的帧而不是与隐藏帧相连时,这种方法不提供解决方案,另外,对于隐藏帧与后续帧之间的连接,这个方法仍存在问题。这是因为,为了减轻由收听者觉察到的不连续而需要的重采样可能反而会引入明显的频率失真,即频移,这种频率失真也会被收听者当作恼人的人为现象而觉察到。
发明概述
本公开的发明,或者更确切地说是其具体实施方式,有效地减轻上面指出的已知解决方法中的缺点,以及其它未指明的已知解决方法中的不足。根据本发明,通过一种方法、程序存储设备和装置来达到这些目的,所有这些都是本发明的不同方面,具有附加的权利要求书中所限定的特征。
特别是与已知的基于音调重复的方法相比,本公开的发明提供连接信号帧的技术,这些信号帧在帧边界处具有固有的不连续性,与现有技术中已知技术相比,该技术具有明显较少的可感知的人为现象。因此,本公开的发明减轻了现有技术系统的缺点,具有直接改善了可感知声音质量的结果。
下面的定义将贯穿使用在本发明的公开中。“采样”理解为由数字化音频信号产生的或者源自其导出信号的采样,或者这种信号的系数或参数表示,这些系数或者参数为标量或者矢量值。“帧”理解为连续采样的集合,该采样使用上面采样的定义。“子序列”理解为两个或者多个连续采样的集合,该采样使用上面采样的定义。在使用例如叠加时,两个连续子序列可包括重叠采样。根据帧的选择,一个子序列可扩展到两个连续帧之间。
本发明在第一方面,提供一种用于连接采样的第一帧和随后的采样的第二帧的方法,该方法包括使用相位滤波器,该相位滤波器适于最小化采样的所述第一和第二帧之间边界处的不连续性。
优选地,该相位滤波器应用于至少两个连续帧中的至少一部分采样。该至少两个连续帧可以是所述的第一和第二后续帧。
该相位滤波器可用于至少该第二帧中的至少一部分采样,并且可用于连接该第二帧的至少一个帧中的至少一部分采样。该相位滤波器可用于至少第二帧中的至少一部分采样,并且可用于连接该第二帧的至少两个帧中的至少一部分采样。
该相位滤波器可用于至少该第一帧中的至少一部分采样,并且可用于该第一帧之前的至少一个帧中的至少一部分采样。该相位滤波器可用于至少该第一帧中的至少一部分采样,并且可用于该第一帧之前的至少两个帧中的至少一部分采样。
优选地,该相位滤波器包括一个全通滤波器部分,在简单的优选实施方式中,该相位滤波器是全通滤波器。该全通滤波器部分可以是参数(parametric)全通滤波器部分。该参数全通滤波器部分优选地包括1到20个非零系数。
该相位滤波器可包括通过弧度相位值pi来修改至少一个采样的子序列的相位。
在优选实施方式中,该相位滤波器是时变的。该相位滤波器优选是时变的,这样,在远离该第一和第二帧间边界有限数目的采样处,该相位滤波器的响应接近零相位,例如,该第一和第二帧间边界之后的有限数目个采样。优选地,在起始时间,该相位滤波器优选地具有最初选择的相位响应。远离边界的所述采样的数目可以取决于相位滤波器的最初选择相位响应。该相位滤波器的响应接近零相位的时间点可以位于该第一和第二帧至少其中之一内。可选地,该相位滤波器的响应接近零相位的时间点位于为该第一帧之前的至少一个帧的帧内。更多可选地,该相位滤波器的响应接近零相位的时间点位于为该第二帧之后的至少一个帧的帧内。
远离该边界的所述采样的数目可以取决于该第二帧或者该第二帧之后一个帧中的采样的子序列的特征。例如,在输入采样表示语音信号的情况下,可以使用这种采样特征来检测这些采样表示有声还是无声语音。
远离该边界的所述采样的数目可以取决于该第一帧或者该第一帧之前的帧中的采样的子序列的特征。
该相位滤波器可包括多相位结构。该相位滤波可包括一个增采样(up-sampling)过程。
该方法包括应用一个加权叠加过程,例如包括匹配滤波器的加权叠加过程。由该加权叠加过程产生采样的一部分有益地用于初始化该相位滤波器的状态,如果在这个初始化之后,仍残留着由该叠加过程产生的另一部分采样,那么这些采样有益地用作该相位滤波器的第一输入采样。
至少该第一和第二帧其中之一包括一个或者多个可由隐藏方法产生的隐藏采样。该隐藏方法可以是一种包括基于缓冲采样的两个连续子序列以逆时序产生隐藏采样的两个连续子序列的方法。
该相位滤波器可基于由所述第二帧在时间上向后而产生的隐藏采样。该相位滤波器的初始状态可基于所述的隐藏采样。可包括来自选择的至少一个所述隐藏采样的多个采样,以最大化匹配测量。所述的匹配测量可包括相关性,例如归一化相关性。
根据前面任一权利要求的方法,其中该第一和第二帧中的采样表示数字化的音频信号,例如包括语音信号的音频信号。
在本发明的有益实施方式中,全通滤波器,例如参数全通滤波器用于相位滤波。该相位滤波器是时变的,这样,距离帧边界越远,其响应就越逐渐接近零相位。在达到零相位的点,该滤波器与信号通道断开。这个点可以在用这个方法减轻帧边界不连续的同一帧中,或者有利地,这个点可以是远离减轻帧边界不连续点的一个或者几个帧。在本发明的另一个有益实施方式中,确定初始相位滤波器、该滤波器的初始状态和该滤波器的输入,以最小化第一帧的最后采样和第二帧的第一采样之间的不连续性,并且,该最小化通过最大化由隐藏方法获得的在所述第一帧中的最后采样的平滑连续和在所述第二帧中采样的相位滤波的输入、状态或者输出的初始部分之间的相似性测量来实现。另外,在有益的实施方式中,通过时间上向后操作的隐藏方法获得在所述第二帧的第一采样之前的表示时间的采样,其是根据该第二帧和在前帧的第一采样估计该相位滤波器的输入、状态、和/或输出。在另一个有益实施方式中,在来自所述第一帧的隐藏采样和该相位滤波器的输入、状态、或者输出之间应用加权叠加方法,并优选应用匹配滤波器加权叠加方法。
第二方面,本发明提供一种适于执行根据第一方面的方法的计算机可执行程序代码。这种程序代码可以以依赖机器或者独立于机器的形式和以任何程序语言编写,例如机器代码或者高级程序设计语言。
第三方面,本发明提供一种包含用于微处理器以执行该第一方面的方法的指令序列的程序存储设备,该微处理器例如为通用微处理器。该存储设备可以是任一类型的数据存储装置,例如磁盘、存储卡或者记忆棒、硬盘等。
第四方面,本发明提供一种用于接收数字化音频信号的装置,该装置例如为设备或者仪器,该装置包括:
-存储器装置,用于保存表示接收的数字化音频信号的采样,和
-处理装置,用于执行该第一方面的方法。
用适当的装置来实现本发明,例如下面的优选实施方式中描述的装置,使得解码器和隐藏系统和/或代码转换器和隐藏系统能够在不引入可感知的恼人的人为现象的情况下,有效地隐藏丢失的序列或者延迟的信息包。因此,我门的发明使得可以在严重的时钟脉冲相位差、信道丢失和/或延迟抖动的情况下获得高质量的双向音频通信。
附图说明
下面参照附图对本发明进行更详细的描述,其中
图1所示的是已知的易受到丢失、延迟、延迟抖动和/或时钟脉冲相位差影响的端到端(end-to-end)信息包交换声音传输系统的方框图;
图2是示例的是在控制单元的控制下,完成抖动-缓冲、解码和隐藏以及播放缓冲的接收机子系统;
图3所示的是易受时钟脉冲相位差、丢失、延迟和延迟抖动影响的信息包交换信道的中继子系统的方框图;
图4是示例的在控制单元的控制下,完成输入缓冲、输出缓冲并在需要时进行代码转换和隐藏的中继子系统;
图5所示的是本发明的一组优选实施方式的方框图;
图5A所示的是隐藏帧中的子序列示意图,其以逆时顺序从基于最后缓冲的子序列的子序列开始;
图5B所示的是隐藏帧中的子序列的较大序列的另一个示例,其以逆时顺序从最后两个缓冲子序列开始,并且其中连续的子序列基于进一步在时间上后退的缓冲的子序列;
图5C所示为具有由后退步骤(step back)和读取长度格式化的索引模式的采样计数索引;
图6所示的是关于索引和插值函数的信号示意图;
图7所示的是执行用于停止标准的判断逻辑的一种可能方式的流程图;
图8所示的是实现平滑和均衡化、停止标准和允许重复数量的迭代联合优化的一种可能方式的流程图;
图9所示的是与相位调节滤波器的初始化和馈送有关的环形移位和叠加的使用;和
图10所示的是公开的加权叠加过程的一种实施方式。
虽然本发明容许各种改变和可选择的形式,但是,具体实施方式已经通过附图中的示例进行了显示,并将在这里进行详细描述。但是,应该理解,本发明并不限定于所公开的特定形式。相反,本发明应涵盖由附加的权利要求书限定的落在本发明的精神和范围之内的所有的改变、等效形式和可选择的形式。
优选实施方式的描述
下面,结合对隐藏帧和随后帧的连接对本发明进行描述。但是,正如将从权利要求书的范围可以理解的,本创造性的连接方法具有比其更广的应用范围。
该创造性的方法在如图2中所示接收机的解码隐藏单元420中被激活,或者在如图4所示中继的代码转换隐藏单元330中被激活,或者在其作用适当的通信系统的任一其它位置被激活。在这些位置有大量可用缓冲信号帧,并需要大量的隐藏帧。可用信号帧与所需隐藏帧可由音频信号例如语音信号的时域采样组成,或者它们可由源自其的采样组成,例如线性预测激励采样,或者它们可由来自该音频信号和完全或者部分表示声音信号帧的其它系数组成。这种系数的示例是频域系数、正弦模型系数、线性预测编码系数、波形内插系数,和其它完全或者部分表示该音频信号采样的系数集。
图5所示的是本发明的优选实施方式。根据图5,可用信号帧595存储在帧缓冲器600中,该信号帧595可以是来自这个或者其它方法的较前操作中所接收和解码或代码转换的信号帧或者隐藏帧,以产生隐藏帧或者上述类型的信号帧的组合。该帧缓冲器中的信号由索引模式发生器660分析。该索引模式发生器能够有利地利用信号音调596和合声597的估计。取决于整个系统的设计,来自其它过程例如编码、解码或者代码转换过程的这些估计可用于输入,或者它们通过优选利用现有技术的信号分析方法的其它方法进行计算。而且,该索引模式发生器将待产生的隐藏信号帧的数目598,和指向该帧缓冲器中该隐藏帧将要取代的特定信号帧的开始和末端的指针599作为输入。作为示例,如果这些缓冲器指向该帧缓冲器的末端,那么这表示一个或多个隐藏帧应当适于跟随在保存于该帧缓冲器中的信号之后。作为另一个示例,如果这些指针指向帧缓冲器中的连续帧的一个非空子集,那么这表示该一个或多个隐藏帧应当取代表示或者部分表示声音信号的帧序列中的这些帧。
为了进一步说明这一点,假定该帧缓冲器600包括信号帧A、B、C、D和E,并且隐藏帧的数目598为2。那么,如果指向待取代的帧的指针599指向该帧缓冲器的末端,这表示两个隐藏信号帧应当顺次紧随信号帧E之后。相反地,如果指针599指向信号帧B、C和D,那么这两个隐藏帧应当取代信号帧B、C和D,并顺次紧随在信号帧A之后,并且信号帧E顺次紧随其后。
关于确定隐藏帧的数目598和该隐藏帧最后要取代的帧的子集即指针599的方法,优选使用现有技术方法。这样,数据596、597、598和599与信号帧595一起构成向本发明的方法、设备和装置的输入。
在某整体系统的设计中,在该隐藏单元的执行期间,信号帧的长度或者维数(dimension)有利地保持常数。在其它情况中,典型地是这种情况,当该隐藏单元集成在中继系统中时,在该中继系统中,,该隐藏的结果应当在预定长度的时间间隔内置于表示声音信号的信息包中,该预定长度在别处确定。作为示例,这个预定长度可以在IP语音系统的呼叫建立时的协议协商期间确定,并可在对话期间在响应例如网络拥塞控制机制时改变。正如在后文中会更为清楚的,本发明的一些实施方式以有利的方式满足了以预定长度的信号帧工作的要求。但是,这种新发明并不限于这些系统的要求;本新发明的其它实施方式能够以非整数数目的帧的隐藏和具有时变长度的隐藏帧工作,其中这些长度可能是该帧缓冲器中的特定内容的函数,也许与其它要素相结合。
本发明的实施方式可有利地利用平滑和均衡操作610对来自该帧缓冲器的信号605进行操作。这种平滑和均衡产生信号615,其中在时间上比一个或多个隐藏帧早的帧具有与该一个或多个隐藏帧替代的一个或多个信号帧或直接在其之前的帧增加的相似性。可选地,如果该一个或多个隐藏帧与未被替代的现有帧被顺次插入,那么与直接在一个或多个隐藏帧的预期位置之前的一个或多个帧是类似的。为了后文中的参考,我们将这两种情况简称为相似。相似正如收听者所理解的。平滑和均衡获得具有增加的相似性的信号,同时保留信号615自然地声音变化。由该平滑和均衡610有利地执行的相似性增加的操作的例子,包括参数中增加的平滑度和相似性,例如能量包络、音调轮廓、声音等级、声音中断、谱包络和其它可感知的重要参数。
关于每个这些参数,将待平滑和均衡的帧内参数变化中的瞬间突变过滤出来,并且这些帧中的参数平均水平被平滑地修正,从而在上面定义的相似的含义上变得更加相似。有利地,仅在一定范围内引入相似性,其仍保持信号的自然声音变化。在该索引模式发生器660的控制下,平滑和均衡能够有利地减轻瞬变和不连续,其否则可能出现在随后的索引和插值操作620中。此外,音调轮廓的平滑和均衡能够有利地通过该索引模式发生器660以最小化失真的方式得到控制,否则,其最后由相位滤波器650引入到后面的隐藏帧中。该平滑和均衡操作能够有利地利用信号或参数替代、混合、插值和/或与在帧缓冲器600中沿时间进一步向前找到的信号帧(或从其中导出的参数)合并。该平滑和均衡操作610能够从该系统中省去,这并不脱离本发明的通常的范围。在这种情况下,信号615等同于信号605,并且在那种情况下,索引模式发生器660的信号输入656和控制输出665能够从系统设计中省略。
索引和插值操作620将可能经过平滑和均衡的信号615和索引模式666作为输入。此外,在本发明的一些有利实施方式中,索引和插值操作将匹配质量指示器667作为输入。该匹配质量指示器可以是一个每个瞬间时刻的标量值,或者其可以是时间和频率的函数。该匹配质量指示器的用途在说明书后文中会变得清楚。该索引模式666确定该索引和插值函数操作的参数。
图5A所示的是索引模式可能如何索引缓冲采样中的子序列BS1、BS2、BS3和BS4在一个或者多个隐藏帧的合成中逐渐在时间上向后移动的示例。在所示的示例中,隐藏帧CF1、CF2、CF3中的连续子序列CS1、CS2、CS3、CS4、CS5、CS6和CS7基于帧BF1、BF2中的采样的缓冲子序列BS1、BS2、BS3和BS4。如图可见,隐藏子序列CS1-CS7由位置指针从缓冲的子序列BS1-BS4索引,该位置指针在时间上逐渐向后移动然后逐渐向前移动,如函数记号CS1(BS4)、CS2(BS3)、CS3(BS2)表示的那样,意思是CS1是基于BS4的,等等。因而,图5A是作为说明隐藏帧中的连续子序列是可能如何基于连续的缓冲的子序列、但在时间上重新排序的相互连接的一个示例。如图可见,第一四个隐藏子序列CS1(BS4)、CS2(BS3)、CS3(BS2)和CS4(BS1)被选择基于缓冲采样的最后四个子序列BS1、BS2、BS3、BS4,以连续顺序但是以逆时间顺序,由此从最后的缓冲子序列BS1开始。在以逆时间顺序的第一四个子序列后,随后的三个子序列CS5、CS6、CS7都基于以时间顺序连续的缓冲子序列,即分别为BS2、BS3和BS4。优选的索引模式是该索引模式发生器660的结果,并可能随着到这个模块的输入656、596、597、598和599发生很大的变化。遵循图5A的标记,图5B示出隐藏子序列CS1-CS11可能如何基于缓冲子序列BS1-BS4沿时间重新排序的另一个说明性示例。如图可见,后来的隐藏子序列逐渐基于在时间上进一步后退的缓冲子序列。举例来说,第一两个连续隐藏子序列CS1和CS2基于最后两个缓冲的子序列BS3、BS4以逆时排序,但是,后面的一个隐藏子序列,例如CS10基于BS1,即,相比那些用于计算CS1和CS2的子序列,其基于在时间上进一步后退的一个缓冲子序列。因而,图5B用于说明连续隐藏子序列是基于以一定方式在时间上向前和向后索引的缓冲子序列的,由此该索引随时间逐渐向后变化。
在本发明的有利实施方式中,这个在时间上逐渐向后的变化为了说明书的需要我们确定称之为后退步骤序列,和为了说明的需要我们称之为读取长度序列。在这种格式的索引模式的简单实施方式中,指向信号采样、或者表示其参数或系数的指针,向后移动一定的量,这个量与第一后退步骤的量相等,之后,一定数量的采样、或者表示其参数或系数被插入到该隐藏帧中,这个一定数量与第一读取长度相等。其后,该指针向后移动与第二后退步骤的量相等的量,并从而读取等于第二读取长度的一定数量的采样、或者表示其的参数或系数,等等。
图5C所示的是对第一列举的索引采样进行重新排序的过程的示例。这个第一列举被列在信号时间轴上,而在图5C的隐藏时间轴上的列举表与被置于该隐藏帧中的原始采样的重新排序相对应。对于这个说明性的示例来说,随意选择第一、第二和第三后退步骤分别为5、6、5,并且,同样地随意选择第一、第二和第三读取长度分别为3、4、3。在这个示例中,分别具有时间索引集合{6,7,8}、{3,4,5,6}和{2,3,4}的子序列是时间上逐渐后退变化的子序列。这里选择的后退步骤和读取长度的子序列纯粹是为了说明的目的。以16kHz进行采样的语音剩余采样作为示例,后退步骤的典型值为40到240的范围,但并不限于这个范围,读取长度的典型值为5到1000采样的范围,但并不限于这个范围。在这种格式的更先进的实施方式中,从正向(directed)序列(例如原始时间或者时间上向后索引的子序列)到另一个正向序列的转变,一个时间上进一步后退的步骤,是通过渐变插值逐渐进行的。
图6所示的是响应一个后退步骤和相应读取长度和匹配质量指示器的索引和插值函数的简单实施方式的操作。仅是为了说明的目的,这里的信号帧包括时域音频采样。以一种相似并从而直接的方式,将该渐变插值应用于在本说明书中使用的一般定义的“采样”上,即,包括表示时域音频采样的标量或者矢量值系数或者参数。图中的700表示信号615的一个片段。指针705是采样时刻,该采样时刻跟随着在索引和插值输出信号625中最后产生的采样的采样时刻。时间间隔750具有与读取长度相等的长度。时间间隔770也具有与读取长度相等的长度。时间间隔760具有与后退步骤相等的长度。在700中从时刻705开始的且在时间上向前的读取长度内的信号采样一个接一个地与窗函数720相乘。同样,在700中从后退步骤之后、位置706之前的一个采样位置开始的,并且在那之前的读取长度内的信号采样,一个接一个地与窗函数710相乘。与窗710和窗720相乘所产生的采样一个接一个地相加730以产生采样740,该采样740构成新一批的来自索引和插值操作的输出625的采样。这个操作完成后,指示705移到位置706。
在本发明的简单实施方式中,窗函数710和720是读取长度750的简单函数。一个这种简单函数是分别选择窗710和窗720作为两倍于读取长度的汉宁窗(hanning window)的前一半和后一半部分。但是,这里也可选择宽范围的函数,要注意的是这个函数在本发明的上下文中是有意义的,它们必须要以这样的一种方式完成由750指示的片段中的采样与由770指示的采样之间的加权插值,该方式即,我们逐渐地,但不必是单调地,从对于750指示的片段的高加权移动到对于770指示的片段的高加权。
在本发明的其它实施方式中,窗函数710和720是匹配质量指示器的函数。这种函数的一个简单示例是,根据由时间间隔750和770指示的信号700的片段上的归一化相关性有关(normalized correlation)的阈值,选择插值操作对幅度或者能量进行求和取整。这种函数的另一个示例避免了计算振幅或者能量总和到一的限制,而是仅将窗的权值优化作为匹配测量的函数。另外,这种方法的进一步改进采用归一化相关性的实际值,并响应它而优化该插值操作,例如,利用经典的线性估值方法。不管怎样,后文中将描述优选方法的示例。在这些示例中,阈值和归一化相关性的实际值分别给出由匹配质量指示器667传送的有利信息的示例。根据后文中描述的优选实施方式,该插值操作可用于执行不同频率上的不同加权。在这种情况下,匹配质量指示器667能够有利地传送作为频率函数的匹配测量。在有利实施方式中,这个作为频率的函数的加权作为渐减的延迟线或者其它参数滤波器形式来执行,该形式能够被优化以达到最佳匹配标准。
图6中所示的是,当信号615(和由此的信号片断700)包含表示声音信号的或者源自其的时域信号的时域采样的采样时,给出索引和插值操作的说明。如前面提到的那样,在帧595中的和由此在信号605和615中的采样能够有利地成为:每个采样都是一个矢量(矢量值采样),其中这种矢量包含系数或者参数,该系数或者参数表示或者部分表示该声音信号。这种系数的例子是线状谱频率(line spectral frequency)、频域系数、或者定义正弦信号模型的系数,例如振幅、频率和相位的集合。以本发明的优选实施方式的这些详细说明为基础,对本领域的技术人员来说,有利地应用在矢量值采样上的插值操作的设计是可实施的,因为其余的细节能够在针对这种矢量值采样的每种特定情况的一般文献的描述中找到。
为有利地理解本发明,应该观察到,当反复应用读取长度小于后退步骤的索引和插值操作时,那么结果会是,信号625中的采样将表示在信号615中逐渐地进一步并且更进一步地后退的信号采样。于是,当后退步骤和或读取长度改变,使得该读取长度变得比后退步骤大时,那么这个过程将返回并且这时信号625中的采样将表示在信号615中逐渐地进一步并更进一步地向前的信号采样。通过对后退步骤序列和读取长度序列进行有利地选择,无需帧缓冲器600中的最近接收的信号帧的时间之前的采样,甚至无需另一个预置时刻之前的采样,就能够获得具有丰富和自然变化的长隐藏信号,该预置时刻可能位于比帧缓冲器600中最后接收的帧中的最后采样早的位置。从而,利用本发明使得对于具有低延迟播放或者输出缓冲器时序安排的系统中的延迟尖峰(delay spikes)的隐藏成为可能。在本说明书的明确描述中,通过反复使用一个采样的读取长度、两个采样的后退步骤和窗720和窗710来实现信号简单精确的倒退(strictbackwards)的时间变化,该窗720包括一个值为0的单个采样,该窗710包括一个值为1.0的单个采样,该时间变化可以用于考虑作为本发明的简单实施方式中的一部分。
索引模式发生器660的主要目的是控制索引和插值操作620的动作。在一组优选实施方式中,这个控制是在索引模式666中确定形式的,该索引模式666可由后退步骤序列和读取长度序列组成。这个控制可进一步利用匹配质量指示器序列增强,该匹配质量指示器序列依次每个都可以是例如频率的函数。另一个特征是重复计数668,其可从该索引模式发生器输出,并且其用途在本说明书的后文中会更清楚。重复计数的意思是,时间上向后变化的次数的数目,其是从该一个或多个隐藏帧的构成中开始的。该索引模式发生器获得这些来自信息基础的序列,其可包括由该平滑和均衡操作610输出的经过平滑和均衡的信号656;音调估计596、声音估计597、要产生的隐藏帧的数目598,以及指向待取代的帧的指针599。在索引模式发生器的一个实施方式中,它将根据声音指示器进入不同的模式。这些模式在下面举例说明。
作为有利地在线性预测激励域使用的示例,如果该声音指示器鲁棒地(robustly)指示该信号为无声语音,或者在该信号中没有出现有效语音,即该信号由背景噪声组成,则该索引模式发生器可以进入一个模式,在该模式中开始该信号采样的简单逆时变化。如前面所述,这能够通过例如提交后退步骤值等于2的序列和读取长度值等于1的序列来实现(这个说明书基于这样的设计选择,即该索引和插值操作本身会识别这些值,并应用上面描述的适当的窗函数)。在一些情况下,这个序列能够继续,直到信号的逆时变化已经针对隐藏帧中需要的新采样数目的一半得到执行,之后,后退步骤序列中的值可变为0,借此开始信号的前向时间变化,并继续,直到指针706有效地回到指针705在后退步骤的第一应用中的出发点。但是,这个简单的过程不总是足以产生高质量的隐藏帧。该索引模式发生器的一个重要任务是监控适当的停止标准。在上面的示例中,逆时变化可将指针706引回信号中的一个位置,在该位置,如收听者感知的那样,声音与开始点的明显不同。在这个出现之前,应改变时间变化的方向。
本发明的优选实施方式可应用基于一组测量的一组停止标准。下面举例说明一些这种测量和停止标准。如果声音显示指针706处的信号是有声音,那么在上面从无声开始的示例中,该时间变化的方向能够有利地改变,同样,如果指针706的周围区域的信号能量不同于(由绝对或者相对阈值确定)指针705出发点处的信号能量,该时间变化方向能够有利地改变。作为第三个示例,指针705出发点周围区域和指针706当前位置之间的频谱差可能超过阈值,那么该时间变化方向应当改变。
当信号不能鲁棒地确定为无声或者包含非活动语音时,可引起模式的第二个示例。在这个模式中,音调估计596组成用于确定该索引模式的基础。执行这个的一个过程是,搜索每个后退步骤,以给出一个来自指针705并且时间上在其之前一个音调周期的信号和来自后退步骤比指针705早的点并且在其之前一个音调周期的信号之间的最大化的归一化相关生。对后退步骤可能值的搜索可有利地限定在一个区域内。如果没有发现在前的后退步骤,这个区域可以有利地被设置为在前面发现的后退步骤或者音调滞后的周围加上负10%。一旦确定了后退步骤,读取长度的值将确定时间信号变化应在时间上向后还是向前变化,以及这个变化应当进行多快。通过将读取长度选择为接近于后退步骤识别值来获得慢变化。通过在向后和向前变化的情况下分别选择比后退步骤小得多或者大得多的读取长度来获得快变化。该索引模式发生器的一个目的是,选择读取长度以优化由收听者感知的声音质量。选择读取长度过于接近于后退步骤可能在一些信号例如非完全周期信号中,,引起感觉上恼人的人为现象,例如串音。选择的读取长度距离后退步骤太远时,意味着隐藏帧的时变期间,最终扫过(swept)了帧缓冲器中的一个较大时间间隔,可选地,在为隐藏帧产生足够数量的采样之前,时变的方向必须改变更多次。
第一种情形可能是,在一些信号中,例如不够平稳的(或者不够平滑和均衡的)信号,可能产生一种感觉上恼人的人为现象,该人为现象与一个或多个隐藏帧中的声音中的口吃现象具有某种相似之处。在第二种情形中,可以发生类似串音的人为现象。本发明的有益实施方式的一个特点在于,可以将读取长度确定为后退步骤和归一化相关性的函数,其在搜索最佳后退步骤中被优化。对于作用在语音信号上的本发明实施方式中这个函数的一个简单有益的选择由下面的函数作为示例给出,并且这时信号帧包含20ms的以16kHz采样的线性预测激励信号:
ReadLength=[(0.2+NormalizedCorrelation/3)*StepBack]
其中方括号[]用于表示取最接近的整数,以及其中符号ReadLength、NormalizedCorrelation和StepBack分别用于表示读取长度、为最佳后退步骤而获得的归一化相关性,以及对应的后退步骤。上面的函数仅作为示例包含在此,以表示本发明某些实施方式中的一种有益选择。为获得这个读取长度,包括任何函数关系的对于读取长度的任何选择都是可能的,都不脱离本发明精神。具体地,选择读取长度的有益方法包括利用控制665确定平滑和均衡操作610的参数,以便在中间隐藏帧625中实现口吃状和串音状人为现象的连接最小化。这解释了为什么索引模式发生器660将中间信号656而不是来自平滑和均衡操作的输出615当作输入:信号656表示在控制665下的最终信号615的可能形式(potential version),并且使索引模式发生器能够通过迭代完成优化任务。对于上面无声和非有效声音模式的情形就是这种情况,在这种模式中停止标准也是必需的。上面模式中列举的停止标准的所有例子也适用于这个模式。另外,在这种模式中,根据对音调和归一化相关性的测量,停止标准可有益地成为本发明实施方式的一部分。
作为示例,图7示出用于停止标准组合的有益的判定逻辑。图7中,参考标记指示如下:
800:识别信号是否为高(high)相关类型、低(low)相关类型或均不是。
确定初始能量等级
801:确定下一后退步骤和归一化相关性及读取长度
802:确定信号是否进入低相关类型
803:确定信号是否进入高相关类型
804:信号为高相关类型吗?
805:信号为低相关类型吗?
806:能量低于相对最小阈值或高于相对最大阈值?
807:归一化相关性低于用于高相关类型的阈值?
808:归一化相关性高于用于低相关类型的阈值?
809:已生成足够的采样?
在16kHz采样语音的线性预测激励域中操作的情况中。图7中标注的阈值可以有益地如下进行选择:当遇到大于0.8的归一化相关性时,可以进入高相关类型;为保持在高相关类型中的阈值在归一化相关性中可以设为0.5;当遇到小于0.5的归一化相关性时,可以进入低相关类型;保持在低相关类型中的阈值在归一化相关性中可以设为0.8;最小相对能量可以被设为0.3;并且最大相对能量可以设为3.0。此外,不脱离本发明的精神和范围,在本发明的上下文中,可以使用其它逻辑以及其它停止标准。
停止标准的应用意味着单一变化并不能保证对隐藏帧给出所需数量的采样,该单一变化在时间上后退直至产生足够的采样或者符合停止标准,然后在时间上再次向前。因此,在时间上后退或者前进的更多变化可以由索引模式发生器应用。但是,太多的后退和前进变化可能会在一些信号中产生串音状人为现象。因此,本发明的优选实施方式可共同优化停止标准、应用于读取长度计算中的函数、平滑和均衡控制665、和后退和前进变化的数目,即重复计数668,并且如果被指向待取代帧的指针599激活,那么也包括在每次新的向后变化启动前的向前变化的采样数目。所以,还可以有利地控制平滑和均衡操作,以略微改变信号的音调轮廓。此外,共同优化可考虑相位滤波器650的操作,并对音调轮廓进行略微改变,以产生索引模式,其与上面提到的其它参数一起最小化由该相位滤波器引入的失真。基于对本发明优选实施方式的说明,本领域技术人员理解将各种通常的优化工具应用于这个任务,这些工具包括迭代优化、马尔可夫(Markov)决策过程、维特比(Viterbi)方法及其它。不脱离本发明的范围,任一所述工具都可应用于这个任务。
图8通过流程图示出迭代过程的例子,该过程完成对这些参数的简单而有效的优化。图8中,参考标记指示如下:
820:启动对于平滑和均衡的控制665
821:获得新的平滑信号656
822:启动停止标准
823:启动允许的重复次数
824:识别均匀分布在由指针599所指示的可利用帧上的后退和前进变化序列的索引模式,或者如果指向可利用帧的末端,后退变化直接跟随前进变化
825:已产生用于隐藏帧598数目的足够数量采样?
826:是否达到重复的最大数?
827:允许增加的重复数
828:是否达到停止标准的最宽松的阈值?
829:放宽停止标准的阈值
830:改变控制以增加平滑和均衡的效果
要注意的是,在前面的变化中或者时间上后退和前进的变化中还没有合成足够信号的情况下,一个在时间上后退和前进的变化以及其后的在时间上后退和前进的变化可有利地是不一致的。作为例子,应当设计后退步骤序列、读取长度、和插值函数序列、还有在时间上后退和前进变化之后的终点位置指针,以便对否则由相似索引模式重复产生的周期性人为现象进行最小化。以16kHz的有声语音剩余域采样为例,一个产生大约假定320个采样的在时间上的后退和前进的变化,与早先的在时间上后退和前进的变化相比,能够优选地在信号中更早终止大约100个采样。
至此,所公开的实施例有效地减轻了现有技术方法中已知的人为的声音串音问题,同时,能够有效隐藏突发的延迟抖动尖峰和突然出现的重复的信息包丢失。然而,在不利网络条件中,例如在一些无线系统和无线特别(ad hoc)网络及尽力服务(best effort)网络和其它传输情况中所遇到的,甚至所公开的方法在某些情形中可能在隐藏帧中引入少量音调部分。因此,较小噪声混合操作630和功能衰减(graceful attenuation)滤波器640可有利地应用于本发明的某些实施方式中。通常的噪声混合和衰减技术对于本领域技术人员而言是众所周知的。这包括对由频率决定的噪声成分功率(power)的时间变化和由频率决定的衰减函数的时间变化的有利使用。在本发明的上下文中,具体到噪声混合和衰减使用的特征,是对用于自适应确定噪声混合和衰减操作参数的索引模式666、匹配质量测量667和/或重复计数668的明确使用。具体地,索引模式对未改变的信号采样放置于隐藏帧中的位置和隐藏帧中何处的采样是插值操作的结果做出标引。而且,后退步骤相对于读取长度的比率与匹配质量测量相结合,表示从插值操作中得到的感知质量。因此,很少或没有噪声可被有利地混入原始采样,更多噪声可以被有利地混入由插值过程的产生的采样中,并且被混入到这些采样中的噪声数量可有利地是匹配质量测量的函数,有利地以频率微分(differentiated)方式。此外,读取长度相对于后退步骤的值也表示可能发生的周期数,噪声混合可有利地包括在确定要混入隐藏信号中的噪声数量中的这种测量。将同样的原理应用于衰减;有利地使用功能衰减,但是较少衰减可被引入表示原始信号采样的采样,而较多衰减可以被引入从插值运算中得到的采样。此外,这些采样中的衰减量可有利地是匹配质量指示的函数,且有利地以频率微分方式。再者,读取长度相对于后退步骤的值表示可能出现的周期数;在衰减设计中,衰减操作可有利地包括这种测量。
如在本发明的背景技术中所提到的,本发明实施方式的子集的一个重要目标是获得预置长度等于规则信号帧长度的隐藏帧。当想从系统设想得到这时,达到这个目的的装置可有利地是相位滤波器650。这个块的在计算上简单、近似但经常充分的操作是为了完成采样之间的平滑叠加,该采样超过该预定帧的长度,该预定帧长度是隐藏帧数目的多倍,具有来自隐藏帧之后帧的采样的尾部子集。单独地看,根据现有技术这种方法是众所周知的,并在例如国际电信联盟建议ITU-T G711附录1中使用。在依据系统设想实施时,通过将后续帧与-1相乘,可以改善该简单叠加过程,无论何时这都增加叠加区域中的相关性。然而,也可有利地使用其它方法进一步减轻帧边界处不连续的影响,例如在有声信号帧之间的转变中。一种这样的方法是对隐藏帧进行重采样。作为一种独立的方法,这在现有技术中也是公知的。参见例如Valenzuela和Animalu,″A newvoice-packetreconstructiontechnique″,IEEE,1989。因此,本领域技术人员可以实施减轻帧边界处不连续的操作。然而,在此所公开的本发明的优选实施方式中,重采样可被有利地延续到紧随最后隐藏帧之后的帧中。从而,当由收听者解释时,使得时变的斜率以及由此而产生的频移不被觉察到,该频移是重采样技术的结果。此外,替代重采样,为减轻帧边界不连续的时变全通滤波器的使用在本发明中被公开。其实施方式之一通过如下滤波器方程给出
H_L(z,t)=(alpha_1(t)+alpha_2(t)*zΛ(-L))/(alpha_2(t)+alpha_1(t)*zΛ(-L))
该函数解释如下。假定需要在一个扫描间隔(sweep interval)上进行从L采样延迟到0采样延迟的扫描,该扫描间隔可包括所有或部分隐藏帧中的、在该隐藏帧之前的帧中的、和在该隐藏帧之后的帧中的所有或部分采样。然后,在扫描间隔的开始,将alpha_1(t)设为零,alpha_2(t)设为1.0,以执行一个L采样延迟。当在t上的扫描开始时,alpha_1(t)应逐渐增加至0.5,alpha_2(t)应逐渐减小至0.5。在扫描间隔的终点,alpha_1(t)等于alpha_2(t),那时滤波器H_L(z,t)引入零延迟。相反地,如果需要在扫描间隔上进行从0采样延迟到L采样延迟的扫描,该扫描间隔可包括所有或部分隐藏帧中的、在该隐藏帧之前的帧中的、和在该隐藏帧之后的帧中的所有或部分采样。然后,在扫描间隔的开始,将alpha_1(t)设为0.5,alpha_2(t)设为0.5,以执行0采样延迟。当在t上的扫描开始时,alpha_1(t)应逐渐减小至0,alpha_2(t)应逐渐增加至1.0。在扫描间隔的终点,alpha_1(t)等于0并且alpha_2(t)等于1.0,那时滤波器H_L(z,t)引入L采样延迟。
上面的滤波在计算上是简单的,但是它具有非线性相位响应。因感知的原因,这个非线性相位将其使用限制至相对小的L。有利地,对于采样率为16kHz的语音,L<10。对初始L较大值实现滤波的一种方法是启动几个较小L值的滤波器,所述较小L值的总和为期望的总L值,这几个滤波器可有利地在不同时刻启动,并在不同的时间间隔上扫描alpha范围。该滤波器可在其中应用的另一种增加L范围的方法将在随后公开。实现与上面在功能上相同的滤波结构是,将信号分为L多相位,并在每个这些多相位中执行下面的滤波
H_1(z,t)=(alpha_1(t)+alpha_2(t)*zΛ(-1))/(alpha_2(t)+alpha_1(t)*zΛ(-1))
依据本发明,通过使用增采样(up-sampling)来有利地实现多相位滤波。有利地实施这个的一种方法是在以系数K进行降采样(down-sampling)之前,以系数K对每个多相位进行增采样,并且在每个增采样多相位中执行K次滤波H_1(z,t),并对来自多相位的相位改变的信号进行重构。系数K可有利地选择为K=2。通过增采样过程,获得接近线性的相位响应。从而,改善了收听者的感知质量。
当隐藏帧被无损耗地插入接收帧序列中时,可应用上面描述的在多帧上的相位调整。它也可应用于当为了减小后续帧的播放延迟而将帧从信号序列中去除的情况。以及,其可应用于当丢失多个帧并且将零或多个隐藏帧插入到之前接收的帧和丢失后接收的帧之间时。在这些情形下,获得用于这个滤波器的输入信号以及得到延迟L的有利方法如下:
1)在时间上比不连续点早的帧上,继续或者启动这里或者任一其它所公开的隐藏方法。
2)在时间上比不连续点晚的帧上,通过隐藏方法将数量为L_test的采样插入帧开始处,该隐藏方法是这里或者任一其它所公开的一种隐藏方法,但是具有时间采样的逆向索引。
3)匹配测量,例如归一化相关性,应用于来自1)的隐藏帧和来自2)的包括前(heading)L_test个采样的帧之间。
4)将最大化匹配测量的L_test选择为L。
5)现在利用加权叠加步骤,将来自2)的隐藏帧和来自3)的帧加在一起。尽管如本领域的技术人员所知能够实施这个加权叠加方法,但是优选地,它能够根据本说明书中后面公开的内容进行优化。
6)以确定值L启动,将得到的帧用作上述相位拟合滤波(phase fitting filtering)的输入。如果L大于阈值,则在不同时刻和时间间隔启动和系数扫描几个滤波器,它们的L值求和到确定的值L。
有利地,在以8或16kHz采样的语音或剩余语音中,上面阈值可以在范围5至50内进行选择。更有利地,在有声语音或剩余有声语音中,通过对帧的第一音调周期的采样进行环形移位而获得隐藏采样L_test及其进入到随后帧中的继续。从而无需归一化、对整个音调周期进行相关的相关性测量可有利地被用作匹配测量,以找到优选环形移位L。
图9示出这种方法的一个实施方式。在这个图中,相位调整产生信号帧900和后续帧之间的平滑变换。这根据如下完成:依据信号帧900和较早的帧,生成隐藏信号910。这个隐藏信号可利用这里所公开的方法来生成,或者利用本领域公知的其它方法来生成。该隐藏信号与窗920相乘,并在925与另一窗930相加,窗930与按如下方式生成的信号相乘:根据后续采样950和可能的960,通过有效地应用例如这里所公开的隐藏方法或者使用本领域公知的其它方法生成隐藏信号940,并与后续采样950连接。优化隐藏940中的采样数,以使得对隐藏910和连接940以及后续采样950的连接之间进行最大化匹配。
有利地,归一化相关性可用作对这种匹配的测量。而且,为了减少计算上的复杂度,该匹配可对于有声语音或者剩余有声语音而言限于包含一个音调周期。在这种情况下,隐藏采样940可作为一个音调周期的环形移位的第一部分而获得,并且,此时无需对一个音调周期上的相关性测量进行归一化。因此,避免了对归一化系数的估算。就先前在优选实施方式的详细说明中所述的索引和插值操作来说,窗可再次有利地为匹配质量指示器的函数和/或频率的函数,并有利地以渐减的延迟线实现。滤波器970的操作如下。由叠加过程产生的第一L个采样直接传递到其输出,并且该第一L采样用于设置滤波器的初始状态。此后,对滤波器系数进行如上所述的初始化,并且当滤波器从采样L+1开始向前滤波时,这些系数被逐渐调整,以逐渐去除L延迟采样,如上面所公开的那样。
此外,在上述过程中,根据最大化匹配标准而对窗的权重进行优化的方法以及该窗函数的统一化(generalization),如上所述,应用于由频率决定的权重和以渐减的延迟线或者其它参数滤波器的形式的匹配滤波器。在有益的实施方式中,通过一系列三个叠加序列获得由频率决定的滤波器权重的时变,三个叠加序列中,第一个消弱(fade down)来自先前帧的隐藏帧,第二个以滤波器增强(fade up)这些具有滤波形式的帧,以匹配来自在逆向索引时间中获得的随后帧的隐藏帧,然后对此再次消弱,第三个增强时间上在后的帧。在另外一组有益实施方式中,通过一系列四个叠加序列获得由频率决定的滤波器权重的时变,第一个消弱来自先前帧的隐藏帧,第二个以滤波器增强这些具有滤波形式的帧,以匹配来自在逆向索引时间中获得的随后帧的隐藏帧,然后对此再次消弱,第三个增强时间上在后的滤波形式的帧,以进一步改善这种匹配,此后再次消弱,最后第四个窗增强时间上在后的帧。另外,加权叠加方法另外的有益实施方式在本说明书的后面公开。
关于实施例中的平滑和均衡操作610,其中剩余域采样被用作表示该语音信号的部分信息,利用音调自适应滤波,例如梳状滤波器或者周期陷波滤波器,能够将平滑和均衡有利地应用在这个剩余信号上。此外,也可有利地应用具有长期相关滤波器加噪声的维纳或卡尔曼(Wiener或Kalman)滤波作为剩余未滤波信号的模型。在应用维纳或卡尔曼滤波器的这种方式中,应用这个模型中的噪声变化来调整平滑和均衡量。由于传统上在维纳或卡尔曼滤波理论中,这个部分干扰噪声成分的存在进行建模,因此,这在某种程度上是违反直觉的使用。在应用于本创新中时,目的是设置平滑和均衡的水平。在本发明的上下文中,作为音调自适应梳状滤波或者陷波滤波以及维纳或者卡尔曼类型滤波的可选形式,有利地应用第三种方法对剩余信号进行平滑和均衡。通过这第三种方法,如有利地应用于例如无声语音中的采样幅值,或者是如有利地应用于例如有声语音中的采样的连续矢量,都愈加相似。在下面分别对用于有声语音矢量和无声语音采样的完成此目的的可能过程进行概述。
对于有声语音来说,以矢量收集语音或者剩余语音的连续采样,在等于一个音调周期的每个矢量中具有许多采样。为了说明的方便,我们在这里将这个矢量表示为v(k)。现在,该方法将获得剩余矢量r(k)作为v(k)分量,剩余矢量r(k)不能通过某种方法在周围矢量v(k-L1)、v(k-L1+1)、...、v(k-1)和v(k+1)、v(k+2)、....、v(k+L2)中找到。为了说明的方便,在周围矢量中发现的分量表示为a(k)。随后以某种线性或非线性方式对剩余矢量r(k)进行处理,以降低其可听度,同时保留得到的重构矢量的自然属性,所得到的重构矢量是通过将分量a(k)再次插入已处理的r(k)形式中而获得的。
这样获得有声语音或者有声剩余语音的经平滑和均衡的形式。下面给出上面所述的原理的一个简单的实施方式,其对a(k)的定义为了方便,利用了矩阵矢量符号,并且为了示例的简单性,利用了线性组合和最小平方的概念。这仅仅作为用于上述平滑和均衡的一般原理的单一简单实施方式中的一个例子。
为了这个例子,将矩阵M(k)定义为
M(k)=[v(k-L1)v(k-L1+1)....v(k-1)v(k+1)v(k+2)....v(k+L2)]
据此,可将a(k)计算为例如已知M(k)中的v(k)的最小平方估计
a(k)=M(k)inv(trans(M(k))M(k))v(k)
其中inv()表示矩阵求逆或伪求逆,trans()表示矩阵变换。现在,可以例如利用减法计算剩余矢量r(k)。
r(k)=v(k)-a(k)
处理r(k)的一个例子是,通过削去这个矢量中的峰值,例如为了限制采样的最大绝对值到等于最接近后退-前进隐藏过程中起始点的矢量r(k)的最大幅度的水平,或者限制到为在矢量中相同位置处采样幅度倍数的某系数,但在矢量中最接近于后退-前进隐藏过程中起始点。已处理的剩余矢量rm(k)随后与矢量a(k)结合,以重构v(k)的均衡形式,在这里为了方便由ve(k)表示。作为一个示例可以通过简单的加法来完成这种结合:
ve(k)=alpha*rm(k)+a(k)
这个例子中的参数alpha可被设定为1.0或可有利地被选择小于1.0,alpha的一个有益选择是0.8。
对于无声语音来说,可有益地利用另一种平滑和均衡方法。用于无声语音的平滑和均衡的一个示例计算对数域中剩余信号幅度的多项式拟合。作为例子,可在log10域使用二阶多项式。将多项式拟合从对数域转换回线性域之后,在对应后退-前进过程起始点的点处,有利地将拟合曲线归一化为1.0。随后,降低限制拟合曲线到例如0.5,其中在剩余信号的幅度能够利用拟合曲线进行分解后,以便于平滑地均衡无声剩余信号幅度的改变。
至于加权叠加过程,在本说明书的前面公开了其一些而不是所有的应用,即,索引和插值操作620和启动相位调整滤波970的输入信号的方法,该过程可由本领域的技术人员用已知方式实施。然而,在加权叠加过程的优选实施方式中,可有利地使用在下面公开的方法。
在响应于匹配质量指示器而改变的加权叠加过程的简单实施方式中,我们考虑第一窗口乘以第一子序列及第二窗口乘以第二子序列,以及这两个乘积进入叠加操作。现在,作为例子,我们让第一窗口为逐渐减小的窗口,例如单调递减函数,并且我们让第二窗口为逐渐增加的窗口,例如单调递增函数。其次,为了简化例子,我们让第二窗口用基本窗形状乘以标量乘数来确定参数。现在,我们定义:target为所述第一子序列;w_target为所述第一子序列中逐个采样与所述逐渐减小的窗口相乘;w_regressor为所述第二子序列中逐个采样与所述用于逐渐增加窗口的基本窗形状相乘;并且coef为所述标量乘数。现在可优化第二窗口的标量乘数分量,以便最小化target和叠加操作结果之间的误差平方和。为了方便而使用矢量矩阵符号,这个问题可以用公式表示为最小化目标和数量之间的平方和差
w_target+w_regressor*coef
在这里定义矢量T和H为
T=target-w_target
H=w_regressor
给出这种优化的解为
coef=inv(trans(H)*H)*trans(H)*T
其中inv()表示标量或矩阵求逆,trans()表示矩阵或矢量的转置,以及“*”是矩阵或矢量乘法。现在,如本发明在此所公开的主要部分一样,本方法可以扩展为优化窗口的实际形状。获得这个的一种方式如下。我们定义一个形式的集合,其所需窗口是这个集合中元素的线性组合。我门现在定义H,使得H的每个列是这个集合一个采样接着一个采样与所述的第二子序列相乘的形状,我们将coef定义为包含优化的窗函数中这些形状的未知权重的列向量。根据这些定义,上面以公式表示的这个问题及其解的等式现在用于解决更一般窗口的形状。自然地,在上文中,第一和第二窗口的作用可以互换,以便现在对第一窗口进行优化。
本发明的更先进的实施方式共同优化两种窗口形状。这通过定义基本窗口形状的第二集合来实现,可能与窗口形状的第一集合相同,并且有利选择作为对窗口形状的第一集合的每个窗口形状中的采样的逆时索引。现在将w_target定义为矩阵,其中每个列为来自窗口形状的所述第二集合的基本窗形状,一个采样接着一个采样与该第一子序列相乘,将coef定义为列向量,该列向量包含用于该第一窗口的第一权重和用于第二窗口的第二权重。然后,更一般的问题可用目标和数量间的平方和差的最小化来表示
[w_target w_regressor]*coef
其中方括号[]用于根据子矩阵或向量构成矩阵。现在,这里定义矢量T和H为
T=target
H=[w_target w_regressor]
给出这种优化的解为
coef=inv(trans(H)*H)*trans(H)*T
另外,本发明更高级的实施方式不仅优化瞬时窗口形状,还优化具有优化的由频率决定的权重的窗口。虽然本发明的一个实施方式应用渐减的延迟线的形式,但整个发明并不限于这种形式。实现这种普遍化的一种途径是,在上面w_target和w_regressor的定义中用多个列替换各列,该多个列中的每个列一个采样接着一个采样地和对应于它们替换的列的基本窗形状相乘,但是,其中这个基本窗形状现在是一个采样接着一个采样地与相应的子序列相乘,该子序列在对应渐减的延迟线中的特定位置延迟。
有利地,不脱离这里所公开的本发明,这些方法的系数优化考虑系数的加权、约束或顺序计算。这种加权可有利地包括向对应低绝对延迟值的系数加更多的权重。这种顺序计算可有利地首先计算低绝对延迟值的系数,从而仅使用那些系数来最小化误差平方和,然后顺序地重复这个过程,以增加延迟值,但是,在这个过程中仅在来自前面步骤的剩余误差上重复这个过程。
一般地,本发明的实施方式将几个子序列作为优化的目标。总的来说,该优化最小化一个失真函数,该失真函数是这些目标子序列和来自加权叠加系统的输出的函数。这种优化不脱离本发明,将各种限制应用在基本形状和延迟以及它们在整个叠加中的权重的选择上。根据形状的精确选择,叠加的影响随时间逐渐有利地从叠加区域后的子序列中减弱。
图10所示的是公开的叠加方法的一个实施方式。由于本发明并不限于该图中的精确结构,所以该图仅仅用于说明本发明的一个实施方式。图10中,一个子序列1000输入与另一个子序列1010进行优化叠加的时间和频率形状。每个这些子序列进入一个分离的延迟线,在图中,其中z表示提前一个采样的时间,以及z-1表示延迟一个采样的时间,并且其中选择的延迟1、-1和0纯粹是为了说明的目的:其它、更多的或更少的延迟可有利地与本发明结合使用。现在,将每个子序列的每个延迟形式与多个基本窗口形状相乘,并且将这些的每个结果与要查找的系数连同优化过程中的其它系数一起相乘。与这些系数相乘后产生的子序列相加以产生来自时间和频率形状优化叠加的输出1020。在图10的例子中,系数优化1030将子序列1040和1050作为输入,并最小化一个失真函数,该失真函数为1040和1050以及输出1020的函数。
在权利要求书中,仅为了清楚的原因而包含附图的参考标记。附图中典型实施方式的参考标记不应以任何方式构成对权利要求范围的限制。

Claims (34)

1.一种用于连接采样的第一帧和随后的采样的第二帧的方法,所述方法包括应用适于最小化所述采样的第一和第二帧之间边界处不连续性的相位滤波器。
2.根据权利要求1的方法,其中,所述的相位滤波器应用于至少两个连续帧中的至少一部分采样。
3.根据权利要求2的方法,其中,所述至少两个连续帧是所述第一和第二随后帧。
4.根据前述任一权利要求的方法,其中,所述相位滤波器应用于至少所述第二帧中的至少一部分采样,和连接所述第二帧的至少一个帧中的至少一部分采样。
5.根据权利要求4的方法,其中,所述相位滤波器应用于至少所述第二帧中的至少一部分采样,和连接所述第二帧的至少两个帧中的至少一部分采样。
6.根据前述任一权利要求的方法,其中,所述相位滤波器应用于至少所述第一帧中的至少一部分采样,和在所述第一帧之前的至少一个帧中的至少一部分采样。
7.根据权利要求6的方法,其中,所述相位滤波器应用于至少所述第一帧中的至少一部分采样,和在所述第一帧之前的至少两个帧中的至少一部分采样。
8.根据前述任一权利要求的方法,其中,所述相位滤波器包括全通滤波器部分。
9.根据权利要求8的方法,其中,所述全通滤波器部分是参数全通滤波器部分。
10.根据前述任一权利要求的方法,其中,所述相位滤波器包括利用弧度相位值pi修改至少一个采样的子序列相位。
11.根据权利要求10的方法,其中,所述参数全通滤波器部分包括1到20个非零系数。
12.根据前述任一权利要求的方法,其中,所述相位滤波器是时变的。
13.根据权利要求12的方法,其中,所述相位滤波器是时变的,这样,在远离所述第一和第二帧之间边界的有限个采样处,所述相位滤波器的响应接近零相位。
14.根据权利要求13的方法,其中,所述相位滤波器在开始时间具有初始选择的相位响应。
15.根据权利要求14的方法,其中,远离所述边界的所述采样数目取决于所述相位滤波器的所述初始选择的相位响应。
16.根据权利要求13-15任一的方法,其中,所述相位滤波器的响应接近零相位的时间点在所述第一和第二帧至少其中之一内。
17.根据权利要求13-15任一的方法,其中,所述相位滤波器的响应接近零相位的时间点在至少一个所述第一帧之前的帧之内。
18.根据权利要求13-15任一的方法,其中,所述相位滤波器的响应接近零相位的时间点在至少一个所述第二帧之后的帧之内。
19.根据权利要求13-18任一的方法,其中,远离所述边界的所述采样的数目取决于所述第二帧或者所述第二帧之后的一个帧中的采样子序列的特征。
20.根据权利要求13-18任一的方法,其中,远离所述边界的所述采样的数目取决于所述第一帧或者所述第一帧之前的一个帧中的采样子序列的特征。
21.根据前述任一权利要求的方法,其中,所述相位滤波器包括多相位结构。
22.根据前述任一权利要求的方法,其中,所述相位滤波包括增采样。
23.根据前述任一权利要求的方法,其中,所述方法包括应用加权叠加过程。
24.根据权利要求23的方法,其中,所述加权叠加过程包括匹配滤波器。
25.根据前述任一权利要求的方法,其中,所述第一和第二帧至少其中之一包括通过隐藏方法产生的一个或者多个隐藏采样。
26.根据权利要求25的方法,其中,所述隐藏方法包括基于缓冲采样的两个连续子序列逆时序产生隐藏采样的两个连续子序列。
27.根据前述任一权利要求的方法,其中,所述相位滤波器基于由所述第二帧在时间上向后而产生的隐藏采样。
28.根据权利要求27的方法,其中,所述相位滤波器的初始状态基于所述的隐藏采样。
29.根据权利要求27或者28的方法,其中,选择包含在至少一个所述隐藏采样中的多个采样,以最大化匹配测量。
30.根据权利要求29的方法,其中,所述的匹配测量包括相关性,例如归一化相关性。
31.根据前述任一权利要求的方法,其中,所述第一和第二帧中的采样表示数字化的音频信号。
32.计算机可执行的程序代码,适用于执行根据前面任一权利要求的方法。
33.一种程序存储设备,包括用于微处理器例如通用微处理器的一系列指令,  用于执行权利要求1-31任一的方法。
34.一种用于接收数字化音频信号的装置,所述装置包括:
-存储器装置,用于保存表示接收的数字化音频信号的帧,和
-处理器装置,用于执行权利要求1-31的任一方法。
CN2006800035697A 2005-01-31 2006-01-31 通信系统中用于帧连接的方法 Expired - Fee Related CN101120398B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DKPA200500146 2005-01-31
DKPA200500146 2005-01-31
PCT/DK2006/000055 WO2006079350A1 (en) 2005-01-31 2006-01-31 Method for concatenating frames in communication system

Publications (2)

Publication Number Publication Date
CN101120398A true CN101120398A (zh) 2008-02-06
CN101120398B CN101120398B (zh) 2012-05-23

Family

ID=59285473

Family Applications (3)

Application Number Title Priority Date Filing Date
CN2006800035697A Expired - Fee Related CN101120398B (zh) 2005-01-31 2006-01-31 通信系统中用于帧连接的方法
CN2006800035714A Expired - Fee Related CN101120400B (zh) 2005-01-31 2006-01-31 在通信系统中生成隐藏帧的方法
CN200680003570XA Expired - Fee Related CN101120399B (zh) 2005-01-31 2006-01-31 加权叠加方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN2006800035714A Expired - Fee Related CN101120400B (zh) 2005-01-31 2006-01-31 在通信系统中生成隐藏帧的方法
CN200680003570XA Expired - Fee Related CN101120399B (zh) 2005-01-31 2006-01-31 加权叠加方法

Country Status (15)

Country Link
US (5) US9047860B2 (zh)
EP (3) EP1846921B1 (zh)
JP (4) JP2008529073A (zh)
KR (3) KR101203348B1 (zh)
CN (3) CN101120398B (zh)
AU (3) AU2006208528C1 (zh)
BR (3) BRPI0607246B1 (zh)
CA (3) CA2596337C (zh)
ES (1) ES2625952T3 (zh)
HK (1) HK1108760A1 (zh)
IL (3) IL184864A (zh)
NO (3) NO338798B1 (zh)
RU (3) RU2417457C2 (zh)
WO (3) WO2006079348A1 (zh)
ZA (3) ZA200706261B (zh)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
WO2007086380A1 (ja) * 2006-01-26 2007-08-02 Pioneer Corporation 高音質化装置及び方法、並びにコンピュータプログラム
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
EP2080194B1 (fr) * 2006-10-20 2011-12-07 France Telecom Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN101437009B (zh) 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
JP5336522B2 (ja) * 2008-03-10 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
RU2475868C2 (ru) * 2008-06-13 2013-02-20 Нокиа Корпорейшн Способ и устройство для маскирования ошибок кодированных аудиоданных
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
JP5664291B2 (ja) * 2011-02-01 2015-02-04 沖電気工業株式会社 音声品質観測装置、方法及びプログラム
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
RU2585999C2 (ru) * 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Генерирование шума в аудиокодеках
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
CN103503062B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US9008170B2 (en) 2011-05-10 2015-04-14 Qualcomm Incorporated Offset type and coefficients signaling method for sample adaptive offset
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US8935308B2 (en) * 2012-01-20 2015-01-13 Mitsubishi Electric Research Laboratories, Inc. Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102259112B1 (ko) 2012-11-15 2021-05-31 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
WO2014118139A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for coding mode switching compensation
AU2014211544B2 (en) * 2013-01-29 2017-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in perceptual transform audio coding
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
BR112015017222B1 (pt) 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
KR102238376B1 (ko) * 2013-02-05 2021-04-08 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
US9406308B1 (en) 2013-08-05 2016-08-02 Google Inc. Echo cancellation via frequency domain modulation
US10728298B2 (en) * 2013-09-12 2020-07-28 Qualcomm Incorporated Method for compressed sensing of streaming data and apparatus for performing the same
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
CN104751851B (zh) * 2013-12-30 2018-04-27 联芯科技有限公司 一种基于前后向联合估计的丢帧差错隐藏方法及系统
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
EP3090574B1 (en) * 2014-01-03 2019-06-26 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
US10157620B2 (en) 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
NO2780522T3 (zh) 2014-05-15 2018-06-09
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
WO2017153300A1 (en) 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
WO2017153299A2 (en) * 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
JP6652469B2 (ja) * 2016-09-07 2020-02-26 日本電信電話株式会社 復号装置、復号方法及びプログラム
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
EP3984026A1 (en) * 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment
EP3901950A1 (en) * 2020-04-21 2021-10-27 Dolby International AB Methods, apparatus and systems for low latency audio discontinuity fade out

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
EP0123616B1 (en) * 1983-04-20 1987-03-04 Nippon Telegraph And Telephone Corporation Interframe coding method and apparatus therefor
FR2606239A1 (fr) 1986-10-30 1988-05-06 Bull Sa Procede et dispositif de transmission de donnees numeriques
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
US5371853A (en) 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5995539A (en) 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
SE503547C2 (sv) 1993-06-11 1996-07-01 Ericsson Telefon Ab L M Anordning och förfarande för döljande av förlorade ramar
JP3520555B2 (ja) * 1994-03-29 2004-04-19 ヤマハ株式会社 音声符号化方法及び音声音源装置
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
TW294867B (zh) 1994-12-23 1997-01-01 Qualcomm Inc
US5699481A (en) 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
CA2206652A1 (en) 1996-06-04 1997-12-04 Claude Laflamme Baud-rate-independent asvd transmission built around g.729 speech-coding standard
JP3623056B2 (ja) 1996-09-10 2005-02-23 ソニー株式会社 動画像圧縮装置
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6766300B1 (en) 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JP3596841B2 (ja) 1997-01-24 2004-12-02 株式会社ルネサステクノロジ 受信データ伸長装置
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE69836785T2 (de) 1997-10-03 2007-04-26 Matsushita Electric Industrial Co., Ltd., Kadoma Audiosignalkompression, Sprachsignalkompression und Spracherkennung
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
SE513520C2 (sv) * 1998-05-14 2000-09-25 Ericsson Telefon Ab L M Förfarande och anordning för maskering av fördröjda paket
US6292454B1 (en) 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6418408B1 (en) 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
US6765931B1 (en) 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
KR100633720B1 (ko) 1999-04-19 2006-10-16 에이티 앤드 티 코포레이션 패킷 손실 또는 프레임 삭제 은폐를 수행하는 방법 및 장치
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP2001142477A (ja) * 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
SE517156C2 (sv) 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US6661842B1 (en) 2000-09-22 2003-12-09 General Dynamics Decision Systems, Inc. Methods and apparatus for error-resilient video coding
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
EP1217613A1 (fr) 2000-12-19 2002-06-26 Koninklijke Philips Electronics N.V. Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
KR100591350B1 (ko) 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
ATE323935T1 (de) 2001-04-09 2006-05-15 Koninkl Philips Electronics Nv Adpcm sprachkodiersystem mit phasenfaltungs und - entfaltungsfiltern
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2002095731A1 (fr) 2001-05-22 2002-11-28 Fujitsu Limited Processeur de signaux vocaux
FI20011392A (fi) * 2001-06-28 2002-12-29 Nokia Corp Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7711563B2 (en) 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6681842B2 (en) * 2001-12-03 2004-01-27 Agilent Technologies, Inc. Cooling apparatus
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7496086B2 (en) 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4089347B2 (ja) 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
BR0316963A (pt) * 2002-12-04 2005-10-25 Thomson Licensing Sa Codificação de fusões de vìdeo usando predição ponderada
KR20060011854A (ko) 2003-05-14 2006-02-03 오끼 덴끼 고오교 가부시끼가이샤 소거된 주기 신호 데이터를 은닉하는 장치 및 방법
JP4233931B2 (ja) 2003-06-17 2009-03-04 日本電信電話株式会社 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体
US7356748B2 (en) 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
JP2005315973A (ja) * 2004-04-27 2005-11-10 Seiko Epson Corp 半導体集積回路
TWI273562B (en) 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US9160382B2 (en) * 2013-10-08 2015-10-13 Blackberry Limited Phase noise mitigation for wireless communications

Also Published As

Publication number Publication date
JP2014038347A (ja) 2014-02-27
KR20080002757A (ko) 2008-01-04
ZA200706261B (en) 2009-09-30
CN101120398B (zh) 2012-05-23
CA2596341A1 (en) 2006-08-03
KR20080001708A (ko) 2008-01-03
WO2006079350A1 (en) 2006-08-03
JP5420175B2 (ja) 2014-02-19
IL184864A0 (en) 2007-12-03
NO20074349L (no) 2007-10-18
NO340871B1 (no) 2017-07-03
CN101120400B (zh) 2013-03-27
CA2596337A1 (en) 2006-08-03
KR101203244B1 (ko) 2012-11-20
EP1846921A1 (en) 2007-10-24
EP1849156B1 (en) 2012-08-01
AU2006208528B2 (en) 2011-08-18
CN101120400A (zh) 2008-02-06
HK1108760A1 (en) 2008-05-16
RU2007132728A (ru) 2009-03-10
US9047860B2 (en) 2015-06-02
RU2417457C2 (ru) 2011-04-27
AU2006208529A1 (en) 2006-08-03
US9270722B2 (en) 2016-02-23
KR101237546B1 (ko) 2013-02-26
NO20074418L (no) 2007-08-29
CN101120399A (zh) 2008-02-06
NO338702B1 (no) 2016-10-03
AU2006208530B2 (en) 2010-10-28
CN101120399B (zh) 2011-07-06
CA2596341C (en) 2013-12-03
EP1849156A1 (en) 2007-10-31
RU2007132729A (ru) 2009-03-10
CA2596338A1 (en) 2006-08-03
RU2007132735A (ru) 2009-03-10
EP1846921B1 (en) 2017-10-04
US20150207842A1 (en) 2015-07-23
BRPI0607251A2 (pt) 2017-06-13
KR101203348B1 (ko) 2012-11-20
NO338798B1 (no) 2016-10-24
US20100161086A1 (en) 2010-06-24
US8918196B2 (en) 2014-12-23
ZA200706534B (en) 2008-07-30
EP1846920A1 (en) 2007-10-24
WO2006079348A1 (en) 2006-08-03
RU2405217C2 (ru) 2010-11-27
BRPI0607246A2 (pt) 2010-03-23
US20080275580A1 (en) 2008-11-06
IL184864A (en) 2011-01-31
AU2006208529B2 (en) 2010-10-28
ZA200706307B (en) 2008-06-25
US20120158163A1 (en) 2012-06-21
BRPI0607247A2 (pt) 2010-03-23
ES2625952T3 (es) 2017-07-21
AU2006208528A1 (en) 2006-08-03
EP1846920B1 (en) 2017-04-19
IL184948A0 (en) 2007-12-03
BRPI0607247B1 (pt) 2019-10-29
CA2596337C (en) 2014-08-19
US8068926B2 (en) 2011-11-29
NO20074348L (no) 2007-10-21
RU2407071C2 (ru) 2010-12-20
IL184948A (en) 2012-07-31
WO2006079349A1 (en) 2006-08-03
IL184927A0 (en) 2007-12-03
JP2008529073A (ja) 2008-07-31
AU2006208530A1 (en) 2006-08-03
BRPI0607246B1 (pt) 2019-12-03
CA2596338C (en) 2014-05-13
US20080154584A1 (en) 2008-06-26
IL184927A (en) 2016-06-30
AU2006208528C1 (en) 2012-03-01
JP2008529072A (ja) 2008-07-31
JP2008529074A (ja) 2008-07-31
KR20080002756A (ko) 2008-01-04
JP5925742B2 (ja) 2016-05-25
JP5202960B2 (ja) 2013-06-05

Similar Documents

Publication Publication Date Title
CN101120398B (zh) 通信系统中用于帧连接的方法
KR960011132B1 (ko) 씨이엘피(celp) 보코더에서의 피치검색방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SKYPER LTD.

Free format text: FORMER OWNER: SONORIT APS

Effective date: 20100825

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: AALBORG, DENMARK TO: DUBLIN, IRELAND

TA01 Transfer of patent application right

Effective date of registration: 20100825

Address after: Dublin, Ireland

Applicant after: Skype Ltd.

Address before: Aalborg

Applicant before: Sonorit APS

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: SKYPE LTD.

Free format text: FORMER NAME: SKYPER LTD.

CP01 Change in the name or title of a patent holder

Address after: Dublin, Ireland

Patentee after: SKYPE Ltd.

Address before: Dublin, Ireland

Patentee before: Skype Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200511

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Ai Erlandubailin

Patentee before: SKYPE Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120523