CN102598119B - 基音估计 - Google Patents

基音估计 Download PDF

Info

Publication number
CN102598119B
CN102598119B CN201080021855.2A CN201080021855A CN102598119B CN 102598119 B CN102598119 B CN 102598119B CN 201080021855 A CN201080021855 A CN 201080021855A CN 102598119 B CN102598119 B CN 102598119B
Authority
CN
China
Prior art keywords
pitch period
candidate
signal
estimation
deteriorated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080021855.2A
Other languages
English (en)
Other versions
CN102598119A (zh
Inventor
萨默尔·加德尔
其他发明人请求不公开姓名
Original Assignee
Cambridge Silicon Radio Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cambridge Silicon Radio Ltd filed Critical Cambridge Silicon Radio Ltd
Publication of CN102598119A publication Critical patent/CN102598119A/zh
Application granted granted Critical
Publication of CN102598119B publication Critical patent/CN102598119B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种用于估计信号的基音周期的方法和装置。该方法包括:通过仅在潜在基音周期的第一范围上执行搜索来识别第一候选基音周期。该方法还包括:通过将第一候选基音周期除以整数来确定第二候选基音周期,其中,第二候选基音周期在潜在基音周期的第一范围之外。该方法还包括:选择候选基音周期中的较小者作为信号的基音周期的估计,该候选基音周期中的较小者使得以此候选基音周期分离的信号部分被良好相关。

Description

基音估计
技术领域
本发明涉及对信号的基音周期的估计,具体地,涉及用于这种估计的目标候选。本发明可具体应用于丢包隐藏方法中使用的对声音信号的基音周期的估计。
背景技术
无线和网络语音协议(VoIP)通信经受由不利连接条件所引起的数据包的频繁劣化。劣化的数据包会丢失或被破坏(包括不可接受的高出错率)。这种劣化的数据包导致在连接的接收端处在输出声音信号中存在喀哒声和爆裂声或者其他杂音。这劣化了接收端处感知到的语音质量,并且如果数据包劣化率足够高则会使得语音不可识别。
广义地说,采用两种方法来解决劣化数据包的问题。第一种方法为使用基于发射机的恢复技术。这种技术包括:重新发射劣化数据包;使多个数据包的内容交织,以分散数据包劣化的影响,并且向所发射的数据包添加纠错编码位使得可以在接收机处重构劣化数据包。为了限制这些技术所固有的增加的带宽需求和延迟,通常使用这些技术以使得如果数据包劣化率较低则可以恢复劣化数据包,但是如果数据包劣化率较高则不能恢复所有的劣化数据包。此外,一些发射机可能不具有实施基于发射机的恢复技术的能力。
所采用的解决劣化数据包问题的第二种方法为使用基于接收机的隐藏技术。除基于发射机的恢复技术之外,通常使用这种技术以隐藏在已经采用基于发射机的恢复技术之后留下的任何剩余劣化。此外,如果发射机不能够实施基于发射机的恢复技术,则可以单独地使用这些技术。使用低复杂性的基于接收机的隐藏技术,诸如用静音、噪声或先前数据包的重复填充劣化数据包,但是结果导致质量差的输出声音信号。诸如基于模型的恢复(其中,劣化数据包任一侧的语音被建模,以生成用于劣化数据包的语音)的基于再生的方案产生质量非常高的输出声音信号,但是复杂性大、耗能高并且实施昂贵。在实际情况中,优选使用基于内插的技术。这些技术通过在劣化数据包的一侧或两侧内插来自数据包的参数来生成替换数据包。这些技术实施起来相对简单,并且产生适当高质量的输出声音信号。
基于基音(pitch)的波形替换是优选的基于内插的数据包劣化恢复技术。当在短时间间隔上看时,声音信号看起来由重复的片段组成。该片段以被称为基音周期的时间周期而周期性地重复。在基于基音的波形替换中,对劣化数据包的一侧或两侧的声音数据包的基音周期进行估计。然后,将估计基音周期或多个估计基音周期的波形用作(或者重复并用作)劣化数据包的替换。该技术是有效的,因为劣化声音数据包的基音周期通常与劣化数据包任一侧上的声音数据包的基音周期基本上相同。
在基于基音的波形替换技术中,替换数据包和剩余信号之间的边界处的不连续经常被检测到为输出声音信号中的杂音。使用了重叠相加功能的边界任一侧上的信号的同时淡入淡出被用于减小这种不连续。还提出了图样匹配方法。
使用许多方法来估计声音信号的基音周期。对于这些方法中的典型一种,估计基音周期所涉及的计算占用了基于基音的波形替换技术中的算法复杂度的90%以上。尽管计算的复杂等级较低,但其对于诸如蓝牙的低功率平台来说很显著。为了正确地确定声音信号的基音周期,基音周期值的宽预定范围被分析,例如从2.5ms(对于具有高声音的人)到16ms(对于具有低声音的人)。对于大多数基音周期确定算法,使用的基音周期范围越宽,计算复杂度越高。
减小计算复杂度的一种方式是减少算法所计算的计算次数。ITU-T建议G.711附录1“一种利用G.711的用于包丢失隐藏的高质量低复杂度算法”(ITU-T Recommendation G.711 Appendix 1,“A high qualitylow-complexity algorithm for packet loss concealment with G.711”)通过使用基音周期估计的两阶段方法来减少计算次数。在第一阶段中,在基音周期的整个预定范围上执行粗略搜索,以确定基音周期的粗略估计。在第二阶段中,在包括基音周期的粗略估计基音周期的精确范围上执行精确搜索。因此,可以确定基音周期的更加精确的精确估计。因此,与在基音周期的整个预定范围上执行精确搜索相比,减少了算法所计算的计算次数。
美国专利申请第11/734824号提出了一种基音周期估计的两阶段方法,其进一步减少了算法所计算的计算次数。在该申请中,在基音周期的整个预定范围上,对抽选的信号执行粗略搜索。在识别了基音周期的初始最佳候选时,以初始最佳候选为中心计算基音周期的精确范围。分析初始最佳候选与精确范围的端点之间的中点处的基音周期。如果初始最佳候选是优选的,则这些中点基音周期中的一个被看作基音周期的精确最佳候选。可以执行进一步的平分搜索,以产生更多的基音周期的精确估计。因此,与在基音周期的整个精确范围上执行精细搜索的算法相比,减少了算法所计算的计算次数。
尽管这些方法减少了算法所计算的计算次数,但与基音周期的估计相关联的计算复杂度还存在问题,尤其是诸如蓝牙的低功率平台。
此外,基音周期确定算法通常涉及对以落后值分离的信号的部分进行比较。算法选择与最类似部分相关的落后值作为基音周期的估计。然而,以基音周期的倍数分离的信号部分也非常相似。基音周期检测算法的共同问题在于,基音周期的倍数被选择作为基音周期的估计。
Chu,Wai C.,语音编码算法:标准化编码器的建立和演化,Wiley出版社,2003(Chu,Wai C.Speech coding algorithms:foundation and evolutionof standardized coders(Wiley,2003))公开了一种一旦使用自相关算法确定了基音周期的估计就检查基音周期的倍数的方法。通过一个或多个整数来分割基音周期估计以形成检查点。如果检查点产生足够高的自相关值,则其被用作基音周期的精确估计。
期望使用诸如上面所述的倍数检查算法的倍数检查算法,以增加基音周期估计的精度。然而,这种检查算法增加了与基音周期的估计相关联的计算复杂度。
因此,需要一种估计信号的基音周期的改进方法,其通过减小估计为“真”基音周期的倍数的可能性来增加估计的精度,并且还减小与估计相关的计算复杂度。
发明内容
根据本公开的第一方面,提供了一种估计信号的基音周期的方法,包括:通过仅在潜在基音周期的第一范围内执行搜索来识别第一候选基音周期;通过将第一候选基音周期除以整数来确定第二候选基音周期,第二候选基音周期在潜在基音周期的第一范围之外;以及选择候选基音周期中的较小者作为信号的基音周期的估计,该候选基音周期中的较小者使得以该候选基音周期分离的信号的部分被良好相关。
适当地,潜在基音周期的第一范围的上界为最大潜在基音周期。
适当地,潜在基音周期的第一范围的下界为最大潜在基音周期的一半。
适当地,整数为使得第二候选基音周期大于最小潜在基音周期的整数。
适当地,该方法包括:使用基音周期检测算法来识别第一候选基音周期。
适当地,基音周期检测算法为归一化互相关算法。
适当地,信号被采样,第一候选基音周期为第一数量的采样,第二候选基音周期为第二数量的采样,其中,通过以下处理确定第二数量的采样:将第一数量的采样除以整数;以及选择与除法结果最接近的整数(wholenumber)作为第二数量的采样。
适当地,该方法还包括:使通过第一候选基音周期分离的信号的部分相关,以形成第一相关值,以及使通过第二候选基音周期分离的信号的部分相关,以形成第二相关值。
适当地,该方法包括:如果第二相关值大于第一相关值的预定比例,则选择第二候选基音周期作为信号的基音周期的估计。
适当地,该方法包括:如果第二相关值小于第一相关值的预定比例,则选择第一候选基音周期作为信号的基音周期的估计。
适当地,该方法包括:选择与较大相关值相关联的候选基音周期作为信号的基音周期的估计。
适当地,该方法还包括:在识别第一候选基音周期之前抽选信号。
根据本公开的第二方面,提供了一种生成替换部分以替换信号的劣化部分的方法,包括:以估计基音周期的倍数,来选择劣化部分之前或之后的信号的采样;以及从所选择的采样和在所选择的采样后面的采样形成替换部分;其中,根据本公开的第一方面来确定该估计基音周期。
适当地,倍数为1个或者大于1的整数。
适当地,该方法还包括:在用替换部分替换劣化部分时,向替换部分和与替换部分相邻的信号部分之间的边界应用重叠相加算法。
适当地,该方法还包括:通过以下处理来使信号的基音周期的估计精确化:对于包括估计基音周期和接近该估计基音周期的另一些候选基音周期的候选基音周期集合中的每一个候选基音周期,确定以该候选基音周期分离的信号的部分之间的几何距离;以及选择候选基音周期集合中的具有最小相关几何距离的候选基音周期作为信号的基音周期的精确估计。
根据本公开的第三方面,提供了一种生成替换部分以替换信号的劣化部分的方法,包括:以精确化的估计基音周期的倍数,来选择劣化部分之前或之后的信号的采样;以及从所选择的采样和所选择的采样之后的采样形成替换部分;其中,根据上述方法来确定该精确化的估计基音周期。
适当地,该方法包括:对于候选基音周期集合中的每一个候选基音周期,确定信号的第一部分和信号的第二部分之间的几何距离,其中,第一部分接近劣化部分并在劣化部分之前或之后,而第二部分与第一部分的分离距离为该候选基音周期。
适当地,该方法包括:对于候选基音周期集合中的每一个候选基音周期,通过确定信号的第一部分和信号的第二部分之间的第一几何距离来确定几何距离,其中,第一部分接近劣化部分并在劣化部分之前,而第二部分以该候选基音周期与第一部分分离;确定信号的第三部分和信号的第四部分之间的第二几何距离,其中,第三部分接近劣化部分并在劣化部分之后,而第四部分以该候选基音周期与第三部分分离;以及选择第一几何距离和第二几何距离的平均作为几何距离。
适当地,该方法包括:使用基音周期检测算法来识别第一候选基音周期,该算法比较信号的多个部分,每一个部分都由N个采样组成;以及对于候选基音周期集合中的每一个候选基音周期,确定每一个都由L个采样组成的信号部分之间的几何距离,其中,L小于N。
适当地,该方法还包括:在用替换部分替换劣化部分时,向替换部分和与替换部分相邻的信号的部分之间的边界应用重叠相加算法。
根据本公开的第四方面,提供了一种基音周期估计装置,包括:候选基音周期识别模块,被配置为通过仅在潜在基音周期的第一范围上执行搜索来识别信号的第一候选基音周期;处理模块,被配置为通过将第一候选基音周期除以整数来确定信号的第二候选基音周期,第二候选基音周期在潜在基音周期的第一范围之外;以及选择模块,被配置为选择候选基音周期中的较小者作为信号的基音周期的估计,该候选基音周期中的较小者使得以该候选基音周期分离的信号部分被良好相关。
附图说明
现在,将参照附图通过实例的方式来描述本公开。在附图中:
图1是根据本公开的信号处理装置的示意图;
图2是示出通过图1的装置处理信号的方法的流程图;
图3是用于估计信号的基音周期的方法的流程图;
图4是示出互相关方法的典型声音信号的示图;
图5是包括劣化部分的典型声音信号的示图;以及
图6是适合于包括图1的信号处理装置的收发机的示意图。
具体实施方式
图1示出了信号处理装置的一般配置的示意图。在图1中,在模块处终止的实线箭头表示控制信号。其他箭头表示模块之间信号的传播方向。
在线101上,数据流被输入至信号处理装置100。线101连接至劣化检测器102的输入端。劣化检测器102的第一控制输出端连接至开关104的输入端。线101连接至开关104的另一个输入端。开关104的输出端连接至重叠相加模块105的输入端。在线106上,重叠相加模块105的第一输出端连接至信号处理装置100的输出端。信号处理装置还包括劣化隐藏模块107。在线108上,劣化检测器102的第二控制输出端连接至劣化隐藏模块107的控制输入端。劣化隐藏模块107包括数据缓冲器109、基音周期估计模块110和替换模块111。重叠相加模块105的第二输出端连接至数据缓冲器109的输入端。数据缓冲器109的第一输出端连接至基音周期估计模块110的输入端。数据缓冲器109的第二输出端连接至替换模块111的第一输入端。基音周期估计模块110的输出端连接至替换模块111的第二输入端。替换模块111的输出端连接至开关104的第三输入端。
在操作中,通过图1的信号处理装置以多个离散的时间上的部分来处理信号。以下描述是指对数据的数据包的处理,然而,描述等效地应用于对数据的帧或者数据的任何其他适当部分的处理。数据的这些部分的长度通常为几毫秒的级别。
将参照图2的流程图描述对输入至装置100的数据流进行处理的方法。在图2的步骤201中,在线101上,声音信号的每一个数据包被顺序输入至信号处理装置100。在步骤202中,每个数据包被输入至劣化检测器102。对于每一个数据包,劣化检测器102确定数据包是否被劣化。在线108上,劣化检测器102向劣化隐藏模块107发送表明数据包是否被劣化的控制信号。如果确定数据包被劣化,则信号处理装置丢弃该数据包,并使用劣化隐藏模块107生成替换数据包。
本文所描述的方法和装置适合于蓝牙设备中的实施。蓝牙数据包包括在有效载荷部分之前的报头部分。对数据包的报头部分执行报头差错校验(HEC)。HEC为8位循环冗余校验(CRC)。如果HEC失败,则劣化检测器102确定数据包被劣化。
如果数据包没有劣化,则劣化检测器102向开关104输出控制信号,其控制开关104将数据包传送到重叠相加模块105的输入端。
在步骤203中,如果数据包为劣化数据包之后的第一个好数据包,则重叠相加模块105在级联点(用于劣化数据包的替换数据包的结尾部分和好数据包的开始部分)处应用重叠相加算法,以减少替换数据包和好数据包之间边界处的任何不连续性。如果数据包不是劣化数据包之后的第一个好数据包,则该数据包没有改变地从重叠相加模块105输出。
在步骤207中,从重叠相加模块105输出的数据包被存储在数据缓冲器109中。在线106上,从重叠相加模块105输出的数据包还从信号处理装置100输出。
如果数据包被劣化,则劣化检测器102在线108上向劣化隐藏模块107输出控制信号,控制劣化隐藏模块107生成替换数据包。如果数据包被劣化,则劣化检测器102不控制开关104来将劣化数据包连接至重叠相加模块105。在这种情况下,劣化检测器102控制开关104,以在线106上将劣化隐藏模块107的输出连接至信号处理装置100的输出。
线108上被发送至劣化隐藏模块107的控制信号控制劣化隐藏模块107来执行以下操作。数据缓冲器109被使能以向基音周期估计模块110输出一个数据包或多个数据包。由数据缓冲器109输出的一个数据包或多个数据包接近劣化数据包。适当地,由数据缓冲器输出的一个数据包或多个数据包是最近被解码或者最近由数据包隐藏操作生成的那些数据包。可选地,数据缓冲器可以在数据包被解码之前存储并输出来自数据流的数据包。由数据缓冲器输出的一个数据包或多个数据包可以在数据流中的劣化数据包之前或者在数据流中的劣化数据包之后。
在步骤204中,基音周期估计模块110估计其接收的一个数据包或多个数据包的基音周期。该估计被用作劣化数据包的基音周期的估计。
基音周期估计模块110向替换模块111输出估计基音周期。在步骤205中,替换模块111根据估计基音周期选择来自数据缓冲器109的数据。所选择的数据被用作劣化数据包的替换。
适当地,替换模块111执行基于基音的波形替换。适当地,这涉及在由基音周期估计模块111估计的基音周期中生成波形。波形被重复作为用于劣化数据包的替换。如果劣化数据包短于估计基音周期,则所生成的波形是估计基音周期长度的一部分。适当地,生成的波形稍微长于劣化数据包,使其在劣化数据包的任一侧上与数据包重叠。重叠相加模块105有利地使用重叠来将劣化数据包的生成波形在任一侧上渐渐融入所接收的信号中,从而实现平滑的级联。
替换模块111使用顺序存储在数据缓冲器109中的数据生成波形。该数据包括好(未劣化)数据和由劣化隐藏模块107生成的替换数据。有利地,数据缓冲器109具有为最大基音周期(在采样中测量)的两倍的较长长度(存储更多的采样)。替换模块从数据缓冲器中最近接收的采样开始顺序地向后计数,计数量为等于估计基音周期的采样数。替换模块向后计数所到达的一个采样被看作是所生成波形的第一个采样。替换模块111得到达到劣化数据包中的采样数的顺序采样。所得到的所选采样的集合被看作是生成的波形。例如,如果数据缓冲器具有200个采样的长度、估计基音周期被确定为具有50个采样的长度且劣化数据包具有30个采样的长度,则替换模块111生成包含数据缓冲器的采样151到180的波形。
如果劣化数据包长于估计基音周期,则选择等于估计基音周期长度的采样的集合(在上面的实例中,可以为采样151至200)。该采样的集合被重复并被用作生成的波形来替换劣化数据包。可选地,从数据缓冲器109中选择等于劣化数据包长度的采样的集合。这通过在数据缓冲器中从最近接收的采样开始向后顺序计数(计数量为等于估计基音周期的倍数的采样数)来实现。选择该倍数,使得向后计数的采样数长于或等于(不短于)劣化数据包的长度。例如,倍数可以为1。典型地,倍数可以为估计基音周期的2或3倍。替换模块向后计数所到达的一个采样被看作所生成波形的第一个采样。替换模块111得到达到劣化数据包中的采样数的顺序采样。所得到的所选采样的集合被看作所生成的波形。例如,如果数据缓冲器具有200个采样的长度、估计基音周期被确定为具有50个采样的长度且劣化数据包具有60个采样的长度,则替换模块111生成包含数据缓冲器的采样101到160的波形。
对采样集合进行太多次重复可能导致在输出信号中存在显而易见的杂音。例如,输出信号可能听起来是人造的或机器的。比较起来,使用等于信号的劣化部分的长度的采样集合引入了一些自然变化到输出信号中。然而,如果劣化部分较长,则使用等于信号的劣化部分长度的采样集合会在与剩余信号的边界处导致更大的不连续性。这是因为,仅当在较短时间间隔上看时,声音信号才可以认为具有恒定的基音周期。在较长时间间隔上,基音周期发生变化。因此,如果缓冲数据的长片段被用于替换劣化部分,则会在与剩余信号的边界处存在显著的失配。重复采样集合的第一方法和从数据缓冲器中选择较长采样集合的第二方法之间的优选选择依赖于所讨论的具体信号的形式。因此,可以使用混合方法,其动态地选择这两种方法中的最佳方法。例如,可以选择在与剩余信号的边界处具有更低级联损失的最佳方法。如果劣化部分非常长,其可以认为是较短劣化部分的序列,每一个较短的劣化部分如本文所描述的进行评定。
可选地,替换模块111可以使用利用估计基音周期的其他已知的基于基音的波形替换技术。
替换模块111向开关104输出所生成的波形作为替换数据包。在劣化检测器102的控制下,开关104被使能以向重叠相加模块105输出替换数据包。在步骤206中,重叠相加模块105向级联点处应用重叠相加算法,以使替换数据包与其任一侧上的数据包之间的边界处的不连续性最小化。
在步骤207中,替换数据包从重叠相加模块105中输出并存储在数据缓冲器109中。在步骤208中,从重叠相加模块105输出的替换数据包还在线106上从信号处理装置100输出。
在步骤204中,使用两阶段方法估计基音周期。在步骤205中,该方法可包括可选的第三阶段,以使基音周期估计精确化。
现在,通过这三个阶段的详细实例的实施来描述该三个阶段的概述。
在第一阶段中,基音周期检测算法用于在潜在基音周期的窄范围上进行搜索。潜在基音周期是通常在人声音信号中获得的基音周期。选择潜在基音周期的窄范围,使其覆盖通常可从人语音获得的基音周期范围的高端。典型地,人语音范围的基音周期在2.5ms(对于具有高声音的人)至16ms(对于具有低声音的人)之间。这对应于400Hz至62.5Hz的基音频率范围。因此,针对第一阶段选择的潜在基音周期的窄范围的适当上界为16ms。潜在基音周期的窄范围的下界小于或等于上界的一半。这使得在该第一范围上搜索的潜在基音周期的窄范围中存在第二阶段(参见下一段落)中确定的候选基音周期的至少一个倍数。适当地,下界为上界的一半。在该实例中,适当的下界由此为8ms。基音周期检测算法从搜索的潜在基音周期的窄范围中选择信号的基音周期的最可能的候选。该候选基音周期在下文被称为第一候选基音周期。
在第二阶段中,使用在第一阶段中识别的第一候选基音周期确定另一些候选基音周期。由于在第一阶段中仅搜索潜在基音周期的总范围(2.5ms至16ms)的一部分(在以上实例中为8ms至16ms),所以在第一阶段中识别的候选基音周期可能为信号的“真”基音周期的倍数。第二阶段从覆盖期望用于人语音的基音周期范围的低端的潜在基音周期范围中确定另一些候选基音周期。针对第二阶段选择的潜在基音周期范围的适当下界由此为2.5ms。适当地,针对第二阶段选择的潜在基音周期的范围排除针对第一阶段选择的窄范围,但包括人语音的其他典型基音周期。因此,针对第二阶段选择的潜在基音周期范围的适当上界为针对第一阶段选择的窄范围的下界。在给出的实例中,针对第二阶段选择的潜在基音周期范围的适当上界由此为8ms。在第二阶段中确定的另一些候选基音周期为使得这些另一些候选基音周期的倍数给出了第一候选基音周期。使用基音周期检测算法分析在第一阶段中识别的第一候选基音周期以及在第二阶段中识别的另一些候选基音周期中的一个或多个。由基音周期检测算法识别的可能为信号的基音周期的最小候选基音周期被选择作为信号的基音周期的估计。
在步骤205中,基音周期估计方法可以包括可选的第三阶段。第三阶段使基音周期估计精确化,以减小在使用基音周期估计而选择的替换数据包与替换数据包任一侧上的信号的数据包之间的级联边界处的失真。选择包含第二阶段中所估计的基音周期的潜在基音周期的窄范围。使用距离度量执行潜在基音周期的该窄范围上的精细搜索,以确定精确的基音周期估计。该距离度量使紧接在劣化部分之前(或之后)接收的信号的第一小部分与以特定时间间隔与第一小部分分离的信号部分相匹配。选择这些时间间隔作为潜在基音周期的窄范围(包含第二阶段中的基音周期估计)中的候选基音周期。与最佳匹配部分(即,使距离度量最小的部分)相关联的候选基音周期被选择作为信号的基音周期的精确估计。
现在,将参照图3的流程图描述实施这三个阶段的示例性方法。
第一阶段
在图3的步骤301中,从潜在基音周期的第一范围识别第一候选基音周期。基音周期检测算法被用于在该范围内进行搜索。
存在许多本领域通用的可用于该方法的第一阶段的已知基音周期检测算法。这些算法使用的度量实例为归一化交叉相关(NCC)、平方差的和(SSD)和平均幅值差分函数(AMDF)。利用这些度量的算法提供了类似的基音周期检测性能。一种算法相对于另一种的选择可以依赖于算法的效率,这又可以依赖于所使用的硬件平台。
为了示出本文所描述的方法,可以使用归一化正交相关(NCC)度量。这种方法可以以数学方式表示为:
NCC t ( τ ) = Σ n = - N / 2 ( N / 2 ) - 1 x [ t + n ] x [ t + n - τ ] Σ n = - N / 2 ( N / 2 ) - 1 x 2 [ t + n ] Σ n = - N / 2 ( N / 2 ) - 1 x 2 [ t + n - τ ] (等式1)
其中,x为声音信号的振幅,t为时间。该等式表示以时间τ分离的声音信号的两个片段之间的相关性。两个片段中的每一个都被分为N个采样。第一片段的第n个采样与另一片段的相应的第n个采样相关。在范围τmin′≤τ<τmax上递增的时间间隔内重复该等式。
该等式基本上采用信号的第一片段(在图4中标为A),并使其与信号的多个另一些片段(为了方便仅示出了三个,在图4中标为B、C和D)的每一个相关。这些另一些片段的每一个都沿着时间轴以落后值(片段B的τmin′、片段C的τC)落后于第一片段。在该方法的第一阶段中,在覆盖预期用于人语音的基音周期的高端的落后值的窄范围上执行NCC计算。图4中示出的范围从τmin′到τmax。适当地,τmin′为8ms,而τmax为16ms。等式1中分数底部上的项为归一化因子。使NCC函数最大的落后值τ0表示片段A和搜索范围(τmin′到τmax)中最大相关的片段(图4中的片段D)之间的时间间隔。该落后值τ0被用作来自搜索的潜在基音周期的窄范围的用于信号的基音周期的最可能的候选。这是第一候选基音周期。
第一候选基音周期τ0可以以数字方式表示为:
τ 0 = arg max τ NCC t ( τ ) (等式2)
声音信号通常以8kHz的速率进行采样。搜索8ms至16ms的落后值范围对应于搜索125Hz至62.5Hz的基音频率范围。对应的采样范围为64采样至128采样。可以根据采样率和相应频率来计算采样数:
采样数=采样率/频率    (等式3)
可以结合NCC度量使用抽选(decimation)。抽选是以规则的间隔去除或减少采样的处理。可以对输入信号和/或落后值τ应用抽选。例如,参照等式1和图4,对输入信号应用2∶1抽选意味着片段A的每隔一个采样将与片段B的相应的每隔一个采样相关,等等。类似地,对落后值τ应用2∶1抽选意味着对每隔一个可能的τ值(例如,64采样、66采样、68采样等)执行等式1的计算。抽选输入信号或落后值允许在些许性能劣化的代价下减少处理复杂性(对于每个2∶1抽选为50%)。
等式1的分子可以使用快速乘法累积(MAC)操作有效地进行计算。为了避免分母中的计算量较大的平方根函数的计算,可以使用以下近似:
NCC t ( τ ) = Σ n = - N / 2 ( N / 2 ) - 1 x [ t + n ] x [ t + n - τ ] Σ n = - N / 2 ( N / 2 ) - 1 x 2 [ t + n - τ ] (等式4)
可以有效地以递归方式进行计算。
第二阶段
在图3的步骤302中,从第一阶段确定的第一候选基音周期除以一个或多个整数,以确定一个或多个另一些候选基音周期。
如上所述,从排除了方法的第一阶段中搜索的窄范围的期望用于人语音的基音周期的范围适当地识别另一些候选基音周期。在第二阶段中搜索的范围在图4中示为τmin≤τ<τmin′。在第一阶段所使用的实例中,这对应于2.5ms≤τ<8ms。
可以如下以数字方式计算另一些基音周期候选τi
(等式5)
其中,i为满足以下表达式的整数:
(等式6)
是将实数映射到下一个最小整数的底算子(floor operator)。从而,将实数x映射到最接近的整数。
等式5通过将第一候选基音周期τ0除以整数i、使用底算子使该除法的结果在最接近的整数的附近、并且选择所得到的最大附近数和期望用于人语音的最小基音周期τmin来确定另一些候选基音周期中的每一个。对于由等式6指定的范围中的整数,计算等式5。等式6表示使用如下范围中的所有整数,该范围以1开始,且在期望用于人语音的最大基音周期τmax除以期望用于人语音的最小基音周期τmin所得到的结果的下一最小整数处结束。
作为实例,如果参照图4:
τ0=12ms,
τmin=2.5ms,且
τmax=16ms,
则,等式6给出:
(等式7)
并且等式5给出:
(等式8)
这在2.5ms至8ms的范围内产生三个另一些候选基音周期。它们是:
τ2=6ms,τ3=4ms,以及τ4=3ms
在图4中示出了这三个另一些候选基音周期。
以8kHz的采样率,在第一阶段中确定的第一候选基音周期对应于96个采样。在第二阶段中确定的另一些候选基音周期对应于以下数量的采样:
τ2=48个采样,τ3=32个采样,以及τ4=24个采样
在图3的步骤303中,选择第一和另一些候选基音周期中的最小候选基音周期(可能为信号的基音周期)作为信号的基音周期的估计。如同第一阶段,许多本领域通用的基音周期检测算法可用于实施该步骤,例如,归一化交叉相关、平方差的和和平均幅度差分函数。为了示出本文所描述的方法,将使用归一化交叉相关(NCC)度量。
确定最可能为信号的基音周期的基音周期的一种方式为对对应于每一个候选基音周期的落后值τ执行等式1的NCC计算。这里所指的候选基音周期为在方法的第一阶段中识别的第一候选基音周期以及在方法的第二阶段中确定的另一些候选基音周期。然后,选择具有最大NCC的落后值作为信号的基音周期的估计。
根据该方法选择的基音周期的估计τ0′可以表示为:
τ 0 ′ = arg max τ i NCC t ( τ i ) (等式9)
在上面所指的实例中,存在四个候选基音周期:
τ0=12ms,τ2=6ms,τ3=4ms,以及τ4=3ms
从图4可以看出,信号在所显示的时间间隔上高度重复。换句话说,信号具有低基音周期。在第一阶段中,当在范围τmin′≤τ<τmax上搜索时,发现片段D与片段A最高度相关,产生第一候选基音周期τ0。从图4中可以看出,片段D为沿着时间轴离开片段A的与片段A高度相关的第三片段。存在在时间上更接近片段A并且与片段A也高度相关的两个片段。这两个片段位于方法的第一阶段中所搜索的范围之外。第一候选基音周期τ0实际上为“真”基音周期的三倍。在针对四个候选基音周期τ0至τ4的每一个执行等式1的NCC度量时,发现τ2=6ms和τ4=3ms没有高度相关。候选基音周期τ3=4ms高度相关。如果使用等式9,则选择τ0和τ3中较大者作为信号的基音周期的估计。在这种情况下,τ3将被预期产生较高的相关值。这是因为,与长时间间隔相比,声音信号的基音周期为恒定的这种近似在短时间间隔上更加精确。因此,期望以一个基音周期分离的信号的部分将比以两个以上的基音周期分离的信号的部分更加高度相关。
然而,使用等式9来选择基音周期的估计有时候会选择作为“真”基音周期倍数的候选基音周期,而不是实际的“真”基音周期。如果以“真”基音周期的倍数分离的信号片段(被选择以执行等式1的NCC度量)比以“真”基音周期分离的信号片段更加高度相关,则会发生这种情况。
使用以下伪码来示出选择基音周期的估计的可选方法:
τ 0 ′ = τ 0 (等式10)
其中,α是具有0.9和1之间的典型值的常数。
该伪码首先针对第一候选基音周期τ0计算NCC度量。这里临时设置其(等式10中以NCCt0)表示)为信号的基音周期的估计τ0′。然后,伪码选择最小的候选基音周期用于码的下一步骤。使用满足等式6中的表达式的最大整数,从等式5中确定最小的候选基音周期。伪码针对最小的候选基音周期计算NCC度量。如果用于最小候选基音周期的NCC度量大于预定值乘以第一候选基音周期的NCC度量,则选择最小的候选基音周期作为信号的基音周期的估计τ0′。预定值在等式10中表示为α,且通常选择具有0.9和1之间的值。
选择α小于1克服了基音周期的倍数被不期望地选择作为信号的基音周期的估计的问题。
如果最小候选基音周期的NCC度量小于或等于预定值乘以第一候选基音周期的NCC度量,则最小的候选基音周期不被选择作为信号的基音周期的估计。代替地,计算下一最小候选基音周期的NCC度量,并且重复关于最小候选基音周期的上述方法。
使用顺序增加的候选基音周期重复该处理,直到找到产生大于α乘以第一候选基音周期的NCC度量的NCC度量的候选基音周期。然后,选择该候选基音周期作为信号的基音周期的估计τ0′。
如果没有找到产生大于α乘以第一候选基音周期的NCC度量的NCC度量的候选基音周期,则选择第一候选基音周期作为信号的基音周期的估计τ0′。
伪码避免了针对比最终选择作为信号的估计基音周期的候选基音周期大的候选基音周期计算NCC度量(除第一候选基音周期之外)。因此,其通常与参照等式9描述的可选方法相比包括较少的计算。
可选地,为了进一步降低方法所包括的计算复杂度,可以仅确定并分析一个另一候选基音周期。可以确定任何适当的另一候选基音周期。然而,优选对在等式5中使用i=2计算的另一候选基音周期τ2进行分析。这是因为,其是另一些候选基音周期中最可能产生高相关性的。分析另一候选基音周期τ2减小了“真”基音周期的倍数被选择作为信号的估计基音周期的可能性。然而,如果τ2被选择作为基音周期的估计,则在一些情况下,仍然可能τ2为“真”基音周期的倍数。
可选地,可以通过使用NCC度量在估计基音周期τ0′的附近周围执行精细搜索来扩展第二阶段。例如,可以针对估计基音周期任一侧上的k时间延迟计算NCC度量。然后,由使得NCC度量最大化的时间延迟给出基音周期的精确估计。
第三阶段
从使得NCC度量最大化的意义上来说,第二阶段中所计算的基音周期的估计τ0′为最佳的。然而,在插入到声音信号中时,已经根据估计基音周期生成的替换数据包可能仍然在与其任一侧上的数据包的边界处包含不连续性。由于声音信号尽管为准周期性但不是真正周期性的原因而发生这些不连续性。因此,基于声音信号为真正周期性的这种假设的波形替换技术(例如,基于信号的估计基音周期选择替换波形的技术)不能提供无缝地嵌合在劣化数据包所留下的间隙中的波形。
通常,边界任一侧上信号的同时淡入淡出被用于减小边界处的不连续性。这有时候被称为重叠相加(OLA)操作,并在图2的步骤206中执行。
在OLA操作中,劣化数据包之前的数据包的结尾部分乘以向下倾斜的斜坡。劣化数据包之后的数据包的开始部分乘以向上倾斜的斜坡。这通常使用三角窗来实现。还可以使用其他更加复杂的窗函数(诸如汉明窗或汉纳窗)。如果重叠长度为L且窗长度为M=2L,则通过以下等式给出OLA斜坡:
w ( n ) = 2 M · ( M 2 - | n - M - 1 2 | ) (等式11)
其中,0≤n≤M-1
重叠长度L确定在边界处执行多少同时淡入淡出。其通常短于数据包长度。例如,蓝牙中的公共数据包长度为30个采样(HV3/eV3数据包类型)。适当地,10个采样的重叠长度被用于在边界处执行同时淡入淡出。如果OLA长度固定,则可以预先存储窗函数参数。当适当的资源可用时,可以与估计基音周期和数据包长度成比例地动态地设置OLA长度。
尽管使用OLA操作,但不连续性经常留有问题,并且在输出声音信号中被感知到杂音。该方法的可选的第三阶段减小了用于OLA操作的两个片段之间的失配。这通过使用替换数据包和替换数据包的一侧或两侧上的数据包而使得基音周期估计精确化来实现,从而减小级联边界处的失真。
图5示出了包括劣化部分的声音信号。劣化部分被示为没有振幅的部分。劣化部分开始于时间t1且结束于时间t2。在OLA操作中使用紧接在劣化部分的前面的长度L的信号部分(从时间t1-L到时间t1)以及紧接在劣化部分的后面的长度L的信号部分(从时间t2到t2+L)。
在图3的步骤304中,选择包含方法的第二阶段中所确定的估计基音周期的精细基音周期搜索范围。精细基音周期搜索范围包括该估计基音周期以及接近该估计基音周期的另一些候选基音周期。
精细基音周期搜索范围可以表示为:
τ0′-Δ≤τj≤τ0′+Δ          (等式12)
第三阶段中所确定的用于精细基音周期估计的候选基音周期τj位于第二阶段中估计基音周期τ0′的±Δ内。
在图3的步骤305中,使得以候选基音周期分离的信号部分之间的距离度量最小化的该候选基音周期被选择作为信号的基音周期的精确估计。
在该方法的第三阶段中可以使用许多本领域通用的已知距离度量方法。实例包括欧几里得距离、马氏距离和相关系数。一个度量相对于另一个的选择可以依赖于度量的效率,这又可以依赖于所使用的硬件平台。
为了示出本文所描述的方法,将使用欧几里得距离。
欧几里得距离D1可以以数字方式表示为:
D 1 ( τ j ) = Σ n = 1 L ( x [ t 1 - n ] - x [ t 1 - n - τ j ] ) 2 (等式13)
其中,x是声音信号的振幅,t为时间。该等式表示了以时间τj分离的声音信号的两个片段之间的相关性。两个片段的每一个都被分为L个采样。第一片段的第n个采样与另一片段的相应的第n个采样相关。对于范围τ0′-Δ≤τj≤τ0′+Δ中的递增的每一个候选基音周期计算该等式。
该等式采用紧接在劣化部分之前的信号片段(在图5中标为A),并使其与信号的多个另一些片段(为了方便仅示出了三个,在图5中标为B、C和D)中的每一个相关。这些另一些片段的每一个都沿着时间轴以落后值(片段B的τ0′-Δ、片段C的τ0′和片段D的τ0′+Δ)落后于第一片段。
这里使用术语“相关”以表示能够确定两个变量或数据系列之间的类似性的测量标准的方法。测量标准优选为定量测量标准。“相关”可以包括计算两个矢量的内积。可选地,“相关”可以包括其他机制。
基音周期的精确估计被选择作为与最小欧几里得距离相关联的候选基音周期。该基音周期的精确估计τ0″可以以数字方式表示为:
τ 0 ′ ′ = arg min τ j D 1 ( τ j ) (等式14)
如果劣化部分之后的充分采样可用,则可以针对每一个候选基音周期τj计算第二欧几里得距离D2。劣化部分之后的第一数据包的初始部分也可能被劣化。例如,如果解码器至少部分地依赖其内部状态来解码数据的数据包并且其内部状态又依赖先前解码的数据包,则会发生这种情况。在这种情况下,劣化数据包可导致没有正确地更新解码器状态。劣化数据包之后的第一数据包的劣化严重性依赖于劣化部分的长度、所使用编码解码器的稳健性以及当处理劣化部分时实施的任何解码器状态更新逻辑。选择劣化部分之后的用于计算D2的采样,以减小它们来自紧接在劣化部分之后的不可靠数据的可能性。如果处于劣化部分之后的数据包的开头处的k个采样被认为不可靠,则由此选择从t2+k到t2+k+L(在图5中示出)的L个采样用于计算D2
欧几里得距离D2可以以数字方式表示为:
D 2 ( τ j ) = Σ n = k k + L ( x [ t 2 + n ] - x [ t 2 + n ± τ j ] ) 2 (等式15)
其中,各项如等式13中那样进行定义。
该等式采用劣化部分之后的信号的片段,并使其与信号的多个另一些片段中的每一个相关。这些另一些片段中的每一个都沿着时间轴以落后值τj落后于第一片段,并且等式15中的±为减号-。如果未来数据可用,则可以从未来数据中选择用于劣化部分的替换部分。劣化部分之后的信号的片段可以与沿着时间轴以引导值τj来引导其的另一些片段相关,并且等式15中的±为加号+。
基音周期的精确估计被选择作为与最小的总欧几里得距离相关联的候选基音周期。适当地,针对每一个候选基音周期计算第一欧几里得距离和第二欧几里得距离的平均值,并且将其设定为该候选基音周期的总欧几里得距离。例如,基音周期的精确估计τ0″可以以数字方式表示为:
τ 0 ′ ′ = arg min τ j D 1 ( τ j ) + D 2 ( τ j ) 2 (等式16)
通常,现有系统使用基音周期检测算法来在用于人声音的预期基音周期的整个范围(例如,2.5ms到16ms)上搜索信号的基音周期。这通常以两个阶段执行:整个范围上的粗略搜索以及随后在目标区域上的精细搜索。本文所公开的方法和装置有利地最初仅在预期基音周期的窄范围(例如,8ms至16ms)上执行信号的基音周期的搜索。通过算法检测的该窄范围中的候选基音周期被用于在预期基音周期的剩余范围(例如,2.5ms至8ms)中识别一个或多个另一些候选基音周期。在一个或多个目标候选基音周期上局部地执行进一步的基音周期检测算法。
基音周期检测算法的计算量很大,尤其是对于诸如蓝牙的低功率平台。与预期基音周期的整个范围相比,在窄范围中搜索基音周期减小了与处理相关的计算复杂度。例如,代替2.5ms至16ms,在8ms至16ms的初始基音周期范围上执行NCC方法对应于节省大约40%的计算复杂度。
在现有系统中,通过降低搜索粒度(换句话说,通过执行预期基音周期的整个范围的粗略范围)来实现计算复杂度的降低。然而,这以处理性能的降低为代价。通过搜索预期基音周期的窄范围,通过本文所描述的方法实现计算复杂度的相比减小,而不遭受与粗略搜索相关的性能劣化。通过在预期基音周期的剩余范围中所识别的目标候选基音周期上进行局部搜索,引入的额外复杂度被最小化。此外,在如本文所述的预期基音周期的窄范围上执行粗略搜索(例如,使用输入信号和/或落后值的抽选)进一步降低了处理所涉及的计算复杂度,其基本上小于所描述的现有技术的计算复杂度,而没有牺牲处理性能的任何额外代价。
本文所描述的方法是有效的,因为如果“真”基音周期位于第一阶段中搜索的窄范围之外,则只要窄范围至少包括预期基音周期范围的前一半,就可以在第一阶段搜索的窄范围中识别“真”基音周期的倍数。从而,“真”基音周期将作为所描述方法的第二阶段中的候选基音周期的目标,并被选择作为基音周期的估计。
在许多情况下,使用该方法的第一阶段中所识别的第一候选基音周期(其可以为“真”基音周期的倍数)作为基音周期的估计是充分的,例如,对于劣化部分长于估计基音周期的一些信号。然而,当声音信号具有快速的基音周期变化时,优选使用比第一候选基音周期短的基音周期(如果第一候选基音周期为“真”基音周期的倍数)以使得替换数据包与其任一侧上的数据包之间的级联边界处的失配最小化。为此,优选执行此方法的第二阶段,以找到“真”基音周期的估计,或者至少与第一候选基音周期相比为“真”基音周期的较小倍数的估计。
所描述方法的第三阶段使得基音周期的估计精确化,以实现替换数据包与其任一侧上的数据包之间的级联边界处的平滑转变。在一些现有系统中,使用进一步的NCC度量来使得基音周期估计精确化。本文所描述的方法通过利用几何距离度量来实现这种精确化。距离度量涉及信号的多个部分(每一个都包括L个采样)之间的相关性。NCC度量涉及信号的多个部分(每一个都包括N个采样)之间的相关性。对于8kHz的典型信号采样率,N通常为几百的级别。通过比较,L通常在30个采样以下。因此,与利用NCC基音周期估计来进行精确化的方法相比,本文所描述的基音周期估计精确化方法中涉及的计算复杂度被降低。此外,本文所描述的方法使用用于与替换部分同时淡入淡出的信号部分来精确化基音周期估计。使同时淡入淡出区域的失配最小化使得与现有系统相比在级联边界处可获得更平滑的转变。当计算距离度量时,如本文所描述的,除了劣化部分之前的采样之外,还使用劣化部分之后的采样,这使得与仅利用劣化部分之前的数据相比实现了更平滑的转变。
在所描述方法的第一和第二阶段中,可以使用任何基音周期检测算法,包括频域方法,只要在第二阶段中确定的候选基音周期可以使用定量测量标准与在第一阶段中确定的第一后续基音周期相比较即可。
图1是本文所描述装置的示意图。所描述的方法不是必须在图1所示的专用块中实施。每个块的功能性都可以通过所描述的另一块或者使用其他装置来执行。例如,本文所描述的方法可以部分或全部在软件中实施。
所描述的方法对于在无线声音或VoIp通信中实施的丢包/错误隐藏技术来说是有用的。该方法对诸如一些蓝牙和Wi-Fi产品的产品(其涉及诸如音乐流和免提电话的编码音频传输的应用)尤其有用。
图1的基音周期估计装置可以有效地在收发机中实施。图6示出了这种收发机600。处理器602连接至发射机604、接收机606、存储器608和信号处理装置610。本领域技术人员已知的任何适当的发射机、接收机、存储器和处理器都可以在该收发机中实施。优选地,信号处理装置610包括图1的装置。此外,信号处理装置还连接至接收机606。通过接收机接收和解调的信号可以直接传送至信号处理装置来进行处理。可选地,所接收的信号可以在传送至信号处理装置之前存储在存储器608中。图6的收发机可以适当地实施为无线电信设备。这种无线电信设备的实例可以包括手持型装置、桌面扬声器和手持移动电话。
本申请引起对本发明可包括本文所公开(隐含地或明确地或其任何概括)的任何特征或特征组合、而不限制任何本发明权利要求的范围的这一事实的关注。鉴于前面的描述,对本领域技术人员显而易见的是,可以在本发明的范围内进行各种修改。

Claims (21)

1.一种估计声音信号的基音周期的方法,包括:
使用处理器通过仅在潜在基音周期的第一范围上执行搜索来识别第一候选基音周期;
通过将所述第一候选基音周期除以一整数来确定第二候选基音周期,所述第二候选基音周期在所述潜在基音周期的第一范围之外;以及
选择候选基音周期中的较小者作为信号的基音周期的估计,所述候选基音周期中的较小者使得以此候选基音周期分离的所述信号的部分被良好相关,
其中,所述潜在基音周期的所述第一范围的上界为最大潜在基音周期,所述潜在基音周期的所述第一范围的下界小于或等于所述最大潜在基音周期的一半,所述整数为使得所述第二候选基音周期大于最小潜在基音周期的整数。
2.根据权利要求1所述的方法,其中,确定第二候选基音周期的步骤包括:排除所搜索的潜在基音周期的第一范围。
3.根据权利要求1所述的方法,其中,所述潜在基音周期的第一范围的下界为最大潜在基音周期的一半。
4.根据权利要求1所述的方法,包括:使用基音周期检测算法来识别第一候选基音周期。
5.根据权利要求4所述的方法,其中,所述基音周期检测算法为归一化互相关算法。
6.根据权利要求1所述的方法,其中,所述信号被采样,所述第一候选基音周期为第一数量的采样,并且所述第二候选基音周期为第二数量的采样,其中,通过以下处理确定所述第二数量的采样:
将所述第一数量的采样除以一整数;以及
选择与除法结果最接近的整数作为所述第二数量的采样。
7.根据权利要求1所述的方法,还包括:使得以所述第一候选基音周期分离的所述信号的部分相关,以形成第一相关值,并且使得以所述第二候选基音周期分离的所述信号的部分相关,以形成第二相关值。
8.根据权利要求7所述的方法,包括:如果所述第二相关值大于所述第一相关值的预定比例,则选择所述第二候选基音周期作为所述信号的基音周期的估计。
9.根据权利要求7所述的方法,包括:如果所述第二相关值小于所述第一相关值的预定比例,则选择所述第一候选基音周期作为所述信号的基音周期的估计。
10.根据权利要求7所述的方法,包括:选择与相关值中的较大者相关的候选基音周期作为所述信号的基音周期的估计。
11.根据权利要求1所述的方法,还包括:在识别所述第一候选基音周期之前抽选所述信号。
12.根据权利要求1所述的方法,还包括:通过以下处理使得所述信号的基音周期的估计精确化:
对于包括估计基音周期和接近所述估计基音周期的另一些候选基音周期的候选基音周期集合中的每一个候选基音周期,确定以该候选基音周期分离的所述信号的部分之间的几何距离;以及
选择所述候选基音周期集合中的具有最小相关几何距离的候选基音周期作为所述信号的基音周期的精确估计。
13.根据权利要求12所述的方法,包括:
使用基音周期检测算法来识别第一候选基音周期,所述基音周期检测算法比较所述信号的多个部分,每一个部分均由N个采样组成;以及
对于所述候选基音周期集合中的每一个候选基音周期,确定每一个都由L个采样组成的信号部分之间的几何距离,其中,L小于N。
14.一种生成替换部分以替换信号的劣化部分的方法,包括:
以估计基音周期的倍数,选择所述劣化部分之前或之后的声音信号的采样;以及
根据所选择的采样和所选择的采样后面的采样来形成所述替换部分,
其中,根据权利要求1所述的方法确定所述估计基音周期。
15.根据权利要求14所述的方法,其中,所述倍数为1或者大于1的整数。
16.根据权利要求14所述的方法,还包括:在用所述替换部分替换所述劣化部分时,对所述替换部分和与所述替换部分相邻的信号部分之间的边界应用重叠相加算法。
17.一种生成替换部分以替换信号的劣化部分的方法,包括:
以精确化的估计基音周期的倍数,选择所述劣化部分之前或之后的声音信号的采样;以及
根据所选择的采样和所选择的采样之后的采样来形成所述替换部分,
其中,根据权利要求12所述的方法来确定所述精确化的估计基音周期。
18.根据权利要求17所述的方法,包括:对于所述候选基音周期集合中的每一个候选基音周期,确定所述信号的第一部分和所述信号的第二部分之间的几何距离,其中,所述第一部分接近所述劣化部分并在所述劣化部分之前或之后,并且所述第二部分以该候选基音周期而与所述第一部分分离。
19.根据权利要求17所述的方法,包括:对于所述候选基音周期集合中的每一个候选基音周期,通过以下处理确定几何距离:
确定所述信号的第一部分和所述信号的第二部分之间的第一几何距离,其中,所述第一部分接近所述劣化部分并在所述劣化部分之前,并且所述第二部分以该候选基音周期而与所述第一部分分离;
确定所述信号的第三部分和所述信号的第四部分之间的第二几何距离,其中,所述第三部分接近所述劣化部分并在所述劣化部分之后,并且所述第四部分以该候选基音周期而与所述第三部分分离;以及
选择所述第一几何距离和所述第二几何距离的平均,作为所述几何距离。
20.根据权利要求17所述的方法,还包括:在用所述替换部分替换所述劣化部分时,对所述替换部分和与所述替换部分相邻的信号部分之间的边界应用重叠相加算法。
21.一种基音周期估计装置,包括:
候选基音周期识别模块,被配置为通过仅在潜在基音周期的第一范围上执行搜索来识别声音信号的第一候选基音周期;
处理模块,被配置为通过将所述第一候选基音周期除以一整数来确定所述声音信号的第二候选基音周期,所述第二候选基音周期在所述潜在基音周期的第一范围之外;以及
选择模块,被配置为选择候选基音周期中的较小者作为所述声音信号的基音周期的估计,所述候选基音周期中的较小者使得以该候选基音周期分离的所述声音信号的部分被良好相关,
其中,所述潜在基音周期的所述第一范围的上界为最大潜在基音周期,所述潜在基音周期的所述第一范围的下界小于或等于所述最大潜在基音周期的一半,所述整数为使得所述第二候选基音周期大于最小潜在基音周期的整数。
CN201080021855.2A 2009-04-21 2010-04-07 基音估计 Expired - Fee Related CN102598119B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/427,004 US8185384B2 (en) 2009-04-21 2009-04-21 Signal pitch period estimation
US12/427,004 2009-04-21
PCT/EP2010/054602 WO2010121903A1 (en) 2009-04-21 2010-04-07 Pitch Estimation

Publications (2)

Publication Number Publication Date
CN102598119A CN102598119A (zh) 2012-07-18
CN102598119B true CN102598119B (zh) 2014-12-03

Family

ID=42235926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080021855.2A Expired - Fee Related CN102598119B (zh) 2009-04-21 2010-04-07 基音估计

Country Status (4)

Country Link
US (1) US8185384B2 (zh)
EP (1) EP2422343A1 (zh)
CN (1) CN102598119B (zh)
WO (1) WO2010121903A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386246B2 (en) * 2007-06-27 2013-02-26 Broadcom Corporation Low-complexity frame erasure concealment
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
CN104240715B (zh) * 2013-06-21 2017-08-25 华为技术有限公司 用于恢复丢失数据的方法和设备
CN103366784B (zh) * 2013-07-16 2016-04-13 湖南大学 具有语音控制和哼唱检索功能的多媒体播放方法及装置
RU2718418C2 (ru) * 2015-11-09 2020-04-02 Сони Корпорейшн Устройство декодирования, способ декодирования и программа
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
CN106898356B (zh) * 2017-03-14 2020-04-14 建荣半导体(深圳)有限公司 一种适用于蓝牙语音通话的丢包隐藏方法、装置及蓝牙语音处理芯片
US10516982B2 (en) 2017-10-27 2019-12-24 Hewlett Packard Enterprise Development Lp Match Bluetooth low energy (BLE) moving patterns
CN110400569B (zh) * 2018-04-24 2022-01-11 广州安凯微电子股份有限公司 蓝牙音频修复方法及终端设备
CN109119097B (zh) * 2018-10-30 2021-06-08 Oppo广东移动通信有限公司 基音检测方法、装置、存储介质及移动终端
CN110310621A (zh) * 2019-05-16 2019-10-08 平安科技(深圳)有限公司 歌唱合成方法、装置、设备以及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1335350A2 (en) * 2002-02-06 2003-08-13 Broadcom Corporation Pitch extraction methods and systems for speech coding using interpolation techniques
CN101030374A (zh) * 2007-03-26 2007-09-05 北京中星微电子有限公司 基音周期提取方法及装置
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864795A (en) 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
WO2001077635A1 (en) * 2000-04-06 2001-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Estimating the pitch of a speech signal using a binary signal
US7223913B2 (en) * 2001-07-18 2007-05-29 Vmusicsystems, Inc. Method and apparatus for sensing and displaying tablature associated with a stringed musical instrument
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1335350A2 (en) * 2002-02-06 2003-08-13 Broadcom Corporation Pitch extraction methods and systems for speech coding using interpolation techniques
CN101030374A (zh) * 2007-03-26 2007-09-05 北京中星微电子有限公司 基音周期提取方法及装置
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An Autocorrelation Pitch Detector and Voicing Decision with Confidence Measures Developed for Noise-Corrupted Speech;David A. Krubsack,et al.;《IEEE TRANSACTIONS ON SIGNAL PROCESSING》;19910228;第39卷(第2期);319-329 *
David A. Krubsack,et al..An Autocorrelation Pitch Detector and Voicing Decision with Confidence Measures Developed for Noise-Corrupted Speech.《IEEE TRANSACTIONS ON SIGNAL PROCESSING》.1991,第39卷(第2期),319-329. *
G.711 Appendix I(09/99): A high quality low-complexity algorithm for packet loss concealment with G.711.《Pulse code modulation(PCM) of voice frequencies *
G.711 Appendix I(09/99): A high quality low-complexity algorithm for packet loss concealment with G.711》.1999,2-3,12-15. *
ITU-T TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU.Pulse code modulation(PCM) of voice frequencies *

Also Published As

Publication number Publication date
EP2422343A1 (en) 2012-02-29
WO2010121903A1 (en) 2010-10-28
CN102598119A (zh) 2012-07-18
US8185384B2 (en) 2012-05-22
US20100268530A1 (en) 2010-10-21

Similar Documents

Publication Publication Date Title
CN102598119B (zh) 基音估计
US20240029757A1 (en) Linear Prediction Residual Energy Tilt-Based Audio Signal Classification Method and Apparatus
US9053702B2 (en) Systems, methods, apparatus, and computer-readable media for bit allocation for redundant transmission
CN102449690B (zh) 用于重建被擦除语音帧的系统与方法
EP2272062B1 (en) An audio signal classifier
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR101038964B1 (ko) 에코 제거/억제 방법 및 장치
US8380494B2 (en) Speech detection using order statistics
US8818811B2 (en) Method and apparatus for performing voice activity detection
JPH09212195A (ja) 音声活性検出装置及び移動局並びに音声活性検出方法
WO1998050910A1 (en) Speech coding
JP5204904B2 (ja) オーディオ信号品質予測
JP2012504779A (ja) 音声データの伝送にエラーがある際のエラー隠蔽方法
US20030220787A1 (en) Method of and apparatus for pitch period estimation
CN103262158A (zh) 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
CN101937679B (zh) 音频数据帧的错误掩盖方法及音频解码装置
CN103456307B (zh) 音频解码器中帧差错隐藏的谱代替方法及系统
US8214201B2 (en) Pitch range refinement
US20080172225A1 (en) Apparatus and method for pre-processing speech signal
JP2005516247A (ja) 雑音環境のための音声活動検出器及び有効化器
CN101976567B (zh) 一种语音信号差错掩盖方法
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法
Bakri et al. Implementing the PLC Techniques with G 729 Coded to Improving the Speech Quality for VoIP Transmission
Voran A bottom-up algorithm for estimating time-varying delays in coded speech
Carvalho Cairns• Australia 9-12 July, 2007

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: cambridge

Patentee after: CAMBRIDGE SILICON RADIO LTD

Address before: cambridge

Patentee before: Cambridge Silicon Radio Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141203

Termination date: 20190407

CF01 Termination of patent right due to non-payment of annual fee