CN108806721A - 信号处理器 - Google Patents

信号处理器 Download PDF

Info

Publication number
CN108806721A
CN108806721A CN201810408102.5A CN201810408102A CN108806721A CN 108806721 A CN108806721 A CN 108806721A CN 201810408102 A CN201810408102 A CN 201810408102A CN 108806721 A CN108806721 A CN 108806721A
Authority
CN
China
Prior art keywords
signal
frequency
frequency domain
input signal
domain input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810408102.5A
Other languages
English (en)
Other versions
CN108806721B (zh
Inventor
奈尔施·马杜
沃特·约斯·蒂瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP BV
Original Assignee
NXP BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NXP BV filed Critical NXP BV
Publication of CN108806721A publication Critical patent/CN108806721A/zh
Application granted granted Critical
Publication of CN108806721B publication Critical patent/CN108806721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

一种信号处理器,包括:模型化块,其被配置成接收频域输入信号,表示所述频域输入信号的基频的基频信号;且被配置成基于周期函数提供音调模型信号,所述音调模型信号跨越多个离散频段,每一离散频段具有相应的离散频段索引,其中在每一离散频段内,所述音调模型信号由以下限定:所述周期函数;所述基频;所述频域输入信号;以及所述相应离散频段索引。所述信号处理器进一步包括运算块,其被配置成基于所述频域输入信号和所述音调模型信号,提供输出信号。

Description

信号处理器
技术领域
本公开涉及信号处理器和信号处理方法。
背景技术
电信系统是用于人类彼此通信且互动的最重要方式中的一个。每当经由信道传输语音时,近端处的信道限制或不利声学环境会由于例如麦克风所捕获的干扰而影响远端处的理解(且反之亦然)。因此,已针对下行链路和上行链路研发出语音增强算法。
语音增强方案可计算通常通过估计背景噪声功率和估计所谓的先验信噪比(SNR)参数化的增益函数。先验SNR对增强型信号的质量具有显著影响,这是因为其直接影响抑制增益且也对系统在高度动态噪声环境中的响应性负责。尤其在具有不佳SNR的情况中,一些方法不能够准确地估计先验SNR,且此会破坏语音的谐波结构、带来混响效应和例如乐音的其它不合需要的可听伪迹。所有这些都会损害处理后的信号的质量和可懂度。
为允许更好地估计先验SNR并以改进谐波保持为目标,同时减少可听伪迹和混响,可使用基于激励信号的倒谱运算的方法。然而,此倒谱方法虽然改进了一些其它方法,但在一些应用中可具有若干缺点。举例来说:
●其可限于倒谱域中的操作,
●其仅可生成倒谱计算中采用的信号带宽的改进后的激励信号。也就是说,如果对采样频率处于fs的信号计算倒谱,那么可能并不可能将改进后的激励信号扩展到超出fs/2的带宽。这可限制此方法到其它信号增强应用的适用性,所述应用例如人工带宽扩展。
●所述方法可能并不能够模型化音调谐波抖动。当音调谐波并不正好是基频的整数倍而是略微从其偏离时,会发生音调谐波抖动。这在上升或下降元音中最明显。在此情况下,倒谱方法会衰减真实谐波。
●倒谱方法可限于对应于整数倒谱频段值的音调频率。此方法无法很好地模型化中间频率,且实际上,在此类情况中生成的激励频谱可从更高频率的基础信号频谱偏离。这也会导致在这些频率处发生信号衰减。
发明内容
根据本公开的第一方面,提供一种信号处理器,所述信号处理器包括:
模型化块,包括
模型化块输入信号端,其被配置成接收频域输入信号;
基频输入端,其被配置成接收表示所述频域输入信号的基频的基频信号;以及
模型化输出端,其被配置成基于周期函数提供音调模型信号,所述音调模型信号跨越多个离散频段,每一离散频段具有相应的离散频段索引,其中在每一离散频段内,所述音调模型信号由以下限定:
所述周期函数;
所述基频;
所述频域输入信号;以及
所述相应离散频段索引,
运算块,包括:
运算块输入信号端,其被配置成接收所述频域输入信号的表示;
模型输入端,其被配置成从所述模型化块接收所述音调模型信号的表示;以及
输出端,
其中所述运算块被配置成基于所述频域输入信号和所述音调模型信号,将输出信号提供到所述输出端。
在一个或多个实施例中,所述音调模型信号可包括用于每一离散频段的振幅,每一相应振幅可是根据所述频域输入信号确定。
在一个或多个实施例中,所述音调模型信号可包括用于每一离散频段的添加到所述周期函数的偏移,每一相应偏移可是根据所述频域输入信号确定。
在一个或多个实施例中,所述音调模型信号对于每一离散频段可限于上部最大值,每一相应上部最大值可是根据所述频域输入信号确定。
在一个或多个实施例中,所述音调模型信号对于每一离散频段可限于下部最小值,每一相应下部最小值可是根据所述频域输入信号确定。
在一个或多个实施例中,所述音调模型信号可是基于针对每一离散频段指数运算为幂的所述周期函数的模数,每一相应幂可是根据所述频域输入信号确定。
在一个或多个实施例中,所述音调模型信号可包括根据所述频域输入信号确定的频率偏移。
在一个或多个实施例中,所述音调模型信号可包括针对每一离散频段的频率偏移,每一相应频率偏移可是根据所述频域输入信号确定。
在一个或多个实施例中,所述周期函数可以是余弦函数。
在一个或多个实施例中,所述信号处理器可进一步包括先验信噪比估计块,所述先验信噪比估计块包括:
噪声功率估计端,其被配置成接收基于所述频域输入信号的噪声功率估计信号;
运算输入端,其耦接到所述运算块的所述输出端且被配置成接收所述输出信号;以及
先验信噪比估计输出端子,其被配置成基于所述噪声功率估计信号和所述输出信号,提供先验信噪比估计信号。
在一个或多个实施例中,所述运算块可进一步包括包络估计块,其被配置成接收所述频域输入信号,并基于所述频域输入信号和预定包络数据,确定包络信号,且
其中所述运算块可被配置成基于所述音调模型信号与所述包络信号的合并,提供所述输出信号。
在一个或多个实施例中,对于所述多个离散频段的选定子集,所述运算块可被配置成基于所述包络信号与所述音调模型信号的乘积,提供所述输出信号。
在一个或多个实施例中,所述多个离散频段的所述选定子集可涉及超出所述频域输入信号的带宽的频率。
在一个或多个实施例中,所述运算块可进一步包括又一增强块,其被配置成接收所述输出信号和所述频域输入信号,并基于所述输出信号和所述频域输入信号的加权组合,提供又一增强信号。
在一个或多个实施例中,可提供包括本公开的任一信号处理器的集成电路或电子装置。
根据本公开的另一方面,提供一种计算机程序,其在计算机上运行时致使所述计算机配置本文中所公开的任一信号处理器、系统或装置或执行本文中所公开的任一方法。
根据本公开的另一方面,提供一种信号处理方法,包括:
接收频域输入信号;
接收表示所述频域输入信号的基频的基频信号;以及
基于周期函数提供音调模型信号,所述音调模型信号跨越多个离散频段,每一离散频段具有相应的离散频段索引,其中在每一离散频段内,所述音调模型信号由以下限定:
所述周期函数;
所述基频;
所述频域输入信号;以及
所述相应离散频段索引,
接收所述频域输入信号的表示;
接收所述音调模型信号的表示;以及
基于所述频域输入信号和所述音调模型信号,提供输出信号。
虽然本公开容许各种修改和替代形式,但已借助于例子在图式中示出其特殊性且将进行详细描述。然而,应理解,超出所描述的特定实施例的其它实施例也是可能的。也涵盖落入所附权利要求书的精神和范围内的所有修改、等效物和替代实施例。
以上论述并不旨在呈现当前或将来权利要求集的范围内的每一示例性实施例或每一实施方案。附图和之后的具体实施方式还示例了各种示例性实施例。结合附图考虑以下具体实施方式可以更全面地理解各种示例性实施例。
附图说明
现将仅借助于例子参考附图来描述一个或多个实施例,在附图中:
图1示出信号处理器的示例性实施例;
图2示出周期函数的示例性实施例;
图3示出第二周期函数的示例性实施例;
图4示出信号的频谱、信号的模型的频谱和信号的增强型模型的频谱的示例性实施例;
图5示出第二信号的频谱、第二信号的模型的频谱和第二信号的增强型模型的频谱的示例性实施例;
图6示出第三信号的频谱,和通过模型的两个不同参数化获得的此第三信号的音调谐波的两个不同表示的示例性实施例;
图7示出第四信号的频谱、第四信号的模型的频谱和第四信号的增强型模型的频谱的示例性实施例;
图8示出第五信号的频谱、第五信号的模型的频谱和第五信号的增强型模型的频谱的示例性实施例;
图9示出先验信噪比估计器的示例性实施例;以及
图10示出谐波恢复信号处理器的示例性实施例。
具体实施方式
本文中所公开的一个或多个例子可通过引入音调谐波的频谱的更好(更灵活)模型来解决上文限制中的一个或多个。
语音可被概括地区分为两类:浊音和清音。在浊音语音中,信号频谱示出强烈谐波结构,其中频谱中的峰值为所谓的基频(文本中进一步表示为f0)的倍数。为基频的倍数的频谱峰值的此组合在下文中将被称为音调频率或音调谐波。本公开提供模型化此类浊音片段期间的信号频谱的结构(具体来说音调频率)的方法。
图1示出信号处理器100的示意图。信号处理器100具有模型化块102、运算块122和任选的音调估计块112。
模型化块102具有模型化块输入信号端104,其被配置成接收频域输入信号130。模型化块102还具有基频输入端106,其被配置成接收表示频域输入信号130的基频的基频信号132。在此例子中,基频信号132由音调估计块112提供,其被配置成接收频域输入信号130,并通过任何合适的方法,例如通过计算频域输入信号130的傅里叶变换来确定基频信号132。在其它例子中,音调估计块112的功能可由在信号处理器100外部的外部块提供。
模型化块102具有模型化输出端108,其被配置成基于周期函数提供音调模型信号134,如将在下文更详细地论述。
运算块122具有运算块输入信号端124,其被配置成接收频域输入信号130的表示。在此例子中,所述表示是频域输入信号130,但将了解,可使用频域输入信号130的任何其它信号表示。
运算块122具有模型输入端126,其被配置成从模型化块102接收音调模型信号134的表示。在此例子中,所述表示是音调模型信号134,但将了解,可使用音调模型信号134的任何其它信号表示。
运算块122还具有输出端128。运算块122被配置成基于频域输入信号130和音调模型信号134,将输出信号140提供到输出端128。
由模型化块102确定的音调模型信号134跨越多个离散频段。每一离散频段对应于频域的一部分。以此方式,音调模型信号134可提供频域输入信号130的在频率上限与频率下限之间跨越频域内的连续范围的模型。
每一离散频段具有相应离散频段索引。举例来说,最低离散频段可具有索引一,下一离散频段可具有索引二,第三离散频段可具有索引三等等。
在每一离散频段内,音调模型信号134由周期函数、基频、频域输入信号130和相应离散频段索引限定。由于音调模型信号134取决于离散频段索引,所以在每一离散频段中音调模型信号134的参数可不同,借此相比原本的可能状况,能有利地使音调模型信号134提供频域输入信号130的更准确表示。以此方式,可针对不同频段不同地运算音调模型信号134,使得例如对音调抖动的模型化是可能的,因为可通过使每一峰值的量不同来移位谐波的峰值。
音调模型信号134是基于频率的周期(或在一些例子中为准周期)函数。此函数可生成为使得函数的正峰值大约为频域输入信号130的峰值,如在需要增强时。替代地,如果需要噪声抑制,那么函数的负峰值可大约为频域输入信号130的峰值。
图2示出示例性周期函数202的曲线图200。频率标绘在横轴204上且振幅标绘在纵轴206上。周期函数202的峰值由对应时域输入信号的基频(f0)的整数倍分离。
图3示出周期函数302的第二例子的曲线图300。频率标绘在横轴304上且振幅标绘在纵轴306上。周期函数202的峰值由对应时域信号的基频(f0)的整数倍分离。
图2和3提供周期函数的两个不同例子。然而,将了解,模型化块可使用例如对称或非对称脉冲串、狄拉克脉冲串或任何随机周期波形的其它函数来提供音调模型信号。
有可能限定允许非常灵活地模型化频域输入信号,以提供对应于频域输入信号的基础语音频谱的良好表示的函数族。音调模型信号有利地易于参数化。因此,除其它可能性之外,音调模型信号允许音调模型信号的峰值和谷值具频率相依性宽度和高度,这使得对谐波抖动的模型化可在语音信号中的上升和下降元音中发生。在此上下文中,抖动是指信号谐波的峰值发生远离信号基频的整数倍的偏离。音调模型信号还可用于跨越任意带宽/频率范围模型化激励频谱,如果频域输入信号具有小于音调模型信号的带宽的带宽,那么这可是有用的。
图4示出频率标绘在横轴402上且频谱的振幅(以dB为单位)标绘在纵轴404上的曲线图400。曲线图400示出频域输入信号410连同倒谱域模型420和音调模型信号430。在此例子中,仅在倒谱域模型420中保留对应于每一频率峰值的最大值的倒谱频段。频域输入信号410与倒谱域模型420和音调模型信号430并列,以便示出信号峰值(对应于音调频率)的相对位置。频域输入信号410的特定频率峰值412与音调模型信号430的对应特定频率峰值432的位置重合。然而,倒谱域模型420的对应特定频率峰值422位于明显更高频率处。音调模型信号430的峰值与频域输入信号410的峰值(相比于倒谱域模型420的峰值)的优良对准示出音调模型信号430能提供频域输入信号410中的激励(或音调谐波)的更好表示。
图5示出类似于图4的曲线图的曲线图500;类似特征已给定有类似参考编号且此处可不必进一步加以论述。曲线图500示出第二倒谱域模型520,其中在每一频率峰值的最大值的任一侧上的一个倒谱频段连同对应于最大值的倒谱频段用于提供第二倒谱域模型520。曲线图500还示出相同于图4上示出的信号的频域输入信号510,和也相同于图4中示出的信号的音调模型信号530。可看出,音调模型信号510可跨越整个信号频谱提供与频域输入信号510的峰值和谷值的良好匹配。
根据本公开的方法可应用于时域中的取样信号,所述信号被分段成重叠片段且接着由例如离散傅里叶变换(DFT)变换到频域。为促进进一步阐述,下表中呈现一些惯例。
以下描述涉及第1信号片段,其中假定此片段为浊音且存在针对此片段估计的可用f0。f0或音调估计可由信号处理链中的模块根据本领域的技术人员熟悉的技术提供。
可根据下式模型化音调频谱(由P个谐波构成):
在此等式中,D是如图2和3中示出的由基频分离的脉冲串,且f(k)是任何支持效果受限的函数。运算符‘*’表示卷积运算。为关于图2和3阐明此等式,在图2的情况下,f(k)将为单个三角形脉冲且在图3的情况下,f(k)将为单个矩形脉冲。
用于提供音调模型信号的周期函数允许调整峰值的高度和宽度,以较耐受基础频域输入信号的周期性和音调频率的微小改变。有利地,周期函数在数学上可易处理且易于参数化。此周期函数的例子为余弦函数,因为其具有数学上易处理且易于参数化的期望特性,同时展现周期性行为。
图6示出显示频域输入信号610、第一音调模型信号620和第二音调模型信号630的曲线图600。频率标绘在曲线图600的横轴602上,而振幅(以dB为单位)标绘在曲线图600的纵轴604上。音调模型信号620、630是基于等式1,其如下示出。
在等式1中,Y是音调模型信号,而数量k∈{0,1,...,N-1}是离散频段索引,其在此例子中对于在频谱的最低末端处的第一离散频段呈值0,且对于在频谱的最高末端处的第N离散频段呈值N-1。
在等式1中,A是振幅乘法器且ρk是振幅除法器。恒定振幅乘法器(A)和振幅除法器ρk的组合限定周期函数的振幅。由于振幅除法器ρk对于每一离散频段可呈不同值,因此音调模型信号可准确地表示频域输入信号610的不同部分的振幅差异。为实现对每一离散频段中的频域输入信号610的此准确表示,可根据频域输入信号610确定用于每一频段的每一相应振幅。将了解,许多不同技术可用于确定相应振幅,例如基于最小二乘拟合的技术或回归分析领域中已知的其它技术。
在等式1中,右方括号(])是下标和上标指示对运算数的限制的限制运算符。因此,余弦函数被截断到等于αk的上部最大值和βk的下部最小值。上限(αk)和下限(βk)可彼此不同或相同。可根据频域输入信号610以类似于确定不同振幅的方式来确定上部最大值和下部最小值。在一些例子中,上部最大值和下部最小值中的任一个或两个可被设定到使得余弦函数未被截断的水平。举例来说,余弦函数可仅在其峰值处或仅在其谷值处或在其峰值和谷值处被截断。在第一音调模型信号620的截断峰值622处清晰可见所述截断,因为已经使用αk的相对较小值(等于0.17)。相反,在第二音调模型信号630中较不可见所述截断,因为已经使用αk的较大值(等于0.87)。在这些例子中,上部最大值等于下部最小值。
在等式1中,数量δk是可添加到周期函数的偏移。可根据频域输入信号610以类似于确定不同振幅的方式针对每一离散频段确定偏移。在此例子中,偏移已被设定为零,但可使用任何其它值。
等式1中的频率ω0由下式2限定。
在等式2中,fs是原始时间取样信号的取样频率,而f0是基频,且N是用于将原始时间取样信号转换成频域输入信号610的傅里叶变换(例如DFT)的大小。
音调模型信号620、630具有在基频606和其谐波处的峰值和在其间的谷值,这能提供原始时间取样信号的理想化频谱。参数αk、ρk、δk和βk可变化以控制余弦曲线的宽度和深度,且参数中的任一个可为固定参数或取决于频段索引k。类似于取决于倒谱分析的模型,提供音调模型信号的此方法也可在零频率处产生峰值。然而,可易于通过已知技术去除此零频率峰值。
参数αk、ρk、δk和βk对k的相依性可用于选择性地控制音调模型信号尤其在其峰值和谷值处的宽度和深度(或等效地控制高度)。音调模型信号对于较低频段可具有更窄(更具选择性)峰值,其中通常能明确限定谐波频率。相反,音调模型信号对于更高频段可具有更宽峰值,其中音调谐波可越来越模糊。在此类情况中,音调模型信号仍可准确地捕获原始时间取样信号的谐波以用于后续处理和/或增强。
第一音调模型信号620和第二音调模型信号630在频域输入信号610中的对应峰值处都具有峰值,这指示对音调和其谐波的准确模型化。改变参数α会使余弦分别如第一音调模型信号620和第二音调模型信号630所展现般更宽或更窄。在图6和后续图中,除非另外规定,否则尚未基于频域输入信号610选择余弦的振幅,从而使得可更清晰地看出相应信号的峰值位置之间的对应关系。在本公开的实际应用中,基于频域输入信号610且任选地基于将使用任一此音调模型信号的上下文,计算音调模型信号的振幅。
本公开易于进行进一步的调适。举例来说,为使等式1的音调模型信号更窄或更宽,有可能如下式3中所示般修改等式1。
在等式3中,针对每一离散频段,将周期函数的模数指数运算为幂γ。幂γ对于每一离散频段可相同,或对于不同频段可具有不同值。在任一情况下,根据频域输入信号610以类似于确定不同振幅的方式来确定幂γ。
根据等式3,γ控制音调模型信号中的峰值和谷值的变窄量(对于γ>1)或变宽量(对于γ<1)。“sgn()”表示传回运算数的正负号的正负号函数。
音调模型信号取决于可由例如图1中示出的音调估计块执行的估计算法提供的基频f0。估计算法可以其自身的带宽、频率分辨率和帧移位来运行。因此,所述算法产生的基频估计可略微不同于由X(k,l)表示的特定信号帧的基频,对于所有k=0,1,...N。此类偏离可尤其影响在更高频率下的频域输入信号的模型化准确性。因此,可有利地调整基频估计以拟合正考虑的信号帧,否则将增大频率的模型化误差。此调整可被称为音调优化,且可校正基频估计与正考虑信号帧的真实基频的可能偏离。
图7示出类似于图6的曲线图的曲线图700。类似特征已给定有类似参考编号,且此处可不必进一步加以论述。
曲线图700示出频域输入信号710、第一音调模型信号730(无音调优化)和第二音调模型信号720(具有音调优化)。可以两个阶段执行对第二音调模型信号720的确定。在第一阶段中,可估计音调偏离程度,且在第二阶段中,所述估计可用于基于在第一阶段期间根据频域输入信号所确定的频率偏移,提供第二音调模型信号。为在数学上展现此过程,已适当修改等式1以提供下文示出的等式4。然而,将了解,也可对等式3作出对应修改。
在等式4中,Δω是可例如通过对X(k,l)的对数量值频谱的最小二乘拟合获得的音调校正因数。音调校正因数是频率偏移的例子。
图7示出,音调偏离的影响在更低频率处非常小(其中频域输入信号710、第一音调模型信号730和第二音调模型信号720的峰值非常接近),但很快在更高频率处变得更大(其中频域输入信号710的峰值位置接近于第二音调模型信号720的峰值位置,但更远离第一音调模型信号的峰值位置)。不校正音调偏离可带来不准确的模型化。当如等式4中般校正频率时,第二音调模型信号可准确地捕获基础信号中的峰值和谷值。
图8示出类似于图7的曲线图的曲线图800。类似特征已给定有类似参考编号,且此处可不必进一步加以论述。
在模型化浊音信号的频谱时常观察到的另一问题是谐波上的频率发生抖动。这表示谐波并不定位在基频的整数倍处,而是围绕那些位置抖动。此现象在上升或下降元音中可尤其显著。对等式4的进一步修改能考虑到此抖动,如下式5中示出。
在等式5中,音调校正因数Δωk是频段索引k的函数。接着可通过搜索每一离散频段内的每一谐波的最佳Δωk来考虑到频率抖动,或可假定音调校正因数以展现频段索引的特定函数。举例来说,音调校正因数可为频段索引k的线性函数。在一些例子中,此函数可被参数化,且可使用最小二乘拟合方法使参数的值适用于频域输入信号810。
曲线图800示出频域输入信号810中的谐波抖动迹象,这是由于第一音调模型信号810(其为不具有抖动的余弦模型)与频域输入信号810的峰值之间存在失配。在此例子中,抖动被模型化为频率上的线性函数,且是通过根据等式5对对数量值信号频谱进行最小二乘拟合估计所得,以提供第二音调模型信号820。可看出,第二音调模型信号820非常好地匹配频域输入信号810的谷值和峰值位置。
图9示出为先验SNR估计器900的信号处理器的框图。
先验SNR估计器900具有成帧和开窗块902,其被配置成接收具有离散时间索引n的数字化麦克风信号904(x(n))。成帧和开窗块902以32ms的帧以及10ms的帧移位处理数字化麦克风信号904。由傅里叶变换块906经由大小为N的快速傅里叶变换(FFT)将具有帧索引1的每一帧变换到频域。这是处理结构的例子,且可按需要调整,例如以处理具有不同持续时间或帧移位的帧。
由初步噪声抑制块908执行常见噪声减少算法。初步噪声抑制块908接收每一频域输入信号907,并将噪声功率估计信号910提供到先验SNR估计块912。噪声功率估计信号910可被表示为:(k,l)。噪声功率估计信号910用于先验SNR估计。此处可使用本领域的技术人员已知的任何噪声功率估计器来提供噪声功率估计信号910。
可通过使用面向决策(DD)方法获得先验SNR的第一估计。对于初步噪声抑制中的加权规则,此处可使用本领域的技术人员已知的任何频谱加权规则。一般来说,不同噪声功率估计器的参数化和使用率、先验SNR估计器和加权规则不受任何限制。因此,可由初步噪声抑制块908使用不同方法以确定初步去噪信号914。初步去噪信号914是频域输入信号的例子。
将初步去噪信号914提供到模型化块916(其类似于上文关于图1所描述的模型化块)。
将数字化麦克风信号904或其任何滤波版本提供到基频估计块918,所述基频估计块918确定对数字化麦克风信号904的基频的估计。基频估计块918可以不同于先验SNR估计器900的其它块的帧速率、带宽和频谱分辨率来起作用。仅需要从基频估计块918获得对正处理的每一帧1的基频的估计。基频估计块918将基频信号920提供到模型化块916。
模型化块916确定音调模型信号922并将其提供到运算块924。音调模型信号922是基于基频估计和上文呈现的等式中的任一个。选择振幅A以适当强化初步去噪信号914的峰值并去强化其谷值。这能增大频谱的所要部分(含有音调谐波的频率)与噪声频率(在音调谐波之间)之间的对比度。
运算块924接收音调模型信号922和初步去噪信号914,并将输出信号926提供到先验SNR估计块912。在此例子中,运算块924含有任选的理想化音调块928,其接收并扩增音调模型信号922以提供扩增信号930,所述扩增信号930在合成器932处与初步去噪信号914合成以提供输出信号926。输出信号926由对基础纯语音信号的估计构成。
先验噪声估计块912在运算输入端934处接收输出信号926,并在噪声功率估计端936处接收噪声功率估计信号910。输出信号926与噪声功率估计信号910合并以产生改进型先验SNR估计信号940,其能提供对原始数字化麦克风信号904的信噪比的优良估计,这是因为音调模型信号922提供对原始数字化麦克风信号904中的基础语音的更准确频谱表示。将先验SNR估计信号940提供到先验SNR估计器输出端938,以用于进一步信号处理操作(未示出)。
图10示出为频谱恢复处理器1000的信号处理器的框图。在一些例子中,频谱恢复处理器1000也可被描述为频谱扩展处理器。频谱恢复处理器1000的类似于图9中示出的特征的特征已给定有900序列的类似参考编号,且此处可不必进一步加以描述。
在一些情况下,可由频谱恢复处理器1000接收失真输入信号1004,所述频谱恢复处理器1000可有利地进行操作以增强失真输入信号1004。失真的一些例子包括以下可能性。
●第一类型的失真可是由于带宽上的系统限制而产生。在此情况下,仅输入信号1004的低带宽版本是可用的。
●第二类型的失真可是由于信号链中的先前处理(例如通过噪声抑制)而产生。在此类情况下,输入信号1004中的某些音调谐波可能遭到严重衰减。
当失真输入信号1004可用时,频谱恢复处理器1000可用于恢复失真的音调谐波。
关于第一类型的失真,频谱恢复可被称为带宽扩展,且关于第二类型的失真,频谱恢复可被称为谐波恢复。
失真输入信号1004的例子在第一绘图1050中示出。第一绘图1050示出由于失真效应失真输入信号1004似乎缺失若干谐波1052。频谱恢复处理器1000接收失真输入信号1004,并以类似于上文关于图9所公开的方式进行处理,以产生频域输入信号1007和音调模型信号1022。
频谱恢复处理器1000具有接收频域输入信号1007和音调模型信号1022的运算块1024。运算块具有码本模块1070,且还具有被配置成接收频域输入信号1007的包络估计模块1072。包络估计模块被配置成确定频域输入信号1007的包络,并提供表示所述包络的包络信号1054。包络信号1054在第二绘图1055中示出。包络信号1054可通过若干方法中的任一个(例如通过使用线性预测系数或倒谱系数)来确定。在此例子中,包络信号1054也是基于由码本模块1070提供的码本信号1071确定的。仅基于频域输入信号1007来确定包络信号1054可提供失真的包络信号,这是由于频域输入信号1007中存在失真。可校正存在的失真,以获得充分近似原始信号的未失真包络的包络信号1054。这可以通过借助于数据库或查找表,比较频域输入信号与码本模块1070中存储的预定包络数据来实现。在其它例子中,任何其它目前先进技术滤波方法可用于以准确地表示原始信号在引入失真之前的包络的方式提供包络信号1054。
模型化块1016以类似于图9的模型化块的方式提供音调模型信号1022。第三曲线图1056示出音调模型信号1022。如从第三曲线图1056可看出,音调模型信号1022已重新引入从第一曲线图1050中示出的频域输入信号缺失的频谱谐波1052,这是因为音调模型信号1022具有六个谐波峰值,然而频域输入信号1007仅含有三个谐波峰值。
对于带宽扩展情境,将音调模型信号提供用于原始未失真信号的全带宽,借此在需要扩展的带宽上以自然方式扩展谐波。
将包络信号1054和扩增的音调模型信号1030提供到合并器1032,并进行合并以提供输出信号1080。输出信号1080具有重新生成有缺失的谐波区1060的频谱1058(第四曲线图中示出)。第四曲线图还示出上覆在输出信号1058上的包络信号1062。
在一些例子中,可通过在全部离散频段上或仅在离散频段的失真频域输入信号中的频谱谐波已被衰减的选定子集上进行信号相乘来执行包络信号1054与扩增的音调模型信号1030的合并。在带宽扩展例子中,离散频段的选定子集可涉及超出频域输入信号1007的带宽的频率。
输出信号1080是接着提供到又一处理块1082以用于进一步处理的合成频谱。在一些例子中,输出信号1080可被变换回到时域以作为最后输出信号。应注意,当信号与合成谐波被变换回到时域时,应注意也要修改谐波的相位,以确保跨越时间的一致相位演进。否则,缺乏相位一致性会带来可听伪迹。在其它例子中,输出信号1080可由又一增强块(未示出)以加权方式与频域输入信号1007合并,以产生又一增强信号。
本公开公开可在频域中执行对音调的显式模型化的系统。此模型是基于一般余弦模板,但由于所述模板可被很好地参数化,因此其可被一般化成涵盖广泛范围的激励函数。这允许非常灵活地模型化浊音信号的频谱。
本发明方法可考虑到基频估计算法与正处理的当前频谱帧的基频之间的谐波抖动和频率失配。这可带来更稳定的音调谐波模型化,并从模型化级充分分离基频估计级。因此,模型化级和基频估计级可各自具有独立设定的信号带宽、信号成帧和频谱分辨率。在其它方案下可能难以实现或甚至不可能实现此独立性。
本公开的方面可并入到需要纯语音估计或先验SNR估计的任何语音处理和/或增强系统中。另外,其还可用于重建构缺失的谐波或以合成方式重新合成谐波片段,其中信噪比非常糟糕。由于可能执行对基频估计的优化,因此也可能向利用基频的任何应用提供改进型基频估计。此模型化还可用于多音调分组,且引申开来也可用于源分离和/或分类应用。
例如噪声减少、语音存在机率估计、静音检测、可懂度增强、话音转换、语音合成、带宽扩展、波束成形、源分离手段、自动语音辨识或扬声器辨识的多或单声道应用可以不同方式受益于本公开的方面。
本公开的方面可提供额外灵活性,这可允许其适用于任何音调估计器和增强框架。此外,模型化的灵活性也暗示音调估计无需与正处理的信号帧同步,这是由于适当校正因数可明确地包括在模型中且可在需要时加以利用。
本公开的方面不限于倒谱域中的基频估计和运算。这是有利的,因为基频计算和激励频谱生成是链接的。使用外部基频估计器需要额外计算以将此信息转译到倒谱域。当激励信号频谱是通过运算倒谱域表示来生成时,在一些应用中其准确性可受限。具体来说,当仅具有最大振幅(和/或其紧邻振幅)的倒谱频段保留在修改的倒谱中时,尤其对于更高频率来说,激励频谱的模型化可能不匹配真实频谱。
其它方法可在时域中应用非线性以有助于生成缺失的谐波。选择非线性在此处有用,这是由于此将在整个频域上生成基频的子和超谐波。这可在先验SNR估计器中引入偏置。这种偏置的一个效果是在基频之前引入假“半第零”谐波,且可在存在语音时造成低频噪声的暂留。此类问题可通过使用本公开的方面来克服、减少或避免。
上述偏置的另一效果为对音调谐波的过高估计存在限制性,这可限制弱谐波的重建构。此限制性是因为过高估计还可能在帧内谐波频率中带来较少噪声抑制而产生。因此,在语音保持(弱谐波)与噪声抑制(谐波之间)之间可存在较差平衡。如果在时域中执行生成缺失的谐波,那么可能不允许频率相依性过高估计或过低估计。不能执行频率相依性运算也可意指不可能模型化谐波抖动,这不同于可引入对激励信号频谱的显式模型化且可能不在估计器中引入此偏置的本发明的方面。本公开的方面允许对先验SNR的频率相依性过高估计和过低估计。这可用于改进语音谐波与语音增强级中的帧间谐波噪声区之间的对比度。
有可能通过使用对应于基频在时域中的倒易移位的按间隔隔开的原型音调脉冲来生成激励频谱。此类时域运算也可遭受基频估计误差。并且,如果激励信号是在时域中从原型脉冲生成,那么可能不可能进行对谐波抖动的模型化。时域运算通过合成语音信号来起作用。因此,在建构激励信号时其可需要精确的音调信息和相位对准,因为微小偏离可带来可听伪迹。相反,本公开的方面可用于传统框架中的信号增强以及语音合成。当模型化是在频谱域中进行时,易于进行频率相依性运算,从而允许按需要强化和/或去强化频率区。通过在从频域重建构信号时注意跨越帧的相位对准,也可有利地实现语音合成。
在另一时域方法中,代替存储在码本中的原型音调脉冲,可使用基频相依性合成激励频谱。此合成激励频谱是通过在时域中个别地模型化每一谐波分量获得。然而,谐波被取为基频的整数倍,这使得难以模型化谐波抖动。此类时域方法可强化特定谐波(即谐波的频率相依性强化),但可能不能够去强化谐波之间的区。本公开的方面不仅可能强化谐波(信号频谱中的峰值)且还可能控制谷值的深度和宽度。这有助于另外减少两个谐波之间的噪声。并且,由于谐波被取为基频的整数倍,因此应非常精确地估计此情况,否则模型在更高频率下可能失配。然而,根据本公开,即使来自基频估计器的所估计基频与正分析的信号帧的基频之间存在失配,仍可考虑到此情况,如上文所描述。因此,可减少/避免在更高频率下的失配。
另一方法在后处理级中模型化复杂增益函数。然而,本公开的方面用于估计谐波频谱自身。复杂增益函数方法中的基频估计可是基于长期线性预测方法。可取决于信号的长期演进的此方法可产生与当前帧的基频偏离的基频估计。结果,由于基频存在偏离,模型在更高频率中可遭受模型失配。可能并未在复杂增益函数方法中校正此偏离,且因此增益函数可仅应用于低频区。这可为复杂增益函数方法的缺点。本公开的方面可应用于整个频谱,且还可优化基频估计,从而使得可准确地补偿与基频估计模块的偏离。由于复杂增益函数方法可模型化增益函数,因此其可能并不用于强化谐波。本公开的方面可并不遭受此约束条件。如上文所论述,在需要时,振幅A可被选择为强化谐波。复杂增益函数方法可模型化复杂增益函数,即通过增益修改相位和振幅。如果并未适当地估计此相位或如果基频估计存在误差,那么此方法可将伪迹引入到信号中。本公开的方面可模型化振幅且可并不干扰信号的相位,且因此并不遭受此缺点。复杂增益函数方法可能不允许容易地进行运算。其可仅具有两个(相关)参数且最大增益限于1,其仅可控制增益函数的深度。本公开的方面提供更易于参数化的模型,借助于此可能控制峰值和谷值的高度和深度以及其宽度。此外,可以频率相依性方式来进行此操作。
本公开的方面提供在频谱域中模型化由音调谐波构成的激励信号以用于语音处理的方法。其可用于多或单声道语音处理应用,例如噪声减少、源分离、静音检测、带宽扩展、回声抑制、可懂度改进等。在此应用内,可以若干方式使用本公开。举例来说,在噪声减少中,此方法可用于改进对例如用于增益计算的先验SNR的相关算法参数的估计,或用于直接重建构增强语音信号。本公开的方面可组合统计模型化连同语音信号在发声期间的性质知识,且借此可甚至能够保持(和/或重建构)信号中的语音的弱谐波结构。核心特征是用于模型化音调谐波的频谱的函数族。在此情况下,可按应用需要很好地参数化并调谐模型。此外,此模型可独立于特定基频估计方法。
除非明确陈述特定顺序,否则可以任何顺序执行上文图式中的指令和/或流程图步骤。并且,本领域的技术人员将认识到,虽然已论述一个示例性指令集/方法,但在本说明书中的材料可以多种方式组合从而还产生其它例子,并且应在此详细描述提供的上下文内来进行理解。
在一些示例性实施例中,上文所描述的指令集/方法步骤实施为体现为可执行指令集的功能和软件指令,所述可执行指令集在计算机或以所述可执行指令编程和控制的机器上得以实现。此类指令被加载用于在处理器(例如一个或多个CPU)上执行。术语处理器包括微处理器、微控制器、处理器模块或子系统(包括一个或多个微处理器或微控制器),或其它控制或计算装置。处理器可指单个组件或多个组件。
在其它例子中,本文中示出的指令集/方法以及与其相关联的数据和指令存储于相应存储装置中,所述存储装置被实施为一个或多个非暂时性机器或计算机可读或计算机可用存储媒体。此类计算机可读或计算机可用存储媒体被视为物品(或制品)的一部分。物品或制品可指任何所制造的单个组件或多个组件。如本文中所限定的非暂时性机器或计算机可用媒体不包括信号,但此类媒体可能够接收并处理来自信号和/或其它暂时性媒体的信息。
本说明书中论述的材料的示例性实施例可整体或部分地经由网络、计算机或基于数据的装置和/或服务来实施。这些可包括云、互联网、内联网、移动装置、台式计算机、处理器、查找表、微控制器、消费者设备、基础架构,或其它启用装置和服务。如本文和权利要求书中可使用,提供以下非排他性限定。
在一个例子中,使本文中论述的一个或多个指令或步骤自动化。术语自动化或自动地(和其类似变型)意指使用计算机和/或机械/电气装置来控制设备、系统和/或过程的操作,而不需要人类干预、观察、努力和/或决策。
应了解,称为耦接的任何组件可直接或间接地耦接或连接。在间接耦接的情况下,可在称为耦接的两个组件之间定位额外组件。
在本说明书中,已依据选定的细节集合而呈现示例性实施例。然而,本领域的普通技术人员将理解,可以实践包括这些细节的不同选定集合的许多其它示例性实施例。希望以下权利要求书涵盖所有可能的示例性实施例。

Claims (10)

1.一种信号处理器,其特征在于,包括:
模型化块,包括
模型化块输入信号端,其被配置成接收频域输入信号;
基频输入端,其被配置成接收表示所述频域输入信号的基频的基频信号;以及
模型化输出端,其被配置成基于周期函数提供音调模型信号,所述音调模型信号跨越多个离散频段,每一离散频段具有相应的离散频段索引,其中在每一离散频段内,所述音调模型信号由以下限定:
所述周期函数;
所述基频;
所述频域输入信号;以及
所述相应离散频段索引,
运算块,包括:
运算块输入信号端,其被配置成接收所述频域输入信号的表示;
模型输入端,其被配置成从所述模型化块接收所述音调模型信号的表示;以及
输出端,
其中所述运算块被配置成基于所述频域输入信号和所述音调模型信号,将输出信号提供到所述输出端。
2.根据权利要求1所述的信号处理器,其特征在于,所述音调模型信号包括用于每一离散频段的振幅,每一相应振幅是根据所述频域输入信号确定。
3.根据权利要求1或权利要求2所述的信号处理器,其特征在于,所述音调模型信号包括用于每一离散频段的添加到所述周期函数的偏移,每一相应偏移是根据所述频域输入信号确定。
4.根据在前的任一项权利要求所述的信号处理器,其特征在于,所述音调模型信号对于每一离散频段限于上部最大值,每一相应上部最大值是根据所述频域输入信号确定。
5.根据在前的任一项权利要求所述的信号处理器,其特征在于,所述音调模型信号对于每一离散频段限于下部最小值,每一相应下部最小值是根据所述频域输入信号确定。
6.根据在前的任一项权利要求所述的信号处理器,其特征在于,所述音调模型信号是基于针对每一离散频段指数运算为幂的所述周期函数的模数,每一相应幂是根据所述频域输入信号确定。
7.根据在前的任一项权利要求所述的信号处理器,其特征在于,进一步包括先验信噪比估计块,所述先验信噪比估计块包括:
噪声功率估计端,其被配置成接收基于所述频域输入信号的噪声功率估计信号;
运算输入端,其耦接到所述运算块的所述输出端且被配置成接收所述输出信号;以及
先验信噪比估计输出端子,其被配置成基于所述噪声功率估计信号和所述输出信号,提供先验信噪比估计信号。
8.根据在前的任一项权利要求所述的信号处理器,其特征在于,所述运算块进一步包括包络估计块,所述包络估计块被配置成接收所述频域输入信号,并基于所述频域输入信号和预定包络数据,确定包络信号,且
其中所述运算块被配置成基于所述音调模型信号与所述包络信号的合并,提供所述输出信号。
9.一种计算机程序,其在计算机上运行时致使所述计算机配置根据在前的任一项权利要求所述的信号处理器。
10.一种信号处理方法,其特征在于,包括:
接收频域输入信号;
接收表示所述频域输入信号的基频的基频信号;以及
基于周期函数提供音调模型信号,所述音调模型信号跨越多个离散频段,每一离散频段具有相应的离散频段索引,其中在每一离散频段内,所述音调模型信号由以下限定:
所述周期函数;
所述基频;
所述频域输入信号;以及
所述相应离散频段索引,
接收所述频域输入信号的表示;
接收所述音调模型信号的表示;以及
基于所述频域输入信号和所述音调模型信号,提供输出信号。
CN201810408102.5A 2017-04-28 2018-04-28 信号处理器 Active CN108806721B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17168797.3A EP3396670B1 (en) 2017-04-28 2017-04-28 Speech signal processing
EP17168797.3 2017-04-28

Publications (2)

Publication Number Publication Date
CN108806721A true CN108806721A (zh) 2018-11-13
CN108806721B CN108806721B (zh) 2023-08-29

Family

ID=58709216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810408102.5A Active CN108806721B (zh) 2017-04-28 2018-04-28 信号处理器

Country Status (3)

Country Link
US (1) US10453469B2 (zh)
EP (1) EP3396670B1 (zh)
CN (1) CN108806721B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11268997B1 (en) * 2020-08-18 2022-03-08 Keysight Technologies, Inc. Method and apparatus for characterizing homodyne transmitters and receivers
CN112309425A (zh) * 2020-10-14 2021-02-02 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210224A1 (en) * 2007-08-31 2009-08-20 Takashi Fukuda System, method and program for speech processing
CN101779236A (zh) * 2007-08-24 2010-07-14 高通股份有限公司 基于频率子频带中的频谱动态的音频译码中的时间掩蔽
CN102714041A (zh) * 2009-11-19 2012-10-03 瑞典爱立信有限公司 改进的激励信号带宽扩展
CN103189916A (zh) * 2010-11-10 2013-07-03 皇家飞利浦电子股份有限公司 估计信号模式的方法和设备
CN105103226A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 低复杂度音调自适应音频信号量化
CN106257584A (zh) * 2015-06-17 2016-12-28 恩智浦有限公司 改进的语音可懂度
US9570057B2 (en) * 2014-07-21 2017-02-14 Matthew Brown Audio signal processing methods and systems

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US8219390B1 (en) * 2003-09-16 2012-07-10 Creative Technology Ltd Pitch-based frequency domain voice removal
US7809559B2 (en) * 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
KR101518532B1 (ko) * 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
HUE062540T2 (hu) * 2011-02-18 2023-11-28 Ntt Docomo Inc Beszédkódoló és beszédkódolási eljárás
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
JP6407150B2 (ja) * 2013-06-11 2018-10-17 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音響信号の帯域幅拡張を行う装置及び方法
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
JP6496030B2 (ja) * 2015-09-16 2019-04-03 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
KR102636396B1 (ko) * 2015-09-25 2024-02-15 보이세지 코포레이션 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템
US9947341B1 (en) * 2016-01-19 2018-04-17 Interviewing.io, Inc. Real-time voice masking in a computer network
US10403307B2 (en) * 2016-03-31 2019-09-03 OmniSpeech LLC Pitch detection algorithm based on multiband PWVT of Teager energy operator
EP3242295B1 (en) 2016-05-06 2019-10-23 Nxp B.V. A signal processor
US10360892B2 (en) * 2017-06-07 2019-07-23 Bose Corporation Spectral optimization of audio masking waveforms

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101779236A (zh) * 2007-08-24 2010-07-14 高通股份有限公司 基于频率子频带中的频谱动态的音频译码中的时间掩蔽
US20090210224A1 (en) * 2007-08-31 2009-08-20 Takashi Fukuda System, method and program for speech processing
CN102714041A (zh) * 2009-11-19 2012-10-03 瑞典爱立信有限公司 改进的激励信号带宽扩展
CN103189916A (zh) * 2010-11-10 2013-07-03 皇家飞利浦电子股份有限公司 估计信号模式的方法和设备
CN105103226A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 低复杂度音调自适应音频信号量化
US9570057B2 (en) * 2014-07-21 2017-02-14 Matthew Brown Audio signal processing methods and systems
CN106257584A (zh) * 2015-06-17 2016-12-28 恩智浦有限公司 改进的语音可懂度

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ESFANDIAR ZAVAREHEI ETAL: "Noisy Speech Enhancement Using Harmonic-Noise Model and Codebook-Based Post-Processing", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING 》 *
WERAYUTH CHAROENRUENGKIT ETAL: "Multiband Excitation for Speech Enhancement", 《 2009 IEEE 13TH DIGITAL SIGNAL PROCESSING WORKSHOP AND 5TH IEEE SIGNAL PROCESSING EDUCATION WORKSHOP》 *
ZHANG YANFANG ETAL: "SPEECH ENHANCEMENT USING HARMONICS REGENERATION", 《JOURNAL OF ELECTRONICS (CHINA)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统

Also Published As

Publication number Publication date
US10453469B2 (en) 2019-10-22
EP3396670A1 (en) 2018-10-31
EP3396670B1 (en) 2020-11-25
US20180315439A1 (en) 2018-11-01
CN108806721B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US10430154B2 (en) Tonal/transient structural separation for audio effects
CN109767783A (zh) 语音增强方法、装置、设备及存储介质
US8543387B2 (en) Estimating pitch by modeling audio as a weighted mixture of tone models for harmonic structures
EP0853309B1 (en) Method and apparatus for signal analysis
JP2018521366A (ja) 音響信号をサウンドオブジェクトに分解する方法及びシステム、サウンドオブジェクト及びその利用
JP2009042716A (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
CN108806721A (zh) 信号处理器
US9626949B2 (en) System of modeling characteristics of a musical instrument
CN105845149A (zh) 声音信号中主音高的获取方法及系统
US20170024495A1 (en) Method of modeling characteristics of a musical instrument
JP5433696B2 (ja) 音声処理装置
CN101136204A (zh) 信号处理方法和设备
Moorer A note on the implementation of audio processing by short-term fourier transform
CN108369803A (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
CN107969164B (zh) 适应性信道间判别再缩放滤波器
US10297272B2 (en) Signal processor
CN110379438B (zh) 一种语音信号基频检测与提取方法及系统
US20110132179A1 (en) Audio processing apparatus and method
US20230377591A1 (en) Method and system for real-time and low latency synthesis of audio using neural networks and differentiable digital signal processors
CN105989837B (zh) 音频匹配方法及装置
JP2005503580A (ja) 二段階ピッチ判断方法および装置
CN112908351A (zh) 一种音频变调方法、装置、设备及存储介质
US11069373B2 (en) Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program
JP2003076385A (ja) 信号分析方法および信号分析装置
US20160029123A1 (en) Feedback suppression using phase enhanced frequency estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant