CN102272826B - 电话内容信号鉴别 - Google Patents

电话内容信号鉴别 Download PDF

Info

Publication number
CN102272826B
CN102272826B CN200880132621.8A CN200880132621A CN102272826B CN 102272826 B CN102272826 B CN 102272826B CN 200880132621 A CN200880132621 A CN 200880132621A CN 102272826 B CN102272826 B CN 102272826B
Authority
CN
China
Prior art keywords
band signal
signal
band
lln
changing value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200880132621.8A
Other languages
English (en)
Other versions
CN102272826A (zh
Inventor
A·J·马科宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN102272826A publication Critical patent/CN102272826A/zh
Application granted granted Critical
Publication of CN102272826B publication Critical patent/CN102272826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

描述了一种用于将电话内容信号鉴别为第一类别或第二类别的方法。该方法包括:用于从电话内容信号获得包括一个或多个带信号的带信号集合的滤波过程,每个带信号与相应频带相关联,所述带信号的至少一个是与电话内容信号的全频带的子带相关联的子带信号(n)。而且,提供确定过程用于确定所述带信号集合的每个带信号(n)的带信号变化值(LLn)和带信号强度值(TLn)。最后,鉴别过程鉴别电话内容信号是属于第一类别还是属于第二类别。鉴别过程包括:用于评估所述子带信号(n)的带信号变化值(LLn)和所述带信号强度值(TLn)的关系的无条件步骤和有条件步骤之一或二者。

Description

电话内容信号鉴别
技术领域
本发明涉及网络系统中的通信,并且更具体地,涉及用于将电话内容信号鉴别为第一类别或第二类别的方法、对应的计算机程序产品和用于将电话内容信号鉴别为第一类别或第二类别的信号处理装置。
背景技术
在通过诸如电话网络的网络进行通信的领域中,存在其中重要的是区别和鉴别通过网络传送的业务类别的情形。
例如,在网络节点(如,用于诸如话音或语音带数据(VBD)的64kbpsPCM(脉冲编码调制)业务类型的媒体网关(MGW))中,存在转接呼叫的情况。使用语音带信号(例如,在从300Hz到3kHz的范围中;典型地该带被认为是4KHz,由此导致0与4kHz之间的范围)的传真通信是VBD或调制解调器之间的数据通信的示例。由于两种类型信号使用相同带的事实,控制平面基本上不能够告诉有效载荷是话音还是VBD。有时期望在转接呼叫的情况中,网络节点也进行某些服务,它们设计成改进话音的感知质量。例如,自适应抖动缓冲是这种服务,其变得越来越重要,因为运营商开始越来越多地使用基于分组的网络(如,因特网)代替传统的电路交换网络进行传输。然而,如自适应抖动缓冲的服务可阻止VBD呼叫进行工作。例如,如果在网络节点内由于自适应抖动缓冲而暂时增加了缓冲延迟,则后来某时将通过逐渐丢掉媒体的一些部分再次使延迟变小而有益于会话质量——这有时也称为拦截(catch up)——并且然后进一步继续,当发生新延迟峰时,缓冲器将下溢,使得插入某种错误隐藏或空闲模式等等。这不会干扰话音太多——特别是如果在检测的无声时段期间进行拦截——然而,它将破坏VBD信号的完整性,例如引起重传和重新同步调制解调器,并且最终可发生某些服务超时,并且在实际上是该情况之前认为呼叫完成。
因此,在诸如MGW的网络节点中期望对这些情况的一些检测。典型的标准化的(或者换句话说传统的)方法是使用另一上下文中为某种服务定义的音调检测器,例如在ITU-T的G.168中规定的回声消除器。
标准化的或传统的音调检测器通常非常谨慎,并且调谐用于非常可靠而准确地检测某些特定音调,从而进行可靠的、不可逆的和一次性的判定。
这通常还是它们需要相当大处理容量(典型地大约1MIPS(百万指令每秒))的原因。
而且,在某些业务情况中,它们对于覆盖在给定使用情况中应该检测的所有可能VBD或音调情况太有限了。
因此,上述技术有几个缺点,例如(除了别的以外),未提供足够准确性或需要高处理功率。所述技术因此可能根本不适合某些应用。
在US 5,999,898中公开了用于在语音和语音带数据之间鉴别的另一个已知技术。其中,通过计算输入信号的多个参数来进行鉴别。该方法包括:计算输入信号的功率和平均功率,然后使用它们,以进一步计算输入信号的功率变化函数和输入信号的自相关函数。所述参数的组合用于确定提供鉴别判定的鉴别因子。然而,这个建议的方法和设备有几个缺点,例如但不限于,仍需要高处理功率或未提供高准确性。此现有技术还可能提供误检,并因此不适于上面讨论的某些应用。
发明内容
本发明的目的是提供对用于在第一类别与第二类别之间鉴别电话内容信号的已知技术的改进。
根据本发明的第一实施例,提供了一种用于将电话内容信号鉴别为第一类别和第二类别的方法。电话内容信号是适于承载不同类别业务的信号,类别例如包括话音和非话音。
该方法包括用于从电话内容信号获得包括一个或多个带信号的带信号集合的滤波过程。注意,电话内容信号可基本上具有任何适当类型。根据优选示例,它是语音带(大约0Hz到大约4kHz)中的信号。集合中的每个带信号与相应频带相关联。这些带信号之一可以是输入信号,例如,在语音带输入信号情况下具有包含在0Hz与4kHz之间的语音带。然而,所述带信号的至少一个是与电话内容信号的全频带的子带相关联的子带信号。由此,如果集合只包括一个信号,则它是子带信号。
该方法还包括用于确定所述带信号集合的每个带信号的带信号变化值和带信号强度值的确定过程。换句话说,确定给出集合中每个带信号变化多强的指示的一个度量,并且确定给出集合中每个带信号有多强的指示的另一个度量。
而且,提供用于鉴别电话内容信号是属于第一类别还是属于第二类别的鉴别过程。鉴别过程包括用于评估子带信号的所述带信号变化值和所述带信号强度值的关系(例如,形成和分析比率或商)的无条件步骤和有条件步骤之一或二者。换句话说,鉴别过程使得至少在给定条件下估计子带信号,以进行鉴别判定。在用于评估的无条件步骤的情况下,对于鉴别必须考虑子带信号的所述带信号变化值和所述带信号强度值的关系。在用于评估的有条件步骤的情况下,在例如另一个鉴别准则未得到明确判定的预定条件下,考虑子带信号的所述带信号变化值和所述带信号强度值的关系,使得子带信号的所述带信号变化值和所述带信号强度值的关系然后被评估为用于做出鉴别判定的另一准则。
因此,本发明的方法具有将与全部输入信号的子带(即,具有比全部输入信号小的带宽)有关系的信号的行为考虑进去的容量。
该方法可实施为包括布置用于实施该方法的部分的计算机程序产品。
根据本发明的进一步的实施例,提供一种用于将电话内容信号鉴别为第一类别或第二类别的信号处理装置。
该信号处理装置包括用于从电话内容信号获得包括一个或多个带信号的带信号集合的滤波器。每个带信号与相应频带相关联,所述带信号的至少一个是与电话内容信号的全频带的子带相关联的子带信号。
信号处理装置还包括用于确定所述带信号集合的每个带信号的带信号变化值和带信号强度值的确定器。
信号处理装置还包括用于鉴别电话内容信号是属于第一类别还是属于第二类别的鉴别器。鉴别器适于评估所述带信号集合的每个带信号的所述带信号变化值和所述带信号强度值的关系。
在从属权利要求中定义了本发明的另外的有利实施例。
而且,本发明还基于发明人的发现和洞察(至少在信号的子带上而不只是在输入信号上执行鉴别),提供了在不同类别输入信号之间的准确得多的鉴别。此外,可获得所述更准确的鉴别,同时当与一些已知技术(如,例如基于音调检测的那些)相比时降低了所需处理功率。
本发明提供的解决方案在不同类型输入信号下还提供了更高的准确性,由此使本发明更通用并可应用于各种各样的应用。
本发明避免了现有技术的至少一些缺点(如,例如上面解释的),并且提供了用于鉴别电话信号类别的改善的方法、装置和计算机程序。
附图说明
图1是示出根据本发明一实施例的方法中包含的过程的示意性流程图;
图2是根据本发明另一个实施例的信号处理装置的功能框图;
图3例证了用于通过使用半带滤波器块从电话内容信号获得子带信号的示例;
图4是由全通子滤波器实现的半带滤波器的例证性示例;
图5示出了根据对输入信号(如,电话内容信号)进行滤波的示例的、不同滤波器级的线性幅度;
图6示出了如在本发明的一个例证性实现中分析的、典型话音记录的线性样本;
图7示出了根据非话音信号的一个示例的、9600kbps传真的典型VBD记录的线性样本;
图8示出了根据本发明可应用到其的话音信号示例的、话音记录的子带电平样本;在例证的情况下,呈现了50ms的例证性时间间隔;
图9示出了根据本发明可应用到其的非话音信号示例的、VBD记录的子带电平样本;在例证的情况下,呈现了50ms的例证性时间间隔;
图10例证了用于根据示例的话音记录的、带信号强度值和带信号变化值之间的比率(TLn(s)/LLn(s)比率);曲线图引用在表示判定点的某一时刻[s]处的示例中;
图11例证了用于非话音记录(如,VBD记录)的、带信号强度值和带信号变化值之间的比率(TLn(s)/LLn(s)比率);曲线图引用在表示判定点的某一时刻[s]处的示例中。
具体实施方式
在下文中,将参考附图描述本发明的优选实施例。注意,下面的描述包含服务于更好理解要求权利保护的概念、但不应解释为限制要求权利保护的发明的示例。
图1的示意性流程图示出了由根据本发明一实施例的方法执行的过程,用于将电话内容信号鉴别为第一类别或第二类别。要注意,可以呈现多于两个的类别,其中该方法在所述类别中的两个中进行鉴别,或者在所有所述类别中进行鉴别。
电话内容信号是适于承载不同信号类别或信号类型的信号。例如,电话内容信号的第一类别可以是话音,而第二类别可以是非话音。话音的类别可包括与例如根据PCM编码的语音呼叫有关系的业务。然而,注意,可以使用其它不同类型的编码,举例来说,PCM的修改(如,差分PCM、自适应PCM)或其它类型的编码(如,FR、AMR以及本领域技术人员将容易认识到适于期望应用的其它编码)。应该注意,根据某些类型编码(如,A-率/μ-率PCM、GSM FR、GSM EFR或AMR)来编码的话音应该在根据本发明进行处理前被解码到线性样本域。可作为预处理步骤执行到线性样本域的解码。解码的线性样本可例如每次以例如40或160个样本的块打包。非话音的类别可包括:例如与传真传输、借助调制解调器或传输进行的数据传输或其它类型的消息或信号(如,CTM(蜂窝文本电话调制解调器)信号)有关系的业务。在语音带输入信号的情况下,非话音类别可看作包括语音带数据(VBD),因为它包括的数据承载在与语音呼叫所用的相同频带上。
备选地,还可以类别的一种是数据而另一种是非数据的方式来选择类别。另外的备选在于:可以类别的一种(或一些)在一个(或一些)子带中表现为平稳而类别的一种(或一些)在相应子带中非平稳的方式来选择类别。平稳在此上下文中意味着与非平稳类别相比,带信号变化(LLn)比带信号强度(TLn)明显小。
滤波过程(110)从电话内容信号获得包括一个或多个带信号的带信号集合,其中每个带信号与某一频带相关联。换句话说,滤波过程从电话内容信号产生一个或多个带信号,每个都具有可窄于电话内容信号频带或包含在电话内容信号频带内的相应频带。获得带信号集合可包括如下操作:对电话内容信号进行滤波以便产生给定数量的带信号,并且在带信号集合中只包含所述给定数量的子带信号的预定数量。换句话说,如果滤波本身产生了许多NBS带信号,则通过滤波过程获得的带信号集合可刚好只包括所述NBS带信号的一个或给定数量Nset的所述带信号,其中Nset小于或等于NBS。此外,带信号集合还可包括电话内容信号本身,即,未滤波的信号。
可以本领域技术人员已知的任何适当或期望方式来执行滤波。例如,如将在本发明的进一步的实施例中说明的,可以使用基于抽取技术的滤波。然而,本发明不限于抽取技术,而是还可以通过实现不同滤波技术来实践,只要这些技术产生具有比输入电话内容信号的频带小的预定频带的、至少一个子带信号。
包含在带信号集合中的带信号的至少一个是与电话内容信号的全频带的子带相关联的子带信号。换句话说,带信号集合中的至少一个带信号是通过滤波获得的子带信号,并且因此其特征在于具有落入电话内容信号的频带之内的频带。
如上面提到的,电话内容信号在一个示例中可以是PCM编码信号,也称为PCM语音带信号。然而,本发明不限于编码技术的这个示例,而是如上面说明的,还可应用于根据其它技术编码的信号。
用于鉴别电话内容信号的方法还包括:也在图1中例证的、用于确定所述带信号集合的每个带信号的带信号变化值和带信号强度值的确定过程(120)。带信号变化值是指示带信号的变化水平的值。可以多种方式计算这个值。
例如,带信号强度值可确定为给定时段上的平均信号功率,并且带信号变化值可确定为相对于给定时段上的平均信号功率的方差。
为了说明的目的,带信号集合具有Nset个成员,每个一般被指配n,其中n={1,...,Nset}并且Nset>0。每个带信号n的信号处理将一般地包括确定对应带信号电平bn(例如,由采样电路在点i处输出时的值bn(i))。
为了与用已知方式计算平均信号功率和功率方差相比简化计算要求,有可能例如对于带信号样本值(优选是连续的)之间的差求和,作为用于确定给定带信号n的变化值的基础。优选地,应该在带信号样本值的正度量(例如,通过计算带信号样本值的绝对值或平方值)上来计算所述差。然而,在非正度量之间计算的差可应用在某些特定情形下,例如当样本值已经为正或几乎始终为正时。这些样本可与电平值bn(i)相同,或者它们可由(例如在期望的时间间隔上)对电平值的处理而产生。一般而言,带信号n的样本值可指配为bln,并优选可定义为:
bl n = Σ i = 0 N n - 1 | b n ( i ) |
其中Nn表示在其上处理电平值的间隔大小。Nn基本上可以任何适当或期望的方式来选择,例如等于1,在此情况下,样本值等于单个电平值。Nn还可选择成对应于期望的时间间隔Δx,例如50ms。依赖滤波后可用的样本点数,Nn对于每个n可以不同。注意,优选通过在绝对值上求和来确定bln,但这不是必须的。如果信号电平值bn(i)全都是正的,则还可免除绝对值的计算。信号电平bn(i)不必一定以采样形式,因为实际上通过使用用于计算带信号值的适当电路(例如,用于检测在给定时间的信号电平的适当电路或用于在给定时段对信号积分的电路)或用于计算带信号变化值的适当电路(例如,用于评估在不同时刻的值的差的适当电路),在模拟信号(不是数字采样)上的操作也是可能的。
还可在不连续点的样本之间的差(例如,在代表任意时刻的信号电平的值之间的差)上得到指示的和。
一般而言,变化度量的确定可包括:计算可称为带信号的“线长度”的属性,其中“线长度”表示由带信号的时域曲线图产生的线的长度。计算信号线长度的一种方式是例如通过对所述值的平方值求和并计算获得的和的平方根,来将两个信号样本值之间的差和分离两个信号样本的时间距离考虑进去。当信号样本之间的时间差已知、恒定或者不影响最终结果时,线长度可由在连续时刻的信号样本值之差的绝对值之和来近似。
如提到的,确定过程可包括确定带样本,其中带样本指示信号电平。带样本可包括表示信号电平的单个值,例如信号幅度的采样值(然而,非采样值也是适当的,如上面例证的)。带样本还可包括给定数量的信号电平的和,例如带样本可包括连续样本的和,或者给定集合中的样本的和(然而,非采样值也是适当的,如上面例证的)。确定带信号变化值可包括在预定范围上对带样本的差求和。换句话说,确定信号变化值可包括确定上面指示的多个带样本(例如,每个带样本表示信号的信号电平的单个值或信号的多个信号电平的和),计算确定的带样本之间的差(例如,任何两个确定的带样本之间的差;或在确定的带样本之中选择的任意对带样本之间的多个差),并对计算的差求和。预定范围可包括预定时段或时间窗口Δx,在其中确定每个带样本。例如,带样本可确定为表示在每个时段Δx(例如,50ms)的信号电平的值。在另一个示例中,带样本可确定为指示信号值的值的和,其中所述值是在给定时间窗口内出现的那些值。
如描述的,带样本的差可以是连续带样本的差。换句话说,带信号变化值可计算为表示在由给定时段分离的两个时刻的信号电平的两个连续单个值之间的差(例如,当带样本表示单个信号电平时),或者可计算为每个都表示信号电平的多个值的两个和之间的差,多个值中的每个在给定时段或时间窗口中被检测或出现,其中在一个示例中的两个和是指两个连续时段或时间窗口。
由此,可根据下式来计算带信号n的带变化值,其称为LLn′(LL代表线长度):
选择多个时间窗口或时段1、...、k-1、k、...、Ns,并且带变化值根据下式可计算为连续带样本之间的差的所有绝对值之和:
LL n ′ = Σ k = 0 N s | bl n ( k ) - bl n ( k - 1 ) |
其中bln(k)和bln(k-1)是在对应时段k和k-1中或对应时段k和k-1处的带样本。这只是一个示例,并且求和结果例如可以在所考虑的时段或时间窗口上进行平均,如在下式中:
LL n ′ = Σ k = 0 N s | bl n ( k ) - bl n ( k - 1 ) | / N s
其中Ns表示考虑的时段或时间窗口的总数。显然,用于基于样本差导出变化度量的其它公式是可想到的。
上面例证的示例易于计算并要求非常低的处理功率。当计算不是基于单个值而是基于在给定时段或时间窗口Δx中出现的大量信号电平时,结果更可靠,因为它未被例如由噪声、传输或编码错误引起的瞬时或突发变化偏置。
优选地,确定带变化值包括对指示的差的绝对值求和。提供的优点在于确定更加准确,因为它不受在采样中可能出现的负值的影响。
相对于带变化值进行的类似的考虑也施加到对带信号强度值的计算,其也可从上面指示的带样本开始计算。因此,例如,信号强度值可计算为选择为表示信号强度的单个信号电平,或计算为在预定时段出现的信号电平的和,或计算为在给定时段或时间窗口中出现的信号电平和。有利的是,该时段或时间窗口可以是在其中也计算带变化值的时段或时间窗口。信号电平或带样本的和显然可包括对应的绝对值的和。不同的可能实现在相对于计算带变化值例证的、结果的准确性和可靠性方面带有相同的优点。
由此,通过进行上面相对于带变化值所进行的相同的考虑,可以根据任何下面的示例或其变形例证的各种方式,来计算带信号n的信号强度值(称为TLn′(TL代表总电平)),只要它们提供带信号强度的指示:
TLn′=bln(k)
其中bln(k)是在时段或时间窗口k中的单个样本值。优选地,根据下式确定TLn′:
TL n ′ = Σ k = 0 N s | bl n ( k ) |
其中考虑多个时段;或根据下式:
TL n ′ = Σ k = 0 N s | bl n ( k ) | / N s
其中在时段数上对多个时段上的和求平均。显然,用于基于对样本值求和导出信号强度度量的其它公式是可想到的。
在本发明的确定过程中,计算每个带信号的一个带信号变化值和一个带信号强度值并然后实施鉴别过程就足够了。优选地,对于相继判定点(在下文中称为s)来执行确定过程,其中,对于每个判定点s,为带信号集合的每个带信号确定初步带信号变化值(LLn′)和初步带信号强度值(TLn′)。判定点例如可以是在其中执行确定过程或在其中执行鉴别过程的时刻。例如,当在给定时刻进行判定时,以上面说明的方式中的一种,首先对于带信号变化值以及对于带信号强度值计算初步值。然后,依赖于这些初步值,例如,关于先前判定点处计算的对应值或关于阈值,决定是否将这些初步值看作为了随后的鉴别步骤要在给定判定点使用的值(例如,用于给定判定点的最终值),或者是否根据预定参数修改这些初步值,以获得在给定判定点的、用于鉴别的值,或者是否保持先前判定点处计算的值,并且例如丢弃暂时的初步值。
由此,确定过程可包括对于每个带确定如下项的修改过程:
-用于给定判定点(s)的带信号变化值(LLn)依赖于初步带信号变化值(LLn′)和与先前判定点(s-1)相关联的带信号变化值,和/或
-带信号强度值(TLn)依赖于初步带信号强度值(TLn′)和与先前判定点(s-1)相关联的带信号强度值。
如上面说明的,用于确定给定判定点的值的初步值的修改或校正和使用提供了改善的准确性和对误鉴别的复原性(resiliency)。
在一个示例中,可根据下式计算在给定判定点s的带信号变化值(LLn):
如果(LLn′<LLn(s-1))LLn(s)=LLn
否则LLn(s)=(1-α1)*LLn(s-1)+α1*LLn
其中LLn′表示初步值(n代表带信号的带,即,电话内容信号的子带或未滤波的电话内容信号),而LLn(s)表示在给定判定点确定的、并在给定判定点用于鉴别电话内容信号的值。换句话说,并且通过参考这个示例,例如遵循上面描述的方式中的一种来计算带信号变化值的初步值LLn′。如果发现在某一点s的带信号变化值的初步值低于先前判定点(优选为紧接着的前面的判定点s-1)的对应的值,则确定,在给定判定点s的带信号变化值LLn的值可设置成等于初步值LLn′。显然可以指示不同的条件(包括复函数,而不是上面指示的那个),只要它们提供信号变化值在不同判定点上如何改变的指示。在另一种情况下,即,当初步值大于或等于先前判定点的对应的值时,则在给定判定点的带信号变化值LLn的值被确定为(在一些实现中通过适当的预定系数校正的)初步值LLn′和/或(在一些实现中通过适当的预定系数校正的)先前判定点的对应的值的函数。系数例如可通过配置或优化过程确定一次,但是也可以是自适应系数,即,根据情形动态改变。
遵循类似考虑,例如可以根据下式计算在给定判定点s的带信号强度值TLn(s)(其中n代表带信号的带,即,电话内容信号的子带或未滤波电话内容信号):
如果(TLn′>TLn(s-1))TLn(s)=TLn
否则TLn(s)=(1-α2)*TLn(s-1)+α2*TLn
换句话说,在上述示例的一个中计算初步值。然后,如果验证给定条件(例如,当初步值大于先前判定点的对应的值时),就将在给定判定点使用的值确定为初步值。当然可以使用包括函数的其它条件,只要它们提供在判定点之间信号强度变化如何改变的指示。当判断未验证提到的条件时,则作为对应的初步值和/或先前判定点的值的函数,来计算在给定判定点的值。函数可包括合适的预定参数或自适应参数,类似于对计算带信号变化值提到的参数。
在以上示例中,在判定在给定判定点实际上使用哪些值用于随后的鉴别之前,估计不同判定点之间的带信号变化值的变化和/或带信号强度值的变化。这是提供带信号变化值和带信号强度值的一类不对称低通滤波的更一般想法的示例。根据以上示例,当在给定判定点的带信号变化值与在先前判定点的值相比较减小时,将在给定判定点的带信号变化值作为初步值;否则,即,当带信号变化值与先前值相比较改变或者增加时,衰减其值。类似地,当其值从先前点减小时可衰减带信号强度值。上面实现的一个结果是,当带信号变化值增大和/或当带信号强度值减小时,衰减了在两个判定点之间的、带信号强度值与带信号变化值之间的比率(TLn/LLn)的减小。也将结合将在下面说明的内容而变得明显的是,在一个示例中比率TLn/LLn可用于鉴别电话内容信号。上面提到的衰减提供了对从TLn/LLn的高值到TLn/LLn的低值的改变的衰减,即,从所述比率的高值到低值的改变被“延迟”或平滑了。因此,如也将从下面的讨论而显然的,避免了在话音/非话音鉴别器中将非话音错误检测为话音。这种错误检测在某些应用中可引起问题,因此建议的示例通过避免不期望的错误鉴别提供了更高的可靠性。通过适当地改变验证条件和参数,可以避免不同的错误检测,即,通过反转上面示例中的测试条件并在必要时调整系数,可以避免将话音错误鉴别为非话音。
在对于相继判定点执行确定过程的上面的示例中,可根据之前提到的任何示例计算带信号变化值和带信号强度值。这允许确定更准确的参数,因为通过考虑不同判定点来进行确定,并得到更准确和可靠的电话内容信号鉴别,从而降低误鉴别的发生率。
如讨论的一样,有利的是,上面描述的修改过程对于衰减所述带信号变化值(LLn)的增大和/或所述带信号强度值(TLn)的减小是不对称的。对应的优点在于防止错误鉴别。
通过将修改过程布置用于设置给定判定点(s)的带信号变化值(LLn),可以实现这种衰减效果,使得:
LLn(s)=(1-α1)×LLn(s-1)+α1×LLn
如果LLn′>LLn(s-1),其中LLn(s)表示给定判定点的带信号变化值,LLn(s-1)表示先前判定点的带信号变化值,α1表示常量(其中0≤α1≤1),并且LLn′表示初步带信号变化值。作为以上条件的附加或备选,修改过程还可布置用于设置给定判定点(s)的带信号强度值(TLn),使得
TLn(s)=(1-α2)×TLn(s-1)+α2×TLn
如果TLn′<TLn(s-1),其中TLn(s)表示给定判定点的带信号强度值,TLn(s-1)表示先前判定点的带信号强度值,α2表示常量(其中0≤α2≤1),并且TLn′表示初步带信号强度值。以上条件提供了避免不期望的误鉴别的优点,由此提高了本方法的可靠性和准确性。
如图1中所示,在确定过程之后,该方法然后进行到鉴别过程(130),用于鉴别电话内容信号是属于第一类别还是属于第二类别。鉴别过程具体包括用于评估带信号集合中至少一个子带信号(n)的带信号变化值(LLn)和带信号强度值(TLn)的关系的无条件步骤和有条件步骤之一或二者。优选地,对于带信号集合中的每个子带信号,提供适当的无条件步骤和/或有条件步骤。
评估步骤可以不同方式实现,这对于本领域技术人员是显然的,并且如本说明书的下面部分中描述的。
评估关系的无条件步骤是始终通过鉴别过程执行的步骤。换句话说,鉴别过程配置成使得它评估提到的关系,不管任何种类的条件。这个的示例是对以下方法的实现:其中,带信号集合只有一个成员(即,子带信号),并且鉴别过程使得每次它被调用,它都必须评估那个子带的变化值LL和强度值TL的关系。另一个示例将是,如果带集合包括多个子带信号,并且鉴别过程使得对于用于进行鉴别判定的每一个子带都评估LLn和TLn的关系。
另一方面,评估关系的有条件步骤是仅当满足给定条件时执行的步骤。这例如可以是当发生预定事件(如,无声时段的检测或预定计时(timing)条件的检测)时的情况。在其它示例中,可以在检测到另一个鉴别准则判断未成功地执行电话内容信号的鉴别时执行有条件步骤。在另外的示例中,可以在检测到必须从第一准确性的鉴别模式切换到第二准确性的鉴别模式时执行有条件步骤,第二准确性高于该第一准确性。此外,例如当对未滤波的信号执行的鉴别被确定为不足够准确或不适于特定应用时,可激活有条件步骤。换句话说,鉴别过程(130)可配置成使得仅在某些条件下(上面已经说明了其非限制的示例),可激活对子带信号的带信号变化值和带信号强度值上的关系的评估。
无条件步骤和有条件步骤提供了如下优点:具有可容易地适于不同情形和应用的、更灵活的鉴别方法同时平衡准确性和处理资源。即,鉴别过程在任何情况下都能够(至少在规定条件下)考虑一个或更多子带的LLn/TLn关系,以使得该鉴别与单独依赖于完整输入信号的方法相比,具有更高精度并且更准确鉴别的能力。
然而,本发明除了使用一个或多个子带信号进行鉴别的能力之外,还特别地预想使用未滤波的满带输入信号(如果这是期望的)。这个输入信号在带信号集合中可称为n=0。为了给出示例,鉴别过程可包括用于评估未滤波电话内容信号(0)的带信号变化值(LL0)和带信号强度值(TL0)的关系的无条件步骤。换句话说,该方法还可进一步评估未滤波的电话内容信号,不管是任何种类的条件,例如该方法还可始终评估未滤波的信号。则鉴别过程可包括:依赖于判断无条件步骤是否提供了结果来评估一个或多个子带信号(n)的带信号变化值(LLn)和带信号强度值(TLn)的关系的有条件步骤。换句话说,鉴别过程可配置成:当确定用于评估未滤波的信号的关系的无条件步骤不适于给定应用、或者不能够提供鉴别、或者不足够准确、或者对本领域技术人员而言显然的类似情形时,执行用于评估子带信号的关系的有条件步骤。所述配置使该方法对在各种应用中实现更通用和适合,同时提高其可靠性和准确性。
对于类别是话音和非话音的情况,鉴别为类别意味着鉴别话音状态或非话音状态。如将进一步继续更详细说明的,信号的高变化程度可与话音相关联,而低变化可与非话音相关联。基于这个事实,鉴别过程可例如使得:如果对于集合的至少一个带信号(n)确定带信号强度(TLn)和带信号变化值(LLn)使得带信号强度值(TLn)与带信号变化值(LLn)的比率超过预定的第一阈值(HIGH_LIMIT),则鉴别为非话音状态。鉴别过程可包括:实际计算指示的比率并将其与阈值相比较,但是备选实现也是可能的,例如将带信号变化值和信号强度值彼此比较。
上面的概念可以各种方式实现。例如,无论何时带信号强度值(TLn)和带信号变化值(LLn)之间的比率对任一子带信号或未滤波的信号超过阈值,都可进行非话音状态的肯定鉴别。在其它实现中,当该比率对子带中的带n和未滤波的信号中的至少两个或更多个超过阈值时,可以进行非话音状态的鉴别。在一个示例中,如果选择包括一个或多个子带和/或未滤波的信号的带信号集合,则当该比率对带信号集合中的所有带都超过阈值时,可以鉴别为非话音状态。而且,可使用与带信号集合的不同信号n相关联的不同阈值。引入第一阈值避免了不期望的错误鉴别,并由此提高了本发明方法的准确性。
鉴别过程还可预见,如果对于k个带信号(n)确定带信号强度(TLn)和带信号变化值(LLn)使得带信号强度(TLn)与带信号变化值(LLn)的比率落在预定第二阈值(LOW_LIMIT)之下,则肯定地鉴别为话音状态,所述集合包括N个带信号,k和N是整数,并且k≤N。集合可包括一个或多个子带信号和/或未滤波的信号。第二阈值LOW_LIMIT可与之前讨论的第一阈值HIGH_LIMIT相同,但优选地LOW_LIMIT小于HIGH_LIMIT。例如,第一阈值可以是20,而第二个可以是10。引入第二阈值也避免了不期望的错误鉴别,并由此提高了本发明方法的准确性。
将进一步继续描述的图10和图11示出了PCM域中话音信号和非话音信号的行为以及本领域技术人员可如何设置阈值以避免不期望的误鉴别。
如已经指出的,可以使得只评估一个时间点的一组值的方式来实现本发明。然而,优选地,对于相继判定点(s)执行鉴别过程。该过程可包括:话音状态检测部分和非话音状态检测部分,即,一组步骤应用用于判定正在检查的信号是否处于话音状态的准则,而另一组步骤应用用于判定正在检查的信号是否处于非话音状态的准则。两个检测部分可布置成使得一个的调用依赖于未提供肯定判定的另一个。如果话音状态检测部分和非话音状态检测部分都未得到鉴别结果,则可以保持来自先前判定点(优选地,来自紧接着的先前判定点(s-1))的鉴别状态。
注意,上面的实施例的方法和在那里描述的过程可通过硬件、软件或硬件和软件的任何组合来实现,如本领域读者依赖于环境可认为是适当的那样。此外,可以提供计算机程序产品,其包括布置用于当计算机程序在可编程处理器上执行时实施根据本发明之前描述的任何方法的任何部分或过程的程序部分。
此外,可以提供在其中包含程序的计算机可读介质。计算机可读介质可以是有形的(诸如,光盘或其它数据载体),或者可由适于电、光或任何其它类型传输的信号构成。计算机程序产品可包括计算机可读介质。
本发明还可实施为布置用于实现一个或多个上述方法的信号处理装置。现在将参考图2,其示出了用于将电话内容信号鉴别为第一类别或第二类别的信号处理装置(200)的示例,其中电话内容信号及其类别如上面参考方法实施例描述的那样。
信号处理装置(200)包括用于从电话内容信号(250)获得包括一个或多个带信号的带信号集合的滤波器(210),其中每个带信号带与相应频带相关联。滤波器(210)还可包括适当布置的一组滤波器,并且在一个实施例中,如在下面说明的,可以是用于获得电话内容信号的抽取的一组滤波器。然而,可以采用其它滤波器块、滤波组件或滤波器配置,用于至少获得频带落入电话内容信号的频带内的子带信号。滤波器(210)还可以硬件、软件或其任何适当的组合来实现。
对于电话内容信号、带信号和子带信号,仍应用上面进行的相同考虑。
带信号集合中的带信号的至少一个是与(如,例如借助滤波器(210)获得的)电话内容信号的全频带的子带相关联的子带信号(n)。
信号处理装置(200)还包括用于确定带信号集合的每个带信号(n)的带信号变化值(LLn)和带信号强度值(TLn)的确定器(220)。确定器布置成以上面描述的任何方式执行确定过程。
信号处理装置(200)还包括用于鉴别电话内容信号是属于第一类别还是属于第二类别的鉴别器(230)。鉴别器(230)适于评估带信号集合的每个带信号(n)的所述带信号变化值(LLn)和所述带信号强度值(TLn)的关系。换句话说,信号处理装置(200)布置成:使得它可根据装置检测的或传递到装置的某些条件或根据装置本身的预定配置,来评估提到的关系。例如,鉴别器可配置成当检测到预定计时时、当另一个鉴别方法确定为不足够准确或不适于应用时执行评估。在一个示例中,鉴别配置成当基于对未滤波的信号进行鉴别的方法确定为不准确或不能够提供判定或可靠判定时,至少评估子带信号。这种配置的优点在于可在多种条件下操作并可根据应用或环境方便地配置的更灵活的装置。
信号处理装置(200)、和/或滤波器(210)、和/或确定器(220)和/或鉴别器(230)还可配置成执行如参考实施本发明的方法描述的功能或过程。例如,这些元件可通过可编程处理器中的软件实现,即,处理器可充当滤波器、确定器和充当鉴别器。
现在,将呈现PCM域中的话音/非话音鉴别的详细示例,示出了可如何有利地组合滤波过程、确定过程和鉴别过程的许多上述示例。然而,这只是示例,并且一般的发明既不限于PCM域也不限于话音鉴别,因为它还可应用于其它编码方案和电话内容信号的其它类别。
这个话音/非话音鉴别器的一个方面是相比之前讨论的某些现有技术,它转化了检测问题及其解决方案。即,它未尝试准确地识别某些音调,而是替代地尝试检测媒体何时是话音以及何时不是。这是对于所有VBD和音调的情况都有效的一般解决方案。
根据优选示例,可依赖于PCM信号中无声时段的检测,来调用鉴别方法或触发包括鉴别的信号处理装置。可以任何已知方式、使用适当的PCM域无声检测器来检测无声。判定基于信号电平测量,其对于例如由某数字滤波器组分离的某些频率子带来执行。在本发明的这个实施例中,滤波器组可基于现有技术全通子滤波器块的状态,这将在后面讨论。然而,本领域技术人员将认识到,其它滤波技术也是合适的,只要它们能至少产生具有包含在电话内容信号的频带内的频率范围的子带信号。
而且,还测量总信号电平。可以在某些间隔(例如,50ms、20ms或本领域技术人员依赖于环境认为适当的其它间隔)上对测量结果进行采样。实施例的话音/非话音鉴别基于分析子带电平测量结果的行为。通过比较平均子带电平与子带电平样本曲线的相应平均线长度,发现有可能在媒体的活跃时段期间鉴别话音与非话音(即,VBD或音调)。这个的原因是子带电平测量结果的方差对于话音比对于音调/数据信号明显更高,这意味着平均子带电平与相应平均线长度的比率对于音调/数据信号(即,非话音)比对于话音明显高。线长度可例如表示在时域中绘制时的信号长度。
还发现,对这个算法需要的处理容量极低,仅0.1MIPS量级,这大约是标准化的或传统的音调检测方法所需的处理容量的十分之一。由此,可以获得实现高准确性同时需要低处理功率的鉴别方法或鉴别器。
现在将参考应用于PCM域的、本发明实施例的另外细节。这个实施例提供了上面例证的一些示例的组合,并且示出根据本发明可如何共同实现这些。然而,预见修改从本描述中给出的进一步的示例和例证是显然的,并且对本领域技术人员也将是显然的。下文提到的鉴别器可以是上面讨论的信号处理装置的实现。然而,相同的考虑和对应的优点还应用在使用不同于PCM的编码技术时。
在实施的PCM域话音/非话音鉴别器中,8kHz线性样本的输入信号首先由图3中描绘的滤波器组分成4个子带。下面的滤波是根据本发明方法的滤波过程的一个示例,见例如图1的滤波过程(110)或根据本发明另一个实施例的信号处理装置的滤波器(210)。每级的半带滤波器块都是相同的,并在对应于Fs/4的π/2处的中间将信号分成高部分和低部分,其中Fs代表采样频率。每个滤波器级以2抽取采样频率,并因而相对于先前的滤波器级对分随后级的频带宽度(以Hz给出)。在图3中,示出了将输入信号分成4个子带的滤波器组。
半带滤波器块中的高通滤波器和低通滤波器由全通子滤波器实现。这是本领域中已知的方法,并且其原理在图4中进行了例证。下面给出半带滤波器和全通子滤波器的冲击响应的z变换:
●低通滤波器=LP(z-1)=0.5*(z-1*A1(z-2)+A2(z-2))
●高通滤波器=HP(z-1)=0.5*(z-1*A1(z-2)-A2(z-2))
●全通滤波器z-1*A1(z-2)=z-1*(c1+z-2)/(1+c1*z-2)
其中c1=21955/32768
●全通滤波器A2(z-2)=(c2+z-2)/(1+c2*z-2),
其中c2=6390/32768
注意,全通滤波器中z-2嵌入以2的抽取。
图4提供了由全通子滤波器实现的半带滤波器的例证。此类全通滤波器的幅度对所有频率尽可能接近1,如图4的左上角中例证的。然而,全通滤波器的相位具有右上角中的性质,其例证了从带中间π/2(或Fs/4)以上开始,上面的全通滤波器的相位之间将存在大约π的相位差。
这暗示,低于π/2(或Fs/4)的频率通过具有相等相移的两个全通滤波器,并且当它们在低带分支上加在一起时,它们彼此加强,但是它们在高带分支上的差是0。这在图4的中间进行了例证。
另一方面,高于π/2(或Fs/4)的频率通过全通滤波器,使得它们的相移相差π,或者它们具有相反相位。因此,当它们在低带分支上相加时它们彼此抵消,但当它们在高带分支上相减时彼此加强。这在图4的底部进行了例证。
上面的无限冲击响应(IIR)滤波器分别通过内部状态d1(i)和d2(i)的帮助并通过下面的递归,来典型地实现:
●d1(i)=x(2i-1)-c1*d1(i-1)
●y1(i)=c1*d1(i)+d1(i-1),其中y1(i)对应于全通滤波器z-1*A1(z-2)的输出
●d2(i)=x(2i)-c2*d2(i-1)
●y2(i)=c2*d2(i)+d2(i-1),其中y2(i)对应于全通滤波器A2(z-2)的输出
●lp(i)=0.5*(y1(i)+y2(i)),其中lp(i)对应于低带滤波器的输出
●hp(i)=0.5*(y1(i)-y2(i)),其中hp(i)对应于高带滤波器的输出。
注意,因为以2抽取,所以每隔一个输入样本x(2i)进行上面的递归。还要注意,x(2i-1)用作d1(i)的输入样本,因为A1(z-2)乘以z-1(对应于单位延迟)。
图5描绘了在实施的话音/非话音鉴别器的滤波器组中使用的不同滤波器级的线性幅度响应。
子带信号功率可以用许多方式估计。最典型的是平方和或绝对值和。在一些示例中,子带信号功率可基于根据下式的子带电平(bn(i))的绝对值和:
其中n=0、...、4代表子带,并且Nn表示在其上对电平进行采样的间隔大小。
然而,如上面说明的,其它实现会是有可能的。
下标n=0代表未滤波的语音信号的总电平,n=1代表带1,其是滤波器级3的低带输出(即,0、...、0.5kHz),n=2代表滤波器级3的高带输出(即,0.5、...、1kHz),n=3代表滤波器级2的高带输出(即,1、...、2kHz),并且n=4代表滤波器级1的高带输出(即,2、...、4kHz)。在该实施例中,间隔大小Nn表示50ms的时间,使得N0=400、N1=N2=50、N3=100并且N4=200,其中原始语音采样频率Fs=8kHz。为了归一化电平样本,由于以2的级联抽取,bl1和bl2乘以8、bl3乘以4并且bl4乘以2。
上面说明的技术只表示用于执行本发明滤波的一个示例,然而本发明不限于上面的示例。事实上,本领域技术人员将意识到,本领域中可用的其它滤波技术也适于本发明中的实现,代替上面提供的示例。而且,应该注意,本发明的带信号集合不需要包括滤波器输出的所有滤波的信号,而是可以只包括部分所述滤波的信号。在上面给出的示例中,对未滤波的信号进行滤波以产生四个子带信号。本发明的带信号集合因此例如可以只包括一个子带信号(例如n=1、2、3或4中的一个子带信号)、两个或更多所述子带信号,或者在进一步的示例中,还可包括未滤波的信号。因此,参考本发明方法的滤波过程,带信号集合可只包括未滤波的信号和子带信号中的一个或一些。
在下面,将讨论子带电平的行为。
为了例证子带电平对于话音和不同的非话音(如,语音带数据或VBD)信号表现如何,一些PCM记录由指定滤波器组滤波,并且相应的电平由功能C模型估计。图6和图7中绘制了一对典型的PCM记录。更具体地,图6示出了典型话音记录的线性样本,而图7示出了典型VBD记录的线性样本(在该示例中是9600kbps传真)。
99在图8和图9中对于相同示例绘制了每50ms间隔的子带电平样本。对于不同的间隔选择(例如,20ms)也可获得类似的曲线图。
接下来,将参考正在考虑的实施例讨论话音/非话音判定。
在上面参考的图8和9中,可通过子带电平曲线进行一些观察:
●对于非话音(如,VBD音调),子带电平明显彼此分开,而对于话音,它们在彼此上下叠加地混合;
●VBD音调的子带电平具有比话音电平更小的方差;
●VBD音调的某些子带电平在活跃时段期间也接近于0,特别是当调制小时(如,单频或双频)。
对于上面也描述的其它类型信号和编码,可以容易地验证相同的观察。实际上,当考虑不同类型的非话音(如,调制解调器信号、CTM信号、...、)或对于话音的其它类型编码(如,差分PCM),将得到相同行为。
基于这些观察开发判定算法。如果先前活跃时段足够长以得到可靠的子带电平估计(在该实施例中极限设置成0.5s),则在每个无声时段开始处进行判定。由此,以每秒最多约2次执行判定算法。可通过已知类型的适当PCM域无声检测器检测无声时段。然而,重要的是注意到,该判定不一定必须链接到无声检测。实际上,判定可链接到预定计时或另一个事件,如还在本描述的后面说明的一样。
下面给出判定算法的主要方面:
1.判定基于带电平曲线的估计的线长度。
●对于话音,活跃部分期间带电平曲线的累积线长度明显比对于音调的长,因为话音电平的方差更大;
●通过将两个连续电平样本(每秒20个样本)之间的Δ的绝对值求和,容易地估计线长度;
●这只表示线长度的y分量,而x分量是不相关的,因为Δx始终是50ms。
2.对于每个带n=0、...、4,可在无声周期开始时估计每50ms的平均线长度样本(LLn′)和平均总带电平样本(TLn′),
LL n ′ = Σ k = 0 N s | bl n ( k ) - bl n ( k - 1 ) | / N s
TL n ′ = Σ k = 0 N s | bl n ( k ) | / N s
●bln(k)=最后活跃时段(如,谈话突峰)期间子带n的第k个电平样本,并且Ns=最后的活跃时段期间50ms时段数,并且n=1、...、4代表子带,以及n=0代表总信号电平。
●由PCM域无声检测器检测的每个无声时段的开始时,进行估计。
3.如果用以下不对称低通(ALP)滤波器对LLn′和TLn′进一步滤波,则因为将VBD错误检测为话音被认为比存在的其它方式更严重,所以使其可能性更小并且恢复更快:
●如果(LLn′<LLn(s-1))LLn(s)=LLn
否则LLn(s)=(1-α1)*LLn(s-1)+α1*LLn
如果(TLn′>TLn(s-1))TLn(s)=TLn
否则TLn(s)=(1-α2)*TLn(s-1)+α2*TLn
●其中n=带索引0、...、4,s=当前判定点,s-1=先前判定点,α1和α2是试验系数(在一个实施例中,可选择α1=α2=0.25;但是两个值的不同组合是可能的);
4.根据如下算法,最终的话音/非话音判定(布尔spMode)可基于TLn(s)与LLn(s)之间的比率:
●如果(TLn(s)>HIGH_LIMIT*LLn(s),对任何n∈[0,...,4]),spMode=FALSE
否则如果(TLn(s)<LOW_LIMIT*LLn(s),对n∈[0,...,4]的至少4个),spMode=TRUE
否则保持spMode=spMode
●其中HIGH_LIMIT和LOW_LIMIT是试验调谐参数。在这个实施例中,使用HIGH_LIMIT=20和LOW_LIMIT=10。
5.对于音调,一些子带电平在活跃时段期间也可能典型地为低。通过设置子带电平的下限将它考虑进去,使得对于n=1,...,4,TLn(s)>=TL0(s)/MARGIN(在一个实施例中,可以选择MARGIN=64,对应于约-36dB)。这个方法增大了极低子带电平的TLn(s)/LLn(s)比率,并由此增大了将该时段判定为非话音的概率,这最可能是正确的。
在判定算法的上面的列表中,可以看到,点1.到点5.可以是根据本发明方法的确定过程和/或鉴别过程的特定实现。相同的可以由本发明的计算机程序或信号处理装置实现。此外,提到的点也可以根据本发明的一般方法、计算机程序或信号处理装置单独地或组合地实现。另外,上面的实现不限制本发明,因为所述特定实现的变形是可能的,如本领域技术人员容易认识到的。
在下文,将在参考PCM域的考虑下,对于本发明的实施例,讨论话音/非话音判定算法的性能。然而,从本发明的其它实施例也将得到相同优点。
图10和11例证了在检测的无声时段开始时在判定点(s)的TLn(s)/LLn(s)的比率。判定点由x轴上的三角形标记。图10示出了图6的话音记录的TLn(s)/LLn(s)比率,而图11示出了图7的VBD记录的TLn(s)/LLn(s)比率。
图10示出了spMode在所有判定点都将设置成“TRUE”,因为所有比率每次都在LOW_LIMIT以下,而在图11中,spMode将设置成FALSE,因为比率几乎每次都在HIGH_LIMIT以上。由此,在两种情况下在每个判定点都进行正确判定。通过许多示例验证了该算法,并且,使用实施的参数设置始终正确地进行判定。
在下面,将讨论PCM域话音/非话音鉴别器的复杂性。类似考虑应用于本发明的其它实施例,如本领域读者将容易认识到的。
现在将提供PCM域话音/非话音鉴别器的实施例需要的每秒基本操作量(ops/s)的估计。
排除了从A-率/μ-率压缩域到线性域的转换所需的处理容量,因为假设它已经包含在PCM域无声检测器中,这在用标准化的音调检测器的任何情况下都将是需要的,并且最可能也从它们的处理容量估计中排除,并且在任何情况下,它都是非常不重要的。注意,在其它实施例中,可以省略无声检测器,由此使如下估计更精确。
每个滤波器级和每个样本的操作数:
●4次相乘
●6次相加
不同滤波器级的执行速率:
●级1:4000/s
●级2:2000/s
●级3:1000/s
每秒基本操作的估计:
●总信号电平测量:8000*1相加/秒(add/s)+8000*1取绝对值/秒(abs/s)
●级1包含电平:4000*4相乘/秒(mul/s)+4000*7add/s+4000*1abs/s
●级2包含电平:2000*4mul/s+2000*7add/s+2000*1abs/s
●级4包含2个电平:1000*4mul/s+1000*8add/s+1000*2abs/s
●LLn′和TLn′样本的聚集(每50ms一次):
20*21add/s+20*10abs/s
●在每个无声时段开始时的判定(最大速率=每0.5s一次):2*13mul/s+2*15add/s+2*10相除/秒(div/s)=26mul/s+30add/s+20*16*(移位(shift)+与(and)+add)/s
每个基本操作的小计:
●28026mul/s
●58910add/s(在这个小计估计中,以2次相加代替了相除需要的shift+and+add)
●16200abs/s。
总计=103136ops/s(最大)=约0.1MOPS<=约0.1MIPS。将每秒基本操作转换成MIPS依赖于处理单元的架构和如何优化实现,但是典型地,MIPS数小于相应的MOPS数,因为基本操作通常可以是流水线的,并由此有效地并行执行,这节省了时钟周期。
当装置的服务是简单(如,例如只是抖动缓冲和帧处理,其是网络节点(如,移动媒体网关(M-MGW))中的典型PCM域转接使用情况)时,与通常需要约1MIPS的现有技术音调检测器算法相比,每个无声检测器中的处理容量节省约90%,得出多于10倍量级的每处理单元装置实例。
对于本发明的其它实施例,可容易地验证类似的优点。
总的来说,本发明提供了上文和下文例证的一系列优点。实际上,本发明在某些情况下通过用PCM域话音/非话音鉴别器代替更复杂的现有技术音调检测器,节省了处理容量,其在某些使用情况下相比标准化的或传统的音调检测器甚至可能更加一般,并覆盖更多的呼叫情况,例如当业务类型是64kbps PCM并且控制平面不能够告诉内容是话音还是VBD,但因为话音质量原因仍保留了自适应抖动服务时,在转接VBD呼叫情况下防止自适应抖动缓冲。在这种情况下,使用自适应抖动缓冲将干扰或者甚至完全阻止VBD呼叫,但使用本发明公开中描述的PCM域话音/非话音鉴别器解决了该问题。
在某些使用情况下(如上面的)与现有技术音调检测器相比,信道密度甚至可增大十倍量级,由此引起相应的生产成本节省。
其它优点在于,由于在电话内容信号的至少一个子带信号上执行的鉴别,可以获得更准确的鉴别。另外的优点在于获得更高的准确性,同时将处理要求(即,处理功率的消耗)保持在非常低的水平。当实现其各种实施例和变形时,本领域技术人员将明白另外的优点。
注意,图9只提供了一个示例。然而,代替在示例中所提到的那些,可以使用多个其它VBD信号和话音样本,如发明人验证的及本领域技术人员也能够容易验证的。例如,参考VBD数据,不仅可以考虑传真数据,而且可以考虑CTM信号(例如,3GPP 26.226)。
注意,本发明在判定必须可逆并且检测器必须在所有时间运行的那些情况下还具有进一步的优点。在这些情形下,本发明需要更少的处理容量,并由此比其它已知实现更加“轻快”。
本发明的优点在于,判定和鉴别可基于容易计算参数。其它已知技术反而依赖于繁复计算或还将其它参数(如,例如噪声)也考虑进去,这增加了现有技术算法的复杂度。本发明克服了现有技术的限制和缺点。
而且,已经提到,可以在检测到无声时段之后进行判定。这例如是当需要用于控制自适应抖动缓冲器的判定时的情况。然而,本发明不限于检测无声,并且在使用例如用于进行判定的最后期限或超时或者通过实现用于执行判定或触发要执行的判定的任何其它种类的条件的情况下它也可适用。
还重要的是注意到,本发明提供了对噪声的良好免疫,即,它提供了也在不同类型噪声(电噪声、声噪声、背景声噪声、在话音中无声时段期间的平稳噪声等)上的高性能,可以容易地验证它。
提到50ms的间隔,这是根据执行的一些测试和测量进行的选择。然而,本发明用其它间隔(例如但不限于,10ms、20ms、...、100ms的间隔)工作并仍提供高性能,这只是提出一个示例而已。换句话说,本发明不限于间隔的任何具体选择。
本发明适于实现在通信网络的网络节点(如,例如媒体网关)中。由此,可以布置网络节点(如,媒体网关),以执行用于鉴别电话内容信号的、本发明的方法或部分方法。另外,网络节点(如,媒体网关)可包括如本发明中描述的、用于鉴别电话内容信号的信号处理装置。在一个示例中,媒体网关可包括如图2中描绘的信号处理装置。而且,媒体网关可包括布置用于执行根据本发明的方法或部分方法的计算机程序产品。在媒体网关的情况下,本发明提供了例如在那些情况下提到的优点,其中,媒体网关例如执行抖动缓冲和/或帧处理,其是网络节点(如,移动媒体网关(M-MGW))中的典型PCM域转接使用情况。
对本领域技术人员明显的是,可在本发明的实体和方法中以及本发明的构造中进行各种修改和变形,而不脱离本发明的范围或精神。
已经关于具体实施例和示例描述了本发明,所述具体实施例和示例在所有方面都旨在是例证性的而不是限制性的。本领域技术人员将认识到,硬件、软件和固件的许多不同组合将适于实践本发明。
此外,从对本文公开的本发明的说明书和实践的考虑,本发明的其它实现对于本领域技术人员将是明显的。规定说明书和示例仅被认为是示范性的。为此,要理解到,发明的方面展现为少于单个前面公开的实现或配置的所有特征。由此,本发明的真实范围和精神由所附权利要求书来指示。

Claims (17)

1.一种用于将电话内容信号鉴别为第一类别或第二类别的方法,所述方法包括:
滤波过程,用于从所述电话内容信号获得包括一个或多个带信号的带信号集合,每个带信号与相应频带相关联,所述带信号的至少一个是与所述电话内容信号的全频带的子带相关联的子带信号(n);
确定过程,用于确定所述带信号集合的每个带信号(n)的带信号变化值(LLn)和带信号强度值(TLn);
鉴别过程,用于通过评估所述子带信号(n)的所述带信号变化值(LLn)和所述带信号强度值(TLn)的关系来鉴别所述电话内容信号是属于所述第一类别还是属于所述第二类别,
其中所述带信号集合包括未滤波的电话内容信号,
其中所述鉴别过程包括:用于评估所述未滤波的电话内容信号(0)的所述带信号变化值(LL0)和所述带信号强度值(TL0)的关系的无条件步骤,以及用于评估所述子带信号(n)的所述带信号变化值(LLn)和所述带信号强度值(TLn)的关系的有条件步骤,所述有条件步骤依赖于判断所述无条件步骤是否提供结果。
2.如权利要求1所述的方法,其中所述第一类别是话音,以及所述第二类别是非话音。
3.如权利要求2所述的方法,其中如果对于所述集合的所述带信号(n)的至少一个确定所述带信号强度值(TLn)和所述带信号变化值(LLn)使得所述带信号强度值(TLn)与所述带信号变化值(LLn)的比率超过预定的第一阈值(HIGH_LIMIT),则鉴别为非话音状态。
4.如权利要求2所述的方法,其中如果对于k个所述带信号(n)确定所述带信号强度值(TLn)和所述带信号变化值(LLn)使得所述带信号强度值(TLn)与所述带信号变化值(LLn)的比率落在预定的第二阈值(LOW_LIMIT)之下,则鉴别为话音状态,所述集合包括N个带信号,k和N是整数,并且k≤N。
5.如权利要求2所述的方法,其中所述鉴别过程包括:话音状态检测部分和非话音状态检测部分,以及对于相继判定点(s)执行所述鉴别过程,并且如果所述话音状态检测部分和所述非话音状态检测部分都未得到鉴别结果,则保持来自先前判定点(s-1)的鉴别状态。
6.如权利要求1所述的方法,其中所述电话内容信号是PCM语音带信号。
7.如权利要求1所述的方法,其中所述确定过程包括:确定所述带信号集合的每个带信号(n)的带样本(bln),以及确定所述带信号变化值(LLn)包括在预定的范围(Ns)上对所述带样本(bln)的差的求和。
8.如权利要求7所述的方法,其中所述差是连续带样本(bln)的差。
9.如权利要求7所述的方法,其中所述确定所述带信号变化值(LLn)包括对所述差的绝对值求和。
10.如权利要求7所述的方法,其中通过在预定的时段(Δx)上对带信号电平(bn(i))的绝对值求和,来确定所述带样本(bln)。
11.如权利要求1所述的方法,其中对于相继判定点(s)执行所述确定过程,并且对于每个判定点(s),对于所述带信号集合的每个带信号(n)确定初步带信号变化值(LLn')和初步带信号强度值(TLn'),并且所述确定过程包括用于为每个带确定如下项的修改过程:
-给定判定点(s)的所述带信号变化值(LLn),其依赖于所述初步带信号变化值(LLn')和与先前判定点(s-1)相关联的带信号变化值,和/或
-所述带信号强度值(TLn),其依赖于所述初步带信号强度值(LLn')和与先前判定点(s-1)相关联的带信号强度值。
12.如权利要求11所述的方法,其中所述修改过程对于衰减所述带信号变化值(LLn)的增大和/或所述带信号强度值(TLn)的减小是不对称的。
13.如权利要求12所述的方法,其中所述修改过程布置用于对于所述给定判定点(s)设置所述带信号变化值(LLn),使得:
如果LLn'>LLn(s-1),其中LLn(s)表示所述给定判定点的所述带信号变化值,LLn(s-1)表示所述先前判定点的所述带信号变化值,α1表示常量,其中0≤α1≤1,并且LLn'表示所述初步带信号变化值,和/或
设置所述给定判定点(s)的所述带信号强度值(TLn),使得:
如果TLn'<TLn(s-1),其中TLn(s)表示所述给定判定点的所述带信号强度值,TLn(s-1)表示所述先前判定点的所述带信号强度值,α2表示常量,其中0≤α2≤1,并且TLn'表示所述初步带信号强度值。
14.一种用于将电话内容信号鉴别为第一类别或第二类别的设备,所述设备包括:
用于从所述电话内容信号获得包括一个或多个带信号的带信号集合的部件,每个带信号与相应频带相关联,所述带信号的至少一个是与所述电话内容信号的全频带的子带相关联的子带信号(n);
用于确定所述带信号集合的每个带信号(n)的带信号变化值(LLn)和带信号强度值(TLn) 的部件;
用于通过评估所述子带信号(n)的所述带信号变化值(LLn)和所述带信号强度值(TLn)的关系来鉴别所述电话内容信号是属于所述第一类别还是属于所述第二类别的部件,
其中所述带信号集合包括未滤波的电话内容信号,
其中所述鉴别包括:用于评估所述未滤波的电话内容信号(0)的所述带信号变化值(LL0)和所述带信号强度值(TL0)的关系的无条件步骤,以及用于评估所述子带信号(n)的所述带信号变化值(LLn)和所述带信号强度值(TLn)的关系的有条件步骤,所述有条件步骤依赖于判断所述无条件步骤是否提供结果。
15.一种信号处理装置,用于将电话内容信号鉴别为第一类别或第二类别,包括:
滤波器,用于从所述电话内容信号获得包括一个或多个带信号的带信号集合,每个带信号与相应频带相关联,所述带信号的至少一个是与所述电话内容信号的全频带的子带相关联的子带信号(n);
确定器,用于确定所述带信号集合的每个带信号(n)的带信号变化值(LLn)和带信号强度值(TLn);
鉴别器,用于鉴别所述电话内容信号是属于所述第一类别还是属于所述第二类别,所述鉴别器适于评估所述带信号集合的每个带信号(n)的所述带信号变化值(LLn)和所述带信号强度值(TLn)的关系,
其中所述带信号集合包括未滤波的电话内容信号,
其中所述鉴别包括:用于评估所述未滤波的电话内容信号(0)的所述带信号变化值(LL0)和所述带信号强度值(TL0)的关系的无条件步骤,以及用于评估所述子带信号(n)的所述带信号变化值(LLn)和所述带信号强度值(TLn)的关系的有条件步骤,所述有条件步骤依赖于判断所述无条件步骤是否提供结果。
16.如权利要求15所述的信号处理装置,其中所述信号处理装置包含在通信网络的节点中。
17.如权利要求16所述的信号处理装置,其中通信网络的所述节点是媒体网关。
CN200880132621.8A 2008-10-30 2008-10-30 电话内容信号鉴别 Active CN102272826B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2008/064751 WO2010048999A1 (en) 2008-10-30 2008-10-30 Telephony content signal discrimination

Publications (2)

Publication Number Publication Date
CN102272826A CN102272826A (zh) 2011-12-07
CN102272826B true CN102272826B (zh) 2015-10-07

Family

ID=40278666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880132621.8A Active CN102272826B (zh) 2008-10-30 2008-10-30 电话内容信号鉴别

Country Status (4)

Country Link
US (1) US8407044B2 (zh)
EP (1) EP2359361B1 (zh)
CN (1) CN102272826B (zh)
WO (1) WO2010048999A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2997250A1 (fr) * 2012-10-23 2014-04-25 France Telecom Detection d'une bande de frequence predeterminee dans un contenu audio code par sous-bandes selon un codage de type modulation par impulsions
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
KR20160010606A (ko) 2013-05-23 2016-01-27 노우레스 일렉트로닉스, 엘엘시 Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
CN106104686B (zh) * 2013-11-08 2019-12-31 美商楼氏电子有限公司 麦克风中的方法、麦克风组件、麦克风设备
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
CN114613391B (zh) * 2022-02-18 2022-11-25 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0633658A2 (en) * 1993-07-06 1995-01-11 Hughes Aircraft Company Voice activated transmission coupled AGC circuit
CN1242553A (zh) * 1998-03-24 2000-01-26 松下电器产业株式会社 用于噪声环境的语音检测系统
US20020062209A1 (en) * 2000-11-22 2002-05-23 Lg Electronics Inc. Voiced/unvoiced information estimation system and method therefor
WO2003063138A1 (en) * 2002-01-24 2003-07-31 Motorola Inc Voice activity detector and validator for noisy environments

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4812743A (en) * 1988-01-13 1989-03-14 Northern Telecom Limited Method and apparatus for detecting a narrowband signal
JP3094832B2 (ja) * 1995-03-24 2000-10-03 三菱電機株式会社 信号識別器
CN1126264C (zh) * 1996-02-08 2003-10-29 松下电器产业株式会社 宽频带声音信号编码装置和宽频带声音信号编码解码装置
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US5999898A (en) 1996-06-20 1999-12-07 International Business Machines Corporation Voice/data discriminator
AUPS102902A0 (en) * 2002-03-13 2002-04-11 Hearworks Pty Ltd A method and system for reducing potentially harmful noise in a signal arranged to convey speech

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0633658A2 (en) * 1993-07-06 1995-01-11 Hughes Aircraft Company Voice activated transmission coupled AGC circuit
CN1242553A (zh) * 1998-03-24 2000-01-26 松下电器产业株式会社 用于噪声环境的语音检测系统
US20020062209A1 (en) * 2000-11-22 2002-05-23 Lg Electronics Inc. Voiced/unvoiced information estimation system and method therefor
WO2003063138A1 (en) * 2002-01-24 2003-07-31 Motorola Inc Voice activity detector and validator for noisy environments

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A DSP implemented speech/voiceband data discriminator;S. CASALE et al;《Global Telecommunications Conference, 1988, and Exhibition. "Communications for the Information Age." Conference Record, GLOBECOM "88., IEEE》;19981201;第3卷;第1422页图2 *
REAL-TIME MULTI-CHANNEL MONITORING OF COMMUNICATIONS ON A Tl SPAN;Randall A. Law et al;《IEEE Pacific Rim Conference on Communications, Computers and Signal Processing》;19910510;第308页第4.3部分,图3 *

Also Published As

Publication number Publication date
US8407044B2 (en) 2013-03-26
EP2359361B1 (en) 2018-07-04
CN102272826A (zh) 2011-12-07
WO2010048999A1 (en) 2010-05-06
US20110249809A1 (en) 2011-10-13
EP2359361A1 (en) 2011-08-24

Similar Documents

Publication Publication Date Title
CN102272826B (zh) 电话内容信号鉴别
Seneff Real-time harmonic pitch detector
US7680655B2 (en) Method and apparatus for measuring the quality of speech transmissions that use speech compression
US6889187B2 (en) Method and apparatus for improved voice activity detection in a packet voice network
US6807525B1 (en) SID frame detection with human auditory perception compensation
CN100476949C (zh) 不利环境中的多信道语音检测
US6937723B2 (en) Echo detection and monitoring
EP0127718B1 (fr) Procédé de détection d&#39;activité dans un système de transmission de la voix
US8600073B2 (en) Wind noise suppression
CN103440871B (zh) 一种语音中瞬态噪声抑制的方法
EP1918910A1 (en) Model-based enhancement of speech signals
US20010014857A1 (en) A voice activity detector for packet voice network
Tsilfidis et al. Automatic speech recognition performance in different room acoustic environments with and without dereverberation preprocessing
EP0677202A1 (en) Discriminating between stationary and non-stationary signals
US8744846B2 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
US20190139567A1 (en) Voice Activity Detection Feature Based on Modulation-Phase Differences
CN104658544A (zh) 一种语音中瞬态噪声抑制的方法
Gajic et al. Robust speech recognition using features based on zero crossings with peak amplitudes
Viswanathan et al. Design of a robust baseband LPC coder for speech transmission over 9.6 kbit/s noisy channels
JPH05207526A (ja) 電話の信号の分類と電話によるメッセージの伝達方法とシステム
EP1698184B1 (en) Method and system for tone detection
Lin et al. Musical noise reduction in speech using two-dimensional spectrogram enhancement
Sunder et al. Evaluation of narrow band speech codecs for ubiquitous speech collection and analysis systems
Pop et al. On forensic speaker recognition case pre-assessment
CN108665905A (zh) 一种基于频带带宽不一致性的数字语音重采样检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant