CN1311421C

CN1311421C - 有声无声判定装置和有声无声判定方法

Info

Publication number: CN1311421C
Application number: CNB2004100818632A
Authority: CN
Inventors: 仲信彦; 大矢智之
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2003-12-25
Filing date: 2004-12-24
Publication date: 2007-04-18
Anticipated expiration: 2024-12-24
Also published as: JP2005189518A; US20050154583A1; JP4490090B2; DE602004003209D1; US8442817B2; DE602004003209T2; EP1548703B1; CN1637856A; EP1548703A1

Abstract

本发明提供一种有声无声判定装置和有声无声判定方法，其中有声无声判定装置1包括：计算输入信号的自相关值的自相关计算部11；延迟计算部12，计算自相关计算部11算出的自相关值为极大的多个延迟；杂音判定部13，基于延迟计算部12算出的多个延迟判定输入信号是否为杂音；有声无声判定部14，基于杂音判定部13的判定结果和输入信号判定输入信号有声或无声。

Description

有声无声判定装置和有声无声判定方法

技术领域

本发明涉及有声无声判定装置和有声无声判定方法。

背景技术

在便携电话和因特网电话中，以消减发送功率和有效利用传送频带为目的的所谓间歇发送的技术得到利用。所谓间歇发送是指这样的技术：在有声音的有声区间内发送对声音编码后的信息，另一方面，在没有声音的无声区间内发送比声音信息少的信息量的信息，或者停止发送信息。为了进行这种间歇发送，利用有声无声判定装置，判定输入信号在包含声音的有声区间还是在不需要发送信息的无声区间。

例如，下述专利文献1中记载的有声无声判定装置利用声音信号是有周期性的特性，利用输入信号的自相关值判定是有声区间还是无声区间。具体地说，有声无声判定装置算出输入信号的自相关值为最大的延迟，算出的延迟如果和声音信号的周期一致，则判定为有声区间，如果不一致，则判定为无声区间。

下述非专利文献1中记载的有声无声判定装置根据输入信号推定背景杂音，用推定的背景杂音和输入信号的比(S/N比)判定是有声区间还是无声区间。更具体地说，有声无声判定装置算出输入信号的自相关值为最大的延迟以及带加权的输入信号的自相关值为最大的延迟，基于这些延迟的持续性(即延迟变动小的状态是否持续一定时间)，一边改变背景杂音的推定方法，一边推定背景杂音，如果推定的背景杂音和输入信号的S/N比大于等于阈值(根据推定的背景杂音来决定)，则判定为有声区间，如果比阈值小，则判定为无声区间。

专利文献1：特开2002-162982号公报

非专利文献1：3GPP TS 26.094 V3.0.0( http：//www.3gpp.org/ftp /Specs/html-info/26094.htm)

发明内容

但是，在上述现有的有声无声判定装置中，有以下问题。即，上述技术的有声无声判定装置用最大自相关值或自相关值为最大的延迟来判定有声区间或无声区间。因此，对于非周期分量多的信号和多个不同周期分量混杂的输入信号，不能精确地判定有声区间或无声区间。

因此，本发明要解决上述问题，提供一种有声无声判定装置和有声无声判定，即使对于非周期分量多的信号和多个不同周期分量混合的输入信号，也能精确地判定有声区间或无声区间。

为了解决上述课题，本发明的有声无声判定装置，其特征在于，包括：自相关计算单元，计算输入信号的自相关值；延迟计算单元，计算使上述自相关计算单元计算出的上述自相关值为极大的多个延迟；性质判定单元，基于由上述延迟计算单元计算出的上述多个延迟的时间变化来判定上述输入信号的性质；以及有声无声判定单元，基于上述性质判定单元的判定结果，判定上述输入信号有声还是无声。

为了解决上述课题，本发明的有声无声判定方法，其特征在于，包括以下步骤：自相关计算步骤，算出输入信号的自相关值；延迟计算步骤，计算使在上述自相关计算步骤中计算出的上述自相关值为极大的多个延迟；性质判定步骤，基于在上述延迟计算步骤中计算出的上述多个延迟的时间变化来判定上述输入信号的性质；以及有声无声判定步骤，基于上述性质判定步骤中的判定结果，判定上述输入信号有声还是无声。

算出输入信号的自相关值为极大的多个延迟，基于这些多个延迟判定输入信号有声或无声，从而能考虑输入信号中包含的多个周期分量并判定有声或无声。

在本发明的有声无声判定装置中，上述有声无声判定装置的特征在于基于上述性质判定装置的判定结果和上述输入信号判定上述输入信号有声或无声。

同样地，在本发明的有声无声判定方法中，上述有声无声判定步骤的特征在于基于上述性质判定步骤中的判定结果和上述输入信号判定上述输入信号有声或无声。

在性质判定装置或性质判定步骤中，除了判定结果外，还利用输入信号判定有声或无声，从而，能嵌入更细致的判定过程。即，例如，在性质判定装置或性质判定步骤中，判定为杂音的，还可以基于输入信号的历史判定为有声。

在本发明的有声无声判定装置中，还具有杂音推定单元，根据上述输入信号来推定杂音；其中上述有声无声判定单元基于上述性质判定单元的判定结果、上述输入信号以及上述杂音推定单元推定的杂音来判定上述输入信号有声或无声。

除了性质判定装置的判定结果以外，还利用输入信号和杂音信号判定有声或无声，从而，能基于S/N比判定有声无声。

在本发明的有声无声判定装置中，上述杂音推定装置基于上述有声无声判定装置的判定结果改变杂音的推定方法。

通过基于有声无声判定装置的判定结果改变杂音的推定方法，能嵌入更细致的杂音推定过程。即，例如，在有声无声判定装置持续判定为有声时，则通过积极地降低由杂音推定装置推定的杂音电平，相对于杂音，强调信号分量。

在本发明的有声无声判定装置中，上述延迟计算装置的特征在于，按照自相关值从大到小的顺序算出上述多个延迟。

通过按自相关值从大到小的顺序算出上述多个延迟，可以很容易地算出上述多个延迟。

在本发明的有声无声判定装置中，上述延迟计算装置的特征在于，将延迟观测区间分割为多个区间，计算出在上述多个区间中的每个区间中自相关值为最大的延迟。

同样地，在本发明的有声无声判定方法中，上述延迟计算步骤的特征在于，将延迟观测区间分割为多个区间，在上述多个区间中的每个区间中算出自相关值为最大的延迟。

将延迟观测区间分割为多个区间，算出每个区间内自相关值为最大的延迟，从而，可以不偏向于例如依存于声带固有频率及其整数倍波的延迟，一一算出依存于输入信号中包含的种种周期分量的延迟。

在本发明的有声无声判定装置中，上述多个区间将上述延迟观测区间的起点作为min_t，用2^i-1·min_t～2ⁱ·min_t(i是自然数)来表示。

通过进行这种区间分割，对于具有周期性的信号，能更有效地检测出与其2倍周期对应的延迟，能精确度更高地进行有声无声判定。

本发明的有声无声判定装置和有声无声判定方法算出输入信号的自相关值为极大的多个延迟，基于这些多个延迟判定输入信号是有声还是无声。因此，能考虑输入信号中包含的多个周期分量地判定有声或无声。结果，即使对于非周期分量多的信号和多个不同周期分量混合的输入信号，也能精确地判定有声区间或无声区间。

附图说明

图1是根据第一实施方式的有声无声判定装置的结构图；

图2示出了延迟计算的具体例；

图3是根据第一实施方式的有声无声判定装置的操作流程图；

图4是根据第二实施方式的有声无声判定装置的结构图；

图5是根据第二实施方式的有声无声判定装置的操作流程图；

图6是根据第三实施方式的有声无声判定装置的结构图；

图7示出了延迟计算的具体例。

具体实施方式

第一实施方式

参考附图说明根据本发明第一实施方式的有声无声判定装置。

首先，说明根据本实施方式的有声无声判定装置的结构。图1是根据本实施方式的有声无声判定装置的结构图。

根据本实施方式的有声无声判定装置1物理上作为计算机系统来构成，具备CPU(中央处理器)、存储器、鼠标或键盘等输入装置、显示器等显示装置、硬盘等存储装置、通过无线和外部设备进行数据通信的无线通信单元等。在功能上，如图1所示，有声无声判定装置1具有自相关计算部11(自相关计算单元)，延迟计算部12(延迟计算单元)，杂音判定部13(性质判定单元)，有声无声判定部14(有声无声判定单元)。以下，详细说明有声无声判定装置1的各构成要素。

自相关计算部11计算输入信号的自相关值。具体地说，有声无声判定装置1根据以下的式(1)算出输入信号x(t)的自相关值c(t)。

c (t) = \frac{Σ_{n = 0}^{N - 1} x (n) x (n - t)}{\sqrt{Σ_{n = 0}^{N - 1} x^{2} (n)} \sqrt{Σ_{n = 0}^{N - 1} x^{2} (n - t)}} \cdot \cdot \cdot (1)

这里，x(n)(n＝0，1，...，N)是在经过一定时间(例如20msec)后每隔一定时间间隔(例如1/8000sec)对x(t)采样得到的第n个值。对于自相关值c(t)，也是作为在一定时间(例如18msec)后每隔一定时间间隔(例如1/8000sec)的离散值而得到。

此外，自相关计算部11不一定严密地按上述式(1)算出自相关值。例如，自相关计算部11也可以基于广泛用于声音编码过程中的带听觉加权的输入信号而算出自相关值。自相关计算部11也可以对基于输入信号算出的自相关值进行加权，输出带加权的自相关值。

延迟计算部12算出使由自相关计算部11计算的自相关值为极大的多个延迟。具体地说，延迟计算部12扫描预定的延迟观测区间内的自相关值，按照从大到小的顺序算出M个自相关值为极大的延迟。即，如图2所示，在延迟观测区间min_t～max_t(例如AMR时为18～143)内，依次算出使自相关值为极大的延迟中的自相关值最大的延迟t_maxl，使自相关值为极大的延迟中自相关值第二大的延迟t_max2，使自相关值为极大的延迟中自相关值第三大的延迟t_max3(这里，以M＝3进行说明)。

返回图1，杂音判定部13基于延迟计算部12算出的多个延迟判定输入信号是否为杂音(输入信号的性质)。例如，杂音判定部13利用延迟计算部12算出的多个延迟t_maxi(1≤i≤M)的时间变动t_maxi(k)(1≤i≤M，1≤k≤K)判定输入信号是否为杂音。这里，k是表示时间的从属变量。更具体地说，在满足式(2)所示条件的状态持续一定时间的情况下(如果定性地说，是延迟变动小的状态持续一定时间时)，杂音判定部13判定输入信号不是杂音。相反，在满足式(2)所示条件的状态不持续一定时间的情况下杂音判定部13判定输入信号是杂音。

\underset{j = 1 ~ M}{\underset{i = 1 ~ M}{Min}} {| t - \max i (k) - t_\max j (k - 1) |} \leq d \cdot \cdot \cdot (2)

此外，式(2)中，d是预定的阈值。这里，杂音判定部13也可以以基于多个延迟判定输入信号是否为杂音为条件，用上述过程以外的过程判定输入信号是否为杂音。

有声无声判定部14基于杂音判定部13的判定结果和输入信号判定输入信号有声或无声。例如，有声无声判定部14用杂音判定部13的判定结果和输入信号的分析结果(功率，谱包络，过零数等)，判定输入信号有声还是无声。这里，作为用杂音判定部13的判定结果和输入信号的分析结果判定输入信号有声或无声的方法，可以采用广为人知的种种方法。这里，所谓“无声”是指作为信息没有意义的声音，相当于背景杂音等。另一方面，所谓“有声”是指作为信息有意义的声音，相当于人声和音乐等。

接着，说明根据本实施方式的有声无声判定装置的操作以及根据本发明实施方式的有声无声判定方法。图3是根据本实施方式的有声无声判定装置的操作流程图。

当在有声无声判定装置1中输入输入信号时，首先，通过自相关计算部11算出输入信号的自相关值(S11)。具体地说，根据上述式(1)，算出输入信号x(t)的自相关值c(t)。

当通过自相关计算部11算出输入信号的自相关值时，通过延迟计算部12算出使自相关计算部11计算出的自相关值为极大的多个延迟(S12)。具体地说，扫描预定的延迟观测区间内的自相关值，按照从大到小的顺序算出M个自相关值为极大的M个延迟(延迟t_max1～t_maxM)。

当通过延迟计算部12算出多个延迟时，基于判定延迟计算部12算出的多个延迟，通过杂音判定部13判定输入信号是否为杂音(输入信号的性质)(S13)。具体地说，满足上述式(2)所示条件的状态持续一定时间时，判定为输入信号不是杂音。相反，满足式(2)所示条件的状态不持续一定时间时，判定输入信号是杂音。

当杂音判定部13判定输入信号是否为杂音时，基于杂音判定部13的判定结果和输入信号，有声无声判定部14判定输入信号是有声或无声(S14)。具体地说，例如，用杂音判定部13的判定结果和输入信号的分析结果(功率，谱包络，过零数等)，判定输入信号是有声还是无声。

接着，说明根据本实施方式的有声无声判定装置的作用和效果。根据本实施方式的有声无声判定装置1的延迟计算部12算出自相关值为极大的多个延迟t_max1～t_maxM，杂音判定部13基于这多个延迟t_max1～t_maxM判定输入信号是杂音还是非杂音，有声无声判定部14基于杂音判定部13的判定结果判定输入信号是有声还是无声。因此，可以考虑输入信号中包含的多个周期分量来判定有声或无声。结果，即使对于非周期分量多的信号和多个不同周期分量混合的输入信号，也能精确地判定有声区间或无声区间。

本实施方式的有声无声判定装置1的有声无声判定部14不仅利用杂音判定部13的判定结果、还利用输入信号来判定该输入信号是有声还是无声。因此，和仅利用杂音判定部13的判定结果判定输入信号有声或无声的情况相比，可以嵌入更细致的判定过程。即，例如，可以嵌入杂音判定部13判定为杂音但输入信号的历史满足一定条件时判定为有声的判定过程。此外，有声无声判定部14在不用输入信号的分析结果的情况下，仅用杂音判定部13的判定结果也可以判定输入信号是有声还是无声。这时，虽然不能嵌入上述更细致的判定过程，但具有将有声或无声的判定过程变简单的效果。

在根据本实施方式的有声无声判定装置1中，当延迟计算部12算出多个延迟时，按照自相关值从大到小的顺序计算多个延迟。因此，和采用其他计算方法的情况相比，可以容易地算出多个延迟。

第二实施方式

接着，参考附图说明根据本发明第二实施方式的有声无声判定装置。首先，说明根据本实施方式的有声无声判定装置的构成。图4是根据本实施方式的有声无声判定装置的构成图。根据本实施方式的有声无声判定装置2和上述根据第一实施方式的有声无声判定装置1的不同之处在于还具有从输入信号中推定杂音的杂音推定部21(杂音推定装置)，有声无声判定部22利用该杂音推定部21推定的杂音判定输入信号有声或无声。

在功能上，如图4所示，有声无声判定装置2具有自相关计算部11，延迟计算部12，杂音判定部13，杂音推定部21和有声无声判定部22。这里，自相关计算部11，延迟计算部12和杂音判定部13具有的功能分别和根据第一实施方式的有声无声判定装置1中的自相关计算部11、延迟计算部12和杂音判定部13相同。

杂音推定部21从输入信号中推定杂音。具体地说，杂音推定部21例如根据下述式(3)推定杂音。

noise_m+1(n)＝(1-α)·noise_m(n)+α·input_m-1(n) …(3)

这里，noise是推定杂音，input是输入信号，n是表示频带的指数，m是表示时刻(帧)的指数，α是系数。即，noisem(n)表示第n个频带内时刻(帧)m的推定杂音。这里，杂音推定部21根据杂音判定部13的判定结果改变上述式(3)的系数α。即，杂音判定部13判定输入信号不是杂音时，杂音推定部21使上述式(3)的系数α为0或者接近0的值α1，以便不增大推定杂音功率。另一方面，杂音判定部13判定输入信号为杂音时，杂音推定部21使上述式(3)的系数α为1或者接近1的值α2(α2＞α1)，以便使推定杂音接近输入信号。此外，杂音推定部21也可以用上述过程以外的过程从输入信号中推定杂音。

有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音，判定输入信号有声或无声。具体地说，例如，有声无声判定部22根据杂音推定部21推定的杂音和输入信号算出S/N比(更准确地说是各频带的S/N比的累计值或平均值)。有声无声判定部22把算出的S/N比和预定的阈值相比较，S/N比大于阈值时，判定为输入信号是有声的，S/N比小于或等于阈值时，判定为输入信号是无声的。这里，上述阈值设定成随杂音判定部13的判定结果的不同而不同。即，杂音判定部13判定为“非杂音”时的阈值设定得比杂音判定部13判定为“杂音”时的阈值低。这样，杂音判定部13判定为“非杂音”时，S/N比小的信号(即埋在杂音中的信号)也作为“有声”被提取出来的可能性高。此外，有声无声判定部22也可以用上述过程以外的过程判定有声或无声。即，例如，利用上述阈值，无论杂音判定部13的判定结果如何，有声无声判定部22一律基于输入信号和杂音推定部21推定的杂音来判定输入信号有声或无声。

接着，说明根据本实施方式的有声无声判定装置的操作。图5是根据本实施方式的有声无声判定装置的操作流程图。这里，自相关值的计算(S11)、延迟t_max1～t_maxM的计算(S12)和杂音、非杂音的判定(S13)与根据第一实施方式的有声无声判定装置1的操作相同。

接着步骤S11～S13，通过杂音推定部21根据输入信号推定杂音(S21)。具体地说，根据上述式(3)，推定杂音。这里，上述式(3)的系数α随杂音判定部13的判定结果来变化。即，杂音判定部13将输入信号判定为不是杂音时，将上述式(3)的系数α设定为0或者接近0的值α1，以便不增加推定杂音功率。另一方面，杂音判定部13将输入信号判定为杂音时，将上述式(3)的系数α设定为1或者接近1的值α2(α2＞α1)，以便使推定杂音接近输入信号。此外，杂音的推定(S21)不限于步骤S11～S13结束后，和步骤S11～S13并行进行也可以。

当通过杂音推定部21推定杂音时，有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音，判定输入信号有声或无声(S22)。具体地说，例如，根据杂音推定部21推定的杂音和输入信号算出S/N比，将算出的S/N比和预定的阈值相比较。这里，S/N比大于阈值时，判定为输入信号是有声的，S/N比小于或等于阈值时，判定为输入信号是无声的。

接着，说明根据本实施方式的有声无声判定装置的效果。根据本实施方式的有声无声判定装置2，除了具有根据上述实施方式的有声无声判定装置1的效果之外，还具有以下效果。即，有声无声判定装置2的杂音推定部21根据输入信号推定杂音，有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音判定输入信号是有声还是无声。因此，可以基于S/N比高精度地判定有声无声。杂音推定部21根据杂音判定部13的判定结果改变杂音推定式(上述式(3))的系数α，从而，能更高精度地判定有声无声。

第三实施方式

接着，参考附图说明根据本发明第三实施方式的有声无声判定装置。图6是根据本实施方式得有声无声判定装置的构成图。根据本实施方式的有声无声判定装置3和上述根据实施方式2的有声无声判定装置2的不同之处在于：杂音推定部31基于有声无声判定部22的判定结果来改变杂音的推定方法。

从功能上看，如图6所示，有声无声判定装置3包括自相关计算部11，延迟计算部12，杂音判定部13，杂音推定部31和有声无声判定部22。这里，自相关计算部11、延迟计算部12、杂音判定部13和有声无声判定部22具有的功能分别和根据第二实施方式的有声无声判定装置2中的自相关计算部11、延迟计算部12、杂音判定部13和有声无声判定部22相同。

杂音推定部31和有声无声判定装置2中的杂音推定部21一样推定输入信号的杂音。但是，特别地，杂音推定部31基于有声无声判定部22的判定结果改变杂音的推定方法。具体地说，杂音推定部31首先根据上述式(3)推定杂音。之后，杂音推定部31将根据式(3)算出的杂音乘上根据有声无声判定部22的判定结果履历而决定的系数β后的值作为最终的杂音输出。例如，杂音推定部31的有声无声判定部22连续输出一定时间以上“有声”的判定结果时，将上述系数β作为小于1的值，产生信号，此外的情况下，使系数β为1。此外，杂音推定部31也可以用上述过程以外的过程改变杂音的推定方法。

根据本实施方式的有声无声判定装置3除了具有根据上述实施方式的有声无声判定装置2的效果之外，还具有以下效果。即，有声无声判定装置3基于有声无声判定部22的判定结果使杂音推定部31改变杂音的推定方法。因此，可以嵌入更细致的杂音推定过程。即，例如，有声无声判定部22连续判定为有声时，通过积极地降低杂音推定部31推定的杂音电平，相对于杂音来强调信号分量。

上述有声无声判定装置1、2和3的延迟计算部12可以按照以下过程算出多个延迟。即，延迟计算部12将延迟观测区间分割为多个区间，在这些区间中分别算出自相关值最大的延迟。这时，例如，把上述延迟观测区间的起点作为min_t，用2^i-1·min_t～2ⁱ·min_t(i是自然数)确定上述多个区间。

具体地说，如图7所示，延迟计算部12首先依次按区间宽度成倍增长而分割为多个区间，使得延迟观测区间min_t～max_t为min_t～2·min_t，2·min_t～4·min_t，4·min_t～8·min_t。之后，顺次算出区间min_t～2·min_t内自相关值为最大的延迟t_max1，区间2·min_t～4·min_t内自相关值为最大的延迟t_max2，区间4·min_t～8·min_t内自相关值为最大的延迟t_max3(这里，以M＝3来说明)。例如，AMR时，根据min_t是18，求出[18，35]、[36，71]、[72，143]各区间内自相关值为最大的延迟。

通过进行这样的区间分割，对于有周期性的信号，可以更有效地检测出与其2倍周期对应的延迟，可以更高精度地进行有声无声判定。

本发明例如在便携电话和因特网电话的通信中，用作有声无声判定装置，判定输入信号是包含声音的有声区间还是不需要发送信息得无声区间。

当然，以上说明的本发明的实施方式可以采用各种变形方式。这些变形方式不脱离本发明的主题和目的，下述请求范围旨在包含所有上述变形方式的技术内容。

Claims

1.一种有声无声判定装置，其特征在于，包括：

自相关计算单元，计算输入信号的自相关值；

延迟计算单元，计算使上述自相关计算单元计算出的上述自相关值为极大的多个延迟；

性质判定单元，基于由上述延迟计算单元计算出的上述多个延迟的时间变化来判定上述输入信号的性质；以及

有声无声判定单元，基于上述性质判定单元的判定结果，判定上述输入信号有声还是无声。

2.根据权利要求1所述的有声无声判定装置，其特征在于，上述有声无声判定单元基于上述性质判定单元的判定结果和上述输入信号来判定上述输入信号有声还是无声。

3.根据权利要求1所述的有声无声判定装置，其特征在于，还具有杂音推定单元，根据上述输入信号来推定杂音；

其中上述有声无声判定单元基于上述性质判定单元的判定结果、上述输入信号以及上述杂音推定单元推定的杂音来判定上述输入信号有声或无声。

4.根据权利要求3所述的有声无声判定装置，其特征在于，上述杂音推定单元基于上述有声无声判定单元的判定结果来改变杂音的推定方法。

5.根据权利要求1所述的有声无声判定装置，其特征在于，上述延迟计算单元按照自相关值从大到小的顺序来计算上述多个延迟。

6.根据权利要求1所述的有声无声判定装置，其特征在于，上述延迟计算单元将延迟观测区间分割为多个区间，计算出在上述各个区间中使自相关值为最大的延迟。

7.根据权利要求6所述的有声无声判定装置，其特征在于，上述多个区间把上述延迟观测区间的起点作为min_t，用2^i-1·min_t～2ⁱ·min_t来表示，其中i是自然数。

8.一种有声无声判定方法，其特征在于，包括以下步骤：

自相关计算步骤，算出输入信号的自相关值；

延迟计算步骤，计算使在上述自相关计算步骤中计算出的上述自相关值为极大的多个延迟；

性质判定步骤，基于在上述延迟计算步骤中计算出的上述多个延迟的时间变化来判定上述输入信号的性质；以及

有声无声判定步骤，基于上述性质判定步骤中的判定结果，判定上述输入信号有声还是无声。