CN1311421C - 有声无声判定装置和有声无声判定方法 - Google Patents

有声无声判定装置和有声无声判定方法 Download PDF

Info

Publication number
CN1311421C
CN1311421C CNB2004100818632A CN200410081863A CN1311421C CN 1311421 C CN1311421 C CN 1311421C CN B2004100818632 A CNB2004100818632 A CN B2004100818632A CN 200410081863 A CN200410081863 A CN 200410081863A CN 1311421 C CN1311421 C CN 1311421C
Authority
CN
China
Prior art keywords
mentioned
sound
noiseless
noise
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100818632A
Other languages
English (en)
Other versions
CN1637856A (zh
Inventor
仲信彦
大矢智之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN1637856A publication Critical patent/CN1637856A/zh
Application granted granted Critical
Publication of CN1311421C publication Critical patent/CN1311421C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种有声无声判定装置和有声无声判定方法,其中有声无声判定装置1包括:计算输入信号的自相关值的自相关计算部11;延迟计算部12,计算自相关计算部11算出的自相关值为极大的多个延迟;杂音判定部13,基于延迟计算部12算出的多个延迟判定输入信号是否为杂音;有声无声判定部14,基于杂音判定部13的判定结果和输入信号判定输入信号有声或无声。

Description

有声无声判定装置和有声无声判定方法
技术领域
本发明涉及有声无声判定装置和有声无声判定方法。
背景技术
在便携电话和因特网电话中,以消减发送功率和有效利用传送频带为目的的所谓间歇发送的技术得到利用。所谓间歇发送是指这样的技术:在有声音的有声区间内发送对声音编码后的信息,另一方面,在没有声音的无声区间内发送比声音信息少的信息量的信息,或者停止发送信息。为了进行这种间歇发送,利用有声无声判定装置,判定输入信号在包含声音的有声区间还是在不需要发送信息的无声区间。
例如,下述专利文献1中记载的有声无声判定装置利用声音信号是有周期性的特性,利用输入信号的自相关值判定是有声区间还是无声区间。具体地说,有声无声判定装置算出输入信号的自相关值为最大的延迟,算出的延迟如果和声音信号的周期一致,则判定为有声区间,如果不一致,则判定为无声区间。
下述非专利文献1中记载的有声无声判定装置根据输入信号推定背景杂音,用推定的背景杂音和输入信号的比(S/N比)判定是有声区间还是无声区间。更具体地说,有声无声判定装置算出输入信号的自相关值为最大的延迟以及带加权的输入信号的自相关值为最大的延迟,基于这些延迟的持续性(即延迟变动小的状态是否持续一定时间),一边改变背景杂音的推定方法,一边推定背景杂音,如果推定的背景杂音和输入信号的S/N比大于等于阈值(根据推定的背景杂音来决定),则判定为有声区间,如果比阈值小,则判定为无声区间。
专利文献1:特开2002-162982号公报
非专利文献1:3GPP TS 26.094 V3.0.0( http://www.3gpp.org/ftp /Specs/html-info/26094.htm)
发明内容
但是,在上述现有的有声无声判定装置中,有以下问题。即,上述技术的有声无声判定装置用最大自相关值或自相关值为最大的延迟来判定有声区间或无声区间。因此,对于非周期分量多的信号和多个不同周期分量混杂的输入信号,不能精确地判定有声区间或无声区间。
因此,本发明要解决上述问题,提供一种有声无声判定装置和有声无声判定,即使对于非周期分量多的信号和多个不同周期分量混合的输入信号,也能精确地判定有声区间或无声区间。
为了解决上述课题,本发明的有声无声判定装置,其特征在于,包括:自相关计算单元,计算输入信号的自相关值;延迟计算单元,计算使上述自相关计算单元计算出的上述自相关值为极大的多个延迟;性质判定单元,基于由上述延迟计算单元计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及有声无声判定单元,基于上述性质判定单元的判定结果,判定上述输入信号有声还是无声。
为了解决上述课题,本发明的有声无声判定方法,其特征在于,包括以下步骤:自相关计算步骤,算出输入信号的自相关值;延迟计算步骤,计算使在上述自相关计算步骤中计算出的上述自相关值为极大的多个延迟;性质判定步骤,基于在上述延迟计算步骤中计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及有声无声判定步骤,基于上述性质判定步骤中的判定结果,判定上述输入信号有声还是无声。
算出输入信号的自相关值为极大的多个延迟,基于这些多个延迟判定输入信号有声或无声,从而能考虑输入信号中包含的多个周期分量并判定有声或无声。
在本发明的有声无声判定装置中,上述有声无声判定装置的特征在于基于上述性质判定装置的判定结果和上述输入信号判定上述输入信号有声或无声。
同样地,在本发明的有声无声判定方法中,上述有声无声判定步骤的特征在于基于上述性质判定步骤中的判定结果和上述输入信号判定上述输入信号有声或无声。
在性质判定装置或性质判定步骤中,除了判定结果外,还利用输入信号判定有声或无声,从而,能嵌入更细致的判定过程。即,例如,在性质判定装置或性质判定步骤中,判定为杂音的,还可以基于输入信号的历史判定为有声。
在本发明的有声无声判定装置中,还具有杂音推定单元,根据上述输入信号来推定杂音;其中上述有声无声判定单元基于上述性质判定单元的判定结果、上述输入信号以及上述杂音推定单元推定的杂音来判定上述输入信号有声或无声。
除了性质判定装置的判定结果以外,还利用输入信号和杂音信号判定有声或无声,从而,能基于S/N比判定有声无声。
在本发明的有声无声判定装置中,上述杂音推定装置基于上述有声无声判定装置的判定结果改变杂音的推定方法。
通过基于有声无声判定装置的判定结果改变杂音的推定方法,能嵌入更细致的杂音推定过程。即,例如,在有声无声判定装置持续判定为有声时,则通过积极地降低由杂音推定装置推定的杂音电平,相对于杂音,强调信号分量。
在本发明的有声无声判定装置中,上述延迟计算装置的特征在于,按照自相关值从大到小的顺序算出上述多个延迟。
通过按自相关值从大到小的顺序算出上述多个延迟,可以很容易地算出上述多个延迟。
在本发明的有声无声判定装置中,上述延迟计算装置的特征在于,将延迟观测区间分割为多个区间,计算出在上述多个区间中的每个区间中自相关值为最大的延迟。
同样地,在本发明的有声无声判定方法中,上述延迟计算步骤的特征在于,将延迟观测区间分割为多个区间,在上述多个区间中的每个区间中算出自相关值为最大的延迟。
将延迟观测区间分割为多个区间,算出每个区间内自相关值为最大的延迟,从而,可以不偏向于例如依存于声带固有频率及其整数倍波的延迟,一一算出依存于输入信号中包含的种种周期分量的延迟。
在本发明的有声无声判定装置中,上述多个区间将上述延迟观测区间的起点作为min_t,用2i-1·min_t~2i·min_t(i是自然数)来表示。
通过进行这种区间分割,对于具有周期性的信号,能更有效地检测出与其2倍周期对应的延迟,能精确度更高地进行有声无声判定。
本发明的有声无声判定装置和有声无声判定方法算出输入信号的自相关值为极大的多个延迟,基于这些多个延迟判定输入信号是有声还是无声。因此,能考虑输入信号中包含的多个周期分量地判定有声或无声。结果,即使对于非周期分量多的信号和多个不同周期分量混合的输入信号,也能精确地判定有声区间或无声区间。
附图说明
图1是根据第一实施方式的有声无声判定装置的结构图;
图2示出了延迟计算的具体例;
图3是根据第一实施方式的有声无声判定装置的操作流程图;
图4是根据第二实施方式的有声无声判定装置的结构图;
图5是根据第二实施方式的有声无声判定装置的操作流程图;
图6是根据第三实施方式的有声无声判定装置的结构图;
图7示出了延迟计算的具体例。
具体实施方式
第一实施方式
参考附图说明根据本发明第一实施方式的有声无声判定装置。
首先,说明根据本实施方式的有声无声判定装置的结构。图1是根据本实施方式的有声无声判定装置的结构图。
根据本实施方式的有声无声判定装置1物理上作为计算机系统来构成,具备CPU(中央处理器)、存储器、鼠标或键盘等输入装置、显示器等显示装置、硬盘等存储装置、通过无线和外部设备进行数据通信的无线通信单元等。在功能上,如图1所示,有声无声判定装置1具有自相关计算部11(自相关计算单元),延迟计算部12(延迟计算单元),杂音判定部13(性质判定单元),有声无声判定部14(有声无声判定单元)。以下,详细说明有声无声判定装置1的各构成要素。
自相关计算部11计算输入信号的自相关值。具体地说,有声无声判定装置1根据以下的式(1)算出输入信号x(t)的自相关值c(t)。
c ( t ) = Σ n = 0 N - 1 x ( n ) x ( n - t ) Σ n = 0 N - 1 x 2 ( n ) Σ n = 0 N - 1 x 2 ( n - t ) · · · ( 1 )
这里,x(n)(n=0,1,...,N)是在经过一定时间(例如20msec)后每隔一定时间间隔(例如1/8000sec)对x(t)采样得到的第n个值。对于自相关值c(t),也是作为在一定时间(例如18msec)后每隔一定时间间隔(例如1/8000sec)的离散值而得到。
此外,自相关计算部11不一定严密地按上述式(1)算出自相关值。例如,自相关计算部11也可以基于广泛用于声音编码过程中的带听觉加权的输入信号而算出自相关值。自相关计算部11也可以对基于输入信号算出的自相关值进行加权,输出带加权的自相关值。
延迟计算部12算出使由自相关计算部11计算的自相关值为极大的多个延迟。具体地说,延迟计算部12扫描预定的延迟观测区间内的自相关值,按照从大到小的顺序算出M个自相关值为极大的延迟。即,如图2所示,在延迟观测区间min_t~max_t(例如AMR时为18~143)内,依次算出使自相关值为极大的延迟中的自相关值最大的延迟t_maxl,使自相关值为极大的延迟中自相关值第二大的延迟t_max2,使自相关值为极大的延迟中自相关值第三大的延迟t_max3(这里,以M=3进行说明)。
返回图1,杂音判定部13基于延迟计算部12算出的多个延迟判定输入信号是否为杂音(输入信号的性质)。例如,杂音判定部13利用延迟计算部12算出的多个延迟t_maxi(1≤i≤M)的时间变动t_maxi(k)(1≤i≤M,1≤k≤K)判定输入信号是否为杂音。这里,k是表示时间的从属变量。更具体地说,在满足式(2)所示条件的状态持续一定时间的情况下(如果定性地说,是延迟变动小的状态持续一定时间时),杂音判定部13判定输入信号不是杂音。相反,在满足式(2)所示条件的状态不持续一定时间的情况下杂音判定部13判定输入信号是杂音。
Min i = 1 ~ M j = 1 ~ M { | t - max i ( k ) - t _ max j ( k - 1 ) | } ≤ d · · · ( 2 )
此外,式(2)中,d是预定的阈值。这里,杂音判定部13也可以以基于多个延迟判定输入信号是否为杂音为条件,用上述过程以外的过程判定输入信号是否为杂音。
有声无声判定部14基于杂音判定部13的判定结果和输入信号判定输入信号有声或无声。例如,有声无声判定部14用杂音判定部13的判定结果和输入信号的分析结果(功率,谱包络,过零数等),判定输入信号有声还是无声。这里,作为用杂音判定部13的判定结果和输入信号的分析结果判定输入信号有声或无声的方法,可以采用广为人知的种种方法。这里,所谓“无声”是指作为信息没有意义的声音,相当于背景杂音等。另一方面,所谓“有声”是指作为信息有意义的声音,相当于人声和音乐等。
接着,说明根据本实施方式的有声无声判定装置的操作以及根据本发明实施方式的有声无声判定方法。图3是根据本实施方式的有声无声判定装置的操作流程图。
当在有声无声判定装置1中输入输入信号时,首先,通过自相关计算部11算出输入信号的自相关值(S11)。具体地说,根据上述式(1),算出输入信号x(t)的自相关值c(t)。
当通过自相关计算部11算出输入信号的自相关值时,通过延迟计算部12算出使自相关计算部11计算出的自相关值为极大的多个延迟(S12)。具体地说,扫描预定的延迟观测区间内的自相关值,按照从大到小的顺序算出M个自相关值为极大的M个延迟(延迟t_max1~t_maxM)。
当通过延迟计算部12算出多个延迟时,基于判定延迟计算部12算出的多个延迟,通过杂音判定部13判定输入信号是否为杂音(输入信号的性质)(S13)。具体地说,满足上述式(2)所示条件的状态持续一定时间时,判定为输入信号不是杂音。相反,满足式(2)所示条件的状态不持续一定时间时,判定输入信号是杂音。
当杂音判定部13判定输入信号是否为杂音时,基于杂音判定部13的判定结果和输入信号,有声无声判定部14判定输入信号是有声或无声(S14)。具体地说,例如,用杂音判定部13的判定结果和输入信号的分析结果(功率,谱包络,过零数等),判定输入信号是有声还是无声。
接着,说明根据本实施方式的有声无声判定装置的作用和效果。根据本实施方式的有声无声判定装置1的延迟计算部12算出自相关值为极大的多个延迟t_max1~t_maxM,杂音判定部13基于这多个延迟t_max1~t_maxM判定输入信号是杂音还是非杂音,有声无声判定部14基于杂音判定部13的判定结果判定输入信号是有声还是无声。因此,可以考虑输入信号中包含的多个周期分量来判定有声或无声。结果,即使对于非周期分量多的信号和多个不同周期分量混合的输入信号,也能精确地判定有声区间或无声区间。
本实施方式的有声无声判定装置1的有声无声判定部14不仅利用杂音判定部13的判定结果、还利用输入信号来判定该输入信号是有声还是无声。因此,和仅利用杂音判定部13的判定结果判定输入信号有声或无声的情况相比,可以嵌入更细致的判定过程。即,例如,可以嵌入杂音判定部13判定为杂音但输入信号的历史满足一定条件时判定为有声的判定过程。此外,有声无声判定部14在不用输入信号的分析结果的情况下,仅用杂音判定部13的判定结果也可以判定输入信号是有声还是无声。这时,虽然不能嵌入上述更细致的判定过程,但具有将有声或无声的判定过程变简单的效果。
在根据本实施方式的有声无声判定装置1中,当延迟计算部12算出多个延迟时,按照自相关值从大到小的顺序计算多个延迟。因此,和采用其他计算方法的情况相比,可以容易地算出多个延迟。
第二实施方式
接着,参考附图说明根据本发明第二实施方式的有声无声判定装置。首先,说明根据本实施方式的有声无声判定装置的构成。图4是根据本实施方式的有声无声判定装置的构成图。根据本实施方式的有声无声判定装置2和上述根据第一实施方式的有声无声判定装置1的不同之处在于还具有从输入信号中推定杂音的杂音推定部21(杂音推定装置),有声无声判定部22利用该杂音推定部21推定的杂音判定输入信号有声或无声。
在功能上,如图4所示,有声无声判定装置2具有自相关计算部11,延迟计算部12,杂音判定部13,杂音推定部21和有声无声判定部22。这里,自相关计算部11,延迟计算部12和杂音判定部13具有的功能分别和根据第一实施方式的有声无声判定装置1中的自相关计算部11、延迟计算部12和杂音判定部13相同。
杂音推定部21从输入信号中推定杂音。具体地说,杂音推定部21例如根据下述式(3)推定杂音。
noisem+1(n)=(1-α)·noisem(n)+α·inputm-1(n)    …(3)
这里,noise是推定杂音,input是输入信号,n是表示频带的指数,m是表示时刻(帧)的指数,α是系数。即,noisem(n)表示第n个频带内时刻(帧)m的推定杂音。这里,杂音推定部21根据杂音判定部13的判定结果改变上述式(3)的系数α。即,杂音判定部13判定输入信号不是杂音时,杂音推定部21使上述式(3)的系数α为0或者接近0的值α1,以便不增大推定杂音功率。另一方面,杂音判定部13判定输入信号为杂音时,杂音推定部21使上述式(3)的系数α为1或者接近1的值α2(α2>α1),以便使推定杂音接近输入信号。此外,杂音推定部21也可以用上述过程以外的过程从输入信号中推定杂音。
有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音,判定输入信号有声或无声。具体地说,例如,有声无声判定部22根据杂音推定部21推定的杂音和输入信号算出S/N比(更准确地说是各频带的S/N比的累计值或平均值)。有声无声判定部22把算出的S/N比和预定的阈值相比较,S/N比大于阈值时,判定为输入信号是有声的,S/N比小于或等于阈值时,判定为输入信号是无声的。这里,上述阈值设定成随杂音判定部13的判定结果的不同而不同。即,杂音判定部13判定为“非杂音”时的阈值设定得比杂音判定部13判定为“杂音”时的阈值低。这样,杂音判定部13判定为“非杂音”时,S/N比小的信号(即埋在杂音中的信号)也作为“有声”被提取出来的可能性高。此外,有声无声判定部22也可以用上述过程以外的过程判定有声或无声。即,例如,利用上述阈值,无论杂音判定部13的判定结果如何,有声无声判定部22一律基于输入信号和杂音推定部21推定的杂音来判定输入信号有声或无声。
接着,说明根据本实施方式的有声无声判定装置的操作。图5是根据本实施方式的有声无声判定装置的操作流程图。这里,自相关值的计算(S11)、延迟t_max1~t_maxM的计算(S12)和杂音、非杂音的判定(S13)与根据第一实施方式的有声无声判定装置1的操作相同。
接着步骤S11~S13,通过杂音推定部21根据输入信号推定杂音(S21)。具体地说,根据上述式(3),推定杂音。这里,上述式(3)的系数α随杂音判定部13的判定结果来变化。即,杂音判定部13将输入信号判定为不是杂音时,将上述式(3)的系数α设定为0或者接近0的值α1,以便不增加推定杂音功率。另一方面,杂音判定部13将输入信号判定为杂音时,将上述式(3)的系数α设定为1或者接近1的值α2(α2>α1),以便使推定杂音接近输入信号。此外,杂音的推定(S21)不限于步骤S11~S13结束后,和步骤S11~S13并行进行也可以。
当通过杂音推定部21推定杂音时,有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音,判定输入信号有声或无声(S22)。具体地说,例如,根据杂音推定部21推定的杂音和输入信号算出S/N比,将算出的S/N比和预定的阈值相比较。这里,S/N比大于阈值时,判定为输入信号是有声的,S/N比小于或等于阈值时,判定为输入信号是无声的。
接着,说明根据本实施方式的有声无声判定装置的效果。根据本实施方式的有声无声判定装置2,除了具有根据上述实施方式的有声无声判定装置1的效果之外,还具有以下效果。即,有声无声判定装置2的杂音推定部21根据输入信号推定杂音,有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音判定输入信号是有声还是无声。因此,可以基于S/N比高精度地判定有声无声。杂音推定部21根据杂音判定部13的判定结果改变杂音推定式(上述式(3))的系数α,从而,能更高精度地判定有声无声。
第三实施方式
接着,参考附图说明根据本发明第三实施方式的有声无声判定装置。图6是根据本实施方式得有声无声判定装置的构成图。根据本实施方式的有声无声判定装置3和上述根据实施方式2的有声无声判定装置2的不同之处在于:杂音推定部31基于有声无声判定部22的判定结果来改变杂音的推定方法。
从功能上看,如图6所示,有声无声判定装置3包括自相关计算部11,延迟计算部12,杂音判定部13,杂音推定部31和有声无声判定部22。这里,自相关计算部11、延迟计算部12、杂音判定部13和有声无声判定部22具有的功能分别和根据第二实施方式的有声无声判定装置2中的自相关计算部11、延迟计算部12、杂音判定部13和有声无声判定部22相同。
杂音推定部31和有声无声判定装置2中的杂音推定部21一样推定输入信号的杂音。但是,特别地,杂音推定部31基于有声无声判定部22的判定结果改变杂音的推定方法。具体地说,杂音推定部31首先根据上述式(3)推定杂音。之后,杂音推定部31将根据式(3)算出的杂音乘上根据有声无声判定部22的判定结果履历而决定的系数β后的值作为最终的杂音输出。例如,杂音推定部31的有声无声判定部22连续输出一定时间以上“有声”的判定结果时,将上述系数β作为小于1的值,产生信号,此外的情况下,使系数β为1。此外,杂音推定部31也可以用上述过程以外的过程改变杂音的推定方法。
根据本实施方式的有声无声判定装置3除了具有根据上述实施方式的有声无声判定装置2的效果之外,还具有以下效果。即,有声无声判定装置3基于有声无声判定部22的判定结果使杂音推定部31改变杂音的推定方法。因此,可以嵌入更细致的杂音推定过程。即,例如,有声无声判定部22连续判定为有声时,通过积极地降低杂音推定部31推定的杂音电平,相对于杂音来强调信号分量。
上述有声无声判定装置1、2和3的延迟计算部12可以按照以下过程算出多个延迟。即,延迟计算部12将延迟观测区间分割为多个区间,在这些区间中分别算出自相关值最大的延迟。这时,例如,把上述延迟观测区间的起点作为min_t,用2i-1·min_t~2i·min_t(i是自然数)确定上述多个区间。
具体地说,如图7所示,延迟计算部12首先依次按区间宽度成倍增长而分割为多个区间,使得延迟观测区间min_t~max_t为min_t~2·min_t,2·min_t~4·min_t,4·min_t~8·min_t。之后,顺次算出区间min_t~2·min_t内自相关值为最大的延迟t_max1,区间2·min_t~4·min_t内自相关值为最大的延迟t_max2,区间4·min_t~8·min_t内自相关值为最大的延迟t_max3(这里,以M=3来说明)。例如,AMR时,根据min_t是18,求出[18,35]、[36,71]、[72,143]各区间内自相关值为最大的延迟。
通过进行这样的区间分割,对于有周期性的信号,可以更有效地检测出与其2倍周期对应的延迟,可以更高精度地进行有声无声判定。
本发明例如在便携电话和因特网电话的通信中,用作有声无声判定装置,判定输入信号是包含声音的有声区间还是不需要发送信息得无声区间。
当然,以上说明的本发明的实施方式可以采用各种变形方式。这些变形方式不脱离本发明的主题和目的,下述请求范围旨在包含所有上述变形方式的技术内容。

Claims (8)

1.一种有声无声判定装置,其特征在于,包括:
自相关计算单元,计算输入信号的自相关值;
延迟计算单元,计算使上述自相关计算单元计算出的上述自相关值为极大的多个延迟;
性质判定单元,基于由上述延迟计算单元计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及
有声无声判定单元,基于上述性质判定单元的判定结果,判定上述输入信号有声还是无声。
2.根据权利要求1所述的有声无声判定装置,其特征在于,上述有声无声判定单元基于上述性质判定单元的判定结果和上述输入信号来判定上述输入信号有声还是无声。
3.根据权利要求1所述的有声无声判定装置,其特征在于,还具有杂音推定单元,根据上述输入信号来推定杂音;
其中上述有声无声判定单元基于上述性质判定单元的判定结果、上述输入信号以及上述杂音推定单元推定的杂音来判定上述输入信号有声或无声。
4.根据权利要求3所述的有声无声判定装置,其特征在于,上述杂音推定单元基于上述有声无声判定单元的判定结果来改变杂音的推定方法。
5.根据权利要求1所述的有声无声判定装置,其特征在于,上述延迟计算单元按照自相关值从大到小的顺序来计算上述多个延迟。
6.根据权利要求1所述的有声无声判定装置,其特征在于,上述延迟计算单元将延迟观测区间分割为多个区间,计算出在上述各个区间中使自相关值为最大的延迟。
7.根据权利要求6所述的有声无声判定装置,其特征在于,上述多个区间把上述延迟观测区间的起点作为min_t,用2i-1·min_t~2i·min_t来表示,其中i是自然数。
8.一种有声无声判定方法,其特征在于,包括以下步骤:
自相关计算步骤,算出输入信号的自相关值;
延迟计算步骤,计算使在上述自相关计算步骤中计算出的上述自相关值为极大的多个延迟;
性质判定步骤,基于在上述延迟计算步骤中计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及
有声无声判定步骤,基于上述性质判定步骤中的判定结果,判定上述输入信号有声还是无声。
CNB2004100818632A 2003-12-25 2004-12-24 有声无声判定装置和有声无声判定方法 Expired - Fee Related CN1311421C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003430973A JP4490090B2 (ja) 2003-12-25 2003-12-25 有音無音判定装置および有音無音判定方法
JP2003430973 2003-12-25

Publications (2)

Publication Number Publication Date
CN1637856A CN1637856A (zh) 2005-07-13
CN1311421C true CN1311421C (zh) 2007-04-18

Family

ID=34545038

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100818632A Expired - Fee Related CN1311421C (zh) 2003-12-25 2004-12-24 有声无声判定装置和有声无声判定方法

Country Status (5)

Country Link
US (1) US8442817B2 (zh)
EP (1) EP1548703B1 (zh)
JP (1) JP4490090B2 (zh)
CN (1) CN1311421C (zh)
DE (1) DE602004003209T2 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
KR20090045278A (ko) 2006-08-22 2009-05-07 가부시키가이샤 엔티티 도코모 무선 리소스 개방 제어방법, 무선기지국 및 이동국
US8588054B2 (en) * 2006-10-26 2013-11-19 Qualcomm Incorporated Silence intervals in wireless communications
KR101009854B1 (ko) * 2007-03-22 2011-01-19 고려대학교 산학협력단 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
TWI378692B (en) * 2007-07-06 2012-12-01 Princeton Technology Corp Device for determining pn code automatically and related method
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US20120265526A1 (en) * 2011-04-13 2012-10-18 Continental Automotive Systems, Inc. Apparatus and method for voice activity detection
EP2784532A4 (en) * 2011-11-24 2015-10-28 Toyota Motor Co Ltd DEVICE FOR DETECTING SOUND SOURCES
BR112016014104B1 (pt) * 2013-12-19 2020-12-29 Telefonaktiebolaget Lm Ericsson (Publ) método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US10229686B2 (en) * 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
CN115116441A (zh) * 2022-06-27 2022-09-27 南京大鱼半导体有限公司 一种语音识别功能的唤醒方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002162982A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd 有音無音判定装置及び有音無音判定方法
CN1443349A (zh) * 2000-07-19 2003-09-17 埃里弗克姆公司 从电子信号中去除噪声的方法和仪器

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5912185B2 (ja) * 1978-01-09 1984-03-21 日本電気株式会社 有声無声判定装置
JPS56135898A (en) 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
GB2139052A (en) * 1983-04-20 1984-10-31 Philips Electronic Associated Apparatus for distinguishing between speech and certain other signals
JPH0824324B2 (ja) 1987-04-17 1996-03-06 沖電気工業株式会社 音声パケツト送信装置
JPS63281200A (ja) 1987-05-14 1988-11-17 沖電気工業株式会社 音声区間検出方式
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH0490599A (ja) * 1990-08-06 1992-03-24 Dsp Group Inc 音声操作式スイッチ
CA2110090C (en) 1992-11-27 1998-09-15 Toshihiro Hayata Voice encoder
US5485522A (en) 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JPH1091184A (ja) 1996-09-12 1998-04-10 Oki Electric Ind Co Ltd 音声検出装置
DE69831991T2 (de) 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
FI113903B (fi) 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
FR2768544B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
US5991718A (en) 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US6453285B1 (en) 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6108610A (en) 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
JP2000250568A (ja) 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP3983421B2 (ja) 1999-06-11 2007-09-26 三菱電機株式会社 音声認識装置
US6671667B1 (en) 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
JP2003530605A (ja) * 2000-04-06 2003-10-14 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) 音声信号におけるピッチ推定
JP2001306086A (ja) 2000-04-21 2001-11-02 Mitsubishi Electric Corp 音声区間判定装置および音声区間判定方法
JP3840876B2 (ja) * 2000-05-16 2006-11-01 岩崎通信機株式会社 周期的信号検出装置
US7487083B1 (en) 2000-07-13 2009-02-03 Alcatel-Lucent Usa Inc. Method and apparatus for discriminating speech from voice-band data in a communication network
US6675114B2 (en) * 2000-08-15 2004-01-06 Kobe University Method for evaluating sound and system for carrying out the same
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
DE10052626A1 (de) 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US7146314B2 (en) 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US6999087B2 (en) * 2002-03-12 2006-02-14 Sun Microsystems, Inc. Dynamically adjusting sample density in a graphics system
US20040064314A1 (en) 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP4601970B2 (ja) 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US7529670B1 (en) * 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1443349A (zh) * 2000-07-19 2003-09-17 埃里弗克姆公司 从电子信号中去除噪声的方法和仪器
JP2002162982A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd 有音無音判定装置及び有音無音判定方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A voice activity detection algorithm for communicationsystemswith dynamically varying background acoustic noise LEE I D ET AL,VEHICULAR TECHONLOGY CONFERENCE,Vol.2 1998 *
A voice activity detection algorithm for communicationsystemswith dynamically varying background acoustic noise LEE I D ET AL,VEHICULAR TECHONLOGY CONFERENCE,Vol.2 1998;UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC TRANSCODING FUNCTIONS(3GPP TS26.090VERSION 5.0.0RELEASE 5);ETSI TS 126 090 ETSI STANDARDS EUROPEAN TELECOMMUNICATIONS STANDARDS INSTITUTE 3.SA4 2002;UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR FOR AMR SPEECH TRAFFIC CHANNELS UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR 2002 *
UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC TRANSCODING FUNCTIONS(3GPP TS26.090VERSION 5.0.0RELEASE 5);ETSI TS 126 090 ETSI STANDARDS EUROPEAN TELECOMMUNICATIONS STANDARDS INSTITUTE 3.SA4 2002 *
UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR FOR AMR SPEECH TRAFFIC CHANNELS UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR 2002 *

Also Published As

Publication number Publication date
CN1637856A (zh) 2005-07-13
DE602004003209D1 (de) 2006-12-28
DE602004003209T2 (de) 2007-09-06
JP2005189518A (ja) 2005-07-14
EP1548703B1 (en) 2006-11-15
EP1548703A1 (en) 2005-06-29
US8442817B2 (en) 2013-05-14
US20050154583A1 (en) 2005-07-14
JP4490090B2 (ja) 2010-06-23

Similar Documents

Publication Publication Date Title
CN1311421C (zh) 有声无声判定装置和有声无声判定方法
CN1320521C (zh) 在速率可变的声码器中选择编码速率的方法和装置
JP5706910B2 (ja) デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム
CN1272911C (zh) 音频信号解码装置及音频信号编码装置
CN1805007A (zh) 用于在语音信号处理中检测语音片段的方法和装置
US20050177363A1 (en) Apparatus, method, and medium for detecting voiced sound and unvoiced sound
CN1909060A (zh) 提取浊音/清音分类信息的方法和设备
CN1539136A (zh) 基于频谱分析的音调确定方法和装置
CN1271593C (zh) 一种语音信号检测方法
CN1758331A (zh) 基于基音频率的快速音频分割方法
CN111696580B (zh) 一种语音检测方法、装置、电子设备及存储介质
CN1949364A (zh) 检测输入语音信号可识别度的系统与方法
CN1648994A (zh) 有声无声判定装置和有声无声判定方法
CN100347988C (zh) 一种宽频带语音质量客观评价方法
CN1866357A (zh) 噪声电平推定方法及其装置
CN1214362C (zh) 用于确定信号间相关系数和信号音高的设备和方法
CN101030374A (zh) 基音周期提取方法及装置
CN1327574A (zh) 声音解码装置和声音解码方法
CN101046955A (zh) 一种pcm码流语音检测方法
CN1754204A (zh) 低频带噪声检测
CN1604188A (zh) 基于多峰提取的语音编码刺激方法
CN1304995C (zh) 噪声抑制元件选择方法及程序
CN1860528A (zh) 在数字音频信号内的微小静电干扰噪声检测
CN1484116A (zh) 节拍数检测装置
RU2684576C1 (ru) Способ выделения сегментов обработки речи на основе последовательного статистического анализа

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070418

CF01 Termination of patent right due to non-payment of annual fee