CN1311421C - 有声无声判定装置和有声无声判定方法 - Google Patents
有声无声判定装置和有声无声判定方法 Download PDFInfo
- Publication number
- CN1311421C CN1311421C CNB2004100818632A CN200410081863A CN1311421C CN 1311421 C CN1311421 C CN 1311421C CN B2004100818632 A CNB2004100818632 A CN B2004100818632A CN 200410081863 A CN200410081863 A CN 200410081863A CN 1311421 C CN1311421 C CN 1311421C
- Authority
- CN
- China
- Prior art keywords
- mentioned
- sound
- noiseless
- noise
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000694 effects Effects 0.000 title abstract description 13
- 238000001514 detection method Methods 0.000 title description 66
- 230000001934 delay Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000000737 periodic effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种有声无声判定装置和有声无声判定方法,其中有声无声判定装置1包括:计算输入信号的自相关值的自相关计算部11;延迟计算部12,计算自相关计算部11算出的自相关值为极大的多个延迟;杂音判定部13,基于延迟计算部12算出的多个延迟判定输入信号是否为杂音;有声无声判定部14,基于杂音判定部13的判定结果和输入信号判定输入信号有声或无声。
Description
技术领域
本发明涉及有声无声判定装置和有声无声判定方法。
背景技术
在便携电话和因特网电话中,以消减发送功率和有效利用传送频带为目的的所谓间歇发送的技术得到利用。所谓间歇发送是指这样的技术:在有声音的有声区间内发送对声音编码后的信息,另一方面,在没有声音的无声区间内发送比声音信息少的信息量的信息,或者停止发送信息。为了进行这种间歇发送,利用有声无声判定装置,判定输入信号在包含声音的有声区间还是在不需要发送信息的无声区间。
例如,下述专利文献1中记载的有声无声判定装置利用声音信号是有周期性的特性,利用输入信号的自相关值判定是有声区间还是无声区间。具体地说,有声无声判定装置算出输入信号的自相关值为最大的延迟,算出的延迟如果和声音信号的周期一致,则判定为有声区间,如果不一致,则判定为无声区间。
下述非专利文献1中记载的有声无声判定装置根据输入信号推定背景杂音,用推定的背景杂音和输入信号的比(S/N比)判定是有声区间还是无声区间。更具体地说,有声无声判定装置算出输入信号的自相关值为最大的延迟以及带加权的输入信号的自相关值为最大的延迟,基于这些延迟的持续性(即延迟变动小的状态是否持续一定时间),一边改变背景杂音的推定方法,一边推定背景杂音,如果推定的背景杂音和输入信号的S/N比大于等于阈值(根据推定的背景杂音来决定),则判定为有声区间,如果比阈值小,则判定为无声区间。
专利文献1:特开2002-162982号公报
非专利文献1:3GPP TS 26.094 V3.0.0(
http://www.3gpp.org/ftp /Specs/html-info/26094.htm)
发明内容
但是,在上述现有的有声无声判定装置中,有以下问题。即,上述技术的有声无声判定装置用最大自相关值或自相关值为最大的延迟来判定有声区间或无声区间。因此,对于非周期分量多的信号和多个不同周期分量混杂的输入信号,不能精确地判定有声区间或无声区间。
因此,本发明要解决上述问题,提供一种有声无声判定装置和有声无声判定,即使对于非周期分量多的信号和多个不同周期分量混合的输入信号,也能精确地判定有声区间或无声区间。
为了解决上述课题,本发明的有声无声判定装置,其特征在于,包括:自相关计算单元,计算输入信号的自相关值;延迟计算单元,计算使上述自相关计算单元计算出的上述自相关值为极大的多个延迟;性质判定单元,基于由上述延迟计算单元计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及有声无声判定单元,基于上述性质判定单元的判定结果,判定上述输入信号有声还是无声。
为了解决上述课题,本发明的有声无声判定方法,其特征在于,包括以下步骤:自相关计算步骤,算出输入信号的自相关值;延迟计算步骤,计算使在上述自相关计算步骤中计算出的上述自相关值为极大的多个延迟;性质判定步骤,基于在上述延迟计算步骤中计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及有声无声判定步骤,基于上述性质判定步骤中的判定结果,判定上述输入信号有声还是无声。
算出输入信号的自相关值为极大的多个延迟,基于这些多个延迟判定输入信号有声或无声,从而能考虑输入信号中包含的多个周期分量并判定有声或无声。
在本发明的有声无声判定装置中,上述有声无声判定装置的特征在于基于上述性质判定装置的判定结果和上述输入信号判定上述输入信号有声或无声。
同样地,在本发明的有声无声判定方法中,上述有声无声判定步骤的特征在于基于上述性质判定步骤中的判定结果和上述输入信号判定上述输入信号有声或无声。
在性质判定装置或性质判定步骤中,除了判定结果外,还利用输入信号判定有声或无声,从而,能嵌入更细致的判定过程。即,例如,在性质判定装置或性质判定步骤中,判定为杂音的,还可以基于输入信号的历史判定为有声。
在本发明的有声无声判定装置中,还具有杂音推定单元,根据上述输入信号来推定杂音;其中上述有声无声判定单元基于上述性质判定单元的判定结果、上述输入信号以及上述杂音推定单元推定的杂音来判定上述输入信号有声或无声。
除了性质判定装置的判定结果以外,还利用输入信号和杂音信号判定有声或无声,从而,能基于S/N比判定有声无声。
在本发明的有声无声判定装置中,上述杂音推定装置基于上述有声无声判定装置的判定结果改变杂音的推定方法。
通过基于有声无声判定装置的判定结果改变杂音的推定方法,能嵌入更细致的杂音推定过程。即,例如,在有声无声判定装置持续判定为有声时,则通过积极地降低由杂音推定装置推定的杂音电平,相对于杂音,强调信号分量。
在本发明的有声无声判定装置中,上述延迟计算装置的特征在于,按照自相关值从大到小的顺序算出上述多个延迟。
通过按自相关值从大到小的顺序算出上述多个延迟,可以很容易地算出上述多个延迟。
在本发明的有声无声判定装置中,上述延迟计算装置的特征在于,将延迟观测区间分割为多个区间,计算出在上述多个区间中的每个区间中自相关值为最大的延迟。
同样地,在本发明的有声无声判定方法中,上述延迟计算步骤的特征在于,将延迟观测区间分割为多个区间,在上述多个区间中的每个区间中算出自相关值为最大的延迟。
将延迟观测区间分割为多个区间,算出每个区间内自相关值为最大的延迟,从而,可以不偏向于例如依存于声带固有频率及其整数倍波的延迟,一一算出依存于输入信号中包含的种种周期分量的延迟。
在本发明的有声无声判定装置中,上述多个区间将上述延迟观测区间的起点作为min_t,用2i-1·min_t~2i·min_t(i是自然数)来表示。
通过进行这种区间分割,对于具有周期性的信号,能更有效地检测出与其2倍周期对应的延迟,能精确度更高地进行有声无声判定。
本发明的有声无声判定装置和有声无声判定方法算出输入信号的自相关值为极大的多个延迟,基于这些多个延迟判定输入信号是有声还是无声。因此,能考虑输入信号中包含的多个周期分量地判定有声或无声。结果,即使对于非周期分量多的信号和多个不同周期分量混合的输入信号,也能精确地判定有声区间或无声区间。
附图说明
图1是根据第一实施方式的有声无声判定装置的结构图;
图2示出了延迟计算的具体例;
图3是根据第一实施方式的有声无声判定装置的操作流程图;
图4是根据第二实施方式的有声无声判定装置的结构图;
图5是根据第二实施方式的有声无声判定装置的操作流程图;
图6是根据第三实施方式的有声无声判定装置的结构图;
图7示出了延迟计算的具体例。
具体实施方式
第一实施方式
参考附图说明根据本发明第一实施方式的有声无声判定装置。
首先,说明根据本实施方式的有声无声判定装置的结构。图1是根据本实施方式的有声无声判定装置的结构图。
根据本实施方式的有声无声判定装置1物理上作为计算机系统来构成,具备CPU(中央处理器)、存储器、鼠标或键盘等输入装置、显示器等显示装置、硬盘等存储装置、通过无线和外部设备进行数据通信的无线通信单元等。在功能上,如图1所示,有声无声判定装置1具有自相关计算部11(自相关计算单元),延迟计算部12(延迟计算单元),杂音判定部13(性质判定单元),有声无声判定部14(有声无声判定单元)。以下,详细说明有声无声判定装置1的各构成要素。
自相关计算部11计算输入信号的自相关值。具体地说,有声无声判定装置1根据以下的式(1)算出输入信号x(t)的自相关值c(t)。
这里,x(n)(n=0,1,...,N)是在经过一定时间(例如20msec)后每隔一定时间间隔(例如1/8000sec)对x(t)采样得到的第n个值。对于自相关值c(t),也是作为在一定时间(例如18msec)后每隔一定时间间隔(例如1/8000sec)的离散值而得到。
此外,自相关计算部11不一定严密地按上述式(1)算出自相关值。例如,自相关计算部11也可以基于广泛用于声音编码过程中的带听觉加权的输入信号而算出自相关值。自相关计算部11也可以对基于输入信号算出的自相关值进行加权,输出带加权的自相关值。
延迟计算部12算出使由自相关计算部11计算的自相关值为极大的多个延迟。具体地说,延迟计算部12扫描预定的延迟观测区间内的自相关值,按照从大到小的顺序算出M个自相关值为极大的延迟。即,如图2所示,在延迟观测区间min_t~max_t(例如AMR时为18~143)内,依次算出使自相关值为极大的延迟中的自相关值最大的延迟t_maxl,使自相关值为极大的延迟中自相关值第二大的延迟t_max2,使自相关值为极大的延迟中自相关值第三大的延迟t_max3(这里,以M=3进行说明)。
返回图1,杂音判定部13基于延迟计算部12算出的多个延迟判定输入信号是否为杂音(输入信号的性质)。例如,杂音判定部13利用延迟计算部12算出的多个延迟t_maxi(1≤i≤M)的时间变动t_maxi(k)(1≤i≤M,1≤k≤K)判定输入信号是否为杂音。这里,k是表示时间的从属变量。更具体地说,在满足式(2)所示条件的状态持续一定时间的情况下(如果定性地说,是延迟变动小的状态持续一定时间时),杂音判定部13判定输入信号不是杂音。相反,在满足式(2)所示条件的状态不持续一定时间的情况下杂音判定部13判定输入信号是杂音。
此外,式(2)中,d是预定的阈值。这里,杂音判定部13也可以以基于多个延迟判定输入信号是否为杂音为条件,用上述过程以外的过程判定输入信号是否为杂音。
有声无声判定部14基于杂音判定部13的判定结果和输入信号判定输入信号有声或无声。例如,有声无声判定部14用杂音判定部13的判定结果和输入信号的分析结果(功率,谱包络,过零数等),判定输入信号有声还是无声。这里,作为用杂音判定部13的判定结果和输入信号的分析结果判定输入信号有声或无声的方法,可以采用广为人知的种种方法。这里,所谓“无声”是指作为信息没有意义的声音,相当于背景杂音等。另一方面,所谓“有声”是指作为信息有意义的声音,相当于人声和音乐等。
接着,说明根据本实施方式的有声无声判定装置的操作以及根据本发明实施方式的有声无声判定方法。图3是根据本实施方式的有声无声判定装置的操作流程图。
当在有声无声判定装置1中输入输入信号时,首先,通过自相关计算部11算出输入信号的自相关值(S11)。具体地说,根据上述式(1),算出输入信号x(t)的自相关值c(t)。
当通过自相关计算部11算出输入信号的自相关值时,通过延迟计算部12算出使自相关计算部11计算出的自相关值为极大的多个延迟(S12)。具体地说,扫描预定的延迟观测区间内的自相关值,按照从大到小的顺序算出M个自相关值为极大的M个延迟(延迟t_max1~t_maxM)。
当通过延迟计算部12算出多个延迟时,基于判定延迟计算部12算出的多个延迟,通过杂音判定部13判定输入信号是否为杂音(输入信号的性质)(S13)。具体地说,满足上述式(2)所示条件的状态持续一定时间时,判定为输入信号不是杂音。相反,满足式(2)所示条件的状态不持续一定时间时,判定输入信号是杂音。
当杂音判定部13判定输入信号是否为杂音时,基于杂音判定部13的判定结果和输入信号,有声无声判定部14判定输入信号是有声或无声(S14)。具体地说,例如,用杂音判定部13的判定结果和输入信号的分析结果(功率,谱包络,过零数等),判定输入信号是有声还是无声。
接着,说明根据本实施方式的有声无声判定装置的作用和效果。根据本实施方式的有声无声判定装置1的延迟计算部12算出自相关值为极大的多个延迟t_max1~t_maxM,杂音判定部13基于这多个延迟t_max1~t_maxM判定输入信号是杂音还是非杂音,有声无声判定部14基于杂音判定部13的判定结果判定输入信号是有声还是无声。因此,可以考虑输入信号中包含的多个周期分量来判定有声或无声。结果,即使对于非周期分量多的信号和多个不同周期分量混合的输入信号,也能精确地判定有声区间或无声区间。
本实施方式的有声无声判定装置1的有声无声判定部14不仅利用杂音判定部13的判定结果、还利用输入信号来判定该输入信号是有声还是无声。因此,和仅利用杂音判定部13的判定结果判定输入信号有声或无声的情况相比,可以嵌入更细致的判定过程。即,例如,可以嵌入杂音判定部13判定为杂音但输入信号的历史满足一定条件时判定为有声的判定过程。此外,有声无声判定部14在不用输入信号的分析结果的情况下,仅用杂音判定部13的判定结果也可以判定输入信号是有声还是无声。这时,虽然不能嵌入上述更细致的判定过程,但具有将有声或无声的判定过程变简单的效果。
在根据本实施方式的有声无声判定装置1中,当延迟计算部12算出多个延迟时,按照自相关值从大到小的顺序计算多个延迟。因此,和采用其他计算方法的情况相比,可以容易地算出多个延迟。
第二实施方式
接着,参考附图说明根据本发明第二实施方式的有声无声判定装置。首先,说明根据本实施方式的有声无声判定装置的构成。图4是根据本实施方式的有声无声判定装置的构成图。根据本实施方式的有声无声判定装置2和上述根据第一实施方式的有声无声判定装置1的不同之处在于还具有从输入信号中推定杂音的杂音推定部21(杂音推定装置),有声无声判定部22利用该杂音推定部21推定的杂音判定输入信号有声或无声。
在功能上,如图4所示,有声无声判定装置2具有自相关计算部11,延迟计算部12,杂音判定部13,杂音推定部21和有声无声判定部22。这里,自相关计算部11,延迟计算部12和杂音判定部13具有的功能分别和根据第一实施方式的有声无声判定装置1中的自相关计算部11、延迟计算部12和杂音判定部13相同。
杂音推定部21从输入信号中推定杂音。具体地说,杂音推定部21例如根据下述式(3)推定杂音。
noisem+1(n)=(1-α)·noisem(n)+α·inputm-1(n) …(3)
这里,noise是推定杂音,input是输入信号,n是表示频带的指数,m是表示时刻(帧)的指数,α是系数。即,noisem(n)表示第n个频带内时刻(帧)m的推定杂音。这里,杂音推定部21根据杂音判定部13的判定结果改变上述式(3)的系数α。即,杂音判定部13判定输入信号不是杂音时,杂音推定部21使上述式(3)的系数α为0或者接近0的值α1,以便不增大推定杂音功率。另一方面,杂音判定部13判定输入信号为杂音时,杂音推定部21使上述式(3)的系数α为1或者接近1的值α2(α2>α1),以便使推定杂音接近输入信号。此外,杂音推定部21也可以用上述过程以外的过程从输入信号中推定杂音。
有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音,判定输入信号有声或无声。具体地说,例如,有声无声判定部22根据杂音推定部21推定的杂音和输入信号算出S/N比(更准确地说是各频带的S/N比的累计值或平均值)。有声无声判定部22把算出的S/N比和预定的阈值相比较,S/N比大于阈值时,判定为输入信号是有声的,S/N比小于或等于阈值时,判定为输入信号是无声的。这里,上述阈值设定成随杂音判定部13的判定结果的不同而不同。即,杂音判定部13判定为“非杂音”时的阈值设定得比杂音判定部13判定为“杂音”时的阈值低。这样,杂音判定部13判定为“非杂音”时,S/N比小的信号(即埋在杂音中的信号)也作为“有声”被提取出来的可能性高。此外,有声无声判定部22也可以用上述过程以外的过程判定有声或无声。即,例如,利用上述阈值,无论杂音判定部13的判定结果如何,有声无声判定部22一律基于输入信号和杂音推定部21推定的杂音来判定输入信号有声或无声。
接着,说明根据本实施方式的有声无声判定装置的操作。图5是根据本实施方式的有声无声判定装置的操作流程图。这里,自相关值的计算(S11)、延迟t_max1~t_maxM的计算(S12)和杂音、非杂音的判定(S13)与根据第一实施方式的有声无声判定装置1的操作相同。
接着步骤S11~S13,通过杂音推定部21根据输入信号推定杂音(S21)。具体地说,根据上述式(3),推定杂音。这里,上述式(3)的系数α随杂音判定部13的判定结果来变化。即,杂音判定部13将输入信号判定为不是杂音时,将上述式(3)的系数α设定为0或者接近0的值α1,以便不增加推定杂音功率。另一方面,杂音判定部13将输入信号判定为杂音时,将上述式(3)的系数α设定为1或者接近1的值α2(α2>α1),以便使推定杂音接近输入信号。此外,杂音的推定(S21)不限于步骤S11~S13结束后,和步骤S11~S13并行进行也可以。
当通过杂音推定部21推定杂音时,有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音,判定输入信号有声或无声(S22)。具体地说,例如,根据杂音推定部21推定的杂音和输入信号算出S/N比,将算出的S/N比和预定的阈值相比较。这里,S/N比大于阈值时,判定为输入信号是有声的,S/N比小于或等于阈值时,判定为输入信号是无声的。
接着,说明根据本实施方式的有声无声判定装置的效果。根据本实施方式的有声无声判定装置2,除了具有根据上述实施方式的有声无声判定装置1的效果之外,还具有以下效果。即,有声无声判定装置2的杂音推定部21根据输入信号推定杂音,有声无声判定部22基于杂音判定部13的判定结果、输入信号以及杂音推定部21推定的杂音判定输入信号是有声还是无声。因此,可以基于S/N比高精度地判定有声无声。杂音推定部21根据杂音判定部13的判定结果改变杂音推定式(上述式(3))的系数α,从而,能更高精度地判定有声无声。
第三实施方式
接着,参考附图说明根据本发明第三实施方式的有声无声判定装置。图6是根据本实施方式得有声无声判定装置的构成图。根据本实施方式的有声无声判定装置3和上述根据实施方式2的有声无声判定装置2的不同之处在于:杂音推定部31基于有声无声判定部22的判定结果来改变杂音的推定方法。
从功能上看,如图6所示,有声无声判定装置3包括自相关计算部11,延迟计算部12,杂音判定部13,杂音推定部31和有声无声判定部22。这里,自相关计算部11、延迟计算部12、杂音判定部13和有声无声判定部22具有的功能分别和根据第二实施方式的有声无声判定装置2中的自相关计算部11、延迟计算部12、杂音判定部13和有声无声判定部22相同。
杂音推定部31和有声无声判定装置2中的杂音推定部21一样推定输入信号的杂音。但是,特别地,杂音推定部31基于有声无声判定部22的判定结果改变杂音的推定方法。具体地说,杂音推定部31首先根据上述式(3)推定杂音。之后,杂音推定部31将根据式(3)算出的杂音乘上根据有声无声判定部22的判定结果履历而决定的系数β后的值作为最终的杂音输出。例如,杂音推定部31的有声无声判定部22连续输出一定时间以上“有声”的判定结果时,将上述系数β作为小于1的值,产生信号,此外的情况下,使系数β为1。此外,杂音推定部31也可以用上述过程以外的过程改变杂音的推定方法。
根据本实施方式的有声无声判定装置3除了具有根据上述实施方式的有声无声判定装置2的效果之外,还具有以下效果。即,有声无声判定装置3基于有声无声判定部22的判定结果使杂音推定部31改变杂音的推定方法。因此,可以嵌入更细致的杂音推定过程。即,例如,有声无声判定部22连续判定为有声时,通过积极地降低杂音推定部31推定的杂音电平,相对于杂音来强调信号分量。
上述有声无声判定装置1、2和3的延迟计算部12可以按照以下过程算出多个延迟。即,延迟计算部12将延迟观测区间分割为多个区间,在这些区间中分别算出自相关值最大的延迟。这时,例如,把上述延迟观测区间的起点作为min_t,用2i-1·min_t~2i·min_t(i是自然数)确定上述多个区间。
具体地说,如图7所示,延迟计算部12首先依次按区间宽度成倍增长而分割为多个区间,使得延迟观测区间min_t~max_t为min_t~2·min_t,2·min_t~4·min_t,4·min_t~8·min_t。之后,顺次算出区间min_t~2·min_t内自相关值为最大的延迟t_max1,区间2·min_t~4·min_t内自相关值为最大的延迟t_max2,区间4·min_t~8·min_t内自相关值为最大的延迟t_max3(这里,以M=3来说明)。例如,AMR时,根据min_t是18,求出[18,35]、[36,71]、[72,143]各区间内自相关值为最大的延迟。
通过进行这样的区间分割,对于有周期性的信号,可以更有效地检测出与其2倍周期对应的延迟,可以更高精度地进行有声无声判定。
本发明例如在便携电话和因特网电话的通信中,用作有声无声判定装置,判定输入信号是包含声音的有声区间还是不需要发送信息得无声区间。
当然,以上说明的本发明的实施方式可以采用各种变形方式。这些变形方式不脱离本发明的主题和目的,下述请求范围旨在包含所有上述变形方式的技术内容。
Claims (8)
1.一种有声无声判定装置,其特征在于,包括:
自相关计算单元,计算输入信号的自相关值;
延迟计算单元,计算使上述自相关计算单元计算出的上述自相关值为极大的多个延迟;
性质判定单元,基于由上述延迟计算单元计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及
有声无声判定单元,基于上述性质判定单元的判定结果,判定上述输入信号有声还是无声。
2.根据权利要求1所述的有声无声判定装置,其特征在于,上述有声无声判定单元基于上述性质判定单元的判定结果和上述输入信号来判定上述输入信号有声还是无声。
3.根据权利要求1所述的有声无声判定装置,其特征在于,还具有杂音推定单元,根据上述输入信号来推定杂音;
其中上述有声无声判定单元基于上述性质判定单元的判定结果、上述输入信号以及上述杂音推定单元推定的杂音来判定上述输入信号有声或无声。
4.根据权利要求3所述的有声无声判定装置,其特征在于,上述杂音推定单元基于上述有声无声判定单元的判定结果来改变杂音的推定方法。
5.根据权利要求1所述的有声无声判定装置,其特征在于,上述延迟计算单元按照自相关值从大到小的顺序来计算上述多个延迟。
6.根据权利要求1所述的有声无声判定装置,其特征在于,上述延迟计算单元将延迟观测区间分割为多个区间,计算出在上述各个区间中使自相关值为最大的延迟。
7.根据权利要求6所述的有声无声判定装置,其特征在于,上述多个区间把上述延迟观测区间的起点作为min_t,用2i-1·min_t~2i·min_t来表示,其中i是自然数。
8.一种有声无声判定方法,其特征在于,包括以下步骤:
自相关计算步骤,算出输入信号的自相关值;
延迟计算步骤,计算使在上述自相关计算步骤中计算出的上述自相关值为极大的多个延迟;
性质判定步骤,基于在上述延迟计算步骤中计算出的上述多个延迟的时间变化来判定上述输入信号的性质;以及
有声无声判定步骤,基于上述性质判定步骤中的判定结果,判定上述输入信号有声还是无声。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430973A JP4490090B2 (ja) | 2003-12-25 | 2003-12-25 | 有音無音判定装置および有音無音判定方法 |
JP2003430973 | 2003-12-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1637856A CN1637856A (zh) | 2005-07-13 |
CN1311421C true CN1311421C (zh) | 2007-04-18 |
Family
ID=34545038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100818632A Expired - Fee Related CN1311421C (zh) | 2003-12-25 | 2004-12-24 | 有声无声判定装置和有声无声判定方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8442817B2 (zh) |
EP (1) | EP1548703B1 (zh) |
JP (1) | JP4490090B2 (zh) |
CN (1) | CN1311421C (zh) |
DE (1) | DE602004003209T2 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
US8537666B2 (en) | 2006-08-22 | 2013-09-17 | Ntt Docomo, Inc. | Radio resource release controlling method, radio base station, and mobile station |
US8588054B2 (en) * | 2006-10-26 | 2013-11-19 | Qualcomm Incorporated | Silence intervals in wireless communications |
KR101009854B1 (ko) * | 2007-03-22 | 2011-01-19 | 고려대학교 산학협력단 | 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치 |
TWI378692B (en) * | 2007-07-06 | 2012-12-01 | Princeton Technology Corp | Device for determining pn code automatically and related method |
WO2010032405A1 (ja) * | 2008-09-16 | 2010-03-25 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
US20120265526A1 (en) * | 2011-04-13 | 2012-10-18 | Continental Automotive Systems, Inc. | Apparatus and method for voice activity detection |
US9277339B2 (en) * | 2011-11-24 | 2016-03-01 | Toyota Jidosha Kabushiki Kaisha | Sound source detection apparatus |
DK3719801T3 (da) | 2013-12-19 | 2023-02-27 | Ericsson Telefon Ab L M | Estimering af baggrundsstøj i audiosignaler |
CN107293287B (zh) * | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
WO2016028254A1 (en) * | 2014-08-18 | 2016-02-25 | Nuance Communications, Inc. | Methods and apparatus for speech segmentation using multiple metadata |
CN115116441A (zh) * | 2022-06-27 | 2022-09-27 | 南京大鱼半导体有限公司 | 一种语音识别功能的唤醒方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002162982A (ja) * | 2000-11-24 | 2002-06-07 | Matsushita Electric Ind Co Ltd | 有音無音判定装置及び有音無音判定方法 |
CN1443349A (zh) * | 2000-07-19 | 2003-09-17 | 埃里弗克姆公司 | 从电子信号中去除噪声的方法和仪器 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5912185B2 (ja) * | 1978-01-09 | 1984-03-21 | 日本電気株式会社 | 有声無声判定装置 |
JPS56135898A (en) | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
GB2139052A (en) * | 1983-04-20 | 1984-10-31 | Philips Electronic Associated | Apparatus for distinguishing between speech and certain other signals |
JPH0824324B2 (ja) | 1987-04-17 | 1996-03-06 | 沖電気工業株式会社 | 音声パケツト送信装置 |
JPS63281200A (ja) | 1987-05-14 | 1988-11-17 | 沖電気工業株式会社 | 音声区間検出方式 |
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
JPH0490599A (ja) * | 1990-08-06 | 1992-03-24 | Dsp Group Inc | 音声操作式スイッチ |
CA2110090C (en) * | 1992-11-27 | 1998-09-15 | Toshihiro Hayata | Voice encoder |
US5485522A (en) * | 1993-09-29 | 1996-01-16 | Ericsson Ge Mobile Communications, Inc. | System for adaptively reducing noise in speech signals |
US5657422A (en) * | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JPH1091184A (ja) | 1996-09-12 | 1998-04-10 | Oki Electric Ind Co Ltd | 音声検出装置 |
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
FI113903B (fi) | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
US5970441A (en) * | 1997-08-25 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Detection of periodicity information from an audio signal |
FR2768544B1 (fr) * | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de detection d'activite vocale |
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6055499A (en) * | 1998-05-01 | 2000-04-25 | Lucent Technologies Inc. | Use of periodicity and jitter for automatic speech recognition |
US6453285B1 (en) * | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6108610A (en) * | 1998-10-13 | 2000-08-22 | Noise Cancellation Technologies, Inc. | Method and system for updating noise estimates during pauses in an information signal |
JP2000250568A (ja) | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | 音声区間検出装置 |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
JP3983421B2 (ja) | 1999-06-11 | 2007-09-26 | 三菱電機株式会社 | 音声認識装置 |
US6671667B1 (en) * | 2000-03-28 | 2003-12-30 | Tellabs Operations, Inc. | Speech presence measurement detection techniques |
JP2003530605A (ja) * | 2000-04-06 | 2003-10-14 | テレフオンアクチーボラゲツト エル エム エリクソン(パブル) | 音声信号におけるピッチ推定 |
JP2001306086A (ja) | 2000-04-21 | 2001-11-02 | Mitsubishi Electric Corp | 音声区間判定装置および音声区間判定方法 |
JP3840876B2 (ja) * | 2000-05-16 | 2006-11-01 | 岩崎通信機株式会社 | 周期的信号検出装置 |
US7487083B1 (en) * | 2000-07-13 | 2009-02-03 | Alcatel-Lucent Usa Inc. | Method and apparatus for discriminating speech from voice-band data in a communication network |
US6675114B2 (en) * | 2000-08-15 | 2004-01-06 | Kobe University | Method for evaluating sound and system for carrying out the same |
US20020116186A1 (en) * | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
DE10052626A1 (de) * | 2000-10-24 | 2002-05-02 | Alcatel Sa | Adaptiver Geräuschpegelschätzer |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US7146314B2 (en) * | 2001-12-20 | 2006-12-05 | Renesas Technology Corporation | Dynamic adjustment of noise separation in data handling, particularly voice activation |
US6999087B2 (en) * | 2002-03-12 | 2006-02-14 | Sun Microsystems, Inc. | Dynamically adjusting sample density in a graphics system |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
US20050015244A1 (en) * | 2003-07-14 | 2005-01-20 | Hideki Kitao | Speech section detection apparatus |
SG119199A1 (en) * | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
JP4601970B2 (ja) * | 2004-01-28 | 2010-12-22 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
US7529670B1 (en) * | 2005-05-16 | 2009-05-05 | Avaya Inc. | Automatic speech recognition system for people with speech-affecting disabilities |
-
2003
- 2003-12-25 JP JP2003430973A patent/JP4490090B2/ja not_active Expired - Lifetime
-
2004
- 2004-12-20 EP EP04030200A patent/EP1548703B1/en not_active Ceased
- 2004-12-20 DE DE602004003209T patent/DE602004003209T2/de active Active
- 2004-12-23 US US11/024,267 patent/US8442817B2/en active Active
- 2004-12-24 CN CNB2004100818632A patent/CN1311421C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1443349A (zh) * | 2000-07-19 | 2003-09-17 | 埃里弗克姆公司 | 从电子信号中去除噪声的方法和仪器 |
JP2002162982A (ja) * | 2000-11-24 | 2002-06-07 | Matsushita Electric Ind Co Ltd | 有音無音判定装置及び有音無音判定方法 |
Non-Patent Citations (4)
Title |
---|
A voice activity detection algorithm for communicationsystemswith dynamically varying background acoustic noise LEE I D ET AL,VEHICULAR TECHONLOGY CONFERENCE,Vol.2 1998 * |
A voice activity detection algorithm for communicationsystemswith dynamically varying background acoustic noise LEE I D ET AL,VEHICULAR TECHONLOGY CONFERENCE,Vol.2 1998;UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC TRANSCODING FUNCTIONS(3GPP TS26.090VERSION 5.0.0RELEASE 5);ETSI TS 126 090 ETSI STANDARDS EUROPEAN TELECOMMUNICATIONS STANDARDS INSTITUTE 3.SA4 2002;UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR FOR AMR SPEECH TRAFFIC CHANNELS UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR 2002 * |
UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC TRANSCODING FUNCTIONS(3GPP TS26.090VERSION 5.0.0RELEASE 5);ETSI TS 126 090 ETSI STANDARDS EUROPEAN TELECOMMUNICATIONS STANDARDS INSTITUTE 3.SA4 2002 * |
UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR FOR AMR SPEECH TRAFFIC CHANNELS UNIVERSAL MOBILE TELECOMMUNICATIONS SYSTEM(UMTS);AMR SPEECH CODEC VOICE ACTIVITY DETECTOR 2002 * |
Also Published As
Publication number | Publication date |
---|---|
JP2005189518A (ja) | 2005-07-14 |
US20050154583A1 (en) | 2005-07-14 |
JP4490090B2 (ja) | 2010-06-23 |
DE602004003209D1 (de) | 2006-12-28 |
US8442817B2 (en) | 2013-05-14 |
DE602004003209T2 (de) | 2007-09-06 |
EP1548703B1 (en) | 2006-11-15 |
CN1637856A (zh) | 2005-07-13 |
EP1548703A1 (en) | 2005-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1311421C (zh) | 有声无声判定装置和有声无声判定方法 | |
JP5706910B2 (ja) | デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム | |
CN1272911C (zh) | 音频信号解码装置及音频信号编码装置 | |
CN1805007A (zh) | 用于在语音信号处理中检测语音片段的方法和装置 | |
CN1909060A (zh) | 提取浊音/清音分类信息的方法和设备 | |
CN1539136A (zh) | 基于频谱分析的音调确定方法和装置 | |
CN1758331A (zh) | 基于基音频率的快速音频分割方法 | |
CN1271593C (zh) | 一种语音信号检测方法 | |
CN1530928A (zh) | 抑制风噪声的系统 | |
CN111696580B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN1773605A (zh) | 一种应用于语音识别系统的语音端点检测方法 | |
CN102144258A (zh) | 促进确定信号边界频率的方法和装置 | |
CN1648994A (zh) | 有声无声判定装置和有声无声判定方法 | |
CN1866357A (zh) | 噪声电平推定方法及其装置 | |
CN1214362C (zh) | 用于确定信号间相关系数和信号音高的设备和方法 | |
CN101030374A (zh) | 基音周期提取方法及装置 | |
CN1327574A (zh) | 声音解码装置和声音解码方法 | |
CN101046955A (zh) | 一种pcm码流语音检测方法 | |
CN1280784C (zh) | 基于多峰提取的语音编码刺激方法 | |
CN113436647B (zh) | 一种车窗升降系统声音评价指标确定方法及装置 | |
CN1754204A (zh) | 低频带噪声检测 | |
CN110146276B (zh) | 一种基于无线传感器的索力与抗弯刚度监测方法及系统 | |
CN1304995C (zh) | 噪声抑制元件选择方法及程序 | |
CN1860528A (zh) | 在数字音频信号内的微小静电干扰噪声检测 | |
CN1484116A (zh) | 节拍数检测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070418 |
|
CF01 | Termination of patent right due to non-payment of annual fee |