CN102629470B - 辅音区间检测装置及辅音区间检测方法 - Google Patents

辅音区间检测装置及辅音区间检测方法 Download PDF

Info

Publication number
CN102629470B
CN102629470B CN201210022303.4A CN201210022303A CN102629470B CN 102629470 B CN102629470 B CN 102629470B CN 201210022303 A CN201210022303 A CN 201210022303A CN 102629470 B CN102629470 B CN 102629470B
Authority
CN
China
Prior art keywords
frequency band
consonant
average energy
frequency
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210022303.4A
Other languages
English (en)
Other versions
CN102629470A (zh
Inventor
明智明子
山边孝朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Publication of CN102629470A publication Critical patent/CN102629470A/zh
Application granted granted Critical
Publication of CN102629470B publication Critical patent/CN102629470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Abstract

本发明提供一种辅音区间检测装置及辅音区间检测方法,在较高的噪声电平环境下也可高精度地检测辅音区间,辅音区间检测装置(110)具有:帧化部(120),以预先确定的帧单位截取输入信号,生成帧化输入信号;频谱生成部(122),将帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图;平均导出部(126),导出频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量;辅音判断部(128),将导出的各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断帧化输入信号中含有辅音。

Description

辅音区间检测装置及辅音区间检测方法
技术领域
本发明涉及一种检测输入信号的辅音区间的辅音区间检测装置及辅音区间检测方法。
背景技术
人的声音可分类为元音和辅音、或浊音和清音等。因此,利用元音、辅音、浊音及清音等各自的特征,开发出了进行声音检测、识别的技术。
具体而言,提出了以下技术方案:对于浊音和清音,根据对输入信号的帧的零交叉数进行计数的零交叉法,比较帧间的零交叉数,识别浊音和清音(例如专利文献1)。
专利文献1:特开2007-292940号公报
发明内容
而在检测输入信号中含有的声音时,元音和辅音相比能量较大,因此在噪声电平较大的环境下,元音区间(含有元音的区间)的检测较为容易,但辅音区间(含有辅音的区间)的检测容易产生辅音特征淹没于噪声的误测。
并且,将上述专利文献1的零交叉法应用于辅音区间的检测时,当噪声振幅偏向时,因振幅偏向的影响而产生偏移,产生输入信号不与0交叉而振动的区间,出现无法检测出辅音区间的情况。
因此,本发明鉴于以上问题而出现,其目的在于提供一种在较高的噪声电平的环境下也可高精度检测出辅音区间的辅音区间检测装置及辅音区间检测方法。
为解决上述课题,本发明的辅音区间检测装置的特征在于具有:帧化部,以预先确定的帧单位截取输入信号,生成帧化输入信号;频谱生成部,将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图;平均导出部,导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量;辅音判断部,将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音。
也可以是,辅音判断部对于在频谱图的相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合进行计数,当计数的计数值为预先确定的第1阈值以上时,判断为含有辅音。
也可以是,辅音判断部,对于在频谱图的相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,在上述大的组合跨过频带连续的情况下进行加权并进行计数,当计数的计数值为预先确定的第2阈值以上时,判断为含有辅音。
也可以是,辅音判断部,提取在相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,将提取的上述组合之间进行比较,对高频的频带的各频带平均能量大的组合的个数进行计数,当计数的计数值为预先确定的第3阈值以上时,判断为含有辅音。
也可以是,辅音判断部包括:第1判断单元,对于相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合进行计数,在计数的计数值为预先确定的第1阈值以上时,判断为含有辅音;以及第2判断单元,对于相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,在上述大的组合跨过频带连续的情况下进行加权并进行计数,当计数的计数值为预先确定的第2阈值以上时,判断为含有辅音,辅音判断部还具有:噪声电平导出部,导出上述帧化输入信号的噪声电平;以及判断选择部,当导出的上述噪声电平小于第4阈值时,选择第1判断单元,当导出的上述噪声电平为上述第4阈值以上时,选择第2判断单元。
也可以是,辅音判断部还包括第3判断单元,提取上述相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,将提取的上述组合之间进行比较,对高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合的个数进行计数,当计数的计数值为预先确定的第3阈值以上时,判断为含有辅音,判断选择部在通过上述第2判断单元未判断辅音时,选择上述第3判断单元。
为解决上述课题,本发明的辅音区间检测方法的特征在于,以预先确定的帧单位截取输入信号,生成帧化输入信号,将帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图,导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量,将导出的各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断帧化输入信号中含有辅音。
如上所述,在本发明中,在较高的噪声电平的环境下也可高精度地检测出辅音区间。
附图说明
图1是用于说明辅音区间的说明图。
图2是用于说明辅音区间的说明图。
图3是输入信号中重叠收录了闹市十字路口中的噪声的收录时间波形图。
图4是用于说明通过零交叉法无法检测的辅音区间的说明图。
图5是用于说明通过零交叉法可检测的辅音区间的说明图。
图6是对不含有噪声的输入信号的声音区间的判断结果。
图7是对含有噪声的输入信号的声音区间的判断结果。
图8是表示辅音区间检测装置的概要功能的功能框图。
图9是表示输入信号的辅音区间的频谱图的频谱图图形的一例。
图10是表示输入信号的辅音区间的频谱图的频谱图图形的一例。
图11是表示输入信号的辅音区间的频谱图的频谱图图形的一例。
图12是输入信号的时间波形图的一例。
图13是频谱图的一例。
图14是表示各频带平均能量的柱状图的一例。
图15是表示辅音区间检测方法的处理流程的流程图。
图16是用于说明第1判断单元判断步骤的流程图。
图17是用于说明第2判断单元判断步骤的流程图。
图18是用于说明第3判断单元判断步骤的流程图。
具体实施方式
以下参照附图详细说明本发明的优选实施方式。该实施方式所示的尺寸、材料、其他具体数值等仅是为了易于理解发明的示例,除了特别情况外,不用于限定本发明。此外,在本说明书及附图中,对实质上具有同一功能、构造的要素,通过附加相同的标记省略重复说明,并省略和本发明没有直接关系的要素的图示。
图1、2是用于说明辅音区间的说明图。其中,图1(a)是含有声音的输入信号的时间波形图,图1(b)是同一输入信号同一时间下的共振峰显示图。如图1(b)所示,元音区间较强地显示出共振峰,因此可清晰地看到条纹形状,但辅音区间和元音区间特性不同,所以即使观察共振峰显示图,也无法判断出辅音区间。
图2(a)表示放大了图1(a)中的辅音区间的时间波形图,图2(b)表示该辅音区间的频谱图。辅音和元音相比,频率成分到达高频带,是接近白噪声的频率成分的构成。因此如图2(b)所示,其频谱图具有频带越高、能量就越高的倾向。
因此,辅音区间内含有较多高频成分,所以其时间波形图中的振幅值具有频繁在正值和负值之间移动的特征。注意到这一点,作为判断辅音区间的方法,提出了零交叉法的方案。
图3是输入信号中重叠收录了闹市十字路口中的噪声的收录时间波形图,图4是放大了该辅音区间的时间波形图。图3、4是和图1(a)、图2(a)所示的时间波形图相同的输入信号。在图3、4所示的较高噪声环境下,零交叉法中的误测非常多。对其原因,通过比较输入信号中不含有噪声时和含有噪声时的辅音区间来进行说明。
图5是对比了输入信号中不含有噪声时和含有噪声时的时间波形图。其中,图5(a)表示不含有噪声的情况,图5(b)表示含有噪声的情况,图5(c)、(d)分别放大表示图5(a)、(b)中的辅音区间。零交叉法是,测定交叉零值(用图5中的“-∞”表示)的次数的多少,检测出以高频成分为主体的辅音区间。如图5(c)所示,在不含有噪声的输入信号的辅音区间的时间波形图中,交叉零值,并频繁在正值和负值的区间内移动。但是,含有噪声的声音信号尤其在低频区域噪声增大时,如图5(d)所示,发生偏移,不再交叉零值。因此零交叉法在噪声环境下,存在无法检测出原本不交叉零值的辅音区间的情况。
图6是对不含有噪声的输入信号的声音区间的判断结果。其中,图6(a)(b)表示基于现有的浊音分析的声音区间判断单元的判断结果,图6(c)(d)表示现有的声音区间判断单元中附加了基于零交叉法的辅音区间判断单元时的判断结果。在图6(a)(b)及(c)(d)中,上段表示时间波形图,下段表示声音区间的判断结果。判断结果在判断为声音区间时设为1,其以外设为0。从图6可知,通过使用零交叉法,对基于现有的浊音分析的声音区间判断单元未检测出的框线100所示的部分,可判断为声音区间。因此可知,在不含有噪声的输入信号中,可进行零交叉法下的声音区间的检测。
图7是对含有噪声的输入信号的声音区间的判断结果。图7(a)(b)表示对现有的声音区间判断单元附加了基于零交叉法的声音区间判断单元时的判断结果,图7(c)(d)是对现有的声音区间判断单元附加了本实施方式的辅音区间检测装置中的辅音区间判断单元的判断结果。在图7(a)(b)及(c)(d)中,上段表示时间波形图,下段表示声音区间的判断结果。判断结果在通过零交叉法或本实施方式的辅音区间检测装置判断为声音区间时设为2,通过现有的声音区间判断单元判断为声音区间时设为1,其以外的情况设为0。参照图7可知,通过使用本实施方式的辅音区间检测装置中的辅音区间判断单元,可将使用零交叉法也无法测出的框线102所示的部分判断为声音区间。
因此,在以下实施方式中,详述在较高的噪声电平环境下也可高精度检测出辅音区间的辅音区间检测装置,说明使用了该辅音检测装置的辅音区间检测方法。
(辅音区间检测装置110)
图8是用于说明辅音区间检测装置110的概要构成的功能框图。辅音区间检测装置110的构成包括:帧化部120、频谱生成部122、频带分割部124、平均导出部126、辅音判断部128、噪声电平导出部130、判断选择部132。
帧化部120对收音装置200收录了声音的输入信号,以具有预先确定的时间宽度的帧单位(规定采样数长度)依次截取,生成帧单位的输入信号(以下称为“帧化输入信号”)。并且,当从收音装置200输入的输入信号是模拟信号时,可在帧化部120的前段配置AD转换器,变换为数字信号。并且,帧化部120将生成的帧化输入信号依次发送到频谱生成部122。
频谱生成部122进行从帧化部120接收的帧化输入信号的频率分析,将时间区域的帧化输入信号变换为频率区域的帧化输入信号,生成集中了频谱的频谱图。频谱图是,在规定的频带中,频率和该频率下的能量建立了对应的、集中了每个频率的频谱的图案。这里使用的频率变换法不限定为特定的方法,但需要用于确认声音的频谱的必要的频率分解能力,因此可使用分解能力较高的FFT(Fast FourierTransform:快速傅里叶变换)、DCT(Discrete Cosine Transform:离散余弦变换)等正交变换法。频带分割部124将频谱生成部122生成的频谱图的各频谱,分割为预先确定的各带宽,生成多个分割频带。在本实施方式中,频带分割部124例如对800Hz~3.5kHz的频率范围分割为例如100Hz~300Hz左右的各带宽。
平均导出部126导出频谱图中的连续的、频带分割部124分割的每个分割频带(band)的平均能量,即各频带平均能量。
辅音判断部128比较平均导出部126导出的各频带平均能量之间,越高频频带的各频带平均能量成为能量越高时,判断该帧化输入信号中含有辅音。
一般情况下,辅音具有频谱图朝向右上的倾向。因此,本实施方式的辅音区间检测装置110通过导出频谱图中的各频带平均能量、比较该各频带能量之间,从而检测出辅音中的特征性的、频谱图中的朝向右上的倾向。因此,辅音区间检测装置110可高精度地检测出输入信号中含有辅音的辅音区间。
辅音判断部128具体而言包括:第1判断单元,对于相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合进行计数,在计数的计数值为预先确定的第1阈值以上时,判断为含有辅音;以及第2判断单元,对于相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,在上述大的组合跨过频带连续的情况下进行加权并进行计数,当计数的计数值为预先确定的第2阈值以上时,判断为含有辅音,这二个单元分别对应噪声电平分开使用。
图9~11分别是表示输入信号的辅音区间的频谱图的频谱图图形的一例。当噪声电平较小时,如图9所示,辅音区间的频谱图朝右上的倾向变得明显。辅音判断部128通过具有第1判断单元的构造,基于在频谱图的相邻的频带间的各频带平均能量中,高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合的个数,可高精度地检测出辅音区间。
另外,当噪声电平较大时,如图10所示,辅音区间的频谱图仅在相邻的频带的比较中,整体朝右上的倾向也淹没在噪声中。辅音判断部128通过具有第2判断单元,在频谱图的相邻的频带间的各频带平均能量中,对于高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,尤其在这种组合在相邻的频带间连续时,以比1大的乘数进行加权计数。通过进行加权,易于检测出淹没在噪声中的辅音的朝右上的倾向。因此,辅音区间检测装置110在噪声电平较大时,也可根据计数的值高精度地检测出辅音区间。
其中,为适当选择第1判断单元和第2判断单元,噪声电平导出部130导出帧化输入信号的噪声电平。在本实施方式中,噪声电平是帧化输入信号的所有频带的各频带平均能量的平均值。并且,噪声电平导出部130可按照每个帧化输入信号导出噪声电平,也可使用规定时间的帧化输入信号的噪声电平的平均值。判断选择部132在导出的噪声电平小于第4阈值时,选择第1判断单元,在第4阈值以上时,选择第2判断单元。第4阈值例如是-50~-40dB。
辅音区间检测装置110在噪声电平小于第4阈值时,选择当噪声电平较低时可高精度检测出辅音区间的第1判断单元,在噪声电平为第4阈值以上时,选择即使噪声电平较高也可高精度检测出辅音区间的第2判断单元。因此,辅音区间检测装置110通过和噪声电平对应的适当单元可检测出辅音区间。
并且,辅音判断部128可进一步包括第3判断单元,对于相邻的频带(分割频带)间的各频带平均能量,提取高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,比较提取的组合之间,计数高频的频带的各频带平均能量比低频的频带的各频带平均能量大的组合的个数,当计数的计数值为预先确定的第3阈值以上时,判断为含有辅音。
当噪声电平较大时,辅音区间的频谱图仅在相邻的频带的比较中,存在朝右上的倾向淹没在噪声的情况。并且,如图11所示,部分在多处能量下降(变为低谷)的频谱图中,朝右上的倾向没有连续性,如第2判断单元那样对连续性加权也无法判断辅音。
因此,辅音区间检测装置110对于频谱图的相邻的频带间的各频带平均能量,提取高频的频带的各频带平均能量比低频的频带的各频带平均能量大的组合,在提取的组合之间,高频的频带的各频带平均能量较大时,即比较提取的组合之间时、高频的频带的组合和低频的频带的组合相比、各频带平均能量较大时,以比1大的乘数进行加权计数。因此,通过横跨宽频带比较各频带平均能量,即使噪声影响较大,也可从频谱图整体计数朝右上的倾向并使之数值化。因此,辅音区间检测装置110可根据计数的值高精度地检测辅音区间。
并且,判断选择部132在通过第2判断单元未判断出辅音时,选择第3判断单元。
辅音判断部128即使使用第2判断单元也未判断出辅音的情况下,也有可能漏测辅音区间。因此,通过第2判断单元未判断出辅音时,辅音判断部128进一步使用不易受到噪声影响的第3判断单元尝试进行辅音的检测。通过这一构成,辅音区间检测装置110可更切实地检测出辅音区间。
图12是输入信号的时间波形图的一例,图13是该输入信号的频谱图的一例,图14是表示该频谱图的各频带平均能量的柱状图的一例。
对于图12所示的输入信号的区间210,当生成了频谱图时,如图13所示,难以直接检测出朝右上的倾向。但将作为每个适当频带的能量的平均值的各频带平均能量用柱状图表示时,可知部分具有朝右上的倾向。在第2判断单元中,通过该部分性朝右上的倾向的强度,判断是否是辅音区间。并且,即使通过第2判断单元未判断出是辅音区间时,也通过第3判断单元判断辅音区间,因此无论怎样均可提高辅音区间的检测精度。
如上所述,根据本实施方式的辅音区间检测装置110,在较高的噪声电平环境下,也可高精度地检测出辅音区间。
(辅音区间检测方法)
接着说明使用上述辅音区间检测装置110分析输入信号、判断是否是辅音区间的辅音区间检测方法。
图15是表示辅音区间检测方法的处理流程的流程图。当有输入信号的输入时(S300中“是”),帧化部120将辅音区间检测装置110取得的输入信号以规定的帧单位依次截取,生成帧化输入信号(S302)。并且,频谱生成部122进行从帧化部120接收的帧化输入信号的频率分析,将时间区域的帧化输入信号变换为频率区域的帧化输入信号,生成频谱图(S304)。
频带分割部124将频谱图的各频谱分割为多个分割频带,对各分割频带从0开始按照升序添加代码(S306)。平均导出部126导出频谱图中的、作为连续的每个分割频带的各频带平均能量的各频带平均能量(S308)。噪声电平导出部130导出帧化输入信号的噪声电平(S310)。辅音判断部128判断噪声电平导出部130导出的噪声电平是否小于第4阈值(S312)。当小于第4阈值时(S312中“是”),辅音判断部128通过第1判断单元进行辅音区间的判断(S314)。当是第4阈值以上时(S312中“否”),辅音判断部128通过第2判断单元进行辅音区间的判断(S316)。
在第2判断单元判断步骤S316中,判断是否判断为辅音区间(S318),当未判断是辅音区间时(S318中“否”),辅音判断部128通过第3判断单元进行辅音区间的判断(S320)。并且,辅音判断部128将辅音区间的判断结果(在任意一个判断单元中判断为辅音区间时,判断结果变为辅音区间)输出到外部装置(S322),返回到输入信号判断步骤S300。
接着参照图16说明第1判断单元。图16是用于说明第1判断单元判断步骤S314的流程图。在第1判断单元判断步骤S314中,对频带从频率低的频带开始依次添加从0开始的整数代码。
辅音判断部128将0代入到变量n、count中,进行初始化(S350),判断添加了代码n+1的频带的各频带平均能量,是否大于添加了代码n的频带的各频带平均能量(S352)。大于时(S352中“是”),即和关注的频带相比高频的频带的各频带平均能量较高时,对变量count加1(S354)。添加了代码n+1的频带的各频带平均能量为添加了代码n的频带的各频带平均能量以下时(S352中“否”),变量count保持不变。
并且,辅音判断部128判断是否存在添加了代码n+2的频带(S356)。当存在添加了代码n+2的频带时(S356中“是”),辅音判断部128对变量n加1(S358),返回到能量判断步骤S352。当不存在添加了代码n+2的频带时(S356中“否”),所有频带的各频带平均能量的比较结束,因此辅音判断部128判断变量count是否是预先确定的第1阈值以上(S360)。当是第1阈值以上时(S360中“是”),辅音判断部128判断为含有辅音(S362)。并且,当小于第1阈值时(S360中“否”),辅音判断部128判断不含有辅音(S364)。
接着参照图17说明第2判断单元。图17是用于说明第2判断单元判断步骤S316的流程图。在第2判断单元判断步骤S316中,和第1判断单元判断步骤S314一样,对频带从频率低的频带开始依次添加从0开始的整数的代码。
辅音判断部128将0代入到变量n、count,将1代入到p,进行初始化(S400),判断添加了代码n+1的频带的各频带平均能量是否大于添加了代码n的频带的各频带平均能量(S402)。大于时(S402中“是”),对变量count添加变量p(S404)。并且,辅音判断部128向变量p加1(S406)。当添加了代码n+1的频带的各频带平均能量是添加了代码n的频带的各频带平均能量以下时(S402中“否”),变量count保持不变,将1代入到变量p,重置变量p(S408)。
并且,辅音判断部128判断是否存在添加了代码n+2的频带(S410)。当存在添加了代码n+2的频带时(S410中“是”),辅音判断部128向变量n加1(S412),返回到能量判断步骤S402。当不存在添加了代码n+2的频带时(S310中“否”),所有频带的各频带平均能量的比较结束,因此辅音判断部128判断变量count是否是预先确定的第2阈值以上(S414)。当是第2阈值以上时(S414中“是”),辅音判断部128判断为含有辅音(S416)。并且,当小于第2阈值时(S414中“否”),辅音判断部128判断不含有辅音(S418)。
相邻的频带间连续地、高频的频带的各频带平均能量比较低的频率的频带的各频带平均能量高,是辅音区间的特征。如上所述,辅音判断部128连续性地加权进行辅音区间的判断,从而可避免因噪声影响无法判断为辅音区间的频带增加、作为判断指标的变量count的值变低的情况,辅音区间检测装置110在较高的噪声电平环境下,可抑制辅音区间的漏测。并且,当噪声电平低于第4阈值时,第2判断单元不执行,因此在噪声电平较低的环境下,可避免将不是辅音区间的区间误判为辅音区间。
接着参照图18说明第3判断单元。图18是用于说明第3判断单元判断步骤S320的流程图。在第3判断单元判断步骤S320中,也和第1判断单元判断步骤S314一样,对频带从频率低的频带开始依次添加从0开始的整数代码。
辅音判断部128将0代入到变量n、m、k、count,进行初始化(S450),判断添加了代码n+1的频带的各频带平均能量是否大于添加了代码n的频带的各频带平均能量(S452)。大于时(S452中“是”),向组合(m)代入添加了代码n+1的频带的各频带平均能量,为确保各频带平均能量连续变大,对变量k设定1(S454)。当添加了代码n+1的频带的各频带平均能量为添加了代码n的频带的各频带平均能量以下时(S452中“否”),判断变量k是否是1(S456),如变量k是1(S456中“是”),则向变量m加1,对k设定为0(S458)。如变量k不是1、即,如果是0(S456中“否”),则变量m不变,转换到频带判断步骤S460。
并且,辅音判断部128判断是否存在添加了代码n+2的频带(S460)。当存在添加了代码n+2的频带时(S460中“是”),辅音判断部128向变量n加1(S462),返回到能量判断步骤S452。当不存在添加了代码n+2的频带时(S460中“否”),所有频带的各频带平均能量的比较结束,因此对变量m代入0并重置(S464),判断组合(m+1)的各频带平均能量是否大于组合(m)的各频带平均能量(S466)。大于时(S466中“是”),即和关注的频带相比高频的频带的各频带平均能量较高时,向变量count加1(S468)。组合(m+1)的各频带平均能量为组合(m)的各频带平均能量以下时(S466中“否”),变量count不变。
并且,辅音判断部128判断是否存在组合(m+2)(S470)。当存在组合(m+2)时(S470中“是”),辅音判断部128对变量m加1(S472),返回到能量判断步骤S466。当不存在组合(m+2)时(S470中“否”),所有组合的各频带平均能量的比较结束,因此辅音判断部128判断变量count是否是预先确定的第3阈值以上(S474)。当是第3阈值以上时(S474中“是”),辅音判断部128判断为含有辅音(S476)。并且,当小于第3阈值时(S474中“否”),辅音判断部128判断不含有辅音(S478)。
在噪声电平较高的环境下,在相邻的频带之间,存在因噪声的影响而使辅音的特征部分丧失的情况。在第3判断单元中,不比较相邻的频带间的各频带平均能量,而比较高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合的最大值之间,从而使频率轴上的横跨较大频带的辅音特征数值化(模型化),判断是否是辅音区间。因此,在噪声电平较高的环境下,可对较大频带的能量推移加值,将辅音区间的特征反映到计数值中。
如上所述,在第2判断单元中,连续性地进行加权时,能量平均值以相同次数增加的情况下,相对断续地增加时,连续增加时的变量p的值变大。通过这一构成,可进行捕捉到辅音区间的频谱图特征的辅音区间的检测。并且在本实施方式中,对变量p加上的值是1,但不限于1,也可是1以上的值。
进一步,在上述实施方式中,对比较各频带平均能量的频带没有设定限制,但例如为了避免噪声影响,根据使用情况也可限定比较的频带的频率范围。具体而言,一般情况下噪声形成的能量成分高、低的频带(约1kHz以下)、频率解析(频谱图生成)处理中的易含有折返应变的较高频带(约3.5kHz以上)可排除。因此,通过限定比较的频带的频率范围,辅音区间检测装置110在噪声电平较高的环境下,也可抑制辅音区间的误测。
通过以上说明的辅音区间检测方法,无论噪声电平如何均可检测出输入信号的声音区间。
以上参照附图说明了本发明的优选实施方式,但本发明当然不限于上述实施方式。对本领域技术人员而言,在权利要求范围所述范畴内,当然可想到各种变形例或修正例,这些当然也属于本发明的技术范围内。
此外,本说明书中的辅音区间检测方法中的各步骤无需根据作为流程图所述的顺序按照时间序列进行处理,也可包括并列的或子程序下的处理。
本发明可应用于检测输入信号的辅音区间的辅音区间检测装置及辅音区间检测方法。

Claims (8)

1.一种辅音区间检测装置,其特征在于,具有:
帧化部,以预先确定的帧单位截取输入信号,生成帧化输入信号;
频谱生成部,将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图;
平均导出部,导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量;
辅音判断部,将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音,
上述辅音判断部对于在上述频谱图的相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合进行计数,当计数的计数值为预先确定的第1阈值以上时,判断为含有辅音。
2.一种辅音区间检测装置,其特征在于,具有:
帧化部,以预先确定的帧单位截取输入信号,生成帧化输入信号;
频谱生成部,将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图;
平均导出部,导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量;
辅音判断部,将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音,
上述辅音判断部,对于在上述频谱图的相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,在上述大的组合跨过频带连续的情况下进行加权并进行计数,当计数的计数值为预先确定的第2阈值以上时,判断为含有辅音。
3.一种辅音区间检测装置,其特征在于,具有:
帧化部,以预先确定的帧单位截取输入信号,生成帧化输入信号;
频谱生成部,将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图;
平均导出部,导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量;
辅音判断部,将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音,
上述辅音判断部,提取在相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,将提取的上述组合之间进行比较,对高频的频带的各频带平均能量大的组合的个数进行计数,当计数的计数值为预先确定的第3阈值以上时,判断为含有辅音。
4.一种辅音区间检测装置,其特征在于,具有:
帧化部,以预先确定的帧单位截取输入信号,生成帧化输入信号;
频谱生成部,将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图;
平均导出部,导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量;
辅音判断部,将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音,
上述辅音判断部包括:
第1判断单元,对于相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合进行计数,在计数的计数值为预先确定的第1阈值以上时,判断为含有辅音;以及
第2判断单元,对于相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,在上述大的组合跨过频带连续的情况下进行加权并进行计数,当计数的计数值为预先确定的第2阈值以上时,判断为含有辅音,
上述辅音判断部还具有:
噪声电平导出部,导出上述帧化输入信号的噪声电平;以及
判断选择部,当导出的上述噪声电平小于第4阈值时,选择第1判断单元,当导出的上述噪声电平为上述第4阈值以上时,选择第2判断单元。
5.根据权利要求4所述的辅音区间检测装置,其特征在于,
上述辅音判断部还包括第3判断单元,提取上述相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,将提取的上述组合之间进行比较,对高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合的个数进行计数,当计数的计数值为预先确定的第3阈值以上时,判断为含有辅音,
上述判断选择部在通过上述第2判断单元未判断辅音时,选择上述第3判断单元。
6.一种辅音区间检测方法,其特征在于,
以预先确定的帧单位截取输入信号,生成帧化输入信号,
将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图,
导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量,
将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音,
在上述判断上述帧化输入信号中含有辅音的步骤中,对于在上述频谱图的相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合进行计数,当计数的计数值为预先确定的第1阈值以上时,判断为含有辅音。
7.一种辅音区间检测方法,其特征在于,
以预先确定的帧单位截取输入信号,生成帧化输入信号,
将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图,
导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量,
将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音,
在上述判断上述帧化输入信号中含有辅音的步骤中,对于在上述频谱图的相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,在上述大的组合跨过频带连续的情况下进行加权并进行计数,当计数的计数值为预先确定的第2阈值以上时,判断为含有辅音。
8.一种辅音区间检测方法,其特征在于,
以预先确定的帧单位截取输入信号,生成帧化输入信号,
将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图,
导出上述频谱图中的、连续的预先确定的每个带宽的平均能量即各频带平均能量,
将导出的上述各频带平均能量之间进行比较,越高频带的各频带平均能量成为越高的能量时,判断上述帧化输入信号中含有辅音,
在上述判断上述帧化输入信号中含有辅音的步骤中,提取在相邻的频带间的各频带平均能量中高频的频带的各频带平均能量比相邻的低频的频带的各频带平均能量大的组合,将提取的上述组合之间进行比较,对高频的频带的各频带平均能量大的组合的个数进行计数,当计数的计数值为预先确定的第3阈值以上时,判断为含有辅音。
CN201210022303.4A 2011-02-02 2012-02-01 辅音区间检测装置及辅音区间检测方法 Active CN102629470B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-020459 2011-02-02
JP2011020459 2011-02-02

Publications (2)

Publication Number Publication Date
CN102629470A CN102629470A (zh) 2012-08-08
CN102629470B true CN102629470B (zh) 2015-05-20

Family

ID=46578095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210022303.4A Active CN102629470B (zh) 2011-02-02 2012-02-01 辅音区间检测装置及辅音区间检测方法

Country Status (3)

Country Link
US (1) US8762147B2 (zh)
JP (1) JP5948918B2 (zh)
CN (1) CN102629470B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9857316B2 (en) * 2012-01-13 2018-01-02 University Of Notre Dame Du Lac Methods and apparatus for electromagnetic signal polarimetry sensing
JP6394103B2 (ja) * 2014-06-20 2018-09-26 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10354638B2 (en) 2016-03-01 2019-07-16 Guardian Glass, LLC Acoustic wall assembly having active noise-disruptive properties, and/or method of making and/or using the same
US10304473B2 (en) 2017-03-15 2019-05-28 Guardian Glass, LLC Speech privacy system and/or associated method
US10726855B2 (en) 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
US10373626B2 (en) 2017-03-15 2019-08-06 Guardian Glass, LLC Speech privacy system and/or associated method
TW202008800A (zh) * 2018-07-31 2020-02-16 塞席爾商元鼎音訊股份有限公司 助聽器及其助聽器之輸出語音調整之方法
CN113674750B (zh) * 2021-08-19 2023-11-03 上海哔哩哔哩科技有限公司 数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1735926A (zh) * 2003-01-10 2006-02-15 诺基亚有限公司 语音处理中用于人工扩展带宽的方法和设备
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4087632A (en) * 1976-11-26 1978-05-02 Bell Telephone Laboratories, Incorporated Speech recognition system
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
AU712743B2 (en) * 1994-12-08 1999-11-18 Regents Of The University Of California, The Method and device for enhancing the recognition of speech among speech-impaired individuals
JP3355473B2 (ja) * 1996-12-18 2002-12-09 京セラ株式会社 音声検出方法
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
CA2358203A1 (en) * 1999-01-07 2000-07-13 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
WO2001033548A1 (fr) * 1999-10-29 2001-05-10 Fujitsu Limited Dispositif et procede de reglage du debit dans un systeme de codage de la parole a debit variable
US20050119454A1 (en) * 2000-01-24 2005-06-02 The Cielo Institute, Inc. Algorithmic design of peptides for binding and/or modulation of the functions of receptors and/or other proteins
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
JP4479191B2 (ja) * 2003-08-25 2010-06-09 カシオ計算機株式会社 音声認識装置、音声認識方法及び音声認識処理プログラム
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
JP2007292940A (ja) 2006-04-24 2007-11-08 Toyota Motor Corp 音声識別装置及び音声識別方法
KR101452014B1 (ko) * 2007-05-22 2014-10-21 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 향상된 음성 액티비티 검출기
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
JP5010743B2 (ja) * 2008-07-11 2012-08-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
US8775184B2 (en) * 2009-01-16 2014-07-08 International Business Machines Corporation Evaluating spoken skills

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1735926A (zh) * 2003-01-10 2006-02-15 诺基亚有限公司 语音处理中用于人工扩展带宽的方法和设备
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的系统

Also Published As

Publication number Publication date
CN102629470A (zh) 2012-08-08
US20120197641A1 (en) 2012-08-02
JP5948918B2 (ja) 2016-07-06
JP2012177913A (ja) 2012-09-13
US8762147B2 (en) 2014-06-24

Similar Documents

Publication Publication Date Title
CN102629470B (zh) 辅音区间检测装置及辅音区间检测方法
CN102479504B (zh) 声音判断装置及声音判断方法
KR20180063282A (ko) 음성 검측 방법, 장치 및 기억 매체
CN104221079B (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN108548957B (zh) 基于循环调制频谱和分段互相关相结合的双谱分析方法
US20090216530A1 (en) Interference detector
EP2843659A1 (en) Method and apparatus for detecting correctness of pitch period
CA2821462C (en) An active sonar apparatus with a noise elimination unit
CN110147716A (zh) 一种基于频域与空域相结合的sar图像内波区域检测方法
Ou et al. Discrimination of frequency-modulated Baleen whale downsweep calls with overlapping frequencies
CN105336344A (zh) 杂音检测方法和装置
CN112969134A (zh) 麦克风异常检测方法、装置、设备及存储介质
Avanesians et al. Wave separation: Application for arrival time detection in ultrasonic signals
EP2391895B1 (en) Precision measurement of waveforms
AU2012244118B2 (en) Method and System for Identifying Events of Digital Signal
CN110049423A (zh) 一种利用广义互相关和能量谱检测麦克风的方法和系统
CN103714542B (zh) 低分辨率高频声纳图像中目标亮点提取方法
CN106816157A (zh) 语音识别方法及装置
WO2016091994A1 (en) Method and installation for processing a sequence of signals for polyphonic note recognition
JP2006209123A (ja) 高調波信号の基本周波数を求める方法
JP5131863B2 (ja) Hlac特徴量抽出方法、異常検出方法及び装置
CN105680964A (zh) 一种频谱感知方法和频谱感知系统、客户端和服务端
CN107548007B (zh) 一种音频信号采集设备的检测方法及装置
CN104282315A (zh) 音频信号分类处理方法、装置及设备
JP5933346B2 (ja) 発振器同定装置及び発振器同定方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant