CN102222499B - 声音判别系统、声音判别方法以及声音判别用程序 - Google Patents
声音判别系统、声音判别方法以及声音判别用程序 Download PDFInfo
- Publication number
- CN102222499B CN102222499B CN2011101573717A CN201110157371A CN102222499B CN 102222499 B CN102222499 B CN 102222499B CN 2011101573717 A CN2011101573717 A CN 2011101573717A CN 201110157371 A CN201110157371 A CN 201110157371A CN 102222499 B CN102222499 B CN 102222499B
- Authority
- CN
- China
- Prior art keywords
- sound
- sub
- score
- speech
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 19
- 230000002123 temporal effect Effects 0.000 claims abstract description 76
- 238000003860 storage Methods 0.000 claims abstract description 63
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 abstract 3
- 230000005055 memory storage Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010219 correlation analysis Methods 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
Abstract
本发明提供即使是在时间上的局部分析中取得了接近声音的特征量这样的杂音也能正确地判别为非声音的声音判别系统。该声音判别系统具有:特征量提取单元(421),其分析由声学信号输入单元(410)输入的声学信号并提取特征量的时间系列;子词边界得分计算单元(424),其参照在声音模型存储单元(431)中存储的声音的声学模型来计算子词边界得分的时间系列;时间规律性分析单元(422),其分析子词边界得分的时间规律性;以及声音判别单元(423),其使用子词边界得分的时间规律性来判断输入声学信号是声音还是非声音。
Description
技术领域
本申请是申请号为“2006800388519”,申请日为2006年10月10日,发明名称为“声音判别系统及声音判别方法”之申请的分案申请。
背景技术
本发明涉及声音判别系统、声音判别方法以及声音判别用程序,尤其涉及用于音响信号中的声音和非声音判别的声音判别系统、声音判别方法以及声音判别用程序。
作为这种现有的声音判别系统,例如在专利文献1中公开了如图8所示的结构。当参照图8时,该现有的声音判别系统具有:声学信号输入单元810、特征量提取单元821、声学得分计算单元824、似然比计算单元822、声音判别单元823、声音模型存储单元831以及非声音模型存储单元832。对图8的现有声音判别系统的动作进行概括说明。
从声学信号输入单元810所输入的声学信号中,通过特征量提取单元821来分析特征量。作为特征量采用了基于LPC(Linear Predictive Coefficient:线性预测系数)分析的对数倒频谱和其一次时间微分。倒频谱是在声学信号的频域中的性质、即表现了对数波谱包络的形状的特征量。相对于按例如32msec来区域化的帧,进行特征量的分析。
声学得分计算单元824,针对利用特征量提取单元821求出的特征量来分别计算:
相对于在声音模型存储单元831中存储的声音模型的似然、以及
相对于在非声音模型存储单元832中存储的非声音模型的似然。
此外,声音模型使用声音信号预先进行学习,非声音模型使用非声音信号预先进行学习。作为这些模型例如使用HMM(Hidden Markov Model)。
似然比计算单元822对利用声学得分计算单元824取得的声音模型的似然和非声音模型的似然的比进行计算。
声音判别单元823在利用似然比计算单元822算出的似然比超过了规定阈值的区间持续了预订的时间时,将该区间判别为声音。
在该现有的声音判别系统中,准备将表现了声学信号的频域性质的对数倒频谱作为特征量的声音和非声音模型,以帧单位来对两者的似然进行比较,所以可进行有杂音的这种程度的较强的声音判别。
此外,在专利文献2中公开了作为区别具有周期性的恒定信号和白色杂音的恒定杂音信号、正确地检测恒定杂音信号区间的声音解码装置,分析在子帧内的声音信号周期,因为周期性强的信号是恒定元音等(不是杂音)的可能性高,所以判断为不是恒定杂音区间。在该专利文献2中,音调履历分析器对在从适应符号表输入的音调周期的子帧间的波动进行分析,检测信号的类似元音来判断是否是声音。即,在专利文献2中,在子帧内的声音信号的周期与元音声音波形的周期(3至10msec)对应。另外,专利文献3公开了从声音数据中提取声学参数(例如,18维的LPC对数倒频谱、零交叉数、功率等),并基于声学参数、在元音标准图形存储部中存储的元音标准图形来进行元音的检测,根据判别结果以元音、辅音的顺序来探索词典及语法存储部,并且生成假定说法,按每一假定说法求辅音的得分(似然),根据各得分来进行文字的选择并生成文字列数据。
专利文献1:日本特开平10-254476号公报
专利文献2:日本特开2002-236495号公报
专利文献3:日本特开平06-266387号公报
非专利文献1:古井贞熙著,《数字声音处理》,东海大学出版会,1985年,第40页
非专利文献2:贵家仁志著,《数字信号处理》,昭晃堂,1997年,第96-99页
在参照图8进行了说明的上述现有的声音判别系统中具有如下的问题点,例如将在时间上的局部分析中取得接近声音的特征量这样的杂音、即表示在局部具有与声音相同的性质的杂音误判别为声音。以下说明产生这样的问题的原因。
在现有的声音判别系统中,一般利用比音素或音节等声音的构成单位短的时间长度来分析作为声音模型或非声音模型的特征量使用的对数倒频谱等特征量。例如,通过按数十msec左右来区域化的短时间帧的分析 来取得特征量。即,对数倒频谱等特征量可称为表示声学信号中的时间上的局部的性质。
可是,在杂音中局部分析的结果是还存在多个如取得与从声音中得到的特征量非常接近的特征量的杂音。例如,当局部分离杂音进行分析时,经常有取得接近作为声音的音素/a/或音素/s/等的特征量的情况。
其结果是,在以帧单位来比较声音和非声音的似然的现有声音判别系统中,在局部分析中取得接近声音的特征量的杂音被误判别为声音。
在专利文献2中公开了对元音具有的信号波形电平的周期性进行检测的结构,不过此方法也利用一个元音具有的局部特征来判别声音,所以仍存在表示局部上接近声音的特征的杂音被误判别为声音这样的问题。另外,在从声学模型导出元音类似度的专利文献3中,未记载对将表示与声音相同的性质的杂音误判别为声音这样的课题的认识。
发明内容
因此,本发明是鉴于上述课题而作出的,其主要目的为,提供对于即使是在时间上的局部分析中取得接近声音的特征量这样的杂音,也能正确地判别为非声音的声音判别系统以及方法、和计算机程序。
本申请中公开的发明,为了解决上述课题,可构成为如下概括的结构。
本发明涉及的系统(装置)具有:声音模型存储单元,其存储有声音的声学模型;元音得分计算单元,其通过参照所述声学模型,针对输入的声学信号的各个时刻来计算表示元音类似度的元音得分;时间规律性分析单元,其分析所述元音得分的时间规律性;以及声音判别单元,其采用所述元音得分的时间规律性来判别输入声学信号是声音还是非声音。
本发明涉及的系统(装置)具有:声音模型存储单元,其存储有声音的声学模型;子词边界得分计算单元,其通过参照所述声学模型,针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分;时间规律性分析单元,其分析所述子词边界得分的时间规律性;以及声音判别单元,其采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音。
本发明涉及的方法含有:声音判别装置参照在声音模型存储单元中存 储的声学模型,针对输入的声学信号的各个时刻来计算表示元音类似度的元音得分的步骤;
所述声音判别装置分析所述元音得分的时间规律性的步骤;以及
所述声音判别装置采用所述元音得分的时间规律性来判别输入声学信号是声音还是非声音的步骤。
本发明涉及的方法含有:声音判别装置参照在声音模型存储单元中存储的声学模型,针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分的步骤;
所述声音判别装置分析所述子词边界得分的时间规律性的步骤;以及
所述声音判别装置采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音的步骤。
本发明涉及的存储介质,存储使计算机执行以下的处理的程序:数据处理装置通过参照在声音模型存储单元中存储的声学模型,针对输入的声学信号的各个时刻来计算表示元音类似度的元音得分的元音得分计算处理;
所述数据处理装置分析所述元音得分的时间规律性的时间规律性分析处理;以及
所述数据处理装置采用所述元音得分的时间规律性来判别输入声学信号是声音还是非声音的声音判别处理。
本发明涉及的存储介质,存储使计算机执行以下的处理的程序:数据处理装置通过参照在声音模型存储单元中存储的声学模型,针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分的子词边界得分计算处理;
所述数据处理装置分析所述子词边界得分的时间规律性的时间规律性分析处理;以及
所述数据处理装置采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音的声音判别处理。
根据本发明,通过对基于声音语言特征的周期性、即音节构造的周期性进行分析,在时间上的局部分析中,对如取得接近声音的特征量这样的杂音可正确地判别为是非声音。
附图说明
图1是表示本发明第1实施例的结构的图。
图2是表示本发明第1实施例的动作的流程图。
图3是示意性地表示在本发明第1实施例中针对“こんにちは”这样的声音的元音得分的时间系列曲线图的图。
图4是表示本发明第2实施例的结构的图。
图5是表示本发明第2实施例的动作的流程图。
图6是示意性地表示在本发明第2实施例中针对“こんにちは”这样的声音的音节边界得分的时间系列曲线图的图。
图7是表示本发明第3实施例的结构的图。
图8是表示现有的声音判别系统的结构的图。
符号说明:
110声学信号输入单元;120数据处理装置;121特征量提取单元;122时间规律性分析单元;123声音判别单元;124元音得分计算单元;130存储装置;131声音模型存储单元;410声学信号输入单元;420数据处理装置;421特征量提取单元;422时间规律性分析单元;423声音判别单元;424子词边界得分计算单元;430存储装置;431声音模型存储单元;710输入装置;720数据处理装置;730存储装置;731声音模型存储部;740输出装置;750声音判别用程序;810声学信号输入单元;821特征量提取单元;822似然比计算单元;823声音判别单元;824声学得分计算单元;831声音模型存储单元;832非声音模型存储单元;
具体实施方式
参照附图对上述本发明的详细内容进行说明。此外,显然在以下说明中括号内的参照序号仅仅是为了便于掌握本发明的结构,而并不限定本发明。
本发明的第一声音判别系统具有:声音模型存储单元(图1的131),其对元音以及含有元音的音素等的声学模型进行存储;元音得分计算单元(图1的124),其通过参照声学模型,针对输入声学信号的各个时刻来计算表示元音类似度的元音得分;时间规律性分析单元(图1的122),其根据元音得分的时间系列数据来对时间规律性进行分析;以及声音判别单元(图1的123),其根据是否具有声音得分的时间系列数据的时间规律性来判断输入声学信号是声音还是非声音。
声音判别单元(图1的123),在元音得分具有时间规律性时,判别输入声学信号为声音,在元音得分不具有时间规律性时,判别为非声音。通过上述结构,在时间上的局部分析中,即使是如取得接近声音的特征量这样的杂音也能够被正确地判别为非声音。
另外,本发明的第二声音判别系统具有子词边界得分计算单元(图4的424),其在上述本发明的第一声音判别系统结构内的声音模型存储单元(图1的131)中预先存储音素及音节等子词单位的声学模型,并代替所述本发明的第一声音判别系统结构中的元音得分计算单元(图1的124),通过参照子词单位的声学模型,针对输入声学信号的各个时刻来计算表示子词边界类似度(音素边界类似度或音节边界类似度)的子词边界得分。其他结构与所述本发明的第一声音判别系统的结构相同。在子词边界得分的时间系列具有时间规律性时,输入声学信号被判别为声音,在子词边界得分的时间系列不具有时间规律性时,被判别为非声音。通过上述结构,在时间上的局部分析中,即使是如取得接近声音的特征量这样的杂音也能够被正确地判别为非声音。
如上所述,在本发明中通过使用声音的声学模型来求出表示元音类似度的元音得分、或表示子词边界类似度的子词边界得分的时间系列,在求出的得分的时间系列具有时间规律性(周期性)时,输入声学信号被判别为声音,在不具有时间规律性时,输入声学信号被判别为非声音。
一般,在声音信号中有音素及音节等子词伴随着时间规律性而出现这样的性质。
即,在声音信号中,音素及音节等子词依次变化,其变化的时间间隔一般处于从数十msec到数百msec左右的范围内。
另一方面,在杂音等非声音信号中,即使存在利用时间上的局部分析而取得接近于音素及音节等的特征量的情况,也几乎没有以数十msec到数百msec的时间间隔依次出现接近各种子词的信号这样的情况。
因此,伴随着时间规律性而依次出现各种子词这样的性质可称为是声音信号中特有的性质。
本发明为了能在这样的声音信号中捕捉特有的性质,而分析基于声音的语言特征的周期性(规律性)。即,判断在表示元音类似度的元音得分、 或表示子词边界类似度的子词边界得分的时间系列数据中是否存在时间规律性,当具有时间规律性时被判别为声音。
在非声音信号中因为元音得分或子词边界得分具有时间规律性的情况很少,所以即使是利用时间上的局部分析而取得接近声音的特征量的杂音也能够被正确地判别为非声音。
此外,为了正确地捕捉各种子词伴随时间规律性而依次出现这样的声音信号特有的性质,需要高精度地求出元音得分或子词边界得分。在本发明中,因为使用了音素或音节等声音的声学模型,所以可高精度地计算这些得分。以下,利用实施例进行说明。
实施例
图1是表示本发明第一实施例的框图。参数图1,本发明的第一实施例具有:声学信号输入单元110、数据处理装置120以及存储信息的存储装置130。
存储装置130具有声音模型存储单元131。在声音模型存储单元131中存储有元音及包含元音的音素等的声学模型。
数据处理装置120具有:特征量提取单元121、元音得分计算单元124、时间规律性分析单元122以及声音判别单元123。
特征量提取单元121对从声学信号输入单元110输入的声学信号进行分析并提取特征量的时间系列。
元音得分计算单元124通过参照在声音模型存储单元131中存储的声学模型,针对由特征量提取单元121所提取的各个时刻的特征量来计算元音得分。
时间规律性分析单元122对由元音得分计算单元124取得的元音得分的时间规律性进行分析。
声音判别单元123根据是否具有元音得分的时间规律性来判断输入声学信号是声音还是非声音。
此外,数据处理装置120中的各个单元(特征量提取单元121、元音得分计算单元124、时间规律性分析单元122、声音判别单元123)显然可以通过在数据处理装置120(计算机)上执行的程序来实现其功能及处理(参照第三实施例)。
图2是用于说明本发明第一实施例的处理顺序的流程图。参照图1以及图2的流程,对本实施例的整体动作进行详细的说明。
首先,利用声学信号输入单元110来向系统输入声学信号(图2的步骤A1)。
声学信号输入单元110可以通过麦克风等实时地输入声音,也可以输入预先存储在硬盘或磁带等存储介质中的声学信号。
特征量提取单元121分析已输入的声学信号,并提取用于表现声学信号的波谱形状的特征量的时间系列(图2的步骤A2)。
特征量按被称为“帧”的时间单位来进行分析。一个帧的长度例如是数十msec左右。
另外,作为特征量可以使用例如MFCC(Mel-scale Frequency Cepstral Coefficients)等。MFCC是在考虑了人类听觉特性的基础上表现出对数频率波谱的包络的特征量,可广泛地应用在声音判别等中。
声音模型存储单元131存储有元音及包含元音的音素等的声学模型。在声音模型存储单元131中存储的声学模型例如是作为可广泛应用在声音判别领域中的模型的HMM(Hidden Markov Model)或GMM(Gaussian Mixture Model),可预先利用声音信号来学习元音或含有元音的音素。
元音得分计算单元124参照在声音模型存储单元131中存储的声学模型,针对由特征量提取单元121提取的各个时刻的特征量(特征量的时间系列)来计算元音得分(图2的步骤A3)。
这里,所谓元音得分是表示输入声学信号的类似元音的尺度。该元音得分可通过使用元音或含有元音的音素的声学模型,以如下的方法求出。
即,如果在声音模型存储单元131中存储的声学模型是元音模型,则能够将元音模型相对于特征量的似然直接设为元音的得分。
另外,如果在声音模型存储单元131中存储的声学模型是音素模型,则也能够将与/a/、/i/、/u/、/e/、/o/这样的元音相当的满足了模型似然的值设为元音得分。
当在声音模型存储单元131中存储的声学模型含有辅音等元音以外的音素时,还可以将按以下公式(1)计算的元音的后验概率设为元音的得分。
在以上公式(1)中,x表示特征量,q表示音素,P(x|q)表示音素q的模型似然,P(q|x)表示音素q的后验概率。
另外,S_all表示在声音模型存储单元131中存储的全部音素的集合,S_vowel表示在S_all中包含的元音的集合。
因此,上述公式(1)的右边分母是全部音素模型的似然总和,右边分子是表示元音的音素模型的似然总和。
通过根据上述公式(1)计算元音的后验概率,可以取得标准化后的元音得分。
如上述算出的元音得分的时间系列可认为,表示输入声学信号的各个时刻是类似哪个元音的信号。
图3是表示针对“こんにちは”(k/o/N/n/i/ch/i/w/a)这样的声音求出的元音得分的时间系列的曲线图。在图3中,横轴是时间,纵轴是元音得分。图3的实线表示元音得分的时间系列,用虚线包围的矩形区域表示元音的区间。
一般情况下,在声音中有以几乎固定的时间间隔来规律地出现元音这样的性质,所以元音得分针对声音的时间系列也如图3所示地具有时间规律性。
另一方面,在非声音中由于很少规律地出现类似元音的区间,所以几乎没有针对非声音的元音得分时间系列具有如图3所示的时间规律性的情况。
接着,时间规律性分析单元122对利用元音得分计算单元124求出的元音得分的时间规律性进行分析(图2的步骤A4)。在该分析中例如可以使用自身相关分析。即,通过调查由对元音得分的时间系列进行了自身相关分析的结果的、自身相关函数中的波峰的有无以及波峰的位置,可判断在元音得分中是否有时间周期性,如果有周期性则求出其周期值。此外,关于自身相关分析的详细内容可参考非专利文献1。
另外,作为对元音得分的时间规律性进行分析的其他方法,可利用离散傅立叶变换(Discrete Fourier Transform)。通过对元音得分的时间系列进行离散傅立叶变换,可判断在元音得分中是否有时间周期性,如果有周期性则求出其周期值。此外关于离散傅立叶变换的详细内容可参考例如非专利文献2。
在进行这些自身相关分析或基于离散傅立叶变换的分析时的窗口宽度,需要对在声音信号中元音出现数次以上这样的时间长度来进行。
以元音出现数次以上的长度来分析元音得分的时间规律性,因此可以在元音以几乎固定的时间间隔来规律地出现这样的声音中提取特有的性质。
因此,理想的是在进行自身相关分析或离散傅立叶变换时的窗幅,为例如100msec以上左右。
声音判别单元123根据元音得分的时间规律性的有无来判别输入声学信号是声音还是非声音。
即,判断在元音得分中是否有时间周期性(图2的步骤A5),在有周期性时判别为输入声学信号是声音的可能性高,在没有周期性时判别为输入声学信号是非声音(图2的步骤A8)。
另外,在元音得分中确认了时间周期性时,进一步判断其周期是否处于规定范围内(图2的步骤A6)。其判断结果是,在周期处于规定范围内时输入声学信号被判别为声音(图2的步骤A7),在周期不处于规定范围内时输入声学信号被判别为非声音(图2的步骤A8)。
此外,省略周期是否处于规定范围内的判断(图2的步骤A6),仅利用在元音得分中是否有时间周期性的判断(图2的步骤A5)也能够判别声音和非声音。
此外,在图2的步骤A6中,被判别为声音的元音得分的时间周期范围相当于声音中的一般音节的周期。因此,作为被判别声音的元音得分的时间周期的范围,例如设为从50msec至300msec。
接着,对本实施例的作用效果进行说明。
本实施例中,在表示声学信号的元音类似度的元音得分具有时间规律性时,输入声学信号被判别为声音,在不具有时间规律性时被判别为非声 音。
因此,关于在时间上的局部分析中取得了接近声音的特征量这样的杂音,能够被正确地判别为非声音。
一般情况下,在声音信号中有元音以几乎固定的时间间隔规律地出现这样的性质,在非声音信号中,即使是在时间上的局部分析中取得接近声音的特征量的杂音,也几乎没有如声音信号那样伴随时间规律性地出现具有接近元音的特征的区间的情况。
在本实施例中,判定元音得分的时间规律性的有无,在具有时间规律性时判别为声音,所以可捕捉在这样的声音中特有的性质。
因此,通过本实施例,即使是在局部分析中取得了接近声音的特征量的杂音,也能正确地判别为非声音。
此外,关于所述专利文献2和本实施例的不同点进行说明。在所述专利文献2中,通过分析在子帧内的信号周期来判断是否是恒定杂音区间,周期性强的信号是恒定元音等的可能性高,判断为不是恒定杂音区间,在该子帧内的信号周期与引起声带振动的3~10msec左右对应。在专利文献2中因为仅取得具有元音的信号波形电平的周期性,所以可知是类似元音的音。可是,在专利文献2中不能正确地判别在局部分析中取得接近声音的特征量的杂音为非声音。
与此相对,在本发明的第一实施例中,基于元音得分的周期性(例如,在图3中元音o、i、i、a的周期为100~200msec左右),判别输入声学信号是声音还是非声音。通过本发明,将含有意思的声音所具有的音节构造作为周期进行捕捉。当在声音中反复出现辅音和元音、并以时间系列来表示元音类似度时,在该时间系列中出现与音节变化对应的周期性。这样,在本实施例中通过检测基于声音的语言特征的周期性,即使在信号电平类似声音但实际上不是声音这样的情况下,也能高精度地判别声音、非声音。
接着,对本发明的第二实施例进行说明。图4是表示本发明第二实施例的结构的图。参照图4,本发明的第二实施例具有:声学信号输入单元410、数据处理装置420、以及存储信息的存储装置430。
存储装置430具有声音模型存储单元431。
在声音模型存储单元431中存储有音素及音节等子词单位的声学模 型。
数据处理装置420具有:特征量提取单元421、子词边界得分计算单元424、时间规律性分析单元422以及声音判别单元423。这些之中,特征量提取单元421、时间规律性分析单元422、声音判别单元423分别与图1的特征量提取单元121、时间规律性分析单元122、声音判别单元123相同。
子词边界得分计算单元424通过参照在声音模型存储单元431中存储的声学模型、以及由特征量提取单元421提取的特征量,针对各个时刻计算子词边界得分。
此外,数据处理装置420中的各个单元(特征量提取单元421、子词边界得分计算单元424、时间规律性分析单元422、声音判别单元423)显然也可以通过在数据处理装置420上执行的程序来实现其功能及处理。
图5是用于对本发明第二实施例的动作进行说明的流程图。参照图4以及图5的流程,对本实施例的整体动作进行详细的说明。
在所述第一实施例中,通过元音得分计算单元124,针对输入声学信号来计算元音得分的时间系列。
在本实施例中,取代通过元音得分计算单元124来计算元音得分的时间系列,通过子词边界得分计算单元424来计算对于入声学信号的子词边界得分的时间系列这一点,与所述第一实施例不同。
即,图5的步骤B1~B2的处理内容与图2的步骤A1~A2的处理内容相同,另外,图5的步骤B4~B8的处理内容与图2的步骤A4~A8的处理内容相同,因此省略说明。
首先,与所述第一实施例相同,利用声学信号输入单元410对系统输入声学信号,特征量提取单元421分析输入声学信号,提取特征量的时间序列。
接着,子词边界得分计算单元424,参照提取的特征量和在声音模型存储单元431中存储的声学模型,求对于输入声学信号的子词边界得分(图5的步骤B3)。
这里,所谓子词边界得分是表示在输入声学信号中音素或音节等构成声音的子词单位的边界是否存在的尺度。
即,在某时刻如果子词边界得分高,则表示:在该时刻之前的区间的声学信号是接近某音素或音节的信号,在该时刻之后的区间的声学信号是接近其他音素或音节的信号。
具有这样的性质的子词边界得分,可通过使用音素或音节等子词单位的声学模型,以如下的方法求出。
首先,利用在声音模型存储单元431中存储有音素及音节等子词单位的声学模型,来计算各个子词q相对于各个时刻t的特征量x_t的模型的似然P(x_t|q)。
接着,在各个时刻按公式(2)来计算全部子词声学模型的似然的时间差分的平方和D(t)。
S_all表示在声音模型存储单元431中存储的全部音素的集合。
由公式(2)可知,D(t)是表示在各个时刻的各个子词的似然变化大小的量,所以可作为子词边界得分使用。
即,D(t)大的情况则表示从其前后的声学信号所具有的子词变化为其他子词。
这里,将各个子词的似然P(x_t|q)的时间差分的和作为子词边界得分,不过也可以求出各个子词的后验概率P(q|x_t)后,将后验概率的时间差分的和作为子词边界得分。
各个子词的后验概率可通过与上述公式(1)同样的计算来求出。
通过使用后验概率的时间差分,可取得标准化了的子词边界得分。
此外,在声音模型存储单元431中存储的声学模型的单位和子词边界得分计算单元424计算的子词边界得分的单位不一定需要相同。即,例如在声音模型存储单元431中存储音素的声学模型,在子词边界得分计算单元424中仅考虑来自元音的转移,由此可以计算音节的边界得分。
如上述那样算出的子词边界得分的时间系列可认为,表示输入声学信号的各个时刻类似哪个音素或音节等子词的边界。
图6是表示针对“こんにちは”(k/o/N/n/i/ch/i/w/a)这样的声音求出的音节边界得分即音节边界类似度的时间系列的曲线图。在图6中,横轴 是时间,纵轴是音节边界得分。图6的实线表示音节边界得分的时间系列,纵的虚线(点线)表示音节的边界。
一般情况下,在声音中有音素或音节等子词以几乎固定的时间间隔规律地出现这样的性质,所以针对声音的子词边界得分的时间系列如图3所示具有时间规律性。
另一方面,在非声音中由于几乎不会如声音那样地伴随时间规律性而依次出现接近音素或音节的信号,所以几乎没有对于非声音的子词边界得分的时间系列具有时间规律性的情况。
针对这样求出的子词边界得分的时间系列,时间规律性分析单元422以及声音判别单元423与所述第一实施例进行同样的动作,并判别输入声学信号是声音还是非声音。
接着,对本实施例的作用效果进行说明。
本实施例中,在表示音素或音节的类似边界的子词边界得分具有时间规律性时输入声学信号被判别为声音,在不具有时间规律性时被判别为非声音,所以即使是在时间上的局部分析中取得接近声音的特征量这样的杂音,也能被正确地判别为非声音。
如上所述,一般情况下,在声音信号中有以几乎固定的时间间隔来规律地出现音素或音节等子词这样的性质,在非声音信号中,即使是在时间上的局部分析中取得了接近声音的特征量的杂音,也几乎没有如声音信号那样伴随时间规律性地出现具有接近音素或音节的信号的情况。
在本实施例中,判定子词边界得分的时间规律性的有无,在具有时间规律性时判别为声音,所以能够在这样的声音中捕捉特有的性质。
因此,通过本实施例,即使是在局部分析中取得了接近声音的特征量的杂音,也能正确地判别为非声音。
接着,对本发明的第三实施例进行说明。图7是表示本发明第三实施例的结构的框图。参照图7,本发明的第三实施例由通过程序控制来动作的数据处理装置720、输入装置710、存储装置730以及输出装置740构成。
声音判别用程序750通过存储介质或经由传输介质的下载而被读入到数据处理装置720,控制数据处理装置720的动作,在存储装置730中 生成声音模型存储部731。
数据处理装置720通过声音判别用程序750的控制来执行与所述第一实施例中的数据处理装置120或所述第二实施例中的数据处理装置420进行的处理相同的处理。
本发明可适用于从各种输入声学信号中判别声音进行声音识别的声音识别装置、或用于在计算机中实现声音识别装置的程序这样的用途中。
以上,利用上述实施例对本发明进行了说明,不过本发明并不仅限于上述实施例的结构,本领域的技术人员可知在本发明的范围内可进行各种变形、修正。
Claims (4)
1.一种声音判别系统,其特征在于,具有:
声音模型存储单元,其存储了声音的声学模型;
子词边界得分计算单元,其通过参照所述声学模型,针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分;
时间规律性分析单元,其分析所述子词边界得分的时间规律性;以及
声音判别单元,其采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音。
2.一种声音判别方法,其特征在于,含有以下的步骤:
数据处理装置参照在声音模型存储单元中存储的声学模型,针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分的步骤;
所述数据处理装置分析所述子词边界得分的时间规律性的步骤;以及
所述数据处理装置采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音的步骤。
3.一种声音判别装置,其特征在于,具有:
存储单元,其存储有构成声音的子词单位的声学模型;
声学信号输入单元,其输入声学信号;
特征量提取单元,其分析来自所述声学信号输入单元的输入声学信号,并提取特征量的时间系列;
子词边界得分计算单元,其参照在所述存储单元中存储的声学模型,针对所述特征量提取单元所提取的特征量的时间系列,来计算子词边界得分的时间系列,其中,该子词边界得分在输入声学信号中作为表示子词单位的边界类似度的尺度;
时间规律性分析单元,其针对由所述子词边界得分计算单元取得的子词边界得分的时间系列来分析时间规律性;以及
声音判别单元,其判断在所述子词边界得分的时间系列中是否具有时间规律性,在具有时间规律性时,所述输入声学信号被判别为声音的可能性高,在没有时间规律性时输入声学信号被判别为非声音。
4.根据权利要求3所述的声音判别装置,其特征在于,
所述声音判别单元,当在所述得分的时间系列中判别出有时间规律性即周期性时,判断所述周期是否处于预定的规定范围内,当所述周期处于所述规定的范围内时,输入声学信号被判别为声音,在所述周期未处于所述规定的范围内时,输入声学信号被判别为非声音。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005305625 | 2005-10-20 | ||
JP2005-305625 | 2005-10-20 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800388519A Division CN101292283B (zh) | 2005-10-20 | 2006-10-10 | 声音判别系统及声音判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102222499A CN102222499A (zh) | 2011-10-19 |
CN102222499B true CN102222499B (zh) | 2012-11-07 |
Family
ID=37962363
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110157383XA Active CN102222498B (zh) | 2005-10-20 | 2006-10-10 | 声音判别系统、声音判别方法以及声音判别用程序 |
CN2011101573717A Active CN102222499B (zh) | 2005-10-20 | 2006-10-10 | 声音判别系统、声音判别方法以及声音判别用程序 |
CN2006800388519A Active CN101292283B (zh) | 2005-10-20 | 2006-10-10 | 声音判别系统及声音判别方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110157383XA Active CN102222498B (zh) | 2005-10-20 | 2006-10-10 | 声音判别系统、声音判别方法以及声音判别用程序 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800388519A Active CN101292283B (zh) | 2005-10-20 | 2006-10-10 | 声音判别系统及声音判别方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8175868B2 (zh) |
JP (1) | JP4911034B2 (zh) |
CN (3) | CN102222498B (zh) |
WO (1) | WO2007046267A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2597803C (en) * | 2005-02-17 | 2014-05-13 | Loquendo S.P.A. | Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system |
JP4986028B2 (ja) * | 2007-01-19 | 2012-07-25 | Kddi株式会社 | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
JP5446874B2 (ja) * | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | 音声検出システム、音声検出方法および音声検出プログラム |
US8077836B2 (en) * | 2008-07-30 | 2011-12-13 | At&T Intellectual Property, I, L.P. | Transparent voice registration and verification method and system |
CN101359472B (zh) * | 2008-09-26 | 2011-07-20 | 炬力集成电路设计有限公司 | 一种人声判别的方法和装置 |
JP5157852B2 (ja) * | 2008-11-28 | 2013-03-06 | 富士通株式会社 | 音声信号処理評価プログラム、音声信号処理評価装置 |
JP4754651B2 (ja) * | 2009-12-22 | 2011-08-24 | アレクセイ・ビノグラドフ | 信号検出方法、信号検出装置、及び、信号検出プログラム |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
US9293131B2 (en) * | 2010-08-10 | 2016-03-22 | Nec Corporation | Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program |
JP5777569B2 (ja) * | 2012-05-22 | 2015-09-09 | 日本電信電話株式会社 | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
WO2015059947A1 (ja) * | 2013-10-22 | 2015-04-30 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
CN107633843B (zh) * | 2017-09-08 | 2021-01-19 | 深圳大学 | 识别人国籍的方法及装置 |
CN107610691B (zh) * | 2017-09-08 | 2021-07-06 | 深圳大学 | 英语元音发声纠错方法及装置 |
JP6996185B2 (ja) * | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
JP6725186B2 (ja) * | 2018-02-20 | 2020-07-15 | 三菱電機株式会社 | 学習装置、音声区間検出装置および音声区間検出方法 |
WO2020003534A1 (en) * | 2018-06-29 | 2020-01-02 | Nec Corporation | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
CN110097874A (zh) * | 2019-05-16 | 2019-08-06 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
CN1151573A (zh) * | 1995-07-19 | 1997-06-11 | 索尼公司 | 声音识别方法,信息形成方法,声音识别装置和记录介质 |
CN1593980A (zh) * | 2003-09-09 | 2005-03-16 | 摩托罗拉公司 | 自动语音归类方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
US4920568A (en) | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
JPS6217800A (ja) | 1985-07-16 | 1987-01-26 | シャープ株式会社 | 音声区間判定方式 |
JPS6350896A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
JPH05173592A (ja) | 1991-12-25 | 1993-07-13 | Matsushita Electric Ind Co Ltd | 音声/非音声判別方法および判別装置 |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
JP2797861B2 (ja) | 1992-09-30 | 1998-09-17 | 松下電器産業株式会社 | 音声検出方法および音声検出装置 |
JPH06266387A (ja) | 1993-03-12 | 1994-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識方式 |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
GB9419388D0 (en) * | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
JP3105465B2 (ja) | 1997-03-14 | 2000-10-30 | 日本電信電話株式会社 | 音声区間検出方法 |
US6285979B1 (en) * | 1998-03-27 | 2001-09-04 | Avr Communications Ltd. | Phoneme analyzer |
US6226606B1 (en) * | 1998-11-24 | 2001-05-01 | Microsoft Corporation | Method and apparatus for pitch tracking |
JP3652961B2 (ja) * | 2000-06-27 | 2005-05-25 | シャープ株式会社 | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 |
JP3806344B2 (ja) | 2000-11-30 | 2006-08-09 | 松下電器産業株式会社 | 定常雑音区間検出装置及び定常雑音区間検出方法 |
US7478042B2 (en) | 2000-11-30 | 2009-01-13 | Panasonic Corporation | Speech decoder that detects stationary noise signal regions |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
US20060004567A1 (en) * | 2002-11-27 | 2006-01-05 | Visual Pronunciation Software Limited | Method, system and software for teaching pronunciation |
-
2006
- 2006-10-10 CN CN201110157383XA patent/CN102222498B/zh active Active
- 2006-10-10 JP JP2007540929A patent/JP4911034B2/ja active Active
- 2006-10-10 US US12/090,043 patent/US8175868B2/en active Active
- 2006-10-10 CN CN2011101573717A patent/CN102222499B/zh active Active
- 2006-10-10 CN CN2006800388519A patent/CN101292283B/zh active Active
- 2006-10-10 WO PCT/JP2006/320199 patent/WO2007046267A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
CN1151573A (zh) * | 1995-07-19 | 1997-06-11 | 索尼公司 | 声音识别方法,信息形成方法,声音识别装置和记录介质 |
CN1593980A (zh) * | 2003-09-09 | 2005-03-16 | 摩托罗拉公司 | 自动语音归类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102222498B (zh) | 2013-05-01 |
WO2007046267A1 (ja) | 2007-04-26 |
US8175868B2 (en) | 2012-05-08 |
JP4911034B2 (ja) | 2012-04-04 |
CN101292283B (zh) | 2012-08-08 |
US20090138260A1 (en) | 2009-05-28 |
JPWO2007046267A1 (ja) | 2009-04-23 |
CN102222499A (zh) | 2011-10-19 |
CN102222498A (zh) | 2011-10-19 |
CN101292283A (zh) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102222499B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones. | |
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
KR20080050311A (ko) | 음성 처리 장치 및 음성 처리 방법 및 프로그램 | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
Ghai et al. | Exploring the effect of differences in the acoustic correlates of adults' and children's speech in the context of automatic speech recognition | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
Martinčić-Ipšić et al. | Croatian large vocabulary automatic speech recognition | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
Tóth et al. | Improvements of Hungarian hidden Markov model-based text-to-speech synthesis | |
JP4576612B2 (ja) | 音声認識方法および音声認識装置 | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
Toderean et al. | Achievements in the field of voice synthesis for Romanian | |
Canterla et al. | Optimized Feature Extraction and HMMs in Subword Detectors. | |
Pfitzinger | Reducing Segmental Duration Variation by Local Speech Rate Normalization of Large Spoken Language Resources. | |
Ito | Leveraging a Small Corpus by Different Frame Shifts for Training of a Speech Recognizer | |
Shubham et al. | Acoustic Speech Recognition | |
CN115019775A (zh) | 一种基于音素的语种区分性特征的语种识别方法 | |
Amrous et al. | Prosodic features and formant contribution for Arabic speech recognition in noisy environments | |
Wang | A study of meta-linguistic features in spontaneous speech processing | |
JayasankarP et al. | A Deep and Wide Analysis for Speech-Emotion Recognition Using Multilayer Perceptron | |
Kallasjoki | Methods for spectral envelope estimation in noise robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |