CN1889172A - 可增加和修正声音类别的声音分类系统及方法 - Google Patents

可增加和修正声音类别的声音分类系统及方法 Download PDF

Info

Publication number
CN1889172A
CN1889172A CNA2005100791672A CN200510079167A CN1889172A CN 1889172 A CN1889172 A CN 1889172A CN A2005100791672 A CNA2005100791672 A CN A2005100791672A CN 200510079167 A CN200510079167 A CN 200510079167A CN 1889172 A CN1889172 A CN 1889172A
Authority
CN
China
Prior art keywords
sound
classification
class
database
increase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005100791672A
Other languages
English (en)
Inventor
严嘉鑫
林哲民
水岛考一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to CNA2005100791672A priority Critical patent/CN1889172A/zh
Priority to PCT/JP2006/313178 priority patent/WO2007001068A1/en
Priority to EP06767756A priority patent/EP1899956B1/en
Priority to DE602006010074T priority patent/DE602006010074D1/de
Priority to JP2007558255A priority patent/JP2008547037A/ja
Priority to US11/994,037 priority patent/US8037006B2/en
Publication of CN1889172A publication Critical patent/CN1889172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Abstract

一种可增加和修正声音类别的声音分类系统,包括存储多种声音特征的统计值的第一数据库、分类器、第二数据库、存储样本声音的特征的特征数据库、增加和修正命令处理器、类别增加和修正器及精确度计算器。增加和修正命令处理器在接收修改或增加声音类别的命令后,第一数据库中的数据将存储至第二数据库,而类别增加和修正器则将声音的特征加入第一数据库,并重新计算统计值,且分类器重新分类样本声音,而精确度计算器则计算正确分类的比例,且当比例高时,类别增加和修正器将被修正或增加类别的声音的特征存到特征数据库,而当比例低时,第二数据库将数据回存到第一数据库。

Description

可增加和修正声音类别的声音分类系统及方法
技术领域
本发明涉及一种声音分类系统及方法,特别是一种可增加和修正声音类别的声音分类系统及方法。
背景技术
参阅图1,已知的声音分类系统8是用于接收待辨识的声音,并且将该声音辨识出来以判断该声音是否属于对使用者具有特定意义的声音类别。
已知的声音分类系统8可预先将多种具有特定意义的声音分类并存入该声音分类系统8,例如:预先分类出警笛声、电话铃响声及玻璃破碎声三大类。而当环境中有上述类型的声音产生时,该分类系统8可接收该声音并将该声音分类,并且通知使用者有某一类型的声音产生。例如:当该分类系统8判断出电话铃声时,则可通知使用者接电话,或是当该声音分类系统8判断出有玻璃破碎声时,则通知使用者可能有小偷打破窗户欲入侵。
这种已知的声音分类系统8是包括声音接收器81、特征提取器82、分类器83、数据库84及分类纪录器85。该数据库84存储多种声音信号的特征。该声音接收器81是例如:麦克风等,可用于接收声音的设备,而该特征提取器82可接收该声音接收器81传来的声音信号,并找出该声音信号的特征。
该特征提取器82是以梅尔倒频谱系数(Mel-scale Frequency CepstralCoefficients,简称MFCC)法分析出声音信号的特征向量,并以该特征向量作为声音信号的特征。该MFCC法可参考L.Rabiner与B.-H.Juang于1993年Prentice Hall出版的“Fundamentals of Speech Recognition”,主要是将该声音信号由时域(Time Domain)信号利用傅利叶转换(FourierTransform),转成频域(Frequency Domain)信号,该频域信号表示该声音在每一频率所具有的能量。接着由多组涵盖不同频率范围的三角带通滤波器(Triangular Band-pass Filters),分别取出相对应的频率范围的能量值,且其中一组三角带通滤波器涵盖对应于人类听觉所能感应的声音频率范围,并由每一个三角带通滤波器对该能量值乘上不同的加权数(weighting)来得到代表该频率范围的特征值,因此可以得到相等于三角带通滤波器数目的多个特征值,且以该多个特征值作为一组可代表该声音的特征向量。
该数据库84中预存许多种声音的特征,例如:警笛类声音、电话铃声类声音、玻璃破碎类声音以及开门类声音。且每一种类型的声音一般又包括多笔声音,例如:开门类声音包括多笔预先录制好的开门声音。
而该分类器83则将该特征提取器82分析出的特征与该数据库84中所预存的特征作比较,且当由该特征提取器82分析出的特征符合或是接近该数据库中某一声音种类的特征时,则将该声音接收器81接收到的声音视为是该种类的声音。而该分类纪录器85是存储该分类器83对每一输入声音的分类结果及其特征。
该分类器83所使用的分类方法可以是S.-T.Bow所著并于1984年由Jwang Yuan出版的“Pattern Recognition”中所述的马哈拉诺毕斯距离(Mahalanobis Distance)法。该方法主要用于计算该声音接收器81收到的声音信号的特征向量与数据库84中所存声音的特征向量之间的距离。当该距离最小时,表示该声音接收器81接收到的声音信号符合该数据库84其中该类声音类别。
但是实际生活中有为数众多的声音种类,一般预建的数据库84无法含括所有可能会发生的声音,而习知的声音分类系统8也无法处理该些未被数据库84存储的声音种类,故此时若能让使用者自行增加该数据库84的声音类别,将能有效提升该声音分类系统8的实用性。
另外,由于环境的差异,声音在不同的环境中也会展现出不同的特性。例如同样都是开门声,但在一个较为宽敞的环境中,此开门声的回音可能就会较大,但在一个较会吸收声音能量的环境中,此开门声的特性就会截然不同。在录制数据库84中各类别的声音时,这些声音被录制时的环境往往与使用者所处环境不同,如果使用者无法针对其使用环境增加或修改该预建数据库84中该多种类别声音的样本,则可能会造成该声音分类系统8在新环境中分类错误的情形,甚至发生根本无法分类的问题。
发明内容
因此,本发明的目的是提供一种可增加和修正声音类别的声音分类系统。该声音分类系统可供使用者增加发生在其使用环境中的且对其具有特定意义的声音类别,并可允许使用者修改接收到的声音的类别。
而本发明的另一个目的是提供一种可增加或修改声音类别的声音分类方法。该声音分类方法可根据分类结果的准确度来判断是否修正或是增加新的声音类别。
于是,本发明可增加和修正声音类别的声音分类系统包括声音接收器、特征提取器、第一数据库、特征数据库、分类器、分类纪录器、第二数据库、增加和修正命令处理器、精确度计算器及类别增加和修正器。
该声音接收器接收待辨识的声音信号。该特征提取器接收该声音接收器传来的该待辨识声音信号,并找出该声音信号的特征。而该第一数据库存储多种声音的特征的统计值。该分类器与该特征提取器及该第一数据库电连接,且接收该特征提取器分析出的特征,并依据该第一数据库中各类声音的统计值对该待辨识声音信号分类,且输出分类结果。
该分类纪录器与该分类器电连接,且存储该分类器的分类结果与该待辨识声音信号的特征。而该第二数据库与该第一数据库电连接,且可备份该第一数据库中所存储的数据,并且可以在该第一数据库所存储的数据改变后,适时地将备份之数据回存至该第一数据库。
该特征数据库可存储多种样本声音信号的特征,并可将该等样本声音信号的特征输出至该分类器。
该增加和修正命令处理器与该分类纪录器电连接,并在收到要求修正分类结果或是增加一新分类的命令时,由该分类纪录器中输出需要修正或需要增加新类别的声音的特征。
该类别增加和修正器与该增加和修正命令处理器、该第一数据库及该特征数据库电连接,并接收该增加和修正命令处理器输出需要修正或是需要增加的新类别声音的特征,且在该第一数据库数据备份至该第二数据库后,以该声音的特征更新该第一数据库中的特征的统计值,而该分类器在该第一数据库的统计值更新后,将提取该特征数据库中所存储的所有样本声音的特征,并依据该第一数据库中各分类声音的特征的统计值来重新判定该等样本声音特征的分类。
该精确度计算器与该分类器电连接,且计算该特征数据库中的样本声音特征被该分类器正确分类的比例,并可显示该比例,且在该比例高于一个临界值时,将该声音的特征送至该特征数据库存储,并保留该第一数据库更新后的统计值,并在该比例不大于该临界值时,该第二数据库则将备份的数据回存至该第一数据库。
于是,本发明可修改声音类别的方法,适用于让使用者修改声音分类系统中的分类,该声音分类系统包括存储多种声音特征的统计值的第一数据库、分类器、第二数据库、存储多种已被正确分类的样本声音的特征的特征数据库、增加和修正命令处理器、类别增加和修正器及精确度计算器,而该方法包含下列步骤:
(A)该增加和修正命令处理器接收修改声音类别的命令。
(B)将该第一数据库中各分类声音的特征的统计值存储至该第二数据库,以备份该第一数据库的数据。
(C)该类别增加和修正器将该需要修正分类的声音的特征加入该第一数据库中使用者选定的类别,并重新计算该第一数据库中被选定类别的声音特征的统计值。
(D)该分类器提取该特征数据库中所有样本声音的特征,并依据该第一数据库中各分类声音的特征的统计值来重新判定该等样本声音特征的分类,且该精确度计算器计算该多个样本声音特征被该分类器正确分类的比例。
(E)如果该多个样本声音的特征被该分类器正确分类的比例大于一个临界值,则该类别增加和修正器将该被修正类别的声音的特征存到该特征数据库中;如果该等样本声音的特征被该分类器正确分类的比例不大于该临界值,则该第二数据库将数据回存到该第一数据库。
而本发明的可增加声音类别的方法,适用于让使用者增加该声音分类系统中的分类,该方法包含以下步骤:
(A)该增加和修正命令处理器接收增加声音类别的命令。
(B)将该第一数据库中各分类声音的特征的统计值存储至该第二数据库,以备份该第一数据库中的数据。
(C)该类别增加和修正器将该需要增加声音类别的声音的特征加入该第一数据库中,并计算该新增加声音类别的特征的统计值。
(D)该分类器提取该特征数据库中所有样本声音的特征,并依据该第一数据库中各分类声音的特征的统计值来重新判定该等样本声音特征的分类,且该精确度计算器计算该等样本声音特征被该分类器正确分类的比例。
(E)如果该多个样本声音的特征被该分类器正确分类的比例大于一个临界值,则该类别增加和修正器将该增加类别的声音的特征存到该特征数据库中;如果该多个样本声音的特征被该分类器正确分类的比例不大于该临界值,则该第二数据库将数据回存到该第一数据库。
附图说明
图1是说明已知的声音分类系统的系统架构的方框图;
图2是说明本发明的可增加和修正声音类别的声音分类系统的系统架构的方框图,;
图3是增加和修正声音类别操作接口的示意图;
图4是增加声音类别操作接口的示意图;
图5是修正声音类别操作接口的示意图;及
图6是说明当声音需要修正类别时的步骤的流程图,。
具体实施方式
有关本发明的前述及其它技术内容、特点与功效,在以下配合参考图式的优选实施例的详细说明中,将可清楚地呈现。
参阅图2,本发明的可增加和修正声音类别的声音分类系统优选实施例包括声音接收器101、特征提取器102、分类器103、第一数据库104、第二数据库105、分类纪录器106、精确度计算器107、类别增加和修正器108、增加和修正命令处理器109、特征数据库110及视频摄取器111。
该声音接收器101可接收外界的声音,而该特征提取器102可接收该声音接收器101传来的声音信号,并找出该声音信号的特征。
而声音信号的特征是以已知所述的梅尔倒频谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)法所分析出的特征向量来代表。由于该方法已在先前技术中说明,故在此不再赘述。
此外,值得注意的是,本发明的特征提取器102计算声音的特征所使用的方法也可为其它频域(frequency domain)分析法,例如:利用各个子频域(frequency bin)作为特征向量的分量,或是采用声音信号的时域(time domain)特征,如:将声音信号的能量(energy)或越零率(zerocrossing rate)当作声音信号的特征,但并不以上述所提为限。
该第一数据库104存储多种声音的特征的统计值,而每一种声音都包括至少一个声音信号。并且在本实施例中该统计值是该类声音信号的所有特征的平均值(mean)以及变异数(variance),但不限于此。例如:玻璃破碎类的声音包括100笔玻璃破碎声,且每一笔玻璃破碎声都具有一特征,故此玻璃破碎类的统计值即包含该100笔玻璃破碎类声音的特征的平均值以及变异数。
该分类器103则将该特征提取器102分析出的特征与该第一数据库104中所存储的各类声音的特征的统计值作比较,以将该声音接收器101接收到的声音信号分类至适当的声音种类,并将分类结果送至该分类纪录器106。
而在本实施例中,该分类器103所采用的比对方法为在先前技术中已提到的马哈拉诺毕斯距离法,但并不限于此,该分类器103也可以使用已知的欧几里得距离(Euclidian Distance)法来比对,且比对方式是藉由计算外界声音的特征与该第一数据库104的统计值的欧几里得距离,且当该欧几里得距离最小时,表示该声音接收器101接收到的声音信号符合该第一数据库104的该类声音。
而该分类器103也可采用其它方法如:L.Rabiner与B.-H.Juang所著并于1993年由Prentice Hall出版的“Fundamentals of Speech Recognition”中所述之隐藏式马尔克夫模型(Hidden Markov models)来判断该声音接收器101所接收声音的分类。且此时是以该隐藏式马尔克夫模型中的转换矩阵(transfer matrix)作为该第一数据库104的统计值。
此外,该分类器103也可采用类神经网络法(neural networks)来对该声音接收器101所接收的声音进行分类。该方法可参考Martin T.Hagan、Howard B.Demuth及Mark H.Beale所著并于1996年由PWS-KENT出版的“Neural network design”。且此时是以该类神经网络中各神经元(neuron)的权值(weight)作为该第一数据库104中各类声音特征的统计值。
该视频摄取器111与该分类纪录器106电连接,且可将该声音产生时的环境影像摄取下来,并存储到该分类纪录器106中以辅助判别声音产生时环境中所发生的事件。例如:当该分类器103将该声音分类为玻璃破碎类的声音时,可藉由该视频摄取器111取得的影像得知该声音是因窗户玻璃破裂所产生,或是汽车窗户玻璃破裂所产生。而使用者也可由该影像确认该分类器103是否有分类错误。
该分类纪录器106存储该分类器103对每一声音的分类结果。该分类结果包括类别、特征向量、声音被接收的时间、声音波形、声音产生时摄取的影像以及声音时间长度。如果是接收的声音无法归类于该第一数据库104中的任一声音类别时,该分类纪录器106也会将该结果存储起来。
当该声音分类系统运作一段时间之后,该分类纪录器106中会存储多笔该段时间内该声音接收器101所接收的声音的分类结果。当一笔声音分类结果错误而不符合使用者预期时,使用者可对该声音进行分类修正;或者是声音无法归类于该第一数据库104中的任一类别时,此时使用者可增加可代表该声音的声音类别。
该增加和修正命令处理器109可接收修正声音分类以及增加声音分类的命令,并可提取该分类纪录器106中声音的分类结果以供使用者选出须修正或是增加类别的声音,并且将使用者选出须修正或是增加类别的声音送至该类别增加和修正器108。
该特征数据库110中存储多笔样本声音的特征,该等样本声音特征是已被正确划分类别的声音,且可由使用者或系统制造商预先存储并可由使用者依其需求而增加。
该增加和修正命令处理器109可显示如图3所示的增加和修正声音类别操作接口3,以供使用者输入要修正声音分类或是增加声音分类的命令。该增加和修正声音类别操作接口3包括选择区31、浏览区32、播放按钮33、增加类别按钮34及修正类别按钮35。
该选择区31包括纪录窗口311及卷动选择键312,该纪录窗口311可显示多笔声音的分类结果以供使用者点选欲修正或是增加类别的声音。同时,该纪录窗口311中也会显示被点选到的声音其所属类别的代表图示。如:如果点选到猫叫声,则该纪录窗口311中将显示出猫的图案。该卷动选择键312可由鼠标或是游戏杆来控制移动,以卷动该纪录窗口311。
该浏览区32包括声音波形窗口321、声音频谱窗口322及声音影像窗口323,而当使用者在该纪录窗口311点选声音分类的结果时,该浏览区32的所有窗口321、322、323将会对应地显示该笔声音分类结果的相关资料,即该声音波形窗口321将显示该声音的波形,该声音频谱窗口322则显示该声音的频谱,而该声音影像窗口323则显示该声音发生时,该视频摄取器111所摄取到的影像。
使用者可按压该播放按钮33以播放所点选的声音分类结果的声音,以便亲自确认该声音是否被该分类器103正确地分类。
而当使用者按压该增加类别按钮34时,该增加和修正命令处理器109将显示如图4所示的增加声音类别操作接口4。该增加声音类别操作接口4包括类别名称输入窗口41及增加类别提示窗口42。
该类别名称输入窗口41包括类别名称输入栏411、增加类别确定键412及增加类别取消键413,使用者可输入新增的声音类别名称至该类别名称输入栏411。而该增加和修正命令处理器109会检查输入的声音类别名称是否已经存在;如果是,则透过该增加类别提示窗口42通知使用者另行输入其它类别名称。而该增加类别确定键412及该增加类别取消键413分别可供使用者确定或是取消新增声音类别的命令。
而当使用者按压该修正类别按钮35,该增加和修正命令处理器109则会显示如图5所示的修正声音类别操作接口5。该修正声音类别操作接口5包括既存声音类别窗口51及修正类别提示窗口52。该既存声音类别窗口51包括现有声音类别显示区511、修正类别确定键512及修正类别取消键513,该现有声音类别显示区511可显示所有已经存在的声音类别,该等声音类别可供使用者选取,以取代该增加和修正声音类别操作接口3的选择区31中被点选的声音分类结果的声音类别,例如:如果该选择区31中被点选的声音分类结果的声音类别原来归类于猫叫声的类别,而使用者于该现有声音类别显示区511点选一尖叫声的声音类别,则猫叫声的类别将被取代为尖叫声的类别。
该增加和修正命令处理器109经由该修正类别提示窗口52显示重要信息给使用者。该修正类别确定键512及该修正类别取消键513分别可供使用者确定或是取消修正声音类别的命令。
配合参阅图6,本发明可修改声音类别的方法包含以下步骤:
步骤21是该增加和修正命令处理器109接收使用者修改声音类别的命令。
步骤22是该类别增加和修正器108先将该第一数据库104中的统计值存储至该第二数据库105,以备份该第一数据库104的数据。
步骤23是该类别增加和修正器108将该声音的特征向量加入该第一数据库104中使用者选定的类别,并重新计算该第一数据库104中该类别声音的特征向量的统计值。
步骤24是该分类器103提取该特征数据库110中所有样本声音的特征向量,并依据该第一数据库104中各分类声音的特征向量的统计值来重新判定该等样本声音特征的分类。且该精确度计算器107计算该等样本声音特征被该分类器103正确分类的比例。
步骤25是判定该等样本声音的特征向量被该分类器103正确分类的比例是否可接受。如果是,则跳到步骤27;如果否,则跳到步骤26。
步骤26是当该精确度无法被接受时,将该第二数据库105的数据回存到该第一数据库104,使该第一数据库104如同未被修改之前的状态。
步骤27是当使用者接受该第一数据库104被修正后的精确度时,该类别增加和修正器108将该被修正类别的声音的特征向量存储到该特征数据库110中,使该特征数据库110增加样本声音特征。
值得注意的是,该精确度计算器107也可预设精确度的临界值,当该分类器103将该特征数据库110中的样本声音特征重新分类的精确度小于该临界值时,可由该精确度计算器107自动地放弃该修正声音类别的命令,且将该第二数据库105备份的数据回存至该第一数据库104。
当使用者增加声音类别时,增加声音类别的方法流程与修改声音类别的方法流程类似,且该增加和修正命令处理器109、该类别增加和修正器108、该第一及第二数据库105与该特征数据库110的动作与修正声音的类别时大致相同,不同的地方在于使用者须在该增加声音类别操作接口4对要增加的类别输入类别名称,而该增加和修正命令处理器109须判定该类别名称是否已经存在。如果是的话,须通知使用者输入尚未存在的类别名称。且该类别增加和修正器108以该新类别的声音的特征向量计算该新类别的特征向量的平均值及变异数。
综合上述,本发明可增加和修正声音类别的声音分类系统1透过该增加和修正命令处理器109及该类别增加和修正器108提供使用者选取所欲修正分类的声音并加以修正分类,也可提供使用者增加声音类别来含括新类别的声音,且以该等声音的特征来修改该第一数据库104。若是该第一数据库104经修改后无法提供该分类器103足够的精确度来判定该特征数据库110中样本声音特征的所属类别时,也可放弃该修正声音类别或是增加声音类别的命令。藉此达到提供使用者可弹性地分类声音,以及增加新的声音分类的目的,且能维持系统声音分类的准确性,确实能达到本发明的功效。
以上所说明的仅是本发明的优选实施例,而不能以此限定本发明实施的范围,本领域技术人员在不脱离所附权利要求所限定的精神和范围的情况下对本发明内容所作的简单的等效变化与修饰,皆属于本发明涵盖的范围。

Claims (22)

1.一种可增加和修正声音类别的声音分类系统,包括:
声音接收器,用于接收待辨识的声音信号;
特征提取器,用于接收该声音接收器传来的该待辨识声音信号,并找出该声音信号的特征;
第一数据库,用于存储多种声音的特征的统计值;
分类器,用于与该特征提取器及该第一数据库电连接,且接收该特征提取器分析出的特征,并依据该第一数据库中各类声音的统计值将该待辨识声音信号分类,且输出分类结果;
分类纪录器,用于与该分类器电连接且存储该分类器的分类结果与该待辨识声音信号的特征;
第二数据库,用于与该第一数据库电连接,并且可备份该第一数据库中所存储的数据,并可在该第一数据库所存储的数据改变后,适时地将备份的数据回存至该第一数据库;
特征数据库,用于存储多种样本声音信号的特征,并可将该多个样本声音信号的特征输出至该分类器;
增加和修正命令处理器,用于与该分类纪录器电连接,并在收到要求修正分类结果或是增加新分类的命令时,由该分类纪录器输出需修正或需增加新类别的声音的特征;
类别增加和修正器,用于与该增加和修正命令处理器、该第一数据库及该特征数据库电连接,并接收该增加和修正命令处理器输出需修正或是需增加新类别的声音的特征,且在该第一数据库数据备份至该第二数据库后,以该声音的特征更新该第一数据库中的特征的统计值,而该分类器在该第一数据库的统计值更新后,将提取该特征数据库中所存储的所有样本声音的特征,并依据该第一数据库中各分类声音的特征的统计值来重新判定该多个样本声音特征的分类;及
精确度计算器,用于与该分类器电连接,且计算该特征数据库中样本声音特征被该分类器正确分类的比例,并可显示该比例,且在该比例高于一个临界值时,将该声音的特征送至该特征数据库存储,并保留该第一数据库更新后的统计值,并在该比例不大于该临界值时,该第二数据库则将备份的数据回存至该第一数据库。
2.根据权利要求1所述的可增加和修正声音类别的声音分类系统,还包括与该分类纪录器电连接的视频摄取器,该视频摄取器可摄取该待辨识的声音信号产生时环境中的影像。
3.根据权利要求1所述的可增加和修正声音类别的声音分类系统,其中,该特征提取器是以梅尔倒频谱系数法所找出的特征向量作为该声音的特征。
4.根据权利要求3所述的可增加和修正声音类别的声音分类系统,其中,该分类器是利用马哈拉诺毕斯距离法来对该声音信号进行分类。
5.根据权利要求4所述的可增加和修正声音类别的声音分类系统,其中,该第一数据库存储的每一类声音信号的统计值是包含该类声音信号的所有特征向量的平均值以及变异数。
6.根据权利要求3所述的可增加和修正声音类别的声音分类系统,其中,该分类器是利用欧几里得距离法来对该声音信号进行分类。
7.根据权利要求6所述的可增加和修正声音类别的声音分类系统,其中,该第一数据库存储的每一类声音信号的统计值是包含该类声音信号的所有特征向量的平均值以及变异数。
8.根据权利要求1所述的可增加和修正声音类别的声音分类系统,其中,该分类器是利用类神经网络来对该声音信号进行分类。
9.根据权利要求8所述的可增加和修正声音类别的声音分类系统,其中,该第一数据库存储的每一类声音信号的统计值是类神经网络中各神经元的权值。
10.根据权利要求1所述的可增加和修正声音类别的声音分类系统,其中,该分类器是利用隐藏式马尔克夫模型来对该声音信号进行分类。
11.根据权利要求10所述的可增加和修正声音类别的声音分类系统,其中,该第一数据库存储的每一类声音信号的统计值是隐藏式马尔克夫模型的转换矩阵。
12.根据权利要求1所述的可增加和修正声音类别的声音分类系统,其中,该特征提取器是分析该声音信号频谱的各个子频域作为该声音信号的特征。
13.根据权利要求1所述的可增加和修正声音类别的声音分类系统,其中,该特征提取器是计算声音信号时域的能量做为该声音信号的特征。
14.根据权利要求1所述的可增加和修正声音类别的声音分类系统,其中,该特征提取器是计算声音信号时域的越零率做为该声音信号的特征。
15.根据权利要求2所述的可增加和修正声音类别的声音分类系统,其中,该分类结果是包括声音类别、声音被接收的时间、声音的波形、声音产生时摄取的影像以及声音的时间长度。
16.根据权利要求2所述的可增加和修正声音类别的声音分类系统,其中,该增加和修正命令处理器可显示增加和修正声音类别操作接口,以接收增加和修正声音类别的命令,该增加和修正声音类别操作接口包括选择区、浏览区、播放按钮、增加类别按钮及修正类别按钮,该选择区包括纪录窗口及卷动选择键,该纪录窗口可显示多笔声音分类结果以供使用者点选要修正或是要增加类别的声音,而该纪录窗口中也会显示被点选到的声音其所属类别的代表图示,该卷动选择键可控制该纪录窗口将要增加和修正声音类别的声音分类结果显示出来,该增加类别按钮可接收增加声音类别的命令,而该修正类别按钮可接收修正声音类别的命令,且该播放按钮可控制播放该笔被点选的声音分类结果中的声音,该浏览区包括声音波形窗口、声音频谱窗口及声音影像窗口,而当使用者在该纪录窗口点选声音分类的结果时,该浏览区的所有窗口将会对应地显示该笔声音分类结果的相关资料,该声音波形窗口将显示该声音的波形,该声音频谱窗口则显示该声音的频谱,而该声音影像窗口则显示该声音发生时,该视频摄取器所摄取到的影像。
17.根据权利要求16所述的可增加和修正声音类别的声音分类系统,其中,该增加和修正命令处理器接收到增加声音分类的命令时,可显示增加声音类别操作接口,该增加声音类别操作接口包括类别名称输入窗口及增加类别提示窗口,该类别名称输入窗口包括类别名称输入栏、增加类别确定键及增加类别取消键,该类别名称输入栏可接收新增的声音类别名称,该增加和修正命令处理器经由该增加类别提示窗口显示重要信息,该增加和修正命令处理器检查输入该类别名称输入栏的声音类别名称是否已经存在;如果是,则透过该增加类别提示窗口显示该类别名称已经存在,而该增加类别确定键及该增加类别取消键分别可接收确定或是取消新增声音类别的命令。
18.根据权利要求16所述的可增加和修正声音类别的声音分类系统,其中,该增加和修正命令处理器接收到修正声音分类的命令时,可显示修正声音类别操作接口,该修正声音类别操作接口包括既存声音类别窗口及修正类别提示窗口,该既存声音类别窗口包括现有声音类别显示区、修正类别确定键及修正类别取消键,该现有声音类别显示区可显示所有已经存在的声音类别,该等声音类别可供使用者选取,以取代该增加和修正声音类别操作接口的选择区中被点选的声音分类结果的声音类别,该增加和修正命令处理器经由该修正类别提示窗口显示重要信息,而该修正类别确定键及该修正类别取消键分别可接收确定或是取消修正声音类别的命令。
19.一种可修改声音类别的方法,且该方法适用于让使用者修改声音分类系统中的分类,该声音分类系统包括存储多种声音特征的统计值的第一数据库、分类器、第二数据库、存储多个已被正确分类的样本声音特征的特征数据库、增加和修正命令处理器、类别增加和修正器及精确度计算器,而该方法包含以下步骤:
(A)该增加和修正命令处理器接收修改声音类别的命令;
(B)将该第一数据库中各分类声音的特征的统计值存储至该第二数据库,以备份该第一数据库的数据;
(C)该类别增加和修正器将该需修正分类的声音的特征加入该第一数据库中使用者选定的类别,并重新计算该第一数据库中被选定类别的声音特征的统计值;
(D)该分类器提取该特征数据库中所有样本声音的特征,并依据该第一数据库中各分类声音的特征的统计值来重新判定该等样本声音特征的分类,且该精确度计算器计算该多个样本声音特征被该分类器正确分类的比例;及
(E)如果该多个样本声音的特征被该分类器正确分类的比例大于一个临界值,则该类别增加和修正器将该被修正类别的声音的特征存储到该特征数据库中;如果该多个样本声音的特征被该分类器正确分类的比例不大于该临界值,则该第二数据库将数据回存到该第一数据库。
20.根据权利要求19所述的可修改声音类别的方法,其中,每一类声音信号的统计值是包含该类声音信号的所有特征的平均值以及变异数。
21.一种可增加声音类别的方法,且该方法适用于让使用者增加声音分类系统中的分类,而该声音分类系统包括存储多种声音特征的统计值的第一数据库、分类器、第二数据库、存储多个已被正确分类的样本声音的特征的特征数据库、增加和修正命令处理器、类别增加和修正器及精确度计算器,而该方法包含以下步骤:
(A)该增加和修正命令处理器接收增加声音类别的命令;
(B)将该第一数据库中各分类声音的特征的统计值存储至该第二数据库,以备份该第一数据库中的数据;
(C)该类别增加和修正器将该需要增加声音类别的声音的特征加入该第一数据库中,并计算该新增加声音类别的特征的统计值;
(D)该分类器提取该特征数据库中所有样本声音的特征,并依据该第一数据库中各分类声音的特征的统计值来重新判定该多个样本声音特征的分类,且该精确度计算器计算该多个样本声音特征被该分类器正确分类的比例;及
(E)如果该多个样本声音的特征被该分类器正确分类的比例大于一个临界值,则该类别增加和修正器将该增加类别的声音的特征存储到该特征数据库中;如果该多个样本声音的特征被该分类器正确分类的比例不大于该临界值,则该第二数据库将数据回存到该第一数据库。
22.根据权利要求21所述的可修改声音类别的方法,其中,每一类声音信号的统计值是包含该类声音信号的所有特征的平均值以及变异数。
CNA2005100791672A 2005-06-28 2005-06-28 可增加和修正声音类别的声音分类系统及方法 Pending CN1889172A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CNA2005100791672A CN1889172A (zh) 2005-06-28 2005-06-28 可增加和修正声音类别的声音分类系统及方法
PCT/JP2006/313178 WO2007001068A1 (en) 2005-06-28 2006-06-27 Sound classification system and method capable of adding and correcting a sound type
EP06767756A EP1899956B1 (en) 2005-06-28 2006-06-27 Sound classification system and method capable of adding and correcting a sound type
DE602006010074T DE602006010074D1 (de) 2005-06-28 2006-06-27 Tonklassifikationssystem und verfahren mit der fähigkeit zum hinzufügen und korrigieren eines tontyps
JP2007558255A JP2008547037A (ja) 2005-06-28 2006-06-27 音声分類システムと音声タイプの追加および修正を可能にする方法
US11/994,037 US8037006B2 (en) 2005-06-28 2006-06-27 Sound classification system and method capable of adding and correcting a sound type

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2005100791672A CN1889172A (zh) 2005-06-28 2005-06-28 可增加和修正声音类别的声音分类系统及方法

Publications (1)

Publication Number Publication Date
CN1889172A true CN1889172A (zh) 2007-01-03

Family

ID=36940670

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005100791672A Pending CN1889172A (zh) 2005-06-28 2005-06-28 可增加和修正声音类别的声音分类系统及方法

Country Status (6)

Country Link
US (1) US8037006B2 (zh)
EP (1) EP1899956B1 (zh)
JP (1) JP2008547037A (zh)
CN (1) CN1889172A (zh)
DE (1) DE602006010074D1 (zh)
WO (1) WO2007001068A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900228A (zh) * 2015-04-30 2015-09-09 重庆理工大学 一种可疑开门声音的识别装置及识别方法
CN105531867A (zh) * 2013-09-18 2016-04-27 索尼公司 电力储存系统
CN105720937A (zh) * 2014-12-01 2016-06-29 宏达国际电子股份有限公司 电子装置和声音信号的分析与播放方法
CN107210033A (zh) * 2015-01-30 2017-09-26 微软技术许可有限责任公司 基于众包来更新用于数字个人助理的语言理解分类器模型
CN107967917A (zh) * 2016-10-19 2018-04-27 福特全球技术公司 通过神经网络机器学习的车辆周围音频分类
CN107973206A (zh) * 2017-12-29 2018-05-01 通力电梯有限公司 自动扶梯润滑状态监测系统及用于其的声音收集装置
WO2021031811A1 (zh) * 2019-08-21 2021-02-25 华为技术有限公司 一种语音增强方法和装置
CN117275519A (zh) * 2023-11-22 2023-12-22 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US9286911B2 (en) * 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US8768945B2 (en) * 2009-05-21 2014-07-01 Vijay Sathya System and method of enabling identification of a right event sound corresponding to an impact related event
JP5568953B2 (ja) * 2009-10-29 2014-08-13 ソニー株式会社 情報処理装置、シーン検索方法及びプログラム
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2671375A4 (en) * 2011-01-31 2015-06-10 Cast Group Of Companies Inc SYSTEM AND METHOD FOR PROVIDING 3D SOUND
KR101179915B1 (ko) 2011-12-29 2012-09-06 주식회사 예스피치 통계적 언어 모델이 적용된 음성인식 시스템의 발화 데이터 정제 장치 및 방법
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
WO2015133782A1 (ko) 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US10522169B2 (en) * 2016-09-23 2019-12-31 Trustees Of The California State University Classification of teaching based upon sound amplitude
CN110189769B (zh) * 2019-05-23 2021-11-19 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
US11355138B2 (en) * 2019-08-27 2022-06-07 Nec Corporation Audio scene recognition using time series analysis
KR102400903B1 (ko) * 2020-03-13 2022-05-24 주식회사 코클 오디오 데이터 식별장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6816605B2 (en) * 1999-10-08 2004-11-09 Lumidigm, Inc. Methods and systems for biometric identification of individuals using linear optical spectroscopy
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
JPWO2004109661A1 (ja) 2003-06-05 2006-07-20 松下電器産業株式会社 音質調整装置および音質調整方法
JP4603485B2 (ja) 2003-12-26 2010-12-22 パナソニック株式会社 音声・楽音符号化装置及び音声・楽音符号化方法
KR20070092240A (ko) 2004-12-27 2007-09-12 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
JP4914124B2 (ja) 2006-06-14 2012-04-11 パナソニック株式会社 音像制御装置及び音像制御方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105531867A (zh) * 2013-09-18 2016-04-27 索尼公司 电力储存系统
CN105531867B (zh) * 2013-09-18 2019-09-06 株式会社村田制作所 电力储存系统
CN105720937A (zh) * 2014-12-01 2016-06-29 宏达国际电子股份有限公司 电子装置和声音信号的分析与播放方法
CN107210033A (zh) * 2015-01-30 2017-09-26 微软技术许可有限责任公司 基于众包来更新用于数字个人助理的语言理解分类器模型
CN107210033B (zh) * 2015-01-30 2020-10-16 微软技术许可有限责任公司 基于众包来更新用于数字个人助理的语言理解分类器模型
CN104900228A (zh) * 2015-04-30 2015-09-09 重庆理工大学 一种可疑开门声音的识别装置及识别方法
CN107967917A (zh) * 2016-10-19 2018-04-27 福特全球技术公司 通过神经网络机器学习的车辆周围音频分类
CN107973206A (zh) * 2017-12-29 2018-05-01 通力电梯有限公司 自动扶梯润滑状态监测系统及用于其的声音收集装置
WO2021031811A1 (zh) * 2019-08-21 2021-02-25 华为技术有限公司 一种语音增强方法和装置
CN112420063A (zh) * 2019-08-21 2021-02-26 华为技术有限公司 一种语音增强方法和装置
CN117275519A (zh) * 2023-11-22 2023-12-22 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质
CN117275519B (zh) * 2023-11-22 2024-02-13 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质

Also Published As

Publication number Publication date
US20090228422A1 (en) 2009-09-10
DE602006010074D1 (de) 2009-12-10
US8037006B2 (en) 2011-10-11
EP1899956A1 (en) 2008-03-19
WO2007001068A1 (en) 2007-01-04
EP1899956B1 (en) 2009-10-28
JP2008547037A (ja) 2008-12-25

Similar Documents

Publication Publication Date Title
CN1889172A (zh) 可增加和修正声音类别的声音分类系统及方法
US7634407B2 (en) Method and apparatus for indexing speech
CN1303582C (zh) 自动语音归类方法
CN1290039C (zh) 自动进行音频内容分析的系统和方法
CN1852354A (zh) 收集用户行为特征的方法和装置
de Benito-Gorron et al. Exploring convolutional, recurrent, and hybrid deep neural networks for speech and music detection in a large audio dataset
EP1949260B1 (en) Speech index pruning
US6185531B1 (en) Topic indexing method
US20090043573A1 (en) Method and apparatus for recognizing a speaker in lawful interception systems
WO2019124647A1 (ko) 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US7945441B2 (en) Quantized feature index trajectory
US20050171775A1 (en) Automatically improving a voice recognition system
CN1910654A (zh) 确定交谈主题并获取和呈现相关内容的方法和系统
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN1758248A (zh) 用于提供个性化搜索和信息访问的系统、方法和接口
CN1655235A (zh) 基于话音特征自动标识电话呼叫者
CN1394331A (zh) 具有替换命令的语音识别方法
CN1841380A (zh) 用于改进搜索引擎相关性的数据挖掘技术
CN101076851A (zh) 口语识别系统以及用于训练和操作该系统的方法
CN106875936A (zh) 语音识别方法及装置
CN1171201C (zh) 语音识别系统及其方法
CN1521729A (zh) 使用隐轨迹和隐马尔可夫模型进行语音识别的方法
CN110164416A (zh) 一种语音识别方法及其装置、设备和存储介质
Koumpis et al. Corporate activities in speech recognition and natural language: another" new science"-based technology
US7584098B2 (en) Vocabulary-independent search of spontaneous speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication