CN1666252A - 为声音信号分配声级的方法和装置 - Google Patents
为声音信号分配声级的方法和装置 Download PDFInfo
- Publication number
- CN1666252A CN1666252A CN038162059A CN03816205A CN1666252A CN 1666252 A CN1666252 A CN 1666252A CN 038162059 A CN038162059 A CN 038162059A CN 03816205 A CN03816205 A CN 03816205A CN 1666252 A CN1666252 A CN 1666252A
- Authority
- CN
- China
- Prior art keywords
- voice
- frequency
- accordance
- time window
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000005236 sound signal Effects 0.000 title claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 36
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 238000012544 monitoring process Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims 2
- 210000004218 nerve net Anatomy 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 abstract 3
- 230000003595 spectral effect Effects 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 9
- 210000001260 vocal cord Anatomy 0.000 description 9
- 230000009471 action Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 210000003205 muscle Anatomy 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 241001442495 Mantophasmatodea Species 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000004907 flux Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000001270 agonistic effect Effects 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种用于给声音信号分配至少一个声级的方法,其特征在于包括下列步骤:把声音信号分成具有特定持续时间的时间段;通过在最小频率和最大频率之间的频率范围内确定一系列频谱值,提取每个时间段内的声音信号的频率参数;在时间窗口内组合这些参数,时间窗口具有大于时间段持续时间的特定持续时间;从每个时间窗口提取特征分量;以及根据提取的特征分量并使用分类器,识别声音信号的时间窗口的声级。
Description
技术领域
本发明涉及把声音信号分类成反映语义的声级的领域。
本发明更精确地涉及用于自动提取声音信号、语义信息的领域,例如音乐、语音、噪声、无声、男声、女声、摇滚乐、爵士乐等。
背景技术
在现有技术中,丰富的多媒体文件需要索引,索引需要大量的人为干涉,这构成要连续进行昂贵而耗时的操作。因此,语义信息的自动提取构成了宝贵的帮助,能促进和加速分析和索引工作。
在许多应用中,对声音信号设想其它分析和处理之前,声带的语义分段和分类频繁地构成必要操作。
需要语义分段和分类的已知应用涉及自动语音识别系统,也称为语音处理系统,适合于把语音带转录成文本。对于容许的性能等级而言,把声带分段和分类成音乐/语音段是基本步骤。
使用自动语音识别系统经由视听文件的内容,例如电视新闻进行索引,需要消除非语音段以便降低错误率。而且,原则上,如果说话者(男生或女生)的知识是可用的,则使用自动语音识别系统能实现性能的显著提高。
需要求助于声带的语义分段和分类的另一公知的应用涉及统计和监控系统。实际上,对于有关版权或有关广播时间定额的问题,管理和检查机关,如法国的CSA或SACEM,必须基于具体报告,例如关于政治家在CSA电视网上的广播持续时间,以及由SAGEM无线电传送的歌曲名称和持续时间。自动统计和监控系统的实施是以预先的音乐/语音声带的分段和分类为基础的。
另一可能的应用涉及自动视听节目摘要或过滤系统。对于许多应用,例如,移动电话或邮购视听节目量,似乎必须根据用户的兴趣中心把两个小时的视听节目尽可能地概述成几分钟的强瞬时编辑。这样的概述可以离线或在线产生,离线也就是它涉及预先计算与原始节目相关的摘要,在线也就是涉及视听节目的过滤,只有节目的强瞬时才能以广播或流动模式得以保持。强瞬时依赖于视听节目和用户的兴趣中心。例如,在足球比赛中,强瞬时是有进球动作的地方。对于动作影片,强瞬时对应于战斗、追击等。所述强瞬时更频繁地导致声带上的冲击。为了识别它们,感兴趣的是在具有或没有某个特性的段内提取声带的分段和分类。
在现有技术中,存在各种声音信号分类系统。例如,文件WO9827543描述了把声音信号分类成音乐或语音的技术。所述文件设想研究声音信号的各种可测量参数,例如4Hz时的调制能量、频谱通量、频谱通量的变量、过零率等。在一秒或另一持续时间的窗口内提取所述参数,以便定义频谱通量的变量或帧,例如过零率。然后,使用各种分类器,例如基于正态(高斯分布)律混合的分类器或最近邻(NearestNeihbour)分类器,获得大约6%的错误率。执行分类器的培训达到36分钟,而测试达到4分钟。所述结果显示提出的技术需要显著大小的培训基础,以便实现95%的识别率。如果对于四十分钟的视听文件来说这是可能的,则所述技术对于具有很大尺寸的要分类的数据似乎不可能进行应用,其具有各种文件源产生的高度可变性,对于每个所述文件而言,具有不同等级的噪声和分辨率。
专利US 5712953描述了使用变量的系统,所述变量与第一瞬时频谱的时间有关,所述频谱与用于检测音乐信号的频率有关。所述文件预先假设与其它非音乐信号相比,所述变量相对音乐非常低。不幸地,不同类型的音乐不具有相同的结构,这样例如对于ASR而言,上述系统具有不充分的性能。
欧洲专利请求1100073提出使用十八个参数把声音信号分类成不同种类,例如,信号功率的平均和方差、中间频率功率等。产生向量量化,并且Mahalanobis距离用于分类。似乎使用信号功率是不稳定的,因为从不同源中产生的信号总是用不同等级的频谱功率来记录。而且,用于区别音乐和语音的参数的使用,例如低频或高频功率的使用,是对音乐和语音的极限变量的严重限制。最后,为十八个不相似参数的向量选择适当距离不是显而易见的,因为它涉及根据所述参数的重要性为其分配不同的权重。
同样,在由ZHU LIU等人撰写的文章“AUDIO FEATUREEXTRACTION AND ANALYSIS FOR SCENE SEGMENTATION ANDCLASSIFICATION”,JOURNAL OF VLSI SIGNAL PROCESSINGSYSTEMS FOR SIGNAL,IMAGE AND VIDEO TECHNOLOGY,KLUWER ACADEMIC PUBLISHERS,DORDRECHT,NL,Vol.20,no.1/2,1 October 1998(1998年10月1日),第61-78页,XP 000786728,ISBN:0922-5773中,描述了把声音信号分类成声级的技术。所述技术设想在几十毫秒的窗口内分割声音信号并在1秒的窗口内组合。通过计算称为频率参数的某些参数的平均值而产生组合。为了获得所述频率参数,所述方法包括从信号频谱中提取测量值,例如频谱中心或低频(0-630Hz)、中间频率(630-1720Hz)、高频(1720-4400Hz)的能量对能量比。
这样的方法特别提出考虑对频谱计算之后提取的参数。这种方法的实施不能获得满意的识别率。
发明内容
因此,本发明旨在通过提出一种技术来解决上述缺点,所述技术能使声音信号分类成语义等级,具有高识别率,同时需要减少的培训时间。
为了实现上述目的,按照本发明的方法涉及一种用于将为声音信号分配至少一个声级的方法,包括下列步骤:
·把声音信号分成具有特定持续时间的时间段,
·提取每个时间段内的声音信号的频率参数,
·在时间窗口内组合这些参数,时间窗口具有大于时间段持续时间的特定持续时间,
·从每个时间窗口提取特征分量,
·以及根据提取的特征分量并使用分类器,识别声音信号的每个时间窗口的声级。
本发明的另一目的是提出一种用于为声音信号分配至少一个声级的装置,包括:
·用于把声音信号分成具有特定持续时间的时间段的设备,
·用于提取每个时间段内的声音信号的频率参数的设备,
·用于在时间窗口内组合这些参数的设备,时间窗口具有大于时间段持续时间的特定持续时间,
·用于从每个时间窗口提取特征分量的设备,
·以及用于根据提取的特征分量并使用分类器来识别声音信号的时间窗口的声级的设备。
附图说明
前述参考附图的说明中出现了各种其它特征,其中这些附图用非限定实例的方式图示了本发明实施例的形式。
图1给出了依据本发明实施声音信号分类方法的装置的方框图;
图2给出了按照本发明的方法特征步骤的图,也就是变换图;
图3给出了本发明的另一特征步骤的图;
图4给出了按照本发明的声音信号分类步骤;
图5给出了在本发明范围内使用的神经网络实例的图。
具体实施方式
如在图1中更准确地描述,本发明涉及能对任何类型声级的声音信号S进行分类的装置1。换句话说,将声音信号S切割成段,这些段按照它们的内容进行标注。与每个段相关的标签,例如音乐、语音、噪音、男生、女生等,把声音信号分类成语义类别或语义声级。
依据本发明,将要分类的声音信号S施加到分段设备10的输入端,分段设备10能使声音信号S分成时间段T,每个时间段T具有特定的持续时间。优选地,时间段T都具有优选的在10和30毫秒之间的相同持续时间。至于每个时间段T都具有几毫秒的持续时间,可以认为信号是稳定的,以使后来可以应用改变频域内时间信号的变换。可以使用不同类型的时间段,例如,简单矩形窗口,Hanning窗口或Hamming窗口。
因此,装置1包括提取设备20,提取设备20能提取每个时间段T内声音信号的频率参数。装置1也包括设备30,设备30用于在时间窗口F内组合所述频率参数,时间窗口F具有比时间段T的持续时间更大的特定持续时间。
根据实施例的优选特征,在时间窗口F内组合频率参数,其中持续时间大于0.3秒,优选地,在0.5和2秒之间。确定时间窗口F的大小选择以便能在听觉上区别两个不同窗口,例如,语音、音乐、男生、女生、无声等。例如,如果时间窗口F是几十毫秒短,则可以检测到音量变化类型的局部听觉变化、乐器的变化、以及单词的开始或结束。如果窗口很大,例如几百毫秒,则可检测的变化将是更普通的变化类型,例如音乐节奏或语音节奏类型的变化。
装置1也包括提取设备40,提取设备40能从每个时间窗口F中提取特征分量。根据提取的所述特征分量并且使用分类器50,识别设备60能识别声音信号S的每个时间窗口F的声级。
下面的说明描述了声音信号分类方法实施例的优选变型。
根据实施例的优选特征,为了从时域跨过进入频域,在采样声音信号的情况下,提取设备20使用离散傅立叶变换(Discrete FourierTransform,DFT),DFT之后进行记录。离散傅立叶变换为信号幅度值的时间序列提供一系列频谱值。离散傅立叶变换公式如下:
其中x(k)是时域内的信号。
术语|X(n)|称为幅谱,它表示信号x(k)幅度的分频。
术语arg[X(n)]称为相谱,它表示信号x(k)相位的分频。
术语|X(n)|2称为能谱,表示信号x(k)能量的分频。
这些值广泛用作能谱值。
因此,对于时间段T内的信号x(k)幅度的一系列时间值而言,获得位于最小频率和最大频率之间的频率范围内的Xi序列的频谱值。所述频率值或参数的集合称为“DFT向量”或频谱向量。每个Xi向量与每个时间段T的频谱向量对应,其中i从1到n。
根据实施例的优选特征,对经由变换设备25预先获取的频率参数执行变换或过滤操作,变换设备25插在提取设备20和组合设备30之间。如在图2中更准确地描述,所述变换操作能从Xi频谱向量中生成变换特征的向量Yi。通过带有变量即boundary 1,boundary 2和aj的公式yi提供变换,这些变量精确定义变换。
变换可以是同一类型以便Xi特征值不变。根据所述变换,boundary1和boundary 2等于j,而参数aj等于1。频谱向量Xi等于Yi。
变换可以是两个相邻频率的平均变换。根据所述变换类型,可以获得两个相邻频谱的平均值。例如,可以选择boundary 1等于j,boundary 2等于j+1,而aj等于0.5。
使用的变换可以是遵循Mel标度近似值的变换。可以通过按照下列值改变boundary 1和boundary 2变量而获得所述变换:
0,1,2,3,4,5,6,8,9,10,12,15,17,20,23,27,31,37,40,其中
例如,通过如上所示选择boundary 1和boundary 2,使用图2中所示的方程式,可以从总X维向量40中获得Y维向量20。
Boundary 1=0→boundary 2=1
Boundary 1=1→boundary 2=2
Boundary 1=2→boundary 2=3
Boundary 1=3→boundary 2=4
Boundary 1=4→boundary 2=5
Boundary 1=5→boundary 2=6
Boundary 1=6→boundary 2=8
Boundary 1=8→boundary 2=9
boundary 1=9→boundary 2=10
boundary 1=10→boundary 2=12
boundary 1=12→boundary 2=15
boundary 1=15→boundary 2=17
boundary 1=17→boundary 2=20
boundary 1=20→boundary 2=23
boundary 1=23→boundary 2=27
boundary 1=27→boundary 2=31
boundary 1=31→boundary 2=37
boundary 1=37→boundary 2=40
关于Xi频谱向量的变换根据应用,也就是根据要分类的声级,而更有效或更无效。在其余说明书中将提供对所述变换进行选择的实例。
如从前述说明中得出,按照本发明的方法包括:从每个时间窗口F提取特征分量,在具有相对大的持续时间的所述窗口上能获得声音信号的描述。因此,对于每个时间窗口F的Yi向量而言,计算的特征分量可以是平均数、方差、瞬间(moment)、频率监控参数或无声交叉率(crossing rate)。根据下列公式执行所述特征分量的估算:
其中j对应于频谱向量
内的频带,l对应于提取向量的时间或瞬间(时间段T),N是向量内的元素数量(或频带数量),Mi对应于向量数量以分析它们的统计量(时间窗口F),μij内的i对应于计算μij的时间窗口F的瞬时,j对应于频带。
其中j对应于频谱向量
和平均向量
内的频带,l对应于提取向量
的时间或瞬间(时间段T),N是向量内的元素数量(或频带数量),Mi对应于向量数量以分析它们的统计量(时间窗口F),μij和vij内的i对应于计算
和
的时间窗口F的瞬时,j对应于频带。
瞬间对于描述数据状态来说可以是重要的,按照下列方法计算所述瞬间:
系数i,j,N,l,Mi解释为变量,并且n>2。
按照本发明的方法也能把参数FM确定为特征分量,能监控频率。实际上应注意,对于音乐而言存在某种频率连续性,也就是信号内的最重要频率,也就是集中最大能量的频率在某一时间内保持相同,然而,对于语音或对于噪音(非谐波)而言,频率内最有效的变化更迅速地出现。根据所述报告,提出根据精确间隔,例如200Hz,同时执行多个频率的监控。所述选择由音乐内最重要频率变化的事实来激发,但以渐进的方式。按照下列方式执行所述频率监控参数FM的提取。对于每个离散傅立叶变换Yi向量而言,例如执行五个最重要频率的识别。如果在100Hz频带内所述频率之一不出现在离散傅立叶变换向量的五个最重要频率内,则发出切割信号。计算每个时间窗口F内切割的数量,每个时间窗口F内切割的数量定义频率监控参数FM。用于音乐段的所述参数FM明显低于用于语音或噪音的所述参数FM。同样,上述参数对于区别音乐和语音而言是重要的。
根据本发明的另一特征,所述方法包括把无声交叉率SCR定义为特征分量。所述参数包括在固定大小的例如两秒的窗口内计算能量达到无声阈值的次数。实际上,必须认为,在表达单词期间声音信号的能量通常是高的,然而在单词之间它降低到无声阈值之下。按照下列方式执行参数的提取。对于每10毫秒信号,计算信号能量。计算能量关于时间的导数,也就是T+1的能量小于瞬时T时的能量。然后在2秒钟的窗口内,计算能量导数超过某一阈值的次数。
如在图3中更准确地描述,从每个时间窗口F提取的参数定义特征值Z。因此,所述特征值Z是定义的特征分量的串联,即平均数、方差、瞬间向量、以及频率监控FM和无声交叉率SCR。根据应用,由于分类而使用来自特征值Z的分量的仅仅一部分或全部。例如,如果提取频谱的频率范围是在0和4000Hz之间,对于100Hz的频率间距,每个频谱向量获得40个元素。如果对于总Xi特征值的变换应用等同性,则平均向量获得40个元素,方差向量获得40个元素,以及瞬间向量获得40个元素。在SCR和FM参数的串联和相加之后,获得带有122个元素的特征值Z。根据应用,通过考虑例如40或80个元素,可以选择所述特征值的全部或只有子集。
根据本发明的优选实施例,所述方法包括使用插在提取设备40和分类器50之间的标准化设备45对特征分量进行标准化操作。对于平均向量而言,所述标准化包括搜索具有最大值的分量,并且用所述最大值除平均向量的其它分量。对于方差和瞬间向量而言,执行类似的操作。对于频率监控FM和无声杂交率SCR而言,用实验之后固定的常数除所述两个参数,以便总是获得0.5和1之间的值。
所述标准化阶段之后,获得特征值,特征值的每个分量具有0和1之间的值。如果频谱向量已经进行了变换,特征值的所述标准化阶段可以不是必需的。
如在图4中更准确地描述,根据本发明的方法包括:提取参数或构成特征值Z之后,选择分类器50,使用识别或分类设备60能把每个向量有效地标记为定义的声级之一。
根据实施例的第一实例,使用的分类器是神经网络,例如具有两层隐蔽层的多层感知器。图5给出了神经网络的结构,例如,包括82个输入元素、39个用于隐藏层的元素、以及7个输出元素。当然,显然可以对所述元素数量进行修改。输入层元素对应于特征值Z的分量。例如,如果选择为80节点输入层,则可以使用部分特征值Z,例如对应于平均数和瞬间的分量。对于隐藏层而言,使用的39个元素似乎足够了;增加神经元的数量不会导致性能的显著提高。用于输出层的元素数量对应于要分类的等级数量。如果要分类两个声级,例如音乐和语音,则输出层包括两个节点。
当然,可以使用另一类型的分类器,例如常规的K-最临近(NearestNeighbour)(KNN)分类器。在这种情况下,培训知识简单地构成培训数据。培训存储包括存储所有培训数据。当出现特征值Z进行分类时,合理的是为所有培训数据计算距离以便选择最近的等级。
分类器的使用能识别声级,例如语音或音乐、男声或女声、声音信号的特征瞬间或非特征瞬间、伴随表示,例如影片或比赛的视频信号的特征瞬间或非特征瞬间。
下面的说明提供了按照本发明把声带分成音乐或语音的方法的应用实例。根据所述实例,将输入声带分成一连串语音、音乐、无声或其它间隔。由于无声段的特征化容易,所以对语音或音乐分割进行试验。对于所述应用,使用特征值Z的子集,其包含82个用于平均数的元素和80个用于方差的元素,以及一个用于SCR的元素和一个用于FM的元素。对向量进行等同性变换和标准化。每个时间窗口F的大小等于2秒。
为了图解前述声音段的特征和提取,使用两个分类器,一个基于神经网络NN,另一个使用简单的k-NN原理,也就是“K-NearestNeighbour”。在测试方法一般性的目的中,对从阿拉伯语的Aljazeerah网“http://www.aljazeera.net/”提取的80秒音乐和80秒语音进行NN和k-NN训练。然后,关于音乐语料库和语音语料库,即两个高度变化的特性总和为1280秒(大于21分钟)的语料库,测试两个分类器。关于音乐段分类的结果提供在下表中。
从以下提取的音乐 | 段长度 | k-NN | 成功的k-NN% | NN | 成功的NN% |
训练 | 80s | 80s | 100 | 80s | 100 |
Fairuz(Habbaytak bissayf) | 80s | 74s | 92.5 | 72s | 90 |
Fairuz(Habbaytak bissayf) | 80s | 80s | 100 | 80s | 100 |
Fairuz(eddach kan fi nass) | 80s | 70s | 87.5 | 70s | 87.5 |
George Michael(carelesswhisper) | 80s | 70s | 87.5 | 80s | 100 |
George Michael(carelesswhisper) | 80s | 76s | 95 | 80s | 100 |
Metallica(turn the page) | 80s | 74s | 92.5 | 78s | 97.5 |
Film“Gladiator” | 80s | 78s | 97.5 | 80s | 100 |
总计 | 640s | 602s | 94 | 626s | 97.8 |
表1:使用NN和k-NN分类音乐的成功率
可以看出,所有的k-NN分类器提供的成功率高于94%,而NN分类器的成功率高达97.8%。也可以注意到NN分类器的良好概括能力。实际上,当对80秒黎巴嫩音乐进行训练时,对于完全不同类型音乐的George Michael产生100%的成功分类,甚至对Metallica产生97.5%的分类成功率,Metallica是被认为很难的摇滚乐。
至于对语音段的试验,对从英语CNN节目、法语LCI节目以及影片“Gladiator”产生的不同提取进行试验,而以80秒的阿拉伯语音对两个分类器进行训练。下表提供用于两个分类器的结果。
从以下提取的语音 | 段长度 | k-NN | 成功的k-NN% | NN | 成功的NN% |
训练 | 80s | 80s | 100 | 80s | 100 |
CNN | 80s | 80s | 100 | 74s | 92.5 |
CNN | 80s | 72s | 90 | 78s | 97.5 |
CNN | 80s | 72s | 90 | 76s | 95 |
LCI | 80s | 58s | 72.5 | 80s | 100 |
LCI | 80s | 66s | 82.5 | 80s | 100 |
LCI | 80s | 58s | 72.5 | 80s | 100 |
Film“Gladiator” | 80s | 72s | 90 | 72s | 90 |
总计 | 640s | 558s | 87.2 | 620s | 96.9 |
表2:使用NN和k-NN分类语音的成功率
表中示出,分类器证明是对法语的LCI提取特别有效,因为它产生100%的正确分类。对于英语的CNN提取,它仍然产生大于92.5%的良好分类成功率,全部的NN分类器达到97%的分类成功率,而k-NN产生87%的良好分类成功率。
根据另一试验,选择NN分类器的所述支持结果,并且应用于混合语音和音乐的段。为此,通过“Aljazeerah”网广播的40秒节目“theLebanese war”产生音乐培训,然后,从相同的节目中提取80秒的阿拉伯语语音。关于30分钟的影片“The Avengers”对NN分类器进行测试,对影片“The Avengers”进行分段和分类。所述试验的结果提供在下表中。
音乐错误 | 语音错误 | 段长 | 总的错误 | 准确率% |
68s | 141s | 1800s | 209s | 88.4 |
表3:对影片分段-分类的结果
在比较依据本发明的分类器和根据现有技术的工作的目标中,关于相同的语料库对由Virage使用的“Muscle Fish”工具(http://musclefish.com/speechMusic.zip)进行测试,并且获得下列结果:
音乐错误 | 语音错误 | 段长 | 总的错误 | 准确率% |
336s | 36s | 1800s | 372s | 79.3 |
表4:Muscle Fish工具对影片分段-分类的结果
可以清楚地注意到,NN分类器在准确率方面超过Muscle Fish工具10个点。
最后,也关于10分钟的“LCI”节目对NN分类器进行测试,节目包括“I’édito”、“I’Invité”和Ia vie des medias”,并且获得下列结果:
音乐错误 | 语音错误 | 段长 | 总的错误 | 准确率% |
12s | 2s | 600s | 14s | 97.7 |
表5:对LCI节目分段-分类的结果
而“Muscle Fish“工具提供下列结果:
音乐错误 | 语音错误 | 段长 | 总的错误 | 准确率% |
2s | 18s | 600s | 20s | 96.7 |
表6:使用Muscle Fish工具对LCI节目分段-分类的结果
NN分类器的总计结果如下:
培训数据 | 测试数据 | 总的错误 | 培训/测试% | 准确率% |
120s | 3000s | 227s | 4s | 92.4 |
表7:对各种视频分段-分类的结果
可以看出,在所述试验中的50分钟内准确率高于92%,NN分类器只产生4%的T/T率(培训持续时间/测试持续时间),其与用于[Will99]系统(Gethin Williams,Daniel Eillis,Speech/music discriminationbased on posterior probability features,Eurospeech 1999)的300%的T/T率相比是非常鼓舞人心的,[Will 99]系统是基于HMM(隐马尔科夫模型)后概率参数,并且使用GMM。
产生试验的第二实例以便分类男声和女声的声音信号。根据所述试验,将语音段切割成标记有男声和女声的块。对于这个效果,特征值不包括无声杂交率和频率监控。因此,所述两个参数的权重变成0。时间窗口F的大小固定在1秒。
对来自“Linguistic Data Consortium”LCD(http://www.ldc.upenn.edu)Switchboard中的电话呼叫的数据进行试验。其被选择用于在相同类型的扬声器之间进行培训和电话呼叫测试,也就是男对男和女对女会话。关于从4个男对男电话呼叫中提取的300秒语音和从4个女对女电话呼叫中提取的300秒语音来进行培训。对按照本发明的方法测试6000秒(100分钟),即从10个男对男呼叫中提取3000s和从10个女对女呼叫中提取3000秒,10个男对男呼叫不同于用作培训的呼叫,10个女对女呼叫也不同于用作培训的呼叫。下表总结获取的结果。
男生检测率 | 女声检测率 | 男生段长 | 女声段长 | 相对培训/总计测试时间的语音时间 | 准确率% |
85% | 90% | 3000s | 3000s | 10% | 87.5% |
可以看出,对于进行培训的语音采样,全部检测率都是87.5%,所述语音采样只是测试语音的10%。也可以注意到,按照本发明的方法产生比男生(85%)语音检测更好的女生(90%)语音检测。如果多数选举原则应用于盲目分段之后的同类段,并且如果消除长无声,则还能显著地提高所述结果,长无声比较经常地出现在电话对话内,并且长无声通过按照本发明的技术产生女生标记。
另一试验旨在把声音信号分类成重要瞬间或不在运动比赛中。在直接视听转播内容的运动比赛中,例如足球比赛,关键瞬间的检测对于能自动产生视听摘要来说非常重要,视听摘要可以是图像编辑,从而检测到关键瞬间。在足球比赛的环境内,关键瞬间是进球动作、处罚等出现时的瞬间。例如,在篮球比赛的环境中,关键瞬间可以定义为把球放入栏框内的动作出现时的瞬间。在橄榄球比赛的环境中,关键瞬间可以定义为试尝动作出现时的瞬间。所述关键瞬间的概念当然可以应用于任何运动比赛。
以运动视听顺序的关键瞬间的检测归属于伴随比赛进程的声带、地形、协助和评论员的分类的问题。实际上,在运动比赛的重要瞬间内,例如足球比赛,他们在评论员的解说语调和观众噪声增强中产生紧张。在所述试验之前,使用的特征值是通过只拿出SCR和FM两个参数来分类音乐/语音而使用的特征值。对总特征值使用的变换是遵循Mel标度的变换,然而,标准化阶段不应用于特征值。时间窗口F的大小是2秒。
选择来自UEFA(欧洲足球协会联盟)杯的三个足球比赛进行试验。对于培训,选择来自第一比赛的20秒关键瞬间和20秒非关键瞬间。因此,存在两个声级:关键瞬间或非关键瞬间。
培训之后,对三个比赛进行分类。根据检测的进球数并且根据按照重要性分类的时间来估算结果。
进球数 | 检测的重要时间 | 检测的进球 | 准确率% | |
比赛1 | 3 | 90 | 3 | 100 |
比赛2 | 0 | 40 | 0 | NA |
比赛3 | 4 | 80 | 4 | 100 |
表中示出,检测到所有的进球瞬间。另外,对于90分钟的足球比赛、产生至多包括所有进球瞬间的90秒种摘要。
当然,重要或不重要瞬间内的分类可以归纳成任何视听文件的声音分类,例如,动作影片或色情影片。
按照本发明的方法通过任何适当设备能为分配给等级的每个时间窗口分配标签,并且能为例如记录在数据库内的声音信号搜索标签。
本发明不局限于所述和所示的实例,因为可以进行各种修改而不脱离它的范围。
Claims (33)
1.一种用于给声音信号分配至少一个声级的方法,其特征在于包括下列步骤:
·把声音信号分成具有特定持续时间的时间段(T),
·通过在最小频率和最大频率之间的频率范围内确定一系列频谱值,提取每个时间段(T)内的声音信号的频率参数,
·在时间窗口(F)内组合这些参数,时间窗口(F)具有大于时间段(T)持续时间的特定持续时间,
·从每个时间窗口(F)提取特征分量,
·根据提取的特征分量并使用分类器,识别声音信号的时间窗口(F)的声级。
2.按照权利要求1所述的方法,其特征在于包括在时间段(T)内提取声音信号,时间段(T)的持续时间在10和30毫秒之间。
3.按照权利要求1所述的方法,其特征在于包括使用离散傅里叶变换提取频率参数。
4.按照权利要求3所述的方法,其特征在于包括提供变换或过滤频率参数的操作。
5.按照权利要求4所述的方法,其特征在于包括产生等同类型的变换,即两个相邻频率的平均值,或者按照Mel标度的变换。
6.按照权利要求4或5所述的方法,其特征在包括在持续时间大于0.3秒的时间窗口内组合这些频率参数,持续时间优选的在0.5和2秒之间。
7.按照权利要求1所述的方法,其特征在于包括从每个时间窗口提取特征分量,例如平均值、方差、瞬间、频率监控参数或无声交叉率。
8.按照权利要求7所述的方法,其特征在于包括使用分类器的一个或多个输入特征分量。
9.按照权利要求7或8所述的方法,其特征在于包括提供特征分量的标准化操作。
10.按照权利要求7和9所述的方法,其特征在于所述标准化操作包括:
·对于平均值、方差或瞬间,搜索具有最大值的分量,并且用所述最大值除其它分量,
·对于频率监控或无声交叉率,用试验之后固定的常数除每个所述特征分量以便获得0.5和1之间的值。
11.按照权利要求1或8所述的方法,其特征在于包括使用分类器、神经网络或K-最临近(K-Nearest Neighbour)。
12.按照权利要求11所述的方法,其特征在于包括进行分类器的声音信号培训阶段。
13.按照权利要求1至12之一所述的方法,其特征在于包括使用分类器识别声级,例如语音或音乐、男声或女声、声音信号的特征瞬间或非特征瞬间、伴随表示,例如影片或比赛的视频信号的特征瞬间或非特征瞬间。
14.按照权利要求13所述的方法,其特征在于包括通过使用平均值、方差、频率监控和无声交叉率参数把声音信号分类成音乐或语音,之后是时间窗口等于2秒的参数的标准化。
15.按照权利要求13所述的方法,其特征在于包括通过使用平均值和方差参数,把信号分类成重要瞬间或不重要瞬间比赛,其中具有按照Mel标度的变换,而没有对特征分量应用标准化。
16.按照权利要求13所述的方法,其特征在于包括在比赛的声音信号内识别强烈瞬间。
17.按照权利要求16所述的方法,其特征在于包括使用强烈瞬间的识别来创建比赛摘要。
18.按照权利要求13所述的方法,其特征在于包括识别和监控声音信号内的语音。
19.按照权利要求18所述的方法,其特征在于包括识别和监控声音信号的语音部分的男生和/或女生的语音。
20.按照权利要求13所述的方法,其特征在于包括识别和监控声音信号内的音乐。
21.按照权利要求13所述的方法,其特征在于包括确定声音信号是否包含语音或音乐。
22.按照权利要求13所述的方法,其特征在于包括为分配给等级的每个时间窗口分配标签。
23.按照权利要求22所述的方法,其特征在于包括为声音信号搜索标签。
24.一种用于给声音信号分配至少一个声级的装置,其特征在于包括:
·用于把声音信号(S)分成具有特定持续时间的时间段(T)的设备(10),
·用于提取每个时间段(T)内的声音信号的频率参数的设备(20),
·用于在时间窗口(F)内组合这些参数的设备(30),时间窗口(F)具有大于时间段(T)持续时间的特定持续时间,
·用于从每个时间窗口(F)提取特征分量的设备(40),
·用于根据提取的特征分量并使用分类器来识别声音信号的时间窗口(F)的声级的设备(60)。
25.按照权利要求24所述的装置,其特征在于用于提取频率参数的设备(20)使用离散傅里叶变换。
26.按照权利要求24或25所述的装置,其特征在于包括用于提供变换或过滤频率参数的操作的设备(25)。
27.按照权利要求24至26之一所述的装置,其特征在于包括用于在持续时间大于0.3秒的时间窗口内组合这些频率参数的设备(30),持续时间优选的在0.5和2秒之间。
28.按照权利要求24所述的装置,其特征在于包括从每个时间窗口提取特征分量的设备(40),用于提取平均值、方差、瞬间、频率监控参数或无声交叉率的设备。
29.按照权利要求28所述的装置,其特征在于包括特征分量标准化设备(45)。
30.按照权利要求24所述的装置,其特征在于包括分类器、神经网或K-Nearest Neighbour。
31.按照权利要求24所述的装置,其特征在于包括用于识别声级的设备(60),例如语音或音乐、男声或女声、声音信号的特征瞬间或非特征瞬间、伴随表示,例如影片或比赛的视频信号的特征瞬间或非特征瞬间。
32.按照权利要求24所述的装置,其特征在于包括用于为分配给等级的每个时间窗口分配标签的设备。
33.按照权利要求32所述的装置,其特征在于包括用于为记录在数据库内的声音信号搜索标签的设备。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR02/08548 | 2002-07-08 | ||
FR0208548A FR2842014B1 (fr) | 2002-07-08 | 2002-07-08 | Procede et appareil pour affecter une classe sonore a un signal sonore |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1666252A true CN1666252A (zh) | 2005-09-07 |
Family
ID=29725263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN038162059A Pending CN1666252A (zh) | 2002-07-08 | 2003-07-08 | 为声音信号分配声级的方法和装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20050228649A1 (zh) |
EP (1) | EP1535276A2 (zh) |
JP (1) | JP2005532582A (zh) |
CN (1) | CN1666252A (zh) |
AU (1) | AU2003263270A1 (zh) |
CA (1) | CA2491036A1 (zh) |
FR (1) | FR2842014B1 (zh) |
WO (1) | WO2004006222A2 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101165779B (zh) * | 2006-10-20 | 2010-06-02 | 索尼株式会社 | 信息处理装置和方法、程序及记录介质 |
CN102682766A (zh) * | 2012-05-12 | 2012-09-19 | 黄莹 | 可自学习的情侣声音对换机 |
CN109841216A (zh) * | 2018-12-26 | 2019-06-04 | 珠海格力电器股份有限公司 | 语音数据的处理方法、装置和智能终端 |
CN112270933A (zh) * | 2020-11-12 | 2021-01-26 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4348970B2 (ja) * | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
DE10313875B3 (de) * | 2003-03-21 | 2004-10-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
US20050091066A1 (en) * | 2003-10-28 | 2005-04-28 | Manoj Singhal | Classification of speech and music using zero crossing |
GB2413745A (en) * | 2004-04-30 | 2005-11-02 | Axeon Ltd | Classifying audio content by musical style/genre and generating an identification signal accordingly to adjust parameters of an audio system |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
US7377233B2 (en) * | 2005-01-11 | 2008-05-27 | Pariff Llc | Method and apparatus for the automatic identification of birds by their vocalizations |
US7707485B2 (en) * | 2005-09-28 | 2010-04-27 | Vixs Systems, Inc. | System and method for dynamic transrating based on content |
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
US20080033583A1 (en) * | 2006-08-03 | 2008-02-07 | Broadcom Corporation | Robust Speech/Music Classification for Audio Signals |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US7856351B2 (en) * | 2007-01-19 | 2010-12-21 | Microsoft Corporation | Integrated speech recognition and semantic classification |
GB0709044D0 (en) | 2007-05-11 | 2007-06-20 | Teradyne Diagnostic Solutions | Signal detection |
US8422859B2 (en) * | 2010-03-23 | 2013-04-16 | Vixs Systems Inc. | Audio-based chapter detection in multimedia stream |
US9110817B2 (en) * | 2011-03-24 | 2015-08-18 | Sony Corporation | Method for creating a markov process that generates sequences |
WO2013008956A1 (ja) * | 2011-07-14 | 2013-01-17 | 日本電気株式会社 | 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム |
CN103456301B (zh) * | 2012-05-28 | 2019-02-12 | 中兴通讯股份有限公司 | 一种基于环境声音的场景识别方法及装置及移动终端 |
US9263060B2 (en) | 2012-08-21 | 2016-02-16 | Marian Mason Publishing Company, Llc | Artificial neural network based system for classification of the emotional content of digital music |
CN107093991B (zh) | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
WO2017001611A1 (de) | 2015-06-30 | 2017-01-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren |
US10490209B2 (en) * | 2016-05-02 | 2019-11-26 | Google Llc | Automatic determination of timing windows for speech captions in an audio stream |
JP6749874B2 (ja) * | 2017-09-08 | 2020-09-02 | Kddi株式会社 | 音波信号から音波種別を判定するプログラム、システム、装置及び方法 |
JP6812381B2 (ja) * | 2018-02-08 | 2021-01-13 | 日本電信電話株式会社 | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム |
CN112397090B (zh) * | 2020-11-09 | 2022-11-15 | 电子科技大学 | 一种基于fpga的实时声音分类方法及系统 |
US11514927B2 (en) * | 2021-04-16 | 2022-11-29 | Ubtech North America Research And Development Center Corp | System and method for multichannel speech detection |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714909B1 (en) * | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
US6801895B1 (en) * | 1998-12-07 | 2004-10-05 | At&T Corp. | Method and apparatus for segmenting a multi-media program based upon audio events |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US6973256B1 (en) * | 2000-10-30 | 2005-12-06 | Koninklijke Philips Electronics N.V. | System and method for detecting highlights in a video program using audio properties |
US7058889B2 (en) * | 2001-03-23 | 2006-06-06 | Koninklijke Philips Electronics N.V. | Synchronizing text/visual information with audio playback |
US7295977B2 (en) * | 2001-08-27 | 2007-11-13 | Nec Laboratories America, Inc. | Extracting classifying data in music from an audio bitstream |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
-
2002
- 2002-07-08 FR FR0208548A patent/FR2842014B1/fr not_active Expired - Fee Related
-
2003
- 2003-07-08 WO PCT/FR2003/002116 patent/WO2004006222A2/fr not_active Application Discontinuation
- 2003-07-08 EP EP03762744A patent/EP1535276A2/fr not_active Withdrawn
- 2003-07-08 JP JP2004518885A patent/JP2005532582A/ja active Pending
- 2003-07-08 AU AU2003263270A patent/AU2003263270A1/en not_active Abandoned
- 2003-07-08 CA CA002491036A patent/CA2491036A1/fr not_active Abandoned
- 2003-07-08 US US10/518,539 patent/US20050228649A1/en not_active Abandoned
- 2003-07-08 CN CN038162059A patent/CN1666252A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101165779B (zh) * | 2006-10-20 | 2010-06-02 | 索尼株式会社 | 信息处理装置和方法、程序及记录介质 |
CN102682766A (zh) * | 2012-05-12 | 2012-09-19 | 黄莹 | 可自学习的情侣声音对换机 |
CN109841216A (zh) * | 2018-12-26 | 2019-06-04 | 珠海格力电器股份有限公司 | 语音数据的处理方法、装置和智能终端 |
CN109841216B (zh) * | 2018-12-26 | 2020-12-15 | 珠海格力电器股份有限公司 | 语音数据的处理方法、装置和智能终端 |
CN112270933A (zh) * | 2020-11-12 | 2021-01-26 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
WO2022100691A1 (zh) * | 2020-11-12 | 2022-05-19 | 北京猿力未来科技有限公司 | 音频识别方法和装置 |
CN112270933B (zh) * | 2020-11-12 | 2024-03-12 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
AU2003263270A1 (en) | 2004-01-23 |
JP2005532582A (ja) | 2005-10-27 |
WO2004006222A3 (fr) | 2004-04-08 |
CA2491036A1 (fr) | 2004-01-15 |
AU2003263270A8 (en) | 2004-01-23 |
EP1535276A2 (fr) | 2005-06-01 |
US20050228649A1 (en) | 2005-10-13 |
FR2842014B1 (fr) | 2006-05-05 |
WO2004006222A2 (fr) | 2004-01-15 |
FR2842014A1 (fr) | 2004-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1666252A (zh) | 为声音信号分配声级的方法和装置 | |
CN1290039C (zh) | 自动进行音频内容分析的系统和方法 | |
Zhang et al. | Hierarchical classification of audio data for archiving and retrieving | |
US7346516B2 (en) | Method of segmenting an audio stream | |
Flexer | A closer look on artist filters for musical genre classification | |
CN105788592A (zh) | 一种音频分类方法及装置 | |
Butko et al. | Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion | |
JP2005530214A (ja) | メガ話者識別(id)システム及びその目的に相当する方法 | |
Seyerlehner et al. | Automatic music detection in television productions | |
Ntalampiras et al. | Automatic recognition of urban soundscenes | |
Bugatti et al. | Audio classification in speech and music: a comparison between a statistical and a neural approach | |
Baillie et al. | An audio-based sports video segmentation and event detection algorithm | |
Venkatesh et al. | Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast | |
Dall et al. | Analysis of speaker clustering strategies for HMM-based speech synthesis | |
CN101398826A (zh) | 自动提取体育节目精彩片断的方法和设备 | |
Valero et al. | Narrow-band autocorrelation function features for the automatic recognition of acoustic environments | |
Nwe et al. | Broadcast news segmentation by audio type analysis | |
Al-Maathidi et al. | NNET based audio content classification and indexing system | |
Tsiakoulis et al. | A statistical method for database reduction for embedded unit selection speech synthesis | |
Barbedo et al. | A robust and computationally efficient speech/music discriminator | |
Clavel et al. | Detection and analysis of abnormal situations through fear-type acoustic manifestations | |
Kotsakis et al. | Feature-based language discrimination in radio productions via artificial neural training | |
Mertens et al. | On the applicability of speaker diarization to audio indexing of non-speech and mixed non-speech/speech video soundtracks | |
Clavel et al. | Fear-type emotions of the SAFE Corpus: annotation issues. | |
Jarina et al. | Development of a reference platform for generic audio classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |