CN1666252A

CN1666252A - 为声音信号分配声级的方法和装置

Info

Publication number: CN1666252A
Application number: CN038162059A
Authority: CN
Inventors: H·哈布; L·陈
Original assignee: Ecole Centrale de Lyon
Current assignee: Ecole Centrale de Lyon
Priority date: 2002-07-08
Filing date: 2003-07-08
Publication date: 2005-09-07
Also published as: AU2003263270A1; JP2005532582A; WO2004006222A3; CA2491036A1; AU2003263270A8; EP1535276A2; US20050228649A1; FR2842014B1; WO2004006222A2; FR2842014A1

Abstract

本发明涉及一种用于给声音信号分配至少一个声级的方法，其特征在于包括下列步骤：把声音信号分成具有特定持续时间的时间段；通过在最小频率和最大频率之间的频率范围内确定一系列频谱值，提取每个时间段内的声音信号的频率参数；在时间窗口内组合这些参数，时间窗口具有大于时间段持续时间的特定持续时间；从每个时间窗口提取特征分量；以及根据提取的特征分量并使用分类器，识别声音信号的时间窗口的声级。

Description

为声音信号分配声级的方法和装置

技术领域

本发明涉及把声音信号分类成反映语义的声级的领域。

本发明更精确地涉及用于自动提取声音信号、语义信息的领域，例如音乐、语音、噪声、无声、男声、女声、摇滚乐、爵士乐等。

背景技术

在现有技术中，丰富的多媒体文件需要索引，索引需要大量的人为干涉，这构成要连续进行昂贵而耗时的操作。因此，语义信息的自动提取构成了宝贵的帮助，能促进和加速分析和索引工作。

在许多应用中，对声音信号设想其它分析和处理之前，声带的语义分段和分类频繁地构成必要操作。

需要语义分段和分类的已知应用涉及自动语音识别系统，也称为语音处理系统，适合于把语音带转录成文本。对于容许的性能等级而言，把声带分段和分类成音乐/语音段是基本步骤。

使用自动语音识别系统经由视听文件的内容，例如电视新闻进行索引，需要消除非语音段以便降低错误率。而且，原则上，如果说话者(男生或女生)的知识是可用的，则使用自动语音识别系统能实现性能的显著提高。

需要求助于声带的语义分段和分类的另一公知的应用涉及统计和监控系统。实际上，对于有关版权或有关广播时间定额的问题，管理和检查机关，如法国的CSA或SACEM，必须基于具体报告，例如关于政治家在CSA电视网上的广播持续时间，以及由SAGEM无线电传送的歌曲名称和持续时间。自动统计和监控系统的实施是以预先的音乐/语音声带的分段和分类为基础的。

另一可能的应用涉及自动视听节目摘要或过滤系统。对于许多应用，例如，移动电话或邮购视听节目量，似乎必须根据用户的兴趣中心把两个小时的视听节目尽可能地概述成几分钟的强瞬时编辑。这样的概述可以离线或在线产生，离线也就是它涉及预先计算与原始节目相关的摘要，在线也就是涉及视听节目的过滤，只有节目的强瞬时才能以广播或流动模式得以保持。强瞬时依赖于视听节目和用户的兴趣中心。例如，在足球比赛中，强瞬时是有进球动作的地方。对于动作影片，强瞬时对应于战斗、追击等。所述强瞬时更频繁地导致声带上的冲击。为了识别它们，感兴趣的是在具有或没有某个特性的段内提取声带的分段和分类。

在现有技术中，存在各种声音信号分类系统。例如，文件WO9827543描述了把声音信号分类成音乐或语音的技术。所述文件设想研究声音信号的各种可测量参数，例如4Hz时的调制能量、频谱通量、频谱通量的变量、过零率等。在一秒或另一持续时间的窗口内提取所述参数，以便定义频谱通量的变量或帧，例如过零率。然后，使用各种分类器，例如基于正态(高斯分布)律混合的分类器或最近邻(NearestNeihbour)分类器，获得大约6％的错误率。执行分类器的培训达到36分钟，而测试达到4分钟。所述结果显示提出的技术需要显著大小的培训基础，以便实现95％的识别率。如果对于四十分钟的视听文件来说这是可能的，则所述技术对于具有很大尺寸的要分类的数据似乎不可能进行应用，其具有各种文件源产生的高度可变性，对于每个所述文件而言，具有不同等级的噪声和分辨率。

专利US 5712953描述了使用变量的系统，所述变量与第一瞬时频谱的时间有关，所述频谱与用于检测音乐信号的频率有关。所述文件预先假设与其它非音乐信号相比，所述变量相对音乐非常低。不幸地，不同类型的音乐不具有相同的结构，这样例如对于ASR而言，上述系统具有不充分的性能。

欧洲专利请求1100073提出使用十八个参数把声音信号分类成不同种类，例如，信号功率的平均和方差、中间频率功率等。产生向量量化，并且Mahalanobis距离用于分类。似乎使用信号功率是不稳定的，因为从不同源中产生的信号总是用不同等级的频谱功率来记录。而且，用于区别音乐和语音的参数的使用，例如低频或高频功率的使用，是对音乐和语音的极限变量的严重限制。最后，为十八个不相似参数的向量选择适当距离不是显而易见的，因为它涉及根据所述参数的重要性为其分配不同的权重。

同样，在由ZHU LIU等人撰写的文章“AUDIO FEATUREEXTRACTION AND ANALYSIS FOR SCENE SEGMENTATION ANDCLASSIFICATION”，JOURNAL OF VLSI SIGNAL PROCESSINGSYSTEMS FOR SIGNAL，IMAGE AND VIDEO TECHNOLOGY，KLUWER ACADEMIC PUBLISHERS，DORDRECHT，NL，Vol.20，no.1/2，1 October 1998(1998年10月1日)，第61-78页，XP 000786728，ISBN：0922-5773中，描述了把声音信号分类成声级的技术。所述技术设想在几十毫秒的窗口内分割声音信号并在1秒的窗口内组合。通过计算称为频率参数的某些参数的平均值而产生组合。为了获得所述频率参数，所述方法包括从信号频谱中提取测量值，例如频谱中心或低频(0-630Hz)、中间频率(630-1720Hz)、高频(1720-4400Hz)的能量对能量比。

这样的方法特别提出考虑对频谱计算之后提取的参数。这种方法的实施不能获得满意的识别率。

发明内容

因此，本发明旨在通过提出一种技术来解决上述缺点，所述技术能使声音信号分类成语义等级，具有高识别率，同时需要减少的培训时间。

为了实现上述目的，按照本发明的方法涉及一种用于将为声音信号分配至少一个声级的方法，包括下列步骤：

·把声音信号分成具有特定持续时间的时间段，

·提取每个时间段内的声音信号的频率参数，

·在时间窗口内组合这些参数，时间窗口具有大于时间段持续时间的特定持续时间，

·从每个时间窗口提取特征分量，

·以及根据提取的特征分量并使用分类器，识别声音信号的每个时间窗口的声级。

本发明的另一目的是提出一种用于为声音信号分配至少一个声级的装置，包括：

·用于把声音信号分成具有特定持续时间的时间段的设备，

·用于提取每个时间段内的声音信号的频率参数的设备，

·用于在时间窗口内组合这些参数的设备，时间窗口具有大于时间段持续时间的特定持续时间，

·用于从每个时间窗口提取特征分量的设备，

·以及用于根据提取的特征分量并使用分类器来识别声音信号的时间窗口的声级的设备。

附图说明

前述参考附图的说明中出现了各种其它特征，其中这些附图用非限定实例的方式图示了本发明实施例的形式。

图1给出了依据本发明实施声音信号分类方法的装置的方框图；

图2给出了按照本发明的方法特征步骤的图，也就是变换图；

图3给出了本发明的另一特征步骤的图；

图4给出了按照本发明的声音信号分类步骤；

图5给出了在本发明范围内使用的神经网络实例的图。

具体实施方式

如在图1中更准确地描述，本发明涉及能对任何类型声级的声音信号S进行分类的装置1。换句话说，将声音信号S切割成段，这些段按照它们的内容进行标注。与每个段相关的标签，例如音乐、语音、噪音、男生、女生等，把声音信号分类成语义类别或语义声级。

依据本发明，将要分类的声音信号S施加到分段设备10的输入端，分段设备10能使声音信号S分成时间段T，每个时间段T具有特定的持续时间。优选地，时间段T都具有优选的在10和30毫秒之间的相同持续时间。至于每个时间段T都具有几毫秒的持续时间，可以认为信号是稳定的，以使后来可以应用改变频域内时间信号的变换。可以使用不同类型的时间段，例如，简单矩形窗口，Hanning窗口或Hamming窗口。

因此，装置1包括提取设备20，提取设备20能提取每个时间段T内声音信号的频率参数。装置1也包括设备30，设备30用于在时间窗口F内组合所述频率参数，时间窗口F具有比时间段T的持续时间更大的特定持续时间。

根据实施例的优选特征，在时间窗口F内组合频率参数，其中持续时间大于0.3秒，优选地，在0.5和2秒之间。确定时间窗口F的大小选择以便能在听觉上区别两个不同窗口，例如，语音、音乐、男生、女生、无声等。例如，如果时间窗口F是几十毫秒短，则可以检测到音量变化类型的局部听觉变化、乐器的变化、以及单词的开始或结束。如果窗口很大，例如几百毫秒，则可检测的变化将是更普通的变化类型，例如音乐节奏或语音节奏类型的变化。

装置1也包括提取设备40，提取设备40能从每个时间窗口F中提取特征分量。根据提取的所述特征分量并且使用分类器50，识别设备60能识别声音信号S的每个时间窗口F的声级。

下面的说明描述了声音信号分类方法实施例的优选变型。

根据实施例的优选特征，为了从时域跨过进入频域，在采样声音信号的情况下，提取设备20使用离散傅立叶变换(Discrete FourierTransform，DFT)，DFT之后进行记录。离散傅立叶变换为信号幅度值的时间序列提供一系列频谱值。离散傅立叶变换公式如下：

X_{N} (n) = Σ_{k = 0}^{N - 1} x (k) e^{- j 2 πkn / N}

其中x(k)是时域内的信号。

术语|X(n)|称为幅谱，它表示信号x(k)幅度的分频。

术语arg[X(n)]称为相谱，它表示信号x(k)相位的分频。

术语|X(n)|²称为能谱，表示信号x(k)能量的分频。

这些值广泛用作能谱值。

因此，对于时间段T内的信号x(k)幅度的一系列时间值而言，获得位于最小频率和最大频率之间的频率范围内的X_i序列的频谱值。所述频率值或参数的集合称为“DFT向量”或频谱向量。每个X_i向量与每个时间段T的频谱向量对应，其中i从1到n。

根据实施例的优选特征，对经由变换设备25预先获取的频率参数执行变换或过滤操作，变换设备25插在提取设备20和组合设备30之间。如在图2中更准确地描述，所述变换操作能从X_i频谱向量中生成变换特征的向量Y_i。通过带有变量即boundary 1，boundary 2和aj的公式y_i提供变换，这些变量精确定义变换。

变换可以是同一类型以便X_i特征值不变。根据所述变换，boundary1和boundary 2等于j，而参数aj等于1。频谱向量X_i等于Y_i。

变换可以是两个相邻频率的平均变换。根据所述变换类型，可以获得两个相邻频谱的平均值。例如，可以选择boundary 1等于j，boundary 2等于j+1，而aj等于0.5。

使用的变换可以是遵循Mel标度近似值的变换。可以通过按照下列值改变boundary 1和boundary 2变量而获得所述变换：

0，1，2，3，4，5，6，8，9，10，12，15，17，20，23，27，31，37，40，其中

aj = \frac{1}{| boundary 1 - boundary 2 |}

例如，通过如上所示选择boundary 1和boundary 2，使用图2中所示的方程式，可以从总X维向量40中获得Y维向量20。

Boundary 1＝0→boundary 2＝1

Boundary 1＝1→boundary 2＝2

Boundary 1＝2→boundary 2＝3

Boundary 1＝3→boundary 2＝4

Boundary 1＝4→boundary 2＝5

Boundary 1＝5→boundary 2＝6

Boundary 1＝6→boundary 2＝8

Boundary 1＝8→boundary 2＝9

boundary 1＝9→boundary 2＝10

boundary 1＝10→boundary 2＝12

boundary 1＝12→boundary 2＝15

boundary 1＝15→boundary 2＝17

boundary 1＝17→boundary 2＝20

boundary 1＝20→boundary 2＝23

boundary 1＝23→boundary 2＝27

boundary 1＝27→boundary 2＝31

boundary 1＝31→boundary 2＝37

boundary 1＝37→boundary 2＝40

关于X_i频谱向量的变换根据应用，也就是根据要分类的声级，而更有效或更无效。在其余说明书中将提供对所述变换进行选择的实例。

如从前述说明中得出，按照本发明的方法包括：从每个时间窗口F提取特征分量，在具有相对大的持续时间的所述窗口上能获得声音信号的描述。因此，对于每个时间窗口F的Y_i向量而言，计算的特征分量可以是平均数、方差、瞬间(moment)、频率监控参数或无声交叉率(crossing rate)。根据下列公式执行所述特征分量的估算：

\overset{&RightArrow;}{w_{i}} = (\begin{matrix} w_{i 1} \\ w_{i 2} \\ \cdot \\ \cdot \\ \cdot \\ w_{iN} \end{matrix})

\overset{&RightArrow;}{μ_{i}} = (\begin{matrix} μ_{i 1} \\ μ_{i 2} \\ \cdot \\ \cdot \\ \cdot \\ μ_{iN} \end{matrix})

\overset{&RightArrow;}{v_{i}} = (\begin{matrix} v_{i 1} \\ v_{i 2} \\ \cdot \\ \cdot \\ \cdot \\ v_{iN} \end{matrix})

\overset{&RightArrow;}{x_{i}} = (\begin{matrix} x_{i 1} \\ x_{i 2} \\ \cdot \\ \cdot \\ \cdot \\ x_{iN} \end{matrix})

其中是平均向量，

是方差向量，是特征值，所述特征值决不大于前述过滤频谱向量以便构成时间窗口F。

μ_{ij} = \frac{1}{M} Σ_{l = 1}^{M_{i}} x_{lj} - - - j = 1, . . ., N

其中j对应于频谱向量

内的频带，l对应于提取向量的时间或瞬间(时间段T)，N是向量内的元素数量(或频带数量)，M_i对应于向量数量以分析它们的统计量(时间窗口F)，μ_ij内的i对应于计算μ_ij的时间窗口F的瞬时，j对应于频带。

v_{ij} = \frac{1}{M_{i}} Σ_{l = 1}^{M_{i}} {(x_{lj} - μ_{ij})}^{2} - - - j = 1, . . ., N

其中j对应于频谱向量和平均向量

内的频带，l对应于提取向量的时间或瞬间(时间段T)，N是向量内的元素数量(或频带数量)，M_i对应于向量数量以分析它们的统计量(时间窗口F)，μ_ij和v_ij内的i对应于计算

和的时间窗口F的瞬时，j对应于频带。

瞬间对于描述数据状态来说可以是重要的，按照下列方法计算所述瞬间：

w_{ij} = \frac{1}{M_{i}} Σ_{l = 1}^{M_{i}} {(x_{lj} - μ_{ij})}^{n} - - - j = 1, . . ., N

系数i，j，N，l，M_i解释为变量，并且n＞2。

按照本发明的方法也能把参数FM确定为特征分量，能监控频率。实际上应注意，对于音乐而言存在某种频率连续性，也就是信号内的最重要频率，也就是集中最大能量的频率在某一时间内保持相同，然而，对于语音或对于噪音(非谐波)而言，频率内最有效的变化更迅速地出现。根据所述报告，提出根据精确间隔，例如200Hz，同时执行多个频率的监控。所述选择由音乐内最重要频率变化的事实来激发，但以渐进的方式。按照下列方式执行所述频率监控参数FM的提取。对于每个离散傅立叶变换Y_i向量而言，例如执行五个最重要频率的识别。如果在100Hz频带内所述频率之一不出现在离散傅立叶变换向量的五个最重要频率内，则发出切割信号。计算每个时间窗口F内切割的数量，每个时间窗口F内切割的数量定义频率监控参数FM。用于音乐段的所述参数FM明显低于用于语音或噪音的所述参数FM。同样，上述参数对于区别音乐和语音而言是重要的。

根据本发明的另一特征，所述方法包括把无声交叉率SCR定义为特征分量。所述参数包括在固定大小的例如两秒的窗口内计算能量达到无声阈值的次数。实际上，必须认为，在表达单词期间声音信号的能量通常是高的，然而在单词之间它降低到无声阈值之下。按照下列方式执行参数的提取。对于每10毫秒信号，计算信号能量。计算能量关于时间的导数，也就是T+1的能量小于瞬时T时的能量。然后在2秒钟的窗口内，计算能量导数超过某一阈值的次数。

如在图3中更准确地描述，从每个时间窗口F提取的参数定义特征值Z。因此，所述特征值Z是定义的特征分量的串联，即平均数、方差、瞬间向量、以及频率监控FM和无声交叉率SCR。根据应用，由于分类而使用来自特征值Z的分量的仅仅一部分或全部。例如，如果提取频谱的频率范围是在0和4000Hz之间，对于100Hz的频率间距，每个频谱向量获得40个元素。如果对于总X_i特征值的变换应用等同性，则平均向量获得40个元素，方差向量获得40个元素，以及瞬间向量获得40个元素。在SCR和FM参数的串联和相加之后，获得带有122个元素的特征值Z。根据应用，通过考虑例如40或80个元素，可以选择所述特征值的全部或只有子集。

根据本发明的优选实施例，所述方法包括使用插在提取设备40和分类器50之间的标准化设备45对特征分量进行标准化操作。对于平均向量而言，所述标准化包括搜索具有最大值的分量，并且用所述最大值除平均向量的其它分量。对于方差和瞬间向量而言，执行类似的操作。对于频率监控FM和无声杂交率SCR而言，用实验之后固定的常数除所述两个参数，以便总是获得0.5和1之间的值。

所述标准化阶段之后，获得特征值，特征值的每个分量具有0和1之间的值。如果频谱向量已经进行了变换，特征值的所述标准化阶段可以不是必需的。

如在图4中更准确地描述，根据本发明的方法包括：提取参数或构成特征值Z之后，选择分类器50，使用识别或分类设备60能把每个向量有效地标记为定义的声级之一。

根据实施例的第一实例，使用的分类器是神经网络，例如具有两层隐蔽层的多层感知器。图5给出了神经网络的结构，例如，包括82个输入元素、39个用于隐藏层的元素、以及7个输出元素。当然，显然可以对所述元素数量进行修改。输入层元素对应于特征值Z的分量。例如，如果选择为80节点输入层，则可以使用部分特征值Z，例如对应于平均数和瞬间的分量。对于隐藏层而言，使用的39个元素似乎足够了；增加神经元的数量不会导致性能的显著提高。用于输出层的元素数量对应于要分类的等级数量。如果要分类两个声级，例如音乐和语音，则输出层包括两个节点。

当然，可以使用另一类型的分类器，例如常规的K-最临近(NearestNeighbour)(KNN)分类器。在这种情况下，培训知识简单地构成培训数据。培训存储包括存储所有培训数据。当出现特征值Z进行分类时，合理的是为所有培训数据计算距离以便选择最近的等级。

分类器的使用能识别声级，例如语音或音乐、男声或女声、声音信号的特征瞬间或非特征瞬间、伴随表示，例如影片或比赛的视频信号的特征瞬间或非特征瞬间。

下面的说明提供了按照本发明把声带分成音乐或语音的方法的应用实例。根据所述实例，将输入声带分成一连串语音、音乐、无声或其它间隔。由于无声段的特征化容易，所以对语音或音乐分割进行试验。对于所述应用，使用特征值Z的子集，其包含82个用于平均数的元素和80个用于方差的元素，以及一个用于SCR的元素和一个用于FM的元素。对向量进行等同性变换和标准化。每个时间窗口F的大小等于2秒。

为了图解前述声音段的特征和提取，使用两个分类器，一个基于神经网络NN，另一个使用简单的k-NN原理，也就是“K-NearestNeighbour”。在测试方法一般性的目的中，对从阿拉伯语的Aljazeerah网“http：//www.aljazeera.net/”提取的80秒音乐和80秒语音进行NN和k-NN训练。然后，关于音乐语料库和语音语料库，即两个高度变化的特性总和为1280秒(大于21分钟)的语料库，测试两个分类器。关于音乐段分类的结果提供在下表中。

从以下提取的音乐	段长度	k-NN	成功的k-NN％	NN	成功的NN％
从以下提取的音乐	段长度	k-NN	成功的k-NN％	NN	成功的NN％	训练	80s	80s	100	80s	100
Fairuz(Habbaytak bissayf)	80s	74s	92.5	72s	90	训练	80s	80s	100	80s	100
Fairuz(Habbaytak bissayf)	80s	74s	92.5	72s	90	Fairuz(Habbaytak bissayf)	80s	80s	100	80s	100
Fairuz(eddach kan fi nass)	80s	70s	87.5	70s	87.5	Fairuz(Habbaytak bissayf)	80s	80s	100	80s	100
Fairuz(eddach kan fi nass)	80s	70s	87.5	70s	87.5	George Michael(carelesswhisper)	80s	70s	87.5	80s	100
George Michael(carelesswhisper)	80s	76s	95	80s	100	George Michael(carelesswhisper)	80s	70s	87.5	80s	100
George Michael(carelesswhisper)	80s	76s	95	80s	100	Metallica(turn the page)	80s	74s	92.5	78s	97.5
Film“Gladiator”	80s	78s	97.5	80s	100	Metallica(turn the page)	80s	74s	92.5	78s	97.5
Film“Gladiator”	80s	78s	97.5	80s	100	总计	640s	602s	94	626s	97.8

表1：使用NN和k-NN分类音乐的成功率

可以看出，所有的k-NN分类器提供的成功率高于94％，而NN分类器的成功率高达97.8％。也可以注意到NN分类器的良好概括能力。实际上，当对80秒黎巴嫩音乐进行训练时，对于完全不同类型音乐的George Michael产生100％的成功分类，甚至对Metallica产生97.5％的分类成功率，Metallica是被认为很难的摇滚乐。

至于对语音段的试验，对从英语CNN节目、法语LCI节目以及影片“Gladiator”产生的不同提取进行试验，而以80秒的阿拉伯语音对两个分类器进行训练。下表提供用于两个分类器的结果。

从以下提取的语音	段长度	k-NN	成功的k-NN％	NN	成功的NN％
从以下提取的语音	段长度	k-NN	成功的k-NN％	NN	成功的NN％	训练	80s	80s	100	80s	100
CNN	80s	80s	100	74s	92.5	训练	80s	80s	100	80s	100
CNN	80s	80s	100	74s	92.5	CNN	80s	72s	90	78s	97.5
CNN	80s	72s	90	76s	95	CNN	80s	72s	90	78s	97.5
CNN	80s	72s	90	76s	95	LCI	80s	58s	72.5	80s	100
LCI	80s	66s	82.5	80s	100	LCI	80s	58s	72.5	80s	100
LCI	80s	66s	82.5	80s	100	LCI	80s	58s	72.5	80s	100
Film“Gladiator”	80s	72s	90	72s	90	LCI	80s	58s	72.5	80s	100
Film“Gladiator”	80s	72s	90	72s	90	总计	640s	558s	87.2	620s	96.9

表2：使用NN和k-NN分类语音的成功率

表中示出，分类器证明是对法语的LCI提取特别有效，因为它产生100％的正确分类。对于英语的CNN提取，它仍然产生大于92.5％的良好分类成功率，全部的NN分类器达到97％的分类成功率，而k-NN产生87％的良好分类成功率。

根据另一试验，选择NN分类器的所述支持结果，并且应用于混合语音和音乐的段。为此，通过“Aljazeerah”网广播的40秒节目“theLebanese war”产生音乐培训，然后，从相同的节目中提取80秒的阿拉伯语语音。关于30分钟的影片“The Avengers”对NN分类器进行测试，对影片“The Avengers”进行分段和分类。所述试验的结果提供在下表中。

音乐错误	语音错误	段长	总的错误	准确率％
音乐错误	语音错误	段长	总的错误	准确率％	68s	141s	1800s	209s	88.4

表3：对影片分段-分类的结果

在比较依据本发明的分类器和根据现有技术的工作的目标中，关于相同的语料库对由Virage使用的“Muscle Fish”工具(http：//musclefish.com/speechMusic.zip)进行测试，并且获得下列结果：

音乐错误	语音错误	段长	总的错误	准确率％
音乐错误	语音错误	段长	总的错误	准确率％	336s	36s	1800s	372s	79.3

表4：Muscle Fish工具对影片分段-分类的结果

可以清楚地注意到，NN分类器在准确率方面超过Muscle Fish工具10个点。

最后，也关于10分钟的“LCI”节目对NN分类器进行测试，节目包括“I’édito”、“I’Invité”和Ia vie des medias”，并且获得下列结果：

音乐错误	语音错误	段长	总的错误	准确率％
音乐错误	语音错误	段长	总的错误	准确率％	12s	2s	600s	14s	97.7

表5：对LCI节目分段-分类的结果

而“Muscle Fish“工具提供下列结果：

音乐错误	语音错误	段长	总的错误	准确率％
音乐错误	语音错误	段长	总的错误	准确率％	2s	18s	600s	20s	96.7

表6：使用Muscle Fish工具对LCI节目分段-分类的结果

NN分类器的总计结果如下：

培训数据	测试数据	总的错误	培训/测试％	准确率％
培训数据	测试数据	总的错误	培训/测试％	准确率％	120s	3000s	227s	4s	92.4

表7：对各种视频分段-分类的结果

可以看出，在所述试验中的50分钟内准确率高于92％，NN分类器只产生4％的T/T率(培训持续时间/测试持续时间)，其与用于[Will99]系统(Gethin Williams，Daniel Eillis，Speech/music discriminationbased on posterior probability features，Eurospeech 1999)的300％的T/T率相比是非常鼓舞人心的，[Will 99]系统是基于HMM(隐马尔科夫模型)后概率参数，并且使用GMM。

产生试验的第二实例以便分类男声和女声的声音信号。根据所述试验，将语音段切割成标记有男声和女声的块。对于这个效果，特征值不包括无声杂交率和频率监控。因此，所述两个参数的权重变成0。时间窗口F的大小固定在1秒。

对来自“Linguistic Data Consortium”LCD(http：//www.ldc.upenn.edu)Switchboard中的电话呼叫的数据进行试验。其被选择用于在相同类型的扬声器之间进行培训和电话呼叫测试，也就是男对男和女对女会话。关于从4个男对男电话呼叫中提取的300秒语音和从4个女对女电话呼叫中提取的300秒语音来进行培训。对按照本发明的方法测试6000秒(100分钟)，即从10个男对男呼叫中提取3000s和从10个女对女呼叫中提取3000秒，10个男对男呼叫不同于用作培训的呼叫，10个女对女呼叫也不同于用作培训的呼叫。下表总结获取的结果。

男生检测率	女声检测率	男生段长	女声段长	相对培训/总计测试时间的语音时间	准确率％
男生检测率	女声检测率	男生段长	女声段长	相对培训/总计测试时间的语音时间	准确率％	85％	90％	3000s	3000s	10％	87.5％

可以看出，对于进行培训的语音采样，全部检测率都是87.5％，所述语音采样只是测试语音的10％。也可以注意到，按照本发明的方法产生比男生(85％)语音检测更好的女生(90％)语音检测。如果多数选举原则应用于盲目分段之后的同类段，并且如果消除长无声，则还能显著地提高所述结果，长无声比较经常地出现在电话对话内，并且长无声通过按照本发明的技术产生女生标记。

另一试验旨在把声音信号分类成重要瞬间或不在运动比赛中。在直接视听转播内容的运动比赛中，例如足球比赛，关键瞬间的检测对于能自动产生视听摘要来说非常重要，视听摘要可以是图像编辑，从而检测到关键瞬间。在足球比赛的环境内，关键瞬间是进球动作、处罚等出现时的瞬间。例如，在篮球比赛的环境中，关键瞬间可以定义为把球放入栏框内的动作出现时的瞬间。在橄榄球比赛的环境中，关键瞬间可以定义为试尝动作出现时的瞬间。所述关键瞬间的概念当然可以应用于任何运动比赛。

以运动视听顺序的关键瞬间的检测归属于伴随比赛进程的声带、地形、协助和评论员的分类的问题。实际上，在运动比赛的重要瞬间内，例如足球比赛，他们在评论员的解说语调和观众噪声增强中产生紧张。在所述试验之前，使用的特征值是通过只拿出SCR和FM两个参数来分类音乐/语音而使用的特征值。对总特征值使用的变换是遵循Mel标度的变换，然而，标准化阶段不应用于特征值。时间窗口F的大小是2秒。

选择来自UEFA(欧洲足球协会联盟)杯的三个足球比赛进行试验。对于培训，选择来自第一比赛的20秒关键瞬间和20秒非关键瞬间。因此，存在两个声级：关键瞬间或非关键瞬间。

培训之后，对三个比赛进行分类。根据检测的进球数并且根据按照重要性分类的时间来估算结果。

	进球数	检测的重要时间	检测的进球	准确率％
	进球数	检测的重要时间	检测的进球	准确率％	比赛1	3	90	3	100
比赛2	0	40	0	NA	比赛1	3	90	3	100
比赛2	0	40	0	NA	比赛3	4	80	4	100

表中示出，检测到所有的进球瞬间。另外，对于90分钟的足球比赛、产生至多包括所有进球瞬间的90秒种摘要。

当然，重要或不重要瞬间内的分类可以归纳成任何视听文件的声音分类，例如，动作影片或色情影片。

按照本发明的方法通过任何适当设备能为分配给等级的每个时间窗口分配标签，并且能为例如记录在数据库内的声音信号搜索标签。

本发明不局限于所述和所示的实例，因为可以进行各种修改而不脱离它的范围。

Claims

1.一种用于给声音信号分配至少一个声级的方法，其特征在于包括下列步骤：

·把声音信号分成具有特定持续时间的时间段(T)，

·通过在最小频率和最大频率之间的频率范围内确定一系列频谱值，提取每个时间段(T)内的声音信号的频率参数，

·在时间窗口(F)内组合这些参数，时间窗口(F)具有大于时间段(T)持续时间的特定持续时间，

·从每个时间窗口(F)提取特征分量，

·根据提取的特征分量并使用分类器，识别声音信号的时间窗口(F)的声级。

2.按照权利要求1所述的方法，其特征在于包括在时间段(T)内提取声音信号，时间段(T)的持续时间在10和30毫秒之间。

3.按照权利要求1所述的方法，其特征在于包括使用离散傅里叶变换提取频率参数。

4.按照权利要求3所述的方法，其特征在于包括提供变换或过滤频率参数的操作。

5.按照权利要求4所述的方法，其特征在于包括产生等同类型的变换，即两个相邻频率的平均值，或者按照Mel标度的变换。

6.按照权利要求4或5所述的方法，其特征在包括在持续时间大于0.3秒的时间窗口内组合这些频率参数，持续时间优选的在0.5和2秒之间。

7.按照权利要求1所述的方法，其特征在于包括从每个时间窗口提取特征分量，例如平均值、方差、瞬间、频率监控参数或无声交叉率。

8.按照权利要求7所述的方法，其特征在于包括使用分类器的一个或多个输入特征分量。

9.按照权利要求7或8所述的方法，其特征在于包括提供特征分量的标准化操作。

10.按照权利要求7和9所述的方法，其特征在于所述标准化操作包括：

·对于平均值、方差或瞬间，搜索具有最大值的分量，并且用所述最大值除其它分量，

·对于频率监控或无声交叉率，用试验之后固定的常数除每个所述特征分量以便获得0.5和1之间的值。

11.按照权利要求1或8所述的方法，其特征在于包括使用分类器、神经网络或K-最临近(K-Nearest Neighbour)。

12.按照权利要求11所述的方法，其特征在于包括进行分类器的声音信号培训阶段。

13.按照权利要求1至12之一所述的方法，其特征在于包括使用分类器识别声级，例如语音或音乐、男声或女声、声音信号的特征瞬间或非特征瞬间、伴随表示，例如影片或比赛的视频信号的特征瞬间或非特征瞬间。

14.按照权利要求13所述的方法，其特征在于包括通过使用平均值、方差、频率监控和无声交叉率参数把声音信号分类成音乐或语音，之后是时间窗口等于2秒的参数的标准化。

15.按照权利要求13所述的方法，其特征在于包括通过使用平均值和方差参数，把信号分类成重要瞬间或不重要瞬间比赛，其中具有按照Mel标度的变换，而没有对特征分量应用标准化。

16.按照权利要求13所述的方法，其特征在于包括在比赛的声音信号内识别强烈瞬间。

17.按照权利要求16所述的方法，其特征在于包括使用强烈瞬间的识别来创建比赛摘要。

18.按照权利要求13所述的方法，其特征在于包括识别和监控声音信号内的语音。

19.按照权利要求18所述的方法，其特征在于包括识别和监控声音信号的语音部分的男生和/或女生的语音。

20.按照权利要求13所述的方法，其特征在于包括识别和监控声音信号内的音乐。

21.按照权利要求13所述的方法，其特征在于包括确定声音信号是否包含语音或音乐。

22.按照权利要求13所述的方法，其特征在于包括为分配给等级的每个时间窗口分配标签。

23.按照权利要求22所述的方法，其特征在于包括为声音信号搜索标签。

24.一种用于给声音信号分配至少一个声级的装置，其特征在于包括：

·用于把声音信号(S)分成具有特定持续时间的时间段(T)的设备(10)，

·用于提取每个时间段(T)内的声音信号的频率参数的设备(20)，

·用于在时间窗口(F)内组合这些参数的设备(30)，时间窗口(F)具有大于时间段(T)持续时间的特定持续时间，

·用于从每个时间窗口(F)提取特征分量的设备(40)，

·用于根据提取的特征分量并使用分类器来识别声音信号的时间窗口(F)的声级的设备(60)。

25.按照权利要求24所述的装置，其特征在于用于提取频率参数的设备(20)使用离散傅里叶变换。

26.按照权利要求24或25所述的装置，其特征在于包括用于提供变换或过滤频率参数的操作的设备(25)。

27.按照权利要求24至26之一所述的装置，其特征在于包括用于在持续时间大于0.3秒的时间窗口内组合这些频率参数的设备(30)，持续时间优选的在0.5和2秒之间。

28.按照权利要求24所述的装置，其特征在于包括从每个时间窗口提取特征分量的设备(40)，用于提取平均值、方差、瞬间、频率监控参数或无声交叉率的设备。

29.按照权利要求28所述的装置，其特征在于包括特征分量标准化设备(45)。

30.按照权利要求24所述的装置，其特征在于包括分类器、神经网或K-Nearest Neighbour。

31.按照权利要求24所述的装置，其特征在于包括用于识别声级的设备(60)，例如语音或音乐、男声或女声、声音信号的特征瞬间或非特征瞬间、伴随表示，例如影片或比赛的视频信号的特征瞬间或非特征瞬间。

32.按照权利要求24所述的装置，其特征在于包括用于为分配给等级的每个时间窗口分配标签的设备。

33.按照权利要求32所述的装置，其特征在于包括用于为记录在数据库内的声音信号搜索标签的设备。