CN102915728B

CN102915728B - 声音分段设备和方法以及说话者识别系统

Info

Publication number: CN102915728B
Application number: CN201110217652.7A
Authority: CN
Inventors: 郭莉莉; 穆向禹; 刘贺飞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-08-01
Filing date: 2011-08-01
Publication date: 2014-08-27
Anticipated expiration: 2031-08-01
Also published as: CN102915728A

Abstract

本发明提供一种声音分段设备和方法以及说话者识别系统。该声音分段方法包括多级分段步骤，所述多级分段步骤包括当前声音段分段步骤。所述当前声音段分段步骤包括：确定步骤，确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及分割步骤，如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段。通过将通过所述分割步骤获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，以迭代方式执行所述当前声音段分段步骤，直到每一级中的未被分割的声音段都不满足所述规定条件为止。得益于本发明，不必设置固定的观察窗并且可以降低计算量。

Description

声音分段设备和方法以及说话者识别系统

技术领域

本发明涉及声音分段设备和声音分段方法，以及说话者识别系统。

背景技术

声音分段是将声音序列(音频序列)分段为多个声音段的技术。

声音检测方法通常涉及声音分段处理和声音分类处理两者。

在声音检测方法的一个典型例子中，非静音声音段被检测，并且，每个非静音声音段被分段为多个声音段。然后，对于每个如此获得的声音段，声音分类器对于类别集中的所有声音类别计算分类分数(分类分数表明一个声音段属于一个声音类别的似然性或概率)，并且最终输出具有最大分类分数的声音类别作为对于该声音段的声音检测结果。

声音分段处理常常在声音检测方法中扮演重要的角色，这是因为声音分段处理的性能直接影响声音分类处理的结果因而直接影响声音检测方法的性能。

例如，如果具有不同声音类别的两个或更多个声音段在声音分段处理中被分段为单个声音段，换句话说，如果具有第一声音类别的至少一个声音段在声音分段处理中被埋入在具有第二声音类别的另一个声音段中并且因而被漏检，则与被漏检的声音段对应的第一声音类别当然也在声音分类处理中被漏检，即使声音分类方法本身的性能是高的。

另外，当具有第一声音类别的至少一个声音段在声音分段处理中被埋入在具有第二声音类别的另一个声音段中时，甚至有可能不仅漏检第一声音段，而且包含第一声音类别的声音段和第二声音类别的声音段这两者的声音段被分类到既不是第一类别又不是第二类别的类别中。

为了防止漏检可能的声音段，在美国专利2008/0255854和2006/0212297中提出了一种声音分段方法，在该声音分段方法中，使用不同的声音分段算法而对于单个声音段得到多于一个的候选分割点。然后，该方法除去无效分割点以得到对于该声音段的最终分割结果。

图1示出了美国专利2008/0255854和2006/0212297中的声音分段方法的示意性流程图。

根据图1中所示的该方法，对于声音段的观察窗和起始点(该声音段的起始点可以是在前声音段的结束点)，使用多于一种的声音分段算法(图1中所示的SEG1、SEG2、...SEG N)并且产生候选分割点列表，所述候选分割点列表包括通过这些声音分段算法获得的候选分割点。对于每种所用的声音分段算法，在候选分割点列表中的相应的候选分割点处计算测量值向量。可使用投票方案或似然比测试来去除无效的分割点，并且，剩余的分割点被取作对于当前观察窗的声音段的结束点。在没有可被认为是有效的剩余分割点的情况下，当前观察窗不包含任何分割点，也就是说，未在当前观察窗中观察到该声音段的结束点。

美国专利2008/0255854和2006/0212297的目的是使用不同的声音分段算法来获得多于一个的候选分割点，以防止漏检只用某种分段算法可能不能够获得的实际分割点。

发明内容

然而，本发明的发明人发现，在包括如图1所示的美国专利2008/0255854和2006/0212297中的方法的常规声音分段方法中，观察窗的尺寸是固定的，并且必须被事先决定。如果观察窗尺寸被设置得太大，则一些分割点可能被漏检。另一方面，如果观察窗尺寸被设置得太小，则将有太多观察窗要被处理，尽管这些观察窗中的很多可能根本不包含任何分割点，因此，计算量将相当大。因此，观察窗的尺寸必须被谨慎设置。另外，如果在原始声音序列中包含有非常长的声音段和非常短的声音段两者，则不得不花费大的不必要的计算量来获得正确的声音分段。

因此，需要能够执行正确的声音分段而无需大的不必要的计算量的新的声音分段方法。

为了解决上述的技术问题，本发明提供一种声音分段方法，包括：多级分段步骤，所述多级分段步骤包括：当前声音段分段步骤。所述当前声音段分段步骤包括：确定步骤，确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及分割步骤，如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段，其中，通过将通过所述分割步骤获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，以迭代方式执行所述当前声音段分段步骤，直到每一级中的未被分割的声音段都不满足所述规定条件为止。

此外，为了解决上述的技术问题，本发明提供一种声音分段设备，包括：多级分段单元，所述多级分段单元包括：当前声音段分段单元。所述当前声音段分段单元包括：确定单元，被配置为确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及分割单元，被配置为如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段，其中，通过将通过所述分割单元获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，所述当前声音段分段单元以迭代方式起作用，直到每一级中的未被分割的声音段都不满足所述规定条件为止。

此外，本发明提供一种说话者识别系统，包括：存储单元，被配置为存储多个说话者模型，每个所述说话者模型对应于一个声音类别；如前所述的声音分段设备，被配置为将声音序列分段为多个声音段；以及声音分类器，被配置为通过使用所述说话者模型，对从声音分段设备输出的声音段进行分类，以识别所述声音段的说话者。

得益于根据本发明的声音分段设备和声音分段方法，由于以多级的方式来执行声音分段，因此不必事先确定观察窗尺寸，并且，要被处理的声音段的长度可动态改变。因此，即使在原始声音序列中包含有非常长的声音段和非常短的声音段两者，也可无需大的不必要的计算量而获得正确的声音分段。

根据本发明的一些实施方式，声音分段处理不与声音分类无关，而是在声音分段期间利用声音分类。在这样的实施方式中，即使在噪声环境中，声音分段的精确度也可进一步提高。

从参照附图的以下描述中，本发明的其他特性特征和优势将变得清晰。

附图说明

并入说明书并且构成说明书的一部分的附图图示本发明的实施例，并且与描述一起用于说明本发明的原理。

图1示出现有技术中的常规声音分段方法的示意性流程图。

图2是示出可实施本发明的实施例的计算机系统的硬件配置的框图。

图3示出根据本发明的声音分段设备的示意性功能框图。

图4示出根据本发明的实施例的声音分段设备的示意性功能框图。

图5示出根据本发明的另一实施例的声音分段设备的示意性功能框图。

图6示出根据本发明的声音分段方法的流程图。

图7示出根据本发明的实施例的声音分段方法的说明性流程图。

图8示出根据本发明的另一实施例的声音分段方法的说明性流程图。

图9示出根据本发明的第一实施例的声音分段方法的流程图。

图10示出根据本发明的第一实施例的当前声音段分段步骤的示例性处理。

图11示出由各级的声音段组成的示例性树结构。

图12示出根据本发明的第一实施例的变型的声音分段方法的流程图。

图13示出根据本发明的第一实施例的变型的当前声音段分段步骤的示例性处理。

图14A-14E示出根据第一实施例的声音分段的示例性例子。

图15示出根据本发明的第二实施例的声音分段方法的流程图。

图16示出根据本发明的第二实施例的当前声音段分段步骤的示例性处理。

图17A-17C示出根据第二实施例的声音分段的示例性例子。

图18A-18C示出常规声音分段方法的性能和本发明的性能之间的比较。

图19示出用于说话者识别系统的示意性功能框图。

具体实施方式

以下将参照附图详细描述本发明的实施例。

请注意，相似的参考数字和字母指示图中的类似的项目，因而，一旦在一幅图中定义了一个项目，对于之后的图就不必再讨论它。

首先，将说明本公开中的上下文中的一些术语的含义。

当声音段S1包含声音段S2时，声音段S1是声音段S2的“祖先声音段”，声音段S2是声音段S1的“后代声音段”。后代声音段是从其祖先声音段直接(通过一次分割)或间接(通过多于一次的分割)分割得到的。

当声音段S2是通过一次分割而直接从声音段S1获得的时，声音段S1是声音段S2的“父声音段”，声音段S2是声音段S1的“子声音段”。

如果一个声音段不具有任何祖先声音段并且处于最高的级，则该声音段是“根声音段”。

当所有声音段都不可再被分割时(即，当每一级中的所有未被分割的声音段都不满足规定条件时)，不具有任何后代声音段并且处于最低的级的声音段是“叶子声音段”。

在本公开中，各个声音段可构成树结构中的各个节点。

当对应于特定声音段的特定节点具有树结构中的祖先节点时，所述祖先节点对应于该特定声音段的“祖先声音段”。

“父声音段”是所述特定声音段的最接近的祖先声音段。

当对应于特定声音段的特定节点具有树结构中的后代节点时，所述后代节点对应于该特定声音段的“后代声音段”。

“子声音段”是所述特定声音段的最接近的后代声音段。

对应于树结构的根节点的声音段是“根声音段”。

当所有声音段都不可再被分割时(即，当每一级中的所有未被分割的声音段都不满足规定条件时)，对应于树结构的叶子节点的声音段是“叶子声音段”。

如果序列中所包含的某邻域内的一个样本点具有该邻域内的最大值，并且该样本点不位于该邻域的两端，则该最大值被称为序列的“局部极大值”，该样本点被称为“具有局部极大值的点”或“与局部极大值对应的点”。一个序列可能具有一个或更多个局部极大值，也可能不具有局部极大值。

图2是示出可以实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图2所示，计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被插入到软盘驱动器1151中，以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。

诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器(调制器-解调器)1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途的任何限制。

图2所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

图3示出根据本发明的声音分段设备的示意性功能框图。

如图3所示，声音分段设备3000包括多级分段单元3100，所述多级分段单元3100包括当前声音段分段单元3110。所述当前声音段分段单元3110包括：确定单元3111，被配置为确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及分割单元3112，被配置为如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段。在声音分段设备3000中，通过将通过所述分割单元3112获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，所述当前声音段分段单元3110能够以迭代方式起作用，直到每一级中的未被分割的声音段都不满足所述规定条件为止。

图4示出根据本发明的实施例的声音分段设备的示意性功能框图。如从图4可看出的，除了上述的多级分段单元3100之外，声音分段设备3000还可包括：特征序列提取单元3200，被配置为从根声音段提取声音特征序列。此外，声音分段设备3000还可包括：分类单元3300，被配置为对通过所述多级分段单元3100获得的所有级别的各声音段进行分类，以获得所述各声音段的声音类别和对于将该声音段分类为所述声音类别的置信度分数；以及分类验证单元3400，被配置为确定叶子声音段及其所有祖先声音段当中具有最大置信度分数的声音段的声音类别，作为所述叶子声音段的声音类别。

图5示出根据本发明的另一实施例的声音分段设备的示意性功能框图。如从图5可看出的，除了确定单元3111和分割单元3112之外，当前声音段分段单元3110还可包括：当前声音段分类单元3113，所述当前声音段分类单元3113被配置为对所述当前声音段进行分类，以获得所述当前声音段的声音类别和对于将该当前声音段分类为所述声音类别的置信度分数。在这种情况下，所述规定条件可包括：当前声音段的置信度分数小于预定的置信度分数阈值。此外，除了上述的多级分段单元3100之外，声音分段设备3000还可包括：所述特征序列提取单元3200，被配置为从根声音段提取声音特征序列。

图4和图5中的每一个声音分段设备3000还可包括：合并单元3500，被配置为如果相邻的叶子声音段具有相同的声音类别，则合并所述相邻的叶子声音段。此外，图4和图5中的每一个声音分段设备3000还可包括：非静音声音段检测单元3600，被配置为检测非静音声音段作为所述根声音段。

以上单元和以下要描述的单元是用于实施以下要描述的处理的示例性和/或优选的模块。这些模块可以是硬件单元(诸如场可编程门阵列、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的模块。然而，只要有执行某个处理的步骤，就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过以下描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中，只要它们构成的这些技术方案是完整并且可应用的。

此外，由各种单元构成的上述设备可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外，计算机当然可以具有其他硬件或者软件部件。

现在将参照图6描述根据本发明的声音分段方法。图6示出根据本发明的声音分段方法的流程图。如图6所示，声音分段方法可包括多级分段步骤S600。所述多级分段步骤600包括当前声音段分段步骤S610的迭代。所述当前声音段分段步骤S610包括：确定步骤S620，确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及分割步骤S630，如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段。可以通过将在所述分割步骤S630中获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，以迭代方式执行所述当前声音段分段步骤S610，直到每一级中的未被分割的声音段都不满足所述规定条件为止。

图7示出根据本发明的实施例的声音分段方法的说明性流程图。如图7所示，除了如上所述的多级分段步骤S600以外，声音分段方法可进一步包括特征序列提取步骤S300，从根声音段提取声音特征序列。此外，所述声音分段方法还可包括：分类步骤S700，对通过所述多级分段步骤S600获得的所有级别的各声音段进行分类，以获得所述各声音段的声音类别和对于将该声音段分类为所述声音类别的置信度分数；以及分类验证步骤S800，确定叶子声音段及其所有祖先声音段当中具有最大置信度分数的声音段的声音类别，作为所述叶子声音段的声音类别。

图8示出根据本发明的另一实施例的声音分段方法的说明性流程图。如从图8可看出的，多级分段步骤S600由多级分段步骤S660代替。除了确定步骤S620和分割步骤S630以外，步骤S660中的当前声音段分段步骤S610还包括：当前声音段分类步骤S640，对所述当前声音段进行分类，以获得所述当前声音段的声音类别和对于将该当前声音段分类为所述声音类别的置信度分数。在这种情况下，所述规定条件可包括：当前声音段的置信度分数小于预定的置信度分数阈值。此外，除了如上所述的所述多级分段步骤S660以外，所述声音分段方法还可包括：特征序列提取步骤S300，用于从所述根声音段提取声音特征序列。

图7和图8中的每一个声音分段方法还可包括：合并步骤S900，如果相邻的叶子声音段具有相同的声音类别，则合并所述相邻的叶子声音段。此外，图7和图8中的每一个声音分段方法还可包括：非静音声音段检测步骤S200，检测非静音声音段作为所述根声音段。

以下，将描述本发明的一些特定实施例。然而本发明不限于这些特定实施例。

图9示出根据本发明的第一实施例的声音分段方法的流程图。

如图9所示，在步骤S200中，检测非静音声音段作为根声音段。可通过非静音声音段检测单元3600来执行从声音信号中对非静音声音段的检测。

例如，在Zheng Zhanheng等人的“Research on an end pointdetection method in speech signal”，Journal of Guilin University ofElectronic Technology，Vol.28，No.1，February，2008中提出的方法在此可被用于步骤S200。然而，用于非静音声音段检测的方法不限于任何特定的方法，也可将诸如使用时域信息(短时能量或过零率等)的方法、使用频域信息(线性预测参数或Mel傅立叶倒谱参数(MelFourier cepstral coefficient，MFCC)等)的方法以及使用时域信息和频域信息两者的方法之类的各种公知的语音端点检测(voice activitydetection，VAD)方法用于步骤S200。

在步骤S300中，从非静音声音段(根声音段)提取声音特征序列。可由特征序列提取单元3200来执行所述特征序列的提取。

在步骤S300中可以采用各种声音特征。例如，所述声音特征可以是感知特征，诸如短时能量(short-term energy，STE)、低短时能量比(low short time energy ratio，LSTER)、子带能量、过零率(zero-crossing rate，ZCR)、高过零率比(high zero-crossing rate ratio，HZCRR)、谱质心、谱带宽、基频等。所述声音特征也可以是倒谱系数，诸如Mel傅立叶倒谱系数(MFCC)、线性预测倒谱系数(linearpredictive cepstral coefficients，LPCC)、感知线性预测(perceptuallinear prediction，PLP)等。所述声音特征还可以是基于频率滤波器的谱参数，诸如基于对对数滤波器组能量、频率滤波器组能量(frequencyfilter bank energy，FFBE)等的频率序列进行滤波的参数等。

以上例示了许多声音特征。然而，应该注意，可取决于具体应用或具体声音类别来选择不同的声音特征。不同的声音特征及其一阶/二阶导数也可被结合以构建特征向量。类似地，可取决于具体应用或具体声音类别而采用不同声音特征的不同组合以构建特征向量。声音特征序列中的每个元素可以是这种特征向量。

在步骤S400中，从提取自非静音声音段(根声音段)的声音特征序列计算分割分数序列。可通过分割分数序列计算单元来计算分割分数序列。

分割分数序列指示对于每个候选分割点的信息熵。更具体地，分割分数序列中的每个值指示根声音段的信息熵与当对应于该值的点被作为根声音段的分割点时获得的两个子声音段的信息熵之间的差。例如，可通过使用Delta贝叶斯信息准则(ΔBIC)算法、交叉熵(相对熵)算法、广义似然比算法或CuSum算法等来获得分割分数序列。然而，分割分数序列不限于这些具体的序列，任何序列可被用作分割分数序列，只要其中的每个值指示根声音段的信息熵与当对应于该值的点被作为根声音段的分割点时获得的两个子声音段的信息熵之间的差即可。分割分数序列中具有局部极大值的点可被作为分割点。例如，在使用ΔBIC算法的情况下，ΔBIC序列中具有局部极大值的点可被作为分割点。

在此第一实施例中，在步骤S600中执行多级分段之前，在步骤S400中从提取自非静音声音段(根声音段)的声音特征序列计算分割分数序列。在本实施例的一种实现方式中，也可以在步骤S600之前找到分割分数序列中的所有与局部极大值对应的点。

在步骤S600中，对非静音声音段(根声音段)执行多级分段以获得多级分段结果。此多级分段结果可以包括不同级别的声音段。如图6所示，步骤S600包含当前声音段分段步骤S610的迭代。步骤S610包含：确定步骤S620，确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及分割步骤S630，如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段。在第一次执行步骤S610(在第一级中)时，当前声音段是非静音声音段(根声音段)。然后，通过将在前一级中在步骤S630中获得的每一个声音段作为当前声音段，以迭代的方式执行步骤S610，直到在每个级别中未被分割的声音段都不满足所述规定条件为止。

之后将参照图10描述步骤S600的示例性处理。

在步骤S600之后，在步骤S700中执行声音分类。可通过分类单元3300执行声音分类步骤。在声音分类步骤S700中，声音分类被应用于所有级别中的所有声音段，以确定每个叶子声音段(最低级别中的声音段)的候选声音类别。也就是说，叶子声音段的所有祖先声音段的声音类别和该叶子声音段自身的声音类别被确定为该叶子声音段的候选声音类别。

在此，可以应用各种声音分类方法。例如，在此可应用使用诸如高斯混合模型(GMM)、隐藏马尔可夫模型(HMM)或向量量化模型(VQM)之类的声学模型的声音分类。

要被检测的所有声音类别以及背景声音(噪声)构成类别集。可取决于实际应用而任意确定类别集。例如，该类别集可以是不同说话者的类别的集合，或者该类别集可以是包括哭声、鼓掌声、笑声等的不同声音的类别的集合。每个声音段将被分类为类别集内的声音类别。在使用声学模型的情况下，通过事先使用训练数据而利用声学模型将类别集中的各声音类别建模为声音类别模型。声音类别模型可被存储在存储单元(未示出)中，该存储单元可以位于声音分段设备的外部。在声音分类处理中，对于在多级分段步骤S600中获得的每个声音段，计算所有声音类别模型的输出分类分数，并且，将与具有最大输出分类分数(分类分数指示一个声音段属于一个声音类别的似然性或概率)的声音类别模型对应的声音类别确定作为目标声音段的声音类别。例如，在此可使用在Lv Xiaoyun et.al.，“Abnormal Audio RecognitionAlgorithm Based on MFCC and Short-term Energy”，Journal ofComputer Applications，Vol.30，No.3，March 2010中提出的声音分类方法。

由于在现有技术中已公开了许多声音分类方法和分类器，因此在此不描述声音分类的细节。

然后，从输出分类分数中的一个或更多个计算对于将声音段分类为其声音类别的置信度分数，所述置信度分数指示将该声音段分类为该声音类别有多么可信。例如，置信度分数可以是通过声音段的长度(相当于声音段中的数据点的数量)归一化的最大输出分类分数。作为替换方案，置信度分数可以是通过声音段的长度归一化的最大输出分类分数和第二大的输出分类分数之间的差值。在此也可以使用HuiJiang，“Confidence Measures for Speech Recognition：A Survey”inSpeech Communication 45，pp.455-470，2005中描述的置信度分数。

在步骤S800中，执行分类验证。可通过分类验证单元3400来执行所述分类验证。在所述分类验证中，对于每个叶子声音段(即，最低级别中的声音段)，将该叶子声音段的置信度分数与所有其祖先声音段的置信度分数进行比较，并且，在该叶子声音段和其所有祖先声音段当中具有最大置信度分数的声音段的声音类别被确定作为该叶子声音段的声音类别。换言之，将在叶子声音段的所有候选声音类别当中具有最大置信度分数的声音类别分配给该叶子声音段。

在步骤S900中，如果相邻的叶子声音段具有相同声音类别，则所述相邻的叶子声音段被合并。可通过合并单元3500来执行所述合并。然后，合并步骤S900之后的叶子声音段被作为要被输出的最终声音分段结果。

现在描述步骤S600的一种示例性处理的细节。

如图6所示，步骤S600包含当前声音段分段步骤S610的迭代。

图10示出根据本发明的第一实施例的当前声音段分段步骤S610的一种示例性处理。

在步骤S601中确定当前声音段的长度是否大于预定长度阈值。如果确定当前声音段的长度大于预定长度阈值(步骤S601中为“是”)，则流程去往步骤S602。如果确定当前声音段的长度不大于预定长度阈值(步骤S601中为“否”)，则当前声音段不能再被分割。长度阈值可以取决于具体应用或类别集而被预先确定。作为替换方案，如果在非静音声音段检测步骤S200中检测到多个非静音声音段，则与若干个最短非静音声音段的长度相关的长度可被用作长度阈值。例如，两个最短非静音声音段中的任何一个的长度可被用作所述长度阈值。作为替换方案，最短的三个非静音声音段的平均长度可被用作所述长度阈值。在实际中，可根据实际需要来确定所述长度阈值。

在步骤S602中，确定部分分割分数序列是否具有局部极大值。如果确定部分分割分数序列具有局部极大值(步骤S602中为“是”)，则流程去往步骤S603，在步骤S603，当前声音段被分割为两个或更多子声音段(下一级声音段)。如果确定部分分割分数序列不具有局部极大值(步骤S602中为“否”)，则当前声音段不能再被分割。

步骤S602或步骤S601和S602可以对应于确定步骤S620，并且可由确定单元3111实施。在这种情况下，上述的规定条件包括这样的条件：对应于当前声音段的部分分割分数序列具有局部极大值。此外，上述的规定条件还可包括这样的条件：当前声音段的长度大于预定长度阈值。

步骤S603可对应于分割步骤S630，并且可以由分割单元3112实施。

上述的与当前声音段对应的部分分割分数序列是在步骤S400中计算的分割分数序列的一部分，并且对应于当前声音段。在本实施例的一种实施方式中，分割分数序列中与局部极大值对应的所有点可以在步骤S600之前被事先找到，并且可被取出供在步骤S602中使用。作为替换方案，可在步骤S602中对于每个当前声音段找到部分分割分数序列中具有相应的局部极大值的点。

虽然图10示出三个子声音段作为分割步骤S603的结果，但是应注意，分割中的子声音段的数量不限于三个。例如，子声音段的数量可以为两个，并且在这种情况下，用于执行分割的点可以是具有最大的局部极大值的点或者是具有最大的局部极大值的点的邻域内的点。子声音段的数量也可以是三个或更多。例如，用于执行分割的点可以是具有三个最大的局部极大值的点或者是具有三个最大的局部极大值的点的邻域内的点。

如图6所示，多级分段步骤S600包括当前声音段分段步骤S610的迭代。更具体地，在第一级中，作为根声音段的非静音声音段被作为当前声音段。在步骤S610输出当前声音段的子声音段(下一级声音段)的情况下，这些子声音段被作为所述下一级中的当前声音段并且进一步被输入到当前声音段分段步骤S610。这种迭代被反复执行，直到每一个级别中未被分割的声音段都不满足所述规定条件为止。换言之，由分割获得的每个声音段将进一步经受步骤S610的处理，直到根据所述规定条件的确定而没有可以被进一步分割的声音段为止。

各级别的声音段可被构建为树结构。在步骤S603仅产生一个分割点的情况下(在一个当前声音段被分割为两个子声音段的情况下)，树结构是二叉树。当声音段被构建为树结构时，可使用若干参数来表示与树结构中的节点对应的声音段。例如，所述参数可包括声音段的级别、声音段的开始点和声音段的结束点。在这种情况下，可通过(结束点-开始点+1)来计算声音段的长度。当由(级别，开始点，结束点)表示的声音段在分割点(x)处被分割时，可分别由(级别+1，开始点，x)和(级别+1，x+1，结束点)来表示子声音段。

图11示出各级别的声音段的示例性树结构。在所述树结构中，子声音段是通过分割其父声音段而获得的。请注意，图11中所示的树结构仅是用于便于对本发明的理解的例子。

现在，将参照图12描述第一实施例的变型。图12示出根据本发明的第一实施例的变型的声音分段方法的流程图。

除了在步骤S600和S800之间没有分类步骤S700以外，图12中的流程图与图9中的相同。替代地，分类步骤S710在当前声音段分段步骤S610中实施，如图13所示。

图13示出根据本发明的第一实施例的变型的当前声音段分段步骤S610的一种实例性处理。除了在当前声音段分段步骤S610中执行分类步骤S710之外，图13中的流程图与图10中的相同。

如从图12和13与图9和10的比较可看出的，根据第一实施例的变型，各声音段的分类不是在多级分段步骤S600之后执行，而是在当前声音段分段步骤S610中对于各当前声音段执行。

第一实施例的变型中的其他步骤和特征与第一实施例中的步骤和特征相同，因此省略对其的描述。

虽然图13示出在步骤S601之前执行分类步骤S710，但是也可在步骤S610的流程中的任何地方执行步骤S710。

类似地，虽然图10和13示出在步骤S602之前执行步骤S601，但是也可在步骤S602之后执行步骤S601。

图14A～14E示出根据第一实施例的声音分段的示例性例子。图14A～14E中示出的示例性例子使用ΔBIC序列作为分割分数序列。

如图14A所示，根声音段(1，S，E)经受步骤S610的处理。根声音段(1，S，E)的分割分数序列(见图14A中的曲线)具有对应于局部极大值的点X1、X2和X3。然后，可选择具有最大的局部极大值的点X1作为分割点以将根声音段(1，S，E)分割成下一级声音段(2，S，X1)和(2，X1+1，E)。然后，声音段(2，S，X1)和(2，X1+1，E)进一步经受步骤S610。由于声音段(2，S，X1)的部分分割分数序列具有对应于局部极大值的点X2，因此它被进一步分割为声音段(3，S，X2)和(3，X2+1，X1)。类似地，由于声音段(2，X1+1，E)的部分分割分数序列具有对应于局部极大值的点X3，该声音段被进一步分割为声音段(3，X1+1，X3)和(3，X3+1，E)。现在，没有尚未被分割并且具有对应于局部极大值的点的声音段。因此，步骤S600的分段结果如图14B所示。

对所有级别的各声音段执行分类(分类步骤S700或S710)，并且，在图14C中示出分类结果。从图14C可看出，声音段(1，S，E)的声音类别为“噪声”，将声音段(1，S，E)分类为声音类别“噪声”的置信度分数为0.035；声音段(2，S，X1)的声音类别为“噪声”，将声音段(2，S，X1)分类为声音类别“噪声”的置信度分数为0.033；声音段(2，X1+1，E)的声音类别为“鼓掌声”，将声音段(2，X1+1，E)分类为声音类别“鼓掌声”的置信度分数为0.046；声音段(3，S，X2)的声音类别为“哭声”，将声音段(3，S，X2)分类为声音类别“哭声”的置信度分数为0.038；声音段(3，X2+1，X1)的声音类别为“鼓掌声”，将声音段(3，X2+1，X1)分类为声音类别“鼓掌声”的置信度分数为0.045；声音段(3，X1+1，X3)的声音类别为“烟花爆竹声”，将声音段(3，X1+1，X3)分类为声音类别“烟花爆竹声”的置信度分数为0.032；以及声音段(3，X3+1，E)的声音类别为“噪声”，将声音段(3，X3+1，E)分类为声音类别“噪声”的置信度分数为0.047。

然后，在分类验证步骤S800之后，叶子声音段的声音类别可如下被确定：声音段(3，S，X2)被确定为落入声音类别“哭声”内，声音段(3，X2+1，X1)被确定为落入声音类别“鼓掌声”内，声音段(3，X1+1，X3)被确定为落入声音类别“鼓掌声”内，以及声音段(3，X3+1，E)被确定为落入声音类别“噪声”内，如图14D所示。

由于存在具有相同声音类别“鼓掌声”的相邻的叶子声音段，因此这些相邻的叶子声音段在合并步骤S900中被合并为一个声音段，如图14E所示。图14E中示出的结果可作为声音分段结果(声音检测结果)而被输出。

如图15所示，第二实施例与第一实施例的主要区别在于，多级分段步骤S600由多级分段步骤S660代替，不在多级分段步骤S660之前执行分割分数计算步骤S400，以及不在多级分段步骤S660之后执行分类步骤S700和分类验证步骤S800。

由于非静音声音段检测步骤S200和特征序列提取步骤S300可以与第一实施例中的相同，因此省略对其的描述。

在步骤S660中，对非静音声音段(根声音段)执行多级分段，以获得多级分段结果。该多级分段结果可以包括不同级别的声音段。如图8所示，步骤S660包括当前声音段分段步骤S610的迭代。步骤S660的步骤S610包括：当前声音段分类步骤S640，对当前声音段进行分类，以获得当前声音段的声音类别和将该当前声音段分类为该声音类别的置信度分数；确定步骤S620，确定当前声音段是否满足规定条件；分割步骤S630，如果确定所述当前声音段满足所述规定条件，则将当前声音段分割为至少两个下一级声音段。

在步骤S610被首次执行时(在第一级中)，当前声音段是非静音声音段(根声音段)。然后，通过将在前一级中在步骤S630中获得的每个声音段作为当前声音段，以迭代方式执行步骤S610，直到所有叶子声音段(在各级中未被分割的声音段)都不满足所述规定条件为止。

在步骤S900中，如果相邻的叶子声音段具有相同的声音类别，则合并所述相邻的叶子声音段。可以通过合并单元3500来执行所述合并。然后，合并步骤S900之后的叶子声音段(最低级别中的声音段)可被作为要被输出的最终声音分段结果。

现在，将描述步骤S660的示例性处理的细节。

图16示出根据本发明的第二实施例的当前声音段分段步骤S610的示例性处理。

在当前声音段分类步骤S720中，对当前声音段执行声音分类。能够以与在第一实施例中描述的步骤S700或步骤S710相同的方式来执行当前声音段分类步骤S720。可通过当前声音段分类单元3113来执行当前声音段分类步骤S720。

由于如第一实施例中所述的那样在现有技术中已公开了许多声音分类方法和分类器，因此不在此描述声音分类的细节。

然后，从输出分类分数中的一个或更多个计算将当前声音段分类到其声音类别的置信度分数，所述置信度分数指示将该声音段分类到该声音类别有多么可信。置信度分数也可与第一实施例中的置信度分数相同。

然后，在步骤S730中确定置信度分数是否小于预定的置信度分数阈值。可取决于具体应用或精确度要求来确定置信度分数阈值。如果确定置信度分数小于预定的置信度分数阈值(步骤S730中为“是”)，则流程去往步骤S601。如果确定置信度分数不小于预定的置信度分数阈值(步骤S730中为“否”)，则当前声音段不能再被分割。

在步骤S601中，确定当前声音段的长度是否大于预定的长度阈值。如果确定所述当前声音段的长度大于所述预定的长度阈值(步骤S601中为“是”)，则流程去往步骤S740。如果确定所述当前声音段的长度不大于所述预定的长度阈值(步骤S601中为“否”)，则当前声音段不能再被分割。可使用与第一实施例中相同的方式来确定所述长度阈值。

在步骤S740中，对于当前声音段计算分割分数序列。可以通过分割分数序列计算单元，从特征序列的与当前声音段对应的部分计算分割分数序列。也就是说，在第二实施例中，不是在步骤S600之前对根声音段计算分割分数序列，而是在当前声音段分段步骤S610中对每个当前声音段计算分割分数序列。分割分数序列指示对于每个候选分割点的信息熵。更具体地，当前声音段的分割分数序列中的每个值指示当前声音段的信息熵与当对应于该值的点被作为当前声音段的分割点时获得的两个子声音段的信息熵之间的差。与第一实施例类似，可通过使用Delta贝叶斯信息准则(ΔBIC)算法、交叉熵(相对熵)算法、广义似然比算法或CuSum算法等来获得分割分数序列。例如，在使用ΔBIC算法的情况下，ΔBIC序列中具有局部极大值的点可被作为分割点。

在步骤S750中，确定当前声音段的分割分数序列是否具有局部极大值，而不是如步骤S602中那样确定部分分割分数序列是否具有局部极大值。如果确定当前声音段的分割分数序列具有局部极大值(步骤S750中为“是”)，则流程去往步骤S603，在步骤S603中，当前声音段被分割为两个或更多子声音段(下一级声音段)。如果确定当前声音段的分割分数序列不具有局部极大值(步骤S750中为“否”)，则当前声音段不能再被分割。

步骤S720可以对应于图8中的当前声音段分类步骤S640，并且可以由当前声音段分类单元3113实施。

步骤S730、S601、S740和S750可对应于图8中的确定步骤S620，并且可由确定单元3111实施。在这种情况下，上述的规定条件包括这样的条件：置信度分数小于预定的置信度分数阈值。此外，上述的规定条件还可包括这样的条件：当前声音段的分割分数序列具有局部极大值。此外，上述的规定条件还可包括这样的条件：当前声音段的长度大于所述预定的长度阈值。

步骤S603可对应于图8中的分割步骤S630，并且可由分割单元3112实施。

虽然图16示出三个子声音段作为分割步骤S603的结果，但是应注意，分割中的子声音段的数量不限于三个。例如，子声音段的数量可以为两个，并且在这种情况下，用于执行分割的点可以是分割分数序列中具有最大的局部极大值的点或者是具有最大的局部极大值的点的邻域内的点。子声音段的数量也可以是三个或更多。例如，用于执行分割的点可以是分割分数序列中具有三个最大的局部极大值的点或者是具有三个最大的局部极大值的点的邻域内的点。

如图6所示，与第一实施例类似地，多级分段步骤S660包含当前声音段分段步骤S610的迭代。更具体地，在第一级中，作为根声音段的非静音声音段被作为当前声音段。在步骤S610输出当前声音段的子声音段(下一级声音段)的情况下，这些子声音段被作为下一级中的当前声音段并且进一步输入到当前声音段分段步骤S610。这种迭代被重复执行，直到各级别中的未被分割的声音段均不满足所述规定条件为止。换言之，由分割获得的各声音段将进一步经受步骤S610的处理，直到根据利用所述规定条件的确定而没有可以被进一步分割的声音段为止。

与第一实施例类似地，各级别的声音段可被构建为树结构。

类似地，虽然图16示出在步骤S750之前执行步骤S601，但是也可在步骤S750之后执行步骤S601。

图17A～17C示出根据第二实施例的声音分段的示例性例子。图17A～17C中示出的示例性例子使用ΔBIC序列作为分割分数序列。

如图17A所示，根声音段(1，S，E)经受步骤S610的处理。在分类之后，具有最大的输出分类分数的声音类别是“噪声”，其归一化分类分数为0.040，具有第二大的输出分类分数的声音类别是“笑声”，其归一化分类分数为0.037。在此示例性实施例中，经声音段的长度归一化的最大的输出分类分数和第二大的输出分类分数之间的差值被作为置信度分数。因此，对于根声音段(1，S，E)，分类为声音类别“噪声”的置信度分数为0.040-0.037＝0.003，这小于置信度分数阈值(在此示例性例子中，该置信度分数阈值被设为0.01)。此外，根声音段(1，S，E)的分割分数序列(见图17A中的曲线)具有与最大的局部极大值对应的点X1。然后，根声音段(1，S，E)的分割分数序列的具有最大的局部极大值的点X1可被选择作为分割点以将根声音段(1，S，E)分割为下一级声音段(2，S，X1)和(2，X1+1，E)。

然后，声音段(2，S，X1)和(2，X1+1，E)进一步经受步骤S610的处理。

在将声音段(2，S，X1)进行分类之后，具有最大的输出分类分数的声音类别是“噪声”，其归一化分类分数为0.049，而具有第二大的输出分类分数的声音类别是“笑声”，其归一化分类分数为0.035。因此，对于声音段(2，S，X1)，分类为声音类别“噪声”的置信度分数为0.049-0.035＝0.014，这大于置信度分数阈值，因此，声音段(2，S，X1)不能再被分割。

另一方面，在对声音段(2，X1+1，E)进行分类之后，具有最大的输出分类分数的声音类别是“噪声”，其归一化分类分数为0.045，并且，具有第二大的输出分类分数的声音类别是“笑声”，其归一化分类分数为0.039。因此，对于声音段(2，X1+1，E)，分类到声音类别“噪声”的置信度分数为0.045-0.039＝0.006，其小于置信度分数阈值。此外，声音段(2，X1+1，E)的分割分数序列(见图17B中的曲线)具有与局部极大值对应的点X2。然后，声音段(2，X1+1，E)的分割分数序列的具有最大的局部极大值的点X2可被选择作为分割点以将声音段(2，X1+1，E)分割成下一级声音段(3，X1+1，X2)和(3，X2+1，E)。

在对声音段(3，X1+1，X2)进行分类之后，具有最大的输出分类分数的声音类别是“笑声”。在对声音段(3，X2+1，E)进行分类之后，具有最大的输出分类分数的声音类别是“噪声”。由于声音段(3，X1+1，X2)和声音段(3，X2+1，E)都不满足所述规定条件，因此它们不再被分割，并且分段结果如图17C所示。

以上已描述了本发明的实施例。根据本发明，由于以多级方式执行声音分段，因此没有必要事先确定观察窗尺寸，并且，待处理的声音段的长度可动态变化。

此外，即使在根声音段中包含非常长的声音段和非常短的声音段二者，由于没有必要为找到非常短的声音段而固定短的观察窗，因此计算量可以较小。

此外，根据以上所述的一些实施例，声音分段处理不与声音分类无关而是在声音分段期间利用声音分类。在这些实施方式中，与其中声音分段处理与声音分类无关的常规声音分段方法相比，可进一步提高声音分段的精确度。

现在将描述用于计算分割分数序列的一个具体例子。在这个具体例子中，使用Delta贝叶斯信息准则(ΔBIC)算法作为用于计算分割分数序列的方法。然而，分割分数序列的计算方法决不限于以下给出的具体例子。如在上面已经说明的那样，通过交叉熵(相对熵)算法、广义似然比算法、CuSum算法等获得的其他分割分数序列也可被使用，只要其中的值指示当与该值对应的点被作为声音段的分割点时获得的信息熵即可。

假设在特征序列提取步骤S300中计算的特征序列由序列X＝{x_i}表示，其中i＝1，2，...，n₁，n₁+1，...，n₁+n₂，并且，每个x_i是具有d个实分量的向量。

当特征序列X由一个高斯模型描述时，可由下式(1)描述该特征序列X：

H_{0} : x_{1}, . . ., x_{n_{1} + n_{2}} ~ N (μ, Σ) - - - (1)

其中，H₀意味着这样的假设：{x_i}服从均值向量为μ并且协方差矩阵为∑的高斯模型N(μ，∑)。

当特征序列X由两个高斯模型描述时，可由下式(2)描述该特征序列X：

H_{1} : x_{1}, . . ., x_{n_{1}} ~ N (μ_{1}, Σ_{1}); x_{n_{1 + 1}}, . . ., x_{n_{1} + n_{2}} ~ N (μ_{2}, Σ_{2}) - - - (2)

其中，H₁意味着这样的假设：x₁，...x_n1服从均值向量为μ₁并且协方差矩阵为∑₁的高斯模型N(μ₁，∑₁)，而x_n1+1，...x_n1+n2服从均值向量为μ₂并且协方差矩阵为∑₂的高斯模型N(μ₂，∑₂)。这里，x_n1是假设的分割点。

然后，可如下计算假设的分割点x_n1的ΔBIC值：

ΔBIC = (n_{1} + n_{2}) \log | Σ | - n_{1} \log | Σ_{1} | - n_{2} \log | Σ_{2} | - \frac{1}{2} λ D \log N - - - (3)

其中，D＝d+0.5d(d+1)，d表示特征的分量的数量，N＝n₁+n₂。参数λ可取决于具体应用而被确定，但在本发明中可以是任意值(诸如0、0.5或1)。

当式(3)被应用于特征序列中的每个点(每个假设的分割点)时，可获得ΔBIC序列，所述ΔBIC序列包含对于每个点的ΔBIC值。

在使用ΔBIC序列的常规的声音分段方法中，如果在一个点处ΔBIC＞0，则确定声音段可在该点处被分割为两个声音段。然而，根据常规声音分段方法，式(3)中的参数λ需要被预先定义。一般地，以实验方式或统计方式事先决定该参数。对于不同种类的目标声音事件(不同种类的声音类别)，用于实现最佳性能的参数λ可能是不同的。因此，每次对于不同种类的目标声音事件，有必要调整参数λ以实现最佳性能。此外，在常规方法中，适当的参数λ还取决于噪声环境。适合于无噪环境的参数λ可能在噪声环境中导致误差。

另一方面，由于本例子仅检测ΔBIC序列中的局部极大值(换言之，峰值)而不是将ΔBIC值与诸如零之类的具体值进行比较，因此对参数λ的调整变得不必要，并且，可对该参数λ设置任意值(诸如0、0.5或1)。

图18A～18C示出常规声音分段方法的性能与本发明的性能之间的比较。在常规声音分段方法中，使用固定的观察窗，并且取决于是否ΔBIC＞0而确定分割点。

图18A示出原始输入声音信号，图18B示出通过常规声音分段方法获得的分段结果，并且，图18C示出通过本发明的多级分段方法获得的分段结果。

从图18B和18C可以看出，使用常规声音分段方法，在检测中漏检了鼓掌声音段和婴儿声音段，而通过使用本发明的多级分段方法实际地检测到鼓掌声音段和婴儿声音段。

根据本发明的声音分段方法和声音分段设备可被用于许多应用中。例如，根据本发明的声音分段方法和声音分段设备可被用于说话者识别。

图19示出用于说话者识别系统的示意性框图。所述说话者识别系统包括根据本发明的声音分段设备3000以及用于存储不同说话者1～N的模型的存储单元，其中N为正整数。每一个说话者模型是对于一个说话者类别(例如，一类说话者或一个特定说话者)被建模的。所述说话者识别系统还包括声音分类器，所述声音分类器被配置为通过使用所述说话者模型来对从声音分段设备3000输出的声音段进行分类，以识别声音段的说话者。

例如，所述说话者模型可使用诸如高斯混合模型(GMM)、隐藏马尔可夫模型(HMM)或向量量化模型(VQM)等的声学模型。所述类别集也可以包括背景声音(噪声)。也就是说，也可以存在用于背景声音(噪声)的模型。所述类别集中的每个类别(特定的说话者类别或背景声音)已通过事先使用训练数据而由声学模型被建模为说话者模型。

通过使用在存储单元中存储的说话者模型，声音分段设备3000可使用这些说话者模型的说话者类别作为声音分类中的声音类别而对声音信号执行分段，并且输出被分类为相应的说话者类别的声音段。因此，图19中所示的说话者识别系统可被用于对声音信号进行分段并且识别其中涉及的说话者。

可以通过许多方式来实施本发明的方法和设备。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种声音分段方法，包括：

多级分段步骤，所述多级分段步骤包括：

当前声音段分段步骤，所述当前声音段分段步骤包括：

确定步骤，确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及

分割步骤，如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段，

其中，通过将通过所述分割步骤获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，以迭代方式执行所述当前声音段分段步骤，直到每一级中的未被分割的声音段都不满足所述规定条件为止，

其中，各个声音段构成树结构中的各个节点，对应于树结构的根节点的声音段是根声音段，以及，当每一级中的未被分割的声音段都不满足所述规定条件时，对应于树结构的叶子节点的声音段是叶子声音段，

所述规定条件包括：对应于当前声音段的部分分割分数序列具有局部极大值，其中，所述部分分割分数序列是根声音段的分割分数序列的一部分并且对应于所述当前声音段，所述分割分数序列中的每个值指示当对应于该值的点被作为根声音段的分割点时获得的信息熵，以及

在所述分割步骤中，在部分分割分数序列中具有最大的局部极大值的点处或者具有最大的局部极大值的点的邻域内的点处分割所述当前声音段。

2.根据权利要求1的声音分段方法，还包括：

特征序列提取步骤，从所述根声音段提取声音特征序列，

其中，所述分割分数序列是从所述声音特征序列计算的。

3.根据权利要求1的声音分段方法，其中

当对应于特定声音段的特定节点具有树结构中的祖先节点时，所述祖先节点对应于所述特定声音段的祖先声音段，

所述声音分段方法还包括：

分类步骤，对通过所述多级分段步骤获得的所有级别的各声音段进行分类，以获得所述各声音段的声音类别和对于将该声音段分类为所述声音类别的置信度分数；以及

分类验证步骤，确定叶子声音段及其所有祖先声音段当中具有最大置信度分数的声音段的声音类别，作为所述叶子声音段的声音类别。

4.根据权利要求1-3中的任一项的声音分段方法，其中

所述规定条件还包括：当前声音段的长度大于预定的长度阈值。

5.根据权利要求3的声音分段方法，还包括：

合并步骤，如果相邻的叶子声音段具有相同的声音类别，则合并所述相邻的叶子声音段。

6.根据权利要求1-3和5中的任一项的声音分段方法，其中

所述分割分数序列是Delta贝叶斯信息准则序列。

7.根据权利要求1-3和5中的任一项的声音分段方法，还包括：

非静音声音段检测步骤，检测非静音声音段作为所述根声音段。

8.一种声音分段方法，包括：

多级分段步骤，所述多级分段步骤包括：

当前声音段分段步骤，所述当前声音段分段步骤包括：

所述当前声音段分段步骤还包括：当前声音段分类步骤，对所述当前声音段进行分类，以获得所述当前声音段的声音类别和对于将该当前声音段分类为所述声音类别的置信度分数，

所述规定条件包括：当前声音段的置信度分数小于预定的置信度分数阈值，以及当前声音段的分割分数序列具有局部极大值，其中，所述分割分数序列中的每个值指示当对应于该值的点被作为当前声音段的分割点时获得的信息熵，

在所述分割步骤中，在所述分割分数序列中具有最大的局部极大值的点处或者具有最大的局部极大值的点的邻域内的点处分割所述当前声音段。

9.根据权利要求8的声音分段方法，还包括：

特征序列提取步骤，从所述根声音段提取声音特征序列，

其中，所述分割分数序列是从所述声音特征序列的对应于当前声音段的部分计算的。

10.根据权利要求8的声音分段方法，其中，当对应于特定声音段的特定节点具有树结构中的祖先节点时，所述祖先节点对应于所述特定声音段的祖先声音段，

所述声音分段方法还包括：

11.根据权利要求8的声音分段方法，其中

12.根据权利要求8的声音分段方法，还包括：

13.根据权利要求8-12中的任一项的声音分段方法，其中

所述分割分数序列是Delta贝叶斯信息准则序列。

14.根据权利要求8-12中的任一项的声音分段方法，还包括：

15.一种声音分段设备，包括：

多级分段单元，所述多级分段单元包括：

当前声音段分段单元，所述当前声音段分段单元包括：

确定单元，被配置为确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及

分割单元，被配置为如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段，

其中，通过将通过所述分割单元获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，所述当前声音段分段单元以迭代方式起作用，直到每一级中的未被分割的声音段都不满足所述规定条件为止，

各个声音段构成树结构中的各个节点，对应于树结构的根节点的声音段是根声音段，以及，当每一级中的未被分割的声音段都不满足所述规定条件时，对应于树结构的叶子节点的声音段是叶子声音段，

所述分割单元在部分分割分数序列中具有最大的局部极大值的点处或者具有最大的局部极大值的点的邻域内的点处分割所述当前声音段。

16.根据权利要求15的声音分段设备，还包括：

特征序列提取单元，被配置为从所述根声音段提取声音特征序列，

其中，所述分割分数序列是从所述声音特征序列计算的。

17.根据权利要求15的声音分段设备，其中

所述声音分段设备还包括：

分类单元，被配置为对通过所述多级分段单元获得的所有级别的各声音段进行分类，以获得所述各声音段的声音类别和对于将该声音段分类为所述声音类别的置信度分数；以及

分类验证单元，被配置为确定叶子声音段及其所有祖先声音段当中具有最大置信度分数的声音段的声音类别，作为所述叶子声音段的声音类别。

18.根据权利要求15-17中的任一项的声音分段设备，其中

19.根据权利要求17的声音分段设备，还包括：

合并单元，被配置为如果相邻的叶子声音段具有相同的声音类别，则合并所述相邻的叶子声音段。

20.根据权利要求15-17和19中的任一项的声音分段设备，其中

所述分割分数序列是Delta贝叶斯信息准则序列。

21.根据权利要求15-17和19中的任一项的声音分段设备，还包括：

非静音声音段检测单元，被配置为检测非静音声音段作为所述根声音段。

22.一种声音分段设备，包括：

多级分段单元，所述多级分段单元包括：

当前声音段分段单元，所述当前声音段分段单元包括：

所述当前声音段分段单元还包括：当前声音段分类单元，所述当前声音段分类单元被配置为对所述当前声音段进行分类，以获得所述当前声音段的声音类别和对于将该当前声音段分类为所述声音类别的置信度分数，

所述分割单元在所述分割分数序列中具有最大的局部极大值的点处或者具有最大的局部极大值的点的邻域内的点处分割所述当前声音段。

23.根据权利要求22的声音分段设备，还包括：

24.根据权利要求22的声音分段设备，其中，当对应于特定声音段的特定节点具有树结构中的祖先节点时，所述祖先节点对应于所述特定声音段的祖先声音段，

所述声音分段设备还包括：

25.根据权利要求22的声音分段设备，其中

26.根据权利要求22的声音分段设备，还包括：

27.根据权利要求22-26中的任一项的声音分段设备，其中

所述分割分数序列是Delta贝叶斯信息准则序列。

28.根据权利要求22-26中的任一项的声音分段设备，还包括：

29.一种说话者识别系统，包括：

存储单元，被配置为存储多个说话者模型，每个所述说话者模型对应于一个声音类别；

根据权利要求15-28中的任一项的声音分段设备，被配置为将声音序列分段为多个声音段；以及

声音分类器，被配置为通过使用所述说话者模型，对从声音分段设备输出的声音段进行分类，以识别所述声音段的说话者。