CN102655002B

CN102655002B - 音频处理方法和音频处理设备

Info

Publication number: CN102655002B
Application number: CN2011100492981A
Authority: CN
Inventors: 鲁耀杰; 尹悦燕; 郑继川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2011-03-01
Filing date: 2011-03-01
Publication date: 2013-11-27
Anticipated expiration: 2031-03-01
Also published as: CN102655002A

Abstract

本发明提供一种音频处理方法和设备，该方法包括以下步骤：a)根据音频物理特性将音频初始地分段为一个或多个片段；对于所述一个或多个片段中的每个片段：b)在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；c)针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；d)通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及e)通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点。

Description

音频处理方法和音频处理设备

技术领域

本发明涉及一种音频处理方法和音频处理设备，且更具体地，涉及一种用于检测说话人改变点的音频处理方法和音频处理设备。

背景技术

现今，随着数据量的不断增加，越来越需要从大量数据中提取有意义的信息。一种这样的应用是从音频中提取信息。这种音频可以包括例如语音音频、新闻广播、电话交谈、或非语音的音频、诸如音乐或背景噪声等。但是，音频文件通常被认为是仅具有诸如名称、文件格式、采样率等的最原始信息标签的晦涩字节。为了使得音频文件更容易访问和处理，需要从音频文件中提取更多的信息、诸如音频数据的重要信息之一的说话人相关的信息，来有助于语音识别、音频检索等应用，来用于说话人跟踪麦克风、说话人自动对焦的摄像系统、机器人(人机对话)等的产品。为了从音频中提取这些有意义的信息，一般需要通过找到诸如说话人改变点的音频改变点来对音频进行分段，使得每个音频片段可能仅包括同一说话人、或同一声学条件、或同一类别的音频，由此单独地处理每个音频片段，例如对每个音频片段建立同一声学模型等，从而实现语音识别、音频检索等的目的。

已经提出了很多技术来对音频进行分段。其中广泛应用的一种方式是基于贝叶斯信息准则(Bayesian Information Criterion，BIC)来对音频进行分段。BIC用于通过确定信号特征改变的最可能的位置来确定音频片段分界的位置。BIC给出了一种准则来确定在音频中某个点处的改变是否是显著的。

在Chen S，Gopalakrishnan P的论文“Speaker，environment and channelchange detection and clustering via the Bayesian information criterion”，DARPABroadcast News Trans and Under Workshop，1998.8中描述了如何使用BIC准则来确定在音频中的改变点。首先，BIC方法从整个音频段中针对每个时间点提取倒频向量(cepstral vector)的序列，然后通过高斯模型来计算在每个时间点处的BIC值，并将BIC值之间的差ΔBIC的大于0的最大值所处的时间点认为是音频改变点。

在美国专利US7243062中也公开了一种使用BIC来找到音频改变点并对音频序列进行分段的方法和装置。其沿着音频序列形成一系列帧，且对于每个帧提取数据特征以形成数据特征的序列。通过拉普拉斯分布模型来对数据特征的序列计算BIC的值，并计算BIC之间的差ΔBIC，将ΔBIC的大于0的最大值所处的时间点认为是音频改变点。

发明内容

现有技术都使用ΔBIC的最大值来判断音频改变点，而没有考虑ΔBIC的值的趋势、分布、曲线的形状等。因此，当在音频中本不应该是音频改变点的时间点处发生了波形上的突变、例如同一说话人突然提高嗓音时，现有的基于ΔBIC的最大值的判断方式可能将该点判断为说话人改变点，但此时说话人实际并未改变，这样将导致说话人改变点的判断错误，使得后续的说话人相关的处理产生偏差或造成不必要的计算资源浪费。

因此，需要一种更准确地检测音频改变点的方法和设备。

根据本发明的一个方面，提供一种音频处理方法，所述方法包括以下步骤：a)根据音频物理特性将音频初始地分段为一个或多个片段；对于所述一个或多个片段中的每个片段：b)在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；c)针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；d)通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及e)通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点。

在本发明的一个实施例中，可以对于所述一个或多个片段中的每个片段，通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点的步骤包括：计算该最大值所对应的时间点是说话人改变点的概率，以及将所述概率与预定阈值比较，如果该概率大于或等于该预定阈值，则判断该最大值所对应的时间点是说话人改变点，其中，如果第一部分和第二部分中的两个曲线的幅度越靠近该最大值所对应的时间点处越单调地升高且升高得越高，则该最大值所对应的时间点是说话人改变点的概率越大。

在本发明的一个实施例中，可以在计算该最大值所对应的时间点是说话人改变点的概率的步骤中：将第一部分的曲线划分为多个第一时间段，其中，在每个第一时间段中，第一部分的曲线对时间求积分所得的面积值等于预定面积值；将第二部分的曲线划分为多个第二时间段，其中，在每个第二时间段中，第二部分的曲线对时间求积分所得的面积值等于所述预定面积值；计算在各个第一时间段中的曲线的均值；计算在各个第二时间段中的曲线的均值；以第一部分的第一个第一时间段中的曲线的均值为基础，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值大，则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值小，则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数，以获得第一部分的概率；以第二部分的最后一个第二时间段中的曲线的均值为基础，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值大，则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值小，则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数，以获得第二部分的概率；以及以预定权重来组合第一部分的概率和第二部分的概率来获得该片段中该最大值所对应的时间点是说话人改变点的概率。

在本发明的一个实施例中，在步骤a)中，可以根据音频物理特性将音频初始地分段为一个或多个片段使得每个片段足够短以仅包含一个或两个说话人的声音。

在本发明的一个实施例中，方法还可以包括：f)通过各个片段中在步骤e)中所判断的各个说话人改变点以及在步骤a)中初始分段的各个分段点，将所述音频分段为新的片段，针对两两相邻的两个新的片段所合成的一个片段，通过重复步骤b)到e)来进一步判断该合成的片段中是否存在新的说话人改变点；以及g)根据所有说话人改变点来对所述音频进行最终地分段。

根据本发明的另一方面，提供一种音频处理设备，所述设备包括：初始分段装置，根据音频物理特性将音频初始地分段为一个或多个片段；说话人改变点判断装置，包括：对于所述一个或多个片段中的每个片段的：音频特征向量提取装置，在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；贝叶斯信息准则值计算装置，针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；片段划分装置，通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及判断装置，通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点。

在本发明的一个实施例中，所述判断装置可以包括：计算装置，计算该最大值所对应的时间点是说话人改变点的概率；以及比较装置，将所述概率与预定阈值比较，如果该概率大于或等于该预定阈值，则判断该最大值所对应的时间点是说话人改变点，其中，如果第一部分和第二部分中的两个曲线的幅度越靠近该最大值所对应的时间点处越单调地升高且升高得越高，则该最大值所对应的时间点是说话人改变点的概率越大。

在本发明的一个实施例中，所述计算装置可以包括：将第一部分的曲线划分为多个第一时间段的装置，其中，在每个第一时间段中，第一部分的曲线对时间求积分所得的面积值等于预定面积值；将第二部分的曲线划分为多个第二时间段的装置，其中，在每个第二时间段中，第二部分的曲线对时间求积分所得的面积值等于所述预定面积值；计算在各个第一时间段中的曲线的均值的装置；计算在各个第二时间段中的曲线的均值的装置；以第一部分的第一个第一时间段中的曲线的均值为基础，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值大，则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值小，则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数，以获得第一部分的概率的装置；以第二部分的最后一个第二时间段中的曲线的均值为基础，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值大，则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值小，则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数，以获得第二部分的概率的装置；以及以预定权重来组合第一部分的概率和第二部分的概率来获得该片段中该最大值所对应的时间点是说话人改变点的概率的装置。

在本发明的一个实施例中，初始分段装置可以根据音频物理特性将音频初始地分段为一个或多个片段使得每个片段足够短以仅包含一个或两个说话人的声音。

在本发明的一个实施例中，设备还可以包括：新的说话人改变点判断装置，通过各个片段中由所述判断装置所判断的各个说话人改变点以及由所述初始分段装置初始分段的各个分段点，将所述音频分段为新的片段，针对两两相邻的两个新的片段所合成的一个片段，通过所述说话人改变点判断装置来进一步判断该合成的片段中是否存在新的说话人改变点；以及最终分段装置，根据所有说话人改变点来对所述音频进行最终地分段。

通过本发明的各个实施例，可以不仅使用ΔBIC的值还使用ΔBIC的值的曲线分布、形状，来更准确地、更稳定地检测音频改变点，从而准确地将音频进行分段，使得每个音频片段可能仅包括同一说话人、或同一声学条件、或同一类别的音频，由此可以单独地处理每个音频片段，例如对每个音频片段建立同一声学模型等，从而实现语音识别、音频检索等的目的。

附图说明

在附图中图示了示范性实施例。意图使在此公开的实施例是说明性的而不是限制性的。然而，当与附图一起阅读时，参考如下详细描述，可以更好地理解本公开，在附图中：

图1是示出本发明可以应用的系统的示意方块图；

图2是示出根据本发明的一个实施例的音频处理设备的方块图；

图3是示出根据本发明的另一实施例的音频处理设备的方块图；

图4是示出根据本发明的一个实施例的音频处理方法的一般流程图；

图5是示出根据本发明的一个实施例的音频处理方法的示例步骤的流程图；

图6是示出根据本发明的一个实施例的音频处理方法中的计算音频改变点概率的示例步骤的流程图；以及

图7是示出根据本发明的一个实施例的ΔBIC的值随时间变化的曲线分布图。

具体实施方式

现在具体参考本发明的具体实施例，在附图中例示本发明的具体实施例的例子。虽然将结合下述具体实施例说明本发明，但是并不是用于将发明限于所说明的实施例。相反，所说明的实施例用于覆盖可以在由所附权利要求限定的本发明的精神和范围内包括的替代、修改和等效物。

图1是示出本发明可以应用的系统100的示意方块图。该系统100包括诸如传统的通用计算机的计算机模块101、包括键盘102的输入设备、指示设备103和麦克风115、以及包括显示设备114和一个或多个扬声器116的输入设备。

计算机模块101通常包括至少一个处理器单元105、存储器单元106、包括用于视频显示器114的视频接口107、用于键盘102、指示设备103并将计算机模块101与诸如因特网的网络118相连接的输入/输出(I/O)接口、和用于麦克风115和扬声器116的音频接口108的113(I/O)接口。存储设备109通常包括硬盘和软盘。提供CD-ROM或DVD盘112作为非易失性存储器。计算机模块101的组件105到113通常经由互连的总线104通信。

由系统100且更具体的处理器105来处理音频数据。音频数据可以从CD-ROM或DVD盘112中得到，或由处理器105接收。音频数据还可以从网络118下载。音频数据也可以是用麦克风115记录的音频数据。在这种情况下，音频接口108采样从麦克风115接收的模拟信号，并向处理器105提供用于处理和/或存储的具体格式的音频数据。

上述系统100仅是实现本发明的一个示例。很显然，本发明的实施例不限于此。

图2是示出根据本发明的一个实施例的音频处理设备200的方块图。

音频处理设备200包括：初始分段装置201，根据音频物理特性将音频初始地分段为一个或多个片段；说话人改变点判断装置202，包括：对于所述一个或多个片段中的每个片段的：音频特征向量提取装置203，在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；贝叶斯信息准则值计算装置204，针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；片段划分装置205，通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及判断装置206，通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点。

通过本发明的实施例，可以不仅使用ΔBIC的值还使用ΔBIC的值的曲线分布、形状，来更准确地、更稳定地检测音频改变点，从而准确地将音频进行分段，使得每个音频片段可能仅包括同一说话人、或同一声学条件、或同一类别的音频，由此可以单独地处理每个音频片段，例如对每个音频片段建立同一声学模型等，从而实现语音识别、音频检索等的目的。

图3是示出根据本发明的另一实施例的音频处理设备300的方块图。

音频处理设备300包括：初始分段装置301，根据音频物理特性将音频初始地分段为一个或多个片段；说话人改变点判断装置302，包括：对于所述一个或多个片段中的每个片段的：音频特征向量提取装置303，在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；贝叶斯信息准则值计算装置304，针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；片段划分装置305，通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及判断装置306，通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点。

在本发明的一个实施例中，所述判断装置306还可以包括：计算装置3061，计算该最大值所对应的时间点是说话人改变点的概率；以及比较装置3062，将所述概率与预定阈值比较，如果该概率大于或等于该预定阈值，则判断该最大值所对应的时间点是说话人改变点，其中，如果第一部分和第二部分中的两个曲线的幅度越靠近该最大值所对应的时间点处越单调地升高且升高得越高，则该最大值所对应的时间点是说话人改变点的概率越大。

在本发明的一个实施例中，所述计算装置3061可以包括：将第一部分的曲线划分为多个第一时间段的装置(未示出)，其中，在每个第一时间段中，第一部分的曲线对时间求积分所得的面积值等于预定面积值；将第二部分的曲线划分为多个第二时间段的装置(未示出)，其中，在每个第二时间段中，第二部分的曲线对时间求积分所得的面积值等于所述预定面积值；计算在各个第一时间段中的曲线的均值的装置(未示出)；计算在各个第二时间段中的曲线的均值的装置(未示出)；以第一部分的第一个第一时间段中的曲线的均值为基础，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值大，则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值小，则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数，以获得第一部分的概率的装置(未示出)；以第二部分的最后一个第二时间段中的曲线的均值为基础，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值大，则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值小，则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数，以获得第二部分的概率的装置(未示出)；以及以预定权重来组合第一部分的概率和第二部分的概率来获得该片段中该最大值所对应的时间点是说话人改变点的概率的装置(未示出)。

在本发明的一个实施例中，初始分段装置301可以根据音频物理特性将音频初始地分段为一个或多个片段使得每个片段足够短以仅包含一个或两个说话人的声音。

在本发明的一个实施例中，设备300还可以包括：新的说话人改变点判断装置307，通过各个片段中由所述判断装置所判断的各个说话人改变点以及由所述初始分段装置初始分段的各个分段点，将所述音频分段为新的片段，针对两两相邻的两个新的片段所合成的一个片段，通过所述说话人改变点判断装置来进一步判断该合成的片段中是否存在新的说话人改变点；以及最终分段装置308，根据所有说话人改变点来对所述音频进行最终地分段。

图4是示出根据本发明的一个实施例的音频处理方法400的一般步骤的流程图。

音频处理方法400包括以下步骤：a)根据音频物理特性将音频初始地分段为一个或多个片段(S401)；对于所述一个或多个片段中的每个片段：b)在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量(S402)；c)针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值(S403)；d)通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分(S404)；以及e)通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点(S405)。

在本发明的一个实施例中，步骤S405还可以包括：计算该最大值所对应的时间点是说话人改变点的概率(S4051，图中未示出)，以及将所述概率与预定阈值比较(S4052，图中未示出)，如果该概率大于或等于该预定阈值，则判断该最大值所对应的时间点是说话人改变点。如果第一部分和第二部分中的两个曲线的幅度越靠近该最大值所对应的时间点处越单调地升高且升高得越高，则该最大值所对应的时间点是说话人改变点的概率越大。

在本发明的一个实施例中，在步骤S4051(图中未示出)中还可以：将第一部分的曲线划分为多个第一时间段，其中，在每个第一时间段中，第一部分的曲线对时间求积分所得的面积值等于预定面积值；将第二部分的曲线划分为多个第二时间段，其中，在每个第二时间段中，第二部分的曲线对时间求积分所得的面积值等于所述预定面积值；计算在各个第一时间段中的曲线的均值；计算在各个第二时间段中的曲线的均值；以第一部分的第一个第一时间段中的曲线的均值为基础，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值大，则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值小，则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数，以获得第一部分的概率；以第二部分的最后一个第二时间段中的曲线的均值为基础，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值大，则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值小，则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数，以获得第二部分的概率；以及以预定权重来组合第一部分的概率和第二部分的概率来获得该片段中该最大值所对应的时间点是说话人改变点的概率。

在本发明的一个实施例中，在步骤S401中，可以根据音频物理特性将音频初始地分段为一个或多个片段使得每个片段足够短以仅包含一个或两个说话人的声音。

在本发明的一个实施例中，方法400还可以包括：f)通过各个片段中在步骤e)中所判断的各个说话人改变点以及在步骤a)中初始分段的各个分段点，将所述音频分段为新的片段，针对两两相邻的两个新的片段所合成的一个片段，通过重复步骤b)到e)来进一步判断该合成的片段中是否存在新的说话人改变点；以及g)根据所有说话人改变点来对所述音频进行最终地分段。

图5是示出根据本发明的一个实施例的音频处理方法500的示例的具体步骤的流程图。

输入的音频可以是包括一个或多个说话人的语音的音频。但是，音频还可以是包括一个或多个其他声学条件的音频，以下为了便于描述，均使用包括一个或多个说话人的语音的音频。

在步骤S501中，根据音频物理特性将音频初始地分段为一个或多个片段。在一个实施例中，每个片段可以足够短以仅包含一个或两个说话人的语音。

在一个实施例中，可以设置分段后的每个片段的持续时间短于一预定阈值、TML。在一个实施例中，该TML可以是2～5秒，但不限于此。

在一个实施例中，例如，可以、但不限于使用音频的能量作为所述音频物理特性。以下基于音频的能量来描述示例的初始分段步骤S501：

1)首先，将整个输入的音频考虑为一个片段。

2)对于该片段，如果该片段的持续时间长于TML，则从最低能量的(时间)点，将该片段划分为两个片段。

3)重复步骤2)直到所有的片段的持续时间都短于TML。

如此，将输入的音频分段为一个或多个片段。

处理继续到步骤S502，在步骤S502中，确定是否有更多的片段。如果是，则进入步骤S503来处理该片段。如果否，则说明没有片段需要处理了，则进入步骤S508和S510，以下将详细描述。

处理继续到步骤S503，在步骤S503中，对该片段提取特征。在一个实施例中，对每个片段，在时间序列的每例如10ms间隔处生成例如标准Mel倒频特征向量(standard mel-cepstral feature)。当然，10ms间隔仅是示例，还可以使用其他间隔，但一般小于TML。而且，该特征向量也可以是标准Mel倒频特征向量、Mel频率倒频系数(Mel-frequency Cepstral Coefficients，MFCC)、直观线性预测(Perceptual Linear Predictive，PLP)等其他特性向量中的一种或几种。如果使用几种特征向量，则可以将这几种特征向量的向量值、例如{a，b，c}和{d，e}组合为一个特征向量，例如{a，b，c，d，e}。

以下，将描述示例的提取例如标准Mel倒频特征向量的步骤：

a)对10ms的时间窗内的信号采取傅立叶变换；

b)使用三角重叠窗，将以上获得的频谱的功率映射到Mel范围上；

c)在Mel频率的每个处取功率的log；

d)对Mel log功率的列表、就好像其是一个信号一样地进行离散余弦变换(DCT)；

e)所得到的频谱的幅度即为特征向量。

以上提取例如标准Mel倒频特征向量的步骤的公知的，在此不赘述。

处理继续到步骤S504，在步骤S504中，计算ΔBIC的值。

对每个片段中的每个时间点，例如每10ms间隔处，计算ΔBIC的值。

例如，在使用最大似然度估计来估计模型的参数时，可能通过增加参数的数量来增加似然度，但是这可能导致过拟合(overfit)。而BIC通过对模型中的参数的数量引入惩罚项能够解决这个问题。

假设从步骤S503中提取的倒频特征的序列是X＝{x_i∈R^d，i＝1，...，N}。对于该片段中除了起始点以外的每个时间点i，通过以下公式计算ΔBIC的值。

ΔBIC(i)＝R(i)-λP (1)

其中，似然度为：

R(i)＝Nlog|∑|-N₁log|∑₁|-N₂log|∑₂| (2)

其中，例如，∑是对于所有特征向量、即X＝{x_i∈R^d，i＝1，...，N}的采样协方差矩阵、∑₁是以该时间点i为中心以前的部分的特征向量、即{x₁，...，x_i，}的采样协方差矩阵、∑₂是以该时间点i为中心之后的部分的特征向量、即{x_i+1，...，x_N}的采样协方差矩阵，N是总的时间点个数，N₁是{x₁，...，x_i，}的时间点个数，N₂是{x_i+1，...，x_N}的时间点个数。

惩罚项P为：

P = \frac{1}{2} {d + \frac{1}{2} d (d + 1)} \log N * M - - - (3)

其中，假设惩罚权重λ＝1，d为特征向量空间的维度，M为高斯混合数的阶数，一般为正整数，为了简化公式(3)可以取M＝1。

处理继续到步骤S505，在步骤S505中，计算说话人改变点的概率。

结合图6来描述计算ΔBIC的值最大的时间点为说话人改变点的概率的示例详细步骤。

在图6的步骤S5051中，在ΔBIC的值最大的时间点处将该片段划分为两个部分。

假设，在时间点为t_p，ΔBIC的值最大。因此，将该片段的时间序列(0，t_max)划分为(0，t_p]和(t_p，t_max)两个部分。

在图6的步骤S5052中，对这两个部分进行曲线拟合。

由于在提取特征时的时间间隔是10ms，因此得到的ΔBIC也以10ms为间隔。为了便于计算，将图6的步骤S5051中得到的两个部分(0，t_p]和(t_p，t_max)的ΔBIC的子序列值曲线拟合为两个曲线

和

C_{ΔBI C_{1}} = f_{1} (t) - - - (4)

C_{ΔBI C_{2}} = f_{2} (t) - - - (5)

曲线拟合方法可以是多项式曲线拟合或其他可能的曲线拟合方法。

参考图7，图7是示出根据本发明的一个实施例的ΔBIC的值随时间变化的曲线分布图。可以看出示例的两个曲线

和

返回图6，在图6的步骤S5053中，可以计算在两个部分中的改变点概率。

a)按时间序列进一步分割两个部分中的第一部分的曲线为x个块：

P1＝{p₁₁(t_s11，t_e11)，...，p_1x(t_s1x，t_e1x)}。

b)按时间序列进一步分割两个部分中的第二部分的曲线为y个块：

P2＝{p₂₁(t_s21，t_e21)，...，p_2y(t_s2y，t_e2y)}。

其中，对于每个块p_aj(t_saj，t_eaj)∈P1，P2，a∈{1，2}，j∈{1，2，...，x}∪{1，2，...，y}。

{&Integral;}_{t_{saj}}^{t_{eaj}} f (t) = ϵ

......(6)

其中，ε是一预定阈值。通过改变ε可以改变分割点的数量，从而改变整个计算的复杂度。

也就是说，将第一部分的曲线

划分为多个第一时间段P1＝{p₁₁(t_s11，t_e11)，...，p_1x(t_s1x，t_e1x)}，其中，在每个第一时间段中，第一部分的曲线对时间求积分所得的面积值等于预定面积值；将第二部分

的曲线划分为多个第二时间段P2＝{p₂₁(t_s21，t_e21)，...，p_2y(t_s2y，t_e2y)}，其中，在每个第二时间段中，第二部分的曲线对时间求积分所得的面积值等于所述预定面积值ε。

c)对每个p_aj(t_saj，t_eaj)∈P1，P2，计算面积值ε除以时间段长度所得到的平均值：

A1＝{a₁₁，...，a_1x}

A2＝{a₂₁，...，a_2y}

其中，

d)可以通过以下公式(7)和(8)来计算第一部分的曲线

的概率PO₁和第二部分的曲线的概率PO₂。

......(7)

......(8)

其中，

为：

......(9)

其中，惩罚权重η≥1，例如在一个实施例中取η＝3。

也就是说，以第一部分的第一个第一时间段中的曲线的均值a₁₁为基础，如果下一第一时间段中的曲线的均值a_1i比前一第一时间段中的曲线的均值a_1(i-1)大，则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值|a_1i-a_1(i-1)|，如果下一第一时间段中的曲线的均值a_1i比前一第一时间段中的曲线的均值a_1(i-1)小，则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数η*|a_1i-a_1(i-1)|，以获得第一部分的概率PO₁。

以第二部分的最后一个第二时间段中的曲线的均值a_2y为基础，如果前一第二时间段中的曲线的均值a_2i比下一第二时间段中的曲线的均值a_2(i+1)大，则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值|a_2i-a_2(i+1)|，如果前一第二时间段中的曲线的均值a_2i比下一第二时间段中的曲线的均值a_2(i+1)小，则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数η*|a_2i-a_2(i+1)|，以获得第二部分的概率PO₂。

e)整合两个部分的概率。

从步骤d)中得到两个部分的概率PO₁和PO₂，下面通过公式(10)来整合这两个部分的概率作为该ΔBIC的值最大的时间点t_p为说话人改变点的概率PO_f：

PO_f＝αMax(PO₁，PO₂)+(1-α)Min(PO₁，PO₂)

......(10)

其中，α是预定参数，且α∈[0.5，1]。

因此，得到该ΔBIC的值最大的时间点t_p为说话人改变点的概率PO_f。

这样，如图7所示，在第一部分的曲线和第二部分的曲线

的幅度越靠近该最大值所对应的时间点t_p处越单调地升高且升高得越高，则该最大值所对应的时间点t_p是说话人改变点的概率PO_f越大。

综上，本发明的实施例通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值ΔBIC构成的相对于时间点的两个曲线的分布(见图7)，来判断该最大值所对应的时间点t_p是否是说话人改变点。

返回图5，继续到步骤S506。可以使用预定阈值PO_t来判断PO_f是否大于或等于预定阈值PO_t，如果是，则在步骤S507中，判断该ΔBIC的值最大的时间点是说话人改变点。如果否，则判断该ΔBIC的值最大的时间点不是说话人改变点，并继续返回步骤S502，来询问是否有其它片段。如果是，则对其它片段继续步骤S503-S507的过程，以判断在各个片段中是否存在说话人改变点。

在对所有初始分段的片段都进行了说话人改变点的检测之后，处理继续到步骤S508，在步骤S508中，用所判断的改变点和初始分段的分段点来将两两相邻的两个片段合成一个新的片段。也就是说，在两个初始分段点之间可能存在一个判断的改变点，然后，将该改变点与后一初始分段点之间的片段和后一初始分段点与可能的再后一初始分段点或可能的再一判断的改变点之间的片段合成一个新的片段。

处理继续返回步骤S502，则判断还有更多的片段、即存在该新的片段，因此，将对该新的片段继续步骤S503-S507的过程，以判断是否存在新的说话人改变点。在对初始分段的所有片段以及合成的所有新的片段都进行了处理之后，得到所有的判断的说话人改变点。处理进入步骤S509，确定是否对所有片段都判断了改变点，如果是，则处理进入步骤S510，用所有判断的说话人改变点对输入的音频进行最终的分段；如果否，则处理进入步骤S502。

如此，通过本发明的各个实施例，可以不仅使用ΔBIC的值还使用ΔBIC的值的曲线分布、形状，来更准确地、更稳定地检测音频改变点，从而准确地将音频进行分段，使得每个音频片段可能仅包括同一说话人、或同一声学条件、或同一类别的音频，由此可以单独地处理每个音频片段，例如对每个音频片段建立同一声学模型等，从而实现语音识别、音频检索等的目的。

本发明的各种实施例可用于语音识别、音频检索等应用，还可用于说话人跟踪麦克风、说话人自动对焦的摄像系统、机器人(人机对话)等的产品。

本公开中描述的公式、参数值等均为示例，但不是限制。很显然，在本发明的原理的范围内，还可以使用其它公式、参数值来实现本发明的效果。

本领域技术人员应该理解，在所附权利要求或其等同物的范围内，可以基于设计需要和其他因素进行各种修改、组合、子组合和变更。

Claims

1.一种音频处理方法，所述方法包括以下步骤：

a)根据音频物理特性将音频初始地分段为一个或多个片段；

对于所述一个或多个片段中的每个片段：

b)在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；

c)针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；

d)通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及

e)通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点，

其中，对于所述一个或多个片段中的每个片段，通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点的步骤包括：

计算该最大值所对应的时间点是说话人改变点的概率，以及

将所述概率与预定阈值比较，如果该概率大于或等于该预定阈值，则判断该最大值所对应的时间点是说话人改变点，

其中，如果第一部分和第二部分中的两个曲线的幅度越靠近该最大值所对应的时间点处越单调地升高且升高得越高，则该最大值所对应的时间点是说话人改变点的概率越大。

2.根据权利要求1的方法，其中，在计算该最大值所对应的时间点是说话人改变点的概率的步骤中：

将第一部分的曲线划分为多个第一时间段，其中，在每个第一时间段中，第一部分的曲线对时间求积分所得的面积值等于预定面积值；

将第二部分的曲线划分为多个第二时间段，其中，在每个第二时间段中，第二部分的曲线对时间求积分所得的面积值等于所述预定面积值；

计算在各个第一时间段中的曲线的均值；

计算在各个第二时间段中的曲线的均值；

以第一部分的第一个第一时间段中的曲线的均值为基础，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值大，则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值小，则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数，以获得第一部分的概率；

以第二部分的最后一个第二时间段中的曲线的均值为基础，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值大，则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值小，则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数，以获得第二部分的概率；以及

以预定权重来组合第一部分的概率和第二部分的概率来获得该片段中该最大值所对应的时间点是说话人改变点的概率。

3.根据权利要求1-2中的任一的方法，其中：

在步骤a)中，根据音频物理特性将音频初始地分段为一个或多个片段使得每个片段足够短以仅包含一个或两个说话人的声音。

4.根据权利要求1-2中的任一的方法，还包括：

f)通过各个片段中在步骤e)中所判断的各个说话人改变点以及在步骤a)中初始分段的各个分段点，将所述音频分段为新的片段，针对两两相邻的两个新的片段所合成的一个片段，通过重复步骤b)到e)来进一步判断该合成的片段中是否存在新的说话人改变点；以及

g)根据所有说话人改变点来对所述音频进行最终地分段。

5.一种音频处理设备，所述设备包括：

初始分段装置，根据音频物理特性将音频初始地分段为一个或多个片段；

说话人改变点判断装置，包括：对于所述一个或多个片段中的每个片段的：

音频特征向量提取装置，在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；

贝叶斯信息准则值计算装置，针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；

片段划分装置，通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及

判断装置，通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点，

其中，所述判断装置包括：

计算装置，计算该最大值所对应的时间点是说话人改变点的概率；以及

比较装置，将所述概率与预定阈值比较，如果该概率大于或等于该预定阈值，则判断该最大值所对应的时间点是说话人改变点，

6.根据权利要求5的设备，其中，所述计算装置包括：

将第一部分的曲线划分为多个第一时间段的装置，其中，在每个第一时间段中，第一部分的曲线对时间求积分所得的面积值等于预定面积值；

将第二部分的曲线划分为多个第二时间段的装置，其中，在每个第二时间段中，第二部分的曲线对时间求积分所得的面积值等于所述预定面积值；

计算在各个第一时间段中的曲线的均值的装置；

计算在各个第二时间段中的曲线的均值的装置；

以第一部分的第一个第一时间段中的曲线的均值为基础，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值大，则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值，如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值小，则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数，以获得第一部分的概率的装置；

以第二部分的最后一个第二时间段中的曲线的均值为基础，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值大，则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值，如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值小，则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数，以获得第二部分的概率的装置；以及

以预定权重来组合第一部分的概率和第二部分的概率来获得该片段中该最大值所对应的时间点是说话人改变点的概率的装置。

7.根据权利要求5-6中的任一的设备，其中，

初始分段装置根据音频物理特性将音频初始地分段为一个或多个片段使得每个片段足够短以仅包含一个或两个说话人的声音。

8.根据权利要求5-6中的任一的设备，还包括：

新的说话人改变点判断装置，通过各个片段中由所述判断装置所判断的各个说话人改变点以及由所述初始分段装置初始分段的各个分段点，将所述音频分段为新的片段，针对两两相邻的两个新的片段所合成的一个片段，通过所述说话人改变点判断装置来进一步判断该合成的片段中是否存在新的说话人改变点；以及

最终分段装置，根据所有说话人改变点来对所述音频进行最终地分段。