CN102682760A

CN102682760A - 重叠语音检测方法和系统

Info

Publication number: CN102682760A
Application number: CN2011100539460A
Authority: CN
Inventors: 尹悦燕; 鲁耀杰; 王磊; 史达飞; 郑继川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2011-03-07
Filing date: 2011-03-07
Publication date: 2012-09-19
Anticipated expiration: 2031-03-07
Also published as: CN102682760B

Abstract

本发明提供了一种重叠语音的自动检测方法和系统，该方法采用贝叶斯信息准则确定重叠语音的多个语音片段中仅仅包含单独说话人语音的语音片段，并为属于同一说话人的语音片段赋予同一个标识。从各个属于同一类语音片段中随机选择各类语音片段的采样数据进行合并获得能够体现所有语音重叠的可能的各种合并结果。然后基于所获得单人说话的语音片段和通过合并获得的多人说话的重叠语音片段建立单人语音片段模型和重叠语音片段模型，最后采用单人语音片段模型和重叠语音片段模型来检测各个语音片段，并基于检测结果来标注所述语音片段。

Description

重叠语音检测方法和系统

技术领域

本发明涉及一种对一段语音中的说话人进行标注，尤其是识别一段语音中的说话人的方法和系统。

背景技术

在一些实际应用中，通常需要对一段语音进行识别，以了解这语音中有多少人说话，以及其中哪段话是那个人说的。这种识别在一段语音中存在多个说话人的情况下显得尤为重要。在现阶段，尤其是在会议中，在对说话人进行标注方面，重叠语音(存在多个人说话的情况)是一个非常重要的错误源。当前的语音标注系统对于包含多个说话人语音的重叠语音片段很难正确识别。现有语音片段识别系统通常只能对于每段语音只能识别包含单一说话人的语音片段，而对于包含多个说话人的语音来说，这是一个极大的信息损失。对于重叠语音的识别，或者减轻重叠语音的影响在现有技术中很少被提及。由于重叠语音是主要的错误源之一，对于重叠语音的处理将会有效提高说话人标注整个系统的精度和可用性。

在现有的系统中，对于重叠语音的研究还相对比较少。US7295970B披露了一种训练和使用单独说话人模型来训练重叠语音的方法，尽管该专利也提到了一种发现重叠语音的方法并能把重叠语音和单独语音去分开来，但是该专利所披露的方法不能识别出一段重叠语音中到底谁在说话。

US7646894B2披露了一种用贝叶斯竞争模型来识别一段语音中出现的未被标识的说话人的方法，但是，该专利方法不能处理重叠语音。

因此，现有技术中存在的问题在于，不能够对任何一段语音，获得其中谁在说话，在什么时候说话的情况。

发明内容

基于以上原因，本发明提出了一种重叠语音检测方法和系统。本发明的方法和系统使用了一种重叠语音模型来有效识别出重叠语音中有哪些人在什么时候说话。

根据本发明，提供了一种重叠语音的自动检测方法，包括：输入语音；将所输入的语音分割为多个语音片段；丢弃所述多个语音片段中仅仅包含静音或噪声的非语音片段；基于贝叶斯信息准则，从丢弃了非语音片段的剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段；基于至底向上聚类法，为属于同一说话人的语音片段赋予同一个标识，从而将多个属于同一说话人的语音片段聚类为一类；从各个属于同一说话人的同一类语音片段中随机选择各类语音片段的采样数据并进行合并处理，使得所获得的各种合并结果能够体现所有语音重叠的可能；基于所获得单人说话的语音片段和通过合并获得的多人说话的语音重叠片段建立单人语音片段模型和重叠语音片段模型；以及采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段，并基于检测结果来标注所述多个分割语音片段。

根据本发明所述的重叠语音的自动检测方法，其中所述被分割成的语音片段的长度短到其中没有说话人的变化或者仅有一次说话人变化。

根据本发明所述的重叠语音的自动检测方法，其中所输入的语音基于能量进行分割，并且所述被分割成的语音片段的长度为100毫秒到1秒之间。

根据本发明所述的重叠语音的自动检测方法，从剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段通过如下步骤来实现：使用贝叶斯信息准则(BIC)计算所述剩余多个语音片段中每个以一定时间间隔采样的采样点的值，从而得到一个BIC值向量；使用BIC值判断每个语音片段是否只有一个说话人；保留只包含一个说话人说话的语音片段。

根据本发明所述的重叠语音的自动检测方法，所述基于至底向上聚类法为属于同一说话人的语音片段赋予同一个标识还包括：只对属于同一说话人的语音片段的类中那些处在所述类的中心区域的语音片段赋予同一个类标识。

根据本发明所述的重叠语音的自动检测方法，所述随机选择的各类语音片段的采样数据的长度为1-5秒。

根据本发明所述的重叠语音的自动检测方法，其中，所述合并处理所合并的语音片段的类别数目不大于5个。

根据本发明所述的重叠语音的自动检测方法，所述采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段包括：使用单人语音片段模型识别所有的语音片段，并对每个语音片段评分；以及如果某一语音片段对于任意一个单人语音片段模型的评分都小于一预定阈值，则使用重叠语音片段模型进行识别该语音片段，并对该语音片段进行评分。

根据本发明所述的重叠语音的自动检测方法，所述基于检测结果来标注所述多个分割语音片段包括对每个语音片段，从其所对应的单人语音片段模型和重叠语音片段模型的评分中，选择最高的评分所对应的语音片段模型的标识来标注所述语音片段。

根据本发明的另一个方面，提供了一种重叠语音的自动检测系统，包括：输入模块，用于输入语音；语音分割模块，用于将所输入的语音分割为多个语音片段；非语音片段移除模块，用于丢弃所述多个语音片段中仅仅包含静音或噪声的非语音片段；单人语音片段提取模块，基于贝叶斯信息准则，从丢弃了非语音片段的剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段；语音片段聚类模块，基于至底向上聚类法，为属于同一说话人的语音片段赋予同一个标识，从而将多个属于同一说话人的语音片段聚类为一类；语音片段合并训练模块，从各个属于同一说话人的同一类语音片段中随机选择各类语音片段的采样数据并进行合并处理，使得所获得的各种合并结果能够体现所有语音重叠的可能；语音片段检测模块，基于所获得单人说话的语音片段和通过合并获得的多人说话的语音重叠片段建立单人语音片段模型和重叠语音片段模型；语音片段标注模块，采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段，并基于检测结果来标注所述多个分割语音片段。

本发明上述重叠语音的自动检测方法通过从输入语音中识别各个单独说话人的单独说话人语音片段(以下称单人语音片段)，然后用这些单人语音片段来训练单人语音片段模型和模拟重叠语音片段模型，最后基于所训练的单人语音片段模型和模拟重叠语音片段模型与待检测的语音的各个语音片段进行比较，由此确定被比较的语音片段是单人语音片段还是重叠语音片段，并且通过与重叠语音片段模型比较能够得知被比较的语音片段中有哪些说话人。

在本发明所述的重叠语音检测方法中，采用了自我学习的过程，不需要人为的干预。其目标是应用系统自动训练得到的重叠语音模型可以识别出重叠语音中的：都是谁在同时说话。说话人数量和说话人对应的说话片段需要学习和训练。

附图说明

图1所示的是根据本发明的重叠语音检测方法的流程图。

图2所示的是根据本发明的重叠语音检测方法中重叠语音片段模型的训练过程流程图。

图3所示的是根据本发明的重叠语音检测系统的示意性框图。

具体实施方式

以下，将参照附图来详细说明本发明的具体实施例。

图1所示的是根据本发明的重叠语音检测方法的流程图。首先，在步骤S11处，通过语音输入模块301接收语音的输入，这种语音输入模块例如为语音记录装置中的录音器件。随后在步骤S12处，所输入的语音被传送到语音分割模块302，并且语音分割模块将所接收到的语音数据按照时间顺序分割成多个语音片段。所述分割基于语音能量进行，并且所述被分割成的语音片段的长度为100毫秒到1秒之间，例如每个语音片段可以为200毫秒、300毫秒、500毫秒等。

随后，在步骤S13处，非语音片段移除模块303通过说话行为检测方法，检测所分割成的多个语音片段中的非语音片片段，并丢弃所述多个语音片段中仅仅包含静音或噪声的非语音片段。去除非语音片段可以采用一个能把说话语音和其他语音分开的分类器来进行，如支持向量机分类器。

随后，丢弃了非语音片段的其余多个语音片段被输入到单人语音片段提取模块304，并且在步骤S14处，单人语音片段提取模块304基于贝叶斯信息准则(BIC)，从丢弃了非语音片段的剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段。从剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段通过如下步骤来实现：使用贝叶斯信息准则(BIC)计算所述剩余多个语音片段中每个以一定时间间隔采样的采样点的值，从而得到一个BIC值向量；使用BIC值判断每个语音片段是否只有一个说话人；保留只包含一个说话人说话的语音片段。具体而言，用BIC选择单独说话人语音，就是采用贝叶斯信息准则算法用来确定每个语音片段中是否含有说话人的变化点。

首先，将每个片段分割成等长度的语音帧(如10毫秒)，然后对于每个每一帧位置，采用如下的公式计算一个BIC值

ΔBIC(M_i)＝logL(x，M)-(logL(x_i，M_i)+logL(x_j，M_j))-λΔ(i，j)log(N)

当采用上述方程计算获得ΔBIC值之后，使用一个预定的阈值来界定该段语音是否存在说话人变化点。该阈值可以设定为0。如果ΔBIC值大于设定阈值，例如大于0，则认定这个语音片段含有多个说话人，否则这个片段没有说话人变化，即只含有一个说话人。

另外，由于所分割成的每个片段比较短，因此，采用BIC方法会产生一些误差。为了消除或减小这种误差带来的不良影响，可以仅仅选择一些可信度比较高的语音片段。一般来说，如果一个语音片段的ΔBIC值小于所设定的阈值，并且与所设定的阈值之间的差值越小，该语音片段被认为是单人语音片段的可信度越高。为此，本发明采用平均值方式来确定可信的单人语音片段，即对于所有小于设定阈值的ΔBIC值进行求平均值，并将任何小于该平均值的ΔBIC值所对应的语音片段确定为可信的单人语音片段。

随后，在步骤S15处，语音片段聚类模块305，基于至底向上聚类法，为属于同一说话人的语音片段赋予同一个标识，从而将多个属于同一说话人的语音片段聚类为一类。通过聚类可以得到一些分类，每个分类代表了一个说话人。类别数目就是所有说话人的数目。每个分类(即每个说话人)用一个唯一标识标注。对于每个说话人，该类中包含一个或者多个语音片段，每个片段所处的位置是不一样的，通常只选择那些在时间轴上处在分类中心的语音片段，因为这些片段更加能代表这一类的特征。并且移除其他语音片段。

至于具体聚类分析的方法，还可采用划分法(partitioning methods)、层次法(hierarchical methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(model-based methods)。其中层次法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等。所有这些聚类方法和算法都属于现有技术，因此，不在此赘述。

接着，在步骤S16处，语音片段合并训练模块306还采用在步骤S15所获得的从各类的单人语音片段来为每个说话人训练一个单人语音片段模型。

这种训练语音片段模型的过程可以采用现有的训练方式来实现。

之后，在步骤S17处，语音片段合并训练模块306从各个属于同一说话人的同一类语音片段中随机选择各类语音片段的采样数据并进行合并处理，使得所获得的各种合并结果能够体现所有语音重叠的可能。具体而言，实际上在步骤S17处是为了训练重叠语音片段的高斯混合模型。首先从每一分类中随机选取一个语音片段，然后从这个语音片段的随机位置选取随机长度的一段语音，然后合并这些语音，使得这些语音成为重叠语音片段。合并所得的重叠语音片段必须覆盖所有的重叠可能性。一般来说，被重叠的单人语音片段的类别不会超过5个，因为实际情况下，5个人同时说话的情形比较少。为此，这种重叠的可能为任意类别的单人语音片段之间的两类单人语音片段的组合、三类单人语音片段的组合、四单人语音片段的组合、五单人语音片段的组合等等。

图2所示的是训练重叠语音片段模型的过程的流程图。如图2所示，在步骤S261处，获取在步骤S15所获得的从各类的单人语音片段。接着在步骤S262处，从所获取的各类的单人语音片段中选择足够多的随机语音片段。通常，我们选择一个个1-5秒的随机长度语音。对于一个随机选取的语音片段，我们从一个随机位置，选择一个随机长度。随机长度一个可选的区域为1到5秒，例如可以为2、3、4秒。该选择过程将会不断重复，直到最后被选择的语音长到足够来训练一个说话人模型。接着，在步骤S263处，合并所选择足够长单人语音段，这种合并结果必须覆盖所有重叠的可能性：如两个说话人组合、三个说话人组合等等。对于每个组合，所有的随机语音在时间维度上进行重合，以达到重叠语音的效果。

然后，在步骤S264处，训练重叠语音片段模型。在该步骤中，对于每个所合并的重叠语音片段，采用合并后的重叠语音片段进行训练，以训练成一个高斯混合模型。最后，在步骤S265处获得通过如上操作获得的所有可能的重叠语音片段模型。

最后，在步骤S18处，语音片段检测模块308，基于所获得单人说话的语音片段和通过合并获得的多人说话的语音重叠片段建立单人语音片段模型和重叠语音片段模型。具体而言，就是当我们得到所有的单人语音片段模型和所有重叠语音片段模型后，我们可以用这些模型来识别所有语音片段。

首先，使用单人语音片段模型识别所有的语音片段，并对每个语音片段评分。这种评分就是将两该语音片段与单人语音片段模型进行相似度比较。相似度越高，则评分越高。这种语音片段相似度比较可以采用现有技术来进行。其次，如果某一语音片段对于任意一个单人语音片段模型的评分都小于一预定阈值，则使用重叠语音片段模型进行识别该语音片段，并对该语音片段进行评分。

最后，在步骤S19处，语音片段标注模块309采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段，并基于检测结果来标注所述多个分割语音片段。具体而言，就是通过语音片段检测模块308对各个语音片段针对各个单人语音片段模型和重叠语音片段模型的评分来确定被评分的语音片段具体属于哪个类别的语音片段。一般，一个被评分的语音片段针对多个单人语音片段模型和重叠语音片段模型具有多个评分结果，为此，我们将其最高评分所对应的单人语音片段模型或重叠语音片段模型的标识符与该被评分的语音片段，从而实现语音片段的标注。由此，对于单人语音片段，可以由其被标注的标识确定在该语音片段中谁在说话。而对于重叠语音片段，可以根据其对应的重叠语音片段模型中的标注给出哪几个人在同时说话。

图3所示的是采用本发明的重叠语音检测方法的系统的示意性框图。所述的系统包括：输入模块301，用于输入语音；语音分割模块302，用于将所输入的语音分割为多个语音片段；非语音片段移除模块303，用于丢弃所述多个语音片段中仅仅包含静音或噪声的非语音片段；单人语音片段提取模块304，基于贝叶斯信息准则，从丢弃了非语音片段的剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段；语音片段聚类模块305，基于至底向上聚类法，为属于同一说话人的语音片段赋予同一个标识，从而将多个属于同一说话人的语音片段聚类为一类；语音片段合并训练模块306，从各个属于同一说话人的同一类语音片段中随机选择各类语音片段的采样数据并进行合并处理，使得所获得的各种合并结果能够体现所有语音重叠的可能；语音片段检测模块308，基于所获得单人说话的语音片段和通过合并获得的多人说话的语音重叠片段建立单人语音片段模型和重叠语音片段模型；语音片段标注模块309，采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段，并基于检测结果来标注所述多个分割语音片段。

此处，在本说明书中，根据程序被计算机执行的处理不需要根据如流程图说明的顺序以时间序列执行。即，根据程序被计算机执行的处理包括并行或单独执行的处理(例如并行处理和目标处理)。

同样地，程序可以在一台计算机(处理器)上执行，或者可以被多台计算机分布式执行。此外，程序可以被转移到在那儿执行程序的远程计算机。

本领域的普通技术人员应该理解到，根据设计要求和其他因素，只要其落入所附权利要求或其等效物的范围内，可以出现各种修改、组合、部分组合和替代。

Claims

1.一个重叠语音的自动检测方法，包括：

输入语音；

将所输入的语音分割为多个语音片段；

丢弃所述多个语音片段中仅仅包含静音或噪声的非语音片段；

基于贝叶斯信息准则，从丢弃了非语音片段的剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段；

基于至底向上聚类法，为属于同一说话人的语音片段赋予同一个标识，从而将多个属于同一说话人的语音片段聚类为一类；

从各个属于同一说话人的同一类语音片段中随机选择各类语音片段的采样数据并进行合并处理，使得所获得的各种合并结果能够体现所有语音重叠的可能；

基于所获得单人说话的语音片段和通过合并获得的多人说话的语音重叠片段建立单人语音片段模型和重叠语音片段模型；

采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段，并基于检测结果来标注所述多个分割语音片段。

2.根据权利要求1所述的重叠语音的自动检测方法，其中所述被分割成的语音片段的长度短到其中没有说话人的变化或者仅有一次说话人变化。

3.根据权利要求2所述的重叠语音的自动检测方法，其中所输入的语音基于能量进行分割，并且所述被分割成的语音片段的长度为100毫秒到1秒之间。

4.根据权利要求1所述的重叠语音的自动检测方法，从剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段通过如下步骤来实现：

使用贝叶斯信息准则(BIC)计算所述剩余多个语音片段中每个以一定时间间隔采样的采样点的值，从而得到一个BIC值向量；

使用BIC值判断每个语音片段是否只有一个说话人；

保留只包含一个说话人说话的语音片段。

5.根据权利要求1所述的重叠语音的自动检测方法，所述基于至底向上聚类法为属于同一说话人的语音片段赋予同一个标识还包括：

只对属于同一说话人的语音片段的类中那些处在所述类的中心区域的语音片段赋予同一个类标识。

6.根据权利要求1所述的重叠语音的自动检测方法，所述随机选择的各类语音片段的采样数据的长度为1-5秒。

7.根据权利要求1所述的重叠语音的自动检测方法，其中，所述合并处理所合并的语音片段的类别数目不大于5个。

8.根据权利要求1所述的重叠语音的自动检测方法，所述采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段包括：

使用单人语音片段模型识别所有的语音片段，并对每个语音片段评分；

如果某一语音片段对于任意一个单人语音片段模型的评分都小于一预定阈值，则使用重叠语音片段模型进行识别该语音片段，并对该语音片段进行评分。

9.根据权利要求8所述的重叠语音的自动检测方法，所述基于检测结果来标注所述多个分割语音片段包括对每个语音片段，从其所对应的单人语音片段模型和重叠语音片段模型的评分中，选择最高的评分所对应的语音片段模型的标识来标注所述语音片段。

10.一种重叠语音的自动检测系统，包括：

输入模块，用于输入语音；

语音分割模块，用于将所输入的语音分割为多个语音片段；

非语音片段移除模块，用于丢弃所述多个语音片段中仅仅包含静音或噪声的非语音片段；

单人语音片段提取模块，基于贝叶斯信息准则，从丢弃了非语音片段的剩余多个语音片段中确定其中仅仅包含单独说话人语音的语音片段；

语音片段聚类模块，基于至底向上聚类法，为属于同一说话人的语音片段赋予同一个标识，从而将多个属于同一说话人的语音片段聚类为一类；

语音片段合并训练模块，从各个属于同一说话人的同一类语音片段中随机选择各类语音片段的采样数据并进行合并处理，使得所获得的各种合并结果能够体现所有语音重叠的可能；

语音片段检测模块，基于所获得单人说话的语音片段和通过合并获得的多人说话的语音重叠片段建立单人语音片段模型和重叠语音片段模型；

语音片段标注模块，采用所获得的单人语音片段模型和重叠语音片段模型来检测所输入语音的多个分割的语音片段，并基于检测结果来标注所述多个分割语音片段。