CN110930984A

CN110930984A - 一种语音处理方法、装置和电子设备

Info

Publication number: CN110930984A
Application number: CN201911230233.XA
Authority: CN
Inventors: 薛原
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-03-27

Abstract

本发明实施例提供了一种语音处理方法、装置和电子设备，其中，所述方法包括：获取待处理语音数据，所述待处理语音数据对应的说话人为X个；将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；对所述M个类进行聚类，得到X个类；其中，M小于N，相比于现有技术直接对N个语音片段进行聚类而言，本发明实施例减少聚类的规模，进而降低了聚类复杂度，从而提高说话人分割的效率。

Description

一种语音处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音处理方法、装置和电子设备。

背景技术

随着语音识别技术的不断发展，语音识别应用在越来越多的领域；例如智能家居可以基于语音识别技术实现语音控制，又如机器同传可以基于语音识别技术实现同传，还例如整理会议录音，将会议录音转换为文本等等。

其中，某一段语音数据中可能包括多个说话人说话的语音，此时需要对该段语音数据进行说话人分割，确定每个说话人对应的语音；然后才能识别每个说话人对应语音的文本。

现有技术中，通常是直接采用一段语音数据的所有语音片段(N)，直接进行聚类。但聚类的时间复杂度都较高，如有些聚类算法的复杂度为O(N^3)，即使采用优化后的聚类算法，其复杂度也有O(N^2log(N^2))；当一段语音数据的所有语音片段达几万或几十万时，处理效率的缺陷就更为明显。

发明内容

本发明实施例提供一种语音处理方法，以提高说话人分割的效率。

相应的，本发明实施例还提供了一种语音处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音处理方法，具体包括：获取待处理语音数据，所述待处理语音数据对应的说话人为X个；将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；对所述M个类进行聚类，得到X个类；其中，所述X、N和M均为正整数，M小于N。

可选地，所述将所述待处理语音数据划分为N个语音片段，包括：依据预设切分步长，将所述待处理语音数据划分为N个语音片段。

可选地，所述将所述N个语音片段预合并为M个类，包括：分别提取所述N个语音片段对应的特征信息；依次计算两两所述特征信息之间的特征距离，并依据所述特征距离生成第一特征距离矩阵；依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类。

可选地，所述依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类，包括：针对一个语音片段：选取K个候选语音片段，并从所述第一特征距离矩阵中，分别查找所述K个候选语音片段与所述语音片段对应的特征距离；确定所述K个候选语音片段中，与所述语音片段的特征距离小于距离阈值的H个目标语音片段；将所述H个目标语音片段与所述语音片段合并为一类；其中，所述K和H为正整数。

可选地，所述选取K个候选语音片段，包括：以所述语音片段为起始点向后查找K个连续的其他语音片段，作为候选语音片段；或，以所述语音片段为起始点向前查找K个连续的其他语音片段，作为候选语音片段。

可选地，所述对所述M个类进行聚类，得到X个类，包括：分别确定所述M个类对应的类别特征信息；采用聚类算法对M个所述类别特征信息进行聚类，得到X个类。

可选地，所述对所述M个类进行聚类，得到X个类，包括：依次计算所述M个类中两两之间的特征距离，得到第二特征距离矩阵；依据所述第二特征距离矩阵，采用聚类算法对所述M个类别进行聚类，得到X个类。

可选地，所述的方法还包括：针对所述X个类中的一个类，确定所述类对应的多个语音片段；依据所述多个语音片段在所述待处理语音数据中的时间顺序，将所述多个语音片段进行拼接，得到所述类对应说话人的语音数据。

可选地，所述的方法还包括：分别对各说话人对应的语音数据进行识别，得到各说话人对应的语音识别文本。

本发明实施例还公开了一种语音处理装置，具体包括：获取模块，用于获取待处理语音数据，所述待处理语音数据对应的说话人为X个；预合并模块，用于将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；聚类模块，用于对所述M个类进行聚类，得到X个类；其中，所述X、N和M均为正整数，M小于N。

可选地，所述预合并模块，包括：划分子模块，用于依据预设切分步长，将所述待处理语音数据划分为N个语音片段。

可选地，所述预合并模块，包括：特征提取子模块，用于分别提取所述N个语音片段对应的特征信息；矩阵生成子模块，用于依次计算两两所述特征信息之间的特征距离，并依据所述特征距离生成第一特征距离矩阵；类别合并子模块，用于依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类。

可选地，所述类别合并子模块，包括：查找单元，用于针对一个语音片段：选取K个候选语音片段，并从所述第一特征距离矩阵中，分别查找所述K个候选语音片段与所述语音片段对应的特征距离；片段确定单元，用于确定所述K个候选语音片段中，与所述语音片段的特征距离小于距离阈值的H个目标语音片段；片段合并单元，用于将所述H个目标语音片段与所述语音片段合并为一类；其中，所述K和H为正整数。

可选地，所述查找单元，用于以所述语音片段为起始点向后查找K个连续的其他语音片段，作为候选语音片段；或，以所述语音片段为起始点向前查找K个连续的其他语音片段，作为候选语音片段。

可选地，所述聚类模块，包括：第一特征信息聚类子模块，用于分别确定所述M个类对应的类别特征信息；采用聚类算法对M个所述类别特征信息进行聚类，得到X个类。

可选地，所述聚类模块，包括：第二特征信息聚类子模块，用于依次计算所述M个类中两两之间的特征距离，得到第二特征距离矩阵；依据所述第二特征距离矩阵，采用聚类算法对所述M个类别进行聚类，得到X个类。

可选地，所述的装置还包括：拼接模块，用于针对所述X个类中的一个类，确定所述类对应的多个语音片段；依据所述多个语音片段在所述待处理语音数据中的时间顺序，将所述多个语音片段进行拼接，得到所述类对应说话人的语音数据。

可选地，所述的装置还包括：识别模块，用于分别对各说话人对应的语音数据进行识别，得到各说话人对应的语音识别文本。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待处理语音数据，所述待处理语音数据对应的说话人为X个；将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；对所述M个类进行聚类，得到X个类；其中，所述X、N和M均为正整数，M小于N。

可选地，还包含用于进行以下操作的指令：针对所述X个类中的一个类，确定所述类对应的多个语音片段；依据所述多个语音片段在所述待处理语音数据中的时间顺序，将所述多个语音片段进行拼接，得到所述类对应说话人的语音数据。

可选地，还包含用于进行以下操作的指令：分别对各说话人对应的语音数据进行识别，得到各说话人对应的语音识别文本。

本发明实施例包括以下优点：

本发明实施例中，在获取对应X个说话人的待处理语音数据后，可以将所述待处理语音数据划分为N个语音片段，将所述N个语音片段进行预合并为M个类；然后再将所述M个类聚类为X个类；由于M是小于N的，相比于现有技术直接对N个语音片段进行聚类而言，本发明实施例减少聚类的规模，进而降低了聚类复杂度，从而提高说话人分割的效率。

附图说明

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2是本发明的一种语音处理方法可选实施例的步骤流程图；

图3是本发明的一种语音识别方法实施例的步骤流程图；

图4是本发明的一种语音处理装置实施例的结构框图；

图5是本发明的一种语音处理装置可选实施例的结构框图；

图6根据一示例性实施例示出的一种用于语音处理的电子设备的结构框图；

图7是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，先对语音数据的多个片段进行预合并，再基于预合并结果进行聚类，实现对这段语音数据进行说话人分割；进而通过减少聚类的规模，提高说话人分割的效率。

其中，所述说话人分割可以是指说话人分割：将一段包含多个说话人的语音数据划分为多段语音片段，并给每段标注对应说话人的身份标签。

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取待处理语音数据，所述待处理语音数据对应的说话人为X个。

本发明实施例中，当需要对某段包括X个说话人的语音数据，进行说话人分割时，可以获取该段语音数据；并将该段语音数据称为待处理语音数据，然后通过执行步骤104至步骤106，实现对所述待处理语音数据进行说话人分割。其中，所述X可以为大于2的正整数。

步骤104、将所述语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类。

步骤106、对所述M个类进行聚类，得到X个类。

实际交流场景中，各个说话人可能交替连续发言，直至结束。基于此，本发明实施例中，可以利用待处理语音数据中说话人时间序列上的规律进行预合并；然后再基于预合并的结果进行聚类，进而能够缩小聚类算法的规模，提高说话人分割的效率。

本发明实施例中，可以将所述待处理语音数据划分为N个语音片段，然后对这N个语音片段进行预合并，合并成M个类。本发明一个示例中，针对每个语音片段，可以考虑与其关联的多个语音片段，是否与其可以合并为一类。当确定该语音片段与其关联的多个语音片段可以合并时，可以将该语音片段与其关联的多个语音片段合并；当确定该语音片段与其关联的多个语音片段不可以合并时，可以将该语音片段独立作为一个类；从而实现对这N个语音片段进行预合并。其中，所述N和M均为正整数，M小于N。

待将N个语音片段预合并为M个类后，可以采用聚类算法将这M个类进行聚类，聚为X个类；待将这M个类聚类X类后，这M个类的每个类均被标注对应的聚类类别标识。本发明实施例中，当这M个类中的每个类被标注对应的聚类类别标识时，这M个类的每个类中的语音片段也均被标注对应的聚类类别标识。其中，一个聚类类别标识可以用于唯一标识一个说话人，可以与说话人的身份标签对应；进而实现为N个语音片段标注对应说话人的身份标签。其中，采用的聚类算法可以按照需求选取，如谱聚类算法、层次聚类算法等；本发明实施例对此不作限制。

综上，本发明实施例中，在获取包括X个说话人的待处理语音数据后，可以将所述待处理语音数据划分为N个语音片段；然后将所述N个语音片段进行预合并为M个类，再对所述M个类进行聚类，得到X个类；由于M是小于N的，相比于现有技术直接对N个语音片段进行聚类而言，本发明实施例减少聚类的规模，进而降低了聚类复杂度，从而提高说话人分割的效率。

以下对如何将N个语言片段预合并为M个类，以及如何将M个类聚合为X个类进行说明。

参照图2，示出了本发明的一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202、获取待处理语音数据。

本发明实施例可以应用于多种应用场景，对各种场景下的语音数据进行说话人分割；例如会议内容整理，访谈内容整理等。因此获取待处理语音数据例如会议录音、访谈录音等，可以参照步骤204-步骤212对待处理语音数据进行说话人分割。其中，本发明实施例对待处理语音数据的时长不作限制。

本发明的一个可选实施例中，所述待处理语音数据可以是指对待处理的原始语音数据进行预处理后的数据；所述原始语音数据可以是指音频采集设备采集到的语音数据。所述预处理可以包括语音转码、高通滤波和端点检测等多种处理，本发明实施例对此不作限制。

步骤204、依据预设切分步长，将所述待处理语音数据划分为N个语音片段。

本发明实施例中，按照预设切分步长对待处理语音数据进行划分，得到对应的N个语音片段；其中，所述预设切分步长可以按照需求设置，如0.5s；本发明实施例对此不作限制。本发明的一个示例中，可以从所述待处理语音数据的起始时刻开始，向后移动预设切分步长，得到第一个切分点；然后从第一个切分点对该待处理语音数据进行切分，得到第一语音片段，即待处理语音数据的起始时刻至第一个切分点之间的语音数据。然后向后移动预设切分步长，得到第二个切分点；从第二个切分点对该待处理语音数据进行切分，得到第二语音片段，即待处理语音数据上第一个切分点至第一个切分点直接的语音数据；以此类推；可以得到N个语音片段。例如，待处理语音数据的时长为34.5s；若预设切分步长为0.5s，则可以将该待处理语音数据划分为69个语音片段。

步骤206、分别提取所述N个语音片段对应的特征信息。

步骤208、依次计算两两特征信息之间的特征距离，并依据所述特征距离生成第一特征距离矩阵。

步骤210、依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类。

本发明实施例中，可以分别提取这N个语音片段对应的特征信息，然后依据各语音片段的特征信息进行预合并。

本发明的一个示例中，一种依据各语音片段的特征信息进行预合并的方式可以是，依次计算这个各语音片段中，两两语音片段对应语音特征之间的特征距离；然后采用特征距离，生成第一特征距离矩阵(如用P表示)，再依据所述第一特征距离矩阵P，将所述N个语音片段预合并为M个类。

其中，所述特征距离与语音片段的相似度成反比，即特征距离越小，对应的两个语音片段的相似度越高；特征距离越大，对应的两个语音片段的相似度越低。所述第一特征距离矩阵P可以是二维矩阵，该二维矩阵的行和列均对应一个语音片段；第一特征距离矩阵P中的每个元素，可以表征该元素所在行对应语音片段与该元素所在列对应语音片段之间的特征距离。例如P[2,10]表示第2个语音片段与第10个语音片段之间的特征距离。其中，当该元素所在的行与所在的列相同时，该元素表征的是该行或列对应的语音片段与本身的特征距离，可以是默认值0。

其中，所述依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类，包括如下子步骤：

子步骤22、针对一个语音片段，选取K个候选语音片段，并从所述第一特征距离矩阵P中，分别查找所述K个候选语音片段与所述语音片段对应的特征距离。

子步骤24、确定所述K个候选语音片段中，与所述语音片段的特征距离小于距离阈值的H个目标语音片段。

子步骤26、将所述H个目标语音片段与所述语音片段合并为一类。

大多数情况下，多个说话人是交替说话的；因此一段待处理语音数据中，每个一个语音片段可能存在相关联的多个其他语言片段。进而本发明的一个示例中，针对每一个语音片段，可以选取出可能与该语音片段相关联的K个候选语音片段；然后从所述第一特征距离矩阵P中，分别查找这K个候选语音片段与所述语音片段对应的特征距离。再依次判断每一个候选语音片段与该语音片段的特征距离是否小于距离阈值；若某一个候选语音片段与该语音片段的特征距离小于距离阈值，可以确定该其他语音片段与该语音片段相关联，则将该候选语音片段确定为目标语音片段。待从K个候选语音片段中选取目标语音片段(假设目标语音片段的数量为H)后，可以将所述H个目标语音片段与所述语音片段合并为一类。其中，所述K和H均为正整数，K可以按照需求设置，如K为10，不同预设划分步长对应的K可以不同，本发明实施例对此不作限制。其中，所述距离阈值可以按照需求设置，本发明实施例对此也不作限制。

其中，在多个说话人交替说话过程中，每个说话人往往都会进行一定时间的连续发言，而后再换为另一说话人进行发言；因此本发明实施例中，一种选取K个候选语音片段的方式可以是：以所述语音片段为起始点向后查找K个连续的其他语音片段，作为候选语音片段。其中，可以从该待处理语音数据的第1个语音片段开始，向后查找K个连续的其他语音片段；从而查找到第2个语音片段-第(K+1)个语音片段。再从该待处理语音数据的第2个语音片段开始，向后查找K个连续的其他语音片段；从而查找到第3个语音片段-第(K+2)个语音片段，以此类推。

其中，当语音片段i与其之后的K个其他语音片段为一类时，若K个其他语音片段中第一个语音片段与其之后的第K个其他语音片段为一类，则可以将语音片段i～(K+i+1)合并为一类。当K个其他语音片段中第二个语音片段与其之后的第K个其他语音片段为一类，则可以将语音片段i～(K+i+2)合并为一类；以此类推。例如，所述待处理语音数据的第1个片段与其之后K＝10个连续的其他语音片段均为一类；即语音片段1～11为一类。若所述待处理语音数据的第2个片段与其之后K＝10个连续的其他语音片段为一类，即语音片段2～12为一类；然后可以将1～12合并为一类。若所述待处理语音数据的第3个片段与其之后K＝10个连续的其他语音片段为一类，即3～13为一类；然后可以将1～13合并为一类。

例如，N＝69，则对这69个语音片段进行预合并的结果如下：

0，1，1，1，1，1，6，7，8，8，8，8，12，13，13，13，13，13，13，13，13，13，13，13，24，25，26，27，28，28，28，31，32，33，33，33，36，37，38，38，38，38，38，38，38，38，38，38，38，38，38，38，38，38，38，38，38，38，58，59，59，59，59，59，59，59，59，59，68

其中，每个语音片段被标注一个预合并类别标识，每个预合并类别标识唯一标识一个预合并的类别；相同编号表征同一个预合并的类别。例如，第1个语音片段为一个预合并的类别，第2个语音片段-第6个语音片段为一个预合并的类别等；进而将69个语音片段预合并为21个类，即M＝21。

本发明实施例中，另一种选取K个候选语音片段的方式可以是：以所述语音片段为起始点向前查找K个连续的其他语音片段，作为候选语音片段；这与上述以所述语音片段为起始点向后查找K个连续的其他语音片段的方式类似，在此不再赘述。

步骤212、对所述M个类进行聚类，得到X个类。

本发明实施例中，对所述M个类进行聚类，得到X个类的方式包括多种，其中一种对所述M个类进行聚类，得到X个类的方式可以包括如下子步骤：

子步骤42、分别确定所述M个类对应的类别特征信息。

子步骤44、采用聚类算法对M个所述类别特征信息进行聚类，得到X个类。

本发明实施例中，可以计算M个类中的每一个类对应的类别特征信息。其中，计算一个类的类别特征信息的方式包括多种，一种方式可以是从这一个类对应语音片段的特征信息中，选取一个语音片段的特征信息，作为这一个类对应的类别特征信息。另一种方式可以是计算这个类中各语音片段的特征信息的平均值，得到平均特征信息；然后将平均特征信息，作为这个类的类别特征信息。再采用聚类算法对这个M个类别特征信息进行聚类，得到X个类。例如，可以从M个类别特征信息中选取出S1个类别特征信息作为聚类中心，然后针对S1个聚类中心中每一个聚类中心，计算其他类别特征信息与该聚类中心对应类别特征信息的特征距离。确定与该聚类中心的距离小于预设阈值的其他类别特征信息，然后将与该聚类中心的距离小于预设阈值的其他类别特征信息对应的语音片段，与该聚类中心对应的语音片段聚为一类，得到S1个类。其中，所述预设阈值可以按照需求设置，本发明实施例对此不作限制。然后再从S1个聚类中心中选取S2个聚类中心，针对S2个聚类中心中的每一个聚类中心，计算S1个聚类中心中其他聚类中心与该聚类中心的距离，将距离小于预设阈值的两个聚类中心对应的语音片段聚为一类，以此类推，直到将M个类聚为X个类为止。

本发明实施例中，另一种对所述M个类进行聚类，得到X个类的方式可以包括如下子步骤：

子步骤62、依次计算所述M个类中两两之间的特征距离，得到第二特征距离矩阵。

子步骤64、采用聚类算法对所述第二特征距离矩阵进行处理，得到X个类。

本发明实施例中，可以确定这M个类中每个类对应的类别特征信息，然后依次计算所述M个类中两两类别特征信息之间的特征距离；其中，确定这M个类中每个类对应的类别特征信息的方式，与上述类似，在此不再赘述。

其中，所述特征距离与类别的相似度成反比，即特征距离越小，对应的两个类别的相似度越高；特征距离越大，对应的两个类别的相似度越低。然后采用两两类别特征信息之间的特征距离，生成第二特征矩阵(可以用Q表示)。所述第二特征距离矩阵Q可以是二维矩阵，该二维矩阵的行和列均对应M个类中的一个类别；第二特征距离矩阵Q中的每个元素，可以表征该元素所在行对应类别与该元素所在列对应类别之间的特征距离。例如Q[2,10]表示第2个类别与第10个类别之间的特征距离。其中，当该元素所在的行与所在的列相同时，该元素表征的是该行或列对应的类别与本身的特征距离，可以是默认值0。

再采用聚类算法对所述第二特征距离矩阵Q进行聚类，得到X个类；其中，每次可以从第二特征距离矩阵Q中查找特征距离最小的两个类，将这两个类聚为一个类，直到将M个类聚类为X个类为止。

例如，若待处理语音数据对应的说话人为2个，上述69个语音片段，将这69个语音片段预合并为21个类后，将这21类聚为2个类的结果如下：

1，1，1，1，1，1，1，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，1，1，1，1，1，1，1，2，2，2，2，1，1，1，1，1，1，1，1，2，2，2，2，2，1，1，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2

其中，聚类类别标识1可以表示说话人1的身份标签，聚类类别标识2可以表示说话人2的身份标签。进而实现为该待处理语音数据中每个语音片段标注了对应说话人的身份标签。

当然，还可以包括其他的聚类方法，本发明实施例对此不作限制。

进而若针对时间复杂度为O(N^2log(N^2))的聚类算法，若预合并得到的M为N的1/2，则聚类时间将缩短为原来的1/4；若针对时间复杂度为O(N^3)的聚类算法，则聚类时间将缩短为原来的1/8。对于上述实例中，69个片段被预合并为21类，聚类耗时缩短10倍以上。

综上，在获取对应X个说话人的待处理语音数据后，可以将所述待处理语音数据划分为N个语音片段，将所述N个语音片段进行预合并为M个类；然后再将所述M个类聚类为X个类；相比于现有技术直接对N个语音片段进行聚类而言，由于M是小于N的，本发明实施例可以提高说话人分割效率；当N达几万或几十万时，说话人分割的效率提高的更为显著。

其次，本发明实施例中，可以分别提取所述N个语音片段对应的特征信息；依次计算两两特征信息之间的特征距离，并依据所述特征距离生成第一特征距离矩阵P；然后针对一个语音片段：选取K个候选语音片段，并从所述第一特征距离矩阵P中，分别查找所述K个候选语音片段与所述语音片段对应的特征距离；确定所述K个候选语音片段中，与所述语音片段的特征距离小于距离阈值的H个目标语音片段；将所述H个目标语音片段与所述语音片段合并为一类；进而基于一段语音数据中多个说话人是交替说话的特性，根据语音片段的特征距离将多个相关联的语音片段合并为一类，提高将预合并的准确性，进而提高说话人分割的准确性。

再次，本发明实施例中，可以通过以所述语音片段为起始点向后查找K个连续的其他语音片段；或，以所述语音片段为起始点向前查找K个连续的其他语音片段的方式，选取出K个候选语音片段；进而考虑到人说话连续的情景，在一定程度上促进连续片段的合并，相比于直接聚类更符合逻辑。当说话人本身声音变化幅度较大时，聚类较易出现错误，而本发明实施例预合并可以一定程度上改善这种情况；进而进一步提高说话人分割的准确性。

本发明实施例中，待将所述M个类聚为X个类后，可以分别将X个类中每个类的语音数据进行合并，然后进行对各说话人对应语音片段进行语音识别。

参照图3，本发明的一种语音识别方法实施例的步骤流程图。

步骤302、针对所述X个类中的一个类，确定所述类对应的多个语音片段。

步骤304、依据所述多个语音片段在所述待处理语音数据中的时间顺序，将所述多个语音片段进行拼接，得到所述类对应说话人的语音数据。

本发明实施例中，可以依据各语音片段对应的聚类类别标识，查找属于同一个类的语音片段。然后针对每一个类对应的语音片段，按照这些片段在待处理语音数据中的时间顺序进行拼接，得到每一个类对应说话人的语音数据。

例如，上述69个语音片段，可以查找到语音片段1-7、26-32、37-44和50-51为同一个类；然后将这些语音片段按照其在待处理语音数据中的时间顺序进行拼接，得到顺序为(1-7-26-32-37-44-50-51)的24个语音片段组成的语音数据，即说话人1的语音数据。可以查找到语音片段8-25、33-36、45-49和52-69为同一个类；然后将这些语音片段按照其在待处理语音数据中的时间顺序进行拼接，得到顺序为(8-25-33-36-45-49-52-69)的45个语音片段组成的语音数据，即说话人2的语音数据。

步骤306、分别对各说话人对应的语音数据进行识别，得到各说话人对应的语音识别文本。

然后可以分别对每个说话人对应的语音数据进行识别，得到各个说话人对应语音数据的语音识别文本。其中，在针对每个说话人对应的语音数据进行识别的过程中，可以从上述步骤206确定的语音片段的特征信息中，查找该说话人的语音数据对应语音片段的特征信息；然后依据这些特征信息进行识别，得到该说话人对应的语音识别文本。进而以便于后续采用各说话人对应的语音识别文本进行其他操作，如将各各说话人对应的语音识别文本整理为会议记录等。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括如下模块：

获取模块402，用于获取待处理语音数据，所述待处理语音数据对应的说话人为X个；

预合并模块404，用于将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；

聚类模块406，用于对所述M个类进行聚类，得到X个类；其中，所述X、N和M均为正整数，M小于N。

参照图5，示出了本发明的一种语音处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述预合并模块404，包括：

划分子模块4042，用于依据预设切分步长，将所述待处理语音数据划分为N个语音片段。

本发明一个可选的实施例中，所述预合并模块404，包括：

特征提取子模块4044，用于分别提取所述N个语音片段对应的特征信息；

矩阵生成子模块4046，用于依次计算两两所述特征信息之间的特征距离，并依据所述特征距离生成第一特征距离矩阵；

类别合并子模块4048，用于依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类。

本发明一个可选的实施例中，所述类别合并子模块4048，包括：

查找单元40482，用于针对一个语音片段：选取K个候选语音片段，并从所述第一特征距离矩阵中，分别查找所述K个候选语音片段与所述语音片段对应的特征距离；

片段确定单元40484，用于确定所述K个候选语音片段中，与所述语音片段的特征距离小于距离阈值的H个目标语音片段；

片段合并单元40486，用于将所述H个目标语音片段与所述语音片段合并为一类；其中，所述K和H为正整数。

本发明一个可选的实施例中，所述查找单元40482，用于以所述语音片段为起始点向后查找K个连续的其他语音片段，作为候选语音片段；或，以所述语音片段为起始点向前查找K个连续的其他语音片段，作为候选语音片段。

本发明一个可选的实施例中，所述聚类模块406，包括：

第一特征信息聚类子模块4062，用于分别确定所述M个类对应的类别特征信息；采用聚类算法对M个所述类别特征信息进行聚类，得到X个类。

本发明一个可选的实施例中，所述聚类模块406，包括：

第二特征信息聚类子模块4064，用于依次计算所述M个类中两两之间的特征距离，得到第二特征距离矩阵；依据所述第二特征距离矩阵，采用聚类算法对所述M个类别进行聚类，得到X个类。

本发明一个可选的实施例中，所述的装置还包括：

拼接模块408，用于针对所述X个类中的一个类，确定所述类对应的多个语音片段；依据所述多个语音片段在所述待处理语音数据中的时间顺序，将所述多个语音片段进行拼接，得到所述类对应说话人的语音数据。

本发明一个可选的实施例中，所述的装置还包括：

识别模块410，用于分别对各说话人对应的语音数据进行识别，得到各说话人对应的语音识别文本。

综上，本发明实施例中，在获取对应X个说话人的待处理语音数据后，可以将所述待处理语音数据划分为N个语音片段，将所述N个语音片段进行预合并为M个类；然后再将所述M个类聚类为X个类；由于M是小于N的，相比于现有技术直接对N个语音片段进行聚类而言，本发明实施例减少聚类的规模，进而降低了聚类复杂度，从而提高说话人分割的效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于语音处理的电子设备600的结构框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件614还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音处理方法，所述方法包括：获取待处理语音数据，所述待处理语音数据对应的说话人为X个；将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；对所述M个类进行聚类，得到X个类；其中，所述X、N和M均为正整数，M小于N。

图7是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备700的结构示意图。该电子设备700可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器上执行存储介质730中的一系列指令操作。

服务器还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如WindowsServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待处理语音数据，所述待处理语音数据对应的说话人为X个；将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；对所述M个类进行聚类，得到X个类；其中，所述X、N和M均为正整数，M小于N。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待处理语音数据，所述待处理语音数据对应的说话人为X个；

将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；

对所述M个类进行聚类，得到X个类；

其中，所述X、N和M均为正整数，M小于N。

2.根据权利要求1所述的方法，其特征在于，所述将所述待处理语音数据划分为N个语音片段，包括：

依据预设切分步长，将所述待处理语音数据划分为N个语音片段。

3.根据权利要求1所述的方法，其特征在于，所述将所述N个语音片段预合并为M个类，包括：

分别提取所述N个语音片段对应的特征信息；

依次计算两两所述特征信息之间的特征距离，并依据所述特征距离生成第一特征距离矩阵；

依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类。

4.根据权利要求3所述的方法，其特征在于，所述依据所述第一特征距离矩阵，将所述N个语音片段预合并为M个类，包括：

针对一个语音片段：

选取K个候选语音片段，并从所述第一特征距离矩阵中，分别查找所述K个候选语音片段与所述语音片段对应的特征距离；

确定所述K个候选语音片段中，与所述语音片段的特征距离小于距离阈值的H个目标语音片段；

将所述H个目标语音片段与所述语音片段合并为一类；

其中，所述K和H为正整数。

5.根据权利要求4所述的方法，其特征在于，所述选取K个候选语音片段，包括：

以所述语音片段为起始点向后查找K个连续的其他语音片段，作为候选语音片段；或，

以所述语音片段为起始点向前查找K个连续的其他语音片段，作为候选语音片段。

6.根据权利要求1所述的方法，其特征在于，所述对所述M个类进行聚类，得到X个类，包括：

分别确定所述M个类对应的类别特征信息；

采用聚类算法对M个所述类别特征信息进行聚类，得到X个类。

7.根据权利要求1所述的方法，其特征在于，所述对所述M个类进行聚类，得到X个类，包括：

依次计算所述M个类中两两之间的特征距离，得到第二特征距离矩阵；

依据所述第二特征距离矩阵，采用聚类算法对所述M个类别进行聚类，得到X个类。

8.一种语音处理装置，其特征在于，包括：

获取模块，用于获取待处理语音数据，所述待处理语音数据对应的说话人为X个；

预合并模块，用于将所述待处理语音数据划分为N个语音片段，将所述N个语音片段预合并为M个类；

聚类模块，用于对所述M个类进行聚类，得到X个类；

其中，所述X、N和M均为正整数，M小于N。

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的语音处理方法。

10.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述M个类进行聚类，得到X个类；

其中，所述X、N和M均为正整数，M小于N。