CN112185413A

CN112185413A - 一种语音处理方法、装置和用于语音处理的装置

Info

Publication number: CN112185413A
Application number: CN202011063543.XA
Authority: CN
Inventors: 潘逸倩; 姚升余
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05
Anticipated expiration: 2040-09-30
Also published as: CN112185413B

Abstract

本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置。其中的方法包括：获取待处理的语音数据；对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。本发明实施例可以提高说话者分割的准确率。

Description

一种语音处理方法、装置和用于语音处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音处理方法、装置和用于语音处理的装置。

背景技术

说话者分割是指：在语音处理领域，从多人对话中自动地将语音依据说话者进行划分，并加以标记的过程。

然而，由于噪声以及多个说话者语音交叠等带来的干扰，容易将对应语音数据误判为并不存在的新说话者，从而导致需要被区分的说话者的类别逐渐增加，语音被分割得越来越碎，最终影响说话者分割的准确率。

发明内容

本发明实施例提供一种语音处理方法、装置和用于语音处理的装置，可以提高说话者分割的准确率。

为了解决上述问题，本发明实施例公开了一种语音处理方法，所述方法包括：

获取待处理的语音数据；

对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；

基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。

另一方面，本发明实施例公开了一种语音处理装置，所述装置包括：

语音获取模块，用于获取待处理的语音数据；

声源估计模块，用于对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；

语音分割模块，用于基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。

再一方面，本发明实施例公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待处理的语音数据；

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音处理方法。

本发明实施例包括以下优点：

本发明实施例在获取待处理的语音数据之后，对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；基于所述语音数据中说话者表征特征的变化信息以及声源位置的变化信息(第一跳变点)对所述语音数据进行分割，得到分割结果。本发明实施例基于语音数据中声源位置的变化信息，对现有的说话者分割方案进行改进，可以有效减少由于噪声或者交叠人声等因素造成说话者跳变点误判的情况，进而可以提高说话者分割的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2是本发明实施例中方案一的语音处理系统框架示意图；

图3是基于图2的系统框架对语音数据进行处理的一个示例示意图；

图4是本发明实施例中方案二的语音处理系统框架示意图；

图5是基于图4的系统框架对语音数据进行处理的一个示例示意图；

图6是本发明的一种语音处理装置实施例的结构框图；

图7是本发明的一种用于语音处理的装置800的框图；

图8是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、获取待处理的语音数据；

步骤102、对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；

步骤103、基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。

本发明实施例的语音处理方法可应用于电子设备。所述电子设备包括但不限于：服务器、智能手机、录音笔、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本发明实施例的语音处理方法可用于需要对语音数据进行说话者分割的任意场景。例如，借助说话者分割技术实现对语音数据的结构化管理，对语音数据中的不同说话者的角色信息进行有效区分，进而为更高语义层次上实现结构化管理提供基础。又如，利用说话者分割的结果进行说话者自适应(SpeakerAdaption)，以提高语音识别的识别率。再如，通过说话者分割技术辅助电话、会议数据进行自动转写构建话者音频档案，进而实现说话者语音日志管理等。可以理解，本发明实施例对所述语音处理方法的应用场景不做限制。

首先，获取待处理的语音数据。所述待处理的语音数据可以为通过所述电子设备的录音功能实时采集的语音数据，例如可以利用麦克风实时采集待处理的语音数据，待处理的语音数据可以是网络直播时、或者语音通话时产生的语音数据等。或者，所述待处理的语音数据还可以为已录制好的语音数据，例如通过即时通讯应用获取或者文件拷贝等方式获取的语音数据。通过即时通讯应用获取的语音数据，例如，通过即时通讯应用向通讯对端发送的语音数据，或者，通过即时通讯应用接收的、来自通讯对端的语音数据等。本发明实施例对所述语音数据的具体来源不做限制。

然后，对获取的所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点。

在实际应用中，当语音数据包含多人对话时，说话者信息除了与发音器官特点、性别、年龄、口音等因素相关之外，不同说话者还处于不同的空间位置。当声源位置发生跳变时，说话者发生变化的概率较高，当声源位置固定不变时，说话者发生变化的概率较低。因此，本发明实施例基于语音数据中声源位置的变化信息，对现有的说话者分割方案进行改进，基于所述语音数据中说话者表征特征的变化信息以及声源位置的变化信息(第一跳变点)对所述语音数据进行分割，得到分割结果。所述说话者表征特征包括但不限于声纹、音色和音调等特征。本发明实施例结合说话者表征特征的变化信息和声源位置的变化信息判断说话者是否发生变化，可以有效减少将噪声或者交叠人声误判为新的说话者声的情况，可以避免说话者分割过程中检测的说话者数发散的问题，进而可以提高说话者分割的准确率。

在本发明实施例中，待处理的语音数据可以包括实时采集的语音数据或者已有的语音数据。对于实时采集的语音数据和已有的语音数据，本发明实施例可以采取不同的声源位置估计方式。

在本发明的一种可选实施例中，所述待处理的语音数据为实时采集的语音数据，步骤102所述对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，包括：

步骤S11、通过麦克风阵列实时采集语音数据；

步骤S12、在实时采集语音数据的过程中，确定声源相对于所述麦克风阵列的空间角度信息；

步骤S13、根据所述空间角度信息，监测所述语音数据中的声源位置变化信息；

步骤S14、根据监测的声源位置变化信息，确定实时采集的语音数据中的第一跳变点。

在实时采集语音数据的过程中，可以在采集端实时计算出声源的空间角度信息。具体地，可以通过DOA(Direction of Arrival，波达方向估计)技术确定声源相对于麦克风阵列的空间角度信息。

DOA是麦克风阵列的一项重要技术，其作用是在嘈杂环境下判断出说话者声源与麦克风阵列的相对方向。该技术主要利用声波到达各个麦克风的时间差进行求解，得到声源相对于麦克风阵列的空间角度信息。

所述采集端可以为具有单个麦克风阵列或多个麦克风阵列辅助的多种硬件条件的电子设备。通过单个或多个麦克风阵列同步采集和增强接收的语音数据，输出对每帧语音估计的声源位置。其中，单个麦克风阵列输出为空间角度，多个麦克风阵列通过交叉定位输出为空间坐标位置。在采集语音数据的过程中实时监控声源位置变化信息，根据对每帧语音估计的声源位置，将满足阵列空间分辨能力、差距较大的声源位置划分为不同的位置簇，将相近的声源位置划分为同一位置簇，当出现位置簇间跳变时，发生说话者变换的概率较大，则确定出现第一跳变点。

在本发明的一种可选实施例中，所述待处理的语音数据为已采集的多通道语音数据，步骤102所述对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，包括：

将已采集的多通道语音数据上传至云服务端，通过所述云服务端对所述多通道语音数据进行声源位置估计，检测所述多通道语音数据中的第一跳变点。

对于已采集的多通道语音数据，可以采用基于深度学习的DOA估计方法。具体地，对于多人对话场景，可以采集多通道语音数据，并且将多通道语音数据上传至云服务端，通过云服务端的DOA估计模型对所述多通道语音数据进行声源位置估计，检测所述多通道语音数据中的第一跳变点。

所述DOA估计模型可以为根据机器学习方法和大量的语音训练样本，对现有的神经网络进行有监督训练得到的。所述语音训练样本包括人工标注信息，所述人工标注信息包括人工标注的真实的说话者跳变点以及人工标注的说话者身份标记。需要说明的是，本发明实施例对所述DOA估计模型的模型结构以及训练方法不加以限制。所述DOA估计模型可以是融合了多种神经网络的分类模型。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN(ConvolutionalNeuralNetwork，卷积神经网络)、LSTM(LongShort-Term Memory，长短时记忆)网络、RNN(Recurrent NeuralNetwork，循环神经网络)、注意力神经网络等。

本发明实施例在对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点之后，将检测的第一跳变点和所述语音数据一起输入本发明实施例的语音处理系统，所述语音处理系统基于所述语音数据中说话者表征特征的变化信息以及第一跳变点对所述语音数据进行分割，得到分割结果。

本发明实施例提出了如下两种基于所述语音数据中说话者表征特征的变化信息以及第一跳变点对所述语音数据进行分割的方案。

方案一

在本发明的一种可选实施例中，步骤103所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果，包括：

步骤S21、利用检测的所述语音数据中的各第一跳变点对所述语音数据进行切分，得到语音分段序列；

步骤S22、基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果。

在实际应用中，说话者分割通常采用短时滑动窗的方式提取说话者表征特征，并且对说话者表征特征进行相似度打分，判断当前滑动窗内是否存在说话者表征特征的变化信息，若某个时间点发生说话者表征特征的跳变，则将该时间点作为说话者跳变点，基于检测到的说话者跳变点对语音数据进行分割。当一个滑动窗内同时包含多个说话者的语音时，提取的说话者表征特征通常呈现出与多人相似的结果，从而会影响检测说话者跳变点的准确率。

为解决上述问题，方案一先利用第一跳变点对所述语音数据进行切分，再在切分后的数据内部取滑动窗检测说话者跳变点。由此可以减少滑动窗内同时存在多个说话者的语音的情况，以提高说话者分割的准确率。

在本发明的一种可选实施例中，步骤S22所述基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果，包括：

步骤S221、对所述语音分段序列中的各语音分段内进行滑窗，分别提取说话者表征特征；

步骤S222、根据提取的说话者表征特征确定各语音分段内的第二跳变点，所述第二跳变点为表示所述语音数据中说话者表征特征发生变化的时间点；

步骤S223、根据所述第二跳变点对所述各语音分段进行分割，得到分割结果。

本发明实施例利用第一跳变点对所述语音数据进行切分，得到语音分段序列之后，对所述语音分段序列中的各语音分段进行滑窗，在滑动窗内提取说话者表征特征。根据提取的说话者表征特征确定各语音分段内的第二跳变点，所述第二跳变点为表示所述语音数据中说话者表征特征发生变化的时间点；根据所述第二跳变点对所述各语音分段进行分割，得到分割结果。

参照图2，示出了本发明实施例中方案一的语音处理系统框架示意图，以及参照图3，示出了基于图2的系统框架对语音数据进行处理的一个示例示意图。

如图2所示的语音处理系统包括：DOA估计模块201、VAD检测模块202、语音切分模块203、说话者分割模块204。其中，DOA估计模块201用于对待处理的语音数据进行声源位置估计，检测所述语音数据中的第一跳变点。VAD检测模块202用于对待处理的语音数据进行语音活动检测(Voice Activity Detection，VAD)，确定语音数据中人声出现的时间段。语音切分模块203用于根据DOA估计模块201检测的第一跳变点对所述语音数据中包含人声的数据段进行切分，得到语音分段序列。说话者分割模块204用于对所述语音分段序列进行说话者分割，得到分割结果。

如图3所示的示例中，语音数据经过DOA估计模块201处理后，检测得到如下两个第一跳变点：角度跳变点1和角度跳变点2。根据这个两个第一跳变点将该语音数据切分为如下三个语音分段：seg1、seg2、seg3。在这三个语音分段内分别进行滑窗、提取说话者表征特征，可以得到图3所示的如下6个第二跳变点：说话者跳变点1、说话者跳变点2、说话者跳变点3、说话者跳变点4、说话者跳变点5、说话者跳变点6。其中，spk1、spk2、spk3表示三个说话者。

如图3所示，在该示例中，可以避免一个滑动窗内同时存在说话者spk2和说话者spk3的情况。也即，方案一采用DOA估计结果中的第二跳变点对原始连续语音数据切分后，可以减少滑动窗内同时存在多个说话者的语音的情况，实现避免引入不真实的新说话者类别、减少同性别相似音色说话者类别间混淆度，从而达到提升说话者跳变点检测准确率的目的，进而可以提高说话者分割的准确率。

方案二

步骤S31、基于所述语音数据中说话者表征特征的变化信息，检测所述语音数据中的第二跳变点；

步骤S32、基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点；

步骤S33、根据所述目标跳变点对所述语音数据进行分割，得到分割结果。

方案二是获取待处理的语音数据之后，对语音数据分别检测第一跳变点和第二跳变点，基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点，根据所述目标跳变点对所述语音数据进行分割，得到分割结果。其中，第一跳变点为表示所述语音数据中声源位置发生变化的时间点，第二跳变点为表示所述语音数据中说话者表征特征发生变化的时间点，目标跳变点为基于第一跳变点对第二跳变点进行修正，得到的最终的说话者跳变点。利用目标跳变点对语音数据进行分割，可以避免第二跳变点为不真实说话者的情况，提高说话者分割的准确率。

在本发明的一种可选实施例中，所述步骤S32基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点，包括：

步骤S321、判断所述第二跳变点是否满足第一条件，所述第一条件包括：所述第二跳变点对应的第一时间点所在预设时间范围内存在第一跳变点；

步骤S322、若判定所述第二跳变点满足所述第一条件，则获取距离所述第一时间点最近的第一跳变点对应的第二时间点；

步骤S323、根据所述第一时间点和所述第二时间点，确定目标跳变点。

为了检测语音数据中真实的说话者跳变点，避免由于噪声、人声交叠、或者音色相似等干扰因素造成的说话者跳变点的误判。本发明实施例在检测所述语音数据中的第二跳变点之后，利用第一跳变点校验第二跳变点是否为真实的说话者跳变点，并且对异常的第二跳变点进行修正或过滤。

例如，假设t时刻检测到第二跳变点Sct。首先判断所述第二跳变点对应的第一时间点所在预设时间范围内是否存在第一跳变点。其中，第一时间点为检测到第二跳变点Sct的时刻(如t时刻)，也即，判断所述第二跳变点Sct对应的第一时间点(t时刻)所在预设时间范围内是否存在第一跳变点。所述预设时间范围内指t时刻附近的一定时间范围内，如(st,et]。其中，st＝t-a，et＝t+a，a为预设可接受的容错时间。

本发明实施例将所述第二跳变点对应的第一时间点所在预设时间范围内存在第一跳变点记为第一条件，如果第一时间点t检测到的第二跳变点Sct满足第一条件，则可以确定该第二跳变点Sct为真实的说话者跳变点。此时可以获取距离所述第一时间点t最近的第一跳变点对应的第二时间点，假设记为t1。根据所述第一时间点t和所述第二时间点t1，确定目标跳变点。

进一步地，由于t1为(st,et]内距离t最近的第一跳变点，且abs(t1-t)<a，所以目标跳变点可以为t、t1、f(t,t1)中的任意一种，通过开发集效果验证，本发明实施例优选地采用f(t,t1)＝(t+t1)/2为目标跳变点。

在本发明的一种可选实施例中，步骤S321所述判断所述第二跳变点是否满足第一条件之后，所述方法还可以包括：

步骤S324、若判定所述第二跳变点不满足第一条件，则获取所述第二跳变点对应的说话者跳变置信度、所述第二跳变点对应的说话者性别跳变置信度，以及所述第一时间点对应的语音存在概率；

步骤S325、根据所述说话者跳变置信度、所述说话者性别跳变置信度、以及所述语音存在概率判断所述第二跳变点是否满足第二条件，所述第二条件包括：所述说话者跳变置信度大于第一阈值或所述说话者性别跳变置信度大于第二阈值，且所述语音存在概率大于第三阈值；

步骤S326、若判定所述第二跳变点满足所述第二条件，则确定所述第二跳变点为目标跳变点。

进一步地，如果判定所述第二跳变点对应的第一时间点所在预设范围内不存在第一跳变点，也即判定第一时间点t检测到的第二跳变点Sct不满足第一条件，则获取所述第二跳变点对应的说话者跳变置信度(记为S1)、所述第二跳变点对应的说话者性别跳变置信度(记为S2)，以及所述第一时间点对应的语音存在概率(记为S3)。

其中，S1表示第二跳变点为说话者跳变点的置信度。S2表示第二跳变点发生性别变化的置信度。S3表示t时刻所属语音片段存在人声的概率。S1、S2、S3的取值范围为[0,1]区间。所述第一阈值(thres1)、第二阈值(thres2)、以及第三阈值(thres3)可以根据经验设置，本发明实施例对此不做限制。

如果判定第一时间点检测到的第二跳变点Sct不满足第一条件，但是满足第二条件，也即，在(st,et]时间范围内不存在第一跳变点，但是第二跳变点Sct的说话者跳变置信度S1>thres1并且S3>thres3，或者S2>thres2并且S3>thres3。此时，可以确定第一时间点t检测到的第二跳变点Sct为真实的说话者跳变点，并且将该第二跳变点Sct作为目标跳变点。

在本发明的一种可选实施例中，步骤S325所述根据所述说话者跳变置信度、所述说话者性别跳变置信度、以及所述语音存在概率判断所述第二跳变点是否满足第二条件之后，所述方法还可以包括：

步骤S327、若判定所述第二跳变点不满足第二条件，则过滤掉所述第二跳变点。

如果第一时间点t检测到的第二跳变点Sct既不满足第一条件，也不满足第二条件，则确定第一时间点t不存在真实的说话者跳变点，可以过滤掉该第二跳变点Sct，也即对于第一时间点t不输出说话者跳变点。

参照图4，示出了本发明实施例中方案二的语音处理系统框架示意图，以及参照图5，示出了基于图4的系统框架对语音数据进行处理的一个示例示意图。

如图4所示的语音处理系统包括：DOA估计模块401、VAD检测模块402、说话者分割模块403、性别识别模块404、合并处理模块405。其中，DOA估计模块201用于对待处理的语音数据进行声源位置估计，检测所述语音数据中的第一跳变点。VAD检测模块202用于对待处理的语音数据进行语音活动检测，确定语音数据中人声出现的时间段。说话者分割模块403用于检测所述语音数据中的第二跳变点。性别识别模块404用于计算所述语音数据中第二跳变点对应的说话者性别跳变置信度。合并处理模块405用于基于所述第一跳变点、所述第二跳变点、以及所述说话者性别跳变置信度，对所述语音数据进行分割，得到分割结果。

如图5所示的示例中，语音数据经过DOA估计模块401处理后，检测得到如下两个第一跳变点：角度跳变点3和角度跳变点4。语音数据经过VAD检测模块402和说话者分割模块403处理后，检测得到如下四个第二跳变点：A、B、C、D。假设这四个第二跳变点分别对应如下第一时间点：t3、t4、t5、t6，以及假设角度跳变点3和角度跳变点4分别对应第二时间点为t7和t8。

如图5所示，说话者分割模块403检测的第二跳变点A对应的第一时间点t3所在预设范围内不存在第一跳变点，也即，第二跳变点A不满足第一条件。此外，综合考虑第二跳变点A对应的说话者跳变置信度、第二跳变点A对应的说话者性别跳变置信度、第一时间点t3对应的语音存在概率，可以确定第二跳变点A也不满足第二条件，因此，可以确定第二跳变点A不是真实的说话者跳变点，可以过滤掉该第二跳变点A。同样地，可以过滤掉第二跳变点B。

对于第二跳变点C和D，从图5可以看出，第一时间点t5和第二时间点t7之间的时间差小于时间阈值a，以及第一时间点t6和第二时间点t8之间的时间差小于时间阈值a，也即，可以判定第二跳变点C和D满足第一条件，因此，第二跳变点C和D为真实的说话者跳变点。根据第一时间点t5和第二时间点t7，可以确定第二跳变点C对应的目标跳变点(如C’，对应时间点为t9)，同理，根据第一时间点t6和第二时间点t8，可以确定第二跳变点D对应的目标跳变点(如D’，对应时间点为t10)。

图5中的label是指人工标注的真实的说话者跳变点以及人工标注的说话者身份标记，可以看出，人工标注结果中标记了两个说话者。predict是说话者分割模块403检测出的第二跳变点(A、B、C、D)以及说话者分割模块403预测的说话者身份标记。虽然说话者分割模块403也预测了两个说话者，但是说话者分割模块403检测到了两个异常的说话者跳变点A和B。

本发明实施例基于DOA估计模块401检测的第一跳变点，对说话者分割模块403检测的第二跳变点进行校验，进而可以过滤掉第二跳变点A和B，并且对第二跳变点C和D进行修正，最终的输出结果output与人工标注结果label的偏差小于预设阈值，分割结果正确。

本发明实施例的方案一和方案二均可以减少说话者跳变点误判的情况，提高说话者分割的准确率。方案一是在前端利用DOA估计的声源位置变化信息，减少因滑动窗内出现多个说话者语音导致说话者检测结果不准确以及分割精度不高等问题。方案二是在后端发现异常直接进行后处理优化的方案，对异常的说话者跳变点进行过滤或修正，得到真实的说话者跳变点，进而输出准确的分割结果。

在具体实施中，可以根据实际需求选择方案一或者方案二对语音数据进行说话者分割，本发明实施例对选择何种方案不做限制。

需要说明的是，本发明实施例的语音处理方法可用于非实时说话者分割和实时说话者分割。其中，非实时说话者分割通过比较短时滑动窗内说话者表征特征之间的相似度获得说话者跳变点，并利用全部数据相似度得分聚类进一步优化分割结果。实时说话者分割通过提取当前语音片段的说话者表征特征，与历史数据进行对比，判断当前语音片段内是否存在说话者跳变点。本发明实施例尤其适用于实时说话者分割任务。

综上，本发明实施例在获取待处理的语音数据之后，对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；基于所述语音数据中说话者表征特征的变化信息以及声源位置的变化信息(第一跳变点)对所述语音数据进行分割，得到分割结果。本发明实施例基于语音数据中声源位置的变化信息，对现有的说话者分割方案进行改进，可以有效减少由于噪声或者交叠人声等因素造成说话者跳变点误判的情况，进而可以提高说话者分割的准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图6，示出了本发明的一种语音处理装置实施例的结构框图，所述装置可以包括：

语音获取模块601，用于获取待处理的语音数据；

声源估计模块602，用于对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；

语音分割模块603，用于基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。

可选地，所述语音分割模块，包括：

语音切分子模块，用于利用检测的所述语音数据中的各第一跳变点对所述语音数据进行切分，得到语音分段序列；

语音分割子模块，用于基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果。

可选地，所述语音分割子模块，包括：

识别单元，用于对所述语音分段序列中的各语音分段内进行滑窗，分别提取说话者表征特征；

确定单元，用于根据提取的说话者表征特征确定各语音分段内的第二跳变点，所述第二跳变点为表示所述语音数据中说话者表征特征发生变化的时间点；

分割单元，用于根据所述第二跳变点对所述各语音分段进行分割，得到分割结果。

可选地，所述语音分割模块，包括：

检测子模块，用于基于所述语音数据中说话者表征特征的变化信息，检测所述语音数据中的第二跳变点；

确定子模块，用于基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点；

分割子模块，用于根据所述目标跳变点对所述语音数据进行分割，得到分割结果。

可选地，所述确定子模块，包括：

第一判断单元，用于判断所述第二跳变点是否满足第一条件，所述第一条件包括：所述第二跳变点对应的第一时间点所在预设时间范围内存在第一跳变点；

第一获取单元，用于若判定所述第二跳变点满足所述第一条件，则获取距离所述第一时间点最近的第一跳变点对应的第二时间点；

目标确定单元，用于根据所述第一时间点和所述第二时间点，确定目标跳变点。

可选地，所述确定子模块还包括：

第二获取单元，用于若判定所述第二跳变点不满足第一条件，则获取所述第二跳变点对应的说话者跳变置信度、所述第二跳变点对应的说话者性别跳变置信度，以及所述第一时间点对应的语音存在概率；

第二判断单元，用于根据所述说话者跳变置信度、所述说话者性别跳变置信度、以及所述语音存在概率判断所述第二跳变点是否满足第二条件，所述第二条件包括：所述说话者跳变置信度大于第一阈值或所述说话者性别跳变置信度大于第二阈值，且所述语音存在概率大于第三阈值；

所述目标确定单元，还用于若判定所述第二跳变点满足所述第二条件，则确定所述第二跳变点为目标跳变点。

可选地，所述确定子模块还包括：

过滤单元，用于若判定所述第二跳变点不满足第二条件，则过滤掉所述第二跳变点。

可选地，所述声源估计模块，包括：

实时采集子模块，用于通过麦克风阵列实时采集语音数据；

角度计算子模块，用于在实时采集语音数据的过程中，确定声源相对于所述麦克风阵列的空间角度信息；

位置监测子模块，用于根据所述空间角度信息，监测所述语音数据中的声源位置变化信息；

跳变确定子模块，用于根据监测的声源位置变化信息，确定实时采集的语音数据中的第一跳变点。

可选地，所述声源估计模块，具体用于将已采集的多通道语音数据上传至云服务端，通过所述云服务端对所述多通道语音数据进行声源位置估计，检测所述多通道语音数据中的第一跳变点。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待处理的语音数据；对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。

图7是根据一示例性实施例示出的一种用于语音处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音处理装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：获取待处理的语音数据；对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，所述第一跳变点为表示所述语音数据中声源位置发生变化的时间点；基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果。

本发明实施例公开了A1、一种语音处理方法，包括：

获取待处理的语音数据；

A2、根据A1所述的方法，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果，包括：

利用检测的所述语音数据中的各第一跳变点对所述语音数据进行切分，得到语音分段序列；

基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果。

A3、根据A2所述的方法，所述基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果，包括：

对所述语音分段序列中的各语音分段内进行滑窗，分别提取说话者表征特征；

根据提取的说话者表征特征确定各语音分段内的第二跳变点，所述第二跳变点为表示所述语音数据中说话者表征特征发生变化的时间点；

根据所述第二跳变点对所述各语音分段进行分割，得到分割结果。

A4、根据A1所述的方法，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，包括：

基于所述语音数据中说话者表征特征的变化信息，检测所述语音数据中的第二跳变点；

基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点；

根据所述目标跳变点对所述语音数据进行分割，得到分割结果。

A5、根据A4所述的方法，所述基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点，包括：

判断所述第二跳变点是否满足第一条件，所述第一条件包括：所述第二跳变点对应的第一时间点所在预设时间范围内存在第一跳变点；

若判定所述第二跳变点满足所述第一条件，则获取距离所述第一时间点最近的第一跳变点对应的第二时间点；

根据所述第一时间点和所述第二时间点，确定目标跳变点。

A6、根据A5所述的方法，所述判断所述第二跳变点是否满足第一条件之后，所述方法还包括：

若判定所述第二跳变点不满足第一条件，则获取所述第二跳变点对应的说话者跳变置信度、所述第二跳变点对应的说话者性别跳变置信度，以及所述第一时间点对应的语音存在概率；

根据所述说话者跳变置信度、所述说话者性别跳变置信度、以及所述语音存在概率判断所述第二跳变点是否满足第二条件，所述第二条件包括：所述说话者跳变置信度大于第一阈值或所述说话者性别跳变置信度大于第二阈值，且所述语音存在概率大于第三阈值；

若判定所述第二跳变点满足所述第二条件，则确定所述第二跳变点为目标跳变点。

A7、根据A6所述的方法，所述根据所述说话者跳变置信度、所述说话者性别跳变置信度、以及所述语音存在概率判断所述第二跳变点是否满足第二条件之后，所述方法还包括：

若判定所述第二跳变点不满足第二条件，则过滤掉所述第二跳变点。

A8、根据A1所述的方法，所述对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，包括：

通过麦克风阵列实时采集语音数据；

在实时采集语音数据的过程中，确定声源相对于所述麦克风阵列的空间角度信息；

根据所述空间角度信息，监测所述语音数据中的声源位置变化信息；

根据监测的声源位置变化信息，确定实时采集的语音数据中的第一跳变点。

A9、根据A1所述的方法，所述对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，包括：

本发明实施例公开了B10、一种语音处理装置，包括：

语音获取模块，用于获取待处理的语音数据；

B11、根据B10所述的装置，所述语音分割模块，包括：

B12、根据B11所述的装置，所述语音分割子模块，包括：

B13、根据B10所述的装置，所述语音分割模块，包括：

B14、根据B13所述的装置，所述确定子模块，包括：

B15、根据B14所述的装置，所述确定子模块还包括：

B16、根据B15所述的装置，所述确定子模块还包括：

B17、根据B10所述的装置，所述声源估计模块，包括：

实时采集子模块，用于通过麦克风阵列实时采集语音数据；

B18、根据B10所述的装置，所述声源估计模块，具体用于将已采集的多通道语音数据上传至云服务端，通过所述云服务端对所述多通道语音数据进行声源位置估计，检测所述多通道语音数据中的第一跳变点。

本发明实施例公开了C19、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待处理的语音数据；

C20、根据C19所述的装置，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果，包括：

C21、根据C20所述的装置，所述基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果，包括：

C22、根据C19所述的装置，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，包括：

C23、根据C22所述的装置，所述基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点，包括：

根据所述第一时间点和所述第二时间点，确定目标跳变点。

C24、根据C23所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C25、根据C24所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C26、根据C19所述的装置，所述对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，包括：

通过麦克风阵列实时采集语音数据；

C27、根据C19所述的装置，所述对所述语音数据进行声源位置估计，检测所述语音数据中的第一跳变点，包括：

本发明实施例公开了D28、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A9中一个或多个所述的语音处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

获取待处理的语音数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，得到分割结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述语音数据中说话者表征特征的变化信息对所述语音分段序列中的各语音分段进行分割，得到分割结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据中说话者表征特征的变化信息以及所述第一跳变点对所述语音数据进行分割，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一跳变点和所述第二跳变点，确定所述语音数据中的目标跳变点，包括：

根据所述第一时间点和所述第二时间点，确定目标跳变点。

6.根据权利要求5所述的方法，其特征在于，所述判断所述第二跳变点是否满足第一条件之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述说话者跳变置信度、所述说话者性别跳变置信度、以及所述语音存在概率判断所述第二跳变点是否满足第二条件之后，所述方法还包括：

8.一种语音处理装置，其特征在于，所述装置包括：

语音获取模块，用于获取待处理的语音数据；

9.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待处理的语音数据；

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的语音处理方法。