CN112185418B

CN112185418B - 音频处理方法和装置

Info

Publication number: CN112185418B
Application number: CN202011263321.2A
Authority: CN
Inventors: 马达标; 张雅琴
Original assignee: Du Xiaoman Technology Beijing Co Ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-05-17
Anticipated expiration: 2040-11-12
Also published as: CN112185418A

Abstract

本申请提供了一种音频处理方法和装置，该方法包括：获得待处理的目标音频以及待识别用户的基准音频；基于目标音频中具有的音频间隔端点，将目标音频划分为至少一个音频段；针对每个音频段，将音频段切分为多个第一音频切片，从多个第一音频切片中确定出第一参照音频切片，并基于第一参照音频切片确定出多个第一音频切片中的第一主音频切片集；基于音频段对应的第一主音频切片集的音频特征以及基准音频的音频特征，从至少一个音频段中确定出属于待识别用户的音频段。本申请的方案可以提高从音频中识别属于特定用户的音频段的准确度。

Description

音频处理方法和装置

技术领域

本申请涉及语音识别技术领域，更具体的说是涉及一种音频处理方法和装置。

背景技术

在音频识别场景中，经常需要识别一段音频中属于某个用户的音频部分。如，为了分析客服人员的服务质量等，可能需要从客服电话录音中，识别出属于客服人员的音频，以便对客服人员的音频进行相应的分析。

其中，在需要从一段音频中识别出属于某个用户的音频时，会获得用户已有的音频作为基准音频，并基于该基准音频从该段音频中识别出属于该用户的音频部分。然而，在实际应用场景中，待分析的一段音频中音频信息会较为复杂，如可能会由于受到环境等因素影响导致该段音频中包含有噪声，因此，即使是已知用户的音频，也无法较为准确的从一段音频中提取出该用户的音频部分，使得音频识别的效果较差。

发明内容

有鉴于此，本申请提供了一种音频处理方法和装置，以提高从音频中识别属于特定用户的音频段的准确度。

为实现上述目的，本申请提供如下技术方案：

一种音频处理方法，其特征在于，包括：

获得待处理的目标音频以及待识别用户的基准音频；

基于所述目标音频中具有的音频间隔端点，将所述目标音频划分为至少一个音频段；

针对每个所述音频段，将所述音频段切分为多个第一音频切片，从所述多个第一音频切片中确定出第一参照音频切片，并基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，所述第一参照音频切片为所述多个第一音频切片中与其他第一音频切片的特征相似程度最高的第一音频切片，所述第一主音频切片集包括所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片；

基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，从所述至少一个音频段中确定出属于所述待识别用户的音频段。

在一种可能的实现方式中，在所述从所述至少一个音频段中确定出属于所述待识别用户的音频段之前，还包括：

将所述基准音频切分为多个第二音频切片，从所述多个第二音频切片中确定出第二参照音频切片，并基于所述第二参照音频切片确定出所述多个第二音频切片中的第二主音频切片集，所述第二参照音频切片为所述多个第二音频切片中与其他第二音频切片的特征相似程度最高的第二音频切片，所述第二主音频切片集包括所述多个第二音频切片中与所述第二参照音频切片的特征相似的第二音频切片；

将所述基准音频对应的第二主音频切片集的音频特征确定为基准音频的音频特征。

在又一种可能的实现方式中，所述基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，包括：

将所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片划分到第一音频切片集，并将所述多个第一音频切片中与所述第一参照音频切片的特征不相似的第一音频切片划分到第二音频切片集；

对所述第一音频切片集和第二音频切片集执行如下切片集调整操作：

针对所述第一音频切片集中的第一音频切片，如所述第一音频切片与第一音频切片集中各第一音频切片的第一特征相似程度低于所述第一音频切片与第二音频切片集中各第一音频切片的第二特征相似程度，则将所述第一音频切片从所述第一音频切片集转移到所述第二音频切片集；

针对所述第二音频切片集中的第一音频切片，如所述第一音频切片与第二音频切片集中各第一音频切片的第三特征相似程度低于所述第一音频切片与第一音频切片集中各第一音频切片的第四特征相似程度，则将所述第一音频切片从所述第二音频切片集转移到所述第一音频切片集；

在针对第一音频切片集和第二音频切片集执行所述切片集调整操作后，如满足设定的切片调整结束条件，将当前得到的第一音频切片集和第二音频切片集中包含第一音频切片数量较多的音频切片集确定主音频切片集。

在又一种可能的实现方式中，所述基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，从所述至少一个音频段中确定出属于所述待识别用户的音频段，包括：

基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，将所述至少一个音频段划分为第一音频段集和第二音频段集，其中，第一音频段集包括第一主音频切片集的音频特征与所述基准音频的音频特征之间的特征相似性大于相似度阈值的音频段，所述第二音频段集包括：第一主音频切片集的音频特征与所述基准音频的音频特征之间的特征相似性不大于所述相似度阈值的音频段；

对所述第一音频段集和第二音频段集执行如下音频段集调整操作：

针对所述第一音频段集中的音频段，如所述音频段与第一音频段集的特征相似程度低于所述音频段与第二音频段集的特征相似程度，则将所述音频段从所述第一音频段集转移到所述第二音频段集；

针对所述第二音频段集中的音频段，如所述音频段与第二音频段集的特征相似程度低于所述音频段与第一音频段集的特征相似程度，则将所述音频段从所述第二音频段集转移到所述第一音频段集；

其中，音频段与所述第一音频段集和第二音频段集中任意一个音频段集的特征相似程度为所述音频段的第一主音频切片集与所述音频段集中各音频段的第一主音频切片集之间的音频特征的特征相似程度；

在针对第一音频段集和第二音频段集执行所述音频段集调整操作后，如满足设定的音频段集调整结束条件，确定当前得到的第一音频段集和第二音频段集中包含第一音频切片数量较多的音频段集，并将确定出的音频段集中的音频段确定为属于所述待识别用户的音频段。

又一方面，本申请还提供了一种音频处理装置，包括：

音频获得单元，用于获得待处理的目标音频以及待识别用户的基准音频；

音频分割单元，用于基于所述目标音频中具有的音频间隔端点，将所述目标音频划分为至少一个音频段；

音频选取单元，用于针对每个所述音频段，将所述音频段切分为多个第一音频切片，从所述多个第一音频切片中确定出第一参照音频切片，并基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，所述第一参照音频切片为所述多个第一音频切片中与其他第一音频切片的特征相似程度最高的第一音频切片，所述第一主音频切片集包括所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片；

音频识别单元，用于基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，从所述至少一个音频段中确定出属于所述待识别用户的音频段。

经由上述的技术方案可知，本申请在将待处理的目标音频划分为至少一个音频段之后，会将音频段切分为多个音频切片，并从该多个音频切片中确定出参照音频切片，由于参照音频切片是该多个音频切片中与其他音频切片的特征相似程度最高的音频切片，因此，该参照音频切片可以反映出该音频段中主体音频的音频特征。在此基础上，基于该音频段中的参照音频切片的特征，可以从多个音频切片中提取属于该音频段中主体音频的多个音频切片，即主音频切片集，有效去除了音频段中主体音频之外的噪声等非主体音频，因此，基于音频段的主音频切片集的音频特征来分析该音频段是否属于待识别用户的音频段可以有效降低由于音频段的噪声等因素而导致的误识别，进而有利于提高从音频中识别属于特定用户的音频段的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请一种音频处理方法一个实施例的流程示意图；

图2示出了本申请中将音频段切分出的音频切片的一种示意图；

图3示出了确定音频段的第一主音频切片集的一种实现流程示意图；

图4示出了本申请一种音频处理方法又一个实施例的流程示意图；

图5示出了本申请一种音频处理方法又一个实施例的流程示意图；

图6示出了本申请实施例对音频段进一步分段的一种流程示意图；

图7示出了本申请一种音频处理装置一个实施例的组成结构示意图。

具体实施方式

本申请的方案适用于从待处理的目标音频中提取出属于某个用户的音频信息，以实现较为准确的识别出该目标音频中属于该用户的音频部分，提高音频识别的准确性。

如，在一种可能的情况中，本申请可以适用于从客服通话记录中提取出客服人员的音频，以基于客户人员的音频进行分析。

又如，在又一种可能的情况下，在一些办案场景中，可能需要从一段通话记录中提取出嫌疑人的音频部分，以便分析嫌疑人的音频部分确定嫌疑人目标或者动机等。

当然，以上是以两种简单的应用场景为例说明，在实际应用中，只要是涉及需要确定一段音频属于指定用户的音频部分都可以通过本申请的方案实现，对此不加限制。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，其示出了本申请一种音频处理方法一个实施例的流程示意图，本实施例的方法可以应用于任意具备音频处理能力的电子设备，如，笔记本电脑、个人计算机或者服务器等等。

本实施例的方法可以包括：

S101，获得待处理的目标音频以及待识别用户的基准音频。

其中，待处理的目标音频是指需要从中识别出属于指定用户的音频部分的音频。一般情况下，目标音频中一般会包含多个用户的音频，还可能会掺杂一些噪声等。

待识别用户为需要从目标音频中识别出属于自身音频的用户。如，假设需要从一段音频中识别出客服人员的音频部分，则客服人员属于待识别用户。

待识别用户的基准音频是指已经确定出的属于该待识别用户的音频，该基准音频的音频特征就是待识别用户的声音特征。在此基础上，可以基于该基准音频的音频特征可以从目标音频中确定出属于该待识别用户的音频部分。

S102，基于该目标音频中具有的音频间隔端点，将该目标音频划分为至少一个音频段。

其中，音频间隔端点是指目标音频中音频不连续的间隙，如，音频间隔端点可以为目标音频的起始点、结束点以及目标音频中静音点。目标音频中一般包括多个音频间隔端点，基于音频间隔端点可以将该目标音频分割为多段音频。如，可以基于目标音频中的静音段将目标音频划分为多个音频段。

在一种可能的实现方式中，可以基于语音端点检测(Voice Activity Detection，VAD)方式，将该目标音频划分为至少一个音频段。如，通过基于VAD技术可以识别出目标音频中鉴别音频中的语音出现和语音消失的端点(如静音部分或者音频起始点等)，从而可以基于识别出的端点，将目标音频分割为一个或者多个音频段。

可以理解的是，基于音频间隔端点将目标音频分割出的至少一个音频段具有先后顺序且互不重叠。

S103，针对每个音频段，将该音频段切分为多个第一音频切片，从该多个第一音频切片中确定出第一参照音频切片，并基于该第一参照音频切片确定出该多个第一音频切片中的第一主音频切片集。

其中，为了便于与后续其他音频切分出的音频切片区分，本申请将该音频段切分出的音频切片称为第一音频切片。

将音频段切分为多个音频切片的具体方式可以有多种，如，可以是将音频段切片按顺序依次切分为多个互不重叠的音频切片。

可选的，为了能够更全面的考虑音频之间的关联信息，本申请还可以将音频段切分出多个具有先后顺序但具有音频信息重叠的音频切片。具体的，可以基于设定的切分窗口以及该切分窗口的移动步长，将音频段切分为存在音频重叠的多个第一音频切片，其中，该切分窗口的移动步长小于切分窗口的窗口宽度。

如，参见图2所示，由于切分窗口一致，音频段切分出的各个音频切片的音频时长相同，但是相邻音频切片会存在音频信息重叠。如图2中，音频段划分出的音频切片201、音频切片202和音频切片203等，其中，音频切片202的前面部分音频与音频切片201中后面部分音频重叠，而音频切片202的后面部分音频与音频切片203的前面部分音频重叠。

其中，该第一参照音频切片为该多个第一音频切片中与其他第一音频切片的特征相似程度最高的第一音频切片。

可以理解的是，由于目标音频中的音频间隔端点是分割不同说话人或者语音中断的端点，因此，将目标音频切割为至少一个音频段之后，每个音频段的主体音频(即大部分音频)应该是同种音频特征的音频，而少部分为噪音或者与主体音频对应用户不同的其他用户的声音。基于此，目标音频中属于主体音频的音频特征的音频对应的总时长最长，因此，能够反映主体音频特征的参照音频切片应该是目标音频中大部分音频切片都与其特征相似的音频切片。

可见，音频段的第一参照音频切片是能够表征该音频段中大部分音频特征的音频切片，基于该第一参照音频切片可以确定出该音频段中除了噪声之外的主要音频信息。在本申请中仅仅是为了便于区分，将能够反映音频段的主要音频信息对应的音频特征的参照音频切片称为第一参照音频切片。

其中，确定该第一参照音频切片的方式可以有多种，如，可以针对音频段的每个音频切片，可以分别确定该音频切片与该音频段中多个音频切片的综合特征相似度，选择对应的综合特征相似度最高的音频切片为第一参照音频切片。

在一种可能的实现方式中，考虑到如果音频段的至少一个音频切片中，与某个音频切片特征相似的音频切片的数量最多，则可以说明该音频切片与音频段的多个音频切片的相似程度最高，也说明该音频切片是反映该音频段中主要音频信息所具有的音频特征的切片。基于此，本申请还可以针对音频段中每个第一音频切片，确定该音频段的多个第一音频切片中，与该第一音频切片的特征相似的音频切片的切片总数量。相应的，将该音频段的多个第一音频切片中对应的切片总数量最大的第一音频切片确定为第一参照音频切片。

其中，第一主音频切片集包括音频段的多个第一音频切片中与该音频段的第一参照音频切片的特征相似的第一音频切片。

在本实施例中，两个音频切片的特征相似可以为音频切片之间的音频特征相似度超过设定阈值。

S104，基于该音频段对应的第一主音频切片集的音频特征以及该基准音频的音频特征，从该至少一个音频段中确定出属于该待识别用户的音频段。

如，在音频段的第一主音频切片集的音频特征与该基准音频的音频特征之间的特征相似性超过设定的相似度阈值，则可以确定该音频段属于该待识别用户的音频段。

在本申请实施例中，音频段对应的第一主音频切片集实际上是音频段中的最主要的音频信息，因此，基于该第一音频切片集的音频特征与待识别用户的基准音频的音频特征进行特征比对，可以减少音频段的噪声或者其他干扰音频对特征比对所带来的影响。

其中，第一主音频切片集的音频特征可以基于第一音频切片集中各个第一音频切片的音频特征得到，其中，音频切片的音频特征可以利用音频特征提取模型或者其他确定音频特征的方式得到，对此不加限制。

作为一种可选方式，第一主音频切片集的音频特征可以为由第一主音频切片集中各个第一音频切片的音频特征(如音频特征向量)相加再归一化得到。

可见，本申请在将待处理的目标音频划分为至少一个音频段之后，会将音频段切分为多个音频切片，并从该多个音频切片中确定出参照音频切片，由于参照音频切片是该多个音频切片中与其他音频切片的特征相似程度最高的音频切片，因此，该参照音频切片可以反映出该音频段中主体音频的音频特征。

在此基础上，基于该音频段中的参照音频切片的特征，可以从多个音频切片中提取属于该音频段中主体音频的多个音频切片，即得到该音频段中主要音频信息对应的主音频切片集，有效去除了音频段中主体音频之外的噪声等非主体音频，因此，基于音频段的主音频切片集的音频特征来分析该音频段是否属于待识别用户的音频段可以有效降低由于音频段的噪声等因素而导致的误识别，进而有利于提高从音频中识别属于特定用户的音频段的准确度。

可以理解的是，在确定音频段的第一主音频切片集时，可以直接从音频段的多个第一音频切片中，确定与该音频段的第一参照音频切片的特征相似的第一音频切片，得到由选择出的第一音频切片构成的第一音频切片集，并将该第一音频切片集确定为第一主音频切片集。

在实际应用中，为了避免由于音频切片中可能仍残存有噪声或者该第一参照音频切片的音频特征之外的其他音频特征的音频信息而导致特征匹配存在误差，本申请还可以在得到音频段中的第一音频切片集以及第一音频切片集之外的第二音频切片集之后，通过不断调整优化这两个音频切片集，以最终得到与该第一参照音频切片的音频特征相似度符合要求的音频切片集。

具体的，可以参见图3，其示出了本申请的音频处理方法中确定音频段的第一主音频切片集的一种实现流程示意图，本实施例的流程可以包括：

S301，对于任意一个音频段，将该音频段的多个第一音频切片中与该音频段的第一参照音频切片的特征相似的第一音频切片划分到第一音频切片集，并将该多个第一音频切片中与该第一参照音频切片的特征不相似的第一音频切片划分到第二音频切片集。

其中，第一音频切片与第一参照音频切片的特征相似可以为第一音频切片的音频特征与该第一参照音频切片的音频特征之间的特征相似性超过设定的相似度阈值。

S302，对该第一音频切片集执行切片集调整操作：针对该第一音频切片集中的第一音频切片，如该第一音频切片与第一音频切片集中各第一音频切片的第一特征相似程度低于该第一音频切片与第二音频切片集中各第一音频切片的第二特征相似程度，则将该第一音频切片从该第一音频切片集转移到该第二音频切片集。

S303，对该第二音频切片集执行切片集调整操作：针对该第二音频切片集中的第一音频切片，如该第一音频切片与第二音频切片集中各第一音频切片的第三特征相似程度低于该第一音频切片与第一音频切片集中各第一音频切片的第四特征相似程度，则将该第一音频切片从该第二音频切片集转移到该第一音频切片集。

可以理解的是，在本申请中，为了便于区分不同音频切片集中的第一音频切片与第一音频切片集和第二音频切片集中各第一音频切片集的特征相似程度，而采用第一特征相似程度、第二特征相似程度、第三特征相似程度以及第四特征相似程度进行区分，但是这几个特征相似程度仅仅是为了便于区分，并不是对顺序上或者其他信息的限定。

其中，对于任意一个第一音频切片以及第一音频切片集和第二音频切片集中任意一个音频切片集而言，第一音频切片与该音频切片集中各第一音频切片的特征相似程度可以有多种可能，如，可以是该第一音频切片集与音频切片集中各个第一音频切片的特征相似度的平均值。

在一种可能的实现方式中，为了充分考虑不同第一音频切片之间的相关性，本申请还会结合所有第一音频切片的信息以及相关性，来综合确定第一音频切片与音频切片集中各第一音频切片的特征相似程度。

具体的，本申请还可以先构建第一音频切片的相似度向量。该相似度向量包括该第一音频切片与该第一音频切片所在的音频切片集以及另一音频切片集中各第一音频切片之间的相似度表示值。其中，如果两个第一音频切片之间的音频特征的特征相似性大于设定的相似度阈值，则两个第一音频切片之间的相似度表示值的取值为1；否则，这两个第一音频切片之间的相似度表示值为0。

如，假设第一音频切片集包括m个第一音频切片，第二音频切片集包括t个第一音频切片，且m和t均为大于1的自然数，则可以构建表示这两个音频切片集中各音频切片之间特征相似度的相似度矩阵E，该相似度矩阵E为N*N维的矩阵，N＝m+t。

其中，该相似度矩阵E中的矩阵元素E_ab为第一音频切片B_a与另一个第一音频切片B_b之间的相似度表示值，a和b均属于从1到N的自然数。

其中，在第一音频切片B_a与另一个第一音频切片B_b的音频特征的相似度大于设定的相似度阈值时，E_ab＝1；否则，E_ab＝0。

可以理解的是，该相似度矩阵E中第a行中各元素分别为第一音频切片B_a与这两个音频切片集中各个音频切片只看见的相似度表示值，因此，可以将该相似度矩阵E中第a行中各元素构成的向量作为该第一音频切片B_a的相似度向量。

可以理解的是，基于第一音频切片的相似度向量的构成可知，如果两个第一音频切片的音频特征相似，则这两个第一音频切片的相似度向量之间的点积也会较大。在此基础上，本申请可以分别求取第一音频切片分别与每个音频切片集中各个第一音频切片的相似度向量的点积的点积平均值。如果第一音频切片与一个第一音频切片集的点积平均值低于另一个第一音频切片集的点积平均值，则说明需要控制该第一音频切片位于该第一音频切片集。

在一种可能的情况下，可以计算第一音频切片与两个音频切片集之间的点积平均值的差值score，基于该差值score可以确定该第一音频切片应该调整到属于哪个音频切片集。

如假设第一音频切片集表示为(B_p1,B_p2.....B_pi.....B_pm)，第二音频切片集表示为(B_n1,B_n2......B_nj.....B_nt)，其中，m和t均为大于1的自然数。

那么，对于第一音频切片集中的第一音频切片B_pi，该第一音频切片B_pi的相似度向量为L_pi。对于第二音频切片集中第一音频切片B_nj，该第一音频切片B_pi的相似度向量为L_nj。

那么针对第一音频切片集中的第一音频切片B_pi，可以计算第一音频切片对应的点积平均值差值score_pi：

其中，L_pi·L_pk为L_pi与第一音频切片集中第一音频切片B_pk的相似度向量L_pk的内积。L_pi·L_ns表示L_pi与第二音频切片集中第一音频切片B_ns的相似度向量L_ns之间的内积。

其中，如果score_pi大于0，则可以维持该第一音频切片B_pi处于第一音频切片集中，如果score_pi不大于0，则需要将该第一音频切片B_pi转移到第二音频切片集中。

类似的，那么针对第二音频切片集中的第一音频切片B_nj，可以计算第一音频切片对应的点积平均值差值score_nj：

其中，L_nj·L_nk为L_nj与第二音频切片集中第一音频切片B_ns的相似度向量L_nk的内积，L_nj·L_pk为L_nj与第一音频切片集中第一音频切片B_pk的相似度向量L_pk的内积。

其中，如果score_nj大于0，则可以维持该第一音频切片B_nj处于第二音频切片集中，如果score_nj不大于0，则需要将该第一音频切片B_nj转移到第一音频切片集中。

S304，在针对第一音频切片集和第二音频切片集执行切片集调整操作后，检测是否满足设定的切片调整结束条件，如果否，则返回执行步骤S302和S303；如果是，则执行步骤S305。

其中，该切片调整结束条件可以根据需要设定，如，该切片调整条件可以为切片集调整操作的执行次数到达设定次数，例如，设定次数可以为1次、2次或者5次等。又如，该切片调整结束条件还可以为最近设定次切片集调整操作后，该第一音频切片集和第二音频切片集内的第一音频切片均不再变化，即第一音频切片集和第二音频切片集达到稳定状态。

S305，将当前得到的第一音频切片集和第二音频切片集中包含第一音频切片数量较多的音频切片集确定主音频切片集。

在本申请以上实施例中对待处理的目标音频划出的音频段分别进行了主要信息提取，得到每个音频段的主音频切片集。但是并未对基准音频进行主要音频信息提取，如果待识别用户的基准音频是理想状态下获得的该用户的音频，那么基准音频中一般不会包含噪声或者其他用户的杂音。

然而，在实际应用中，很多情况并不能预先确定出用户在理想状态下的基准音频，因此，待识别用户的基准音频中也可能会包括该待识别用户的音频之外的噪声。在此基础上，为了能够提高语音识别的精准度，本申请还可以提取基准音频的主要音频信息，以得到去除噪声之外的主要音频信息，并基于该基准音频的主要音频信息从目标音频中提取属于该待识别用户的音频部分。

具体的，如图4所示，其示出了本申请一种音频处理方法又一个实施例的流程示意图，本实施例的方法可以包括：

S401，获得待处理的目标音频以及待识别用户的基准音频。

S402，基于该目标音频中具有的音频间隔端点，将该目标音频划分为至少一个音频段。

S403，针对每个音频段，将该音频段切分为多个第一音频切片，从该多个第一音频切片中确定出第一参照音频切片，并基于该第一参照音频切片确定出该多个第一音频切片中的第一主音频切片集。

其中，第一参照音频切片为所述多个第一音频切片中与其他第一音频切片的特征相似程度最高的第一音频切片。

该第一主音频切片集包括所述多个第一音频切片中与该第一参照音频切片的特征相似的第一音频切片。

以上步骤S401到S403可以参见前面任意一个实施例的相关介绍，在此不再赘述。

S404，将该基准音频切分为多个第二音频切片，从该多个第二音频切片中确定出第二参照音频切片，并基于该第二参照音频切片确定出该多个第二音频切片中的第二主音频切片集。

其中，为了便于区分，将基准音频切分出的音频切片称为第二音频切片。其中，将基准音频切片为多个音频切片与前面切片音频段的方式相似，如，可以将基准音频切片为多个具有先后顺序的音频切片，且顺序相邻的音频切片之间具有音频信息重叠，具体可以参照对音频段的切分，在此不再赘述。

其中，该第二参照音频切片为该多个第二音频切片中与其他第二音频切片的特征相似程度最高的第二音频切片。

其中，从基准音频的多个第二音频切片中确定该第二参照音频切片的具体方式与前面从音频段的多个第一音频切片中确定第一参照音频切片的过程相似，具体也可以参照前面的相关介绍，在此不再赘述。

其中，第二主音频切片集包括该多个第二音频切片中与该第二参照音频切片的特征相似的第二音频切片。其中，确定第二主音频切片集与从音频段中确定第一主音频切片集的过程相似，在此不再赘述。

S405，基于该音频段对应的第一主音频切片集的音频特征以及该基准音频对应的第二主音频切片集的音频特征，从该至少一个音频段中确定出属于所述待识别用户的音频段。

在本实施例中，在确定出基准音频对应的第二主音频切片集之后，本实施例实际上是将该第二主音频切片集的音频特征确定为该基准音频的音频特征，由于第二主音频切片集包含了基准音频中主要音频对应音频特征的音频信息，减少了噪声等音频，因此，该第二主音频切片集能够准确反映待识别用户的音频特征，基于该第二主音频切片集与音频段进行音频特征比对，更有利于准确分析出音频段中的音频信息是否为待识别用户发出的音频信息，进一步提高了音频识别的准确度。

可以理解的是，基于待识别用户的基准音频的音频特征以及音频段的第一主音频切片集的音频特征来确定音频段中的音频是否为该待识别用户发出的音频的过程中，如果单独考虑某个音频段的自身的音频特征，而不考虑该音频段与其他音频段之间的相关性也不利于准确确定音频段的音频特征是否属于待识别用户的音频特征。

基于此，本申请在确定出至少一个音频段中属于待识别用户的第一音频段集和不属于该待识别用户的第二音频段集之后，还会结合音频段之间的关联信息，调整第一音频段集和第二音频段集，以最终得到目标音频中与待识别用户的音频特征更为贴合的音频段集。

如，参见图5，其示出了本申请一种音频处理方法又一个实施例的流程示意图，本实施例的方法可以包括：

S501，获得待处理的目标音频以及待识别用户的基准音频。

S502，基于该目标音频中具有的音频间隔端点，将该目标音频划分为至少一个音频段。

S503，针对每个音频段，将该音频段切分为多个第一音频切片，从该多个第一音频切片中确定出第一参照音频切片，并基于该第一参照音频切片确定出该多个第一音频切片中的第一主音频切片集。

该第一主音频切片集包括所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片。

S504，将该基准音频切分为多个第二音频切片，从该多个第二音频切片中确定出第二参照音频切片，并基于该第二参照音频切片确定出该多个第二音频切片中的第二主音频切片集，将第二主音频切片集的音频特征确定为基准音频的音频特征。

其中，第二主音频切片集包括所述多个第二音频切片中与所述第二参照音频切片的特征相似的第二音频切片。

以上步骤S501到S504可以参见前面任意一个实施例的相关介绍，在此不再赘述。

可以理解的是，该步骤S504可以为可选步骤，如果在无噪声等干扰因素的场景中采集到的该待识别用户的基准音频时，也可以不执行该步骤S504。

S505，基于音频段对应的第一主音频切片集的音频特征以及基准音频的音频特征，将该至少一个音频段划分为第一音频段集和第二音频段集。

其中，第一音频段集包括第一主音频切片集的音频特征与基准音频的音频特征之间的特征相似性大于相似度阈值的音频段。

该第二音频段集包括：第一主音频切片集的音频特征与该基准音频的音频特征之间的特征相似性不大于该相似度阈值的音频段。

S506，对第一音频段集执行音频段集调整操作：针对该第一音频段集中的音频段，如该音频段与第一音频段集的特征相似程度低于该音频段与第二音频段集的特征相似程度，则将该音频段从该第一音频段集转移到该第二音频段集。

S507，对第二音频段集执行音频段集调整操作：针对第二音频段集中的音频段，如该音频段与第二音频段集的特征相似程度低于该音频段与第一音频段集的特征相似程度，则将该音频段从第二音频段集转移到第一音频段集。

其中，音频段与第一音频段集和第二音频段集中任意一个音频段集的特征相似程度为音频段的第一主音频切片集与该音频段集中各音频段的第一主音频切片集之间的音频特征的特征相似程度。

其中，音频段与音频段集的特征相似程度的确定方式，与前面第一音频切片与音频切片集的特征相似程度的确定过程相似。

相应的，针对第一音频段和第二音频段执行的音频段调整操作原理上与前面针对第一音频切片集和第二音频切片集执行的切片调整操作相同。

其中，在一种可选的实现方式中，本实施例还可以针对第一音频段集和第二音频段集中任意一个音频段，构建该音频段的相似度向量。

其中，音频段的相似度向量包括音频段与第一音频段集和第二音频段集中各音频段之间的相似度表示值，其中，如果两个音频段的第一主音频切片集之间的音频特征的特征相似性大于相似度阈值，则该两个音频段之间的相似度表示值的取值为1；如果两个音频段的第一主音频切片集之间的音频特征的特征相似性大于该相似度阈值，则这两个音频段之间的相似度表示值的取值为0。

其中，音频段的相似度向量与前面第一音频切片的相似度向量的构建过程相似，如，可以构建表示这两个音频段集中各音频段之间特征相似度的相似度矩阵E，则该相似度矩阵E中每一行为这两个音频段集中某一个音频段的相似度向量。

在以上基础上，针对第一音频集中的音频段，可以计算该音频段的相似度向量与第一音频段集中各音频段的相似度向量的点积的第一点积平均值，以及，该音频段的相似度向量与第二音频段集中各音频段的相似度向量的点积的第二点积平均值，如该第一点积平均值小于该第二点积平均值，则将该音频段从所述第一音频段集转移到该第二音频段集。

相应的，针对第二音频段集中的音频段，计算该音频段的相似度向量与第二音频段集中各音频段的相似度向量的点积的第三点积平均值，以及音频段的相似度向量与第一音频段集中各音频段的相似度向量的点积的第四点积平均值，如第三点积平均值低于第四点积平均值，则将音频段从所述第二音频段集转移到第一音频段集。

S508，在针对第一音频段集和第二音频段集执行该音频段集调整操作后，检测是否满足设定的音频段集调整结束条件，如果否，则返回步骤S506和S507；如果是，则执行步骤S509。

与前面该切片调整结束条件相似，该音频段集调整条件也可以根据需要设定。如，该音频段集调整条件可以为音频段集调整操作的执行次数到达设定次数，例如，设定次数可以为2次或者6次等。又如，该音频段集调整结束条件还可以为最近设定次音频段集调整操作后，该第一音频段集和第二音频段集内的音频段均不再变化。

S509，确定当前得到的第一音频段集和第二音频段集中包含第一音频切片数量较多的音频段集，并将确定出的音频段集中的音频段确定为属于该待识别用户的音频段。

可以理解的是，在基于目标音频的音频间隔端点，将目标音频分割为多个音频段时，如果目标音频段中两个用户的音频之间没有静音等间隔端点，那么这两个用户的音频也会被划分到同一个音频段中，可见，如果仅仅利用VAD等基于音频间隔端点分割音频段，则可能会使得音频段中包含多个用户的音频，这样，就可能从目标音频中提取出待识别用户之外的其他用户的音频，导致音频识别的精准度降低。

为了解决该问题，本申请在基于目标音频的音频间隔端点，将目标音频分割为多个音频段之后，针对每个音频段还会进一步分割，将音频段再分割为一个或者多个音频段，使得而每个音频段只包含单个用户的音频。

如，参见图6，其示出了本申请对目标音频分割出的音频段进行进一步分割的流程示意图。该流程在图1的S103之前执行。

本实施例的流程可以包括：

S601，针对每个音频段，将音频段切分为多个候选音频切片，并按照该多个候选音频切片的先后顺序，为该多个候选音频切片分配序号。

其中，音频段切片出的多个候选音频切片相互不重叠。

如，假设音频段切分出30个候选音频切片，则可以将0-29这30个数字依次分配为这30个候选音频切片的序号。

S602，从该多个候选音频切片中确定出第三参照音频切片。

其中，第三参照音频切片为该多个候选音频切片中与其他候选音频切片的特征相似程度最高的候选音频切片。

可以理解的是，确定第三参照音频切片的方式与前面确定第一参照音频切片的方式相似，具体可以参照前面的相关介绍，在此不再赘述。

S603，基于第三参照音频切片的音频特征，将该多个候选音频切片中与该第三参照音频切片的特征相似的候选音频切片划分到第一候选切片集，并将该多个候选音频切片中不属于第一候选切片集的候选音频切片划分到第二候选切片集。

其中，第一候选切片集包括至少一个候选音频切片，第二候选切片集包括至少一个候选音频切片集。

对于音频段的多个候选音频切片，将该多个音频切片划分为第一候选切片集和第二候选切片集的过程，与前面将基于所述第一参照音频切片从音频段的多个第一音频切片中确定第一主音频切片集和第二主音频切片集的过程相同，对此不再赘述。

S604，针对第一候选切片集合和第二候选切片集中每个候选切片集，确定该候选切片集中各切片序列以及各切片序列的顺序。

其中，每个切片序列包括至少两个包含候选切片。

如，仍以上面音频段切分出序号为0-29的30个候选音频切片为例，假设这30个候选音频切片所划分出的第一候选切片集包括如下序号对应的候选音频切片：[1,2,3,4,5,6,7,8,12,13,14,15,17,18,19,28]。相应的，第二候选切片集包含的候选切片的序号依次如下[0,9,10,11,16,20,21,22,23,24,25,26,27,28,29]。

那么针对第一候选切片集包含的切片序列依次包括如下两个切片序列：

【1,2,3,4,5,6,7,8】，【12,13,14,15,17,18,19,】；

第二候选切片集包含的切片序列依次包括如下两个序列：

[9,10,11]和[20,21,22,23,24,25,26,27,28,29]。

S605，针对每个候选切片集，按照该候选切片集中各切片序列的顺序，将相邻且间隔序号个数不超过第一设定个数的两个切片序列拼接为一个切片序列，并将最终拼接处理后该候选切片集对应的各切片序列确定为候选根序列。

其中，该第一设定个数可以根据需要设定，为了提高效果，该第一设定个数可以为不大于5的数值。

例如，该第一设定个数可以为2，则需要针对每个候选切片集，将顺序相邻且间隔序号个数不超过两个的切片序列组合起来，对于上面例子中第一候选切片集包括的两个序列【1,2,3,4,5,6,7,8】与【12,13,14,15,17,18,19,】之间间隔有三个序号，则不符合拼接条件。类似的，第二候选切片集的两个序列也不符合拼接条件，在该种情况中，拼接前后的序列不变，则以上得到的切片序列就是根序列。假设某个候选切片集中包含的切片序列有：[1,2,3]与[4,5,6,7]，由于这两个切片序列相邻且没有间隔的序号个数为零，则可以拼接为[1,2,3,4,5,6,7]。

S606，从第一候选切片集合和第二候选切片集合对应的候选根序列中确定包含的切片个数不小于第二设定个数的候选根序列确定为根序列。

该第二设定个数一般会大于第一设定个数。

例如，以第二设定个数为7为例，那么上面例子中第一候选切片集包含的两个切片序列内候选切片个数都超过7个，因此，这两个切片序列[1,2,3,4,5,6,7,8]与[12,13,14,15,17,18,19]均属于根序列。

而第二候选切片集包含的两个切片序列中，该切片序列：[9,10,11]中候选切片个数小于7，则该切片序列不属于根序列，而另一个切片序列：[20,21,22,23,24,25,26,27,28,29]为根序列。

由此可知，确定出的根序列包括：

[1,2,3,4,5,6,7,8]，[12,13,14,15,17,18,19]及[20,21,22,23,24,25,26,27,28,29]。

S607，按照不同候选切片集的根序列不拼接且非根序列与邻近的根序列拼接的原则，将第一候选切片集合和第二候选切片集合中的根序列和非根序列进行拼接，得到拼接出的至少一个最终序列，并将每个最终序列确定为一个音频段。

其中，在步骤S607中拼接原则中还需要保证拼接后的保证拼接后的连续序列数量尽可能少，以防止音频段进一步分割出的分段过于细碎。

例如，仍然以上面例子进行说明。除去根序列外，剩余的非根序列中中候选音频切片的序号分别包括：[0],[9,10,11]，那么[0]会与[1,2,3,4,5,6,7,8]拼接，而[9,10,11]左右各有一个根序列且均属于第一候选切片集，则可以这两个根序列与[9,10,11]，得到[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,17,18,19]。而对于第二候选切片集中根序列[20,21,22,23,24,25,26,27,28,29]没有其他临近该根序列的非根序列。因此，最终可以将音频段划分为两段，一段中包含的候选切片为[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,17,18,19]，另一段包含：[20,21,22,23,24,25,26,27,28,29]。每段作为一个最终的音频段。

可以理解的是，由于在将音频段进一步分割得到的新的音频段后，新的音频段已经切分好切片(即候选音频切片)，则可以将新的音频段中的候选音频切片确定第一音频切片。当然，也可以是在得到最终的音频段之后，仍按照前面S103的操作对音频段进行处理，对此不加限制。

对应本申请的一种音频处理方法，本申请还提供了一种音频处理装置。

如图7所示，其示出了本申请一种音频处理装置一个实施例的组成结构示意图，本实施例的装置可以包括：

音频获得单元701，用于获得待处理的目标音频以及待识别用户的基准音频；

音频分割单元702，用于基于所述目标音频中具有的音频间隔端点，将所述目标音频划分为至少一个音频段；

音频选取单元703，用于针对每个所述音频段，将所述音频段切分为多个第一音频切片，从所述多个第一音频切片中确定出第一参照音频切片，并基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，所述第一参照音频切片为所述多个第一音频切片中与其他第一音频切片的特征相似程度最高的第一音频切片，所述第一主音频切片集包括所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片；

音频识别单元704，用于基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，从所述至少一个音频段中确定出属于所述待识别用户的音频段。

在一种可能的实现方式中，该装置还可以包括：

基准选取单元，用于在所述音频识别单元从所述至少一个音频段中确定出属于所述待识别用户的音频段之前，将所述基准音频切分为多个第二音频切片，从所述多个第二音频切片中确定出第二参照音频切片，并基于所述第二参照音频切片确定出所述多个第二音频切片中的第二主音频切片集，所述第二参照音频切片为所述多个第二音频切片中与其他第二音频切片的特征相似程度最高的第二音频切片，所述第二主音频切片集包括所述多个第二音频切片中与所述第二参照音频切片的特征相似的第二音频切片；

基准重确定单元，用于将所述基准音频对应的第二主音频切片集的音频特征确定为基准音频的音频特征。

在又一种可能的实现方式中，该音频选取单元在所述多个第一音频切片中确定出第一参照音频切片时，具体用于：

针对每个第一音频切片，确定所述多个第一音频切片中与所述第一音频切片的特征相似的音频切片的切片总数量；

将所述多个第一音频切片中对应的切片总数量最大的第一音频切片确定为第一参照音频切片。

在又一种可能的实现方式中，所述音频选取单元，包括：

音频切片单元，用于针对每个所述音频段，将所述音频段切分为多个第一音频切片，从所述多个第一音频切片中确定出第一参照音频切片；

音频划分单元，用于将所述多个第一音频切片中与所述第一参照音频切片的特征相似的第一音频切片划分到第一音频切片集，并将所述多个第一音频切片中与所述第一参照音频切片的特征不相似的第一音频切片划分到第二音频切片集；

音频集调整单元，用于对所述第一音频切片集和第二音频切片集执行如下切片集调整操作：

在又一种可能的实现方式中，在以上装置实施例中，该音频选取单元在将所述音频段切分为多个第一音频切片时，具体用于：基于设定的切分窗口以及所述切分窗口的移动步长，将所述音频段切分为存在音频重叠的多个第一音频切片，其中，所述切分窗口的移动步长小于所述切分窗口的窗口宽度。

在又一种可能的实现方式中，音频识别单元，包括：

段集确定单元，用于基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，将所述至少一个音频段划分为第一音频段集和第二音频段集，其中，第一音频段集包括第一主音频切片集的音频特征与所述基准音频的音频特征之间的特征相似性大于相似度阈值的音频段，所述第二音频段集包括：第一主音频切片集的音频特征与所述基准音频的音频特征之间的特征相似性不大于所述相似度阈值的音频段；

段集调整单元，用于对所述第一音频段集和第二音频段集执行如下音频段集调整操作：

作为一种可选方式，该段集调整单元对所述音频段集调整操作还包括：

针对第一音频段集和第二音频段集中任意一个音频段，构建所述音频段的相似度向量，所述音频段的相似度向量包括所述音频段与第一音频段集和第二音频段集中各音频段之间的相似度表示值，其中，如果两个音频段的第一主音频切片集之间的音频特征的特征相似性大于所述相似度阈值，则所述两个音频段之间的相似度表示值的取值为1，否则，所述两个音频段之间的相似度表示值的取值为0；

所述针对所述第一音频段集中的音频段，如所述音频段与第一音频段集的特征相似程度低于所述音频段与第二音频段集的特征相似程度，则将所述音频段从所述第一音频段集转移到所述第二音频段集，包括：

针对所述第一音频集中的音频段，计算所述音频段的相似度向量与第一音频段集中各音频段的相似度向量的点积的第一点积平均值，以及，所述音频段的相似度向量与第二音频段集中各音频段的相似度向量的点积的第二点积平均值，如所述第一点积平均值小于所述第二点积平均值，则将所述音频段从所述第一音频段集转移到所述第二音频段集；

所述针对所述第二音频段集中的音频段，如所述音频段与第二音频段集的特征相似程度低于所述音频段与第一音频段集的特征相似程度，则将所述音频切片从所述第二音频段集转移到所述第一音频段集，包括：

针对所述第二音频段集中的音频段，计算所述音频段的相似度向量与第二音频段集中各音频段的相似度向量的点积的第三点积平均值，以及所述音频段的相似度向量与第一音频段集中各音频段的相似度向量的点积的第四点积平均值，如所述第三点积平均值低于所述第四点积平均值，则将所述音频段从所述第二音频段集转移到所述第一音频段集。

对于装置实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

同时，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，在没有超过本申请的精神和范围内，可以通过其他的方式实现。当前的实施例只是一种示范性的例子，不应该作为限制，所给出的具体内容不应该限制本申请的目的。例如，所述单元或子单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或多个子单元结合一起。另外，多个单元可以或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

另外，所描述系统和方法以及不同实施例的示意图，在不超出本申请的范围内，可以与其它系统，模块，技术或方法结合或集成。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获得待处理的目标音频以及待识别用户的基准音频；

2.根据权利要求1所述的方法，其特征在于，在所述从所述至少一个音频段中确定出属于所述待识别用户的音频段之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述多个第一音频切片中确定出第一参照音频切片，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一参照音频切片确定出所述多个第一音频切片中的第一主音频切片集，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述音频段切分为多个第一音频切片，包括：

基于设定的切分窗口以及所述切分窗口的移动步长，将所述音频段切分为存在音频重叠的多个第一音频切片，其中，所述切分窗口的移动步长小于所述切分窗口的窗口宽度。

6.根据权利要求1或2所述的方法，其特征在于，所述基于所述音频段对应的第一主音频切片集的音频特征以及所述基准音频的音频特征，从所述至少一个音频段中确定出属于所述待识别用户的音频段，包括：

7.根据权利要求6所述的方法，其特征在于，所述音频段集调整操作还包括：

针对所述第一音频段集中的音频段，计算所述音频段的相似度向量与第一音频段集中各音频段的相似度向量的点积的第一点积平均值，以及，所述音频段的相似度向量与第二音频段集中各音频段的相似度向量的点积的第二点积平均值，如所述第一点积平均值小于所述第二点积平均值，则将所述音频段从所述第一音频段集转移到所述第二音频段集；

8.一种音频处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8所述的装置，其特征在于，所述音频选取单元，包括：