CN113178196B

CN113178196B - 音频数据提取方法、装置、计算机设备和存储介质

Info

Publication number: CN113178196B
Application number: CN202110425573.9A
Authority: CN
Inventors: 张景逸
Original assignee: Ping An International Financial Leasing Co Ltd
Current assignee: Ping An International Financial Leasing Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2023-02-07
Anticipated expiration: 2041-04-20
Also published as: CN113178196A

Abstract

本申请涉及语音语义的音频转换领域，具体涉及一种音频数据提取方法、装置、计算机设备和存储介质。方法通过将语音数据拆分为碎片音频段；提取碎片音频段对应的音频特征信息；提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征；通过预设聚类算法对音频特征信息进行聚类处理，获取语音数据对应的音频聚簇信息；并获取其对应的音频数据提取结果。本申请在聚类处理的过程中可以更快速地知悉数据的连续性信息，确保输出聚类后的音频聚簇信息的无损连续性，而后基于聚类结果来提取得到音频数据的提取结果，保证音频数据提取结果对应的为语音数据的被试者，从而提高声纹识别的准确率。

Description

音频数据提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频数据提取方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术与生物识别技术的发展，声纹识别技术也不断得到更新。声纹识别是生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。

目前，在进行声纹识别的音频数据提取操作时，一般可以利用降噪和波束形成等传统音频优化技术对所获得的音频进行优化，然后随机截取指定长度音频来作为声纹识别的输入数据。但这种方法并不适用于鸡尾酒会场景，随机截取会影响声纹识别过程的稳定性，因此在进行声纹识别时无法区分角色，从而影响声纹识别的准确率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高多人说话场景下的声纹识别准确率的音频数据提取方法、装置、计算机设备和存储介质。

一种音频数据提取方法，所述方法包括：

获取语音数据，将所述语音数据拆分为碎片音频段；

提取所述碎片音频段对应的音频特征信息，并在所述音频特征信息中添加对应的时序维度特征，得到音频融合特征信息；

基于所述时序维度特征，通过预设聚类算法对所述音频融合特征信息进行聚类处理，获取所述语音数据对应的音频聚簇信息；

根据所述音频聚簇信息，获取所述语音数据对应的音频数据提取结果。

在其中一个实施例中，所述获取语音数据，识别所述语音数据中的碎片音频段包括：

获取语音数据；

检测所述语音数据中的空白音频位置；

根据所述空白音频位置剔除所述语音数据中的连续空白音频段，获取碎片音频段。

在其中一个实施例中，所述检测所述语音数据中的空白音频位置包括：

通过静默检测以及滑动窗口检测所述语音数据中的空白音频位置。

在其中一个实施例中，所述提取所述碎片音频段对应的音频特征信息，并在所述音频特征信息中添加对应的时序维度特征，获取音频融合特征信息之前，还包括：

根据所述碎片音频段在所述语音数据中的时序信息，获取所述碎片音频段对应的时序维度特征。

在其中一个实施例中，所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果包括：

获取所述音频聚簇信息中最大聚簇的声音长度信息；

当所述最大聚簇的声音长度信息小于预设模型输入长度阈值时，反馈对应的音频拒识消息。

获取所述音频聚簇信息中最大聚簇的声音长度信息；

当所述最大聚簇的声音长度信息小于预设模型输入长度阈值时，获取所述音频聚簇信息中音频聚簇的长度排名；

将所述音频聚簇信息中最大聚簇与所述长度排名中后续的音频聚簇依次拼接；

在每次拼接完成后，获取拼接完成后拼接聚簇的声音长度信息，当所述拼接聚簇的声音长度信息大于或等于预设模型输入长度阈值时，将所述拼接聚簇作为所述语音数据对应的音频数据提取结果。

在其中一个实施例中，所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果之后，还包括：

将所述音频数据提取结果输入预设声纹识别模型，获取所述音频数据提取结果对应的声纹识别结果。

一种音频数据提取装置，所述装置包括：

数据获取模块，用于获取语音数据，将所述语音数据拆分为碎片音频段；

特征提取模块，用于提取所述碎片音频段对应的音频特征信息，并在所述音频特征信息中添加对应的时序维度特征，得到音频融合特征信息；

音频聚类模块，用于基于所述时序维度特征，通过预设聚类算法对所述音频融合特征信息进行聚类处理，获取所述语音数据对应的音频聚簇信息；

提取结果获取模块，用于根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取语音数据，将所述语音数据拆分为碎片音频段；

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取语音数据，将所述语音数据拆分为碎片音频段；

上述音频数据提取方法、装置、计算机设备和存储介质，通过获取语音数据，将语音数据拆分为碎片音频段；提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征，得到音频融合特征信息；基于时序维度特征，通过预设聚类算法对音频融合特征信息进行聚类处理，获取语音数据对应的音频聚簇信息；根据音频聚簇信息，获取语音数据对应的音频数据提取结果。本申请的音频数据提取方法通过在提取音频数据时，通过在碎片音频段的音频特征信息中加入时序维度特征，从而在聚类处理的过程中可以更快速地知悉数据的连续性信息，确保输出聚类后的音频聚簇信息的无损连续性，而后基于聚类结果来提取得到音频数据的提取结果，保证音频数据提取结果对应的为语音数据的被试者，从而提高声纹识别的准确率。

附图说明

图1为一个实施例中音频数据提取方法的应用场景图；

图2为一个实施例中音频数据提取方法的流程示意图；

图3为一个实施例中获取碎片音频段步骤的流程示意图；

图4为一个实施例中获取音频数据提取结果步骤的流程示意图；

图5为一个实施例中音频数据提取装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的音频数据提取方法，可以应用于如图1所示的应用环境中。该音频数据提取方法应用于对鸡尾酒会场景下的被试者进行声纹识别，其中，终端102通过网络与音频数据提取服务器104进行通信。终端102用于采集鸡尾酒会场景下所产生的语音数据，并提交这部分语音数据至服务器104，当终端102方的工作人员需要对鸡尾酒会场景下录音内的被试者进行声纹识别时，可以通过网络向音频数据提取服务器104发送录音过程中所采集的语音数据，来进行声纹识别前的语音提取操作，从而保证声纹识别的准确率。音频数据提取服务器104获取语音数据，将语音数据拆分为碎片音频段；提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征，得到音频融合特征信息；基于时序维度特征，通过预设聚类算法对音频融合特征信息进行聚类处理，获取语音数据对应的音频聚簇信息；根据音频聚簇信息，获取语音数据对应的音频数据提取结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，音频数据提取服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种音频数据提取方法，以该方法应用于图1中的音频数据提取服务器104为例进行说明，包括以下步骤：

步骤201，获取语音数据，将语音数据拆分为碎片音频段。

其中，语音数据是指本申请的语音数据提取方法所提取的基础数据，语音数据具体为真实场景下的录音数据，语音数据对应的被试者会被要求对准麦克风录音，来获取语音数据，在此场景下录音应该全部为被试者的声音。但在真实场景下，录音场景很难保证没有其他人说话，即录音时可能除了被试者之外，还会掺杂入场景内其他人的说话声，此时该场景即可视为一个鸡尾酒会场景。尤其在利用被试者朗读某段长文本语音做声纹识别的场景下，由于被试者不一定知悉需要进行声纹检测，因此可能会在朗读时掺入部分旁人的说话语音。，因此可以本申请的语音数据提取方法，来从语音数据中准确提取出被试者对应的语音数据，同时在此过程中还需要考虑保证语音数据提取的效率。音频数据则为数字化后的语音数据，音频数据中包含有空白音片段与碎片音频段。其中连续空白音片段是指不包含说话人语音的连续片段，而碎片音频段则是指包含说话人语音的数据片段，其中的说话人包括了说话场景中的被试者或者其他可以发生声音的人员。

具体地，在进行语音数据提取时，需要先获取通过录音设备采集的语音数据。而后对其进行数字化后进行初步的过滤处理，将其切分为碎片音频段，从而进行后续的聚类与特征提取。

步骤203，提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征，得到音频融合特征信息。

其中，音频特征信息为输入声纹识别模型的输入数据。在通过声纹识别模型进行语音识别之前，语音数据提取服务器需要先从语音数据中提取出对应部分的特征数据，以进行后续的识别，同时还需要保证输入模型进行识别的音频特征信息为语音数据对应的主要说话者的声音。而时序维度特征用于解决如何快速摘取优质语音的任务。由于本申请中后续流程需要通过聚类算法来对音频特征信息进行聚类，从而从语音数据中提取出被试者对应部分的语音特征信息，在这个过程中，单纯的聚类算法对音频数据进行聚类存在速度慢且音频碎片化的问题，严重情况会导致音频播放出来变成噪音。加入时序维度后，聚类模型可以快速知悉数据的连续性信息，从而确保输出数据的无损连续性，并能提升聚类模型的计算速度。具体地，可以在得到碎片音频段后，提取出其对应的音频特征信息，以用作后续的声纹识别，同时可以通过在音频特征信息中添加对应的时序维度特征，获取音频融合特征信息。来提高后续聚类过程的聚类效率。

步骤205，基于时序维度特征，通过预设聚类算法对音频融合特征信息进行聚类处理，获取语音数据对应的音频聚簇信息。

其中预设聚类算法具体可以为基于高斯混合模型（GMM，Gaussian MixtureModel）的多维数据聚类算法。高斯混合模型可以看做是k-means模型的一个优化。它既是一种工业界常用的技术手段，也是一种生成式模型。高斯混合模型试图找到多维高斯模型概率分布的混合表示，从而拟合出任意形状的数据分布。

具体地，通过预设聚类算法对音频特征信息进行聚类处理的目的在于如何从语音数据中摘选优质语音。由于语音数据为混杂了不同人物语音的综合信息。在需要提取出主要的说话人物时，由于不同说话人物对应的音频特征是各不相同的，因此可以对所得到的音频融合特征信息进行聚类处理，将不同人物的语音聚合至同一类中，得到语音数据对应的各个音频聚簇信息，而一个音频聚簇信息对应有一个说话的人物。而基于时序维度特征来进行聚类处理的目的在于，在加入时序维度后，聚类模型可以快速知悉数据的连续性信息，从而确保输出数据的无损连续性，并能提升聚类模型的计算速度。可以通过在音频特征中加入一个时序维度，来提高算法性能，且可确保提取的音频是连续可播放的。因为时序维度会增加邻居音频数据的关联性。以多维高斯聚类为例，算法会快速将相似的邻居点聚类到一起，除非遇到不相似的数据。这样聚类模型输出的数据既是连续的，性能也很高。

步骤207，根据音频聚簇信息获取语音数据对应的音频数据提取结果。

具体地，当得到音频聚簇信息后，即可将音频聚簇信息中，长度最大的一组音频聚簇作为语音数据中主要说话者（即被试者）的声音，其对应的即为声纹识别的目标数据，而这部分音频聚簇信息对应的音频特征数据也是后续声纹识别过程中的模型输入数据。

上述音频数据提取方法，通过获取语音数据，将语音数据拆分为碎片音频段；提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征，获取音频融合特征信息；基于时序维度特征，通过预设聚类算法对音频融合特征信息进行聚类处理，获取语音数据对应的音频聚簇信息；根据音频聚簇信息，获取语音数据对应的音频数据提取结果。本申请的音频数据提取方法通过在提取音频数据时，通过在碎片音频段的音频特征信息中加入时序维度特征，从而在聚类处理的过程中可以更快速地知悉数据的连续性信息，确保输出聚类后的音频聚簇信息的无损连续性，而后基于聚类结果来提取得到音频数据的提取结果，保证音频数据提取结果对应的为语音数据的被试者，从而提高声纹识别的准确率。

在其中一个实施例中，用图3所示，步骤201包括：

步骤302，获取语音数据。

步骤304，检测语音数据中的空白音频位置。

步骤306，根据空白音频位置剔除语音数据中的连续空白音频段，获取碎片音频段。

其中空白音频位置对应的为不存在人声的部分，这部分音频数据在声纹识别过程中的作用较小，可以通过滤除空白音来提高信噪比，从而提高声纹识别的准确率。而连续空白音频段则是指基于空白音频位置识别出的音频数据片段，在其中一个实施例中，可以将在预设固定时间段内空白音长度大于预设频段长度阈值的音频段视为连续空白音频段，该预设固定时间段以及预设频段长度可以基于音频数据对应声纹识别过程所需的精度确定。对于精度要求越高的识别过程，该预设固定时间段以及预设频段长度越短。

具体地，随着语音设备的能力越来越强，声纹识别过程中所采集到的音频数据越来越大。但实际上，音频中的有效部分却很少。在这样的场景下，我们希望得到人声，去掉音频数据中的无效部分，提高信噪比，此时即可通过空白检测来滤除连续空白音频段，来对所采集的音频数据进行有效过滤。在其中一个实施例中，具体可以通过静默检测来进行空白音频位置的检测，而在另一个实施例中，则可以通过VAD（Voice Activity Detection，语音端点检测）检测来进行空白音频位置的检测。本实施例中，通过在得到语音数据，先检测出其中的空白音所在位置，而后基于空白音频位置来进行空白过滤，从而提高后续过程中的识别精度。

在其中一个实施例中，步骤304包括：通过静默检测以及滑动窗口检测语音数据中的空白音频位置。

其中，静默检测即为检测语音的状态，确定语音是处于静默状态还是激活状态，这样才能保证被识别的数据的是一句完整语音数据，排除一些噪音的干扰。而滑动窗口则是目标检测的一种方法，即通过滑动窗口在语音数据的波形图上滑动来检测出连续空白音频段。

具体地，对于静默检测，可以对语音数据进行分帧处理，而后获取每帧语音数据对应的能量数据，其中，每帧的能量可以取平方均值。而后将可以取语音数据的前n帧作为背景噪音的能量值，同时对背景噪音的能量值设置一个最小门限，以防止出现很安静的状态下误处理。而后基于背景噪声的能量值与当前语音的能量值来进行静默检测，当当前语音的能量值高于背景噪声时，判断当前处于语音激活状态，存在人声，否则为静默状态。在另一个实施例中，还可以监控语音的变化状态，基于变化状态是否跳动以及此变化状态的维持时间来结合进行静默检测。即通过过零检测与门限控制来进行有效的静默检测。本申请中可以将连续的静默状态作为滑块窗口检测的目标，从而从所获得的语音数据检测出连续空白音，而后将其作为干扰进行滤除。剩下的即为保留有碎片音频段的中语音信息。在其中一个实施例中，可以通过对音频数据提取分别进行静默检测以及滑动窗口检测，而后将两者检测结果的并集作为进行最终检测出的空白音频位置。本实施例中，通过静默检测以及滑动窗口检测结合，可以有效地从语音数据中检测出空白音频位置，提高检测的准确率。

在其中一个实施例中，步骤203之前，还包括：根据碎片音频段在语音数据中的时序信息，获取碎片音频段对应的时序维度特征。

具体地，对于时序维度特征，可以基于碎片音频段在语音数据中的时序信息中获取。获取的时序维度特征，具体包括各个碎片音频段在语音数据中的前后顺序信息以及前后碎片音频段的相隔距离信息，通过在音频特征信息中加入一个时序维度，就能大大提高后续聚类算法的性能，且可确保提取的音频是连续可播放的。因为添加的时序维度特征可以增加邻居碎片音频段内音频数据的关联性。以多维高斯聚类为例，算法会快速将相似的邻居点聚类到一起，除非遇到不相似的数据。这样可以聚类模型输出的数据的连续性，同时提高聚类后语音数据的可识别性能。本实施例中，碎片音频段在语音数据中的时序信息，可以更准确地获取碎片音频段对应的时序维度特征。

在其中一个实施例中，如图4所示，步骤207包括：获取音频聚簇信息中最大聚簇的声音长度信息；当最大聚簇的声音长度信息小于预设模型输入长度阈值时，反馈对应的音频拒识消息。

具体地，由于声纹识别的模型一般对输入语音的长度有要求，因此在音频聚类完成，得到音频聚簇信息后，还需要判断聚簇的长度是否达到了预设模型输入长度阈值需求，当达到时，即可输出音频聚簇信息中最大聚簇，将其作为声纹识别过程中的模型输入数据来使用。当未到达时，可以进行音频拒识的处理。音频拒识消息具体可以反馈至音频数据对应的录音设备，录音设备方的工作人员可以在接收到音频拒识消息重新录音，从而进行新一轮的音频数据提取以及声纹识别处理流程。本实施例中，通过长度检测以及音频拒识处理来进行声纹识别前的数据有效性检测，可以有效保证后续声纹识别过程的准确率。

在其中一个实施例中，如图4所示，步骤207包括：

步骤401，获取音频聚簇信息中最大聚簇的声音长度信息。

步骤403，当最大聚簇的声音长度信息小于预设模型输入长度阈值时，获取音频聚簇信息中音频聚簇的长度排名。

步骤405，将音频聚簇信息中最大聚簇与长度排名中后续的音频聚簇依次拼接。

步骤407，在每次拼接完成后，获取拼接完成后拼接聚簇的声音长度信息，当拼接聚簇的声音长度信息大于或等于预设模型输入长度阈值时，将拼接聚簇作为语音数据对应的音频数据提取结果。

具体地，在音频聚簇信息中最大聚簇的长度未达到预设模型输入长度阈值需求时，除了进行语音拒识之外，还可以进行语音拼接处理。例如，在当长度最大的一组音频聚簇不满足声纹识别模型的预设模型输入长度阈值要求时，则需要根据音频聚簇的长度排名将第二大的音频聚簇与最大聚簇拼接，再进行判断，确定拼接后的拼接聚簇的长度是否大于或等于预设模型输入长度阈值。若还未达到要求则继续将第三大的音频聚簇与拼接聚簇拼接，直到满足声纹模型输入长度要求。在一个具体地实施例中，预设模型输入长度阈值为12s，而在音频聚簇的长度排名中，音频聚簇的长度分别为7s，4s，3.5s，3s···，此时最大的音频聚簇即7s的音频聚簇未达到预设模型输入长度阈值，将其与4s的第二大音频聚簇进行拼接，得到长度为11s的音频聚簇。而11s的音频聚簇也未达到预设模型输入长度阈值。还需继续将11s的拼接聚簇与排名中第三长的3.5s的音频聚簇进行拼接，得到14.5s的拼接聚簇，此时得到的拼接聚簇长度大于预设模型输入长度阈值，因此，该可以将14.5s的拼接聚簇作为语音数据对应的音频数据提取结果。本实施例中，通过对音频聚簇的拼接处理，可以保证所得的音频数据提取结果能有效作为声纹识别模型的输入数据，从而保证声纹识别过程的准确率。

在其中一个实施例中，步骤207之后，还包括：将音频数据提取结果输入预设声纹识别模型，获取音频数据提取结果对应的声纹识别结果。

具体地，当得到最终的被试者的语音特征数据，即最终的音频数据提取结果后，即可将最终得到的最大聚簇的语音特征数据输入到声纹识别模型内，进行相应的声纹识别，并获得相应的声纹识别结果。而后根据声纹识别结果进行相应的反馈。本实施例中，可以通过将音频数据提取结果输入预设声纹识别模型，来进行声纹识别，并获得音频数据提取结果对应的声纹识别结果。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种音频数据提取装置，包括：

数据获取模块502，用于获取语音数据，将语音数据拆分为碎片音频段。

特征提取模块504，用于提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征，得到音频融合特征信息。

音频聚类模块506，用于基于时序维度特征，通过预设聚类算法对音频融合特征信息进行聚类处理，获取语音数据对应的音频聚簇信息。

提取结果获取模块508，用于根据音频聚簇信息获取语音数据对应的音频数据提取结果。

在其中一个实施例中，数据获取模块502具体用于：获取语音数据；检测语音数据中的空白音频位置；根据空白音频位置剔除语音数据中的连续空白音频段，获取碎片音频段。

在其中一个实施例中，数据获取模块502还用于：通过静默检测以及滑动窗口检测语音数据中的空白音频位置。

在其中一个实施例中，还包括时序特征获取模块，用于：根据碎片音频段在语音数据中的时序信息，获取碎片音频段对应的时序维度特征。

在其中一个实施例中，提取结果获取模块508具体用于：获取音频聚簇信息中最大聚簇的声音长度信息；当最大聚簇的声音长度信息小于预设模型输入长度阈值时，反馈对应的音频拒识消息。

在其中一个实施例中，提取结果获取模块508具体用于：获取音频聚簇信息中最大聚簇的声音长度信息；当最大聚簇的声音长度信息小于预设模型输入长度阈值时，获取音频聚簇信息中音频聚簇的长度排名；将音频聚簇信息中最大聚簇与长度排名中后续的音频聚簇依次拼接；在每次拼接完成后，获取拼接完成后拼接聚簇的声音长度信息，当拼接聚簇的声音长度信息大于或等于预设模型输入长度阈值时，将拼接聚簇作为语音数据对应的音频数据提取结果。

在其中一个实施例中，还包括声纹识别模块，用于：将音频数据提取结果输入预设声纹识别模型，获取音频数据提取结果对应的声纹识别结果

关于音频数据提取装置的具体限定可以参见上文中对于音频数据提取方法的限定，在此不再赘述。上述音频数据提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频数据提取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频数据提取方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取语音数据，将语音数据拆分为碎片音频段；

提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征，得到音频融合特征信息；

基于时序维度特征，通过预设聚类算法对音频融合特征信息进行聚类处理，获取语音数据对应的音频聚簇信息；

根据音频聚簇信息，获取语音数据对应的音频数据提取结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取语音数据；检测语音数据中的空白音频位置；根据空白音频位置剔除语音数据中的连续空白音频段，获取碎片音频段。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过静默检测以及滑动窗口检测语音数据中的空白音频位置。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据碎片音频段在语音数据中的时序信息，获取碎片音频段对应的时序维度特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取音频聚簇信息中最大聚簇的声音长度信息；当最大聚簇的声音长度信息小于预设模型输入长度阈值时，反馈对应的音频拒识消息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取音频聚簇信息中最大聚簇的声音长度信息；当最大聚簇的声音长度信息小于预设模型输入长度阈值时，获取音频聚簇信息中音频聚簇的长度排名；将音频聚簇信息中最大聚簇与长度排名中后续的音频聚簇依次拼接；在每次拼接完成后，获取拼接完成后拼接聚簇的声音长度信息，当拼接聚簇的声音长度信息大于或等于预设模型输入长度阈值时，将拼接聚簇作为语音数据对应的音频数据提取结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将音频数据提取结果输入预设声纹识别模型，获取音频数据提取结果对应的声纹识别结果。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取语音数据，将语音数据拆分为碎片音频段；

提取碎片音频段对应的音频特征信息，并在音频特征信息中添加对应的时序维度特征，获取音频融合特征信息；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取语音数据；检测语音数据中的空白音频位置；根据空白音频位置剔除语音数据中的连续空白音频段，获取碎片音频段。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过静默检测以及滑动窗口检测语音数据中的空白音频位置。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据碎片音频段在语音数据中的时序信息，获取碎片音频段对应的时序维度特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取音频聚簇信息中最大聚簇的声音长度信息；当最大聚簇的声音长度信息小于预设模型输入长度阈值时，反馈对应的音频拒识消息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取音频聚簇信息中最大聚簇的声音长度信息；当最大聚簇的声音长度信息小于预设模型输入长度阈值时，获取音频聚簇信息中音频聚簇的长度排名；将音频聚簇信息中最大聚簇与长度排名中后续的音频聚簇依次拼接；在每次拼接完成后，获取拼接完成后拼接聚簇的声音长度信息，当拼接聚簇的声音长度信息大于或等于预设模型输入长度阈值时，将拼接聚簇作为语音数据对应的音频数据提取结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将音频数据提取结果输入预设声纹识别模型，获取音频数据提取结果对应的声纹识别结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频数据提取方法，其特征在于，所述方法包括：

获取语音数据，识别所述语音数据中的碎片音频段，所述碎片音频段为包含说话人语音的语音数据片段；

提取所述碎片音频段对应的音频特征信息，并在所述音频特征信息中添加对应的时序维度特征，得到音频融合特征信息，所述时序维度特征包括所述碎片音频段在所述语音数据中的前后顺序信息和前后碎片音频段的相隔距离信息；

基于所述时序维度特征，通过预设聚类算法对所述音频融合特征信息进行聚类处理，以将所述语音数据中不同人物的语音聚合，获取所述语音数据对应的音频聚簇信息，所述音频聚簇信息中每个音频聚簇对应所述语音数据中的一个说话的人物；

2.根据权利要求1所述的方法，其特征在于，所述获取语音数据，识别所述语音数据中的碎片音频段包括：

获取语音数据；

检测所述语音数据中的空白音频位置；

3.根据权利要求2所述的方法，其特征在于，所述检测所述语音数据中的空白音频位置包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述碎片音频段对应的音频特征信息，并在所述音频特征信息中添加对应的时序维度特征，获取音频融合特征信息之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果包括：

获取所述音频聚簇信息中最大聚簇的声音长度信息；

6.根据权利要求1所述的方法，其特征在于，所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果包括：

获取所述音频聚簇信息中最大聚簇的声音长度信息；

7.根据权利要求1所述的方法，其特征在于，所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果之后，还包括：

8.一种音频数据提取装置，其特征在于，所述装置包括：

数据获取模块，用于获取语音数据，将所述语音数据拆分为碎片音频段，所述碎片音频段为包含说话人语音的语音数据片段；

特征提取模块，用于提取所述碎片音频段对应的音频特征信息，并在所述音频特征信息中添加对应的时序维度特征，得到音频融合特征信息，所述时序维度特征包括所述碎片音频段在所述语音数据中的前后顺序信息和前后碎片音频段的相隔距离信息；

音频聚类模块，用于基于所述时序维度特征，通过预设聚类算法对所述音频融合特征信息进行聚类处理，以将所述语音数据中不同人物的语音聚合，获取所述语音数据对应的音频聚簇信息，所述音频聚簇信息中每个音频聚簇对应所述语音数据中的一个说话的人物；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。