CN115862637A

CN115862637A - 音频信号处理模型训练方法、装置及介质

Info

Publication number: CN115862637A
Application number: CN202210216406.8A
Authority: CN
Inventors: 张鹏飞; 田佳旭; 张磊; 井绪海; 周健; 夏溧
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2023-03-28

Abstract

本申请公开了一种音频信号处理方法、装置及介质。其中方法包括：基于待处理的音频文件，确定目标声道的音频信号；确定目标声道的音频信号包括的静默片段；对音频信号包括的静默片段进行裁剪，得到去除静默片段后的有声片段；对有声片段进行有效性验证；依据有效性验证结果，确定针对目标声道的用于进行声纹提取的目标有声片段。本申请先提取声道的音频信号，再提取有声片段的方式，起到了在不降低音频质量的基础上消除静默片段的效果，而有效性验证则进一步提高了有声片段的精确性，提高了后续提取到的声纹特征的准确性，降低了后续提取声纹特征的计算开销。

Description

音频信号处理模型训练方法、装置及介质

技术领域

本申请涉及语音识别技术领域，具体而言，本申请涉及一种音频信号处理方法、装置及介质。

背景技术

声纹识别是一种把声信号转换成电信号，再用计算机进行识别的生物识别技术。随着声纹识别技术的发展，各行各业均利用声纹识别技术的需求。例如，缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。相关的声纹识别技术存在以下问题：一、应用至双声道声纹识别时易因不同声道的音频信号无法分离，导致用于声纹提取的信号存在混乱问题；二、对音频持续时长短、杂音多的情形下，声纹提取存在准确率低的问题。

发明内容

本申请提供了一种音频信号处理方法、装置、电子设备及计算机可读存储介质，可以解决上述问题。所述技术方案如下：

第一方面，提供了一种音频信号处理方法，该方法包括：

基于待处理的音频文件，确定目标声道的音频信号；

确定目标声道的音频信号包括的静默片段；

对音频信号包括的静默片段进行裁剪，得到去除静默片段后的有声片段；

对有声片段进行有效性验证；

依据有效性验证结果，确定针对目标声道的用于进行声纹提取的目标有声片段。

第二方面，提供了一种音频信号处理装置，该装置包括：

音频信号确定模块，用于基于待处理的音频文件，确定目标声道的音频信号；

静默片段识别模块，用于确定目标声道的音频信号包括的静默片段；

静默片段过滤模块，用于对音频信号包括的静默片段进行裁剪，得到去除静默片段后的有声片段；

有声片段验证模块，用于对有声片段进行有效性验证；

音频信号处理模块，用于依据有效性验证结果，确定针对目标声道的用于进行声纹提取的目标有声片段。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行上述音频信号处理方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述音频信号处理方法。

本申请实施例基于待处理的音频文件，确定目标声道的音频信号，并识别该音频信号包括的静默片段，从而对音频信号包括的静默片段进行裁剪，得到去除静默片段后的有声片段，对有声片段进行有效性验证，进而依据有效性验证结果，确定针对目标声道的用于进行声纹提取的目标有声片段，这种先从音频文件抽取目标声道的音频信号的方式，解决了相关技术中因音频文件为双声道的文件的情形下，导致的后续声纹提取出现混乱的情况；通过提取有声片段并有效性验证的凡是，则起到了在不降低音频质量的基础上消除静默片段的效果，解决相关技术中音频文件的音频存在的持续时长不够，杂音过多等问题，提高了用于声纹提取的有声片段的准确性，进而提高了后续提取到的声纹特征的准确性，降低了后续提取声纹特征的计算开销。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种音频信号处理方法的流程示意图；

图2为本申请实施例提供的一种音频信号处理方法的应用系统的软件架构的示意图；

图3为本申请实施例提供的一种音频信号处理方法的应用系统的软件架构的流程的示意图；以及

图4为本申请实施例提供的一种音频信号处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种音频信号处理方法，如图1所示，该方法包括：步骤S101至步骤S105。

步骤S101、基于待处理的音频文件，确定目标声道的音频信号。

具体地，电子设备基于待处理的音频文件，确定目标声道的音频信号。其中，电子设备可以为手机、平板、PC机、服务器等。应用时，电子设备可以在接收到来自相互通信的其他设备(如手机)的音频文件时，提取该音频文件包括的声道的音频信号。

具体的，音频文件可以单声道的音频信号，也可以为双声道甚至多声道的音频信号。更具体的，若音频文件为针对单声道的音频文件，那么目标声道即为该单声道；若音频文件为针对双声道的音频文件，那么目标声道为这两个声道中的一个(如左声道或右声道)，或者这两个声道均为目标声道。应用时，在音频文件针对的双声道或多声道的音频文件的情形下，可以预先设置指定目标声道，以在音频文件中提取处目标声道的音频信号。例如，在音频文件针对的双声道或多声道的音频文件的情形下，将音频文件包括的各个声道均设置为目标声道。

步骤S102、确定目标声道的音频信号包括的静默片段；。

在本申请实施例中，静默片段用于表征不包括音频信号的片段。例如，假设音频信号为张三的朗读课文的信号，该信号时长为10分钟，若张三在第3分10秒至第4分10秒这一时间段未朗读课文，那么第3分10秒至第4分10秒这一时间段即为静默片段。

具体地，可以通过预配置的静默片段识别算法(如语音端点检测VAD算法)来对目标声道的音频信号的处理，从而得到目标声道的音频信号包括的静默片段。例如，可以将目标声道的音频信号进行时域转换，得到横坐标为时间，纵坐标为振动幅值的结果，并将振动幅值小于预定幅值阈值的时间段内的信号确定为静默片段。

具体地，目标声道的音频信号包括的静默片段的数量可以为1，也可以为大于1的其他自然数。

步骤S103、对音频信号包括的静默片段进行裁剪，得到去除静默片段后的有声片段。

具体的，可以根据静默片段的开始时间和结束时间进行裁剪，并在裁剪完成后对剩余不法进行融合处理，从而得到有声片段。

本申请实施例通过对音频信号中静默片段的裁剪，从而消除音频信号中长时间的静音期，进而达到在不降低音频信号质量的情况下节省话路资源的作用。

步骤S104、对有声片段进行有效性验证。

具体地，可以按照预设条件来判断有声片段时是否符合要求。应用时，可以将预设条件设置为预定时长，即通过判断有声片段是否满足预定时长来完成有效性验证。

步骤S105、依据有效性验证结果，确定针对目标声道的用于进行声纹提取的目标有声片段。

具体的，有效性验证结果可以包括确定有声片段有效的信息，也可以包括在有声片段上重新确定有效时段的时间信息，该时间信息包括开始时间和结束时间。

在一些实现方式中，步骤S103对音频信号包括的静默片段进行裁剪，得到去除静默片段后的有声片段的步骤，包括：

依据静默片段判断音频信号是否为全静默片段；

若音频信号并非全静默片段，则对音频信号的静默片段进行裁剪，得到去除静默片段后的有声片段。

本申请实施例将静默片段的时长与音频信号的时长的比较，起到了过滤全静默音频信号，节省不必要计算开销，提高用于进行声纹提取的目标有声片段精度的效果。

具体地，将静默片段的时长等于音频信号的时长进行比较，来确定音频信号是否为全静默片段。例如，若静默片段的时长等于音频信号的时长，则确定音频信号为全静默片段；若静默片段的时长小于音频信号的时长，则确定音频信号并非全静默片段。

应用时，若确目标声道的音频信号为全静默片段，则无效无需执行步骤S101至步骤S105的步骤，这种通过对目标声道的全静默片段的识别与过滤，节省了有声片段的提取步骤，提高了有声片段的提取效率。

在一些实现方式中，步骤S104对有声片段进行有效性验证的步骤，包括：

将有声片段的时长与预设的有声片段时长阈值进行比较；

若有声片段的时长大于有声片段时长阈值，则确定有声片段的有效性验证结果为有效。

具体地，有声片段时长阈值可以根据义务需要进行设置。

例如，假设有声片段的时长为10分钟，预设的有声片段时长阈值为15分钟，通过比较可以确定该有声片段的有效性验证结果为无效，即该有声片段未通过有效性验证；假设有声片段的时长为17分钟，预设的有声片段时长阈值为15分钟，通过比较可以确定该有声片段的有效性验证结果为有效，即该有声片段通过有效性验证。

在一些实现方式中，如图1所示，步骤S105依据有效性验证结果对有声片段进行处理，得到用于进行声纹提取的目标有声片段的步骤，包括：

步骤S1051(图中未示出)、若有效性验证结果为有效，则对有声片段进行输出；

步骤S1052(图中未示出)、获取针对有声片段的控制操作；

步骤S1053(图中未示出)、根据控制操作对有声片段进行处理，得到针对目标声道的用于进行声纹提取的目标有声片段。

具体地，可以通过预设的用户交互界面来输出有声片段。应用时，可以将该有声片段可以按照横坐标为时间，纵坐标为振动幅度的形式来输出。更具体地，还可以将该有声片段所属的声道、时长等信息进行输出。

具体地，针对有声片段的控制操作可以包括编辑操作和确认操作。其中，编辑操作为用户交互界面向用户提供的对有声片段的时段进行重新选择的操作，即向用户提供了该有声片段上重新确定有声片段范围的功能，起到了人为调整用于声纹提取的片段区间的效果，达到了提高声纹提取的准确性，减少后续声纹提取过程中的干扰的目的。例如，若控制操作为确认操作，那么无需对有声片段进行处理，直接将该有声片段作为目标有声片段；若控制操作为编辑操作，那么根据该编辑操作对应的时间点来对该有声片段进行裁剪，将裁剪出的片段作为目标有声片段。

在一些实现方式中，步骤S1053根据控制操作对有声片段进行处理，得到针对目标声道的用于进行声纹提取的目标有声片段的步骤，包括以下至少一项：

若控制操作为确定有声片段无需调整的操作，则将有声片段确定为针对目标声道的用于进行声纹提取的目标有声片段；

若控制操作为有声片段需进行裁剪的操作，则确定控制操作指向的时间范围，并将位于时间范围内的有声片段，确定为针对目标声道的用于进行声纹提取的目标有声片段。

具体地，可以通过“确定”控件来检测有声片段是否需要调整。应用时，若检测到针对“确定”控件的操作，则将有声片段确定为针对目标声道的用于进行声纹提取的目标有声片段。

具体地，可以通过“编辑”控件来检测有声片段是否需要进行裁剪。应用时，若检测到针对“编辑”控件的操作，则依据针对“编辑”控件的操作在有声片段上进行定位，得到针对目标声道的用于进行声纹提取的目标有声片段。

在一些实现方式中，步骤S101基于待处理的音频文件，确定目标声道的音频信号的步骤，包括；

基于音频文件的声道参数，确定声道类型。

若声道类型为多声道，则确定音频文件包括的各个声道分别对应的音频信号。

具体地，音频文件的声道参数包括声道标识、声道标识对应的音频信号及其总时长、时间信息(如采集时间)等。

具体地，若声道类型为单声道，则直接将音频文件包括的音频信号作为目标声道的音频信号。

具体地，可以使用ffmpeg对音频文件声道的抽取，音频文件的剪辑等。

具体地，目标声道的音频信号可以为音频文件中全部时长的信号，也可以为对音频文件中全部时长的信号进行切片后得到的各个信号判断。例如，假设音频文件中音频信号时长为10分钟，那么目标声道的音频信号可以为这10分钟的信号，也可以将这10分钟的信号按照每5分钟一个单位进行切片，从而得到两个5分钟的信号，那么这两个5分钟的信号均作为目标声道的音频信号，并执行步骤S102至步骤S105。

在一些实现方式中，如图1所示，该方法还包括：

步骤S106(图中未示出)、依据预配置的声纹提取算法对目标有声片段进行处理，得到声纹特征；

步骤S107(图中未示出)、将声纹特征在预存储的声纹特征数据库中进行匹配，声纹特征数据库包括若干用户，以及若干用户分别对应的声纹特征；

步骤S108(图中未示出)、依据匹配结果，确定声纹特征指向的用户。

具体地，可以利用预设接口将目标有声片段发送至第三方应用的服务器，以利用第三方应用的服务器来对目标有声片段进行声纹提取。应用时，可以通过http调用接口抽象出来，供以后扩展其他第三方厂商的声纹提取算法，提高本本申请的灵活度。

具体地，在执行步骤S107之前可以动态检测声纹特征数据库是否有更新版本，若检测到声纹特征数据库的新版本，则下载并更新声纹特征数据库后进行处理，从而确定出步骤S106中声纹特征指向的用户。

为了进一步说明本申请实施例提供的方法，下面结合图2和图3进行详细说明。

图2所示的软件架构包括任务队列模块、文件处理模块、算法模块和声纹持久化模块。其中，任务队列模块：本发明支持高并发，如果存在大量访问的情况，可将请求先存入任务队列，可根据本申请部署的服务器性能情况支持的并发数量，进行后续处理；文件处理模块包含VAD、FFMPEG或其他文件操作工具，其中vad用于对音频文件的静默片段进行检测；ffmpeg用于对音频文件声道的抽取，音频文件的剪辑等；算法模块可将声纹提取算法的http调用接口抽象出来，供以后扩展其他第三方厂商的声纹提取算法，提高本发明的灵活度；声纹持久化模块可将声纹识别的后的声纹信息进行存储，此模块支持传统数据库存储，也支持内存数据库存储，可根据业务系统需要进行选择，供后续的声纹比对使用。图2所示的软件架构可以参照图3所示的流程示意图进行处理。首先，对任务队列模块中待处理的音频文件进行单声道判断，并在判断结果为非单声道的情形下，利用文件处理模块中ffmpeg工具来对音频文件进程多声道音频抽取处理，以得到各个声道分别对应的音频信号，例如，得到左声道的音频信号和右声道的音频信号，其中，右声道和右声道均可以为目标声道；利用文件处理模块中静音检测算法VAD对各个声道分别对应的音频信号进行静默片段提取，得到各个声道分别对应的静默片段；对各个声道分别对应的静默片段进行全静默片段判断，若任一声道对应的静默片段并非全静默片段，则剪切该任一声道对应的静默片段，并将剩余部分拼接为有声片段；若任一声道对应的静默片段为全静默片段，则对该任一声道对应的静默片段进行整合处理(如丢弃)；对该有声片段进行有效性验证，即：将该有声片段的时长与预设的时长阈值进行比较，若该有声片段的时长大于15秒(即有声片段时长阈值，具体应用时可以根据业务需要来进行设置)，则确定该有声片段进行有效性验证结果为有效，否则对该有声片段进行整合处理(如丢失)；利用预设接口对有效性验证结果为有效的有声片段进行输出，以使用户利用该预设接口来对该有声片段进行人工调整，由人工判断整理后的音频是否存在其他人的声音，如果存在，可通过预设接口手动选择需要识别的时间范围，以依据手动选择的时间范围做裁剪；如果不需要裁剪，该用户根据预设接口直接提交，通过这种方式来得到目标有声片段；利用文件处理模块中声纹提取算法，如采用GMM模型框架、i-vector模型的声纹提取算法，得到声纹特征；对声纹特征进行整合处理，如将提取到的声纹特征存储到声纹持久化模块，或者将提取到的声纹特征在声纹持久化模块中存储的声纹数据库中的声纹特征进行匹配。

本申请的又一实施例提供了一种音频信号处理装置，如图4所示，该装置40包括：全音频信号确定模块401、静默片段识别模块402、静默片段过滤模块403、有声片段验证模块404以及音频信号处理模块405。

音频信号确定模块401，用于基于待处理的音频文件，确定目标声道的音频信号；

静默片段识别模块402，用于确定目标声道的音频信号包括的静默片段；

静默片段过滤模块403，用于对音频信号包括的静默片段进行裁剪，得到去除静默片段后的有声片段；

有声片段验证模块404，用于对有声片段进行有效性验证；

音频信号处理模块405，用于依据有效性验证结果，确定针对目标声道的用于进行声纹提取的目标有声片段。

进一步地，静默片段过滤模块包括：

全静默片段判断子模块，用于依据静默片段判断音频信号是否为全静默片段；

静默判断裁剪子模块，用于若音频信号并非全静默片段，则对音频信号的静默片段进行裁剪，得到去除静默片段后的有声片段。

进一步地，有声片段验证模块包括：

片段时长比较子模块，用于将有声片段的时长与预设的有声片段时长阈值进行比较；

有效性确定子模块，用于若有声片段的时长大于有声片段时长阈值，则确定有声片段的有效性验证结果为有效。

进一步地，音频信号处理模块包括：

有效片段输出子模块，用于若有效性验证结果为有效，则对有声片段进行输出；

有效片段操作子模块，用于获取针对有声片段的控制操作；

有效片段处理子模块，用于根据控制操作对有声片段进行处理，得到针对目标声道的用于进行声纹提取的目标有声片段。

进一步地，有效片段处理子模块包括以下至少一项：

第一确定单元，用于若控制操作为确定有声片段无需调整的操作，则将有声片段确定为针对目标声道的用于进行声纹提取的目标有声片段；

第二确定单元，用于若控制操作为有声片段需进行裁剪的操作，则确定控制操作指向的时间范围，并位于时间范围内的有声片段，确定为针对目标声道的用于进行声纹提取的目标有声片段。

进一步地，音频信号确定模块包括；

声道类型确定子模块，用于基于音频文件的声道参数，确定声道类型。

声道信号确定子模块，用于若声道类型为多声道，则确定音频文件包括的各个声道分别对应的音频信号。

进一步地，该装置还包括：

声纹提取模块，用于依据预配置的声纹提取算法对目标有声片段进行处理，得到声纹特征；

声纹匹配模块，用于将声纹特征在预存储的声纹特征数据库中进行匹配，声纹特征数据库包括若干用户，以及若干用户分别对应的声纹特征；

声纹识别模块，用于依据匹配结果，确定声纹特征指向的用户。

本实施例的音频信号处理装置可执行本申请实施例一所示的音频信号处理方法，其实现原理相类似，此处不再赘述。

本申请又一实施例提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时以实现上述音频信号处理方法。

具体地，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

具体地，处理器通过总线与存储器连接，总线可包括一通路，以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。

存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器用于存储执行本申请方案的计算机程序的代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现上述实施例提供的音频信号处理装置的动作。

本申请又一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述音频信号处理方法。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种音频信号处理方法，其特征在于，包括：

基于待处理的音频文件，确定目标声道的音频信号；

确定所述目标声道的音频信号包括的静默片段；

对所述音频信号包括的静默片段进行裁剪，得到去除所述静默片段后的有声片段；

对所述有声片段进行有效性验证；

依据有效性验证结果，确定针对所述目标声道的用于进行声纹提取的目标有声片段。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频信号包括的静默片段进行裁剪，得到去除所述静默片段后的有声片段的步骤，包括：

依据所述静默片段判断所述音频信号是否为全静默片段；

若所述音频信号并非全静默片段，则对所述音频信号的静默片段进行裁剪，得到去除静默片段后的有声片段。

3.根据权利要求1所述的方法，其特征在于，所述对所述有声片段进行有效性验证的步骤，包括：

将所述有声片段的时长与预设的有声片段时长阈值进行比较；

若所述有声片段的时长大于所述有声片段时长阈值，则确定所述有声片段的有效性验证结果为有效。

4.根据权利要求1所述的方法，其特征在于，所述依据有效性验证结果对所述有声片段进行处理，得到用于进行声纹提取的目标有声片段的步骤，包括：

若有效性验证结果为有效，则对所述有声片段进行输出；

获取针对所述有声片段的控制操作；

根据所述控制操作对所述有声片段进行处理，得到针对所述目标声道的用于进行声纹提取的目标有声片段。

5.根据权利要求4所述的方法，其特征在于，所述根据所述控制操作对所述有声片段进行处理，得到针对所述目标声道的用于进行声纹提取的目标有声片段的步骤，包括以下至少一项：

若所述控制操作为确定所述有声片段无需调整的操作，则将所述有声片段确定为针对所述目标声道的用于进行声纹提取的目标有声片段；

若所述控制操作为所述有声片段需进行裁剪的操作，则确定所述控制操作指向的时间范围，并位于所述时间范围内的有声片段，确定为针对所述目标声道的用于进行声纹提取的目标有声片段。

6.根据权利要求1所述的方法，其特征在于，所述基于待处理的音频文件，确定目标声道的音频信号的步骤，包括；

基于所述音频文件的声道参数，确定所述声道类型。

若所述声道类型为多声道，则确定所述音频文件包括的各个声道分别对应的音频信号。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

依据预配置的声纹提取算法对所述目标有声片段进行处理，得到声纹特征；

将所述声纹特征在预存储的声纹特征数据库中进行匹配，所述声纹特征数据库包括若干用户，以及若干用户分别对应的声纹特征；

依据匹配结果，确定所述声纹特征指向的用户。

8.一种音频信号处理装置，其特征在于，包括：

静默片段识别模块，用于确定所述目标声道的音频信号包括的静默片段；

静默片段过滤模块，用于对所述音频信号包括的静默片段进行裁剪，得到去除所述静默片段后的有声片段；

有声片段验证模块，用于对所述有声片段进行有效性验证；

音频信号处理模块，用于依据有效性验证结果，确定针对所述目标声道的用于进行声纹提取的目标有声片段。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述的方法。