CN112992152B

CN112992152B - 一种单兵声纹识别系统、方法、存储介质及电子设备

Info

Publication number: CN112992152B
Application number: CN202110433538.1A
Authority: CN
Inventors: 白世杰; 王敏乐; 吴富章; 赵宇航; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-09-14
Anticipated expiration: 2041-04-22
Also published as: CN112992152A

Abstract

本申请提供了一种单兵声纹识别系统、方法、存储介质及电子设备，语音采集模块获取多条初始音视频文件并确定文件获取方式；语音清洗模块清洗初始音视频文件以确定待识别对象的目标音视频文件；声纹特征提取模块根据目标音视频文件确定待识别对象的声纹特征向量；声纹比对模块将待识别对象的声纹特征向量逐一与根据中心网络声纹库中选取的候选声纹向量预先构建好的本地微型声纹库中的候选声纹向量进行对比，确定目标声纹向量及其所属嫌疑人员的人物身份信息。无需将涉密的嫌疑人音视频文件通过网络发送至中心网络声纹库，仅以本地微型声纹库完成嫌疑人身份识别，保证数据安全性且提升公安人员锁定嫌疑人的效率。

Description

一种单兵声纹识别系统、方法、存储介质及电子设备

技术领域

本申请涉及数据处理技术领域，尤其是涉及一种单兵声纹识别系统、方法、存储介质及电子设备。

背景技术

在现有的依据声纹进行身份识别的过程中，由于存储有声纹信息与用户身份信息对应关系的声纹库建立在网络中的远端服务器，需要由采集端将采集到的语音数据经由网络远程传输至远端服务器，并由远端服务器中的声纹库进行特征识别操作，将识别结果通过网络返回至采集端。

但是，在公安人员现场办案等过程中，需要通过嫌疑人的语音确定嫌疑人身份信息时，采集到的嫌疑人语音数据为涉密数据，此时若通过网络将涉密数据传输至远端服务器中的声纹库进行特征识别，无法保证涉密数据的安全性且锁定嫌疑人的效率低。

发明内容

有鉴于此，本申请的目的在于提供一种单兵声纹识别系统、方法、存储介质及电子设备，无需将涉密的音视频文件通过网络传输至中心网络声纹库进行信息比对与识别，仅需利用存储在本地设备上的本地微型声纹库，即可基于获取的音视频文件确定嫌疑人的人物身份信息，在保证了涉密数据安全性的同时，提升了公安人员现场办案锁定嫌疑人的效率。

本申请实施例提供了一种单兵声纹识别系统，所述单兵声纹识别系统包括：声纹库建立模块、语音采集模块、语音清洗模块、声纹特征提取模块以及声纹比对模块；

语音采集模块，用于获取待识别对象的多条初始音视频文件，确定所述多条初始音视频文件的文件获取方式，并将所述文件获取方式发送至语音清洗模块；

语音清洗模块，用于按照所述文件获取方式所对应的文件处理方式，对所述多条初始音视频文件进行清洗，确定出属于所述待识别对象的目标音视频文件，并将所述目标音视频文件发送至声纹特征提取模块；

声纹特征提取模块，用于根据所述目标音视频文件，确定所述待识别对象的声纹特征向量，并将所述待识别对象的声纹特征向量发送至声纹比对模块；

声纹比对模块，用于分别确定所述待识别对象的声纹特征向量与所述本地微型声纹库中的每个候选声纹向量之间的声纹相似度，针对于确定出的每个声纹相似度，若该声纹相似度位于预设阈值范围内，则将该声纹相似度对应的候选声纹向量，确定为目标声纹向量，并显示所述目标声纹向量所属嫌疑人员的人物身份信息，其中，所述本地微型声纹库是根据从中心网络声纹库中选取的候选声纹向量预先构建好的。

进一步的，所述单兵声纹识别系统还包括声纹库建立模块，所述声纹库建立模块用于：

从中心网络声纹库中选取候选声纹向量，并根据所述候选声纹向量建立本地微型声纹库。

进一步的，当所述文件获取方式为非直接获取时，所述语音清理模块具体用于：

获取每条初始音视频文件的文件名称；

基于获取到的每条音视频文件的文件名称，从所述多条初始音视频文件中确定出多条目标音视频文件。

进一步的，所述声纹特征提取模块具体用于：

针对每一个目标音视频文件，确定该目标音视频文件对应的声纹特征向量；

将确定出的多个声纹特征向量进行聚类处理，确定每个目标音视频文件对应的声纹特征向量所属的声音聚类类别；

根据每个声音聚类类别中所包括的声纹特征向量的数量，将声纹特征向量数量最多的声音聚类类别确定为目标聚类类别，并将所述目标聚类类别中全部声纹特征向量的平均值，确定为所述待识别对象的声纹特征向量。

进一步的，所述声纹比对模块具体用于：

针对于每个候选声纹向量，确定所述待识别对象的声纹特征向量与该候选声纹向量之间的欧拉距离值；

将所述欧拉距离值确定为所述声纹特征向量与该候选声纹向量之间的声纹相似度。

进一步的，所述单兵声纹识别系统还包括声纹管理模块，所述声纹管理模块用于：

若未确定出所述目标声纹向量，则将所述待识别对象的声纹特征向量存储于所述本地微型声纹库中。

本申请实施例还提供了一种单兵声纹识别方法，所述单兵声纹识别方法包括：

获取待识别对象的多条初始音视频文件，确定所述多条初始音视频文件的文件获取方式；

按照所述文件获取方式所对应的文件处理方式，对所述多条初始音视频文件进行清洗，确定出属于所述待识别对象的目标音视频文件；

根据所述目标音视频文件，确定所述待识别对象的声纹特征向量；

分别确定所述待识别对象的声纹特征向量与所述本地微型声纹库中的每个候选声纹向量之间的声纹相似度，针对于确定出的每个声纹相似度，若该声纹相似度位于预设阈值范围内，则将该声纹相似度对应的候选声纹向量，确定为目标声纹向量，并显示所述目标声纹向量所属嫌疑人员的人物身份信息，其中，所述本地微型声纹库是根据从中心网络声纹库中选取的候选声纹向量预先构建好的。

进一步的，当所述按照所述文件获取方式所对应的文件处理方式，对所述多条初始音视频文件进行清洗，确定出属于所述待识别对象的目标音视频文件，包括：

获取每条初始音视频文件的文件名称；

进一步的，基于以下方法确定所述待识别对象的声纹特征向量：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的单兵声纹识别方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的单兵声纹识别方法的步骤。

本申请实施例提供的单兵声纹识别系统、方法、存储介质及电子设备，所述单兵声纹识别系统包括：声纹库建立模块、语音采集模块、语音清洗模块、声纹特征提取模块以及声纹比对模块，该系统从中心网络声纹库中提取候选声纹向量构建一个本地微型声纹库，并在办案现场对比待识别对象的声纹特征向量与本地微型声纹库中存储的每个声纹向量之间的相似度，将符合相似度阈值范围的声纹向量对应的嫌疑人员信息进行显示，提供给公安办案人员进行筛选，无需将涉密的音视频文件通过网络传输至中心网络声纹库进行信息比对与识别，在保证了数据安全性的同时，提升了公安人员现场办案锁定嫌疑人的效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种单兵声纹识别系统的结构示意图；

图2示出了本申请实施例所提供的另一种单兵声纹识别系统的结构示意图；

图3示出了本申请实施例所提供的一种单兵声纹识别方法的流程图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

图标：100-单兵声纹识别系统； 110-语音采集模块；120-语音清洗模块；130-声纹特征提取模块；140-声纹比对模块；210-声纹管理模块；220-声纹库建立模块；400-电子设备；410-处理器；420-存储器；430-总线。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于数据处理技术领域。

经研究发现，在现有的依据声纹进行身份识别的过程中，由于存储有声纹信息与用户身份信息对应关系的声纹库建立在网络中的远端服务器，需要由采集端将采集到的语音数据经由网络远程传输至远端服务器，并由远端服务器中的声纹库进行特征识别操作，将识别结果通过网络返回至采集端。但是，在公安人员现场办案等过程中，需要通过嫌疑人的语音确定嫌疑人身份信息时，采集到的嫌疑人语音数据为涉密数据，此时若通过网络将涉密数据传输至远端服务器中的声纹库进行特征识别，无法保证涉密数据的安全性且锁定嫌疑人的效率低。

基于此，本申请实施例提供了一种单兵声纹识别系统、单兵声纹识别方法及电子设备，所述单兵声纹识别系统包括：声纹库建立模块、语音采集模块、语音清洗模块、声纹特征提取模块以及声纹比对模块，该系统从中心网络声纹库中提取候选声纹向量构建一个本地微型声纹库，并在办案现场对比待识别对象的声纹特征向量与本地微型声纹库中存储的每个声纹向量之间的相似度，将符合相似度阈值范围的声纹向量对应的嫌疑人员信息进行显示，提供给公安办案人员进行筛选，无需将涉密的音视频文件通过网络传输至中心网络声纹库进行信息比对与识别，在保证了数据安全性的同时，提升了公安人员现场办案锁定嫌疑人的效率。

首先，对本申请公开的一种单兵声纹识别系统100进行介绍。

请参阅图1，图1示出了本申请实施例所提供的一种单兵声纹识别系统100的结构示意图。如图1中所示，本申请实施例提供的单兵声纹识别系统100，包括：语音采集模块110、语音清洗模块120、声纹特征提取模块130以及声纹比对模块140；语音采集模块110、语音清洗模块120、声纹特征提取模块130以及声纹比对模块140之间通信连接；

所述语音采集模块110，用于获取待识别对象的多条初始音视频文件，并确定所述多条初始音视频文件的文件获取方式。

在具体实施过程中，在公安人员的办案现场，语音采集模块110通过不同的文件获取方式，获取多条待识别对象的初始音视频文件，针对每一条初始音视频文件，确定该初始音视频文件的文件获取方式。

这里，语音采集模块110获取初始音视频文件的方式包括：非直接获取方式以及直接获取方式。

作为一种可能的实施方式，语音采集模块110的非直接获取方式包括：通过USB连接待识别对象的手机、平板电脑等便携式移动设备，自动将待识别对象的手机、平板电脑等便携式移动设备中保存的全部音频及视频文件进行下载并保存；语音采集模块110的直接获取方式包括：在与待识别对象进行对话时，通过声纹采集仪采集待识别对象的声音数据，通过USB线从声纹采集仪中下载并保存待识别对象的声音数据。

这里，初始音视频文件为通过不同的文件获取方式可以获取到的全部音频及视频文件。

作为一种可能的实施方式，语音采集模块110通过非直接获取方式获取的初始音视频文件可包括：音乐软件下载的音乐文件、录音软件录制的录音文件、聊天软件的语音聊天数据及视频聊天数据、视频网站下载的视频文件、通过摄像头拍摄的视频文件。

作为一种可能的实施方式，在公安人员进行办案的过程中，待识别对象可以为有作案嫌疑的犯罪嫌疑人或没有作案嫌疑的普通民众。

所述语音清洗模块120，用于按照所述文件获取方式所对应的文件处理方式，对所述多条初始音视频文件进行清洗，确定出属于所述待识别对象的目标音视频文件。

其中，目标音视频文件为在获取的全部初始音视频文件中进行初步筛选，删除一部分非待识别对象本人的音视频文件后保留的音视频文件。

这里，当所述文件获取方式为直接获取时，语音清洗模块120将在与待识别对象进行对话时，通过声纹采集仪采集待识别对象的声音数据，通过USB线从声纹采集仪中下载并保存待识别对象的声音数据，直接确定为目标音视频文件。

当所述文件获取方式为非直接获取时，所述语音清洗模块120具体用于：

（1）获取每条初始音视频文件的文件名称；

（2）基于获取到的每条音视频文件的文件名称，从所述多条初始音视频文件中确定出多条目标音视频文件。

这里，不同于直接获取方式获取的待识别对象的声纹数据仅包含待识别对象本人的音频数据，非直接获取方式从待识别对象所携带的便携式移动设备中获取的全部音视频文件中夹杂有其他人的音频及视频数据，同时还包括一些与语音无关的音视频数据，如：音乐文件、电影视频文件，因此根据不同类型文件在便携式移动设备，如手机，中的命名规则，对获取到的多条初始音视频文件进行初步筛选，初步删除明显为非待识别对象的音视频文件，从所述多条初始音视频文件中确定出多条目标音视频文件。

例如：在从待识别对象所携带的便携式移动设备中获取的全部音视频文件中，语音清洗模块120将“音乐下载”文件夹下的文件名为“双截棍.mp3”的文件删除；将“通话记录”文件夹下的名为“本机拨出通话录音.mp3”的文件保留，即此时“通话记录”文件夹下的名为“本机拨出通话录音.mp3”的文件可以确定为目标音视频文件。

作为一种可能的实施方式，语音清洗模块120将音乐软件下的声音文件需要直接删除，录音文件下的声音文件需要全部保存，筛选聊天软件中不属于待识别对象账号的声音文件进行删除。

所述声纹特征提取模块130，用于根据所述目标音视频文件，确定所述待识别对象的声纹特征向量。

在具体实施中，根据语音清洗模块120获取目标音视频文件的不同方式，选择与文件获取方式对应的文件处理方式，对多条初始音视频数据进行处理，确定可以代表待识别对象声音特征的声纹特征向量。

这里，当所述文件获取方式为直接获取方式时，其确定所述待识别对象的声纹特征向量的过程为：声纹特征提取模块130从所述多条初始音视频文件中识别出所述待识别对象对应的声纹特征向量。

其中，由于该种获取方式获取到的多条初始音视频数据中，不包含其他非待识别对象的语音数据，如：语音聊天中除待识别对象之外的人讲话的语音信息，以及音乐数据、电影视频数据等，因此声纹特征提取模块130直接对多条初始音视频数据中的每一条进行处理，得到初始音视频数据对应的声纹特征向量即为可以代表待识别对象声音特性的声纹特征向量。

这里，当所述文件获取方式为非直接获取方式时，其确定所述待识别对象的声纹特征向量的过程为：声纹特征提取模块130针对每一个目标音视频文件，确定该目标音视频文件对应的声纹特征向量；将确定出的多个声纹特征向量进行聚类处理，确定每个目标音视频文件对应的声纹特征向量所属的声音聚类类别；根据每个声音聚类类别中所包括的声纹特征向量的数量，将声纹特征向量数量最多的声音聚类类别确定为目标聚类类别，并将所述目标聚类类别中全部声纹特征向量的平均值，确定为所述待识别对象的声纹特征向量。

这里，声纹特征提取模块130对每一个目标音视频文件对应的声纹特征向量进行聚类处理，将每一个目标音视频文件对应的声纹特征向量按照其对应的说话人进行分类，确定该目标音视频文件对应的声纹特征向量所属的声音聚类类别。

其中，声纹特征提取模块130在确定的目标音视频文件对应的声纹特征向量所属的聚类类别中，确定包含有最多目标音视频文件对应的声纹特征向量的聚类类别，取该聚类类别中全部目标音视频文件对应的声纹特征向量的平均值，作为代表待识别对象身份特征的声纹特征向量。

这里，在待识别对象的便携式移动设备，如手机中，其存储的本人音视频文件多于他人的音视频文件，由于每个人的音视频文件的特征向量较为相似，在进行聚类处理后，属于同一人的音视频文件的特征向量会被归类为同一聚类类别，因此，包含有最多音视频文件的特征向量的聚类类别即可确定为待识别对象的音视频文件。

进一步的，声纹特征提取模块130进行聚类处理的具体方法为：声纹特征提取模块130根据每两条目标音视频文件对应的声纹特征向量之间的距离进行聚类处理。

其中，作为一种可选的实施方式，声纹特征提取模块130采用余弦相似度运算，计算每两条目标音视频文件对应的声纹特征向量之间的距离。

其中，声纹特征向量为一个有固定维度的特征向量。

作为一种可能的实施方式，声纹特征向量的获取方法可以为：将获取到的音视频数据输入至训练好的声纹特征提取器。所述声纹特征提取器可以为深度学习训练好的声纹提取模型，输入为一段语音文件，输出是一个固定维度的特征向量。

所述声纹比对模块140，用于分别确定所述待识别对象的声纹特征向量与所述本地微型声纹库中的每个候选声纹向量之间的声纹相似度，针对于确定出的每个声纹相似度，若该声纹相似度位于预设阈值范围内，则将该声纹相似度对应的候选声纹向量，确定为目标声纹向量，并显示所述目标声纹向量所属嫌疑人员的人物身份信息。

这里，声纹比对模块140将声纹特征提取模块130中得到的每个待识别对象的声纹特征向量与本地微型声纹库中存储的每个候选声纹向量进行比较，确定每个待识别对象的声纹特征向量与本地微型声纹库中存储的每个候选声纹向量之间的相似度。

其中，所述预设阈值为预设的声纹相似度阈值，在实际应用过程中可以根据实际需要进行选择，在此不做具体限制。

作为一种可能的实施方式，基于以下方法确定所述声纹特征向量与所述待识别对象对应的本地微型声纹库中的每个候选声纹向量之间的声纹相似度：

（1）针对于每个候选声纹向量，确定所述待识别对象的声纹特征向量与该候选声纹特征之间的欧拉距离值；

（2）将所述欧拉距离值确定为所述声纹特征向量与该候选声纹向量之间的声纹相似度。

作为一种可能的实施方式，声纹比对模块140将获取的每一个所述声纹相似度进行排序，从高到低选取预设个数的声纹相似度，将前预设个数的候选声纹向量确定为目标声纹向量，这里，预设个数可以根据实际情况具体设置，示例性的，可以为10个，在此不做限制。

可选的，声纹比对模块140将获取到的待识别人物身份信息与待识别对象的声纹特征向量进行绑定，形成识别日志。

这里，由于存储于本地微型声纹库中的声纹向量对应有相应的人物身份信息，将声纹比对模块140中确定的每一个目标声纹向量对应的所属嫌疑人员的人物身份信息进行显示。

可选的，声纹比对模块140可以将声纹相似度大小为前十名的目标声纹向量所属嫌疑人员的人物身份信息显示在公安人员随身携带的便携式移动设备上，供公安人员进行参考。

作为一种可能的实施方式，声纹比对模块140显示所述目标声纹向量所属嫌疑人员的人物身份信息的同时显示待识别对象对应的音视频文件。

本申请实施例提供的单兵声纹识别系统，包括：声纹库建立模块、语音采集模块、语音清洗模块、声纹特征提取模块以及声纹比对模块，该系统从中心网络声纹库中提取候选声纹向量构建一个本地微型声纹库，并在办案现场对比待识别对象的声纹特征向量与本地微型声纹库中存储的每个声纹向量之间的相似度，将符合相似度阈值范围的声纹向量对应的嫌疑人员信息进行显示，提供给公安办案人员进行筛选，无需将涉密的音视频文件通过网络传输至中心网络声纹库进行信息比对与识别，在保证了数据安全性的同时，提升了公安人员现场办案锁定嫌疑人的效率。

请参阅图2，图2示出了本申请实施例所提供的另一种单兵声纹识别系统100的结构示意图。如图2中所示，本申请实施例提供的单兵声纹识别系统100，包括：语音采集模块110、语音清洗模块120、声纹特征提取模块130、声纹比对模块140以及声纹管理模块210、声纹库建立模块220；

其中，对语音采集模块110、语音清洗模块120、声纹特征提取模块130、声纹比对模块140的描述可参照图1中的描述，具有相同的用途并且能达到相同的效果，对此不做赘述。声纹库建立模块220与语音采集模块110通信连接，声纹管理模块210与声纹比对模块140通信连接；

单兵声纹识别系统100还包括声纹管理模块210，所述声纹管理模块210，用于若未确定出所述目标声纹向量，则将所述待识别对象的声纹特征向量存储于所述本地微型声纹库中。

可选的，声纹管理模块210用于对于本地微型声纹库中存储的候选声纹向量，可以进行对单条或多条进行批量管理，对其对应的人物身份信息可进行修改、增加、删除操作。并且，声纹管理模块210可以根据候选声纹向量搜索原始音频数据，将原始音频数据进行语音转文本处理。

单兵声纹识别系统100还包括声纹库建立模块220，用于从中心网络声纹库中选取候选声纹向量，并根据所述候选声纹向量建立本地微型声纹库。

在具体实施过程中，公安人员在利用本申请所述的单兵声纹识别系统100，在办案现场识别嫌疑人员前，需要首先通过声纹库建立模块220建立一个存储于本地的本地微型声纹库，所述本地微型声纹库是根据从中心网络声纹库中选取的候选声纹向量预先构建好的。为了避免在识别过程中，将获取到的涉密音视频数据通过网络传输至中心网络，从网络环境中的中心网络声纹库中，根据待抓捕的嫌疑人的已知特征作为，选取一部分存储于中心网络声纹库中的声纹向量作为，并将其构建为本地微型声纹库。

其中，可选的，待抓捕的嫌疑人的已知特征可包括：待抓捕的嫌疑人的居住地点、待抓捕嫌疑人的性别等。

例如：现已知待抓捕的嫌疑人的居住地点为A省B市C县，需要前往A省B市C县抓捕嫌疑人，则在中心网络声纹库中选取A省B市C县全部人员在记录的人员声纹向量及其对应的身份信息，并将A省B市C县全部人员在记录的人员声纹向量及其对应的身份信息构建成为本地微型声纹库，存储于公安人员随身携带的便携式移动存储设备中，由公安人员携带此便携式移动存储设备，前往A省B市C县抓捕嫌疑人。进一步的，在已知待抓捕的嫌疑人的居住地点的前提下，又已知待抓捕的嫌疑人的性别为男性，则在中心网络声纹库中选取A省B市C县全部人员在记录的人员中，男性的声纹向量及其对应的身份信息。

这里，所述中心网络声纹库为超大型数据量级的声纹库，存储有大量的声纹向量以及与该声纹向量对应的人物个人信息，处于网络环境中具有充足的计算资源，可以满足多个地区共同使用的公共声纹库，通过网络与外界进行数据交换与处理。

其中，所述候选声纹向量的数量可以根据实际需要进行选择，在此不做具体限制。

作为一种可能的实施方式，声纹库建立模块220采用通用串行总线（UniversalSerial Bus，USB）从中心网络声纹库中批量拷贝选中的候选声纹向量。

本申请实施例提供的单兵声纹识别系统，包括：声纹库建立模块、语音采集模块、语音清洗模块、声纹特征提取模块、声纹比对模块以及声纹管理模块，该系统从中心网络声纹库中提取候选声纹向量构建一个本地微型声纹库，并在办案现场对比待识别对象的声纹特征向量与本地微型声纹库中存储的每个声纹向量之间的相似度，将符合相似度阈值范围的声纹向量对应的嫌疑人员信息进行显示，提供给公安办案人员进行筛选，无需将涉密的音视频文件通过网络传输至中心网络声纹库进行信息比对与识别，在保证了数据安全性的同时，提升了公安人员现场办案锁定嫌疑人的效率。

请参阅图3，图3示出了本申请实施例所提供的一种单兵声纹识别方法的流程图。如图3中所示，本申请实施例提供的单兵声纹识别方法，包括：

S301、获取待识别对象的多条初始音视频文件，确定所述多条初始音视频文件的文件获取方式。

该步骤中，非直接获取方式包括：通过USB连接待识别对象的手机、平板电脑等便携式移动设备，自动将待识别对象的手机、平板电脑等便携式移动设备中保存的全部音频及视频文件进行下载并保存；直接获取方式包括：在与待识别对象进行对话时，通过声纹采集仪采集待识别对象的声音数据，通过USB线从声纹采集仪中下载并保存待识别对象的声音数据。

作为一种可能的实施方式，在公安人员进行办案的过程中，待识别对象可以为有作案嫌疑的犯罪嫌疑人。

S302、按照所述文件获取方式所对应的文件处理方式，对所述多条初始音视频文件进行清洗，确定出属于所述待识别对象的目标音视频文件。

该步骤中，按照S301所述的不同文件获取方式，选择与文件获取方式对应的文件处理方式，对多条初始音视频数据进行处理，确定属于所述待识别对象的目标音视频文件。

这里，当所述文件获取方式为直接获取的情况下，在与待识别对象进行对话时，通过声纹采集仪采集待识别对象的声音数据，通过USB线从声纹采集仪中下载并保存待识别对象的声音数据，直接确定为目标音视频文件。

当所述文件获取方式为非直接获取时，基于以下方法确定出属于所述待识别对象的目标音视频文件：

（1）获取每条初始音视频文件的文件名称；

S303、根据所述目标音视频文件，确定所述待识别对象的声纹特征向量。

该步骤中，根据步骤S302获取目标音视频文件的不同方式，选择与文件获取方式对应的文件处理方式，对多条初始音视频数据进行处理，确定可以代表待识别对象声音特征的声纹特征向量。

这里，当所述文件获取方式为直接获取方式时，基于以下方法确定所述待识别对象的声纹特征向量：从所述多条初始音视频文件中识别出所述待识别对象对应的声纹特征向量。

这里，当所述文件获取方式为非直接获取方式时，基于以下方法确定所述待识别对象的声纹特征向量：

（1）针对每一个目标音视频文件，确定该目标音视频文件对应的声纹特征向量；

（2）将确定出的多个声纹特征向量进行聚类处理，确定每个目标音视频文件对应的声纹特征向量所属的声音聚类类别；

（3）根据每个声音聚类类别中所包括的声纹特征向量的数量，将声纹特征向量数量最多的声音聚类类别确定为目标聚类类别，并将所述目标聚类类别中全部声纹特征向量的平均值，确定为所述待识别对象的声纹特征向量。

这里，对每一个目标音视频文件对应的声纹特征向量进行聚类处理，将每一个目标音视频文件对应的声纹特征向量按照其对应的说话人进行分类，确定该目标音视频文件对应的声纹特征向量所属的声音聚类类别。

其中，在确定的目标音视频文件对应的声纹特征向量所属的聚类类别中，确定包含有最多目标音视频文件对应的声纹特征向量的聚类类别，取该聚类类别中全部目标音视频文件对应的声纹特征向量的平均值，作为代表待识别对象身份特征的声纹特征向量。

进一步的，基于以下方法将确定出的多个声纹特征向量进行聚类处理：根据每两条目标音视频文件对应的声纹特征向量之间的距离进行聚类处理。

其中，作为一种可选的实施方式，采用余弦相似度运算，计算每两条目标音视频文件对应的声纹特征向量之间的距离。声纹特征向量为一个有固定维度的特征向量。

作为一种可能的实施方式，基于以下方法获取声纹特征向量：将获取到的音视频数据输入至训练好的声纹特征提取器。所述声纹特征提取器可以为深度学习训练好的声纹提取模型，输入为一段语音文件，输出是一个固定维度的特征向量。

S304、分别确定所述待识别对象的声纹特征向量与所述本地微型声纹库中的每个候选声纹向量之间的声纹相似度，针对于确定出的每个声纹相似度，若该声纹相似度位于预设阈值范围内，则将该声纹相似度对应的候选声纹向量，确定为目标声纹向量，并显示所述目标声纹向量所属嫌疑人员的人物身份信息，其中，所述本地微型声纹库是根据从中心网络声纹库中选取的候选声纹向量预先构建好的。

该步骤中，将每个待识别对象的声纹特征向量与本地微型声纹库中存储的每个候选声纹向量进行比较，确定每个待识别对象的声纹特征向量与本地微型声纹库中存储的每个候选声纹向量之间的相似度。

作为一种可能的实施方式，将获取的每一个所述声纹相似度进行排序，从高到低选取预设个数的声纹相似度，将前预设个数的候选声纹向量确定为目标声纹向量，这里，预设个数可以根据实际情况具体设置，示例性的，可以为10个，在此不做限制。

可选的，将获取到的待识别人物身份信息与待识别对象的声纹特征向量进行绑定，形成识别日志。

该步骤中，由于存储于本地微型声纹库中的声纹向量对应有相应的人物身份信息，将确定的每一个目标声纹向量对应的所属嫌疑人员的人物身份信息进行显示。

进一步的，在所述针对于确定出的每个声纹相似度，若该声纹相似度位于预设阈值范围内，则将该声纹相似度对应的候选声纹向量，确定为目标声纹向量之后，所述单兵声纹识别方法还包括：

（1）若未确定出所述目标声纹向量，则将所述待识别对象的声纹特征向量存储于所述本地微型声纹库中。

这里，对于本地微型声纹库中存储的候选声纹向量，可以进行对单条或多条进行批量管理，对其对应的人物身份信息可进行修改、增加、删除操作。并且，可以根据候选声纹向量搜索原始音频数据，将原始音频数据进行语音转文本处理。

作为一种可能的实施方式，在步骤S301之前，所述方法还包括：

（1）从中心网络声纹库中选取候选声纹向量，并根据所述候选声纹向量建立本地微型声纹库。

该步骤中，首先建立一个存储于本地的本地微型声纹库，所述本地微型声纹库是根据从中心网络声纹库中选取的候选声纹向量预先构建好的。

具体的，根据待抓捕嫌疑人的已知特征，选取一部分存储于中心网络声纹库中的声纹向量作为候选声纹向量，并将所述全部候选声纹向量构建为本地微型声纹库。

本申请实施例提供的单兵声纹识别方法，从中心网络声纹库中提取候选声纹向量构建一个本地微型声纹库，并在办案现场对比待识别对象的声纹特征向量与本地微型声纹库中存储的每个声纹向量之间的相似度，将符合相似度阈值范围的声纹向量对应的嫌疑人员信息进行显示，提供给公安办案人员进行筛选，无需将涉密的音视频文件通过网络传输至中心网络声纹库进行信息比对与识别，在保证了数据安全性的同时，提升了公安人员现场办案锁定嫌疑人的效率。

请参阅图4，图4示出了本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图3所示方法实施例中的单兵声纹识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图3所示方法实施例中的身份识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种单兵声纹识别系统，其特征在于，所述单兵声纹识别系统包括：声纹库建立模块、语音采集模块、语音清洗模块、声纹特征提取模块以及声纹比对模块；

声纹比对模块，用于分别确定所述待识别对象的声纹特征向量与本地微型声纹库中的每个候选声纹向量之间的声纹相似度，针对于确定出的每个声纹相似度，若该声纹相似度位于预设阈值范围内，则将该声纹相似度对应的候选声纹向量，确定为目标声纹向量，并显示所述目标声纹向量所属嫌疑人员的人物身份信息，其中，所述本地微型声纹库是根据从中心网络声纹库中选取的候选声纹向量预先构建好的；

当所述文件获取方式为直接获取时，所述语音清洗模块具体用于：

在与待识别对象进行对话时，通过声纹采集仪采集待识别对象的声音数据，通过USB线从声纹采集仪中下载并保存待识别对象的声音数据，直接确定为目标音视频文件；

当所述文件获取方式为非直接获取时，所述语音清洗模块具体用于：

获取每条初始音视频文件的文件名称；基于获取到的每条音视频文件的文件名称，从所述多条初始音视频文件中确定出多条目标音视频文件；所述声纹特征提取模块具体用于：针对每一个目标音视频文件，确定该目标音视频文件对应的声纹特征向量；将确定出的多个声纹特征向量进行聚类处理，确定每个目标音视频文件对应的声纹特征向量所属的声音聚类类别；

2.根据权利要求1所述的单兵声纹识别系统，其特征在于，所述单兵声纹识别系统还包括声纹库建立模块，所述声纹库建立模块用于：

3.根据权利要求1所述的单兵声纹识别系统，其特征在于，所述声纹比对模块具体用于：

4.根据权利要求1所述的单兵声纹识别系统，其特征在于，所述单兵声纹识别系统还包括声纹管理模块，所述声纹管理模块用于：

5.一种单兵声纹识别方法，其特征在于，应用于上述如权利要求1-4任一项所述的单兵声纹识别系统，所述单兵声纹识别方法包括：

分别确定所述待识别对象的声纹特征向量与所述本地微型声纹库中的每个候选声纹向量之间的声纹相似度，针对于确定出的每个声纹相似度，若该声纹相似度位于预设阈值范围内，则将该声纹相似度对应的候选声纹向量，确定为目标声纹向量，并显示所述目标声纹向量所属嫌疑人员的人物身份信息，其中，所述本地微型声纹库是根据从中心网络声纹库中选取的候选声纹向量预先构建好的；

基于以下方法确定所述待识别对象的目标音视频文件：

当所述文件获取方式为直接获取时，在与待识别对象进行对话时，通过声纹采集仪采集待识别对象的声音数据，通过USB线从声纹采集仪中下载并保存待识别对象的声音数据，直接确定为目标音视频文件；

当所述文件获取方式为非直接获取时，获取每条初始音视频文件的文件名称；基于获取到的每条音视频文件的文件名称，从所述多条初始音视频文件中确定出多条目标音视频文件；

基于以下方法确定所述待识别对象的声纹特征向量：

6.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求5中所述的单兵声纹识别方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求5中所述的单兵声纹识别方法的步骤。