CN113948092A

CN113948092A - 基于声纹的目标人物识别方法、系统、装置及存储介质

Info

Publication number: CN113948092A
Application number: CN202111022991.XA
Authority: CN
Inventors: 周丽萍; 金健; 刘剑波; 许健君; 吕召彪; 赵文博; 曾春强
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2022-01-18
Anticipated expiration: 2041-09-01
Also published as: CN113948092B

Abstract

本发明公开了基于声纹的目标人物识别方法、系统、装置及存储介质，其中所述方法包括：获取包含目标人物说话的待比对音频，并获取到对应的第一声纹特征，在声纹特征库中查找相似的声纹特征，确定若干条相似音频，并根据相似音频的加密文件名在声纹信息库中进行查找，确定相似音频对应的音频信息，该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法，侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码，从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。

Description

基于声纹的目标人物识别方法、系统、装置及存储介质

技术领域

本申请涉及声纹识别领域，尤其涉及一种基于声纹的目标人物识别方法、系统、装置及存储介质。

背景技术

随着通信技术的发展，手机等移动终端已经非常普及，人们在享受着移动通信带来的便利的同时，也遭受着电信网络诈骗的威胁，尤其是，许多犯罪分子会通过电话对老年人、儿童等弱势群体进行诈骗，而犯罪分子在实施诈骗时，往往会更换不同运营商的多张手机卡，这就令相关部门难以侦查犯罪分子的相关信息。而在更多新型违法犯罪活动中，犯罪分子可能直接通过社交平台或者是聊天软件实施诈骗，不会留下直接手机号码等身份信息，相关部门的侦查也越发困难。

相关技术中，存在通过声纹识别技术对目标人物的身份信息进行溯源的方案，但是由于各个运营商拥有的识别查询系统相互独立，在实际工作中难以联动，因此对于相关部门的侦查、执法工作的帮助有限。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种基于声纹的目标人物识别方法、系统、装置及存储介质。

第一方面，本申请实施例提供了一种基于声纹的目标人物识别方法，包括：获取待比对音频对应的第一声纹特征；根据所述第一声纹特征和声纹特征库，确定若干相似音频；根据所述相似音频的加密文件名和声纹信息库，确定所述相似音频对应的音频信息；其中，所述音频信息包括所述相似音频对应的手机号码。

可选地，所述基于声纹的目标人物识别方法还包括所述声纹特征库的构建步骤，该步骤具体包括：获取训练音频；获取所述训练音频对应的语谱信息；对所述语谱信息进行特征聚类，确定分类语谱信息；对所述分类语谱信息进行图像识别，确定声纹体征；根据若干所述声纹特征，确定所述声纹特征库。

可选地，所述基于声纹的目标人物识别方法还包括所述训练音频的获取步骤，该步骤具体包括：从通信云平台获取通话音频；根据所述通话音频，确定对应单个手机号码的单人音频；当所述单人音频的总时长大于等于预设的第一时长，确定所述单人音频为所述训练音频。

可选地，所述对所述分类语谱信息进行图像识别，确定声纹体征，具体包括：根据残差网络对所述分类语谱信息进行图像识别，确定所述声纹特征。

可选地，所述基于声纹的目标人物识别方法还包括所述声纹信息库的构建步骤，该步骤具体包括：获取所述训练音频对应的所述音频信息；对所述音频信息中的手机号码进行加密处理，确定所述加密文件名；根据所述加密文件名和所述音频信息，确定所述声纹信息库。

可选地，所述对所述音频信息中的手机号码进行加密处理，确定所述加密文件名，包括：对所述手机号码进行混淆处理，确定乱序号码；对所述手机号码进行加密处理，确定第一加密字符串；确定所述第一加密字符串中的指定片段为动态盐；根据所述乱序号码和所述动态盐，确定第二加密字符串；对所述第二加密字符串进行加密处理，生成指定长度的所述加密文件名。

可选地，所述加密处理包括MD5加密处理，或者是，所述加密处理包括MD5加密处理和Base64加密处理。

第二方面，本申请实施例提供了一种基于声纹的目标人物识别系统，包括第一模块、第二模块和第三模块；所述第一模块用于获取待比对音频对应的第一声纹特征；所述第二模块用于根据所述第一声纹特征和声纹特征库，确定若干相似音频；所述第三模块用于根据所述相似音频的加密文件名和声纹信息库，确定所述相似音频对应的音频信息；其中，所述音频信息包括所述相似音频对应的手机号码。

第三方面，本申请实施例提供了一种装置，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面所述的基于声纹的目标人物识别方法。

第四方面，本申请实施例提供了一种计算机存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现如第一方面所述的基于声纹的目标人物识别方法。

本申请实施例的有益效果如下：获取包含目标人物说话的待比对音频，并获取到对应的第一声纹特征，在声纹特征库中查找相似的声纹特征，确定若干条相似音频，并根据相似音频的加密文件名在声纹信息库中进行查找，确定相似音频对应的音频信息，该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法，侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码，从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的基于声纹的目标人物识别方法的步骤流程图；

图2为本申请实施例提供的构建声纹特征库的步骤流程图；

图3为本申请实施例提供的获取训练音频的步骤流程图；

图4为本申请实施例提供的构建声纹信息库的步骤流程图；

图5为本申请实施例提供的生成加密文件名的步骤流程图；

图6为本申请实施例提供的基于声纹的目标人物识别系统的示意图；

图7为本申请实施例提供的装置的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

参考图1，图1是本申请实施例提供的基于声纹的目标人物识别方法的步骤流程图，该方法包括但不限于步骤S100-S120：

S100、获取待比对音频对应的第一声纹特征；

具体地，在公安、司法等相关部门进行侦查的过程中，往往需要掌握目标人物的手机号码，从而可以确定目标人物的身份信息，实现对目标人物的追踪或者是对目标人群的动态监测。目标人物可能是犯罪分子或者是一些需要重点监测的人群。但是，在实际的侦查过程中，往往只有目标人物的一些声音片段作为侦查依据，无法直接锁定目标人物的手机号码。而本申请实施例提出一种基于声纹识别的目标人物识别方法，该方法可以在本申请实施例提出的基于声纹识别的目标人物识别系统上实现，当公安、司法等政务部门使用该目标人物识别系统，可以利用声纹识别来对声音片段的信息进行溯源，从而确定目标人物的手机号码。

在本步骤中，首先获取待比对音频对应的第一声纹特征。待比对音频可以是目标人物在不同场景中的声音片段，例如是社交平台中的聊天语音，或者是包含目标人物语音的通话片段。本申请实施例中主要说明以包含目标人物语音的通话片段作为待比对音频的情况。根据待比对音频，可以获得对应的声纹特征，将该声纹特征称为第一声纹特征。根据音频获取声纹特征的具体步骤将在下文中展开阐述。

S110、根据第一声纹特征和声纹特征库，确定若干相似音频；

具体地，根据步骤S100获得的第一声纹特征，在声纹特征库中进行匹配。声纹特征库中包括大量的音频片段，以及音频片段对应的声纹特征，将第一声纹特征与声纹特征库中的声纹特征进行对比，可以确定若干条与第一声纹特征比较相似的声纹特征，将这些声纹特征对应的音频确定为相似音频。

S120、根据相似音频的加密文件名和声纹信息库，确定相似音频对应的音频信息；

具体地，在本申请实施例中，声纹特征库中的音频片段均带有加密文件名。在实际应用中，各个服务商之间的系统难以联动，其中一个原因就是各个服务商有各自的隐私保护政策，为了保障用户的信息安全，各个独立的服务商系统难以做到通话语音互联互通。因此，在本申请实施例中，对音频片段使用加密文件名，加密文件名的生成方式将在以下内容中展开阐述。对音频片段生成统一格式的加密文件名后，服务商也无法直接确定音频片段对应的音频信息，只有获得授权的公安等部门才能通过本申请实施例中的基于声纹的目标人物识别系统，由查询接口查询到该音频片段的音频信息，因此，本申请实施例提出的基于声纹的目标人物识别方法能够一定程度上保护音频片段的隐私，降低因音频片段被截取而导致的安全风险。在本申请实施例中，音频信息包括但不限于该段音频对应的手机号码、该手机号码对应的服务商、音频原始时长等等。

通过步骤S100-S120，本申请实施例提供了一种基于声纹的目标人物识别方法，获取包含目标人物说话的待比对音频，并获取到对应的第一声纹特征，在声纹特征库中查找相似的声纹特征，确定若干条相似音频，并根据相似音频的加密文件名在声纹信息库中进行查找，确定相似音频对应的音频信息，该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法，侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码，从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。

在一些实施例中，本申请实施例中的基于声纹的目标识别方法还包括构建声纹特征库的步骤，参照图2，图2为本申请实施例提供的构建声纹特征库的步骤流程图，该方法包括但不限于步骤S200-S240：

S200、获取训练音频；

具体地，获取大量音频片段作为训练音频，帮助构建声纹特征库。在本申请实施例中，获取训练音频可以用图3所示的步骤来表示。

参照图3，图3为本申请实施例提供的获取训练音频的步骤流程图，该步骤具体包括：

S201、从通信云平台获取通话音频；

具体地，相关技术中的声纹识别系统，除了服务商系统难以联动的问题以外，还存在另外一个问题就是数据覆盖面不足，导致系统中的声纹样本不足，难以在侦查中发挥较好的筛选识别作用。因此在本步骤S201中，基于开放的通信云平台进行数据采集，获取到云端海量的通话音频，这些音频信息为声纹特征库的构建提供了坚实的基础。

可以理解的是，由于基于通信云平台采集的通话音频数量庞大(音频片段的数目达百万量级)，而且同一个手机号码用户的语音可能存在于许多不同的通话音频中，因此在处理这些通话音频时，使用多进程的方式对其进行并行处理。

S202、根据通话音频，确定对应单个手机号码的单人音频；

具体地，对通话音频的头文件进行解码，并且提取出通话音频的左右声道数据，两个声道的数据分别对应主叫号码和被叫号码，将左右声道数据进行相应的编码，则可以确定属于主叫号码的单人音频以及属于被叫号码的单人音频。

S203、当单人音频的总时长大于等于预设的第一时长，确定单人音频为训练音频。

具体地，在通信云平台中的音频片段的长度可能会比较短，又或者是在上述步骤S202中提取单人音频的过程中，部分单人音频会受到损坏，基于以上原因，对一条单人音频进行声纹特征提取会比较困难，并且提取到的声纹特征也难以反映说话人的声音特征。因此，在本步骤S203中，对同一个手机号码对应的单人音频片段进行统计，当统计得到的单人音频的总时长大于等于预设的第一时长，则说明当前手机号码的单人音频的时长已经达到声纹特征提取的最短有效声音时长，因此若干条单人音频拼接为一条单人音频，生成的单人音频可以作为训练音频。

需要说明的是，由于单人音频的数量巨大，在本申请实施例中可以使用如redis、kafka等大数据处理工具对单人音频进行处理。例如，设第一时长为180s，在大数据数据库中存有大量的单人音频，经过统计，计算出满足单人音频的总时长大于等于180s的手机号码，若实时处理直接从数据库进行全量统计并输入redis中，实时通话音频文件预处理结构则输入到kafka中，进行消费。离线处理则可以从数据库获取统计结果，再合并满足条件的号码音频。

通过步骤S201-S203，本申请实施例提供了一种生成训练音频的方法，通过上述内容，步骤S200已经阐述清楚，下面开始阐述步骤S210。

S210、获取训练音频对应的语谱信息；

具体地，根据步骤S200，确定训练音频，根据该训练音频，生成对应的语谱信息。在本申请实施例中，语谱信息用语谱图来表示。根据音频文件生成语谱信息的过程具体是：对训练音频进行分帧，分帧后的训练音频x可以用x(m,n)来表示，其中n为帧长，m为帧的个数。对x(m,n)作FFT变换，可以得到X(m,n)，根据X(m,n)得到周期图Y(m,n)，其中Y(m,n)＝X(m,n)*X(m,n)'。然后，取10*log10(Y(m,n))，根据时间变换，将刻度m变为刻度M，根据频率变换，将刻度n变为刻度N。最后，将(M,N,10*log10(Y(m,n)))画成二维图，则生成本申请实施例中的语谱信息，也就是语谱图。

S220、对语谱信息进行特征聚类，确定分类语谱信息；

具体地，根据步骤S210生成的语谱信息中包含的特征，采用相关技术中的聚类算法，对语谱信息进行初步的聚类，生成分类语谱信息。存储于语谱图图库中的分类语谱信息将被分为训练数据和测试数据，为后续步骤中的图像识别提供训练材料。需要说明的是，在语谱图不够的情况下，可以采取图片增广等处理方式增加干扰样本，从而提高深度学习模型的鲁棒性和广泛性。

S230、对分类语谱信息进行图像识别，确定声纹体征；

具体地，在本申请实施例中，可以利用相关技术中的图片识别模型对分类语谱信息进行图像识别，从而生成每一条分类语谱信息对应的声纹特征。图片识别模型可以是ResNet、Vggnet、Alexnet、GoogleNet，另外，通过合理设置如TripeLoss等损失函数，能帮助图片识别模型收敛，从而完成对图片识别模型的训练。

例如，图片识别模型可以为Resnet(Residual Network，残差网络)，该系列网络广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分，典型的网络有resnet50,resnet101等。该模型有助于解决网络加深、性能退化的问题。一般来说，Resnet层数可以是18层，34层，50层，101层和152层，通常使用resnet50，该方案层数适中，训练收敛速度快。精度也比较高。

S240、根据若干声纹特征，确定声纹特征库；

具体地，根据步骤S230训练得到的图片识别模型，可以根据分类语谱信息获得大量的声纹特征，将这些声纹特征都存入声纹特征库中。

通过步骤S200-S240，本申请实施例提供了声纹特征库的构建方法，目标人物对应的声纹特征正是在该声纹特征库中进行匹配，确定较为相似的音频片段，从而达到缩小侦查范围的效果。

在一些实施例中，本申请实施例中的基于声纹的目标识别方法还包括构建声纹信息库的步骤，参照图4，图4为本申请实施例提供的构建声纹信息库的步骤流程图，该方法包括但不限于步骤S400-S420：

S400、获取训练音频对应的音频信息；

具体地，上述步骤S200中已经说明训练音频的确定方式，在此不再赘述。由于训练音频实际上为时长达到或者超过第一时长的单人音频，因此可以确定训练音频对应的音频信息，该音频信息包括手机号码。

S410、对音频信息中的手机号码进行加密处理，确定加密文件名；

具体地，本步骤中的生成加密文件名的步骤具体可以用图5中的步骤来体现。参照图5，图5为本申请实施例提供的生成加密文件名的步骤流程图，该方法包括但不限于步骤S411-S415：

S411、对手机号码进行混淆处理，确定乱序号码；

具体地，在本步骤中，对手机号码进行混淆处理，该混淆处理主要是打乱手机号码中不同数字的位置，混淆处理的方法具体可以是将手机号码集体左移或者右移，又或者是固定位置的数字交换等等，本申请实施例不对混淆处理的具体方式作限制。本申请实施例想要说明的是，对手机号码进行混淆处理后，可以生成一串乱序号码。

S412、对手机号码进行加密处理，确定第一加密字符串；

具体地，在本步骤中，对手机号码进行MD5加密处理。MD5加密算法是单向不可逆加密算法，其特征是加密过程中不需要使用密钥，输入明文后由系统直接经过加密算法处理成密文，这种加密后的数据是无法被解密的，只有重新输入明文，并再次经过同样不可逆的加密算法处理，得到相同的加密密文并被系统重新识别后，才能真正解密。但是近些年来由于彩虹表(rainbow table)技术的出现，单靠MD5加密已经不够安全，因此本申请实施例通过步骤S411-S415提供新的加密方法，能够有效提高加密结果的安全性。

在一些实施例中，还会对本步骤中的第一加密字符串进行一次Base64加密，生成安全性更高的第一加密字符串。

S413、确定第一加密字符串中的指定片段为动态盐；

具体地，在本步骤中，将第一加密字符串中的指定片段作为动态盐，盐为一串随机字符串，在字符串中加入盐，能够有效隐藏字符串的有效信息，提高字符串的破解难度。

S414、根据乱序号码和动态盐，确定第二加密字符串；

具体地，在步骤S411生成的乱序号码中加入步骤S413中生成的动态盐，从而生成第二加密字符串。

S415、对第二加密字符串进行加密处理，生成指定长度的加密文件名；

具体地，对步骤S414生成的第二加密字符串进行MD5加密处理，生成32位长度的加密文件名，由于加入了动态盐，可以保证加密文件名的唯一性，生成加密文件名经过多次加密，能够有效提高加密文件名的安全性。

根据步骤S411-S415，本申请实施例提供了生成加密文件名的方法，通过混淆、加入动态盐和多次加密，有效地提高了加密文件名的安全性。步骤S410已经阐述完毕，下面开始阐述步骤S420。

S420、根据加密文件名和音频信息，确定声纹信息库。

具体地，根据音频信息和根据手机号码生成的加密文件名之间的对应关系，建立声纹信息库，当用户在查询接口输入加密文件名，可以反向查到音频信息，也就可以确定相似音频对应的手机号码，达到缩窄侦查范围，提高侦查效率的目的。

通过步骤S400-S420，本申请实施例提供了一种构建声纹信息库的方法，根据加密文件名，可以在声纹信息库中查询到对应的音频信息。

根据上述一个或多个实施例的结合，本申请实施例提供了一种基于声纹的目标人物识别方法，基于通信云平台获取大量的音频片段，筛选出长度达标的音频片段作为训练音频，帮助训练声纹识别模型，根据训练好的声纹识别模型，可以生成包含大量声纹特征的声纹特征库。同样的，根据训练音频对应的音频信息，对手机号码进行多重加密，生成指定长度的加密文件名。获取包含目标人物说话的待比对音频，并获取到对应的第一声纹特征，在声纹特征库中查找相似的声纹特征，确定若干条相似音频，并根据相似音频的加密文件名在声纹信息库中进行查找，确定相似音频对应的音频信息，该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法，侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码，从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。并且，由于音频文件都使用加密文件名，可以很方便地联动各个服务商，服务商提供音频文件的加密文件名，拥有权限的侦查部门则通过查询接口反向查询出音频信息，确定目标人物。

参照图6，图6为本申请实施例提供的基于声纹的目标人物识别系统的示意图，该系统600包括第一模块610、第二模块620和第三模块630；第一模块用于获取待比对音频对应的第一声纹特征；第二模块用于根据第一声纹特征和声纹特征库，确定若干相似音频；第三模块用于根据相似音频的加密文件名和声纹信息库，确定相似音频对应的音频信息；其中，音频信息包括相似音频对应的手机号码。

参考图7，图7为本申请实施例提供的装置的示意图，该装置700包括至少一个处理器710，还包括至少一个存储器720，用于存储至少一个程序；图7中以一个处理器及一个存储器为例。

处理器和存储器可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的另一个实施例还提供了一种装置，该装置可用于执行如上任意实施例中的控制方法，例如，执行以上描述的图1中的方法步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本申请实施例还公开了一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，处理器可执行的程序在由处理器执行时用于实现本申请提出的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于声纹的目标人物识别方法，其特征在于，包括：

获取待比对音频对应的第一声纹特征；

根据所述第一声纹特征和声纹特征库，确定若干相似音频；

根据所述相似音频的加密文件名和声纹信息库，确定所述相似音频对应的音频信息；

其中，所述音频信息包括所述相似音频对应的手机号码。

2.根据权利要求1所述的基于声纹的目标人物识别方法，其特征在于，所述基于声纹的目标人物识别方法还包括所述声纹特征库的构建步骤，该步骤具体包括：

获取训练音频；

获取所述训练音频对应的语谱信息；

对所述语谱信息进行特征聚类，确定分类语谱信息；

对所述分类语谱信息进行图像识别，确定声纹体征；

根据若干所述声纹特征，确定所述声纹特征库。

3.根据权利要求2所述的基于声纹的目标人物识别方法，其特征在于，所述基于声纹的目标人物识别方法还包括所述训练音频的获取步骤，该步骤具体包括：

从通信云平台获取通话音频；

根据所述通话音频，确定对应单个手机号码的单人音频；

当所述单人音频的总时长大于等于预设的第一时长，确定所述单人音频为所述训练音频。

4.根据权利要求2所述的基于声纹的目标人物识别方法，其特征在于，所述对所述分类语谱信息进行图像识别，确定声纹体征，具体包括：

根据残差网络对所述分类语谱信息进行图像识别，确定所述声纹特征。

5.根据权利要求2所述的基于声纹的目标人物识别方法，其特征在于，所述基于声纹的目标人物识别方法还包括所述声纹信息库的构建步骤，该步骤具体包括：

获取所述训练音频对应的所述音频信息；

对所述音频信息中的手机号码进行加密处理，确定所述加密文件名；

根据所述加密文件名和所述音频信息，确定所述声纹信息库。

6.根据权利要求5所述的基于声纹的目标人物识别方法，其特征在于，所述对所述音频信息中的手机号码进行加密处理，确定所述加密文件名，包括：

对所述手机号码进行混淆处理，确定乱序号码；

对所述手机号码进行加密处理，确定第一加密字符串；

确定所述第一加密字符串中的指定片段为动态盐；

根据所述乱序号码和所述动态盐，确定第二加密字符串；

对所述第二加密字符串进行加密处理，生成指定长度的所述加密文件名。

7.根据权利要求6所述的基于声纹的目标人物识别方法，其特征在于，所述加密处理包括MD5加密处理，或者是，所述加密处理包括MD5加密处理和Base64加密处理。

8.一种基于声纹的目标人物识别系统，其特征在于，包括第一模块、第二模块和第三模块；

所述第一模块用于获取待比对音频对应的第一声纹特征；

所述第二模块用于根据所述第一声纹特征和声纹特征库，确定若干相似音频；

所述第三模块用于根据所述相似音频的加密文件名和声纹信息库，确定所述相似音频对应的音频信息；

其中，所述音频信息包括所述相似音频对应的手机号码。

9.一种装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的基于声纹的目标人物识别方法。

10.一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-7任一项所述的基于声纹的目标人物识别方法。