CN113948092A - 基于声纹的目标人物识别方法、系统、装置及存储介质 - Google Patents
基于声纹的目标人物识别方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN113948092A CN113948092A CN202111022991.XA CN202111022991A CN113948092A CN 113948092 A CN113948092 A CN 113948092A CN 202111022991 A CN202111022991 A CN 202111022991A CN 113948092 A CN113948092 A CN 113948092A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- audio
- target person
- determining
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 150000003839 salts Chemical class 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 9
- 230000001755 vocal effect Effects 0.000 claims description 4
- 238000011835 investigation Methods 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了基于声纹的目标人物识别方法、系统、装置及存储介质,其中所述方法包括:获取包含目标人物说话的待比对音频,并获取到对应的第一声纹特征,在声纹特征库中查找相似的声纹特征,确定若干条相似音频,并根据相似音频的加密文件名在声纹信息库中进行查找,确定相似音频对应的音频信息,该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法,侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码,从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。
Description
技术领域
本申请涉及声纹识别领域,尤其涉及一种基于声纹的目标人物识别方法、系统、装置及存储介质。
背景技术
随着通信技术的发展,手机等移动终端已经非常普及,人们在享受着移动通信带来的便利的同时,也遭受着电信网络诈骗的威胁,尤其是,许多犯罪分子会通过电话对老年人、儿童等弱势群体进行诈骗,而犯罪分子在实施诈骗时,往往会更换不同运营商的多张手机卡,这就令相关部门难以侦查犯罪分子的相关信息。而在更多新型违法犯罪活动中,犯罪分子可能直接通过社交平台或者是聊天软件实施诈骗,不会留下直接手机号码等身份信息,相关部门的侦查也越发困难。
相关技术中,存在通过声纹识别技术对目标人物的身份信息进行溯源的方案,但是由于各个运营商拥有的识别查询系统相互独立,在实际工作中难以联动,因此对于相关部门的侦查、执法工作的帮助有限。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种基于声纹的目标人物识别方法、系统、装置及存储介质。
第一方面,本申请实施例提供了一种基于声纹的目标人物识别方法,包括:获取待比对音频对应的第一声纹特征;根据所述第一声纹特征和声纹特征库,确定若干相似音频;根据所述相似音频的加密文件名和声纹信息库,确定所述相似音频对应的音频信息;其中,所述音频信息包括所述相似音频对应的手机号码。
可选地,所述基于声纹的目标人物识别方法还包括所述声纹特征库的构建步骤,该步骤具体包括:获取训练音频;获取所述训练音频对应的语谱信息;对所述语谱信息进行特征聚类,确定分类语谱信息;对所述分类语谱信息进行图像识别,确定声纹体征;根据若干所述声纹特征,确定所述声纹特征库。
可选地,所述基于声纹的目标人物识别方法还包括所述训练音频的获取步骤,该步骤具体包括:从通信云平台获取通话音频;根据所述通话音频,确定对应单个手机号码的单人音频;当所述单人音频的总时长大于等于预设的第一时长,确定所述单人音频为所述训练音频。
可选地,所述对所述分类语谱信息进行图像识别,确定声纹体征,具体包括:根据残差网络对所述分类语谱信息进行图像识别,确定所述声纹特征。
可选地,所述基于声纹的目标人物识别方法还包括所述声纹信息库的构建步骤,该步骤具体包括:获取所述训练音频对应的所述音频信息;对所述音频信息中的手机号码进行加密处理,确定所述加密文件名;根据所述加密文件名和所述音频信息,确定所述声纹信息库。
可选地,所述对所述音频信息中的手机号码进行加密处理,确定所述加密文件名,包括:对所述手机号码进行混淆处理,确定乱序号码;对所述手机号码进行加密处理,确定第一加密字符串;确定所述第一加密字符串中的指定片段为动态盐;根据所述乱序号码和所述动态盐,确定第二加密字符串;对所述第二加密字符串进行加密处理,生成指定长度的所述加密文件名。
可选地,所述加密处理包括MD5加密处理,或者是,所述加密处理包括MD5加密处理和Base64加密处理。
第二方面,本申请实施例提供了一种基于声纹的目标人物识别系统,包括第一模块、第二模块和第三模块;所述第一模块用于获取待比对音频对应的第一声纹特征;所述第二模块用于根据所述第一声纹特征和声纹特征库,确定若干相似音频;所述第三模块用于根据所述相似音频的加密文件名和声纹信息库,确定所述相似音频对应的音频信息;其中,所述音频信息包括所述相似音频对应的手机号码。
第三方面,本申请实施例提供了一种装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面所述的基于声纹的目标人物识别方法。
第四方面,本申请实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现如第一方面所述的基于声纹的目标人物识别方法。
本申请实施例的有益效果如下:获取包含目标人物说话的待比对音频,并获取到对应的第一声纹特征,在声纹特征库中查找相似的声纹特征,确定若干条相似音频,并根据相似音频的加密文件名在声纹信息库中进行查找,确定相似音频对应的音频信息,该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法,侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码,从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例提供的基于声纹的目标人物识别方法的步骤流程图;
图2为本申请实施例提供的构建声纹特征库的步骤流程图;
图3为本申请实施例提供的获取训练音频的步骤流程图;
图4为本申请实施例提供的构建声纹信息库的步骤流程图;
图5为本申请实施例提供的生成加密文件名的步骤流程图;
图6为本申请实施例提供的基于声纹的目标人物识别系统的示意图;
图7为本申请实施例提供的装置的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,图1是本申请实施例提供的基于声纹的目标人物识别方法的步骤流程图,该方法包括但不限于步骤S100-S120:
S100、获取待比对音频对应的第一声纹特征;
具体地,在公安、司法等相关部门进行侦查的过程中,往往需要掌握目标人物的手机号码,从而可以确定目标人物的身份信息,实现对目标人物的追踪或者是对目标人群的动态监测。目标人物可能是犯罪分子或者是一些需要重点监测的人群。但是,在实际的侦查过程中,往往只有目标人物的一些声音片段作为侦查依据,无法直接锁定目标人物的手机号码。而本申请实施例提出一种基于声纹识别的目标人物识别方法,该方法可以在本申请实施例提出的基于声纹识别的目标人物识别系统上实现,当公安、司法等政务部门使用该目标人物识别系统,可以利用声纹识别来对声音片段的信息进行溯源,从而确定目标人物的手机号码。
在本步骤中,首先获取待比对音频对应的第一声纹特征。待比对音频可以是目标人物在不同场景中的声音片段,例如是社交平台中的聊天语音,或者是包含目标人物语音的通话片段。本申请实施例中主要说明以包含目标人物语音的通话片段作为待比对音频的情况。根据待比对音频,可以获得对应的声纹特征,将该声纹特征称为第一声纹特征。根据音频获取声纹特征的具体步骤将在下文中展开阐述。
S110、根据第一声纹特征和声纹特征库,确定若干相似音频;
具体地,根据步骤S100获得的第一声纹特征,在声纹特征库中进行匹配。声纹特征库中包括大量的音频片段,以及音频片段对应的声纹特征,将第一声纹特征与声纹特征库中的声纹特征进行对比,可以确定若干条与第一声纹特征比较相似的声纹特征,将这些声纹特征对应的音频确定为相似音频。
S120、根据相似音频的加密文件名和声纹信息库,确定相似音频对应的音频信息;
具体地,在本申请实施例中,声纹特征库中的音频片段均带有加密文件名。在实际应用中,各个服务商之间的系统难以联动,其中一个原因就是各个服务商有各自的隐私保护政策,为了保障用户的信息安全,各个独立的服务商系统难以做到通话语音互联互通。因此,在本申请实施例中,对音频片段使用加密文件名,加密文件名的生成方式将在以下内容中展开阐述。对音频片段生成统一格式的加密文件名后,服务商也无法直接确定音频片段对应的音频信息,只有获得授权的公安等部门才能通过本申请实施例中的基于声纹的目标人物识别系统,由查询接口查询到该音频片段的音频信息,因此,本申请实施例提出的基于声纹的目标人物识别方法能够一定程度上保护音频片段的隐私,降低因音频片段被截取而导致的安全风险。在本申请实施例中,音频信息包括但不限于该段音频对应的手机号码、该手机号码对应的服务商、音频原始时长等等。
通过步骤S100-S120,本申请实施例提供了一种基于声纹的目标人物识别方法,获取包含目标人物说话的待比对音频,并获取到对应的第一声纹特征,在声纹特征库中查找相似的声纹特征,确定若干条相似音频,并根据相似音频的加密文件名在声纹信息库中进行查找,确定相似音频对应的音频信息,该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法,侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码,从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。
在一些实施例中,本申请实施例中的基于声纹的目标识别方法还包括构建声纹特征库的步骤,参照图2,图2为本申请实施例提供的构建声纹特征库的步骤流程图,该方法包括但不限于步骤S200-S240:
S200、获取训练音频;
具体地,获取大量音频片段作为训练音频,帮助构建声纹特征库。在本申请实施例中,获取训练音频可以用图3所示的步骤来表示。
参照图3,图3为本申请实施例提供的获取训练音频的步骤流程图,该步骤具体包括:
S201、从通信云平台获取通话音频;
具体地,相关技术中的声纹识别系统,除了服务商系统难以联动的问题以外,还存在另外一个问题就是数据覆盖面不足,导致系统中的声纹样本不足,难以在侦查中发挥较好的筛选识别作用。因此在本步骤S201中,基于开放的通信云平台进行数据采集,获取到云端海量的通话音频,这些音频信息为声纹特征库的构建提供了坚实的基础。
可以理解的是,由于基于通信云平台采集的通话音频数量庞大(音频片段的数目达百万量级),而且同一个手机号码用户的语音可能存在于许多不同的通话音频中,因此在处理这些通话音频时,使用多进程的方式对其进行并行处理。
S202、根据通话音频,确定对应单个手机号码的单人音频;
具体地,对通话音频的头文件进行解码,并且提取出通话音频的左右声道数据,两个声道的数据分别对应主叫号码和被叫号码,将左右声道数据进行相应的编码,则可以确定属于主叫号码的单人音频以及属于被叫号码的单人音频。
S203、当单人音频的总时长大于等于预设的第一时长,确定单人音频为训练音频。
具体地,在通信云平台中的音频片段的长度可能会比较短,又或者是在上述步骤S202中提取单人音频的过程中,部分单人音频会受到损坏,基于以上原因,对一条单人音频进行声纹特征提取会比较困难,并且提取到的声纹特征也难以反映说话人的声音特征。因此,在本步骤S203中,对同一个手机号码对应的单人音频片段进行统计,当统计得到的单人音频的总时长大于等于预设的第一时长,则说明当前手机号码的单人音频的时长已经达到声纹特征提取的最短有效声音时长,因此若干条单人音频拼接为一条单人音频,生成的单人音频可以作为训练音频。
需要说明的是,由于单人音频的数量巨大,在本申请实施例中可以使用如redis、kafka等大数据处理工具对单人音频进行处理。例如,设第一时长为180s,在大数据数据库中存有大量的单人音频,经过统计,计算出满足单人音频的总时长大于等于180s的手机号码,若实时处理直接从数据库进行全量统计并输入redis中,实时通话音频文件预处理结构则输入到kafka中,进行消费。离线处理则可以从数据库获取统计结果,再合并满足条件的号码音频。
通过步骤S201-S203,本申请实施例提供了一种生成训练音频的方法,通过上述内容,步骤S200已经阐述清楚,下面开始阐述步骤S210。
S210、获取训练音频对应的语谱信息;
具体地,根据步骤S200,确定训练音频,根据该训练音频,生成对应的语谱信息。在本申请实施例中,语谱信息用语谱图来表示。根据音频文件生成语谱信息的过程具体是:对训练音频进行分帧,分帧后的训练音频x可以用x(m,n)来表示,其中n为帧长,m为帧的个数。对x(m,n)作FFT变换,可以得到X(m,n),根据X(m,n)得到周期图Y(m,n),其中Y(m,n)=X(m,n)*X(m,n)'。然后,取10*log10(Y(m,n)),根据时间变换,将刻度m变为刻度M,根据频率变换,将刻度n变为刻度N。最后,将(M,N,10*log10(Y(m,n)))画成二维图,则生成本申请实施例中的语谱信息,也就是语谱图。
S220、对语谱信息进行特征聚类,确定分类语谱信息;
具体地,根据步骤S210生成的语谱信息中包含的特征,采用相关技术中的聚类算法,对语谱信息进行初步的聚类,生成分类语谱信息。存储于语谱图图库中的分类语谱信息将被分为训练数据和测试数据,为后续步骤中的图像识别提供训练材料。需要说明的是,在语谱图不够的情况下,可以采取图片增广等处理方式增加干扰样本,从而提高深度学习模型的鲁棒性和广泛性。
S230、对分类语谱信息进行图像识别,确定声纹体征;
具体地,在本申请实施例中,可以利用相关技术中的图片识别模型对分类语谱信息进行图像识别,从而生成每一条分类语谱信息对应的声纹特征。图片识别模型可以是ResNet、Vggnet、Alexnet、GoogleNet,另外,通过合理设置如TripeLoss等损失函数,能帮助图片识别模型收敛,从而完成对图片识别模型的训练。
例如,图片识别模型可以为Resnet(Residual Network,残差网络),该系列网络广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分,典型的网络有resnet50,resnet101等。该模型有助于解决网络加深、性能退化的问题。一般来说,Resnet层数可以是18层,34层,50层,101层和152层,通常使用resnet50,该方案层数适中,训练收敛速度快。精度也比较高。
S240、根据若干声纹特征,确定声纹特征库;
具体地,根据步骤S230训练得到的图片识别模型,可以根据分类语谱信息获得大量的声纹特征,将这些声纹特征都存入声纹特征库中。
通过步骤S200-S240,本申请实施例提供了声纹特征库的构建方法,目标人物对应的声纹特征正是在该声纹特征库中进行匹配,确定较为相似的音频片段,从而达到缩小侦查范围的效果。
在一些实施例中,本申请实施例中的基于声纹的目标识别方法还包括构建声纹信息库的步骤,参照图4,图4为本申请实施例提供的构建声纹信息库的步骤流程图,该方法包括但不限于步骤S400-S420:
S400、获取训练音频对应的音频信息;
具体地,上述步骤S200中已经说明训练音频的确定方式,在此不再赘述。由于训练音频实际上为时长达到或者超过第一时长的单人音频,因此可以确定训练音频对应的音频信息,该音频信息包括手机号码。
S410、对音频信息中的手机号码进行加密处理,确定加密文件名;
具体地,本步骤中的生成加密文件名的步骤具体可以用图5中的步骤来体现。参照图5,图5为本申请实施例提供的生成加密文件名的步骤流程图,该方法包括但不限于步骤S411-S415:
S411、对手机号码进行混淆处理,确定乱序号码;
具体地,在本步骤中,对手机号码进行混淆处理,该混淆处理主要是打乱手机号码中不同数字的位置,混淆处理的方法具体可以是将手机号码集体左移或者右移,又或者是固定位置的数字交换等等,本申请实施例不对混淆处理的具体方式作限制。本申请实施例想要说明的是,对手机号码进行混淆处理后,可以生成一串乱序号码。
S412、对手机号码进行加密处理,确定第一加密字符串;
具体地,在本步骤中,对手机号码进行MD5加密处理。MD5加密算法是单向不可逆加密算法,其特征是加密过程中不需要使用密钥,输入明文后由系统直接经过加密算法处理成密文,这种加密后的数据是无法被解密的,只有重新输入明文,并再次经过同样不可逆的加密算法处理,得到相同的加密密文并被系统重新识别后,才能真正解密。但是近些年来由于彩虹表(rainbow table)技术的出现,单靠MD5加密已经不够安全,因此本申请实施例通过步骤S411-S415提供新的加密方法,能够有效提高加密结果的安全性。
在一些实施例中,还会对本步骤中的第一加密字符串进行一次Base64加密,生成安全性更高的第一加密字符串。
S413、确定第一加密字符串中的指定片段为动态盐;
具体地,在本步骤中,将第一加密字符串中的指定片段作为动态盐,盐为一串随机字符串,在字符串中加入盐,能够有效隐藏字符串的有效信息,提高字符串的破解难度。
S414、根据乱序号码和动态盐,确定第二加密字符串;
具体地,在步骤S411生成的乱序号码中加入步骤S413中生成的动态盐,从而生成第二加密字符串。
S415、对第二加密字符串进行加密处理,生成指定长度的加密文件名;
具体地,对步骤S414生成的第二加密字符串进行MD5加密处理,生成32位长度的加密文件名,由于加入了动态盐,可以保证加密文件名的唯一性,生成加密文件名经过多次加密,能够有效提高加密文件名的安全性。
根据步骤S411-S415,本申请实施例提供了生成加密文件名的方法,通过混淆、加入动态盐和多次加密,有效地提高了加密文件名的安全性。步骤S410已经阐述完毕,下面开始阐述步骤S420。
S420、根据加密文件名和音频信息,确定声纹信息库。
具体地,根据音频信息和根据手机号码生成的加密文件名之间的对应关系,建立声纹信息库,当用户在查询接口输入加密文件名,可以反向查到音频信息,也就可以确定相似音频对应的手机号码,达到缩窄侦查范围,提高侦查效率的目的。
通过步骤S400-S420,本申请实施例提供了一种构建声纹信息库的方法,根据加密文件名,可以在声纹信息库中查询到对应的音频信息。
根据上述一个或多个实施例的结合,本申请实施例提供了一种基于声纹的目标人物识别方法,基于通信云平台获取大量的音频片段,筛选出长度达标的音频片段作为训练音频,帮助训练声纹识别模型,根据训练好的声纹识别模型,可以生成包含大量声纹特征的声纹特征库。同样的,根据训练音频对应的音频信息,对手机号码进行多重加密,生成指定长度的加密文件名。获取包含目标人物说话的待比对音频,并获取到对应的第一声纹特征,在声纹特征库中查找相似的声纹特征,确定若干条相似音频,并根据相似音频的加密文件名在声纹信息库中进行查找,确定相似音频对应的音频信息,该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法,侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码,从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。并且,由于音频文件都使用加密文件名,可以很方便地联动各个服务商,服务商提供音频文件的加密文件名,拥有权限的侦查部门则通过查询接口反向查询出音频信息,确定目标人物。
参照图6,图6为本申请实施例提供的基于声纹的目标人物识别系统的示意图,该系统600包括第一模块610、第二模块620和第三模块630;第一模块用于获取待比对音频对应的第一声纹特征;第二模块用于根据第一声纹特征和声纹特征库,确定若干相似音频;第三模块用于根据相似音频的加密文件名和声纹信息库,确定相似音频对应的音频信息;其中,音频信息包括相似音频对应的手机号码。
参考图7,图7为本申请实施例提供的装置的示意图,该装置700包括至少一个处理器710,还包括至少一个存储器720,用于存储至少一个程序;图7中以一个处理器及一个存储器为例。
处理器和存储器可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请的另一个实施例还提供了一种装置,该装置可用于执行如上任意实施例中的控制方法,例如,执行以上描述的图1中的方法步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本申请实施例还公开了一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,处理器可执行的程序在由处理器执行时用于实现本申请提出的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于声纹的目标人物识别方法,其特征在于,包括:
获取待比对音频对应的第一声纹特征;
根据所述第一声纹特征和声纹特征库,确定若干相似音频;
根据所述相似音频的加密文件名和声纹信息库,确定所述相似音频对应的音频信息;
其中,所述音频信息包括所述相似音频对应的手机号码。
2.根据权利要求1所述的基于声纹的目标人物识别方法,其特征在于,所述基于声纹的目标人物识别方法还包括所述声纹特征库的构建步骤,该步骤具体包括:
获取训练音频;
获取所述训练音频对应的语谱信息;
对所述语谱信息进行特征聚类,确定分类语谱信息;
对所述分类语谱信息进行图像识别,确定声纹体征;
根据若干所述声纹特征,确定所述声纹特征库。
3.根据权利要求2所述的基于声纹的目标人物识别方法,其特征在于,所述基于声纹的目标人物识别方法还包括所述训练音频的获取步骤,该步骤具体包括:
从通信云平台获取通话音频;
根据所述通话音频,确定对应单个手机号码的单人音频;
当所述单人音频的总时长大于等于预设的第一时长,确定所述单人音频为所述训练音频。
4.根据权利要求2所述的基于声纹的目标人物识别方法,其特征在于,所述对所述分类语谱信息进行图像识别,确定声纹体征,具体包括:
根据残差网络对所述分类语谱信息进行图像识别,确定所述声纹特征。
5.根据权利要求2所述的基于声纹的目标人物识别方法,其特征在于,所述基于声纹的目标人物识别方法还包括所述声纹信息库的构建步骤,该步骤具体包括:
获取所述训练音频对应的所述音频信息;
对所述音频信息中的手机号码进行加密处理,确定所述加密文件名;
根据所述加密文件名和所述音频信息,确定所述声纹信息库。
6.根据权利要求5所述的基于声纹的目标人物识别方法,其特征在于,所述对所述音频信息中的手机号码进行加密处理,确定所述加密文件名,包括:
对所述手机号码进行混淆处理,确定乱序号码;
对所述手机号码进行加密处理,确定第一加密字符串;
确定所述第一加密字符串中的指定片段为动态盐;
根据所述乱序号码和所述动态盐,确定第二加密字符串;
对所述第二加密字符串进行加密处理,生成指定长度的所述加密文件名。
7.根据权利要求6所述的基于声纹的目标人物识别方法,其特征在于,所述加密处理包括MD5加密处理,或者是,所述加密处理包括MD5加密处理和Base64加密处理。
8.一种基于声纹的目标人物识别系统,其特征在于,包括第一模块、第二模块和第三模块;
所述第一模块用于获取待比对音频对应的第一声纹特征;
所述第二模块用于根据所述第一声纹特征和声纹特征库,确定若干相似音频;
所述第三模块用于根据所述相似音频的加密文件名和声纹信息库,确定所述相似音频对应的音频信息;
其中,所述音频信息包括所述相似音频对应的手机号码。
9.一种装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的基于声纹的目标人物识别方法。
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-7任一项所述的基于声纹的目标人物识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022991.XA CN113948092B (zh) | 2021-09-01 | 2021-09-01 | 基于声纹的目标人物识别方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022991.XA CN113948092B (zh) | 2021-09-01 | 2021-09-01 | 基于声纹的目标人物识别方法、系统、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113948092A true CN113948092A (zh) | 2022-01-18 |
CN113948092B CN113948092B (zh) | 2024-08-02 |
Family
ID=79327789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111022991.XA Active CN113948092B (zh) | 2021-09-01 | 2021-09-01 | 基于声纹的目标人物识别方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113948092B (zh) |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010037652A (ko) * | 1999-10-19 | 2001-05-15 | 서주철 | 오디오 색인화 장치 및 그 방법과 그를 이용한 오디오 검색 시스템 및 그 방법 |
US6940954B1 (en) * | 2002-09-06 | 2005-09-06 | Cisco Technology, Inc. | Arrangement for retrieving recorded audio announcements from a messaging system for identification of a calling party |
DE102004013860A1 (de) * | 2004-03-16 | 2005-10-06 | Deutsche Telekom Ag | Vorrichtung und Verfahren zur Verschlüsselung von Informationen durch Sprachschlüssel |
US20080144827A1 (en) * | 2006-12-18 | 2008-06-19 | International Business Machines Corporation | Caller-identity based security |
CN101542477A (zh) * | 2006-04-07 | 2009-09-23 | 西门子通讯公司 | 使用语音-文本转换自动生成数字图像文件的文件名 |
JP2012095260A (ja) * | 2010-09-28 | 2012-05-17 | Oki Networks Co Ltd | 秘話通信システム、装置及びプログラム |
CN103700371A (zh) * | 2013-12-13 | 2014-04-02 | 江苏大学 | 一种基于声纹识别的来电身份识别系统及其识别方法 |
CN104469029A (zh) * | 2014-11-21 | 2015-03-25 | 科大讯飞股份有限公司 | 通过语音进行查号的方法及装置 |
CN104639770A (zh) * | 2014-12-25 | 2015-05-20 | 北京奇虎科技有限公司 | 基于移动终端的电话举报方法、装置和系统 |
CN106161749A (zh) * | 2015-04-13 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 一种恶意电话识别方法,及装置 |
CN106331293A (zh) * | 2015-06-29 | 2017-01-11 | 小米科技有限责任公司 | 来电信息处理方法及装置 |
CN107197463A (zh) * | 2017-07-10 | 2017-09-22 | 北京亿赛通网络安全技术有限公司 | 一种电话诈骗的检测方法、存储介质及电子设备 |
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
CN108347512A (zh) * | 2018-01-22 | 2018-07-31 | 维沃移动通信有限公司 | 一种身份识别方法及移动终端 |
CN109145148A (zh) * | 2017-06-28 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 信息处理方法和装置 |
CN109189981A (zh) * | 2018-09-14 | 2019-01-11 | Oppo广东移动通信有限公司 | 音频数据扫描方法、装置、存储介质及终端 |
CN110070872A (zh) * | 2019-04-22 | 2019-07-30 | 南京邮电大学 | 一种基于智能语音识别的物流填单方法 |
CN111046366A (zh) * | 2019-12-17 | 2020-04-21 | 佳讯飞鸿(北京)智能科技研究院有限公司 | 用户身份识别方法、装置和电子设备 |
CN111353065A (zh) * | 2018-12-20 | 2020-06-30 | 北京嘀嘀无限科技发展有限公司 | 语音档案存储方法、装置、设备以及计算机可读存储介质 |
CN111554302A (zh) * | 2020-03-31 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 基于声纹识别的策略调整方法、装置、终端及存储介质 |
CN111601310A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 基于声纹识别的通话加密方法、系统及移动终端 |
CN111739539A (zh) * | 2020-06-10 | 2020-10-02 | 北京小米松果电子有限公司 | 确定说话人数量的方法、装置及存储介质 |
CN112509586A (zh) * | 2020-12-17 | 2021-03-16 | 中国工商银行股份有限公司 | 电话信道声纹识别方法及装置 |
CN112738322A (zh) * | 2020-12-23 | 2021-04-30 | 平安普惠企业管理有限公司 | 通话处理方法、装置、计算机设备和存储介质 |
CN113160831A (zh) * | 2021-04-14 | 2021-07-23 | 浙江百应科技有限公司 | 一种基于声纹识别的外呼方法、装置及电子设备 |
-
2021
- 2021-09-01 CN CN202111022991.XA patent/CN113948092B/zh active Active
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010037652A (ko) * | 1999-10-19 | 2001-05-15 | 서주철 | 오디오 색인화 장치 및 그 방법과 그를 이용한 오디오 검색 시스템 및 그 방법 |
US6940954B1 (en) * | 2002-09-06 | 2005-09-06 | Cisco Technology, Inc. | Arrangement for retrieving recorded audio announcements from a messaging system for identification of a calling party |
DE102004013860A1 (de) * | 2004-03-16 | 2005-10-06 | Deutsche Telekom Ag | Vorrichtung und Verfahren zur Verschlüsselung von Informationen durch Sprachschlüssel |
CN101542477A (zh) * | 2006-04-07 | 2009-09-23 | 西门子通讯公司 | 使用语音-文本转换自动生成数字图像文件的文件名 |
US20080144827A1 (en) * | 2006-12-18 | 2008-06-19 | International Business Machines Corporation | Caller-identity based security |
JP2012095260A (ja) * | 2010-09-28 | 2012-05-17 | Oki Networks Co Ltd | 秘話通信システム、装置及びプログラム |
CN103700371A (zh) * | 2013-12-13 | 2014-04-02 | 江苏大学 | 一种基于声纹识别的来电身份识别系统及其识别方法 |
CN104469029A (zh) * | 2014-11-21 | 2015-03-25 | 科大讯飞股份有限公司 | 通过语音进行查号的方法及装置 |
CN104639770A (zh) * | 2014-12-25 | 2015-05-20 | 北京奇虎科技有限公司 | 基于移动终端的电话举报方法、装置和系统 |
CN106161749A (zh) * | 2015-04-13 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 一种恶意电话识别方法,及装置 |
CN106331293A (zh) * | 2015-06-29 | 2017-01-11 | 小米科技有限责任公司 | 来电信息处理方法及装置 |
CN109145148A (zh) * | 2017-06-28 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 信息处理方法和装置 |
CN107197463A (zh) * | 2017-07-10 | 2017-09-22 | 北京亿赛通网络安全技术有限公司 | 一种电话诈骗的检测方法、存储介质及电子设备 |
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
CN108347512A (zh) * | 2018-01-22 | 2018-07-31 | 维沃移动通信有限公司 | 一种身份识别方法及移动终端 |
CN109189981A (zh) * | 2018-09-14 | 2019-01-11 | Oppo广东移动通信有限公司 | 音频数据扫描方法、装置、存储介质及终端 |
CN111353065A (zh) * | 2018-12-20 | 2020-06-30 | 北京嘀嘀无限科技发展有限公司 | 语音档案存储方法、装置、设备以及计算机可读存储介质 |
CN110070872A (zh) * | 2019-04-22 | 2019-07-30 | 南京邮电大学 | 一种基于智能语音识别的物流填单方法 |
CN111046366A (zh) * | 2019-12-17 | 2020-04-21 | 佳讯飞鸿(北京)智能科技研究院有限公司 | 用户身份识别方法、装置和电子设备 |
CN111554302A (zh) * | 2020-03-31 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 基于声纹识别的策略调整方法、装置、终端及存储介质 |
CN111601310A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 基于声纹识别的通话加密方法、系统及移动终端 |
CN111739539A (zh) * | 2020-06-10 | 2020-10-02 | 北京小米松果电子有限公司 | 确定说话人数量的方法、装置及存储介质 |
CN112509586A (zh) * | 2020-12-17 | 2021-03-16 | 中国工商银行股份有限公司 | 电话信道声纹识别方法及装置 |
CN112738322A (zh) * | 2020-12-23 | 2021-04-30 | 平安普惠企业管理有限公司 | 通话处理方法、装置、计算机设备和存储介质 |
CN113160831A (zh) * | 2021-04-14 | 2021-07-23 | 浙江百应科技有限公司 | 一种基于声纹识别的外呼方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
张慧珊: "基于声纹识别和动态密码的双因素身份认证系统的研究与实现", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 December 2013 (2013-12-15), pages 136 - 502 * |
李想: "毒品犯罪侦查中微信电子证据关联性认定研究", 中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑, 15 July 2019 (2019-07-15), pages 120 - 288 * |
Also Published As
Publication number | Publication date |
---|---|
CN113948092B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748463B2 (en) | Fraud detection in interactive voice response systems | |
US20080159146A1 (en) | Network monitoring | |
AU2017305245A1 (en) | Call classification through analysis of DTMF events | |
US9152706B1 (en) | Anonymous identification tokens | |
EP1902442A2 (en) | Selective security masking within recorded speech utilizing speech recognition techniques | |
CN1783782A (zh) | 通过将说话者验证和反向调整测试相结合的用户认证 | |
CN112416730A (zh) | 一种用户上网行为分析方法、装置、电子设备及存储介质 | |
US8577680B2 (en) | Monitoring and logging voice traffic on data network | |
CN105659324A (zh) | 协作音频对话证明 | |
Hosein et al. | Modern safeguards for modern surveillance: An analysis of innovations in communications surveillance techniques | |
US8483672B2 (en) | System and method for selective monitoring of mobile communication terminals based on speech key-phrases | |
Ouda | A framework for next generation user authentication | |
US10079933B2 (en) | System and method for user-privacy-aware communication monitoring and analysis | |
CN112970061A (zh) | 基于策略许可的内容 | |
Riadi et al. | Live forensics analysis of line app on proprietary operating system | |
Vittori | Ultimate password: is voice the best biometric to beat hackers? | |
Strobl et al. | An efficient search method for the content-based identification of telephone-SPAM | |
Rawtani et al. | Modern forensic tools and devices: Trends in criminal investigation | |
CN113948092B (zh) | 基于声纹的目标人物识别方法、系统、装置及存储介质 | |
CN108540471B (zh) | 移动应用网络流量聚类方法、计算机可读存储介质和终端 | |
Elshamy et al. | Secure VoIP System Based on Biometric Voice Authentication and Nested Digital Cryptosystem using Chaotic Baker's map and Arnold's Cat Map Encryption | |
CN108667685B (zh) | 移动应用网络流量聚类装置 | |
CN110808978A (zh) | 实名认证方法以及装置 | |
CN112837690B (zh) | 一种音频数据生成方法、音频数据转写方法及其装置 | |
Shanjun et al. | Research on fast forensic analysis method of fraud cases based on social software |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |