CN114745720A - 变声型诈骗电话检测方法及装置 - Google Patents

变声型诈骗电话检测方法及装置 Download PDF

Info

Publication number
CN114745720A
CN114745720A CN202210287790.0A CN202210287790A CN114745720A CN 114745720 A CN114745720 A CN 114745720A CN 202210287790 A CN202210287790 A CN 202210287790A CN 114745720 A CN114745720 A CN 114745720A
Authority
CN
China
Prior art keywords
voice
acoustic
fraud
call
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210287790.0A
Other languages
English (en)
Inventor
李邵梅
高超
黄瑞阳
朱宇航
王凯
李星
李英乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202210287790.0A priority Critical patent/CN114745720A/zh
Publication of CN114745720A publication Critical patent/CN114745720A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明属于通信网内容安全检测技术领域,具体涉及一种变声型诈骗电话检测方法及装置,该方法包括:对于电信网中的通话,首先提取每个呼叫的前几秒有效语音的声学特征,得到声学特征图;然后将声学特征图送入虚假语音检测模型中进行判决,对于虚假语音检测模型检测出的利用变声软件发起的疑似诈骗呼叫,再提交给人工进行审核。本发明在检测过程中,不接触通话的具体内容,既不受诈骗分子更换话术内容的困扰,又能有效保护用户的通信隐私。

Description

变声型诈骗电话检测方法及装置
技术领域
本发明属于通信网内容安全检测技术领域,具体涉及一种变声型诈骗电话检测方法及装置。
背景技术
近年来,随着通信产业的迅猛发展,以电信网络诈骗为代表的网络诈骗成为危害人民群众财产安全的突出问题。为了实施诈骗,诈骗分子不断翻新手法,隐藏身份,更换话术剧本。随着以深度学习为代表的人工智能技术的发展,音频伪造生成技术不断成熟,基于合成和转换等技术生成的伪造语音的自然度和逼真度不断提升,已成为网络诈骗分子工具。在网络诈骗中,为了迷惑受害者,诈骗分子通常利用手机变声软件一人分饰多个角色,取得受害人的信任,进而达到骗取钱财的目的。
从电信网海量呼叫中快速检测定位这些诈骗呼叫对于维护公民财产安全和国家安全稳定具有重要的意义。但是为了逃避基于名单的检测方法,诈骗分子通常会频繁更换号码;为了逃避基于内容的检测方法,诈骗分子通常会频繁地更换话术剧本。所以,挖掘号码和通话内容之外,这些诈骗呼叫更本质的特征对于诈骗电话的监管具有重要的意义。
发明内容
针对利用变声软件发起的诈骗呼叫,本发明提出一种变声型诈骗电话检测方法及装置,不接触通话的具体内容,既不受诈骗分子更换话术内容的困扰,又能有效保护用户的通信隐私。
为解决上述技术问题,本发明采用以下的技术方案:
本发明提供了一种变声型诈骗电话检测方法,包括:
对于电信网中的通话,首先提取每个呼叫的前几秒有效语音的声学特征,得到声学特征图;然后将声学特征图送入虚假语音检测模型中进行判决,对于虚假语音检测模型检测出的利用变声软件发起的疑似诈骗呼叫,再提交给人工进行审核。
进一步地,所述声学特征采用美尔频率倒谱系数或者短时傅里叶变换对数幅度。
进一步地,所述声学特征的提取过程如下:
电信网中语音的采样率是每秒8000个点,以256个采样点即32ms的语音为一帧,帧与帧之间有16ms的重叠,对于每个呼叫,采集主叫前4秒的语音内容进行处理,提取(4000-32)/16+1=249帧的声学特征参数;
美尔滤波器组中将语音在美尔频率上的分布划分成24个子带,即每帧语音经过美尔滤波器过滤后会得到24维的美尔频率倒谱系数。
进一步地,对24维的美尔频率倒谱系数进行一阶和二阶差分,每帧语音得到72维的美尔频率倒谱系数;那么对于每个呼叫,得到249帧72维的声学特征参数。
进一步地,用矩阵的形式把声学特征有序地组织起来,作为每个呼叫的声学特征图。
进一步地,所述虚假语音检测模型为SVM分类模型、GMM分类模型或者深度神经网络模型。
进一步地,所述深度神经网络模型采用CNN检测模型,所述CNN检测模型包括输入层、卷积层、池化层、全连接层和输出层。
进一步地,所述输入层的尺寸为249*72;所述卷积层有3个5*5的卷积核,卷积时宽的步长是2,高的步长是1,填充的大小是1;所述池化层以2*2为单元,采用最大池化机制;所述输出层采用基于softmax的二分类输出。
进一步地,所述CNN检测模型的训练过程如下:首先基于公开数据集中大量带标签的真实语音和虚假语音进行预训练,然后从电信网上采集少量的真实呼叫语音和利用变声软件发起的呼叫语音,人工进行标注后,再送入预训练模型中进行微调。
本发明还提供了一种变声型诈骗电话检测装置,包括:
声学特征图提取模块,用于提取每个呼叫的前几秒有效语音的声学特征,得到声学特征图;
虚假语音检测模型判决模块,用于将声学特征图送入虚假语音检测模型中进行判决;
人工审核模块,用于对于虚假语音检测模型检测出的利用变声软件发起的疑似诈骗呼叫,再提交给人工进行审核。
与现有技术相比,本发明具有以下优点:
本发明的变声型诈骗电话检测方法,对于电信网中的海量呼叫,逐个采用虚假语音检测技术对其通话语音进行判别,首先提取每个通话的声学特征,得到声学特征图,再采用虚假语音检测模型对其进行判决,被判为虚假语音的呼叫提交给人工进行进一步审核,在该检测过程中,不接触通话的具体内容,既不受诈骗分子更换话术内容的困扰,又能有效保护用户的通信隐私。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的变声型诈骗电话检测方法的流程示意图;
图2是本发明实施例的声学特征采用美尔频率倒谱系数的提取流程图;
图3是本发明实施例的每个通话的美尔频率倒谱系数组成的声学特征图;
图4是本发明实施例的CNN检测模块的结构图;
图5是本发明实施例的变声型诈骗电话检测装置的结构框图,51表示声学特征图提取模块,52表示虚假语音检测模型判决模块,53表示人工审核模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例的变声型诈骗电话检测方法,包含以下步骤:
步骤S11,对于电信网中的通话,提取每个呼叫的前几秒有效语音的声学特征,得到声学特征图。
步骤S12,将声学特征图送入事先训练好的虚假语音检测模型中进行判决。
步骤S13,对于虚假语音检测模型检测出的利用变声软件发起的疑似诈骗呼叫,再提交给人工进行审核。
为了兼顾检测的精度和效率,基于多次实验的结果,对于每个呼叫,我们只取前4秒的有效语音进行检测。
作为优选的,所述声学特征可以采用Mel-Frequency Cepstral Coefficients(MFCCs,美尔频率倒谱系数),或者the Logarithmic Magnitude of Short-Time FourierTransform(log-magnitude STFT,短时傅里叶变换对数幅度)等语音信号处理领域的声学参数。
以声学特征采用MFCCs为例,声学特征的提取过程如下:
如图2所示,图中的分帧过程是将一段连续的语音切分成多个小段来分别进行后续的处理,每个小段称之为一帧。电信网中语音的采样率是每秒8000个点,根据应用经验,以256个采样点即32ms的语音为一帧,按照语音信号处理的惯例,帧与帧之间有16ms的重叠,对于每个呼叫,采集主叫前4秒的语音内容进行处理,那么对于每个呼叫,可以提取(4000-32)/16+1=249帧的声学特征参数。
另外,针对电话信道的语音,美尔滤波器组中将语音在美尔频率上的分布划分成24个子带,即每帧语音经过美尔滤波器过滤后会得到24维的美尔频率倒谱系数。为了提高声学特征刻画的精度,对初始的24维美尔频率倒谱系数再进行一阶和二阶差分,最终每帧语音得到72维的美尔频率倒谱系数(MFCCs);那么对于每个呼叫,得到249帧72维的声学特征参数,用矩阵的形式把这些声学特征有序地组织起来,可以作为每个呼叫的声学特征图(如图3所示)。
所述虚假语音检测模型是一个二分类模型,可以用SVM(Support VectorMachine,支持向量机)、GMM(Gaussian Mixed Mode,高斯混合模型)等传统的分类模型,也可以用深度神经网络模型。在本实例中,所述虚假语音检测模型采用CNN(ConvolutionalNeural Networks,卷积神经网络)检测模型,把从每个呼叫语音提取出的声学特征转换成图的形式,然后利用CNN检测模型进行分类。
如图4所示,所述CNN检测模型包括输入层、卷积层、池化层、全连接层和输出层;输入层的尺寸为249*72,卷积层有3个5*5的卷积核,卷积时宽的步长是2,高的步长是1,填充的大小是1,那么经过卷积后:
特征图的宽度为:(249-5+2*1)/2+1=124;
特征图的高度为:(72-5+2*1)/1+1=70;
卷积层的输出维度为:124*70*3=26040;
池化层以2*2为单元,采用最大池化机制,经过池化层后的输出维度为62*35*3=6510。全连接层的输入维度为6510,输出维度为1024,输出层采用基于softmax的二分类输出。
具体的,CNN检测模型的训练过程如下:
首先采用ASVspoof2019竞赛中LA部分的训练数据,按照如图2和图3所示的过程提取声学特征图对CNN检测模型进行预训练,训练时,采用随机梯度下降的模型参数求解法,训练的批次大小batch_size=32,轮次epcho为300,得到可用于虚假语音检测的预训练模型;然后再采集部分通信网中正常呼叫的主叫语音和利用变声软件的虚假语音,人工进行标注后,同样提取声学特征图送入上述预训练模型中进行微调,微调的数据批次大小为32,轮次epcho为50,得到可用于虚假语音检测的CNN检测模型。
与上述变声型诈骗电话检测方法相应地,如图5所示,本实施例还提供一种变声型诈骗电话检测装置,包括:
声学特征图提取模块51,用于提取每个呼叫的前几秒有效语音的声学特征,得到声学特征图。
虚假语音检测模型判决模块52,用于将声学特征图送入虚假语音检测模型中进行判决。
人工审核模块53,用于对于虚假语音检测模型检测出的利用变声软件发起的疑似诈骗呼叫,再提交给人工进行审核。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种变声型诈骗电话检测方法,其特征在于,包括:
对于电信网中的通话,首先提取每个呼叫的前几秒有效语音的声学特征,得到声学特征图;然后将声学特征图送入虚假语音检测模型中进行判决,对于虚假语音检测模型检测出的利用变声软件发起的疑似诈骗呼叫,再提交给人工进行审核。
2.根据权利要求1所述的变声型诈骗电话检测方法,其特征在于,所述声学特征采用美尔频率倒谱系数或者短时傅里叶变换对数幅度。
3.根据权利要求2所述的变声型诈骗电话检测方法,其特征在于,所述声学特征的提取过程如下:
电信网中语音的采样率是每秒8000个点,以256个采样点即32ms的语音为一帧,帧与帧之间有16ms的重叠,对于每个呼叫,采集主叫前4秒的语音内容进行处理,提取(4000-32)/16+1=249帧的声学特征参数;
美尔滤波器组中将语音在美尔频率上的分布划分成24个子带,即每帧语音经过美尔滤波器过滤后会得到24维的美尔频率倒谱系数。
4.根据权利要求3所述的变声型诈骗电话检测方法,其特征在于,对24维的美尔频率倒谱系数进行一阶和二阶差分,每帧语音得到72维的美尔频率倒谱系数;那么对于每个呼叫,得到249帧72维的声学特征参数。
5.根据权利要求4所述的变声型诈骗电话检测方法,其特征在于,用矩阵的形式把声学特征有序地组织起来,作为每个呼叫的声学特征图。
6.根据权利要求1所述的变声型诈骗电话检测方法,其特征在于,所述虚假语音检测模型为SVM分类模型、GMM分类模型或者深度神经网络模型。
7.根据权利要求6所述的变声型诈骗电话检测方法,其特征在于,所述深度神经网络模型采用CNN检测模型,所述CNN检测模型包括输入层、卷积层、池化层、全连接层和输出层。
8.根据权利要求7所述的变声型诈骗电话检测方法,其特征在于,所述输入层的尺寸为249*72;所述卷积层有3个5*5的卷积核,卷积时宽的步长是2,高的步长是1,填充的大小是1;所述池化层以2*2为单元,采用最大池化机制;所述输出层采用基于softmax的二分类输出。
9.根据权利要求7所述的变声型诈骗电话检测方法,其特征在于,所述CNN检测模型的训练过程如下:首先基于公开数据集中大量带标签的真实语音和虚假语音进行预训练,然后从电信网上采集少量的真实呼叫语音和利用变声软件发起的呼叫语音,人工进行标注后,再送入预训练模型中进行微调。
10.一种变声型诈骗电话检测装置,其特征在于,包括:
声学特征图提取模块,用于提取每个呼叫的前几秒有效语音的声学特征,得到声学特征图;
虚假语音检测模型判决模块,用于将声学特征图送入虚假语音检测模型中进行判决;
人工审核模块,用于对于虚假语音检测模型检测出的利用变声软件发起的疑似诈骗呼叫,再提交给人工进行审核。
CN202210287790.0A 2022-03-23 2022-03-23 变声型诈骗电话检测方法及装置 Pending CN114745720A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210287790.0A CN114745720A (zh) 2022-03-23 2022-03-23 变声型诈骗电话检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210287790.0A CN114745720A (zh) 2022-03-23 2022-03-23 变声型诈骗电话检测方法及装置

Publications (1)

Publication Number Publication Date
CN114745720A true CN114745720A (zh) 2022-07-12

Family

ID=82276704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210287790.0A Pending CN114745720A (zh) 2022-03-23 2022-03-23 变声型诈骗电话检测方法及装置

Country Status (1)

Country Link
CN (1) CN114745720A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971658A (zh) * 2022-07-29 2022-08-30 四川安洵信息技术有限公司 一种反诈宣传方法、系统、电子设备以及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971658A (zh) * 2022-07-29 2022-08-30 四川安洵信息技术有限公司 一种反诈宣传方法、系统、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
US11488605B2 (en) Method and apparatus for detecting spoofing conditions
CN104469025B (zh) 一种基于聚类算法的实时拦截诈骗电话的方法和系统
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
AU2013240453B2 (en) System and method for fingerprinting datasets
JP2023511104A (ja) ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
Bala et al. Voice command recognition system based on MFCC and DTW
CN104168353B (zh) 蓝牙耳机及其语音交互控制方法
CN110149441A (zh) 骚扰电话拦截方法、装置、设备及存储介质
CN102231277A (zh) 基于声纹识别的移动终端隐私保护方法
CN109036382A (zh) 一种基于kl散度的音频特征提取方法
CN103971700A (zh) 语音监控方法及装置
CN104410973B (zh) 一种播放录音的诈骗电话识别方法和系统
CN110349586A (zh) 电信诈骗检测方法及装置
CN111508524B (zh) 语音来源设备的识别方法和系统
CN110111814A (zh) 网络类型识别方法及装置
CN110517697A (zh) 用于交互式语音应答的提示音智能打断装置
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
Ayoub et al. Gammatone frequency cepstral coefficients for speaker identification over VoIP networks
CN114745720A (zh) 变声型诈骗电话检测方法及装置
CN115841821A (zh) 一种基于人类语音结构的语音干扰噪声设计方法
Murugaiya et al. Probability enhanced entropy (PEE) novel feature for improved bird sound classification
CN113191787A (zh) 电信数据的处理方法、装置电子设备及存储介质
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
KR100463706B1 (ko) 유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination