CN107547718A - 基于深度学习的电信诈骗识别与防御系统 - Google Patents
基于深度学习的电信诈骗识别与防御系统 Download PDFInfo
- Publication number
- CN107547718A CN107547718A CN201710721594.9A CN201710721594A CN107547718A CN 107547718 A CN107547718 A CN 107547718A CN 201710721594 A CN201710721594 A CN 201710721594A CN 107547718 A CN107547718 A CN 107547718A
- Authority
- CN
- China
- Prior art keywords
- telecommunication fraud
- module
- content
- call
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明公开了一种基于深度学习的电信诈骗识别与防御系统;其包括移动端,语音听写接口和服务器端;移动端具体包括来电监听模块、语音识别模块、第一数据加密模块及业务处理模块,服务器端具体包括深度学习模块、贝叶斯文本分类器模块、第二数据加密模块及JavaWeb整合模块。本发明将深度学习技术与国密算法相结合,有效地解决了目前国内外防电信诈骗系统在诈骗电话簿更新上的滞后问题与利用语音识别所可能引发的个人信息安全问题,同时将电信诈骗的置信度作为电信诈骗识别结果,与电信诈骗套路内容及电信诈骗解决方案以三段式内容的方式进行呈现,为用户提供了全方位的提醒与协助。
Description
技术领域
本发明属于机器学习技术领域,尤其涉及一种基于深度学习的电信诈骗识别与防御系统。
背景技术
调查显示,截至2016年第二季度我国智能手机用户已达6.31亿人,并且该数量还在增长;同时,由于我国手机用户普遍缺乏防诈骗意识,以及相关防护系统的不完善,导致有很大一部分的手机用户都经历过电信诈骗。数据显示,在2016年有43.2%的手机用户遭遇过电信诈骗,其中受骗金额2000元以上的占了34.2%。电信诈骗不仅对受骗个体造成了经济上的损失、精神上的伤害,更为严重的是它造成了社会上的信任危机,降低了部分国家机构的公信力与效率,在社会上造成的恶劣影响。电信诈骗问题亟待解决。
诈骗分子犯罪方式新趋势:
①产业链化、团伙作案
犯罪份子往往拉帮结派,分工明确,随着犯罪手段的不断变化,现已演化为相互合作又相互独立的产业链。
②异地作案、难以追捕
诈骗分子往往不在本地诈骗,而是各处乱窜,甚至在异国他乡作案。诈骗分子正是利用自己的作案窝点在国外,国内部门鞭长莫及的特点,企图侥幸逃脱法律的制裁。
③高科技、高学历化
如今骗子也在“与时俱进”,利用木马程序、或开发高度模仿正规网站的虚假网页来窃取账号和密码。这些骗术需要掌握金融机构转账技巧、制作网页和破解密码技术,没有一定文化层次很难达到,电信诈骗愈发“高智商”、“高科技”。
这些趋势使得人们更难分别诈骗团伙的骗局了。
为了充分了解目前市场上电信诈骗防御功能app的局限性以及研究我们产品的创新性,我们对市场上具有类似功能的app做了充分调研。
目前,智能手机防电信诈骗系统可粗略地分为两大类。第一类为来电显示名片,第二类为手机管家。
第一类:来电名片显示。目前国内外市场主要的防电信诈骗系统有Whoscall、小熊来电、Whoscall Card个人化电话名片等。这类产品都是基于已有的庞大电话簿,将未知来电与现有电话簿进行匹配,从而得出该电话的安全性。有些系统还提供了云端社群电话簿,这是一种基于用户自己识别,自己将诈骗号码信息上传到云端的社群电话识别技术。然而,这两种方法已不再适合目前社会上基于VoIP的电信诈骗手段,相对诈骗电话号码的大量生成而言上述系统显得十分被动。
第二类:手机管家。目前国内的手机管家如腾讯手机管家、360手机卫士、百度手机卫士等同样是基于全球的诈骗号码库对未知来电进行识别拦截。
综上,总结国内外各大此类app,都是基于已标记的诈骗号码做出判断。真正的核心反倒是依托于大量的公共诈骗号码的数据,采用此种方法,有两大局限性。其一:若此类安全软件后台数据库更新不及时,那么很可能出现诈骗号码未被标记的情况,对用户形成安全隐患。其二:现在,诈骗团伙的技术手段越来越先进,高技术的诈骗团伙可以不断的生成的新的诈骗号码和新的归属地,这无疑会给此类通过电话号码标记的技术带来巨大的挑战。
发明内容
本发明的发明目的是:为了解决以上问题,本发明提出了一种基于深度学习的电信诈骗识别与防御系统,以期解决目前国内外防电信诈骗系统在诈骗电话簿更新上的滞后问题与利用语音识别所可能引发的个人信息安全问题。
本发明的技术方案是:一种基于深度学习的电信诈骗识别与防御系统,包括:
移动端,用于检测通话内容中的异常信息,根据检测结果生成异常告警并选择性的进行通话录音;调用语音听写接口对通话录音信息进行识别生成通话文本内容,将通话文本内容进行加密后发送至服务器端;接收服务器端返回的电信诈骗识别结果、电信诈骗套路内容及电信诈骗解决方案并进行显示;
语音听写接口,用于对通话录音信息进行识别生成通话文本内容;
服务器端,用于接收所述移动端发送的通话文本内容;采用深度学习方法对通话文本内容进行多分类处理,得到电信诈骗的置信度;训练贝叶斯文本分类器对通话文本内容进行分类,得到与分类结果对应的电信诈骗套路内容及电信诈骗解决方案;将电信诈骗的置信度作为电信诈骗识别结果,与电信诈骗套路内容及电信诈骗解决方案进行整合和加密后返回至所述移动端。
进一步地,所述移动端还包括检测设定时间内与通话文本内容相关联的短信内容,并将通话文本内容短信内容进行整合和加密后发送至服务器端。
进一步地,所述服务器端采用深度学习方法对通话文本内容进行多分类处理,得到电信诈骗的置信度,具体为:设定文章矩阵转换规则,将通话文本内容转换为二维文章矩阵;采用卷积神经网络文本分类模型将文章矩阵中每个分量作为一个像素进行多分类处理,得到电信诈骗的置信度。
进一步地,所述文章矩阵转换规则具体为:
采用Word2vec工具训练得到每个单词的n维的词向量,文章矩阵的大小为m×n,判断文章数据清洗之后的单词数wordnum与文章矩阵行数m的大小;
若wordnum<m,则采用(m-wordnum)×n个0元素构造一个文章矩阵,并将构造的文章矩阵与原文章矩阵归为同一类;
若wordnum>m且wordnum%m≠0,则构造个文章矩阵,最后一个文章矩阵由wordlist[wordnum-m:wordnum]中的单词的词向量构成,并将构造的文章矩阵与原文章矩阵归为同一类;
若wordnum>m且wordnum%m=0,则构造个文章矩阵,并将构造的文章矩阵与原文章矩阵归为同一类。
进一步地,所述卷积神经网络文本分类模型包括卷积层、子采样层和全连接层;
所述卷积层设定当前层为第i层,第i-1层有N个特征图作为输入,卷积核大小为Kx×Ky,计算第i层卷积层的第j个卷积核的输出表示为
其中, 为对应于该相应卷积核的偏置,φ(x)为非线性函数,valid为卷积边界处理模式参数,为第i层卷积层的第j个卷积核的大小,conv2(·)函数封装了卷积操作;
所述子采样层采用max-pooling的池化方式,定义基于max-pooling的下采样函数down(·),设定窗口移动的步数和池化窗口大小,计算第l-1层的每个特征图经过子采样处理后的输出,表示为
其中,为与池化操作对应的乘性偏置;
所述全连接层对特征图S1,S2,···,Sj,设定每个特征图的大小为p×q,得到光栅化后得到的向量表示为
其中,tjpq为第j个特征图中p×q元素;
采用softmax回归对特征图进行多分类处理,函数hθ(xi)表示为
其中,θ1,θ2,···,θk均为模型参数,为对概率分布进行归一化,所有概率和为1。
进一步地,所述训练贝叶斯文本分类器对通话文本内容进行分类,具体为:采用jieba分词库对通话文本内容进行分词处理,并去除停用词,再采用TF-IDF方法提取特征,建立基于TF-IDF提取特征的贝叶斯文本分类模型,表示为
log(hnb(T))=argmaxc∈γ(log(P(c))+∑i=lnlog(P(ti|c)))
其中,P(c)=|Dc||D|,P(ti|c)=|Dc,ti||Dc|,|D|为训练语料库中包含的文档总数,|Dc|为训练语料库中类别c包含的文档总数,|Dc,ti|为训练语料库的类别c中含有的特征词ti的文档总数,T为样本属性集,hnb(T)为基于样本属性集T的贝叶斯分类器,γ为类别集合。
进一步地,所述移动端具体包括来电监听模块、语音识别模块、第一数据加密模块及业务处理模块;
所述来电监听模块用于监听来电状态,提示用户选择是否进行录音操作;
所述语音识别模块调用语音听写接口对通话录音信息进行识别生成通话文本内容;
所述第一数据加密模块用于采用国密算法对通话文本内容进行加密处理;
所述业务处理模块用于实现所述移动端的逻辑控制和功能操作。
进一步地,所述服务器端具体包括深度学习模块、贝叶斯文本分类器模块、第二数据加密模块及JavaWeb整合模块;
所述深度学习模块用于采用卷积神经网络模型对通话文本内容进行多分类处理,得到电信诈骗的置信度;
所述贝叶斯文本分类器模块用于采用基于TF-IDF特征提取的贝叶斯文本分类器对通话文本内容进行分类,得到与分类结果对应的电信诈骗套路内容及电信诈骗解决方案;
所述第二数据加密模块用于采用国密算法对电信诈骗识别结果、电信诈骗套路内容及电信诈骗解决方案进行加密处理;
所述JavaWeb整合模块用于协调服务器端各个模块的协同运行和信息传输。
本发明的有益效果是:本发明通过对通话内容进行识别,并采用深度学习方法和贝叶斯文本分类器对通话文本内容进行分析,将深度学习技术与国密算法相结合,有效地解决了目前国内外防电信诈骗系统在诈骗电话簿更新上的滞后问题与利用语音识别所可能引发的个人信息安全问题,同时将电信诈骗的置信度作为电信诈骗识别结果,与电信诈骗套路内容及电信诈骗解决方案以三段式内容的方式进行呈现,为用户提供了全方位的提醒与协助。
附图说明
图1是本发明的基于深度学习的电信诈骗识别与防御系统结构示意图。
图2是本发明中文章矩阵的结构示意图。
图3是本发明中将文章矩阵的处理与图像像素矩阵的处理进行类比的示意图。
图4是本发明中对称加密算法AES的CBC加密模式原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明的基于深度学习的电信诈骗识别与防御系统结构示意图。一种基于深度学习的电信诈骗识别与防御系统,包括:
移动端,用于检测通话内容中的异常信息,根据检测结果生成异常告警并选择性的进行通话录音;调用语音听写接口对通话录音信息进行识别生成通话文本内容,将通话文本内容进行加密后发送至服务器端;接收服务器端返回的电信诈骗识别结果、电信诈骗套路内容及电信诈骗解决方案并进行显示;
语音听写接口,用于对通话录音信息进行识别生成通话文本内容;
服务器端,用于接收所述移动端发送的通话文本内容;采用深度学习方法对通话文本内容进行多分类处理,得到电信诈骗的置信度;训练贝叶斯文本分类器对通话文本内容进行分类,得到与分类结果对应的电信诈骗套路内容及电信诈骗解决方案;将电信诈骗的置信度作为电信诈骗识别结果,与电信诈骗套路内容及电信诈骗解决方案进行整合和加密后返回至所述移动端。
本发明的移动端的模块组成具体包括来电监听模块、语音识别模块、语音听写模块、第一数据加密模块及业务处理模块。
来电监听模块用于对来电状态进行监听,其采用静态注册广播的方式,获取电话状态广播,并判断是接电话,在响铃时弹出录音与否的对话框,在确认后开启语音识别服务服务,在电话挂断时停止录音,结束语音识别服务。该功能实现的过程为:
首先,编写一个MyService类继承自Service类,并且重写Service类中的onCreate(),onDestroy()等方法用于实现监听电话的服务。编写一个类继承自PhoneStateListener类并且重写onCallStateChanged方法用于监听电话的状态;
并且配合TelephonyManager类中的三个电话状态:TelephonyManager.CALL_STATE_IDLE(空闲)、TelephonyManager.CALL_STATE_OFFHOOK(摘机)和TelephonyManager.CALL_STATE_RINGING(来电响铃)来实现对电话状态的分析;
其次,在AndroidManifest.xml文件中的<application>节点里对服务进行配置:<serviceandroid:name=".SMSService"/>实现该服务的注册,并且添加读取电话的权限。
最后,通过广播接收者实现Service自启动。
由于android6.0系统的录音源(VOICE_CALL)之后不再支持第三方应用录音,没有API直接支持对于电话的双向录音,所以为了实现我们的功能。我们采用了VOICE_MIC对MIC进行录音。创建一个android.media.MediaRecorder的实例,使用useMediaRecorder.AudioSource.MIC设置音频源为麦克风,监听当前的电话状态,如果处于接通的状态便启动监听器listener来实现对通话内容的录制。
语音识别模块用于调用语音听写接口对通话录音信息进行识别生成通话文本内容。此外,语音识别模块还包括检测设定时间内与通话文本内容相关联的短信内容,并将短信内容发送至第一数据加密模块与通话文本内容短信内容进行整合和加密后发送至服务器端。
第一数据加密模块用于将通话文本内容进行加密;安卓使用的数据加密API主要由Java Cryptography Architecture(JCA,java加密体系结构),Java CryptographyExtension(JCE,Java加密扩展包),Java Secure Sockets Extension(JSSE,Java安全套接字扩展包),JavaAuthentication and Authentication Service(JAAS,Java鉴别与安全服务)组成。如图4所示,为本发明中对称加密算法AES的CBC加密模式原理示意图。本发明为了实现移动端与服务器端之间的数据传输加密使用了非对称加密传输密钥,然后再对称加密传输数据,这里采用的是对称加密算法AES的CBC加密模式来进行加密。这种加密方式不容易主动攻击,安全性好于ECB,适合传输长度长的报文,符合SSL、IPSec的标准。同时,为了保护用户的个人通话信息的安全性,我们采用了国密算法对通信进行加密,保证了用户的信息安全。
业务处理模块用于实现整个移动端的逻辑控制和功能操作。
语音听写接口用于将来电监听模块得到的通话录音信息进行识别生成通话文本内容,该功能的实现可以直接采用科大讯飞接口,科大讯飞接口提供了两种调用方式,分别是在线的“语音听写接口”和离线的“语音听写SDK”,调用方法如下:
(1)首先到科大讯飞官网注册账号(http://open.voicecloud.cn/),并创建应用获取appid,下载sdk文件。
(2)在项目添加要用的类库。包括讯飞语音的类库iflyMSC,在下载的sdk文件里有,导入即可。导入的时候要注意把iflyMSC类库拷贝到工程目录里。
(3)导完类库之后,在建好的工程里添加好要用的头文件。
(4)语音识别返回的结果是json数据格式的。需要进行Json数据解析的工作,经解析后通过遍历把分割的识别内容拼接起来,最后组合成一句完整的话即可。
通过将用户对话的语音信息转换成文本,使得将电信诈骗的识别判定问题变成在自然语言处理领域中的文本的二分类问题。
本发明的服务器端的模块组成深度学习模块、贝叶斯文本分类器模块、第二数据加密模块及JavaWeb整合模块。
深度学习模块采用卷积神经网络模型对通话文本内容进行多分类处理,得到电信诈骗的置信度,具体为:设定文章矩阵转换规则,将通话文本内容转换为二维文章矩阵;采用卷积神经网络文本分类模型将文章矩阵中每个分量作为一个像素进行多分类处理,得到电信诈骗的置信度。
如图2所示,为本发明中文章矩阵的结构示意图。本发明将文章转换成二维的文章矩阵Tm×n从而作为CNN的输入,使用word2vec模型来训练词向量,并且采用二维的卷积核来对处理文本。本发明首先使用Word2vec工具训练得到每个单词的n维的词向量,从而把对文本内容的处理简化为n维向量空间中的向量运算;为了能适应卷积神经网络模型,确保输入的文章矩阵始终为m×n大小,设定文章矩阵转换规则,具体为:
若wordnum<m,则采用(m-wordnum)×n个0元素构造一个文章矩阵,并将构造的文章矩阵与原文章矩阵归为同一类;
若wordnum>m且wordnum%m≠0,则构造个文章矩阵,最后一个文章矩阵由wordlist[wordnum-m:wordnum]中的单词的词向量构成,并将构造的文章矩阵与原文章矩阵归为同一类;
若wordnum>m且wordnum%m=0,则构造个文章矩阵,并将构造的文章矩阵与原文章矩阵归为同一类。
如图3所示,为本发明中将文章矩阵的处理与图像像素矩阵的处理进行类比的示意图。根据转化规则可以得到所有通话文本内容各自的文章矩阵Tm×n,每个文章矩阵Tm×n都按照原文保留了各个单词的相对位置。与直接将每个单词视为一个像素的预处理方式不同的是,本系统使用的卷积神经网络文本处理模型将每个词向量的每个分量也就是矩阵的每个分量看作是一个像素,从而使得卷积神经网络可以像处理普通图片一样处理文本,最后得到文章的分类结果。这里的卷积神经网络文本分类模型包括卷积层、子采样层和全连接层;
所述卷积层设定当前层为第i层,第i-1层有N个特征图作为输入,卷积核大小为Kx×Ky(通常x=y,表示卷积核为方阵),计算第i层卷积层的第j个卷积核的输出Feature表示为
其中, 为对应于该相应卷积核的偏置,φ(x)为非线性函数,conv2(·)函数封装了卷积操作;
所述子采样层采用max-pooling的池化方式,定义基于max-pooling的下采样函数down(·),设定窗口移动的步数和池化窗口大小,
计算第l-1层的每个特征图经过子采样处理后的输出,表示为
其中,为与池化操作对应的乘性偏置;
所述全连接层对特征图S1,S2,···,Sj,设定每个特征图的大小为p×q,得到光栅化后得到的向量表示为
其中,tjpq为第j个特征图中p×q元素;
采用softmax回归对特征图进行多分类处理,函数hθ(xi)表示为
其中,θ1,θ2,···,θk均为模型参数,为对概率分布进行归一化。
贝叶斯文本分类器模块采用基于TF-IDF特征提取的贝叶斯文本分类器对通话文本内容进行分类,具体为:采用jieba分词库对通话文本内容进行分词处理,并去除停用词,再采用TF-IDF方法提取特征,建立基于TF-IDF提取特征的贝叶斯文本分类模型,从而得到与分类结果对应的电信诈骗套路内容及电信诈骗解决方案。
采用jieba分词库对通话文本内容进行分词处理的过程具体为使用jieba分词库作为诈骗语料的分词工具,对已收录词和未收录词进行处理,其处理流程为:
①加载词典dict.txt;
②从内存的词典中构建该句子的DAG(有向无环图);
③对于词典中未收录词,使用HMM模型的viterbi算法尝试分词处理;
④已收录词和未收录词全部分词完毕后,使用dp寻找DAG的最大概率路径;
⑤输出分词结果。
去除停用词的过程中,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,字连起来组成词语。为了降低时空复杂度,提高存储和计算效率,会自动忽略某些词,即为停用词。停用词包括过滤词,如特定时期的黄色、政治等敏感关键词。停用词主要有两类:
①过于频繁的词语,包括"然而"、"下面"等等。
②文本中出现频率很高,但没有语义含义的词,包括副词、介词、连词等等。
特别的,本发明在以上停用词的基础上添加了针对于诈骗套路的停用词信息。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(Term Frequency),IDF逆向文件频率(InverseDocument Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(termcount)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语来说,它的重要性可表示为:
其中,上式分子为该词在文件中的出现次数,分母为在文件中所有字词的出现次数之和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:
其中,|D|为语料库中的文件总数,|{j:ti∈dj}|:包含词语ti的文件数目(即ni,j≠0的文件数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|,然后tfidi,j=tfi,j×idfi。
设待分类的样本属性集为T,其中包含n个属性,分别为t1,t2,t3...tn,类别集合为γ,当前待判断类别为c,基于属性条件独立性假设,可得:
P(c|T)=P(c)P(T|c)P(T)=P(c)P(T)∏i=1nP(ti|c)
可以看到上面的公式∏ni=1P(ti|c)中0≤P(ti|c)≤1,连乘运算很容易得到一个双精度都难以表示的极小的数值,不利于计算。因此一般情况下对上面的公式两边取对数,得到如下公式:
log(hnb(T))=argmaxc∈γ(log(P(c))+∑i=lnlog(P(ti|c)))
其中,P(c)=|Dc||D|,P(ti|c)=|Dc,ti||Dc|,|D|为训练语料库中包含的文档总数,|Dc|为训练语料库中类别c包含的文档总数,|Dc,ti|为训练语料库的类别c中含有的特征词ti的文档总数,这些统计量都可以通过训练语料库分词后统计得到,,T为样本属性集,hnb(T)为基于样本属性集T的贝叶斯分类器,γ为类别集合。
第二数据加密模块用于将电信诈骗的置信度作为电信诈骗识别结果,与电信诈骗套路内容及电信诈骗解决方案进行加密,该功能的实现与第一数据加密模块相同,此处不作赘述。
JavaWeb整合模块用于协调服务器端各个模块的协同运行和信息传输,将电信诈骗的置信度作为电信诈骗识别结果,与电信诈骗套路内容及电信诈骗解决方案进行整合后反馈给移动端。
本发明采用多线程的并发设计,可同时响应多个用户的电信诈骗的识别请求,并予以响应。在移动端与服务器端之间的数据传输过程中,使用国密算法进行加密,并给予HTTPS协议。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (8)
1.一种基于深度学习的电信诈骗识别与防御系统,其特征在于,包括:
移动端,用于检测通话内容中的异常信息,根据检测结果生成异常告警并选择性的进行通话录音;调用语音听写接口对通话录音信息进行识别生成通话文本内容,将通话文本内容进行加密后发送至服务器端;接收服务器端返回的电信诈骗识别结果、电信诈骗套路内容及电信诈骗解决方案并进行显示;
语音听写接口,用于对通话录音信息进行识别生成通话文本内容;
服务器端,用于接收所述移动端发送的通话文本内容;采用深度学习方法对通话文本内容进行多分类处理,得到电信诈骗的置信度;训练贝叶斯文本分类器对通话文本内容进行分类,得到与分类结果对应的电信诈骗套路内容及电信诈骗解决方案;将电信诈骗的置信度作为电信诈骗识别结果,与电信诈骗套路内容及电信诈骗解决方案进行整合和加密后返回至所述移动端。
2.如权利要求1所述的基于深度学习的电信诈骗识别与防御系统,其特征在于,所述移动端还包括检测设定时间内与通话文本内容相关联的短信内容,并将通话文本内容短信内容进行整合和加密后发送至服务器端。
3.如权利要求1所述的基于深度学习的电信诈骗识别与防御系统,其特征在于,所述服务器端采用深度学习方法对通话文本内容进行多分类处理,得到电信诈骗的置信度,具体为:设定文章矩阵转换规则,将通话文本内容转换为二维文章矩阵;采用卷积神经网络文本分类模型将文章矩阵中每个分量作为一个像素进行多分类处理,得到电信诈骗的置信度。
4.如权利要求3所述的基于深度学习的电信诈骗识别与防御系统,其特征在于,所述文章矩阵转换规则具体为:
采用Word2vec工具训练得到每个单词的n维的词向量,文章矩阵的大小为m×n,判断文章数据清洗之后的单词数wordnum与文章矩阵行数m的大小;
若wordnum<m,则采用(m-wordnum)×n个0元素构造一个文章矩阵,并将构造的文章矩阵与原文章矩阵归为同一类;
若wordnum>m且wordnum%m≠0,则构造个文章矩阵,最后一个文章矩阵由wordlist[wordnum-m:wordnum]中的单词的词向量构成,并将构造的文章矩阵与原文章矩阵归为同一类;
若wordnum>m且wordnum%m=0,则构造个文章矩阵,并将构造的文章矩阵与原文章矩阵归为同一类。
5.如权利要求4所述的基于深度学习的电信诈骗识别与防御系统,其特征在于,所述卷积神经网络文本分类模型包括卷积层、子采样层和全连接层;
所述卷积层设定当前层为第i层,第i-1层有N个特征图作为输入,卷积核大小为Kx×Ky,计算第i层卷积层的第j个卷积核的输出表示为
<mrow>
<msubsup>
<mi>M</mi>
<mi>j</mi>
<mi>i</mi>
</msubsup>
<mo>=</mo>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>u</mi>
<mi>j</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
其中, 为对应于该相应卷积核的偏置,φ(x)为非线性函数,valid为卷积边界处理模式参数,为第i层卷积层的第j个卷积核的大小,conv2(·)函数封装了卷积操作;
所述子采样层采用max-pooling的池化方式,定义基于max-pooling的下采样函数down(·),设定窗口移动的步数和池化窗口大小,计算第l-1层的每个特征图经过子采样处理后的输出,表示为
<mrow>
<msubsup>
<mi>S</mi>
<mi>j</mi>
<mi>l</mi>
</msubsup>
<mo>=</mo>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>&beta;</mi>
<mi>j</mi>
<mi>l</mi>
</msubsup>
<mi>d</mi>
<mi>o</mi>
<mi>w</mi>
<mi>n</mi>
<mo>(</mo>
<msubsup>
<mi>S</mi>
<mi>j</mi>
<mrow>
<mi>l</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>)</mo>
<mo>+</mo>
<msubsup>
<mi>b</mi>
<mi>j</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
其中,为与池化操作对应的乘性偏置;
所述全连接层对特征图S1,S2,···,Sj,设定每个特征图的大小为p×q,得到光栅化后得到的向量表示为
其中,tjpq为第j个特征图中p×q元素;
采用softmax回归对特征图进行多分类处理,函数hθ(xi)表示为
<mrow>
<msub>
<mi>h</mi>
<mi>&theta;</mi>
</msub>
<mrow>
<mo>(</mo>
<msup>
<mi>x</mi>
<mi>i</mi>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mi>j</mi>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mi>i</mi>
</msup>
</mrow>
</msup>
</mrow>
</mfrac>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mn>1</mn>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mi>i</mi>
</msup>
</mrow>
</msup>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mn>2</mn>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mi>i</mi>
</msup>
</mrow>
</msup>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>...</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mi>k</mi>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mi>i</mi>
</msup>
</mrow>
</msup>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,θ1,θ2,···,θk均为模型参数,为对概率分布进行归一化,所有概率和为1。
6.如权利要求1所述的基于深度学习的电信诈骗识别与防御系统,其特征在于,所述训练贝叶斯文本分类器对通话文本内容进行分类,具体为:采用jieba分词库对通话文本内容进行分词处理,并去除停用词,再采用TF-IDF方法提取特征,建立基于TF-IDF提取特征的贝叶斯文本分类模型,表示为
log(hnb(T))=argmaxc∈γ(log(P(c))+∑i=lnlog(P(ti|c)))
其中,P(c)=|Dc||D|,P(ti|c)=|Dc,ti||Dc|,|D|为训练语料库中包含的文档总数,|Dc|为训练语料库中类别c包含的文档总数,|Dc,ti|为训练语料库的类别c中含有的特征词ti的文档总数,T为样本属性集,hnb(T)为基于样本属性集T的贝叶斯分类器,γ为类别集合。
7.如权利要求1所述的基于深度学习的电信诈骗识别与防御系统,其特征在于,所述移动端具体包括来电监听模块、语音识别模块、第一数据加密模块及业务处理模块;
所述来电监听模块用于监听来电状态,提示用户选择是否进行录音操作;
所述语音识别模块调用语音听写接口对通话录音信息进行识别生成通话文本内容;
所述第一数据加密模块用于采用国密算法对通话文本内容进行加密处理;
所述业务处理模块用于实现所述移动端的逻辑控制和功能操作。
8.如权利要求1所述的基于深度学习的电信诈骗识别与防御系统,其特征在于,所述服务器端具体包括深度学习模块、贝叶斯文本分类器模块、第二数据加密模块及JavaWeb整合模块;
所述深度学习模块用于采用卷积神经网络模型对通话文本内容进行多分类处理,得到电信诈骗的置信度;
所述贝叶斯文本分类器模块用于采用基于TF-IDF特征提取的贝叶斯文本分类器对通话文本内容进行分类,得到与分类结果对应的电信诈骗套路内容及电信诈骗解决方案;
所述第二数据加密模块用于采用国密算法对电信诈骗识别结果、电信诈骗套路内容及电信诈骗解决方案进行加密处理;
所述JavaWeb整合模块用于协调服务器端各个模块的协同运行和信息传输。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710721594.9A CN107547718B (zh) | 2017-08-22 | 2017-08-22 | 基于深度学习的电信诈骗识别与防御系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710721594.9A CN107547718B (zh) | 2017-08-22 | 2017-08-22 | 基于深度学习的电信诈骗识别与防御系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107547718A true CN107547718A (zh) | 2018-01-05 |
CN107547718B CN107547718B (zh) | 2020-11-03 |
Family
ID=60958762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710721594.9A Active CN107547718B (zh) | 2017-08-22 | 2017-08-22 | 基于深度学习的电信诈骗识别与防御系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107547718B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804669A (zh) * | 2018-06-08 | 2018-11-13 | 国家计算机网络与信息安全管理中心 | 一种基于意图理解技术的诈骗电话检出方法 |
CN109474755A (zh) * | 2018-10-30 | 2019-03-15 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法及系统 |
CN110072016A (zh) * | 2019-01-29 | 2019-07-30 | 浙江鹏信信息科技股份有限公司 | 一种利用通话行为时域滤波实现不良语音分类的方法 |
CN110222846A (zh) * | 2019-05-13 | 2019-09-10 | 中国科学院计算技术研究所 | 一种面向互联网终端的信息安防方法及信息安防系统 |
CN110309299A (zh) * | 2018-04-12 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 通信防诈骗方法、装置、计算机可读介质及电子设备 |
CN110322389A (zh) * | 2018-03-29 | 2019-10-11 | 上海熠知电子科技有限公司 | 池化方法、装置及系统、计算机可读存储介质 |
CN110896426A (zh) * | 2018-09-13 | 2020-03-20 | 宁波欧依安盾安全科技有限公司 | 一种安全沟通智能鉴定电话系统 |
CN110913353A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 短信的分类方法及装置 |
CN111090992A (zh) * | 2019-12-13 | 2020-05-01 | 厦门市美亚柏科信息股份有限公司 | 一种文本预处理方法、装置及存储介质 |
CN111292119A (zh) * | 2020-01-15 | 2020-06-16 | 杭州数澜科技有限公司 | 一种筛选疑似非法组织的方法和系统 |
CN111429918A (zh) * | 2020-03-26 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于声纹识别和意图分析的访电话诈骗方法和系统 |
CN111641756A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 诈骗识别方法、装置及计算机可读存储介质 |
CN111709472A (zh) * | 2020-06-15 | 2020-09-25 | 国家计算机网络与信息安全管理中心 | 一种动态融合规则到诈骗行为识别模型的方法 |
CN112153220A (zh) * | 2020-08-26 | 2020-12-29 | 北京邮电大学 | 一种基于社交评价动态更新的通信行为识别方法 |
CN112399013A (zh) * | 2019-08-15 | 2021-02-23 | 中国电信股份有限公司 | 异常话务识别方法和装置 |
CN112567720A (zh) * | 2019-08-22 | 2021-03-26 | 精灵科技有限公司 | 基于机器学习的欺诈呼叫检测系统及其控制方法 |
US11727248B2 (en) | 2020-04-07 | 2023-08-15 | NEC Laboratories Europe GmbH | Interpretable node embedding |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN102012985A (zh) * | 2010-11-19 | 2011-04-13 | 国网电力科学研究院 | 一种基于数据挖掘的敏感数据动态识别方法 |
CN103179122A (zh) * | 2013-03-22 | 2013-06-26 | 马博 | 一种基于语音语义内容分析的防电信电话诈骗方法和系统 |
CN103761221A (zh) * | 2013-12-31 | 2014-04-30 | 北京京东尚科信息技术有限公司 | 用于识别敏感文本信息的系统和方法 |
-
2017
- 2017-08-22 CN CN201710721594.9A patent/CN107547718B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN102012985A (zh) * | 2010-11-19 | 2011-04-13 | 国网电力科学研究院 | 一种基于数据挖掘的敏感数据动态识别方法 |
CN103179122A (zh) * | 2013-03-22 | 2013-06-26 | 马博 | 一种基于语音语义内容分析的防电信电话诈骗方法和系统 |
CN103761221A (zh) * | 2013-12-31 | 2014-04-30 | 北京京东尚科信息技术有限公司 | 用于识别敏感文本信息的系统和方法 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322389B (zh) * | 2018-03-29 | 2023-03-21 | 上海熠知电子科技有限公司 | 池化方法、装置及系统、计算机可读存储介质 |
CN110322389A (zh) * | 2018-03-29 | 2019-10-11 | 上海熠知电子科技有限公司 | 池化方法、装置及系统、计算机可读存储介质 |
CN110309299A (zh) * | 2018-04-12 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 通信防诈骗方法、装置、计算机可读介质及电子设备 |
CN108804669A (zh) * | 2018-06-08 | 2018-11-13 | 国家计算机网络与信息安全管理中心 | 一种基于意图理解技术的诈骗电话检出方法 |
CN110896426B (zh) * | 2018-09-13 | 2021-10-12 | 宁波欧依安盾安全科技有限公司 | 一种安全沟通智能鉴定电话系统 |
CN110896426A (zh) * | 2018-09-13 | 2020-03-20 | 宁波欧依安盾安全科技有限公司 | 一种安全沟通智能鉴定电话系统 |
CN110913353A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 短信的分类方法及装置 |
CN110913353B (zh) * | 2018-09-17 | 2022-01-18 | 阿里巴巴集团控股有限公司 | 短信的分类方法及装置 |
CN109474755B (zh) * | 2018-10-30 | 2020-10-30 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质 |
CN109474755A (zh) * | 2018-10-30 | 2019-03-15 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法及系统 |
CN110072016A (zh) * | 2019-01-29 | 2019-07-30 | 浙江鹏信信息科技股份有限公司 | 一种利用通话行为时域滤波实现不良语音分类的方法 |
CN110222846A (zh) * | 2019-05-13 | 2019-09-10 | 中国科学院计算技术研究所 | 一种面向互联网终端的信息安防方法及信息安防系统 |
CN110222846B (zh) * | 2019-05-13 | 2021-07-20 | 中国科学院计算技术研究所 | 一种面向互联网终端的信息安防方法及信息安防系统 |
CN112399013A (zh) * | 2019-08-15 | 2021-02-23 | 中国电信股份有限公司 | 异常话务识别方法和装置 |
CN112399013B (zh) * | 2019-08-15 | 2021-12-03 | 中国电信股份有限公司 | 异常话务识别方法和装置 |
CN112567720A (zh) * | 2019-08-22 | 2021-03-26 | 精灵科技有限公司 | 基于机器学习的欺诈呼叫检测系统及其控制方法 |
CN111090992B (zh) * | 2019-12-13 | 2022-12-06 | 厦门市美亚柏科信息股份有限公司 | 一种文本预处理方法、装置及存储介质 |
CN111090992A (zh) * | 2019-12-13 | 2020-05-01 | 厦门市美亚柏科信息股份有限公司 | 一种文本预处理方法、装置及存储介质 |
CN111292119A (zh) * | 2020-01-15 | 2020-06-16 | 杭州数澜科技有限公司 | 一种筛选疑似非法组织的方法和系统 |
CN111429918A (zh) * | 2020-03-26 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于声纹识别和意图分析的访电话诈骗方法和系统 |
US11727248B2 (en) | 2020-04-07 | 2023-08-15 | NEC Laboratories Europe GmbH | Interpretable node embedding |
CN111641756A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 诈骗识别方法、装置及计算机可读存储介质 |
CN111709472A (zh) * | 2020-06-15 | 2020-09-25 | 国家计算机网络与信息安全管理中心 | 一种动态融合规则到诈骗行为识别模型的方法 |
CN111709472B (zh) * | 2020-06-15 | 2022-09-23 | 国家计算机网络与信息安全管理中心 | 一种动态融合规则到诈骗行为识别模型的方法 |
CN112153220B (zh) * | 2020-08-26 | 2021-08-27 | 北京邮电大学 | 一种基于社交评价动态更新的通信行为识别方法 |
CN112153220A (zh) * | 2020-08-26 | 2020-12-29 | 北京邮电大学 | 一种基于社交评价动态更新的通信行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107547718B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107547718B (zh) | 基于深度学习的电信诈骗识别与防御系统 | |
Suarez-Tangil et al. | Automatically dismantling online dating fraud | |
Zhao et al. | Detecting telecommunication fraud by understanding the contents of a call | |
US10848448B2 (en) | Spam filtering in multimodal mobile communication | |
El-Alfy et al. | Spam filtering framework for multimodal mobile communication based on dendritic cell algorithm | |
US10516701B2 (en) | Natural language processing artificial intelligence network and data security system | |
US20220109646A1 (en) | Intelligent analysis of digital symbols for message content determination | |
CN113315874B (zh) | 用于呼叫分类的系统和方法 | |
Balim et al. | Automatic detection of smishing attacks by machine learning methods | |
Jain et al. | A content and URL analysis‐based efficient approach to detect smishing SMS in intelligent systems | |
Ghourabi | SM‐Detector: A security model based on BERT to detect SMiShing messages in mobile environments | |
US20230096474A1 (en) | Identifying sensitive content in electronic files | |
Kulkarni et al. | Personally identifiable information (pii) detection in the unstructured large text corpus using natural language processing and unsupervised learning technique | |
Kim et al. | Voice recognition and document classification-based data analysis for voice phishing detection | |
US20210216642A1 (en) | Sentiment analysis for securing computer code | |
Nagwani | A Bi-Level Text Classification Approach for SMS Spam Filtering and Identifying Priority Messages. | |
US11361084B1 (en) | Identifying and protecting against a computer security threat while preserving privacy of individual client devices using differential privacy for text documents | |
CN111538998A (zh) | 文本定密方法和装置、电子设备及计算机可读存储介质 | |
Agrawal et al. | An effective approach to classify fraud sms using hybrid machine learning models | |
WO2023000792A1 (zh) | 构建活体识别模型和活体识别的方法、装置、设备及介质 | |
Nivedha et al. | Detection of email spam using Natural Language Processing based Random Forest approach | |
Canelón et al. | Unstructured data for cybersecurity and internal control | |
Charninda et al. | Content based hybrid sms spam filtering system | |
Nandakumar et al. | Scamblk: A voice recognition-based natural language processing approach for the detection of telecommunication fraud | |
Rahman et al. | Everything about you: A multimodal approach towards friendship inference in online social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |