CN114157760A - 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 - Google Patents
基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 Download PDFInfo
- Publication number
- CN114157760A CN114157760A CN202111475468.2A CN202111475468A CN114157760A CN 114157760 A CN114157760 A CN 114157760A CN 202111475468 A CN202111475468 A CN 202111475468A CN 114157760 A CN114157760 A CN 114157760A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- data
- fusion model
- voice data
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 144
- 238000003066 decision tree Methods 0.000 title claims abstract description 113
- 238000007477 logistic regression Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 89
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000004891 communication Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005242 forging Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/0636—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/128—Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统,本申请实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统。
背景技术
随着互联网时代的高速发展,人们生活也发生了巨大的变化。用户之间可以采用用户终端实现语音通话或短信交互,多种多样的应用也进入到人们的视野中。但也给我们生活带来便利的同时,也产生了很多潜在的危险,用户个人隐私在互联网中的泄露有可能被诈骗分子有机可乘,甚至导致了个人财产损失。近年来,电信诈骗成爆发式增长,诈骗手法层出不穷,诈骗中所使用的技术手段也不断升级。电信诈骗是指通过电话,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人打款或转账的犯罪行为,通常以冒充他人及仿冒、伪造各种合法外衣和形式的方式达到欺骗的目的,如冒充公检法、商家公司厂家、国家机关工作人员、银行工作人员等各类机构工作人员,伪造和冒充招工、刷单、贷款、手机定位和招嫖等形式进行诈骗。随着科技的发展,一系列技术工具的开发出现和被使用,诈骗分子借助于移动终端或固定电话等通信工具,及现代的技术等实施非接触式的诈骗迅速地发展蔓延,给人民群众造成了很大的损失。在这种情况下,需要对网络中的语音进行识别,从中识别出非法语音,并针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失。
因此,如何准确识别出通信网络中的非法语音,特别识别出通信网络中的非法语音的类别是一个亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统,能够准确识别出通信网络中的非法语音。
本申请实施例是这样实现的:
一种基于逻辑回归算法及决策树算法的非法语音的识别方法,所述方法包括:
实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对语音数据进行数据归一化处理;
对语音数据进行空值及缺失值处理;
对语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
所述训练得到的融合模型包括:
从通信网络侧获取得到语音数据作为样本语音数据;
对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
所述对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对样本语音数据进行数据归一化处理;
对样本语音数据进行空值及缺失值处理;
对样本语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
所述得到是否为非法语音的预测结果包括:
构建针对不同特征的五个决策树算法,将提取的特征数据输入到所设置的五个决策树算法中并得出各自的概率值,将各自的概率值整合后,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
所述决策树算法中的决策树为CART二叉决策树,对所构建的CART二叉决策树进行剪枝处理。
将所述特征数据输入到融合模型中进行训练采用十折交叉验证方式进行训练。
所述对训练完成的所述融合模型进行指标评估包括:
计算所述融合模型的评估指标,包括精准率、召回率或/和F1-score指标;
判断计算得到的评估指标,是否满足所设置的评估指标值。
一种基于逻辑回归算法及决策树算法的非法语音的识别系统,所述系统包括:
获取单元、提取特征数据单元及融合模型处理单元,其中,
获取单元,用于实时从通信网络侧获取语音数据;
提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
如上所见,本申请实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。
附图说明
图1为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别方法流程图;
图2为本申请实施例提供的训练融合模型的方法流程图;
图3为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别系统结构示意图;
图4为本申请实施例应用例子1中的决策树算法中的其中一棵二叉决策树的结构示意图;
图5为本申请实施例应用例子2中的决策树算法中的其中一棵二叉决策树的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
从背景技术可以看出,准确识别出通信网络中的非法语音,是进行后续的针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失的前提条件。因此,本发明实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。
这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。
本申请实施例训练得到基于逻辑回归算法及决策树算法的融合模型,对通过获取的语音数据的特征数据进行预测,从而确定是否为非法语音。在对语音数据进行特征数据提取时,采用数据特征工程方式进行,能够准确获取到特征数据。因此,本申请实施例既能有效避免语音数据的人工误判和漏判行为,又能解决人工欺诈及检测昂贵费用等问题。
图1为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别方法流程图,其具体步骤包括:
步骤101、实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
步骤102、将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
步骤103、所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
在该方法中,所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对语音数据进行数据归一化处理;
对语音数据进行空值及缺失值处理;
对语音数据进行词频-逆文本频率指数(TF-IDF)方式处理后,得到特征数据。
为了实现该方法,需要得到训练好的融合模型。图2为本申请实施例提供的训练融合模型的方法流程图,其具体步骤包括:
步骤201、从通信网络侧获取得到语音数据作为样本语音数据;
步骤202、对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
步骤203、将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;
步骤204、所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
步骤205、对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
在本步骤中,所述融合模型的评估指标包括融合模型的精准率、召回率和/或F1分数等;
在本步骤中,当所述融合模型训练结束后,结合业务及多种评估指标,评估所述融合模型的上线可行性,对满足业务要求的模型实施上线运行,实现自动化的非法语音分类;
步骤206、将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
在图2所述的方法中,所述通信网络侧的语音数据存放在分布式文件数据库(Hbase)中,有利于语音数据的实时访问及处理,在获取时直接获取后,作为训练所述融合模型中的训练样本。为了保护用户的隐私,在Hbase中的语音数据采用加密处理,在获取时进行脱敏加密处理。
在所述方法中,语音数据包括:号码注册地、上网流量、上网统一资源符(URL)、漫游位置、常用APP、上网lac、上网ci、经纬度、IP地址、端口、发送短信内容、或/和网络爬虫爬取浏览页面内容等。
在所述方法中,所述对获取的语音数据采用数据特征工程处理后获取得到特征数据包括:
对语音数据进行数据清洗、处理、特征提取、变量衍生及变量选择之后,得到训练所述融合模型的训练特征数据。
在这里,数据特征工程包括对语音数据进行归一化,词频-逆文本频率指数(TF-IDF)及相关性特征选择等功能的处理,获得得到语音数据。
具体地说,该特征数据为39维,分别为x1,x2,x3……x48,各个变量详细说明如下:
X1为fre:发送短信频次;X2为fre_herf:发送短信是否含有连接;X3为fre_key:发送短信是否含诈骗关键字;X4为fre_bifont:发送短信是否含繁体关键字;X5为fre_fanti:发送短信是否含繁体关键字;X6为web_content:浏览网页head内容;X7为web_key:浏览网页key内容;X8为web_herf:浏览网页连接内容;X9为web_exam:浏览网页是否备案;X10为locat:位置信息;X11为im_account:IM账号;X12为login_logout_frequency:一段时间内(1、3、7天)IM账号的登录登出频数;X13为peek_frequency:7天内IM账号添加账号的峰值(以天为单位进行统计,最大值);X14为long_term_frequency:一段时间内每天添加账号数量的方差;X15为short_term_frequency:最近1天内IM账号添加账号操作的频数;X16为media_operation_ratio:IM账号多媒体(收图片、发图片、收视频、发视频、朋友圈等)操作占总操作的比例;X17为video_frequency:IM账号收发视频占总操作的比例;X18为active_time_period:以IM账号为单位统计每小时内各类操作的频数,归一化处理后,采用one-hot编码表示;X19为device_type:IM账号的登录设备:android客户端、IOS客户端、PC;X20为client_version:IM客户端的版本,拆分为主版本号和次版本号;X21为im_account_on_device_day:以手机号为单位,统计单设备在1天内共计登录IM账号的个数;X22为im_account_on_device_now:以手机号为单位,统计最大同时在线IM账号个数;X23为base_station_location:基站编号;X24为signal_quality:信号质量,分为优、良、差三个等级,采用one-hot编码;X25为os_version:手机操作系统的版本号;拆分为主版本号和次版本号;X26为im_traffic_ratio:IM通信流量占全部流量的比例;X27为bank_traffic_ratio:访问支付类网站流量占全部流量的比例;X28为shop_traffic_ratio:访问购物类网站流量占全部流量的比例;X29为up_down_traffic_ratio:统计各时段的上下行流量比例(以1小时为单位);X30为gps_info:GPS信息;X31为roaming_type:用户漫游类型,1:国际漫游2:省际漫游3:省内漫游4:本地;X32为in_out_frequency:呼入呼出比;X33为hang_up_ratio:挂断方向;X34为region_distribution:被叫号码归属地分布;X35为same_phone_ratio:呼叫同一号码的频次;X36为dev_bank_ratio:异常设备访问支付类网站的频数;X37为dev_shop_ratio:异常设备访问购物类网站的频数;X38为dev_domain_ratio:异常设备访问不良网址的频数;X39为victim_bank_ratio:潜在受害者访问支付类网站的频数;X40为victim_shop_ratio:潜在受害者访问购物类网站的频数;X41为victim_domain_ratio:潜在受害者访问不良网址的频数;X42为type:手机卡、QQ、微信等类型,1:无;2:虚假贷款;3:冒充快递退款;4:网络刷单;5:网络赌博;X43为imsi:上网手机imsi;X44为imei:上网手机imei;X45为tac:上网手机号tac;X46为cell_id:上网手机cell_id;X47为dst_ip:上网手机IP;X48为dst_port:上网手机端口。
在图2所述的步骤204中,将提取的特征数据输入到所述融合模型进行训练。具体地说,构建针对不同特征的五个决策树算法,将提取的特征输入到所设置的五个决策树算法中并得出他们各自分类的概率值,将决策树算法输出值进行整合,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
在这里,决策树是CART二叉决策树,并对CART二叉决策树进行剪枝处理。
在这个过程中,采用十折交叉法训练该融合算法模型。
在本申请实施例中,当所述融合模型在进行分类预测之前,需要对语音数据采用数据特征工程方式进行处理,得到特征数据。数据特征工程方式是将原始数据转化为机器识别的特征数据过程,而这些特征数据又能承载原始数据,且利用数据特征工程方式后的数据建立模型在未知数据上表现达到性能最优。采用数据特征工程方式详细过程如下:
首先,对语音数据进行数据归一化处理,数据归一化解决数据极端值问题,其公式如下:
公式:x'=(x-X_min)/(X_max-X_min)
数据归一化可以避免一些不必要的数值问题。输入变量如果太大,不经数据归一化处理,数据在后续训练过程中引起模型扭曲,影响模型经度。
其次,对语音数据进行空值及缺失值处理,空值及缺失值的数据会使挖掘算法模型不稳定,导致不可靠的输出,空值直接去除。
最后,对语音数据进行TF-IDF算法处理,其中,TF即词频,是某词语出现的次数除以该文件总词语数得到的值,IDF即逆向文件词频,是总文件数目除以包含该词语文件的数目,再将得到的商取对数得到的值,而TF与IDF乘积用以评估每个词语对于一个文本集或一个词库重要程度。词语的重要性与它在文本中出现的次数成正比,与它在词库中出现的频率成反比。
TF-IDF方式采用的公式为:
tfidfi,j=tfii,j×idfi (3)
其中,公式(1)中,分子ni,j表示词语ti在文本dj中出现次数;其中ti表示文本中词语数量,dj表示文本个数;分母∑knk,j表示文本dj中所有词语的出现次数之和;tfi,j表示词频;公式(2)中,分子|D|表示语料库中的文本总数;分母|{j:ti∈di}|表示包含词语ti的文本数目,其中ti表示文本中词语数量,dj表示文本个数,idfi表示逆向文本频率。
在本申请实施例中,融合模型由一逻辑回归算法及多个决策树算法组成,并对提取的特征数据进行非法语音的预测。以下对融合模型的训练及后续预测过程进行详细说明。
融合模型中的决策树算法可以采用CART决策树算法。CART决策树是生成的一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。相比其它决策树算法,CART决策树既可以解决分类问题也可以解决预测问题。CART决策树算法使用基尼指数(Gini)来选择最好特征数据的分割点。
选择CART决策树算法的好处为:1)生成规则易于理解;2)构建的决策树的计算量不大;3)生成的树能清晰显示哪些字段比较重要;4)该算法能处理连续字段与类别字段;5)生成的树能清晰显示哪些字段比较重要;6)能解决分类问题也能解决预测问题。
CART决策树算法所使用的Gini系数具体含义为:1)是一种不等性度量;2)用来度量信息不均匀分布性;3)是介于0~1之间的数,0-完全相等,1-完全不相等;4)Gini指数就越大,数据内包含的类别越杂乱。
其中,pk:样本由k个类别,第k个类别的概率为pk。
根据上述公式计算Gini数值选择节点,递归创建二叉树。
对所创建的决策树进行剪枝处理,公式为:
融合模型中的逻辑回归算法采用Logistic函数(或称为Sigmoid函数),函数形式为:
其中,字母e是常量;
其中,θ代表此特征数据的各个特征的权重;x代表此特征数据的各个特征值;z代表此特征数据预测出来的目标值;g(z)是逻辑函数的输出值。
逻辑回归算法中所采用的损失函数J(θ)。
将预测值与实际值的差的和就是这条特征数据的总损失值,损失值越小越好。
其中,m是样本的个数;hθ(xi)为预测值;yi为真实值。
在融合模型训练完成后,进行指标评估,确定所述融合模型满足所设置的评估指标。在这里,采用精准率、召回率、F1-score指标对融合模型进行评估,其计算公式分别如下公式(1)、公式(2)、公式(3)所示:
Precision(精准率)=TP/(TP+FP) (1)
Recall(召回率)=TP/(TP+FN) (2)
F1-score=2*Precision*Recall/(Precision+Recall) (3)
其中,TP代表样本为正,预测结果为正的个数,FP代表样本为负,预测结果为正的个数,FN代表样本为正,预测结果为负的个数。
CART决策树算法既可以解决分类问题也可以解决预测问题。该算法基于基尼系数递归生成决策树,且对生成的决策树依据公式来剪枝。本申请实施例采用基于决策树算法与逻辑回归算法的融合模型进行语音数据进行非法语音的识别,预测准确率高。
图3为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别系统结构示意图,所述系统包括:获取单元、提取特征数据单元及融合模型处理单元,其中,
获取单元,用于实时从通信网络侧获取语音数据;
提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
以下对具体的应用例子对本申请实施例进行详细说明。
应用例子1:
本应用例子为第一区域的电信用户上网数据,从电信用户上网数据提取的主要特征数据包括:数据指标处理为拨打号码数量、区域离散度、登录账号数量、回拨率、活跃天数、上网流量、或/和浏览网址等。以单条加密后电信上网数据为例,五棵的决策树算法预测输出是诈骗号码的概率值分别为A1=0.94、A2=0.08、A3=0.85、A4=0.89、A5=0.99。其中的决策树之一如图4所示,图4为本申请实施例应用例子1中的决策树算法中的其中一棵二叉决策树的结构示意图。
将五棵决策树算法计算得到的概率值整合输入到逻辑回归算法中,进行计算:Sigmoid(w01*0.94+w02*0.08+w03*0.85+w04*0.89+w05*0.99)=0.06,得出的分类预测结果为0.06,约等于0,0代表正常上网号码,若输出结果1代表诈骗号码。
应用例子2:
本应用例子中数据为第二区域的用户上网数据,从用户上网数据提取的主要特征有:被叫离散度、号码离散度、登录境外IP频次、回拨率、呼出呼入比、上网流量、或/和浏览网址等。以单条加密后电信上网数据为例,五棵决策树预测输出是诈骗号码的概率值分别为A1=0.88、A2=0.78、A3=0.05、A4=0.09、A5=0.79。其中的决策树之一如图5所示,图5为本申请实施例应用例子2中的决策树算法中的其中一棵二叉决策树的结构示意图。
将五棵决策树算法计算得到的概率值整合输入到逻辑回归算法中,进行计算:Sigmoid(w01*0.88+w02*0.78+w03*0.05+w04*0.09+w05*0.79)=0.97,得出的分类预测结果为0.97,约等于1,1代表诈骗上网号码,若输出结果0代表正常上网号码。
本申请采用融合算法生成模型,模型训练好,以脚本形式部署在系统上,定时运行上网数据,输出判断结果。算法实现简单,效率高且具避免过拟合,实用性较强。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本申请的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (9)
1.一种基于逻辑回归算法及决策树算法的非法语音的识别方法,其特征在于,所述方法包括:
实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
2.如权利要求1所述的方法,其特征在于,所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对语音数据进行数据归一化处理;
对语音数据进行空值及缺失值处理;
对语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
3.如权利要求1所述的方法,其特征在于,所述训练得到的融合模型包括:
从通信网络侧获取得到语音数据作为样本语音数据;
对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
4.如权利要求3所述的方法,其特征在于,所述对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对样本语音数据进行数据归一化处理;
对样本语音数据进行空值及缺失值处理;
对样本语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
5.如权利要求1或3所述的方法,其特征在于,所述得到是否为非法语音的预测结果包括:
构建针对不同特征的五个决策树算法,将提取的特征数据输入到所设置的五个决策树算法中并得出各自的概率值,将各自的概率值整合后,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
6.如权利要求5所述的方法,其特征在于,所述决策树算法中的决策树为CART二叉决策树,对所构建的CART二叉决策树进行剪枝处理。
7.如权利要求3所述的方法,其特征在于,将所述特征数据输入到融合模型中进行训练采用十折交叉验证方式进行训练。
8.如权利要求3所述的方法,其特征在于,所述对训练完成的所述融合模型进行指标评估包括:
计算所述融合模型的评估指标,包括精准率、召回率或/和F1-score指标;
判断计算得到的评估指标,是否满足所设置的评估指标值。
9.一种基于逻辑回归算法及决策树算法的非法语音的识别系统,其特征在于,所述系统包括:
获取单元、提取特征数据单元及融合模型处理单元,其中,
获取单元,用于实时从通信网络侧获取语音数据;
提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111475468.2A CN114157760A (zh) | 2021-12-06 | 2021-12-06 | 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111475468.2A CN114157760A (zh) | 2021-12-06 | 2021-12-06 | 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114157760A true CN114157760A (zh) | 2022-03-08 |
Family
ID=80452649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111475468.2A Pending CN114157760A (zh) | 2021-12-06 | 2021-12-06 | 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114157760A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN110147448A (zh) * | 2019-04-29 | 2019-08-20 | 上海欣方智能系统有限公司 | 短信诈骗分类方法及系统 |
CN112464058A (zh) * | 2020-11-30 | 2021-03-09 | 上海欣方智能系统有限公司 | 一种基于XGBoost算法的电信互联网诈骗识别方法 |
-
2021
- 2021-12-06 CN CN202111475468.2A patent/CN114157760A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN110147448A (zh) * | 2019-04-29 | 2019-08-20 | 上海欣方智能系统有限公司 | 短信诈骗分类方法及系统 |
CN112464058A (zh) * | 2020-11-30 | 2021-03-09 | 上海欣方智能系统有限公司 | 一种基于XGBoost算法的电信互联网诈骗识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210200955A1 (en) | Sentiment analysis for fraud detection | |
CN110309304A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112543176A (zh) | 一种异常网络访问检测方法、装置、存储介质及终端 | |
CN107222865A (zh) | 基于可疑行为识别的通讯诈骗实时检测方法和系统 | |
CN110516173B (zh) | 一种非法网站识别方法、装置、设备及介质 | |
CN106713579B (zh) | 一种电话号码识别方法及装置 | |
EP2235648A2 (en) | Dynamic machine assisted informatics | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN107634947A (zh) | 限制恶意登录或注册的方法和装置 | |
CN111611519B (zh) | 一种个人异常行为检测方法及装置 | |
CN112333709B (zh) | 一种跨网络涉诈关联分析方法、系统及计算机存储介质 | |
CN111783415B (zh) | 模板配置方法以及装置 | |
CN112667875A (zh) | 一种数据获取、数据分析方法、装置、设备及存储介质 | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
CN114155880A (zh) | 一种基于gbdt算法模型的非法语音识别方法及系统 | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
CN111105064A (zh) | 确定欺诈事件的嫌疑信息的方法及装置 | |
CN117097571A (zh) | 一种网络传输敏感数据的检测方法、系统、装置及介质 | |
CN111062422B (zh) | 一种套路贷体系化识别方法及装置 | |
CN106936807A (zh) | 一种恶意操作的识别方法和装置 | |
CN117252429A (zh) | 风险用户的识别方法、装置、存储介质及电子设备 | |
CN107222319B (zh) | 一种通信操作分析方法及装置 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN111083705A (zh) | 群发诈骗短信检测方法、装置、服务器及存储介质 | |
CN114157760A (zh) | 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |