CN114157760A - 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 - Google Patents

基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 Download PDF

Info

Publication number
CN114157760A
CN114157760A CN202111475468.2A CN202111475468A CN114157760A CN 114157760 A CN114157760 A CN 114157760A CN 202111475468 A CN202111475468 A CN 202111475468A CN 114157760 A CN114157760 A CN 114157760A
Authority
CN
China
Prior art keywords
decision tree
data
fusion model
voice data
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111475468.2A
Other languages
English (en)
Inventor
张飞
丁正
顾晓东
董伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinfang Software Co ltd
Shanghai Cintel Intelligent System Co ltd
Original Assignee
Shanghai Xinfang Software Co ltd
Shanghai Cintel Intelligent System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinfang Software Co ltd, Shanghai Cintel Intelligent System Co ltd filed Critical Shanghai Xinfang Software Co ltd
Priority to CN202111475468.2A priority Critical patent/CN114157760A/zh
Publication of CN114157760A publication Critical patent/CN114157760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统,本申请实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。

Description

基于逻辑回归算法及决策树算法的非法语音的识别方法及 系统
技术领域
本申请涉及计算机技术领域,特别涉及一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统。
背景技术
随着互联网时代的高速发展,人们生活也发生了巨大的变化。用户之间可以采用用户终端实现语音通话或短信交互,多种多样的应用也进入到人们的视野中。但也给我们生活带来便利的同时,也产生了很多潜在的危险,用户个人隐私在互联网中的泄露有可能被诈骗分子有机可乘,甚至导致了个人财产损失。近年来,电信诈骗成爆发式增长,诈骗手法层出不穷,诈骗中所使用的技术手段也不断升级。电信诈骗是指通过电话,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人打款或转账的犯罪行为,通常以冒充他人及仿冒、伪造各种合法外衣和形式的方式达到欺骗的目的,如冒充公检法、商家公司厂家、国家机关工作人员、银行工作人员等各类机构工作人员,伪造和冒充招工、刷单、贷款、手机定位和招嫖等形式进行诈骗。随着科技的发展,一系列技术工具的开发出现和被使用,诈骗分子借助于移动终端或固定电话等通信工具,及现代的技术等实施非接触式的诈骗迅速地发展蔓延,给人民群众造成了很大的损失。在这种情况下,需要对网络中的语音进行识别,从中识别出非法语音,并针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失。
因此,如何准确识别出通信网络中的非法语音,特别识别出通信网络中的非法语音的类别是一个亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种基于逻辑回归算法及决策树算法的非法语音的识别方法及系统,能够准确识别出通信网络中的非法语音。
本申请实施例是这样实现的:
一种基于逻辑回归算法及决策树算法的非法语音的识别方法,所述方法包括:
实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对语音数据进行数据归一化处理;
对语音数据进行空值及缺失值处理;
对语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
所述训练得到的融合模型包括:
从通信网络侧获取得到语音数据作为样本语音数据;
对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
所述对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对样本语音数据进行数据归一化处理;
对样本语音数据进行空值及缺失值处理;
对样本语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
所述得到是否为非法语音的预测结果包括:
构建针对不同特征的五个决策树算法,将提取的特征数据输入到所设置的五个决策树算法中并得出各自的概率值,将各自的概率值整合后,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
所述决策树算法中的决策树为CART二叉决策树,对所构建的CART二叉决策树进行剪枝处理。
将所述特征数据输入到融合模型中进行训练采用十折交叉验证方式进行训练。
所述对训练完成的所述融合模型进行指标评估包括:
计算所述融合模型的评估指标,包括精准率、召回率或/和F1-score指标;
判断计算得到的评估指标,是否满足所设置的评估指标值。
一种基于逻辑回归算法及决策树算法的非法语音的识别系统,所述系统包括:
获取单元、提取特征数据单元及融合模型处理单元,其中,
获取单元,用于实时从通信网络侧获取语音数据;
提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
如上所见,本申请实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。
附图说明
图1为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别方法流程图;
图2为本申请实施例提供的训练融合模型的方法流程图;
图3为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别系统结构示意图;
图4为本申请实施例应用例子1中的决策树算法中的其中一棵二叉决策树的结构示意图;
图5为本申请实施例应用例子2中的决策树算法中的其中一棵二叉决策树的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
从背景技术可以看出,准确识别出通信网络中的非法语音,是进行后续的针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失的前提条件。因此,本发明实施例训练得到基于一逻辑回归算法及多个决策树算法的融合模型,实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理后获取得到特征数据;输入到所述融合模型中,由其中的多个决策树算法进行处理得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由逻辑回归算法进行预测,得到是否为非法语音的预测结果。
这样,由于融合模型是基于逻辑回归算法及决策树算法进行构建及训练的,所以准确识别出通信网络中的非法语音。
本申请实施例训练得到基于逻辑回归算法及决策树算法的融合模型,对通过获取的语音数据的特征数据进行预测,从而确定是否为非法语音。在对语音数据进行特征数据提取时,采用数据特征工程方式进行,能够准确获取到特征数据。因此,本申请实施例既能有效避免语音数据的人工误判和漏判行为,又能解决人工欺诈及检测昂贵费用等问题。
图1为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别方法流程图,其具体步骤包括:
步骤101、实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
步骤102、将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
步骤103、所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
在该方法中,所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对语音数据进行数据归一化处理;
对语音数据进行空值及缺失值处理;
对语音数据进行词频-逆文本频率指数(TF-IDF)方式处理后,得到特征数据。
为了实现该方法,需要得到训练好的融合模型。图2为本申请实施例提供的训练融合模型的方法流程图,其具体步骤包括:
步骤201、从通信网络侧获取得到语音数据作为样本语音数据;
步骤202、对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
步骤203、将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;
步骤204、所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
步骤205、对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
在本步骤中,所述融合模型的评估指标包括融合模型的精准率、召回率和/或F1分数等;
在本步骤中,当所述融合模型训练结束后,结合业务及多种评估指标,评估所述融合模型的上线可行性,对满足业务要求的模型实施上线运行,实现自动化的非法语音分类;
步骤206、将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
在图2所述的方法中,所述通信网络侧的语音数据存放在分布式文件数据库(Hbase)中,有利于语音数据的实时访问及处理,在获取时直接获取后,作为训练所述融合模型中的训练样本。为了保护用户的隐私,在Hbase中的语音数据采用加密处理,在获取时进行脱敏加密处理。
在所述方法中,语音数据包括:号码注册地、上网流量、上网统一资源符(URL)、漫游位置、常用APP、上网lac、上网ci、经纬度、IP地址、端口、发送短信内容、或/和网络爬虫爬取浏览页面内容等。
在所述方法中,所述对获取的语音数据采用数据特征工程处理后获取得到特征数据包括:
对语音数据进行数据清洗、处理、特征提取、变量衍生及变量选择之后,得到训练所述融合模型的训练特征数据。
在这里,数据特征工程包括对语音数据进行归一化,词频-逆文本频率指数(TF-IDF)及相关性特征选择等功能的处理,获得得到语音数据。
具体地说,该特征数据为39维,分别为x1,x2,x3……x48,各个变量详细说明如下:
X1为fre:发送短信频次;X2为fre_herf:发送短信是否含有连接;X3为fre_key:发送短信是否含诈骗关键字;X4为fre_bifont:发送短信是否含繁体关键字;X5为fre_fanti:发送短信是否含繁体关键字;X6为web_content:浏览网页head内容;X7为web_key:浏览网页key内容;X8为web_herf:浏览网页连接内容;X9为web_exam:浏览网页是否备案;X10为locat:位置信息;X11为im_account:IM账号;X12为login_logout_frequency:一段时间内(1、3、7天)IM账号的登录登出频数;X13为peek_frequency:7天内IM账号添加账号的峰值(以天为单位进行统计,最大值);X14为long_term_frequency:一段时间内每天添加账号数量的方差;X15为short_term_frequency:最近1天内IM账号添加账号操作的频数;X16为media_operation_ratio:IM账号多媒体(收图片、发图片、收视频、发视频、朋友圈等)操作占总操作的比例;X17为video_frequency:IM账号收发视频占总操作的比例;X18为active_time_period:以IM账号为单位统计每小时内各类操作的频数,归一化处理后,采用one-hot编码表示;X19为device_type:IM账号的登录设备:android客户端、IOS客户端、PC;X20为client_version:IM客户端的版本,拆分为主版本号和次版本号;X21为im_account_on_device_day:以手机号为单位,统计单设备在1天内共计登录IM账号的个数;X22为im_account_on_device_now:以手机号为单位,统计最大同时在线IM账号个数;X23为base_station_location:基站编号;X24为signal_quality:信号质量,分为优、良、差三个等级,采用one-hot编码;X25为os_version:手机操作系统的版本号;拆分为主版本号和次版本号;X26为im_traffic_ratio:IM通信流量占全部流量的比例;X27为bank_traffic_ratio:访问支付类网站流量占全部流量的比例;X28为shop_traffic_ratio:访问购物类网站流量占全部流量的比例;X29为up_down_traffic_ratio:统计各时段的上下行流量比例(以1小时为单位);X30为gps_info:GPS信息;X31为roaming_type:用户漫游类型,1:国际漫游2:省际漫游3:省内漫游4:本地;X32为in_out_frequency:呼入呼出比;X33为hang_up_ratio:挂断方向;X34为region_distribution:被叫号码归属地分布;X35为same_phone_ratio:呼叫同一号码的频次;X36为dev_bank_ratio:异常设备访问支付类网站的频数;X37为dev_shop_ratio:异常设备访问购物类网站的频数;X38为dev_domain_ratio:异常设备访问不良网址的频数;X39为victim_bank_ratio:潜在受害者访问支付类网站的频数;X40为victim_shop_ratio:潜在受害者访问购物类网站的频数;X41为victim_domain_ratio:潜在受害者访问不良网址的频数;X42为type:手机卡、QQ、微信等类型,1:无;2:虚假贷款;3:冒充快递退款;4:网络刷单;5:网络赌博;X43为imsi:上网手机imsi;X44为imei:上网手机imei;X45为tac:上网手机号tac;X46为cell_id:上网手机cell_id;X47为dst_ip:上网手机IP;X48为dst_port:上网手机端口。
在图2所述的步骤204中,将提取的特征数据输入到所述融合模型进行训练。具体地说,构建针对不同特征的五个决策树算法,将提取的特征输入到所设置的五个决策树算法中并得出他们各自分类的概率值,将决策树算法输出值进行整合,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
在这里,决策树是CART二叉决策树,并对CART二叉决策树进行剪枝处理。
在这个过程中,采用十折交叉法训练该融合算法模型。
在本申请实施例中,当所述融合模型在进行分类预测之前,需要对语音数据采用数据特征工程方式进行处理,得到特征数据。数据特征工程方式是将原始数据转化为机器识别的特征数据过程,而这些特征数据又能承载原始数据,且利用数据特征工程方式后的数据建立模型在未知数据上表现达到性能最优。采用数据特征工程方式详细过程如下:
首先,对语音数据进行数据归一化处理,数据归一化解决数据极端值问题,其公式如下:
公式:x'=(x-X_min)/(X_max-X_min)
数据归一化可以避免一些不必要的数值问题。输入变量如果太大,不经数据归一化处理,数据在后续训练过程中引起模型扭曲,影响模型经度。
其次,对语音数据进行空值及缺失值处理,空值及缺失值的数据会使挖掘算法模型不稳定,导致不可靠的输出,空值直接去除。
最后,对语音数据进行TF-IDF算法处理,其中,TF即词频,是某词语出现的次数除以该文件总词语数得到的值,IDF即逆向文件词频,是总文件数目除以包含该词语文件的数目,再将得到的商取对数得到的值,而TF与IDF乘积用以评估每个词语对于一个文本集或一个词库重要程度。词语的重要性与它在文本中出现的次数成正比,与它在词库中出现的频率成反比。
TF-IDF方式采用的公式为:
Figure BDA0003393064880000071
Figure BDA0003393064880000081
tfidfi,j=tfii,j×idfi (3)
其中,公式(1)中,分子ni,j表示词语ti在文本dj中出现次数;其中ti表示文本中词语数量,dj表示文本个数;分母∑knk,j表示文本dj中所有词语的出现次数之和;tfi,j表示词频;公式(2)中,分子|D|表示语料库中的文本总数;分母|{j:ti∈di}|表示包含词语ti的文本数目,其中ti表示文本中词语数量,dj表示文本个数,idfi表示逆向文本频率。
在本申请实施例中,融合模型由一逻辑回归算法及多个决策树算法组成,并对提取的特征数据进行非法语音的预测。以下对融合模型的训练及后续预测过程进行详细说明。
融合模型中的决策树算法可以采用CART决策树算法。CART决策树是生成的一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。相比其它决策树算法,CART决策树既可以解决分类问题也可以解决预测问题。CART决策树算法使用基尼指数(Gini)来选择最好特征数据的分割点。
选择CART决策树算法的好处为:1)生成规则易于理解;2)构建的决策树的计算量不大;3)生成的树能清晰显示哪些字段比较重要;4)该算法能处理连续字段与类别字段;5)生成的树能清晰显示哪些字段比较重要;6)能解决分类问题也能解决预测问题。
CART决策树算法所使用的Gini系数具体含义为:1)是一种不等性度量;2)用来度量信息不均匀分布性;3)是介于0~1之间的数,0-完全相等,1-完全不相等;4)Gini指数就越大,数据内包含的类别越杂乱。
CART决策树算法的Gini系数公式为:
Figure BDA0003393064880000082
其中,pk:样本由k个类别,第k个类别的概率为pk
根据上述公式计算Gini数值选择节点,递归创建二叉树。
对所创建的决策树进行剪枝处理,公式为:
Figure BDA0003393064880000083
其中,e表示该节点的错误误差;N表示该节点有多少笔数据;字母E表示该节点预测错误笔数;字母
Figure BDA0003393064880000084
表示该节点的错误率;字母Z在该公式中取经验常熟Z=0.69。
融合模型中的逻辑回归算法采用Logistic函数(或称为Sigmoid函数),函数形式为:
Figure BDA0003393064880000085
其中,字母e是常量;
Figure BDA0003393064880000091
其中,θ代表此特征数据的各个特征的权重;x代表此特征数据的各个特征值;z代表此特征数据预测出来的目标值;g(z)是逻辑函数的输出值。
逻辑回归算法中所采用的损失函数J(θ)。
将预测值与实际值的差的和就是这条特征数据的总损失值,损失值越小越好。
Figure BDA0003393064880000092
其中,m是样本的个数;hθ(xi)为预测值;yi为真实值。
在融合模型训练完成后,进行指标评估,确定所述融合模型满足所设置的评估指标。在这里,采用精准率、召回率、F1-score指标对融合模型进行评估,其计算公式分别如下公式(1)、公式(2)、公式(3)所示:
Precision(精准率)=TP/(TP+FP) (1)
Recall(召回率)=TP/(TP+FN) (2)
F1-score=2*Precision*Recall/(Precision+Recall) (3)
其中,TP代表样本为正,预测结果为正的个数,FP代表样本为负,预测结果为正的个数,FN代表样本为正,预测结果为负的个数。
CART决策树算法既可以解决分类问题也可以解决预测问题。该算法基于基尼系数递归生成决策树,且对生成的决策树依据公式来剪枝。本申请实施例采用基于决策树算法与逻辑回归算法的融合模型进行语音数据进行非法语音的识别,预测准确率高。
图3为本申请实施例提供的一种基于逻辑回归算分及决策树算法的非法语音的识别系统结构示意图,所述系统包括:获取单元、提取特征数据单元及融合模型处理单元,其中,
获取单元,用于实时从通信网络侧获取语音数据;
提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
以下对具体的应用例子对本申请实施例进行详细说明。
应用例子1:
本应用例子为第一区域的电信用户上网数据,从电信用户上网数据提取的主要特征数据包括:数据指标处理为拨打号码数量、区域离散度、登录账号数量、回拨率、活跃天数、上网流量、或/和浏览网址等。以单条加密后电信上网数据为例,五棵的决策树算法预测输出是诈骗号码的概率值分别为A1=0.94、A2=0.08、A3=0.85、A4=0.89、A5=0.99。其中的决策树之一如图4所示,图4为本申请实施例应用例子1中的决策树算法中的其中一棵二叉决策树的结构示意图。
将五棵决策树算法计算得到的概率值整合输入到逻辑回归算法中,进行计算:Sigmoid(w01*0.94+w02*0.08+w03*0.85+w04*0.89+w05*0.99)=0.06,得出的分类预测结果为0.06,约等于0,0代表正常上网号码,若输出结果1代表诈骗号码。
应用例子2:
本应用例子中数据为第二区域的用户上网数据,从用户上网数据提取的主要特征有:被叫离散度、号码离散度、登录境外IP频次、回拨率、呼出呼入比、上网流量、或/和浏览网址等。以单条加密后电信上网数据为例,五棵决策树预测输出是诈骗号码的概率值分别为A1=0.88、A2=0.78、A3=0.05、A4=0.09、A5=0.79。其中的决策树之一如图5所示,图5为本申请实施例应用例子2中的决策树算法中的其中一棵二叉决策树的结构示意图。
将五棵决策树算法计算得到的概率值整合输入到逻辑回归算法中,进行计算:Sigmoid(w01*0.88+w02*0.78+w03*0.05+w04*0.09+w05*0.79)=0.97,得出的分类预测结果为0.97,约等于1,1代表诈骗上网号码,若输出结果0代表正常上网号码。
本申请采用融合算法生成模型,模型训练好,以脚本形式部署在系统上,定时运行上网数据,输出判断结果。算法实现简单,效率高且具避免过拟合,实用性较强。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本申请的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (9)

1.一种基于逻辑回归算法及决策树算法的非法语音的识别方法,其特征在于,所述方法包括:
实时从通信网络侧获取语音数据,对获取的语音数据采用数据特征工程方式处理得到特征数据;
将所述特征数据输入训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;
所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
2.如权利要求1所述的方法,其特征在于,所述对获取的语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对语音数据进行数据归一化处理;
对语音数据进行空值及缺失值处理;
对语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
3.如权利要求1所述的方法,其特征在于,所述训练得到的融合模型包括:
从通信网络侧获取得到语音数据作为样本语音数据;
对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据;
将所述特征数据输入到融合模型中进行训练,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果;
对训练完成的所述融合模型进行指标评估,确定所述融合模型满足所设置的评估指标;
将训练得到的融合模型设置在通信网络中的网络侧,从通信网络侧获取的语音数据进行非法语音的识别处理。
4.如权利要求3所述的方法,其特征在于,所述对获取的样本语音数据采用数据特征工程方式处理后获取得到特征数据包括:
对样本语音数据进行数据归一化处理;
对样本语音数据进行空值及缺失值处理;
对样本语音数据进行词频-逆文本频率指数TF-IDF方式处理后,得到特征数据。
5.如权利要求1或3所述的方法,其特征在于,所述得到是否为非法语音的预测结果包括:
构建针对不同特征的五个决策树算法,将提取的特征数据输入到所设置的五个决策树算法中并得出各自的概率值,将各自的概率值整合后,输入到逻辑回归算法中进行预测,得到是否为非法语音数据的预测结果。
6.如权利要求5所述的方法,其特征在于,所述决策树算法中的决策树为CART二叉决策树,对所构建的CART二叉决策树进行剪枝处理。
7.如权利要求3所述的方法,其特征在于,将所述特征数据输入到融合模型中进行训练采用十折交叉验证方式进行训练。
8.如权利要求3所述的方法,其特征在于,所述对训练完成的所述融合模型进行指标评估包括:
计算所述融合模型的评估指标,包括精准率、召回率或/和F1-score指标;
判断计算得到的评估指标,是否满足所设置的评估指标值。
9.一种基于逻辑回归算法及决策树算法的非法语音的识别系统,其特征在于,所述系统包括:
获取单元、提取特征数据单元及融合模型处理单元,其中,
获取单元,用于实时从通信网络侧获取语音数据;
提取特征数据单元,用于对获取的语音数据采用特征工程处理方式处理,得到特征数据;
融合模型处理单元,用于将所述特征数据输入到训练得到的融合模型中,所述融合模型由一逻辑回归算法及多个决策树算法组成;所述融合模型中的多个决策树算法基于所述特征数据,计算得到对应各个决策树算法的概率值后,将所得到的各个决策树算法的概率值整合后由所述融合模型中的逻辑回归算法进行预测,得到是否为非法语音的预测结果。
CN202111475468.2A 2021-12-06 2021-12-06 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 Pending CN114157760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111475468.2A CN114157760A (zh) 2021-12-06 2021-12-06 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111475468.2A CN114157760A (zh) 2021-12-06 2021-12-06 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统

Publications (1)

Publication Number Publication Date
CN114157760A true CN114157760A (zh) 2022-03-08

Family

ID=80452649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111475468.2A Pending CN114157760A (zh) 2021-12-06 2021-12-06 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统

Country Status (1)

Country Link
CN (1) CN114157760A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN110147448A (zh) * 2019-04-29 2019-08-20 上海欣方智能系统有限公司 短信诈骗分类方法及系统
CN112464058A (zh) * 2020-11-30 2021-03-09 上海欣方智能系统有限公司 一种基于XGBoost算法的电信互联网诈骗识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN110147448A (zh) * 2019-04-29 2019-08-20 上海欣方智能系统有限公司 短信诈骗分类方法及系统
CN112464058A (zh) * 2020-11-30 2021-03-09 上海欣方智能系统有限公司 一种基于XGBoost算法的电信互联网诈骗识别方法

Similar Documents

Publication Publication Date Title
US20210200955A1 (en) Sentiment analysis for fraud detection
CN110309304A (zh) 一种文本分类方法、装置、设备及存储介质
CN112543176A (zh) 一种异常网络访问检测方法、装置、存储介质及终端
CN107222865A (zh) 基于可疑行为识别的通讯诈骗实时检测方法和系统
CN110516173B (zh) 一种非法网站识别方法、装置、设备及介质
CN106713579B (zh) 一种电话号码识别方法及装置
EP2235648A2 (en) Dynamic machine assisted informatics
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN107634947A (zh) 限制恶意登录或注册的方法和装置
CN111611519B (zh) 一种个人异常行为检测方法及装置
CN112333709B (zh) 一种跨网络涉诈关联分析方法、系统及计算机存储介质
CN111783415B (zh) 模板配置方法以及装置
CN112667875A (zh) 一种数据获取、数据分析方法、装置、设备及存储介质
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN114155880A (zh) 一种基于gbdt算法模型的非法语音识别方法及系统
CN108804501B (zh) 一种检测有效信息的方法及装置
CN111105064A (zh) 确定欺诈事件的嫌疑信息的方法及装置
CN117097571A (zh) 一种网络传输敏感数据的检测方法、系统、装置及介质
CN111062422B (zh) 一种套路贷体系化识别方法及装置
CN106936807A (zh) 一种恶意操作的识别方法和装置
CN117252429A (zh) 风险用户的识别方法、装置、存储介质及电子设备
CN107222319B (zh) 一种通信操作分析方法及装置
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN111083705A (zh) 群发诈骗短信检测方法、装置、服务器及存储介质
CN114157760A (zh) 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination