CN110995937B - 一种被骚扰用户的识别方法及装置 - Google Patents

一种被骚扰用户的识别方法及装置 Download PDF

Info

Publication number
CN110995937B
CN110995937B CN201911201600.3A CN201911201600A CN110995937B CN 110995937 B CN110995937 B CN 110995937B CN 201911201600 A CN201911201600 A CN 201911201600A CN 110995937 B CN110995937 B CN 110995937B
Authority
CN
China
Prior art keywords
user
call
short message
support vector
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911201600.3A
Other languages
English (en)
Other versions
CN110995937A (zh
Inventor
刘胜
梁淑云
马影
陶景龙
王启凡
魏国富
徐�明
殷钱安
余贤喆
周晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN201911201600.3A priority Critical patent/CN110995937B/zh
Publication of CN110995937A publication Critical patent/CN110995937A/zh
Application granted granted Critical
Publication of CN110995937B publication Critical patent/CN110995937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • H04M1/663Preventing unauthorised calls to a telephone set
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6027Fraud preventions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种被骚扰用户的识别方法,所述方法包括:1)、获取用户通话数据和短信数据;2)、对用户通话数据和短信数据进行统计,基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征;3)、根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本,所述利用所述训练样本组成的训练集训练目标支持向量机模型;并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。本发明提供了一种被骚扰用户的识别装置。应用本发明实施例,可以提高识别的准确率。

Description

一种被骚扰用户的识别方法及装置
技术领域
本发明涉及一种用户识别方法及装置,具体涉及一种被骚扰用户的识别方法及装置。
背景技术
随着现代通信技术以及软件技术的发展便利了人们的生活,但是,也滋生了“一声响”、“呼死你”等骚扰电话,尤其在借贷行业,借出方经常使用上述软件骚扰借贷方,因此,如何在运营商这一环节对这些骚扰电话或者骚扰短信进行识别并屏蔽是亟待解决的技术问题。
目前,申请号为CN201910381711.0的发明专利公开了一种骚扰电话处理方法、装置、移动终端以及存储介质。响应于满足预设条件的主叫号码的来电呼叫,保持静默并建立与来电呼叫的主叫方的通话连接,基于通话连接采集主叫方发送的第一音频数据,获取第二音频数据,计算第一音频数据和第二音频数据的相似度,第二音频数据为包括骚扰语音内容的音频数据,若相似度达到相似度阈值,确定主叫号码为骚扰号码并断开与主叫方的通话连接。以通过在接收到主叫号码的来电呼叫时,计算主叫方发送的音频数据和包括骚扰语音内容的音频数据的相似度,并在相似度达到相似度阈值时确定主叫号码为骚扰号码并断开通话,从而有效且可靠的过滤骚扰电话,降低用户被骚扰电话打扰的可能性,提升用户体验。
现有技术中根据通话内容进行监听判断该主叫方是否为骚扰电话,但是,如果骚扰电话的内容可能会不断变化,导致找不到相似的对比依据,导致无法识别出该主叫方是否是骚扰电话。因此,现有技术存在,识别准确率不高的技术问题。
发明内容
本发明所要解决的技术问题在于如何提供一种被骚扰用户的识别方法及装置,以提高骚扰电话识别的准确率。
本发明通过以下技术手段实现解决上述技术问题的:
本发明实施例提供了一种被骚扰用户的识别方法,所述方法包括:
1)、获取用户通话数据和短信数据,其中,所述用户通话数据包括:通话日期、用户号码、来电号码、来电时间以及通话时长;所述短信数据包括:数据日志、用户号码、来信号码以及来信时间;
2)、对用户通话数据和短信数据进行统计,基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征;
3)、根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本,所述利用所述训练样本组成的训练集训练目标支持向量机模型;并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。
可选的,在步骤3)之前,所述方法还包括:
对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理;
所述根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本的步骤,包括:
根据所述用户对应的归一化后的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本。
可选的,所述利用所述训练样本组成的训练集训练目标支持向量机模型,包括:
在每一次迭代中,将训练样本划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2;
将训练集中的各个样本映射到特征空间内,得到若干个样本点
在约束条件为,yi(wTxi+b)≥1的条件下,利用公式,
Figure GDA0002830996330000031
建立当前超平面,其中,
L(w,b,α)为目标函数;w为支持向量的法向参数矩阵;∑为求和函数;n为样本点数量;|| ||2为2范数函数;yi为第i个样本点;wT为支持向量的法向参数矩阵的转置;α为拉格朗日乘子;b为支持向量的截距参数矩阵;
利用公式,
Figure GDA0002830996330000032
计算当前超平面对应的支持向量到超平面的距离,其中,
max为求最大值函数;
调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值,并继续循环执行以上步骤,得到若干个训练后的支持向量机模型;
得到若干个训练后的支持向量机模型;使用测试集测试训练后的支持向量机模型,并将准确率最高的模型作为目标支持向量机模型。
可选的,所述利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户,包括:
获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中,得到待识别用户对应的样本点;
利用所述目标支持向量机模型对所述样本点进行划分,根据所述样本点被划分的区域判断所述用户是否被骚扰。
本发明实施例还提供了一种被骚扰用户的识别装置,所述装置包括:
获取模块,用于获取用户通话数据和短信数据,其中,所述用户通话数据包括:通话日期、用户号码、来电号码、来电时间以及通话时长;所述短信数据包括:数据日志、用户号码、来信号码以及来信时间;
生成模块,用于对用户通话数据和短信数据进行统计,基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征;
识别模块,用于根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本,所述利用所述训练样本组成的训练集训练目标支持向量机模型;并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。
可选的,所述装置还包括:
归一化模块,用于对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理;
所述根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本的步骤,包括:
根据所述用户对应的归一化后的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本。
可选的,所述识别模块,用于:
在每一次迭代中,将训练样本划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2;
将训练集中的各个样本映射到特征空间内,得到若干个样本点
在约束条件为,yi(wTxi+b)≥1的条件下,利用公式,
Figure GDA0002830996330000051
建立当前超平面,其中,
L(w,b,α)为目标函数;w为支持向量的法向参数矩阵;∑为求和函数;n为样本点数量;|| ||2为2范数函数;yi为第i个样本点;wT为支持向量的法向参数矩阵的转置;α为拉格朗日乘子;b为支持向量的截距参数矩阵;
利用公式,
Figure GDA0002830996330000052
计算当前超平面对应的支持向量到超平面的距离,其中,
max为求最大值函数;
调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值,并继续循环执行以上步骤,得到若干个训练后的支持向量机模型;
得到若干个训练后的支持向量机模型;使用测试集测试训练后的支持向量机模型,并将准确率最高的模型作为目标支持向量机模型。
可选的,所述识别模块,用于:
获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中,得到待识别用户对应的样本点;
利用所述目标支持向量机模型对所述样本点进行划分,根据所述样本点被划分的区域判断所述用户是否被骚扰。
本发明的优点在于:
应用本发明实施例,基于用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征利用支持向量机进行识别,相对于现有技术,无需识别通话内容,根据骚扰电话本身具有的共性特征进行识别,可以提高识别的准确率。
附图说明
图1为本发明实施例提供的一种被骚扰用户的识别方法的流程示意图;
图2为本发明实施例提供的一种被骚扰用户的识别方法的识别结果的分类示意图;
图3为本发明实施例提供的一种被骚扰用户的识别装置的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1为本发明实施例提供的一种被骚扰用户的识别方法的流程示意图,如图1所示,所述方法包括:
S101:获取用户通话数据和短信数据,其中,所述用户通话数据包括:通话日期、用户号码、来电号码、来电时间以及通话时长;所述短信数据包括:数据日志、用户号码、来信号码以及来信时间。
示例性的,可以从运营商那里获取用户通话数据。表1为本发明实施例中获取的用户通话数据汇总表,如表1所示:
表1
序号 字段名称 字段含义 字段类型 数据来源 备注
1 day_id 数据日期 NUMBER 话单 数据处理日期
2 phone_no 用户号码 VARchar 话单 分析对象的电话号码
3 call_phone 来电号码 VARchar 话单 来电号码
4 call_time 来电时间 DATE 话单 来电时间
5 call_dur 来电通话时长 NUMBER 话单 来电通话时长
可以从运营商那里获取用户短信数据。表1为本发明实施例中获取的用户短信数据汇总表,如表2所示:
表2
序号 字段名称 字段含义 字段类型 数据来源 备注
1 day_id 数据日志 NUMBER 短信 数据处理日期
1 phone_no 用户号码 VARchar 短信 分析对象的电话号码
2 send_phone 来信号码 VARchar 短信 短信来信号码
3 send_time 来信时间 DATE 短信 短信来信时间
S102:对用户通话数据和短信数据进行统计,基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征。
示例性的,首先,分别以通话、短信表中的call_phone、send_phone为分析对象,取出其与phone_no的通话、短信数据,表3为本发明实施例中用户的号码通话数据、号码短信数据。
表3
day_id phone_no1 phone_no2 call_type send_type call_time send_time call_dur
20190901 153****1 133****9 1 1 2019/1/1 1:12 2019/1/1 1:10 12
20190901 159****8 132****0 1 2019/1/1 0:25 35
20190901 132****0 155****5 2 2019/1/1 13:54 532
20190901 158****3 187****7 1 2019/1/1 20:10 79
20190901 166****0 155****2 1 2019/1/1 15:29
如表3所示,phone_no1和phone_no2分别为具有通话、短信关系的两个手机号码,phone_no1为所分析对象的手机号码;Call_type为phone_no1、phone_no2的呼叫关系,为1时表示phone_no1为主叫,为2时phone_no1为被叫。;Send_type为短信发送接收关系,为1时表示phone_no1为短信发送方,为2时表示phone_no1为短信接收方。call_time是通话时间;send_time为短信发送时间;call_dur为通话时长,单位为秒。
然后,构建用户的交往圈通话数据、交往圈短信数据,过程如下:
按照如下方式定义交往圈:1)、该用户手机号码下的所有副卡或该用户号码手机号码所属的主卡;2)、该用户所办理宽带下的连接wifi的手机号码,其中号码应至少连续三个月连接过该wifi;3)、该用户经常联系的手机号码,应至少有连续三个月的通话或短信行为;对于以上各定义的具体说明,如下:满足条件1)的,可定义为该用户的交往圈号码;满足条件2)并且满足条件3)的,可定义为该用户的交往圈号码;满足条件3)并且与该用户有多次长时间通话行为,可定义为该用户的交往圈号码。一般通话时长大于5分钟的定义为长时间通话;满足条件3)并且与该用户有多次在非工作时段通话的行为,可定义为该用户的交往圈号码。非工作时段一般定义为工作日8:00-18:00之外的时间段及非工作日。
基于数据表3,定义用户的陌生号码。此处给出的定义方式为该号码出现在所分析号码的最近一个月的通话记录中,且未出现在所分析号码最近一个月之前的六个月的通话记录中的号码。
然后,基于以上步骤分析及处理,对表3增加两列:phone_no2是否是交往圈号码、phone_no2是否是陌生号码,分别定义字段is_contacter,is_stranger表示,其值为0/1,0表示否,1表示是。表4为本发明实施例中提供的添加交往圈通话数据、交往圈短信数据后的特征汇总表。
表4
day_id phone_no1 phone_no2 call_type send_type call_time send_time call_dur is_contacter is_stranger
20190901 153****1 133****9 1 1 2019/1/1 1:12 2019/1/1 1:10 12 0 1
20190901 159****8 132****0 1 2019/1/1 0:25 35 0 1
20190901 132****0 155****5 2 2019/1/1 13:54 532 0 0
20190901 158****3 187****7 1 2019/1/1 20:10 79 1 0
20190901 166****0 155****2 1 2019/1/1 15:29 1 0
最后,通过对骚扰电话的行为特征分析可知,其一般具有拨打次数高,回拨率低,发送短信次数高,回复率低,拨打时段不固定,有深夜拨打电话、发送短信的行为、对受害人的亲戚朋友可能有骚扰的特点,构建以下特征,形成特征宽表5:
陌生号码通话特征:取出is_stranger=1的数据,统计以构建分析号码的陌生用户号码个数、工作时段主叫通话次数、工作时段被叫通话次数、工作时段主叫平均通话时长、工作时段被叫平均通话时长、非工作时段主叫通话次数、非工作时段被叫通话次数、非工作时段主叫平均通话时长、非工作时段被叫平均通话时长等特征;
陌生号码短信特征:取出is_stranger=1的数据,统计以构建分析号码的陌生用户号码个数、工作时段发送短信次数、工作时段接收短信次数、非工作时段发送短信次数、非工作时段接收短信次数等特征;
交往圈通话特征:取出is_contacter=1的数据,以其phone_no2为分析对象,统计以构建陌生用户号码个数、工作时段主叫通话次数、工作时段被叫通话次数、工作时段主叫平均通话时长、工作时段被叫平均通话时长、非工作时段主叫通话次数、非工作时段被叫通话次数、非工作时段主叫平均通话时长、非工作时段被叫平均通话时长等特征;
交往圈短信特征:取出is_contacter=1的数据,以其phone_no2为分析对象,统计以构建陌生用户号码个数、工作时段发送短信次数、工作时段接收短信次数、非工作时段发送短信次数、非工作时段接收短信次数等特征;其中,非工作时段定义为工作日除8:00-18:00之外的时段及非工作日。
基于运营商已确认的被骚扰用户及未被骚扰用户电话清单数据,关联特征宽表5形成标签列,其值为0/1,0表示已确认被骚扰用户,1表示已确认未被骚扰用户,最终生成样例数据表5。表5为本发明实施例中构建的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征汇总表,如表5所示:
表5
用户号码 通话陌生号码个数 短信陌生号码个数 工作时段主叫次数 工作时段平均通话时长 交往圈陌生号码个数 label
153****1 127 18 95 8.2 67 1
159****8 285 9 53 7.9 190 1
132****0 37 205 10 12.5 83 1
158****3 52 72 51 35.8 7 0
166****0 7 0 7 4.1 385 0
进一步的,还可以对表5中的数据进行归一化处理:
对表5中的每一个样本的每个特征值分别利用利用公式,
Figure GDA0002830996330000111
对表5中的样本数据利用Min-Max归一化方法处理成范围[0,1]之间的小数,其中,
对于样本中的每个特征,Xnormal是该样本归一化后的值;X为样本数据的值;Xmax为样本数据中的最大值;Xmin为样本数据中的最小值。
S103:根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本,所述利用所述训练样本组成的训练集训练目标支持向量机模型;并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。
示例性的,在每一次迭代中,将训练样本划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2。最后求得准确率的平均值作为模型的准确率评价指标
对训练样本拆分成K等份进行训练,比如拆成5个,拆出来的编码为abcde。每次训练时,依次取其中一份作为测试集,剩下的作为训练集。在第一次训练时,取a作为测试集,bcde作为训练集,第二次训练时取b作为测试集,acde作为测试集,以此类推,这样做5次,能够保证abcde每一份都有机会做测试集。
将训练集中的各个样本映射到特征空间内,得到若干个样本点。样本集的每一列即每个特征作为模型训练阶段的输入参数,标签字段作为用户的分类标签。模型最终输出的结果可以是用户的分类结果,其值为0/1,也可以输出用户的分类概率值,默认概率值大于0.5的认为是有借贷需求的用户,可根据实际需求进行阈值的调节。
特征空间为支持向量机的特征空间。SVM(Support Vector Machine,支持向量机)从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不仅能将两类正确分开,并且还要求分类间隔最大。SVM考虑找到一个满足分类要求的超平面,并且使训练数据集中的点距离分类超平面尽可能的远,也就是寻找一个分类面使它两侧的空白区域最大。这两类样本中距离分类超平面最近的样本点被称为支持向量,如下图中的点,支持向量机算法就是找到超平面f(x)=wTxi+b,使得支持向量到超平面的距离
Figure GDA0002830996330000121
的值最大。
因此,可以在约束条件为,yi(wTxi+b)≥1的条件下,利用公式,
Figure GDA0002830996330000122
建立当前超平面,其中,
L(w,b,α)为目标函数;w为支持向量的法向参数矩阵;∑为求和函数;n为样本点数量;|| ||2为2范数函数;yi为第i个样本点;wT为支持向量的法向参数矩阵的转置;α为拉格朗日乘子;b为支持向量的截距参数矩阵;
利用公式,
Figure GDA0002830996330000123
计算当前超平面对应的支持向量到超平面的距离,其中,max为求最大值函数。
使用测试集测试训练后的支持向量机模型,得到第一个支持向量机模型对应的准确率。
然后,将第二份数据作为测试集;将第一份数据以及,第三份至第K份数据作为训练集,调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值,得到第二个训练后的支持向量机模型;循环上述步骤。
然后,将上述步骤完成后模型输出的k个准确率取其平均值,该平均值即认为是模型的真实准确率。
最后,获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中,得到待识别用户对应的样本点;利用所述目标支持向量机模型对所述样本点进行划分,根据所述样本点被划分的区域判断所述用户是否被骚扰。图2为本发明实施例提供的一种被骚扰用户的识别方法的识别结果的分类示意图,如图2所示,图2是对被骚扰用户进行了二维分类的示例,实心黑色圆为骚扰电话的样本点,空心圆圈为非骚扰电话对应的样本点。可以理解的是,被骚扰用户的特征维度较多,被骚扰用户的分类的维度可以为三维或者更多维度。
对于待识别用户,获取其通话、短信数据,按照上述进行预测。模型输出结果可以是分类结果,其值为0/1,其中0为非骚扰用户,1为被骚扰用户;也可以输出分类概率值,默认值大于0.5的是被骚扰用户,具体阈值可根据实际需求进行调整。
应用本发明实施例,基于用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征利用支持向量机进行识别,相对于现有技术,无需识别通话内容,即使骚扰方变更了通话内容,也可以根据骚扰电话或者骚扰短信本身具有的共性特征进行识别,可以提高识别的准确率。
另外,现有的技术手段其目的往往是通过分析来电号码是否为陌生号码,判断其来电响铃次数,识别是否为“一声响”、“呼死你”等骚扰电话,或者通过简单的分析来电次数、来电时间等特征分析该号码是否为骚扰电话。而本发明所描述的被骚扰用户的识别方法,其分析对象不仅包含受害人,还包括其亲人、朋友,通过对受害人及其交往圈的分析来达到精准识别出被骚扰用户。另外,该方法可作为“套路贷”中受害用户是否收到犯罪分子恐吓、骚扰的识别方法。
本发明不仅提供了一种有效的被骚扰用户识别方法,还提供了一种交往圈和陌生号码的定义方式。并且,通过本发明的输出结果,可以更加友好的刻画用户交往圈和陌生号码。
本发明可应用在“套路贷”诈骗中的处于“偿还资金”阶段的用户识别中。处于该阶段的用户往往不仅自身深受“套路贷”犯罪分子的骚扰,其亲人、朋友等也可能出于被骚扰之中。
实施例2
对应于实施例1,本发明实施例还提供了一种被骚扰用户的识别装置。
图3为本发明实施例提供的一种被骚扰用户的识别装置的结构示意图,如图3所示,所述装置包括:
获取模块301,用于获取用户通话数据和短信数据,其中,所述用户通话数据包括:通话日期、用户号码、来电号码、来电时间以及通话时长;所述短信数据包括:数据日志、用户号码、来信号码以及来信时间;
生成模块302,用于对用户通话数据和短信数据进行统计,基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征;
识别模块303,用于根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本,所述利用所述训练样本组成的训练集训练目标支持向量机模型;并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。
应用本发明实施例,基于用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征利用支持向量机进行识别,相对于现有技术,无需识别通话内容,根据骚扰电话本身具有的共性特征进行识别,可以提高识别的准确率。
在本发明实施例的一种具体实施方式中,所述装置还包括:
归一化模块,用于对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理;
所述根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本的步骤,包括:
根据所述用户对应的归一化后的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本。
在本发明实施例的一种具体实施方式中,所述识别模块303,用于:
在每一次迭代中,将训练样本划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2;
将训练集中的各个样本映射到特征空间内,得到若干个样本点
在约束条件为,yi(wTxi+b)≥1的条件下,利用公式,
Figure GDA0002830996330000151
建立当前超平面,其中,
L(w,b,α)为目标函数;w为支持向量的法向参数矩阵;∑为求和函数;n为样本点数量;|| ||2为2范数函数;yi为第i个样本点;wT为支持向量的法向参数矩阵的转置;α为拉格朗日乘子;b为支持向量的截距参数矩阵;
利用公式,
Figure GDA0002830996330000161
计算当前超平面对应的支持向量到超平面的距离,其中,
max为求最大值函数;
调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值,并继续循环执行以上步骤,得到若干个训练后的支持向量机模型;
得到若干个训练后的支持向量机模型;使用测试集测试训练后的支持向量机模型,并将准确率最高的模型作为目标支持向量机模型。
在本发明实施例的一种具体实施方式中,所述识别模块303,用于:
获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中,得到待识别用户对应的样本点;
利用所述目标支持向量机模型对所述样本点进行划分,根据所述样本点被划分的区域判断所述用户是否被骚扰。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种被骚扰用户的识别方法,其特征在于,所述方法包括:
1)、获取用户通话数据和短信数据,其中,所述用户通话数据包括:通话日期、用户号码、来电号码、来电时间以及通话时长;所述短信数据包括:数据日志、用户号码、来信号码以及来信时间;
2)、对用户通话数据和短信数据进行统计,基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征;
3)、根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本,利用所述训练样本组成的训练集训练目标支持向量机模型;并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。
2.根据权利要求1所述的一种被骚扰用户的识别方法,其特征在于,在步骤3)之前,所述方法还包括:
对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理;
所述根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本的步骤,包括:
根据所述用户对应的归一化后的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本。
3.根据权利要求2所述的一种被骚扰用户的识别方法,其特征在于,所述利用所述训练样本组成的训练集训练目标支持向量机模型,包括:
在每一次迭代中,将训练样本划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2;
将训练集中的各个样本映射到特征空间内,得到若干个样本点
在约束条件为,yi(wTxi+b)≥1的条件下,利用公式,
Figure FDA0002851648600000021
建立当前超平面,其中,
L(w,b,α)为目标函数;w为支持向量的法向参数矩阵;∑为求和函数;n为样本点数量;|| ||2为2范数函数;yi为第i个样本点;wT为支持向量的法向参数矩阵的转置;α为拉格朗日乘子;b为支持向量的截距参数矩阵;
利用公式,
Figure FDA0002851648600000022
计算当前超平面对应的支持向量到超平面的距离,其中,
max为求最大值函数;
调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值,并继续循环执行以上步骤,得到若干个训练后的支持向量机模型;
得到若干个训练后的支持向量机模型;使用测试集测试训练后的支持向量机模型,并将准确率最高的模型作为目标支持向量机模型。
4.根据权利要求1所述的一种被骚扰用户的识别方法,其特征在于,所述利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户,包括:
获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中,得到待识别用户对应的样本点;
利用所述目标支持向量机模型对所述样本点进行划分,根据所述样本点被划分的区域判断所述用户是否被骚扰。
5.一种被骚扰用户的识别装置,其特征在于,所述装置包括:
获取模块,用于获取用户通话数据和短信数据,其中,所述用户通话数据包括:通话日期、用户号码、来电号码、来电时间以及通话时长;所述短信数据包括:数据日志、用户号码、来信号码以及来信时间;
生成模块,用于对用户通话数据和短信数据进行统计,基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征;
识别模块,用于根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本,利用所述训练样本组成的训练集训练目标支持向量机模型;并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。
6.根据权利要求5所述的一种被骚扰用户的识别装置,其特征在于,所述装置还包括:
归一化模块,用于对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理;
所述根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本的步骤,包括:
根据所述用户对应的归一化后的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本。
7.根据权利要求5所述的一种被骚扰用户的识别装置,其特征在于,所述识别模块,用于:
在每一次迭代中,将训练样本划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2;
将训练集中的各个样本映射到特征空间内,得到若干个样本点
在约束条件为,yi(wTxi+b)≥1的条件下,利用公式,
Figure FDA0002851648600000041
建立当前超平面,其中,
L(w,b,α)为目标函数;w为支持向量的法向参数矩阵;∑为求和函数;n为样本点数量;|| ||2为2范数函数;yi为第i个样本点;wT为支持向量的法向参数矩阵的转置;α为拉格朗日乘子;b为支持向量的截距参数矩阵;
利用公式,
Figure FDA0002851648600000042
计算当前超平面对应的支持向量到超平面的距离,其中,
max为求最大值函数;
调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值,并继续循环执行以上步骤,得到若干个训练后的支持向量机模型;
得到若干个训练后的支持向量机模型;使用测试集测试训练后的支持向量机模型,并将准确率最高的模型作为目标支持向量机模型。
8.根据权利要求5所述的一种被骚扰用户的识别装置,其特征在于,所述识别模块,用于:
获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中,得到待识别用户对应的样本点;
利用所述目标支持向量机模型对所述样本点进行划分,根据所述样本点被划分的区域判断所述用户是否被骚扰。
CN201911201600.3A 2019-11-29 2019-11-29 一种被骚扰用户的识别方法及装置 Active CN110995937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911201600.3A CN110995937B (zh) 2019-11-29 2019-11-29 一种被骚扰用户的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911201600.3A CN110995937B (zh) 2019-11-29 2019-11-29 一种被骚扰用户的识别方法及装置

Publications (2)

Publication Number Publication Date
CN110995937A CN110995937A (zh) 2020-04-10
CN110995937B true CN110995937B (zh) 2021-01-29

Family

ID=70088448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911201600.3A Active CN110995937B (zh) 2019-11-29 2019-11-29 一种被骚扰用户的识别方法及装置

Country Status (1)

Country Link
CN (1) CN110995937B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113630495B (zh) * 2020-05-07 2022-08-02 中国电信股份有限公司 涉诈订单预测模型训练方法和装置,订单预测方法和装置
CN113780338B (zh) * 2021-07-30 2024-04-09 国家计算机网络与信息安全管理中心 基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105611084A (zh) * 2016-01-29 2016-05-25 中国联合网络通信集团有限公司 一种欺诈用户的可疑度计算方法及可疑度计算系统
CN106686261A (zh) * 2017-01-19 2017-05-17 腾讯科技(深圳)有限公司 一种信息处理方法及系统
CN109429230A (zh) * 2017-08-28 2019-03-05 中国移动通信集团浙江有限公司 一种通信诈骗识别方法及系统
CN109447180A (zh) * 2018-11-14 2019-03-08 山东省通信管理局 一种基于大数据和机器学习的电信诈骗上当人发现方法
CN109587350A (zh) * 2018-11-16 2019-04-05 国家计算机网络与信息安全管理中心 一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法
CN110213448A (zh) * 2018-09-13 2019-09-06 腾讯科技(深圳)有限公司 恶意号码识别方法、装置、存储介质和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105611084A (zh) * 2016-01-29 2016-05-25 中国联合网络通信集团有限公司 一种欺诈用户的可疑度计算方法及可疑度计算系统
CN106686261A (zh) * 2017-01-19 2017-05-17 腾讯科技(深圳)有限公司 一种信息处理方法及系统
CN109429230A (zh) * 2017-08-28 2019-03-05 中国移动通信集团浙江有限公司 一种通信诈骗识别方法及系统
CN110213448A (zh) * 2018-09-13 2019-09-06 腾讯科技(深圳)有限公司 恶意号码识别方法、装置、存储介质和计算机设备
CN109447180A (zh) * 2018-11-14 2019-03-08 山东省通信管理局 一种基于大数据和机器学习的电信诈骗上当人发现方法
CN109587350A (zh) * 2018-11-16 2019-04-05 国家计算机网络与信息安全管理中心 一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法

Also Published As

Publication number Publication date
CN110995937A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US10554813B2 (en) Systems and methods for automatically conducting risk assessments for telephony communications
US20210281679A1 (en) System and method for identifying and handling unwanted callers using a call answering system
CN107306306B (zh) 通信号码处理方法及装置
CN110995937B (zh) 一种被骚扰用户的识别方法及装置
US9572004B2 (en) System and method for fast accurate detection of SMS spam numbers via monitoring grey phone space
CN108810290B (zh) 一种诈骗电话的识别的方法及系统
US20150134404A1 (en) Weighted promoter score analytics system and methods
CN110493476B (zh) 一种检测方法、装置、服务器及存储介质
US20220248191A1 (en) Caller identifier
CN113206909A (zh) 骚扰电话拦截方法及装置
CN110611929A (zh) 异常用户识别方法及装置
CN107231494A (zh) 一种用户通信特征的获取方法、存储介质及电子设备
CN110113748B (zh) 骚扰电话监控方法、装置
CN108198086B (zh) 用于依据通信行为特征来识别骚扰源的方法和装置
CN111062422B (zh) 一种套路贷体系化识别方法及装置
CN108810289B (zh) 一种互联网标注取消方法及装置
CN114449106B (zh) 一种异常电话号码的识别方法、装置、设备和存储介质
CN116308731A (zh) 账户催收处理方法和装置
CN113596260B (zh) 异常电话号码检测方法和电子设备
CN111464687A (zh) 一种陌生呼叫请求的处理方法及装置
CN107483700B (zh) 一种不良号码的识别方法与装置
CN112307075B (zh) 用户关系识别方法及装置
CN112333340B (zh) 一种自动电话外呼的方法、装置、存储介质、电子设备
CN110166635B (zh) 可疑终端识别方法和可疑终端识别系统
CN113286035B (zh) 异常呼叫检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant