CN110995937B

CN110995937B - 一种被骚扰用户的识别方法及装置

Info

Publication number: CN110995937B
Application number: CN201911201600.3A
Authority: CN
Inventors: 刘胜; 梁淑云; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-01-29
Anticipated expiration: 2039-11-29
Also published as: CN110995937A

Abstract

本发明提供了一种被骚扰用户的识别方法，所述方法包括：1)、获取用户通话数据和短信数据；2)、对用户通话数据和短信数据进行统计，基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征；3)、根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，所述利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。本发明提供了一种被骚扰用户的识别装置。应用本发明实施例，可以提高识别的准确率。

Description

一种被骚扰用户的识别方法及装置

技术领域

本发明涉及一种用户识别方法及装置，具体涉及一种被骚扰用户的识别方法及装置。

背景技术

随着现代通信技术以及软件技术的发展便利了人们的生活，但是，也滋生了“一声响”、“呼死你”等骚扰电话，尤其在借贷行业，借出方经常使用上述软件骚扰借贷方，因此，如何在运营商这一环节对这些骚扰电话或者骚扰短信进行识别并屏蔽是亟待解决的技术问题。

目前，申请号为CN201910381711.0的发明专利公开了一种骚扰电话处理方法、装置、移动终端以及存储介质。响应于满足预设条件的主叫号码的来电呼叫，保持静默并建立与来电呼叫的主叫方的通话连接，基于通话连接采集主叫方发送的第一音频数据，获取第二音频数据，计算第一音频数据和第二音频数据的相似度，第二音频数据为包括骚扰语音内容的音频数据，若相似度达到相似度阈值，确定主叫号码为骚扰号码并断开与主叫方的通话连接。以通过在接收到主叫号码的来电呼叫时，计算主叫方发送的音频数据和包括骚扰语音内容的音频数据的相似度，并在相似度达到相似度阈值时确定主叫号码为骚扰号码并断开通话，从而有效且可靠的过滤骚扰电话，降低用户被骚扰电话打扰的可能性，提升用户体验。

现有技术中根据通话内容进行监听判断该主叫方是否为骚扰电话，但是，如果骚扰电话的内容可能会不断变化，导致找不到相似的对比依据，导致无法识别出该主叫方是否是骚扰电话。因此，现有技术存在，识别准确率不高的技术问题。

发明内容

本发明所要解决的技术问题在于如何提供一种被骚扰用户的识别方法及装置，以提高骚扰电话识别的准确率。

本发明通过以下技术手段实现解决上述技术问题的：

本发明实施例提供了一种被骚扰用户的识别方法，所述方法包括：

1)、获取用户通话数据和短信数据，其中，所述用户通话数据包括：通话日期、用户号码、来电号码、来电时间以及通话时长；所述短信数据包括：数据日志、用户号码、来信号码以及来信时间；

2)、对用户通话数据和短信数据进行统计，基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征；

3)、根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，所述利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。

可选的，在步骤3)之前，所述方法还包括：

对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理；

所述根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本的步骤，包括：

根据所述用户对应的归一化后的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本。

可选的，所述利用所述训练样本组成的训练集训练目标支持向量机模型，包括：

在每一次迭代中，将训练样本划分为K等份，随机将其中的一份作为测试集，将除测试集之外的K-1份数据作为训练集，其中，所述K大于等于2；

将训练集中的各个样本映射到特征空间内，得到若干个样本点

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

L(w,b,α)为目标函数；w为支持向量的法向参数矩阵；∑为求和函数；n为样本点数量；|| ||²为2范数函数；y_i为第i个样本点；w^T为支持向量的法向参数矩阵的转置；α为拉格朗日乘子；b为支持向量的截距参数矩阵；

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值，并继续循环执行以上步骤，得到若干个训练后的支持向量机模型；

得到若干个训练后的支持向量机模型；使用测试集测试训练后的支持向量机模型，并将准确率最高的模型作为目标支持向量机模型。

可选的，所述利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户，包括：

获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中，得到待识别用户对应的样本点；

利用所述目标支持向量机模型对所述样本点进行划分，根据所述样本点被划分的区域判断所述用户是否被骚扰。

本发明实施例还提供了一种被骚扰用户的识别装置，所述装置包括：

获取模块，用于获取用户通话数据和短信数据，其中，所述用户通话数据包括：通话日期、用户号码、来电号码、来电时间以及通话时长；所述短信数据包括：数据日志、用户号码、来信号码以及来信时间；

生成模块，用于对用户通话数据和短信数据进行统计，基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征；

识别模块，用于根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，所述利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。

可选的，所述装置还包括：

归一化模块，用于对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理；

可选的，所述识别模块，用于：

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

可选的，所述识别模块，用于：

本发明的优点在于：

应用本发明实施例，基于用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征利用支持向量机进行识别，相对于现有技术，无需识别通话内容，根据骚扰电话本身具有的共性特征进行识别，可以提高识别的准确率。

附图说明

图1为本发明实施例提供的一种被骚扰用户的识别方法的流程示意图；

图2为本发明实施例提供的一种被骚扰用户的识别方法的识别结果的分类示意图；

图3为本发明实施例提供的一种被骚扰用户的识别装置的结构示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1为本发明实施例提供的一种被骚扰用户的识别方法的流程示意图，如图1所示，所述方法包括：

S101：获取用户通话数据和短信数据，其中，所述用户通话数据包括：通话日期、用户号码、来电号码、来电时间以及通话时长；所述短信数据包括：数据日志、用户号码、来信号码以及来信时间。

示例性的，可以从运营商那里获取用户通话数据。表1为本发明实施例中获取的用户通话数据汇总表，如表1所示：

表1

序号	字段名称	字段含义	字段类型	数据来源	备注
						1	day_id	数据日期	NUMBER	话单	数据处理日期
2	phone_no	用户号码	VARchar	话单	分析对象的电话号码
						3	call_phone	来电号码	VARchar	话单	来电号码
4	call_time	来电时间	DATE	话单	来电时间
						5	call_dur	来电通话时长	NUMBER	话单	来电通话时长

可以从运营商那里获取用户短信数据。表1为本发明实施例中获取的用户短信数据汇总表，如表2所示：

表2

序号	字段名称	字段含义	字段类型	数据来源	备注
						1	day_id	数据日志	NUMBER	短信	数据处理日期
1	phone_no	用户号码	VARchar	短信	分析对象的电话号码
						2	send_phone	来信号码	VARchar	短信	短信来信号码
3	send_time	来信时间	DATE	短信	短信来信时间

S102：对用户通话数据和短信数据进行统计，基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征。

示例性的，首先，分别以通话、短信表中的call_phone、send_phone为分析对象，取出其与phone_no的通话、短信数据，表3为本发明实施例中用户的号码通话数据、号码短信数据。

表3

day_id

phone_no1

phone_no2

call_type

send_type

call_time

send_time

call_dur

20190901

153＊＊＊＊1

133＊＊＊＊9

1

2019/1/1 1:12

2019/1/1 1:10

12

20190901

159＊＊＊＊8

132＊＊＊＊0

1

2019/1/1 0:25

35

20190901

132＊＊＊＊0

155＊＊＊＊5

2

2019/1/1 13:54

532

20190901

158＊＊＊＊3

187＊＊＊＊7

1

2019/1/1 20:10

79

20190901

166＊＊＊＊0

155＊＊＊＊2

1

2019/1/1 15:29

如表3所示，phone_no1和phone_no2分别为具有通话、短信关系的两个手机号码，phone_no1为所分析对象的手机号码；Call_type为phone_no1、phone_no2的呼叫关系，为1时表示phone_no1为主叫，为2时phone_no1为被叫。；Send_type为短信发送接收关系，为1时表示phone_no1为短信发送方，为2时表示phone_no1为短信接收方。call_time是通话时间；send_time为短信发送时间；call_dur为通话时长，单位为秒。

然后，构建用户的交往圈通话数据、交往圈短信数据，过程如下：

按照如下方式定义交往圈：1)、该用户手机号码下的所有副卡或该用户号码手机号码所属的主卡；2)、该用户所办理宽带下的连接wifi的手机号码，其中号码应至少连续三个月连接过该wifi；3)、该用户经常联系的手机号码，应至少有连续三个月的通话或短信行为；对于以上各定义的具体说明，如下：满足条件1)的，可定义为该用户的交往圈号码；满足条件2)并且满足条件3)的，可定义为该用户的交往圈号码；满足条件3)并且与该用户有多次长时间通话行为，可定义为该用户的交往圈号码。一般通话时长大于5分钟的定义为长时间通话；满足条件3)并且与该用户有多次在非工作时段通话的行为，可定义为该用户的交往圈号码。非工作时段一般定义为工作日8:00-18:00之外的时间段及非工作日。

基于数据表3，定义用户的陌生号码。此处给出的定义方式为该号码出现在所分析号码的最近一个月的通话记录中，且未出现在所分析号码最近一个月之前的六个月的通话记录中的号码。

然后，基于以上步骤分析及处理，对表3增加两列：phone_no2是否是交往圈号码、phone_no2是否是陌生号码，分别定义字段is_contacter,is_stranger表示，其值为0/1，0表示否，1表示是。表4为本发明实施例中提供的添加交往圈通话数据、交往圈短信数据后的特征汇总表。

表4

day_id	phone_no1	phone_no2	call_type	send_type	call_time	send_time	call_dur	is_contacter	is_stranger
										20190901	153＊＊＊＊1	133＊＊＊＊9	1	1	2019/1/1 1:12	2019/1/1 1:10	12	0	1
20190901	159＊＊＊＊8	132＊＊＊＊0	1		2019/1/1 0:25		35	0	1
										20190901	132＊＊＊＊0	155＊＊＊＊5	2		2019/1/1 13:54		532	0	0
20190901	158＊＊＊＊3	187＊＊＊＊7	1		2019/1/1 20:10		79	1	0
										20190901	166＊＊＊＊0	155＊＊＊＊2		1		2019/1/1 15:29		1	0

最后，通过对骚扰电话的行为特征分析可知，其一般具有拨打次数高，回拨率低，发送短信次数高，回复率低，拨打时段不固定，有深夜拨打电话、发送短信的行为、对受害人的亲戚朋友可能有骚扰的特点，构建以下特征，形成特征宽表5：

陌生号码通话特征：取出is_stranger＝1的数据，统计以构建分析号码的陌生用户号码个数、工作时段主叫通话次数、工作时段被叫通话次数、工作时段主叫平均通话时长、工作时段被叫平均通话时长、非工作时段主叫通话次数、非工作时段被叫通话次数、非工作时段主叫平均通话时长、非工作时段被叫平均通话时长等特征；

陌生号码短信特征：取出is_stranger＝1的数据，统计以构建分析号码的陌生用户号码个数、工作时段发送短信次数、工作时段接收短信次数、非工作时段发送短信次数、非工作时段接收短信次数等特征；

交往圈通话特征：取出is_contacter＝1的数据，以其phone_no2为分析对象，统计以构建陌生用户号码个数、工作时段主叫通话次数、工作时段被叫通话次数、工作时段主叫平均通话时长、工作时段被叫平均通话时长、非工作时段主叫通话次数、非工作时段被叫通话次数、非工作时段主叫平均通话时长、非工作时段被叫平均通话时长等特征；

交往圈短信特征：取出is_contacter＝1的数据，以其phone_no2为分析对象，统计以构建陌生用户号码个数、工作时段发送短信次数、工作时段接收短信次数、非工作时段发送短信次数、非工作时段接收短信次数等特征；其中，非工作时段定义为工作日除8:00-18:00之外的时段及非工作日。

基于运营商已确认的被骚扰用户及未被骚扰用户电话清单数据，关联特征宽表5形成标签列，其值为0/1，0表示已确认被骚扰用户，1表示已确认未被骚扰用户，最终生成样例数据表5。表5为本发明实施例中构建的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征汇总表，如表5所示：

表5

用户号码	通话陌生号码个数	短信陌生号码个数	工作时段主叫次数	工作时段平均通话时长	…	交往圈陌生号码个数	label
								153＊＊＊＊1	127	18	95	8.2	67	1
159＊＊＊＊8	285	9	53	7.9		190	1
								132＊＊＊＊0	37	205	10	12.5	83	1
158＊＊＊＊3	52	72	51	35.8		7	0
								166＊＊＊＊0	7	0	7	4.1	385	0

进一步的，还可以对表5中的数据进行归一化处理：

对表5中的每一个样本的每个特征值分别利用利用公式，

对表5中的样本数据利用Min-Max归一化方法处理成范围[0,1]之间的小数，其中，

对于样本中的每个特征，X_normal是该样本归一化后的值；X为样本数据的值；X_max为样本数据中的最大值；X_min为样本数据中的最小值。

S103：根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，所述利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。

示例性的，在每一次迭代中，将训练样本划分为K等份，随机将其中的一份作为测试集，将除测试集之外的K-1份数据作为训练集，其中，所述K大于等于2。最后求得准确率的平均值作为模型的准确率评价指标

对训练样本拆分成K等份进行训练，比如拆成5个，拆出来的编码为abcde。每次训练时，依次取其中一份作为测试集，剩下的作为训练集。在第一次训练时，取a作为测试集，bcde作为训练集，第二次训练时取b作为测试集，acde作为测试集，以此类推，这样做5次，能够保证abcde每一份都有机会做测试集。

将训练集中的各个样本映射到特征空间内，得到若干个样本点。样本集的每一列即每个特征作为模型训练阶段的输入参数，标签字段作为用户的分类标签。模型最终输出的结果可以是用户的分类结果，其值为0/1，也可以输出用户的分类概率值，默认概率值大于0.5的认为是有借贷需求的用户，可根据实际需求进行阈值的调节。

特征空间为支持向量机的特征空间。SVM(Support Vector Machine，支持向量机)从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不仅能将两类正确分开，并且还要求分类间隔最大。SVM考虑找到一个满足分类要求的超平面，并且使训练数据集中的点距离分类超平面尽可能的远，也就是寻找一个分类面使它两侧的空白区域最大。这两类样本中距离分类超平面最近的样本点被称为支持向量，如下图中的点，支持向量机算法就是找到超平面f(x)＝w^Tx_i+b，使得支持向量到超平面的距离

的值最大。

因此，可以在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，max为求最大值函数。

使用测试集测试训练后的支持向量机模型，得到第一个支持向量机模型对应的准确率。

然后，将第二份数据作为测试集；将第一份数据以及，第三份至第K份数据作为训练集，调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值，得到第二个训练后的支持向量机模型；循环上述步骤。

然后，将上述步骤完成后模型输出的k个准确率取其平均值，该平均值即认为是模型的真实准确率。

最后，获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中，得到待识别用户对应的样本点；利用所述目标支持向量机模型对所述样本点进行划分，根据所述样本点被划分的区域判断所述用户是否被骚扰。图2为本发明实施例提供的一种被骚扰用户的识别方法的识别结果的分类示意图，如图2所示，图2是对被骚扰用户进行了二维分类的示例，实心黑色圆为骚扰电话的样本点，空心圆圈为非骚扰电话对应的样本点。可以理解的是，被骚扰用户的特征维度较多，被骚扰用户的分类的维度可以为三维或者更多维度。

对于待识别用户，获取其通话、短信数据，按照上述进行预测。模型输出结果可以是分类结果，其值为0/1，其中0为非骚扰用户，1为被骚扰用户；也可以输出分类概率值，默认值大于0.5的是被骚扰用户，具体阈值可根据实际需求进行调整。

应用本发明实施例，基于用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征利用支持向量机进行识别，相对于现有技术，无需识别通话内容，即使骚扰方变更了通话内容，也可以根据骚扰电话或者骚扰短信本身具有的共性特征进行识别，可以提高识别的准确率。

另外，现有的技术手段其目的往往是通过分析来电号码是否为陌生号码，判断其来电响铃次数，识别是否为“一声响”、“呼死你”等骚扰电话，或者通过简单的分析来电次数、来电时间等特征分析该号码是否为骚扰电话。而本发明所描述的被骚扰用户的识别方法，其分析对象不仅包含受害人，还包括其亲人、朋友，通过对受害人及其交往圈的分析来达到精准识别出被骚扰用户。另外，该方法可作为“套路贷”中受害用户是否收到犯罪分子恐吓、骚扰的识别方法。

本发明不仅提供了一种有效的被骚扰用户识别方法，还提供了一种交往圈和陌生号码的定义方式。并且，通过本发明的输出结果，可以更加友好的刻画用户交往圈和陌生号码。

本发明可应用在“套路贷”诈骗中的处于“偿还资金”阶段的用户识别中。处于该阶段的用户往往不仅自身深受“套路贷”犯罪分子的骚扰，其亲人、朋友等也可能出于被骚扰之中。

实施例2

对应于实施例1，本发明实施例还提供了一种被骚扰用户的识别装置。

图3为本发明实施例提供的一种被骚扰用户的识别装置的结构示意图，如图3所示，所述装置包括：

获取模块301，用于获取用户通话数据和短信数据，其中，所述用户通话数据包括：通话日期、用户号码、来电号码、来电时间以及通话时长；所述短信数据包括：数据日志、用户号码、来信号码以及来信时间；

生成模块302，用于对用户通话数据和短信数据进行统计，基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征；

识别模块303，用于根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，所述利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。

在本发明实施例的一种具体实施方式中，所述装置还包括：

在本发明实施例的一种具体实施方式中，所述识别模块303，用于：

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种被骚扰用户的识别方法，其特征在于，所述方法包括：

3)、根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。

2.根据权利要求1所述的一种被骚扰用户的识别方法，其特征在于，在步骤3)之前，所述方法还包括：

3.根据权利要求2所述的一种被骚扰用户的识别方法，其特征在于，所述利用所述训练样本组成的训练集训练目标支持向量机模型，包括：

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

4.根据权利要求1所述的一种被骚扰用户的识别方法，其特征在于，所述利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户，包括：

5.一种被骚扰用户的识别装置，其特征在于，所述装置包括：

识别模块，用于根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别待识别用户是否属于被骚扰用户。

6.根据权利要求5所述的一种被骚扰用户的识别装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的一种被骚扰用户的识别装置，其特征在于，所述识别模块，用于：

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

8.根据权利要求5所述的一种被骚扰用户的识别装置，其特征在于，所述识别模块，用于：