CN116684527A

CN116684527A - 模型训练方法、装置及电子设备

Info

Publication number: CN116684527A
Application number: CN202310671765.7A
Authority: CN
Inventors: 张俊祥; 邢学锋; 陈辰; 尚春雷
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-01

Abstract

本申请公开了一种模型训练方法、装置及电子设备。其中，该方法包括：获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码。本申请解决了相关技术中基于手机管家提供的来电标签提醒进行诈骗电话识别造成的识别准确率较低，安全性较差的技术问题。

Description

模型训练方法、装置及电子设备

技术领域

本申请涉及数据识别领域，具体而言，涉及一种模型训练方法、装置及电子设备。

背景技术

通讯信息骚扰诈骗治理是一项系统性工程，具有长期性、反复性和复杂性等特点，骚扰诈骗分子利用技术漏洞、管理缺位以及用户防范意识薄弱实施诈骗，给治理工作带来严峻挑战。

目前互联网安全公司提供的手机管家能够提供来电标签提醒，但这类方式准确率较低，且不能阻断电话呼入，也不能阻止电话接听和后续可能发生的受诈行为，且该类软件部署本身存在数据安全风险等问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种模型训练方法、装置及电子设备，以至少解决相关技术中基于手机管家提供的来电标签提醒进行诈骗电话识别造成的识别准确率较低，安全性较差的技术问题。

根据本申请实施例的一个方面，提供了一种模型训练方法，包括：获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码。

可选地，在得到目标机器学习模型之后，方法还包括：获取待分析的目标号码，基于机器学习模型对目标号码对应的目标话单进行分析，确定目标号码是否为疑似诈骗号码。

可选地，在基于机器学习模型对目标号码对应的目标话单进行分析之前，包括：确定目标话单的通话属性，其中，通话属性包括：本地属性或外呼属性，其中，本地属性对应的本地呼叫次数大于外呼属性对应的本次呼叫次数；根据通话属性确定是否对目标机器学习模型进行更新，其中，在确定对目标机器学习模型进行更新的情况下，调整目标机器学习模型在训练过程中，第一历史话单数据对应的第一信令特征、第一通话行为特征所占的第一权重，以及第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第二权重；采用调整后的第一信令特征、第一通话行为特征所占的第一权重，以及调整后的第二信令特征、第二通话行为特征所占的第二权重对目标机器学习模型进行训练，得到新的目标训练模型。

可选地，根据通话属性确定是否在对目标机器学习模型进行更新，包括：获取目标机器学习模型在历史时段训练过程中，第一信令特征、第一通话行为特征所占的第三权重，以及第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第四权重；在通话属性为本地属性的情况下，如果第三权重小于预设权重，或者第四权重大于预设权重，则对目标学习模型进行更新。

可选地，根据通话属性确定是否在对目标机器学习模型进行更新，包括：获取目标机器学习模型在历史时段训练过程中，第一信令特征、第一通话行为特征所占的第三权重，以及第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第四权重；在通话属性为外呼属性的情况下，如果第三权重大于预设权重，或者第四权重小于预设权重，则目标学习模型进行更新。

可选地，在确定目标号码是否为疑似诈骗号码之后，方法还包括：在确定目标号码为疑似诈骗号码的情况下，获取疑似诈骗号码对应的检测指标，其中，检测指标包括：短时响铃占比、通话失败率以及拨打对端号码离散度；在短时响铃占比、通话失败率以及拨打对端号码离散度中至少有两个检测指标大于其对应的预设值的情况下，确定疑似诈骗号码为诈骗号码，并将诈骗号码发送至运营商，以用于运营商对诈骗号码进行关停处理。

可选地，根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，包括：根据信令特征、通话行为特征确定正样本及负样本对应的用户特征，其中，正样本包括：符合诈骗类型的号码，负样本包括：未标记诈骗的号码；对用户特征进行特征提取，其中，提取到的特征包括：号码特征、基本特征以及扩展特征；采用随机森林算法求取号码特征、基本特征以及扩展特征各自对应的基尼指数，其中，基尼指数越小，则不纯度越低；基于基尼指数对各个特征进行排序，筛选出排名在前N位的特征作为目标特征；基于目标特征对机器学习模型进行训练，得到目标机器学习模型。

可选地，在确定目标号码是否为疑似诈骗号码之后，方法还包括：在确定目标号码为疑似诈骗号码的情况下，对疑似诈骗号码的类型进行聚类分析，确定各个疑似诈骗号码所属的诈骗类型，针对不同诈骗类型生成提示信息，并将提示信息发送至目标对象侧的终端。

根据本申请实施例的另一方面，还提供了一种识别疑似诈骗号码的方法，包括：获取待分析的目标号码；基于机器学习模型对目标号码对应的目标话单进行分析，确定目标号码是否为疑似诈骗号码，其中，机器学习模型为根据信令特征与通话行为特征训练得到的，信令特征与通话行为特征为对运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据进行筛选得到的。

根据本申请实施例的另一方面，还提供了一种模型训练装置，包括：第一获取模块，用于获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；第二获取模块，用于从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；确定模块，用于根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行任意一种模型训练方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现任意一种模型训练方法。

在本申请实施例中，采用基于机器学习模型对疑似诈骗电话进行识别的方式，通过获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码，达到了基于学习模型对疑似诈骗电话进行识别的目的，从而实现了提高疑似诈骗电话识别率，以及提高终端安全性，避免数据等隐私泄露的技术效果，进而解决了相关技术中基于手机管家提供的来电标签提醒进行诈骗电话识别造成的识别准确率较低，安全性较差技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种可选的模型训练方法的流程示意图；

图2是本申请实施例中，用于表示短时响铃占比的示意图；

图3是本申请实施例中，用于表示通话失败率的示意图；

图4是本申请实施例中，用于表示拨打对端号码离散度的示意图；

图5是本申请实施例中，总体建模的流程示意图；

图6是本申请实施例中，模型训练过程的流程示意图；

图7是本申请实施例中，建模检测过程中的数据流转流程示意图；

图8是根据本申请实施例的一种识别疑似诈骗号码的流程示意图；

图9是根据本申请实施例的一种可选的识别疑似诈骗号码的方法的流程示意图；

图10是根据本申请实施例的一种可选的模型训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种模型训练方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的模型训练方法，如图1所示，该方法包括如下步骤：

步骤S102，获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；

需要说明的是，上述运营商网元操作域即为O域(operation support system)，上述运营商计算域即为B域(business support system)。

步骤S104，从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；

步骤S106，根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码。

在该模型训练方法中，采用基于机器学习模型对疑似诈骗电话进行识别的方式，通过获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码，达到了基于学习模型对疑似诈骗电话进行识别的目的，从而实现了提高疑似诈骗电话识别率，以及提高终端安全性，避免数据等隐私泄露的技术效果，进而解决了相关技术中基于手机管家提供的来电标签提醒进行诈骗电话识别造成的识别准确率较低，安全性较差技术问题。

在本申请一些实施例中，在得到目标机器学习模型之后，可以对话单中的号码进行实时识别，因此，可以获取待分析的目标号码，基于机器学习模型对目标号码对应的目标话单进行分析，确定目标号码是否为疑似诈骗号码。

为了尽可能提供模型识别的准确性，在一些可选的实施例中，在基于机器学习模型对目标号码对应的目标话单进行分析之前可以，根据目标话单的通话属性确定是否对模型进行更新，以便确定出最适用当前场景下的模型，其可以通过如下方式实现：确定目标话单的通话属性，其中，通话属性包括：本地属性或外呼属性，其中，本地属性对应的本地呼叫次数大于外呼属性对应的本次呼叫次数；根据通话属性确定是否对目标机器学习模型进行更新，其中，在确定对目标机器学习模型进行更新的情况下，调整目标机器学习模型在训练过程中，第一历史话单数据对应的第一信令特征、第一通话行为特征所占的第一权重，以及第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第二权重；采用调整后的第一信令特征、第一通话行为特征所占的第一权重，以及调整后的第二信令特征、第二通话行为特征所占的第二权重对目标机器学习模型进行训练，得到新的目标训练模型。

需要说明的是，B域话单具有如下特点：(1)字段多：包含更多的通话信息字段(例如是否漫游、漫游地、通话话费、IMEI/IMSI等)以及用户信息字段(如用户所用套餐类型等)；(2)时延大：由于计费话单需要由运营商集团回填下发，因此时延较高，通常是每日下发昨天的计费话单，无法做到诈骗事件的事中阻拦；(3)数据全：对于归属本省份运营商的号码，无论是否漫游到省内省外均能获取该号码的全部通话记录，能对漫游出省的号码行为进行完整地分析和检测。

O域话单具有如下特点：(1)只要同一运营商的手机用户在省内拨打省内，省际，国际的固话或移动号码，都会在省内产生相应的信令，信令采集迅速，实时性强；(2)时延低：话单采集输出后能实时进行分析，能准实时输出诈骗事件与受骗号码，方便后续发送提醒短信以及联动公安进行回访阻断；(3)范围窄：由于O域话单仅能采集到省内用户的相关通话，若诈骗号码漫游在省外，则仅能采集到诈骗号码与省内用户的通话记录，无法获取诈骗号码的全部通话进行分析，因此主要针对的是省内的诈骗号码以及骚扰号码进行检测。

基于以上的话单特性，涉及本地呼叫次数较多，则应该将O域话单在训练过程中的比重调高一些，因此，作为一种可选的实施方式，根据通话属性确定是否在对目标机器学习模型进行更新，包括：获取目标机器学习模型在历史时段训练过程中，第一信令特征、第一通话行为特征所占的第三权重，以及第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第四权重；在通话属性为本地属性的情况下(即本地的呼叫次数较多，需要说明的是，省内呼叫一般都算是本地呼叫)，如果第三权重小于预设权重，或者第四权重大于预设权重，则对目标学习模型进行更新。在即将使用的目标机器学习模型，如果其在原先的训练过程中，O域对应的第三权重较小，则应该重新调整O域对应的第三权重，以将O域对应的第三权重调大，再次进行训练得到一个新的模型，然后，基于新的模型进行数据识别。

作为另一种可选的实施方式，根据通话属性确定是否在对目标机器学习模型进行更新，包括：获取目标机器学习模型在历史时段训练过程中，第一信令特征、第一通话行为特征所占的第三权重，以及第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第四权重；在通话属性为外呼属性的情况下(即外地的呼叫次数较多，需要说明的是，省外的呼叫一般都可以归类为外地呼叫)，如果第三权重大于预设权重，或者第四权重小于预设权重，则目标学习模型进行更新。同理，在即将使用的目标机器学习模型，如果其在原先的训练过程中，B域对应的第四权重较小，则可以调整第四权重，重新进行模型训练。上述预设权重可以为50％。

相关技术中一般提供的来电标签提醒，不能阻断电话呼入，也不能阻止电话接听和后续可能发生的受诈行为，为了能够解决上述问题，在本申请一可选的实施例中，可在确定疑似诈骗号码进行封停措施，具体的，在确定目标号码为疑似诈骗号码的情况下，可以获取疑似诈骗号码对应的检测指标，其中，检测指标包括：短时响铃占比、通话失败率以及拨打对端号码离散度；在短时响铃占比、通话失败率以及拨打对端号码离散度中至少有两个检测指标大于其对应的预设值的情况下，确定疑似诈骗号码为诈骗号码，并将诈骗号码发送至运营商，以用于运营商对诈骗号码进行关停处理。

具体的，(1)短时响铃占比，可参见图2，横坐标表示可疑号码个数自然序号，纵坐标表示对应号码的短时响铃占比。短时响铃占比越高，疑似诈骗电话概率越高。经验证，可疑号码的短时响铃占比基本在0.9以上。

(2)通话失败率，可参见图3，横坐标表示可疑号码个数自然序号，纵坐标表示对应号码的通话失败率。通话失败率越高，疑似诈骗电话概率越高。经验证，可疑号码的通话失败率基本在0.7以上。

(3)拨打对端号码离散度，可参见图4，横坐标表示可疑号码个数自然序号，纵坐标表示对应号码的拨打对端号码离散度。离散度越高，疑似诈骗电话概率越高。经验证，可疑号码的对端号码离散度基本占比在0.6以上。

在本申请一些可选的实施例中，根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，包括：根据信令特征、通话行为特征确定正样本及负样本对应的用户特征，其中，正样本包括：符合诈骗类型的号码，负样本包括：未标记诈骗的号码；对用户特征进行特征提取，其中，提取到的特征包括：号码特征、基本特征以及扩展特征；采用随机森林算法求取号码特征、基本特征以及扩展特征各自对应的基尼指数，其中，基尼指数越小，则不纯度越低；基于基尼指数对各个特征进行排序，筛选出排名在前N位的特征作为目标特征；基于目标特征对机器学习模型进行训练，得到目标机器学习模型。

作为一种可选的实施方式，在确定目标号码是否为疑似诈骗号码之后，方法还包括：在确定目标号码为疑似诈骗号码的情况下，对疑似诈骗号码的类型进行聚类分析，确定各个疑似诈骗号码所属的诈骗类型，针对不同诈骗类型生成提示信息，并将提示信息发送至目标对象侧的终端。

图5和图6分别示出了总体建模流程以及训练模型，如图5、图6所示,该建模包括：

1、样本提取：正样本提取包括根据设定的条件提取出符合建模诈骗类型的号码，负样本提取包括在抽样条件下没有标记的号码。正样本提取：设定以下条件，进行正样本提取。

(1)根据公案报案数据，查看样本中公安登记的案件详情，找出符合本次建模诈骗类型的骗子号码；

(2)根据某市公司提供的举报号码，找出符合本次建模诈骗类型的骗子号码；

(3)根据12321举报平台举报号码，找出符合本次建查诈骗类型的骗子号码；

(4)根据部分互联网软件标签标注的部分号码，找出符合本次建查诈骗类型的骗子号码。

负样本提取：设定抽样条件，提取负样本，根据某地市信息，在不同号段信息，随机抽取一批看似正常的用户号码，然后查询互联网爬虫数据，查看这批号码是否标记为骚扰，诈骗(快递送餐，房产中介除外)，如果没有标记，则认为符合负样本特征。

2、特征提取：对样本提取特征，提取的特征包括号码特征、基本特征以及根据B域和O域话单提取的扩展特征，具体如下：

(1)号码特征：从话单中筛选出主叫是手机或固话，并且被叫为手机的话单。(

2)基本特征：选取主叫号、被叫号、通话开始时间、通话结束时间、主叫时长、响铃时长、主叫号码归属省、主叫号码归属地市字段。

(3)扩展特征：增加二次通话之间时间间隔、闲时(以0-8点及21～23点为闲时)呼叫次数、呼叫失败次数、平均通话时间间隔、通话时间间隔标准差、通话峰值、短时响铃次数、通话总时长、被叫号码数。(4)按照协议标准，输出号码及相关数据。

对特征的进一步扩展，还可以得到的包括：

(1)当天特征扩展：根据当天用户的通话行为，分析出用户的基本特征，基本特征包括号码长度、号码类型、归属运营商等；(2)多天特征扩展：根据7天的数据，找出连续多天通话行为，找出7天的骗子号码活跃天数等；(3)统计特征扩展：根据当天或7天，统计出主被叫通话时长，主叫比例等。

根据7天历史计费话单初筛的特征字段：

当天归化初筛的特征字段：

3、算法选择：在算法选择上，优先选择树形分类算法对基于号码的大量通话行为特征进行数据的深度挖掘和检测，实现对特定场景诈骗号码的精准检测。决策树中的每一个节点都是关于某个特征的条件，为的是将数据集按照不同的响应变量一分为二，利用不纯度可以确定节点(最优条件)。对于分类问题，通常采用基尼不纯度或者信息增益，对于回归问题，通常采用的是方差或者最小二乘拟合。当训练决策树的时候，可以计算出每个特征减少了多少树的不纯度。对于一个决策树森林来说，可以算出每个特征平均减少了多少不纯度，并把它平均减少的不纯度作为特征选择的值。树形算法进行的特征选择可以通过多折交叉验证，对各折特征重要性进行累加，特征重要性累加值为0的可以尝试剔除。选择树形分类算法一方面能输出对应特征重要性，提升对该诈骗场景的可解释程度，另一方面树形算法在训练时对冗余特征或贡献较小的特征不敏感，其对模型预测结果影响不大。

4、模型训练：

(1)根据提取的特征与选择的合适算法进行模型构建，分析抽象不同场景下信令特征、用户通话行为，精细化特征权重和阈值。

(2)对训练集和测试集效果进行评估，针对疑似号码的检测效果进行分析。例如，基于基站的聚集行为统计，针对不同号码聚集在少量基站等异常聚集行为进行分析，实现对异常通话场景的研判。

(3)针对初筛命中超短呼涉诈号码用户，成功率较高则说明有效，反之则继续调整模型特征值，直到精准匹配。对训练好的模型在测试集上面进行验证并进行上线前的评估，达到上线条件后对模型进行固化。

对于本申请的建模场景积累的统计特征，后续可采用如下评估方法：

(1)人工研判：由于不同的场景对应的诈骗通话行为具备其独特性，例如色情诈骗的主要特征往往集中在夜间通话，因此对于新的场景而言，如果全部样本的通话都不会在夜间进行，则无需引入夜间通话相关统计特征。同理，若建模场景当中号码仅当天才有活跃通话行为，则无需引入多天通话行为的相关特征。

(2)训练研判：对于较为通用的通话行为特征，则通过提取样本数据进行模型训练，并通过K折等方式对其特征重要性进行评估。若该特征在大多数情况下特征重要性均低于预设阈值，则判断该特征属于冗余特征，对其进行剔除。

(3)模型效果：若仅采用已有特征进行建模训练，但模型在测试集的精准率或召回率不满足上线需求，则说明现有特征对于该场景而言不足以对正常号码和诈骗号码进行有效区分，则需要人工对样本数据进行分析，提炼出更多新的特征。

建模检测过程中的数据流转如图7所示，其流程包括：(1)DPI采集数据；(2)话单文件预处理后入库；(3)话单写入HDFS(分布式文件系统)；(4)响一声号码检测；(5)输出检测结果；(6)数据推送；(7)前台展示。

通过特征工程的方法扩展特征对用户进行画像，通过lightGBM中的算法进行建模分析。LightGBM是一个轻量级的GB框架，基于决策树的学习算法，支持分布式学习，优势是占用的内存更低，数据分隔的复杂度更低。采用leaf-wise生长策略，每次从当前所有叶子中找到分裂增益最大(一般也是数据量最大)的一个叶子，然后分裂，如此循环，但会生长出比较深的决策树，产生过拟合，因此LightGBM在leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合。

5、评估以及参数调整

最终基于lightGBM算法，从获取的涉案数据与正常用户做为正负样本，对通话行为进行特征扩展，然后进行模型训练。最终，对训练出来的模型进行重要性评估，从中选择以下16个对模型效果贡献比较大，对区分涉案号码比较明显的特征，见下表：

按照上表特征库进行实验赋值测试：

(1)通用特征：

用户七天主叫比例大于等于0.73；用户七天通话中本端和对端的所在地不一致比例大于等于0.95；用户七天所有主叫通话中拨打手机号码次数的比例大于等于0.92；

(2)特征分支1：

用户当天主叫次数大于等于38；用户当天主叫lac_ci种类数目小于等于3；用户当天主叫平均每通电话时长大于等于20秒并且小于等于160秒；用户当天主叫对端所在地种类大于等于25；用户七天主叫通话次数大于等于250；用户七天主叫总通话时长大于等于11000；用户七天主叫对端所在地种类大于等于38；用户活跃天数大于等6天；用户七天总话费大于等于130元；

(3)特征分支2：

用户当天主叫通话总时长大于等于1000秒；用户当天主叫对端所在地种类大于等于4；用户当天主叫平均每通电话时长大于等于45秒；用户平均每个活跃天数的话费大于等于9元；用户平均每个活跃天数的主叫通话总时长大于等于1300秒；用户七天长途话费为0。

图8是根据本申请实施例的一种识别疑似诈骗号码的流程示意图，如图8所示，该流程包括：

步骤S810，获取数据源为运营商侧O域、B域获取历史电信网络诈骗事件中诈骗号码的历史计费话单数据，其中，历史计费话单数据主要来自运营商识别的诈骗号码集、12321举报号码、公安报案号码，和部分互联网标注号码。从用户话单数据中挑选符合超短呼特征的输入条件的字段。如：主叫号码、主叫号码类型、被叫号码、被叫号码类型、通话开始时间、通话结束时间、通话时长、振铃时长、主叫所属省份、主叫所属地市、本端位置小区号、对端位置小区号、本端基站、对端基站。

步骤S812，根据超短呼特征从O域筛选相关字段，抽取信令特征和用户通话行为构建模型。根据超短呼特征从B域筛选相关字段，抽取信令特征和用户通话行为构建模型，样本提取，通过数据流转提取运营商的B域和O域话单作为样本，进行正样本提取和负样本提取，形成用户样本库，根据O域时延低的特点，选取字段：主叫号码、主叫号码类型、被叫号码、被叫号码类型、主叫所属省份、主叫所属地市、本端位置小区号、本端基站、对端基站。

根据B域时延低的特点，选取字段：主叫号码、被叫号码、通话开始时间、通话结束时间、通话时长、振铃时长、主叫所属省份、主叫所属地市。正样本提取，来自根据公案报案数据、根据某市公司提供的举报号码、根据12321举报平台举报号码，找出符合本次建查诈骗类型的骗子号码。负样本提取，根据部分互联网标签标注的部分号码，设定抽样条件20％，找出符合本次建查诈骗类型的骗子号码。在不同号段信息，随机抽取一批看似正常的用户号码，然后查询互联网爬虫数据，查看这批号码是否标记为骚扰，诈骗(快递送餐，房产中介除外)，如果没有没有标记，则认为符合负样本特征。

对特征扩展，比如增加二次通话之间时间间隔、闲时(以0-8点及21～23点为闲时)呼叫次数、呼叫失败次数、平均通话时间间隔、通话时间间隔标准差、通话峰值、短时响铃次数、通话总时长、被叫号码数。

对特征进一步扩展，示一例，比如当天用户的通话行为，分析出用户的基本特征，基本特征包括号码长度、号码类型、归属运营商等。比如多天特征扩展根据7天的数据，找出连续多天通话行为，找出7天的骗子号码活跃天数等。比如统计特征扩展根据当天或7天，统计出主被叫通话时长，主叫比例等。对特征进一步扩展，再示一例，比如算法选择根据样本与特征选择合适的分类算法进行建模，优选采用树形分类算法。

步骤S814，建模并对训练集和测试集效果进行评估，分析初筛疑似号码的检测效果。首先统计诈骗号码的通话行为特征，全面设定各融合场景的初筛条件及阈值。分析不同场景抽象信令特征、用户通话行为，精细化特征权重和阈值，所涉及的特征包括主被叫占比、平均通话时长、拨打区域离散度、集中时间点、重复通话占比等多种维度特征，进一步深度分析出用户行为，明确关键特征及权重。在搭建好的模型上，通过大数据机器学习持续训练模型特征和权重，对于正负样本构建，通过模型训练集机器学习优化特征权重。

采用随机森林、light-GBM(梯度提升决策树)等机器学习算法，基于号码的大量通话行为特征进行数据的深度挖掘和检测，实现对特定场景诈骗号码的精准检测。

通过特征工程的方法扩展特征对用户进行画像，不同的机器学习方法有不同的特点，比如通过lightGBM中的算法进行建模分析LightGBM是一个轻量级的GB框架，基于决策树的学习算法，支持分布式。

采用leaf-wise生长策略，每次从当前所有叶子中找到分裂增益最大(一般也是数据量最大)的一个叶子，然后分裂，如此循环；但会生长出比较深的决策树，产生过拟合。不断优化得出16个重要特征形成超短呼叫骚扰号码特征库。实验赋值示例对话单进行处理选择，主叫为手机用户通用特征条件：

1.用户七天主叫比例大于等于0.73；2.用户七天通话中本端和对端的所在地不一致比例大于等于0.95；3.用户七天所有主叫通话中拨打手机号码次数的比例大于等于0.92；具体对手机或者固话进行处理选择，主叫为手机用户条件特征分支一：1.用户当天主叫次数大于等于38；2.用户当天主叫lac_ci种类数目小于等于3；3.用户当天主叫平均每通电话时长大于等于20秒并且小于等于160秒；4.用户当天主叫对端所在地种类大于等于25；5.用户七天主叫通话次数大于等于250；6.用户七天主叫总通话时长大于等于11000；7.用户七天主叫对端所在地种类大于等于38；8.用户活跃天数大于等6天；9.用户七天总话费大于等于130元。

具体对手机或者固话进行处理选择，主叫为手机用户条件特征分支二：1.用户当天主叫通话总时长大于等于1000秒；2.用户当天主叫对端所在地种类大于等于4；3.用户当天主叫平均每通电话时长大于等于45秒；[042]4.用户平均每个活跃天数的话费大于等于9元；5.用户平均每个活跃天数的主叫通话总时长大于等于1300秒；6.用户七天长途话费为0。

话单精简区分，重组模型输出的话单数据，去除冗余字段，并增加部分字段；针对号码进行话单分区，并确保每个分区的话单数据量均衡；突破计算资源限制，支持反诈程序对话单的长期数据分析。话单去重，重组话单数据，突破计算资源限制，支持反诈程序对话单的长期数据分析。

步骤S816，模型结果检出，过滤白名单用户及历时重复数据，模型结果检出最终疑似超短呼叫电话诈骗号码。

图9是根据本申请实施例的提供的另一种识别疑似诈骗号码的方法，如图9所示，该方法包括：

S902，获取待分析的目标号码；

S904，基于机器学习模型对目标号码对应的目标话单进行分析，确定目标号码是否为疑似诈骗号码，其中，机器学习模型为根据信令特征与通话行为特征训练得到的，信令特征与通话行为特征为对运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据进行筛选得到的。

该方法中，通过获取待分析的目标号码，然后，基于机器学习模型对目标号码对应的目标话单进行分析，确定目标号码是否为疑似诈骗号码，其中，机器学习模型为根据信令特征与通话行为特征训练得到的，信令特征与通话行为特征为对运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据进行筛选得到的，达到了基于学习模型对疑似诈骗电话进行识别的目的，从而实现了提高疑似诈骗电话识别率，以及提高终端安全性，避免数据等隐私泄露的技术效果，进而解决了相关技术中基于手机管家提供的来电标签提醒进行诈骗电话识别造成的识别准确率较低，安全性较差技术问题。

图10是根据本申请实施例的一种模型训练装置，如图10所示，该装置包括：

第一获取模块1002，用于获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；

第二获取模块1004，用于从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；

确定模块1006，用于根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码。

该装置中，第一获取模块1002，用于获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；第二获取模块1004，用于从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；确定模块1006，用于根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码，达到了基于学习模型对疑似诈骗电话进行识别的目的，从而实现了提高疑似诈骗电话识别率，以及提高终端安全性，避免数据等隐私泄露的技术效果，进而解决了相关技术中基于手机管家提供的来电标签提醒进行诈骗电话识别造成的识别准确率较低，安全性较差技术问题。

具体地，上述存储介质用于存储以下功能的程序指令，实现以下功能：

获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；从第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；根据信令特征与通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，机器学习模型用于对目标号码对应的目标话单进行识别，确定目标号码是否为疑似诈骗号码。

可选地，在本实施例中，上述存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。上述存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本申请的实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一项的模型训练方法。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入设备输出设备和上述处理器连接。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；

从所述第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；

根据所述信令特征与所述通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，所述机器学习模型用于对所述目标号码对应的目标话单进行识别，确定所述目标号码是否为疑似诈骗号码。

2.根据权利要求1所述的方法，其特征在于，在得到目标机器学习模型之后，所述方法还包括：

获取待分析的目标号码，基于所述机器学习模型对所述目标号码对应的目标话单进行分析，确定所述目标号码是否为所述疑似诈骗号码。

3.根据权利要求2所述的方法，其特征在于，在基于所述机器学习模型对所述目标号码对应的目标话单进行分析之前，包括：

确定所述目标话单的通话属性，其中，所述通话属性包括：本地属性或外呼属性，其中，所述本地属性对应的本地呼叫次数大于所述外呼属性对应的本次呼叫次数；

根据所述通话属性确定是否对所述目标机器学习模型进行更新，其中，在确定对所述目标机器学习模型进行更新的情况下，调整所述目标机器学习模型在训练过程中，所述第一历史话单数据对应的第一信令特征、第一通话行为特征所占的第一权重，以及所述第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第二权重；采用调整后的第一信令特征、第一通话行为特征所占的第一权重，以及调整后的所述第二信令特征、第二通话行为特征所占的第二权重对所述目标机器学习模型进行训练，得到新的目标训练模型。

4.根据权利要求3所述的方法，其特征在于，根据所述通话属性确定是否在对所述目标机器学习模型进行更新，包括：

获取所述目标机器学习模型在历史时段训练过程中，所述第一信令特征、第一通话行为特征所占的第三权重，以及所述第二历史话单数据对应的第二信令特征、第二通话行为特征所占的第四权重；

在所述通话属性为所述本地属性的情况下，如果所述第三权重小于预设权重，或者所述第四权重大于所述预设权重，则对所述目标学习模型进行更新。

5.根据权利要求3所述的方法，其特征在于，根据所述通话属性确定是否在对所述目标机器学习模型进行更新，包括：

在所述通话属性为外呼属性的情况下，如果所述第三权重大于预设权重，或者所述第四权重小于所述预设权重，则所述目标学习模型进行更新。

6.根据权利要求1所述的方法，其特征在于，在确定所述目标号码是否为所述疑似诈骗号码之后，所述方法还包括：

在确定所述目标号码为所述疑似诈骗号码的情况下，获取所述疑似诈骗号码对应的检测指标，其中，所述检测指标包括：短时响铃占比、通话失败率以及拨打对端号码离散度；

在所述短时响铃占比、通话失败率以及拨打对端号码离散度中至少有两个检测指标大于其对应的预设值的情况下，确定所述疑似诈骗号码为诈骗号码，并将所述诈骗号码发送至运营商，以用于所述运营商对所述诈骗号码进行关停处理。

7.根据权利要求1所述的方法，其特征在于，根据所述信令特征与所述通话行为特征对机器学习模型进行训练，得到目标机器学习模型，包括：

根据所述信令特征、所述通话行为特征确定正样本及负样本对应的用户特征，其中，所述正样本包括：符合诈骗类型的号码，所述负样本包括：未标记诈骗的号码；

对所述用户特征进行特征提取，其中，提取到的特征包括：号码特征、基本特征以及扩展特征；

采用随机森林算法求取所述号码特征、基本特征以及扩展特征各自对应的基尼指数，其中，所述基尼指数越小，则不纯度越低；

基于所述基尼指数对各个特征进行排序，筛选出排名在前N位的特征作为目标特征；基于所述目标特征对所述机器学习模型进行训练，得到所述目标机器学习模型。

8.根据权利要求1所述的方法，其特征在于，在确定所述目标号码是否为所述疑似诈骗号码之后，所述方法还包括：

在确定所述目标号码为所述疑似诈骗号码的情况下，对所述疑似诈骗号码的类型进行聚类分析，确定各个疑似诈骗号码所属的诈骗类型，针对不同诈骗类型生成提示信息，并将所述提示信息发送至目标对象侧的终端。

9.一种识别疑似诈骗号码的方法，其特征在于，包括：

获取待分析的目标号码；

基于机器学习模型对所述目标号码对应的目标话单进行分析，确定所述目标号码是否为疑似诈骗号码，其中，所述机器学习模型为根据信令特征与通话行为特征训练得到的，所述信令特征与通话行为特征为对运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据进行筛选得到的。

10.一种模型训练装置，其特征在于，包括：

第一获取模块，用于获取运营商网元操作域对应的第一历史话单数据，以及运营商计算域对应的第二历史话单数据；

第二获取模块，用于从所述第一历史话单数据与第二历史话单数据中获取符合超短呼叫行为的信令特征以及通话行为特征；

确定模块，用于根据所述信令特征与所述通话行为特征对机器学习模型进行训练，得到目标机器学习模型，其中，所述机器学习模型用于对所述目标号码对应的目标话单进行识别，确定所述目标号码是否为疑似诈骗号码。

11.一种非易失性存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述模型训练方法。

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的模型训练方法。