CN113627566A

CN113627566A - 一种网络诈骗的预警方法、装置和计算机设备

Info

Publication number: CN113627566A
Application number: CN202110970531.3A
Authority: CN
Inventors: 陈雪清; 孙涛
Original assignee: Shanghai Qiyue Information Technology Co Ltd
Current assignee: Shanghai Qiyue Information Technology Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-09

Abstract

本发明提供了一种网络诈骗的预警方法、装置和计算机设备。该方法包括：建立并训练多个受骗倾向度评分的基模型，各基模型用于预测该用户设备的关联用户的受骗倾向度；监测最近特定时间段内受骗的用户的关联用户设备，确定候选变量；根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征；获取新接入设备的特征，进行相似度和受骗倾向度评分计算；根据新接入设备的相似度与受骗倾向度评分，进行电信或网络诈骗的预警。与现有技术相比，本发明能精确判断是否向新接入设备进行电信或网络诈骗的预警，能够预先提醒用户以免受电信或网络诈骗。

Description

一种网络诈骗的预警方法、装置和计算机设备

技术领域

本发明涉及计算机信息处理领域，具体而言，涉及一种网络诈骗的预警方法、装置和计算机设备。

背景技术

风险控制(简称为风控)是指风险管理者采取各种措施和方法，消灭或减少风险案件发生的各种可能性，或风险控制者减少风险案件发生时造成的损失。风险控制应用于互联网行业，如对公司的交易、商家的交易或个人交易等进行风险控制。

近年来电子商务和通讯信息行业得到迅猛发展，个人信息几乎随时随地都会存在泄露的可能。个人信息的泄露为不法分子进行网络诈骗提供了温床。因信息泄露的渠道、形式及信息泄露的内容和颗粒度在不同时间段不同，加之诈骗分子诈骗手段的日新月异，导致用于区分易受骗用户而用短信或电话方式进行预警的模型很容易快速失去效用。

目前，诈骗模型主要针对选定时间窗口的样本，抽取时间窗内的受骗样本特征以用于建模。但是，使用传统模型拟合的数据都存在滞后性，甚至还存在所抽取的用户特征或变量特征不具备连续性的问题。

因此，有必要提供一种改进了的网络诈骗的预警方法。

发明内容

为了解决以下技术问题：在电信或网络诈骗场景下因相关信息数据的滞后性、数据响应滞后性导致模型预测的应用时间短、通用性差以及模型不稳定等。

本发明的第一方面提供了一种网络诈骗的预警方法，包括：建立并训练多个受骗倾向度评分的基模型，各所述基模型能够根据用户设备特征预测该用户设备的关联用户的受骗倾向度；监测最近特定时间段内受骗的用户的关联用户设备，将各所述基模型对所述关联用户设备的受骗倾向度评分、以及各基模型使用的用户设备特征作为候选变量；根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征；获取新接入设备的特征，采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分；根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警。

根据本发明的可选实施方式，各模型的训练数据来自不同的历史时间窗口的历史用户设备。

根据本发明的可选实施方式，所述筛选候选变量包括：计算所述候选变量的信息价值，并选取信息价值较高的候选变量。

根据本发明的可选实施方式，所述计算所述候选变量的信息价值，包括：

对所有所述候选变量进行分箱，得到多组候选变量特征组；

确定每组所述候选变量特征组中的正样本和负样本；其中，所述正样本为所述特定时间段内受骗的用户的用户设备对应的候选变量，所述负样本为所述特定时间段内未受骗的用户的用户设备对应的候选变量；

通过如下公式计算所述候选变量的信息价值：

其中，IV是指所述候选变量的信息价值；p0是所述候选变量所属第i候选变量特征组中负样本的数量，p1是所述候选变量所属第i候选变量特征组中正样本的数量，p0是所有所述候选变量特征组中负样本的数量，p1是所有所述候选变量特征组中正样本的数量，log是对数函数。

根据本发明的可选实施方式，所述用户设备特征包括以下的任一种：设备关联人反馈近期有接到陌生电话、设备关联人的人脸识别中出现异常。

根据本发明的可选实施方式，所述相似度计算包括：计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的特征之间的马氏距离。

根据本发明的可选实施方式，根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警包括：在所计算的新接入设备的所述相似度与所述受骗倾向度评分均大于设定值时，向所述新接入设备进行电信或网络诈骗的预警。

根据本发明的可选实施方式，所述预警包括：向所述新接入设备发送预警信息。

此外，本发明的第二方面提供了一种网络诈骗的预警装置，包括：处理模块，用于建立并训练多个受骗倾向度评分的基模型，各所述基模型能够根据用户设备特征预测该用户设备的关联用户的受骗倾向度；监测模块，用于监测最近特定时间段内受骗的用户的关联用户设备，将各所述基模型对所述关联用户设备的受骗倾向度评分、以及各基模型使用的用户设备特征作为候选变量；筛选模块，用于根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征；第一计算模块，用于获取新接入设备的特征，采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分；预测模块，用于根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警。

此外，本发明的第三方面提供了一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行如本发明的第一方面所述的网络诈骗的预警方法。

此外，本发明的第四方面提供了一种计算机程序产品，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现如本发明的第一方面所述的网络诈骗的预警方法。

有益效果

与现有技术相比，本发明通过监测最近特定时间段内受骗的用户的关联用户设备，能够实时拟合标签阈值及其对应的用户设备的设备特征；并根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征，能够精确筛选变量特征；采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分，根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警，能够精确判断是否向新接入设备进行电信或网络诈骗的预警，能够预先提醒用户以免受电信或网络诈骗。

进一步地，根据所计算的各候选变量特征组的模型分类精确度，以及所计算的候选变量的信息价值，能够精确筛选出区分受骗用户设备和非受骗设备的强变量特征；通过构建目标用户设备特征的二维变量空间，以用于与易受骗用户设备相似的相似度计算，根据所述变量特征和/或强变量特征以及其相应的特征向量、相似度阈值(或设定值)，建立设备数据库，并实时更新所述相似度阈值(或设定值)；通过调整模型参数以优化模型参数，能够优化模型结构，由此，能够得到更精确的目标基模型，能够提高模型分类精度，能够提高模型的通用型和稳定性，还能够优化模型建立过程。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明本发明示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是本发明的实施例1的网络诈骗的预警方法的一示例的流程图。

图2是本发明的实施例1的网络诈骗的预警方法的另一示例的流程图。

图3是本发明的实施例1的网络诈骗的预警方法的又一示例的流程图。

图4是本发明的实施例2的网络诈骗的预警装置的一示例的示意图。

图5是本发明的实施例2的网络诈骗的预警装置的另一示例的示意图。

图6是本发明的实施例2的网络诈骗的预警装置的又一示例的示意图。

图7是根据本发明的计算机设备的示例性实施例的结构框图。

图8是根据本发明的计算机程序产品的示例性实施例的结构框图。

具体实施方式

现在将参考附图更全面地描述本发明的示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例能够使得本发明更加全面和完整，更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分，因而将省略对它们的重复描述。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。

在对于具体实施例的描述中，本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是，并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例如，第一器件亦可称为第二器件而不偏离本发明实质的技术方案。

术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

鉴于上述问题，本发明提供了一种网络诈骗的预警方法，该方法通过监测最近特定时间段内受骗的用户的关联用户设备，能够实时拟合标签阈值及其对应的用户设备的设备特征；并根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征，能够精确筛选变量特征；采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分，根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警，能够精确判断是否向新接入设备进行电信或网络诈骗的预警，能够预先提醒用户以免受电信或网络诈骗。

需要说明的是，在本发明中，所述网络诈骗包括电信诈骗和通过互联网进行的诈骗。

实施例1

下面，将参照图1至图3描述本发明的网络诈骗的预警方法的实施例。

图1为本发明的网络诈骗的预警方法的流程图。如图1所示，该预警方法包括如下步骤。

步骤S101，建立并训练多个受骗倾向度评分的基模型，各所述基模型能够根据用户设备特征预测该用户设备的关联用户的受骗倾向度。

步骤S102，监测最近特定时间段内受骗的用户的关联用户设备，将各所述基模型对所述关联用户设备的受骗倾向度评分、以及各基模型使用的用户设备特征作为候选变量。

步骤S103，根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征。

步骤S104，获取新接入设备的特征，采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分。

步骤S105，根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警。

下面，将结合具体示例对本发明的预警方法进行具体说明。

首先，在步骤S101中，建立并训练多个受骗倾向度评分的基模型，各所述基模型能够根据用户设备特征预测该用户设备的关联用户的受骗倾向度。

在一实施方式中，获取特定时间段内历史用户设备的设备数据、受骗倾向表现数据，从中抽取基于不同历史时间窗口的历史受骗用户的用户设备的设备特征。

需要说明的是，在发明中，历史时间窗口是指与不同用户群或不同地区相对应的时间窗口，例如包括固定时间段、固定时长等。例如，某个时间窗口受骗用户会以学生居多，某个时间窗口某个地区受骗用户居多，某个时间窗口受骗用户以医护行业的用户居多等等。

具体地，所述特定时间段包括1天～60天，例如为1天、7天、15天、30天或60天。

更具体地，所述历史用户设备的设备数据包括设备ID、设备标识码和设备名称。

进一步地，受骗倾向表现数据包括用户设备接到陌生电话、用户设备接到陌生电话后产生动支数据，用户设备在打开短信或网页推送信息中的链接之后产生购买等的动支数据，指定时间段内(例如半小时、一个小时等)多次购买行为数据，客服所反馈的被欺诈用户设备的设备数据等等。通过使用上述受骗倾向表现数据中的至少一个数据量化以表征受骗标签，并基于受骗标签建立多个基模型，所述多个基模型都用于评价用户设备所关联的用户的受骗倾向度(在本发明中，所述用户也称为设备关联人)。上述仅作为示例进行说明，不能理解成对本发明的限制。

在另一实施方式中，如图2所示，还将步骤S101拆分成步骤S201和步骤S101。

在步骤S201中，预设抽取参数，根据该抽取参数，进行设备特征抽取。例如，预设与不同时间窗口相对应的指定时间段、时长，地区或位置等的抽取参数。

例如，根据指定时间段(例如周一至周五的周中时间段，18:00～22:00)和地区，抽取历史受骗用户的用户设备(即受骗样本或标注有受骗标签的用户设备)的用户设备特征。

具体地，所述用户设备特征包括以下的任一种：设备关联人反馈近期有接到陌生电话、设备关联人的人脸识别中出现异常。

作为一具体实施方式，使用XGBoost方法或深度神经网络，并使用上述所抽取的用户设备特征，建立以下三个基模型，所述三个基模型包括与第一时间窗口相对应的第一评分模型、与第二时间窗口相对应的第二评分模型、与第三时间窗口相对应的第三评分模型，其中，第一时间窗口的指定时间段例如为上午8：00～11:00，下午13:00～18:00等的周中工作时间；第二时间窗口的指定时间段例如为中午11：00～13：00，11：00～14：00等周中午休息时间；第三时间窗口的指定时间段为下午18:00～22:00，当日18:00～次日8:00，或者周末时间等。

需要说明的是，上述仅作为示例进行说明，不能理解成对本发明的限制。在其他示例中，可以使用相同的算法建立第一评分模型、第二评分模型和三评分模型，也可以分别使用不用的算法建立第一评分模型、第二评分模型和三评分模型。此外，还可以使用TextCNN算法、随机森林算法、逻辑回归算法等，或者使用上述算法中的两种以上的算法。而具体使用的算法可以根据采样数据量和/或业务需求进行确定。

接下来，分别建立与第一评分模型、第二评分模型、第三评分模型行对应的第一训练数据集、第二训练数据集和第三训练数据集。即，各基模型的训练数据均来自不同的历史时间窗口的历史用户设备。

在本示例中，对各训练数据集，定义好坏样本，受骗标签为0，1，使用设备关联人反馈近期(最近1天～30天)有接到陌生电话(和/或设备关联人的人脸识别中出现异常)进行向量化以表征受骗标签，其中，1表示用户的受骗概率为Y以上的样本，0表示用户的受骗概率为小于Y的样本。

具体地，所述第一训练数据集、第二训练数据集和第三训练数据集均包括标注有受骗标签的用户设备的设备数据、设备关联人的用户特征数据，其中，所述用户特征数据包括年龄、性别、区域、职业类别、月收入或年收入、受教育水平情况、未婚、已婚且是否有孩子、或者离异、反馈最近(例如最近一天，最近一周内等)是否接到陌生电话、在动支时是否出现异常问题等等。

可选地，还建立第一测试数据集、第二训练测试集和第三测试数据集，以用于筛选候选变量。

因此，通过所建立的第一评分模型、第二评分模型、第三评分模型能够精确预测用户设备的受骗倾向度，并基于上述多个基模型进入下一数据处理(例如候选变量的确定、变量筛选处理)步骤。

需要说明的是，上述仅作为示例进行说明，不能理解成对本发明的限制。

下面将具体说明候选变量的确定过程。

在步骤S102中，监测最近特定时间段内受骗的用户的关联用户设备，将各所述基模型对所述关联用户设备的受骗倾向度评分、以及各基模型使用的用户设备特征作为候选变量。

在一实施方式中，配置监测规则，根据监测规则，监测最近特定时间段内受骗的用户的关联用户设备，其中，所述监测规则包括与监测相对应的时间参数和监测指标，所述时间参数包括实时监测、定时监测、固定时间监测等；所述监测指标包括是否接到陌生电话，或者是否接到诈骗信息。

具体地，监测最近特定时间段内受骗的用户的关联用户设备，其中，在监测到一个监测指标时，实时获取受骗的用户及其关联用户设备的相关数据，即确定具有最新受骗标签的用户设备(即负样本)。其中，该相关数据包括接到陌生电话、接到陌生电话的次数大于设定次数，接到诈骗信息，在接到陌生电话或诈骗信息之后产生动支行为数据等的信息变化特征。

进一步地，对来电反馈或者通过在线客服反馈接到诈骗电话或被网络诈骗的用户进行记录，并用于建立设备数据库，以用于生成具有最新受骗标签(大于设定标签阈值Y₀)的负样本，并用于动态更新相应数据(例如标签阈值Y)，由此，能够实时拟合标签阈值及其对应的用户设备的设备特征。

更具体地，所述最近特定时间段包括最近8小时内、最近10小时内、最近24小时内、最近48小时内、最近7天内和最近1个月内等。将最近特定时间段作为一个单位时间，每个单位时间对应一个标签阈值，记录并拟合标签阈值。例如，将当前最近特定时间段监测到的(受骗用户)用户设备的用户设备特征，调用相应基模型计算模型预测值，并将该一个或多个模型预测值的均值或百分位值作为下一最近特定时间段的标签阈值。由此，能够实时更新标签阈值，并能够精确拟合标签阈值的变化趋势图。

进一步地，识别所获取的相关数据中的用户设备特征(例如设备ID)，将所述用户设备特征，输入到所述多个基模型，得到相应的第一受骗倾向度评分、第二受骗倾向度评分、第三受骗倾向度评分。

在一实施方式中，将最近一个月内所获取的受骗用户及其关联用户设备的接到陌生电话、接到陌生电话的次数大于设定次数，通过计算得到的第一受骗倾向度评分、第二受骗倾向度评分、第三受骗倾向度评分，作为候选变量。由此，能够精准确定候选变量。

在另一实施方式中，将所获取的关联用户设备的相关数据，第一受骗倾向度评分、第二受骗倾向度评分、第三受骗倾向度评分，以及计算第一受骗倾向度评分、第二受骗倾向度评分、第三受骗倾向度评分相对应的用户特征数据作为候选变量。该用户特征数据包括年龄、性别、区域、职业类别、月收入或年收入、反馈最近(例如最近一天，最近一周内等)是否接到陌生电话、动支时人脸识别环节出现异常问题。由此，能够有效确定候选变量。

在又一实施方式中，按照关联用户设备所属类别进行分组，得到多个候选变量特征组。但是不限于此，上述仅作为示例进行说明，不能理解成对本发明的限制，在其他示例中，还可以按照用户性别、年领、工作类型、年收入等进行分组。此外，还可以使用聚类方法进行聚类分析以得到候选变量的多个分组，等等。

进一步地，使用所确定的候选变量或候选变量特征组，建立用于训练基模型的训练数据集，并建立用于验证基模型的测试数据集。

需要说明的是，在步骤S102中用户特征数据与步骤S101中的用户特征数据所表示的物理意义及所包括的数据均相同，因此，省略了对其的说明。上述仅作为示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S103中，根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征。

作为一优选实施方式，根据候选变量对受骗结果的影响度筛选候选变量，确定所述影响度包括计算各候选变量的信息价值的步骤S301(具体参见图3，将步骤S103拆分成步骤S301和步骤S103)。

例如，根据步骤S102所生成的最新受骗标签(例如受骗概率)，将历史用户设备进行分组，并基于最新受骗标签建立多个训练数据集和多个测试数据集，根据不同时间窗口进行变量特征分组以形成多个变量特征组。

具体地，使用所述多个训练数据集，对各基模型(例如上述三个基模型)进行增量学习或二次训练，在二次训练的过程中，在自动筛选与最新受骗标签相关的候选变量特征的同时，对所述基模型的模型结构和模型参数进行调整。

更具体地，对于每个候选变量特征组和相应的训练数据集，以及测试数据集，均执行如下步骤：

1)计算各候选变量特征组的模型分类精确度，在所计算的模型分类精确度大于指定值(例如为85％～95％)时，筛选出相应特征组，计算所筛选出的所有特征的信息增益值IV以作为所述影响度，依次按特征影响度从高到低，分别对各候选变量特征组和各候选变量特征进行排序；2)从所述排序中选取特定数量的变量特征，以完成了变量特征筛选。例如选取信息价值较高(例如排序靠前5名，或者所计算的IV_单大于设定值等)的候选变量。

需要说明的是，当候选变量特征组的总信息价值IV_总、以及单个候选变量特征的信息价值IV_单均位于排序为前5名，且信息价值IV_单大于设定值时，则筛选出该单个候选变量特征，以得到变量特征或强变量特征，所述强变量特征用于表征区分受骗用户的关联用户设备和非受骗用户的关联用户设备的区别能力较强的变量特征。

对用于训练模型的各训练数据集和/或测试数据集中每一个候选变量特征，通过如下公式(1)计算所述候选变量的信息价值：

在另一实施方式中，与上述优选实施方式的区别在于，对所有所述候选变量进行分箱，得到多组候选变量特征组，确定每组所述候选变量特征组中的正样本和负样本，其中，所述正样本为所述特定时间段内受骗的用户的用户设备对应的候选变量，所述负样本为所述特定时间段内未受骗的用户的用户设备对应的候选变量。

进一步地，通过上述公式(1)计算各组候选变量特征组中各候选变量的信息价值，并根据所计算的信息价值与预定阈值(正样本的第一预定阈值或负样本的第二预定阈值)之间比较，以筛选区分受骗用户设备和非受骗设备的强变量特征，或者分别在相应候选变量特征组中正样本和负样本中选择信息价值IV(在该实施方式中为信息价值IV_单)排序为特定排名之前(例如，排名前三名)的变量特征为区分受骗用户设备和非受骗设备的强变量特征，由此，能够更精确地筛选强变量特征。

需要说明的是，上述公式(1)中，例如预设所述对数函数中底数a，在本示例中，a为2，但是不限于此，在其他示例中，a还可以为e(即约等于2.72)、10或者自然底数等。本发明对此不做特别限定。

因此，根据所计算的各候选变量特征组的模型分类精确度，以及所计算的候选变量的信息价值，能够精确筛选出区分受骗用户设备和非受骗设备的强变量特征。

例如，对于最近一个月内受骗用户的年龄集中分布在25岁以下(通常情况下设备关联人集中分布在30-40岁之间等)的示例中，其中，筛选出25岁以下的年龄段分布特征为强变量特征。

再例如，对于最近半个月内受骗用户的城市集中分布在石家庄、山西等城市(通常情况下受骗用户设备的设备关联人集中分布在县级城市等)的示例中，其中，筛选出地区分布特征为强变量特征。

进一步地，根据所筛选的与用户设备特征相关的变量特征和/或强变量特征，构建目标用户设备特征的二维变量空间，以用于与易受骗用户设备相似的相似度计算，构建该二维变量空间还包括形成上述这些变量特征的统计特征向量vector(比如均值、方差等)，并根据所述变量特征和/或强变量特征以及其相应的特征向量、相似度阈值(或设定值)，建立设备数据库，并实时更新所述相似度阈值，该设备数据数据库用于判断新接入用户设备是否为易受骗用户设备。

需要说明的是，在本发明中，判断是否为受骗用户的用户设备的标签阈值、以及判断与易受骗用户相似的相似度阈值均是不断波动的，实时拟合标签阈值和相似度阈值的变化趋势图，并根据前一最近特定时间内的标签阈值和相似度阈值来实时确定。

因此，通过实时动态确定与新接入设备相对应的标签阈值和相似度阈值，以对该新接入设备进行易受骗用户设备的判断，能有效解决电信或网络诈骗场景下因相关信息数据的滞后性、数据响应滞后性导致模型预测的应用时间短的问题。

在另一实施方式中，还包括设定筛选规则的步骤。通过该筛选规则对所提取的变量特征进行进一步筛选。

具体地，所述筛选规则包括设定相关系数阈值，并在变量特征与设备关联人的受骗结果之间的相关系数大于所述相关系数阈值时从变量特征组中筛选出信息价值最大的变量特征，作为强变量特征。

在又一实施方式中，对于各训练数据集所对应的训练数据集中各数据样本，还包括进行如下步骤：判断历史负样本(即受骗用户的用户设备样本)的真实概率与预测概率是否一致的步骤。

具体地，计算真实概率和所输出的预测概率的相对偏差，其中，在所计算的相对偏差小于设定值时，判断真实概率和所述预测概率一致；而在所计算的相对偏差值大于等于设定值时，判断真实概率和所述预测概率不一致。由此，能够更精确地判断真实概率和所述预测概率是否一致。

需要说明的是，上述仅作为示例进行说明，不能理解成对本发明的限制，在其他实施方式中，也可以计算真实概率与所输出的预测概率的差值来判断真实概率和预测概率是否一致。在本示例中，所述设定值是由业务人员根据历史真实概率的统计值所确定的。但是不限于此，在其他示例中，还可通过其他方式进行确定。

具体地，在判断真实概率和所述预测概率是否一致的步骤之后，判断与所述真实概率一致的所述预测概率的数量在所有所述训练数据样本的数量的占比是否大于预设占比值。

若是，则基模型(例如第一基模型、第二基模型和第三基模型)收敛，得到训练完成的目标基模型。

若否，则调整相应基模型中的模型参数，重新通过所述基模型对所述历史负样本(即受骗用户的用户设备样本)的预测概率，直至与所述真实概率一致的所述预测概率的数量在所有所述训练数据样本的数量的占比大于预设占比值。

需要说明的是，对于上述判断与所述真实概率一致的所述预测概率的数量在所有所述训练数据样本的数量的占比是否大于预设占比值的步骤等等，还可以更换建立模型所使用的机器学习方法，重新建立各基模型，等等。上述仅作为示例进行说明，不能理解成对本发明的限制。

由此，通过调整模型参数以优化模型参数，能够优化模型结构，由此，能够得到更精确的目标基模型，能够提高模型分类精度，能够提高模型的通用型和稳定性，还能够优化模型建立过程。

需要说明的是，上述仅作为示例进行说明，不能理解成对本发明的限制。在其他示例中，

在步骤S104中，获取新接入设备的特征，采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分。

具体地，当接收到新接入设备向互联网资源服务平台进行资源服务申请时，获取该新接入设备的特征，该特征为设备ID、设备标识码和设备名称等。

更具体地，计算该新接入设备的用户设备特征与设备数据库中受骗用户的用户设备的向量特征(二维空间向量中的各用户设备的特征向量)之间的马氏距离，根据所计算的马氏距离，判断该该新接入设备的用户设备特征是否为目标用户设备特征。例如，确定所计算的马氏距离大于历史设定值的受骗用户的关联用户设备，根据所述受骗用户的关联用户设备所对应的设备特征，确定所述新接入设备的目标用户设备特征，例如所述目标用户设备特征包括设备ID和变化信息特征，例如该变化信息特征包括由最近一个月或半个月内接到陌生电话、接到陌生电话的次数和/或在接到陌生电话或诈骗信息之后产生动支行为数据等多个数据量化所生成的多维向量数据。

优选地，根据所述目标用户设备特征，实时确定用于对比判断的当前设定值(或相似度阈值)，例如使用前一最近特定时间段的设定值的均值作为当前设定值。

需要说明的是，上述仅作为示例进行说明，不能理解成对本发明的限制。在其他示例中，还可使用欧式距离、余弦距离等计算所述相似度。

进一步地，将所计算的马氏距离与所确定的当前设定值进行比较，在所计算的马氏距离大于所述当前设定值时，判断与该新接入设备相似的用户设备的用户设备特征，并根据所述相似的用户设备的用户设备特征、标签阈值的变化趋势图，确定与新接入设备相对应的标签阈值。

在一实施方式中，采用训练好的目标基模型，输入用户设备的设备特征和变化信息特征(即输入特征为用户设备特征和变化信息特征)，计算所述新接入设备的受骗倾向度评分，即预测该新接入设备的关联用户的受骗倾向度。

在另一实施方式中，采用训练好的目标基模型，输入用户设备的变化信息特征，计算所述新接入设备的受骗倾向度评分，即预测该新接入设备的关联用户的受骗倾向度。

进一步地，将所计算的受骗倾向度评分与所确定的标签阈值进行比较，在所述受骗倾向度评分大于所述标签阈值时，判断新接入设备为易受骗用户设备或者新接入设备的关联用户的受骗倾向度。

接下来，在步骤S105中，根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警。

具体地，根据所计算的新接入设备与设备数据库中受骗用户设备的相似度，以及与所述受骗倾向度评分，判断是否向所述新接入设备进行电信或网络诈骗的预警。

在一实施方式中，在所计算的新接入设备与设备数据库中受骗用户设备的相似度大于设定值(即当前设定值或相似度阈值)，且所述新接入设备的受骗倾向度评分大于评分设定值时，判断向所述新接入设备进行电信或网络诈骗的预警。

在另一实施方式中，在所计算的新接入设备与设备数据库中受骗用户设备的相似度小于等于设定值(即当前设定值或相似度阈值)，或者所述新接入设备的受骗倾向度评分小于等于评分设定值时，判断不向所述新接入设备进行电信或网络诈骗的预警。

具体地，所述进行电信或网络诈骗的预警包括：通过短信、邮件或其他社交工具向所述新接入设备发送预警信息，还通过打电话的方式向所述新接入设备电话通知预警信息，其中，所述预警信息包括用于提醒用户陌生号码及信息的风险性，提醒用户向相关服务部分核实电话信息等等。

因此，通过采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分，根据所述相似度和所述受骗倾向度评分，能够精确判断是否向新接入设备进行电信或网络诈骗的预警，能够预先提醒用户以免受电信或网络诈骗。

本领域技术人员可以理解，实现上述实施例的全部或部分步骤被实现为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被执行时，可以实现本发明提供的上述方法。而且，所述的计算机程序可以存储于计算机可读存储介质中，该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质，也可以是多个存储介质组成的存储阵列，例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储，其也可以是分布式存储，例如基于云计算的云存储。

实施例2

下面描述本发明的装置实施例，该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节，应视为对于上述方法实施例的补充；对于在本发明装置实施例中未披露的细节，可以参照上述方法实施例来实现。

参照图4、图5和图6，本发明还提供了一种网络诈骗的预警装置400，所述预警装置400包括：处理模块401，用于建立并训练多个受骗倾向度评分的基模型，各所述基模型能够根据用户设备特征预测该用户设备的关联用户的受骗倾向度；监测模块402，用于监测最近特定时间段内受骗的用户的关联用户设备，将各所述基模型对所述关联用户设备的受骗倾向度评分、以及各基模型使用的用户设备特征作为候选变量；筛选模块403，用于根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征；第一计算模块404，用于获取新接入设备的特征，采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分；预测模块405，用于根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警。

需要说明的是，在发明中，历史时间窗口是指与不同用户群或不同地区相对应的时间窗口，例如包括固定时间段、固定时长等。例如，某个时间窗口受骗用户会以学生居多，某个时间窗口某个地区受骗用户居多，的时间窗口，某个时间窗口受骗用户以医护行业的用户居多等等。

具体地，使用XGBoost方法或深度神经网络，并使用上述所抽取的用户设备特征，建立以下三个基模型，所述三个基模型包括与第一时间窗口相对应的第一评分模型、与第二时间窗口相对应的第二评分模型、与第三时间窗口相对应的第三评分模型，其中，第一时间窗口的指定时间段例如为上午8：00～11:00，下午13:00～18:00等的周中工作时间；第二时间窗口的指定时间段例如为中午11：00～13：00，11：00～14：00等周中午休息时间；第三时间窗口的指定时间段为下午18:00～22:00，当日18:00～次日8:00，或者周末时间等。

更具体地，各模型的训练数据来自不同的历史时间窗口的历史用户设备。更具体地，所述用户设备特征包括以下的任一种：设备关联人反馈近期有接到陌生电话、设备关联人的人脸识别中出现异常。

在一实施方式中，当获取新接入用户设备的特征时，第一计算模块404计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的特征之间的马氏距离。

在另一实施方式，如图5所示，所述预警装置400包括第二计算模块501，所述第二计算模块501用于计算所述候选变量的信息价值，并选取信息价值较高的候选变量。

例如，根据所生成的最新受骗标签(例如受骗概率)，将历史用户设备进行分组，并基于最新受骗标签建立多个训练数据集和多个测试数据集，根据不同时间窗口进行变量特征分组以形成多个变量特征组。

1)计算各候选变量特征组的模型分类精确度，在所计算的模型分类精确度大于指定值(例如为85％～90％)时，筛选出相应特征组，计算所筛选出的所有特征的信息增益值IV以作为所述影响度，依次按特征影响度从高到低，分别对各候选变量特征组和各候选变量特征进行排序；2)从所述排序中选取特定数量的变量特征，以完成了变量特征筛选。例如选取信息价值较高(例如排序靠前5名，或者所计算的IV_单大于设定值等)的候选变量。

需要说明的是，当候选变量特征组的总信息价值IV_总、以及单个候选变量特征的信息价值IV_单均位于排序为前5名，且信息价值IV_单大于设定值时，则筛选出该单个变量特征。

对用于训练模型的各训练数据集中每一个候选变量特征，使用如下公式(1)计算各候选变量的信息价值：

其中，IV是指所述候选变量的信息价值；p0i是所述候选变量所属第i候选变量特征组中负样本的数量，p1i是所述候选变量所属第i候选变量特征组中正样本的数量，p0是所有所述候选变量特征组中负样本的数量，p1是所有所述候选变量特征组中正样本的数量，log是对数函数。

进一步地，通过上述公式(1)计算各组候选变量特征组中各候选变量的信息价值，并根据所计算的信息价值与预定阈值(正样本的第一预定阈值或负样本的第二预定阈值)之间比较，以筛选区分受骗用户设备和非受骗设备的强变量特征，或者分别在相应候选变量特征组中正样本和负样本中选择信息价值IV(在该实施方式中为信息价值IV_单)排序为特定排名之前(例如，第三名之前以及第三名)的变量特征为区分受骗用户设备和非受骗设备的强变量特征，由此，能够更精确地筛选强变量特征。

进一步地，根据所筛选的与用户设备特征相关的变量特征和/或强变量特征，构建目标用户设备特征的二维变量空间，以用于与易受骗用户设备相似的相似度计算，其中构建二维变量空间还包括形成上述这些变量特征的统计特征向量vector(比如均值、方差等)，并根据所述变量特征和/或强变量特征以及其相应的特征向量、相似度阈值，建立设备数据库，并实时更新所述相似度阈值，该设备数据数据库用于判断新接入用户设备是否为易受骗用户设备。

如图6所示，所述预警装置400还包括判断模块601，即将预测模块405拆分成判断模块601和预测模块405，判断模块601用于将所计算的受骗倾向度评分与所确定的标签阈值进行比较，在所述受骗倾向度评分大于所述标签阈值时，判断新接入设备为易受骗用户设备或者新接入设备的关联用户的受骗倾向度。

具体地，根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警包括：在所计算的新接入设备的所述相似度与所述受骗倾向度评分均大于设定值时，向所述新接入设备进行电信或网络诈骗的预警。

更具体地，所述预警包括：向所述新接入设备发送预警信息。

需要说明的是，在实施例2中，省略了与实施例1相同的部分的说明。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

实施例3

下面描述本发明的计算机设备实施例，该计算机设备可以视为对于上述本发明的方法和系统实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节，应视为对于上述方法或系统实施例的补充；对于在本发明计算机设备实施例中未披露的细节，可以参照上述方法或系统实施例来实现。

图7是根据本发明的计算机设备的示例性实施例的结构框图。下面参照图7来描述根据本发明该实施例的的计算机设备200。图7显示的计算机设备200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备200以通用计算设备的形式表现。计算机设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同装置组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述计算机设备的处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图1所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

计算机设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，计算机设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与计算机设备200的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时，使得该计算机程序产品能够实现本发明的上述方法。

如图8所示，所述计算机程序可以存储于一个或多个计算机程序产品上。计算机程序产品例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机程序产品的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机程序产品上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络诈骗的预警方法，其特征在于，包括：

建立并训练多个受骗倾向度评分的基模型，各所述基模型能够根据用户设备特征预测该用户设备的关联用户的受骗倾向度；

监测最近特定时间段内受骗的用户的关联用户设备，将各所述基模型对所述关联用户设备的受骗倾向度评分、以及各基模型使用的用户设备特征作为候选变量；

根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征；

获取新接入设备的特征，采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分；

根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警。

2.根据权利要求1所述的网络诈骗的预警方法，其特征在于，各模型的训练数据来自不同的历史时间窗口的历史用户设备。

3.根据权利要求1所述的网络诈骗的预警方法，其特征在于，所述筛选候选变量包括：计算所述候选变量的信息价值，并选取信息价值较高的候选变量。

4.根据权利要求3所述的网络诈骗的预警方法，其特征在于，所述计算所述候选变量的信息价值，包括：

对所有所述候选变量进行分箱，得到多组候选变量特征组；

通过如下公式计算所述候选变量的信息价值：

5.根据权利要求1所述的网络诈骗的预警方法，其特征在于，所述用户设备特征包括以下的任一种：设备关联人反馈近期有接到陌生电话、设备关联人的人脸识别中出现异常。

6.根据权利要求1所述的网络诈骗的预警方法，其特征在于，所述相似度计算包括：

计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的特征之间的马氏距离。

7.根据权利要求1所述的网络诈骗的预警方法，其特征在于，根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警包括：

在所计算的新接入设备的所述相似度与所述受骗倾向度评分均大于设定值时，向所述新接入设备进行电信或网络诈骗的预警。

8.根据权利要求7所述的网络诈骗的预警方法，其特征在于，所述预警包括：向所述新接入设备发送预警信息。

9.一种网络诈骗的预警装置，其特征在于，包括：

处理模块，用于建立并训练多个受骗倾向度评分的基模型，各所述基模型能够根据用户设备特征预测该用户设备的关联用户的受骗倾向度；

监测模块，用于监测最近特定时间段内受骗的用户的关联用户设备，将各所述基模型对所述关联用户设备的受骗倾向度评分、以及各基模型使用的用户设备特征作为候选变量；

筛选模块，用于根据各候选变量对受骗结果的影响度筛选候选变量，得到目标基模型和目标用户设备特征；

第一计算模块，用于获取新接入设备的特征，采用目标用户设备特征计算该新接入设备与所述最近特定时间段内受骗的用户的关联用户设备的相似度，并采用所述目标基模型计算所述新接入设备的受骗倾向度评分；

预测模块，用于根据所述新接入设备的所述相似度与所述受骗倾向度评分，向所述新接入设备进行电信或网络诈骗的预警。

10.一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，其特征在于：

当所述计算机程序被所述处理器执行时，所述处理器执行如权利要求1-8中任一项所述的网络诈骗的预警方法。