CN114841705A

CN114841705A - 一种基于场景识别的反欺诈监测方法

Info

Publication number: CN114841705A
Application number: CN202210375343.0A
Authority: CN
Inventors: 苏永锋
Original assignee: Shixi Information Technology Shanghai Co ltd
Current assignee: Shixi Information Technology Shanghai Co ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-02
Anticipated expiration: 2042-04-11
Also published as: CN114841705B

Abstract

本发明公开了一种基于场景识别的反欺诈监测方法，包括：预先训练多个相互独立的反欺诈子模型，在用户上线后确定用户的网络环境，并获取用户在先预设时间段内的通话记录、短信记录、网络浏览记录，并抓取用户的流量数据，形成第一子样本；确定第一子样本中各数据之间的时间关联性，根据粗标记的结果确定输入数据集；基于相似度最高的基准数据集从多个独立的反欺诈子模型中确定至少部分反欺诈子模型，并根据相似度最高的基准数据集确定至少部分反欺诈子模型的权重；联合至少部分反欺诈子模型，将输入数据集作为输入，以确定用户的欺诈风险。本申请的方法依据欺诈关联事件的时间关联性，来配置子模型的权重，极大提高模型的独立性和配置的灵活性。

Description

一种基于场景识别的反欺诈监测方法

技术领域

本发明涉及反欺诈技术领域，尤其涉及一种基于场景识别的反欺诈监测方法。

背景技术

随着信息时代的高速发展，个人与企业受惠于通信、互联网便捷性的同时，网络诈骗、电信诈骗也随之而来，给用户和企业的资金安全造成了严重威胁。网络防欺诈技术是维护互联网产业安全的重要手段。以前的网络防欺诈技术大多采用人工规则和专家系统，准确率高但死板且耗费人力，随着欺诈手法越来越高明，这种需要人工不断更新迭代的检测方案难以快速适应日新月异的欺诈手法。因此亟需研究能够自主挖掘欺诈行为规律并能快速适应新型欺诈手段的防欺诈方案。

现有的方案中CN111461784A公开了基于多模型融合的欺诈行为检测方法，该方案设计了不同的模型方案，针对不同方案分别进行欺诈行为特征提取和模型构建，并利用模型评价损失的差异训练分组模型，但该方案在应用中无法实现真正意义上的模型独立。

CN110020868A公开了基于线上交易特征的反欺诈模块决策融合方法，并公开了根据具体场景设置若干反欺诈模块和每一所述反欺诈模块所需的特征数据，分别计算各反欺诈模块的性能指标，根据性能指标调整各反欺诈模块的参数来提高各反欺诈模块的性能。该技术方案排列各反欺诈模块的全部逻辑组合方式，以此来与真实场景进行适配。但该技术方案中各反欺诈模块重复率较高，增大了计算的负载。

发明内容

本发明实施例提供一种基于场景识别的反欺诈监测方法，用以独立配置多个子模型，并依据欺诈关联事件的时间关联性，来配置子模型的权重，极大提高模型的独立性和配置的灵活性。

本发明实施例提出一种基于场景识别的反欺诈监测方法，包括如下步骤：

预先训练多个相互独立的反欺诈子模型，多个独立的反欺诈子模型分别包括网络环境子模型、文本子模型、链接子模型、号码子模型、图像子模型、流量子模型；

在用户上线后确定用户的网络环境，并获取用户在先预设时间段内的通话记录、短信记录、网络浏览记录，并抓取用户的流量数据；

滤除通话记录、短信记录以及网络浏览记录中的常规记录，基于网络环境样本以及剩余的记录形成第一子样本，在基于网络浏览记录确定包含可疑网络浏览记录的情况下，利用隔离的虚拟机访问该浏览记录，并提取对应网站中的图像数据，并将提取的图像数据加入所述第一子样本；以及

将流量数据进行预处理，并将预处理之后的流量数据与基准流量数据进行比对，在预处理之后的流量数据与基准流量数据之间的偏差超过预设阈值的情况下，将预处理之后的流量数据加入所述第一子样本；

确定第一子样本中各数据之间的时间关联性，并根据各数据之间的时间关联性进行粗标记，以根据粗标记的结果确定输入数据集；

确定所述输入数据集与预设的多个基准数据集之间的样本相似度，基于相似度最高的基准数据集从多个独立的反欺诈子模型中确定至少部分反欺诈子模型，并根据相似度最高的基准数据集确定至少部分反欺诈子模型的权重；

联合至少部分反欺诈子模型，将输入数据集作为输入，以确定用户的欺诈风险。

在一些实施例中，基于相似度最高的基准数据集从多个独立的反欺诈子模型中确定至少部分反欺诈子模型包括：

在各数据中的至少部分数据之间的时间关联性满足预设条件的情况下，按照该至少部分数据的时间先后顺序，对各子模型进行组合，以形成组合子模型，并基于该至少部分数据的时间先后顺序以及关联性为组合子模型配置权重，且至少部分数据之间的时间关联性越大，时间先后顺序与预设的顺序匹配度越高，权重越大。

在一些实施例中，按照该至少部分数据的时间先后顺序，对各子模型进行组合，以形成组合子模型包括：

在第一子样本中具有重复的通话记录、短信记录，和/或，网络浏览记录对应的数据，且重复记录不连续的情况下，按照时间先后顺序对第一子样本中的数据进行细标记，并基于重复记录选取对应的子模型，按照时间顺序进行叠加组合，以形成组合子模型。

在一些实施例中，滤除通话记录、短信记录以及网络浏览记录中的常规记录，基于网络环境样本以及剩余的记录形成第一子样本包括：

在确定当前网络为不安全网络的情况下，以当前网络环境的网络参数作为网络环境样本加入第一子样本；

对于通话记录，基于通话记录中的各号码的前段数字进行模糊匹配，并将匹配的通话记录、报警通话记录和反诈中心通话记录加入所述第一子样本中；

对于短信记录以及网络浏览记录中的文本数据，基于可疑短信文本数据以及可疑网站的文本数据提取其所包含的实体并确定实体的上下文关系，将提取到各实体以及关联关系加入第一子样本；以及

对于短信记录以及网络浏览记录中的图像数据，将图像数据处理为预设规格并加入第一子样本。

在一些实施例中，所述方法还包括：

在用户上线后，获取用户的历史交易数据，基于所述历史交易数据拟合用户交易特征曲线，以及，基于所述第一子样本确定多个可疑交易金额；

基于所述交易特征曲线与可疑交易金额划分风险交易金额；

在确定用户当前存在欺诈风险的情况下，获取用户当前的交易金额，基于风险交易金额，进一步判断用户当前的交易金额的交易风险。

在一些实施例中，在确定用户当前存在欺诈风险的情况下，连续监测用户的交易行为，在用户在指定时间段内的交易金额重复，且，累积金额超过预设金额阈值的情况下，修改用户在后交易的验证方式。

在一些实施例中，基于所述交易特征曲线与可疑交易金额划分风险交易金额包括：

从多个可疑交易金额选取部分可疑交易金额按照预设规则进行拆分，以获得扩展可疑交易金额；

基于多个可疑交易金额与所述交易特征曲线的金额区间，以及各扩展可疑交易金额点，确定风险交易金额。

本申请的实施例还提出一种基于场景识别的反欺诈监测装置，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现前述的基于场景识别的反欺诈监测方法的步骤。

本申请的实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述的基于场景识别的反欺诈监测方法的步骤。

本申请的方案结合欺诈行为的时间关系，配置多个子模型并根据时间关联性来确定与当前场景对应的子模型的权重，由此可以实现子模型的独立并且通过时间的关联性对用户的行为进行综合判断，从而能够适用于多种场景下的反欺诈监测。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本实施例的反欺诈监测方法的基本流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提出一种基于场景识别的反欺诈监测方法，如图1所示，包括如下步骤：

在步骤S101中，预先训练多个相互独立的反欺诈子模型，多个独立的反欺诈子模型分别包括网络环境子模型、文本子模型、链接子模型、号码子模型、图像子模型、流量子模型。

本申请实施例根据诈骗的可能来源，设计了多个独立的反欺诈子模型，例如网络环境子模型用于识别用户所处的网络环境的网络风险，网络环境可以与历史诈骗记录来标记，追溯诈骗发生地的网络环境，从而确定出相对安全性低的网络环境。例如可以设置不同的网络安全等级，具体的可以结合网络的ip段、加密方式以及网络拓扑结构来确定安全等级，利用网络环境子模型对网络环境风险进行量化。文本子模型用于基于输入的文本信息确定用户文字行为的文本风险，在一些实施例中可以根据综合网页文本和短信文本设计文本模型，以独立判断出用户浏览的文本的风险。链接子模型用于基于用户的访问行为的链接风险，本示例中链接子模型可以基于历史链接库来判断用户访问的链接的潜在欺诈风险。流量子模型用于基于抓取的用户流量数据确定用户的流量风险。号码子模型用于基于用户的访问行为的通话风险。图像子模型用于基于从目标网址中或者彩信获取的图像数据，并基于图像数据确定用户的图像浏览风险。本实例中各子模型可以配置不同的反欺诈算法或者使用不同的学习网络实现，本示例中各子模型可以独立进行训练，以在相应的输入样本下，达到最优的识别度。

在步骤S102中，在用户上线后确定用户的网络环境，并获取用户在先预设时间段内的通话记录、短信记录、网络浏览记录，并抓取用户的流量数据。具体的可以以用户上线时间为基准，获取在前一定时间段的通话记录、短信记录、网络浏览记录。本示例中获取的网络浏览记录可以是网址信息，并记录获取的网址信息，通话记录、短信记录的获取可以通过取得对应的权限实现。

在步骤S103中，滤除通话记录、短信记录以及网络浏览记录中的常规记录，基于网络环境样本以及剩余的记录形成第一子样本，在基于网络浏览记录确定包含可疑网络浏览记录的情况下，利用隔离的虚拟机访问该浏览记录，并提取对应网站中的图像数据，并将提取的图像数据加入所述第一子样本；以及将流量数据进行预处理，并将预处理之后的流量数据与基准流量数据进行比对，在预处理之后的流量数据与基准流量数据之间的偏差超过预设阈值的情况下，将预处理之后的流量数据加入所述第一子样本。具体的对流量数的预处理可以是按照指定的时长来截取流量数据，并与正常的该时长内的流量数据进行对比，还可以将流量数据处理成特征向量的形式，与预设的特征向量进行对比，以此来判断流量数据是否异常。

本实例中进一步采用如下方式确定第一子样本，本示例中对于获取的用户的通话记录、短信记录、网络浏览记录需要进行本地化的隐私过滤，仅提取出可疑的记录执行上报，具体的可以将各记录中的常规记录滤除，从而仅保留可疑的记录上传至服务器，由服务器来完成后续的监测和识别过程。对于短信记录中存在彩信图片的，可以结合短信的号码信息来确定是否获取对应的短信图片。在基于网络浏览记录确定包含可疑网络浏览记录的情况下，利用隔离的虚拟机访问该浏览记录，并提取对应网站中的图像数据，并将提取的图像数据加入所述第一子样本。具体的还可以将网站中的可疑的文本数据加入到第一子样本中。

在步骤S104中，确定第一子样本中各数据之间的时间关联性，并根据各数据之间的时间关联性进行粗标记，以根据粗标记的结果确定输入数据集。本示例中所指的时间关联性，是指第一子样本中可疑的各项数据记录的时间顺序以及时间间隔，由此来进行粗标记，例如本示例中{可疑通话，可疑短信，可疑图像}、{可疑短信，可疑网址}的形式，由此来表示顺序关系，并执行粗标记来标记出可疑记录之间的间隔关系，以此来表明用户的前后访问行为是否存在关联性。

在步骤S105中，确定所述输入数据集与预设的多个基准数据集之间的样本相似度，基于相似度最高的基准数据集从多个独立的反欺诈子模型中确定至少部分反欺诈子模型，并根据相似度最高的基准数据集确定至少部分反欺诈子模型的权重。本示例中可以预设的多个基准数据集，每个基准数据集可以是具有一个关联事件记录的时间顺序关系，并且可以为其中的关联事件根据间隔关系设置对应的权重，关联度越高相关的子模型的权重越大。

在步骤S106中，联合至少部分反欺诈子模型，将输入数据集作为输入，以确定用户的欺诈风险。例如某用户在上线前接收到了风险短信，用户访问了该短信记录中的链接，并且抓取到的网络流量异常，由此可以联合文本子模型、链接子模型以及流量子模型，并根据相应的权重确定出该用户的欺诈风险。

本申请实施例的反欺诈方法对用户上线前指定时段的用户行为进行识别过滤，并结合用户的网络流量进行判定，可以极大提高欺诈行为的识别成功率。并且本申请的方法粗标记的结果不同，对应的子模型的权重不同，由此来调节子模型输出，以适用于不同的场景以及不同的用户。通过本申请的方法可以根据用户的实际应用场景来确定出联合的欺诈模型，从而实现对不同用户使用场景的识别。本申请的方法各子模型可以单独训练完成，能够极大提高模型训练的效率，并且不受到其他因素的干扰。在具有新增诈骗手段的情况下，可以新增独立的子模型，由此极大提高了模型配置的效率。

具体的说，一些示例中用户在接收到钓鱼短信后，进入了钓鱼短信的连接，并继续执行了相关的操作。对应于此类高风险的诈骗场景，本实例中进一步的将相关的子模型进行组合。可以对应的将文本子模型、链接子模型以及图像子模型进行组合，具体的方式可以是将对应的子模型进行级联，并为级联组合的各子模型的输出设置级联标记，以基于对应的级联标记输入到下一级的子模型中，再利用下一级的子模型基于相关的数据进行识别。级联标记的方式也可以结合时间的间隔大小来设置，以体现用户的操作行为的关联性。本实例中进一步的至少部分数据之间的时间关联性越大，时间先后顺序与预设的顺序匹配度越高，组合子模型的权重越大。对于组合子模型之外的子模型，保持在粗标记所确定的权重不变，例如该用户还存在流量异常的情况，而流量异常与前述短信以及网站访问行为没有时间关联性，则该用户对应的联合模型包括组合模型和流量子模型。通过这样的设计能够有效确定用户的欺诈风险偏向，提高欺诈的识别效果。

进一步的，本示例中对于重复的记录且重复记录不连续的场景，也即例如用户在接收到异常短信后，浏览了异常网页，而后又接收到了异常短信，对于这种情形，本示例中基于前述粗标记的结果进行细标记。粗标记过程中不重复执行标记，但保留相关的可疑记录，例如对于粗标记为{可疑短信，可疑网址}的记录中若符合前述的情形，则细标记后为{可疑短信，可疑网址，可以短信}，以此选取文本子模型，链接子模型，文本子模型进行组合，并形成对应的组合子模型，并设置对应的级联标记。

在确定当前网络为不安全网络的情况下，以当前网络环境的网络参数作为网络环境样本加入第一子样本。例如当前网络环境为wifi网络的情况下，可以基于wifi网络的ssid，ip段，位置信息等网络参数来综合确定不安全网络的风险等级。

对于通话记录，基于通话记录中的各号码的前段数字进行模糊匹配，并将匹配的通话记录、报警通话记录和反诈中心通话记录加入所述第一子样本中。本示例中，利用对各号码的前段数字进行模糊匹配的方式极大提高了本地处理效率。同时本申请的方案进一步将报警通话记录和反诈中心通话记录作为异常记录，例如一些场景中，用户在访问某网站后，接收到了来自反诈中心的电话，则反诈中心认为判断用户的该行为可能引起该用户的风险行为。通过这样的设计能够扩充可疑的通话记录，以及时间关联性，提高号码子模型的识别效果。

本示例中，提取短信记录以及网络浏览记录中的文本数据，基于文本数据提取出实体以及疑似金额数据，例如ETC，社保卡，银行卡片，流感，16800，68800等等，然后确定出实体的上下文关系，例如ETC-禁用-链接，社保卡-转移-链接，流感-防疫津贴-链接等等加入到第一子样本。对于短信中出现的链接，可以加入第一子样本，后续可以利用链接子模型进行识别。对于链接还可以利用隔离的虚拟机进行访问，并提取到相关的图像数据加入第一子样本，后续利用图像子模型来完成识别。通过这样的方式能够简化输入的子模型的特征，提高模型的识别效率。

在一些实施例中，所述方法还包括：在用户上线后，获取用户的历史交易数据，基于所述历史交易数据拟合用户交易特征曲线，以及，基于所述第一子样本确定多个可疑交易金额。本示例中，可以拟合出用户交易特征曲线，例如可以按照周期为一周、一天等来拟合用户的交易特征曲线，例如13800、16800等等。

基于所述交易特征曲线与可疑交易金额划分风险交易金额。具体的根据前述拆分的特定金额，以及总金额，划分风险交易金额。例如用户的周消费仅有1000，则可根据前述的k*1000-13800，k为用户特征曲线的波动系数，之间确定风险交易金额。

在确定用户当前存在欺诈风险的情况下，获取用户当前的交易金额，基于风险交易金额，进一步判断用户当前的交易金额的交易风险。在利用前述方式确定用户当前存在欺诈风险的情况下，可以根据风险交易金额确定当前的交易金额是否存在风险。

从多个可疑交易金额选取部分可疑交易金额按照预设规则进行拆分，以获得扩展可疑交易金额。具体的可以对第一子样本中的金额进行拆分，例如68800可以拆分为688等特定的金额，具体的拆分方式可以根据统计的欺诈金额来确定扩展可疑交易金额对应的数值点。

基于多个可疑交易金额与所述交易特征曲线的金额区间，以及各扩展可疑交易金额点，确定风险交易金额。例如前述的k*1000-13800区间以及688，988等特定的金额点来确定出风险交易金额，通过这样的设置能够在欺诈金额被进行拆分的情况下，也能确定出用户当前的交易金额是否存在风险，提高欺诈风险的识别准确性。

在一些实施例中，在确定用户当前存在欺诈风险的情况下，连续监测用户的交易行为，在用户在指定时间段内的交易金额重复，且，累积金额超过预设金额阈值的情况下，修改用户在后交易的验证方式。本示例中对于拆分的小金额，进行重复次数以及累计金额的监测，可以根据第一子样本中的欺诈目标金额对应设置累积的预设金额阈值，可以按照欺诈目标金额设置相应的比例来作为预设金额阈值，超过该预设金额阈值后，修改该用户后续交易的验证方式。通过这样的方式能够极大降低用户的损失。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本公开的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本公开的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于场景识别的反欺诈监测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于场景识别的反欺诈监测方法，其特征在于，基于相似度最高的基准数据集从多个独立的反欺诈子模型中确定至少部分反欺诈子模型包括：

3.如权利要求2所述的基于场景识别的反欺诈监测方法，其特征在于，按照该至少部分数据的时间先后顺序，对各子模型进行组合，以形成组合子模型包括：

4.如权利要求2所述的基于场景识别的反欺诈监测方法，其特征在于，滤除通话记录、短信记录以及网络浏览记录中的常规记录，基于网络环境样本以及剩余的记录形成第一子样本包括：

5.如权利要求1所述的基于场景识别的反欺诈监测方法，其特征在于，所述方法还包括：

基于所述交易特征曲线与可疑交易金额划分风险交易金额；

6.如权利要求5所述的基于场景识别的反欺诈监测方法，其特征在于，在确定用户当前存在欺诈风险的情况下，连续监测用户的交易行为，在用户在指定时间段内的交易金额重复，且，累积金额超过预设金额阈值的情况下，修改用户在后交易的验证方式。

7.如权利要求5所述的基于场景识别的反欺诈监测方法，其特征在于，基于所述交易特征曲线与可疑交易金额划分风险交易金额包括：

8.一种基于场景识别的反欺诈监测装置，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于场景识别的反欺诈监测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于场景识别的反欺诈监测方法的步骤。