CN113723800B - 风险识别模型训练方法及装置、风险识别方法及装置 - Google Patents

风险识别模型训练方法及装置、风险识别方法及装置 Download PDF

Info

Publication number
CN113723800B
CN113723800B CN202110998618.1A CN202110998618A CN113723800B CN 113723800 B CN113723800 B CN 113723800B CN 202110998618 A CN202110998618 A CN 202110998618A CN 113723800 B CN113723800 B CN 113723800B
Authority
CN
China
Prior art keywords
risk identification
risk
operation data
specified operation
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110998618.1A
Other languages
English (en)
Other versions
CN113723800A (zh
Inventor
罗星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hode Information Technology Co Ltd
Original Assignee
Shanghai Hode Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hode Information Technology Co Ltd filed Critical Shanghai Hode Information Technology Co Ltd
Priority to CN202110998618.1A priority Critical patent/CN113723800B/zh
Publication of CN113723800A publication Critical patent/CN113723800A/zh
Application granted granted Critical
Publication of CN113723800B publication Critical patent/CN113723800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供风险识别模型训练方法及装置、风险识别方法及装置,其中风险识别模型训练方法包括:服务端获取样本集,其中,样本集中包括作为训练样本的多个指定操作数据;将样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则;获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,验证集中包括作为验证样本的多个指定操作数据;根据风险识别结果,确定多个项集中的频繁项集,并返回执行获取样本集的步骤;在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送风险识别模型至目标客户端。本方案可以提高风险识别的效率。

Description

风险识别模型训练方法及装置、风险识别方法及装置
技术领域
本申请涉及风险识别技术领域,特别涉及一种风险识别模型训练方法。本申请同时涉及一种风险识别模型训练装置,一种风险识别方法,一种风险识别装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
为了提高业务的便捷性和降低人工成本,越来越多的业务以应用程序的形式实现自动化处理。这样,容易缺失人工确定业务是否存在风险的过程。因此,需要利用计算设备对业务进行风险识别。例如,利用计算设备识别用于实现业务的应用程序是否存在刷量、使用外挂等风险。
相关技术中,可以由安装有应用程序的客户端采集网络质量信息、运行环境信息及设备硬件信息等风控信息;进而,客户端将风控信息发送至风控平台;风控平台根据接收的风控信息进行风险识别,并将识别结果发送至客户端对应的服务端。其中,风控平台通常是专业进行风险识别的第三方平台。
可见,上述风险识别必须经过对网络质量信息、运行环境信息及设备硬件信息的复杂采集过程,且需要与风控平台进行网络交互,导致风险识别的效率降低。
发明内容
有鉴于此,本申请实施例提供了一种风险识别模型训练方法。本申请同时涉及一种风险识别模型训练装置,一种风险识别方法,一种风险识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的风险识别效率降低的问题。
根据本申请实施例的第一方面,提供了一种风险识别模型训练方法,应用于服务端,包括:
获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据;
将所述样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则;
获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;
在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至目标客户端。
根据本申请实施例的第二方面,提供了一种风险识别方法,应用于客户端,包括:
采集指定操作数据;
利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果。
根据本申请实施例的第三方面,提供了一种风险识别模型训练装置,应用于服务端,包括:
数据获取模块,被配置为获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据;
频繁项集训练模块,被配置为将所述样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则;获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;
模型确定模块,被配置为在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至目标客户端。
根据本申请实施例的第四方面,提供了一种风险识别装置,应用于客户端,包括:
数据采集模块,被配置为采集指定操作数据;
风险识别模块,被配置为利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果。
根据本申请实施例的第五方面,提供了一种风险识别系统,包括:服务端和客户端;
服务端,被配置为获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据;将所述样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则;获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至所述客户端;
客户端,被配置为采集指定操作数据;利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果。
根据本申请实施例的第六方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述风险识别模型训练方法或者风险识别方法的步骤。
根据本申请实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述风险识别模型训练方法或者风险识别方法的步骤。
本申请一实施例提供的方案中,指定操作数据可以反映应用程序所实现的与操作对应的业务是否存在风险。并且,频繁项集根据风险识别结果确定,风险识别结果为分别利用每个项集对应的风险识别规则对验证集中各指定操作数据进行风险识别的结果。因此,基于各频繁项集对应的风险识别规则,确定的风险识别模型可以用于进行风险识别。并且,发送风险识别模型至客户端。这样,进行风险识别时,可以由客户端直接利用风险识别模型对该客户端自身采集的指定操作数据进行风险识别,无需经过采集网络质量信息、运行环境信息及设备硬件信息的复杂过程,也无需与风控平台进行网络交互。因此,本方案可以提高风险识别的效率。
附图说明
图1是本申请一实施例提供的一种风险识别模型训练方法的流程图;
图2是本申请另一实施例提供的一种风险识别模型训练方法的场景示例图;
图3是本申请一实施例提供的一种风险识别方法的流程图;
图4是本申请另一实施例提供的一种风险识别方法的流程示例图;
图5是本申请另一实施例提供的一种风险识别方法中,复杂事件处理的流程示例图;
图6是本申请一实施例提供的一种风险识别模型训练装置的结构示意图;
图7是本申请一实施例提供的一种风险识别装置的结构示意图;
图8是本申请一实施例提供的一种风险识别系统的结构示意图;
图9是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
频繁项集,指支持度大于或者等于最小支持度的集合。其中,支持度是指某个集合在所有事务中出现的频率。
复杂事件处理(CEP,Complex Event Process),一种应用架构。将数据看作数据流,基于规则引擎对业务过程中持续产生的各种事件进行复杂的处理。
Siddhi,一种CEP框架,在端侧具有以下优势:一是支持多语言部署;二是轻量级,对应用程序的安装包体积增量较小;该框架中的规则采用与结构化查询语言数据库(SQL,Structured Query Language)语法类似的语法,学习成本低。
在本申请中,提供了一种风险识别模型训练方法,本申请同时涉及一种风险识别模型训练装置,一种风险识别方法,一种风险识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种风险识别模型训练方法的流程图,应用于服务端,具体包括以下步骤S102至S108:
S102,获取样本集。
其中,样本集中包括作为训练样本的多个指定操作数据。
在具体应用中,指定操作数据为表征指定操作的数据,其中,指定操作为能够反映应用程序实现的业务是否存在风险的操作。并且,样本集包括的指定操作数据的获取方式可以是多种的。示例性的,可以获取记录有用户对指定应用程序所进行操作的用户日志,例如,获取指定应用程序的互联网协议地址(IP地址,Internet Protocol Address)变更日志、屏幕点击力度日志、屏幕角度日志等等。或者,示例性的,可以获取开发人员人工或者利用仿真软件模拟指定操作得到的数据。
S104,将样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则。
在具体应用中,任一项集中包含至少一个指定操作数据,且不同项集中的元素不重复。将样本集划分为多个项集的方式可以是多种的。示例性的,可以直接对样本集进行排列组合,且该排列组合得到的不同项集中元素不重复。或者,示例性的,可以将样本集输入关联规则算法(Apriori,一种挖掘关联规则的频繁项集算法),得到多个项集。
并且,根据每个项集中的指定操作数据,确定该项集对应的风险识别规则的方式具体可以是多种的,为了便于理解和合理布局,后续以可选实施例的形式进行具体说明。
S106,获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果;根据风险识别结果,确定多个项集中的频繁项集。
返回执行步骤S102。
其中,验证集中包括作为验证样本的多个指定操作数据,验证集中指定操作数据的获取与样本集中指定操作数据的获取方式类似,区别在于为了保证验证效果,验证集中的指定操作数据与训练样本中的指定操作数据不相同。返回执行步骤S102,可以获取新的样本集以保证用于确定项集的数据是变动的,从而通过变动的项集保证从项集中确定的频繁项集对应的风险识别规则,能够适用于不同的指定操作数据,实现训练的效果。并且,验证集可以保持不变,或者在对验证集使用过指定次数后获取新的验证集。
另外,步骤S106的具体实现可以是多种的,为了便于理解和合理布局,后续以可选实施例的形式进行具体说明。
S108,在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送风险识别模型至目标客户端。
其中,目标客户端为安装有指定应用程序的客户端,指定应用程序可以产生上述样本集和验证集。例如,指定应用程序可以为需要进行风险识别的游戏应用程序,视频应用程序以及即时通讯应用程序等等。
在一种可选的实施方式中,上述步骤S108具体可以包括如下步骤:
在各频繁项集的数量达到数量阈值的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型。
在另一种可选的实施方式中,上述步骤S108具体可以包括如下步骤:
在各频繁项集的种类无变更的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型。
其中,各频繁项集的种类无变更是指频繁项集的种类固定,频繁项集的种类无新增和减少。例如,在训练过程中确定出的频繁项集包括:频繁项集F1,频繁项集F2,频繁项集F3和频繁项集F4,频繁项集的种类包括F1至F4。在训练过程中若出现新的频繁项集F5或者频繁项集F2被确定为非频繁项集,则表明频繁项集出现新的种类F5,或者原有种类F2减少,因此,继续执行步骤S106。若频繁项集的种类保持F1至F4,则表明达到训练停止条件,可以基于各频繁项集对应的风险识别规则,确定风险识别模型。为了便于理解和合理布局,后续以可选实施例的形式对第二种示例进行具体说明。
并且,基于各频繁项集对应的风险识别规则,确定风险识别模型的具体方式可以是多种的。示例性的,可以直接将各频繁项集对应的风险识别规则确定为风险识别模型。或者,示例性的,可以将各频繁项集对应的风险识别规则,以及每个风险识别规则对应风险的风险处理方式,确定为风险识别模型。
本实施例在各频繁项集的种类无变更的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,可以保证频繁项集覆盖尽可能多的样本集,保证频繁项集对应的风险识别规则更加准确以及全面地体现操作数据和风险之间的关系,从而提高后续基于各频繁项集对应的风险识别规则,确定的风险识别模型的准确度。
本申请一实施例提供的方案中,指定操作数据可以反映应用程序所实现的与操作对应的业务是否存在风险。并且,频繁项集根据风险识别结果确定,风险识别结果为分别利用每个项集对应的风险识别规则对验证集中各指定操作数据进行风险识别的结果。因此,基于各频繁项集对应的风险识别规则,确定的风险识别模型可以用于进行风险识别。并且,发送风险识别模型至客户端。这样,进行风险识别时,可以由客户端直接利用风险识别模型对该客户端自身采集的指定操作数据进行风险识别,无需经过采集网络质量信息、运行环境信息及设备硬件信息的复杂过程,也无需与风控平台进行网络交互。因此,本方案可以提高风险识别的效率。
在一种可选的实施方式中,上述基于各频繁项集对应的风险识别规则,确定风险识别模型,具体可以包括如下步骤:
针对每个频繁项集对应的风险识别规则,确定该风险识别规则对应的风险处理方式;
将各频繁项集对应的风险识别规则及风险识别规则对应的风险处理方式,确定为风险识别模型。
在具体应用中,不同的风险识别规则可以识别不同的风险操作,相应的,针对不同的风险操作可以进行不同的风险处理。基于此,可以针对每个频繁项集对应的风险识别规则,确定风险识别规则对应的风险处理方式。其中,风险处理方式可以是多种的,例如,强制退出登录、弹窗提醒、限制特定行为(比如禁止参加优惠活动)等等。并且,风险处理方式具体可以根据风险识别规则和风险处理需求设置。示例性的,风险识别规则为同一设备在指定时长内账号注册次数达到次数阈值,满足该风险识别规则表明存在创建用于刷量的小号的行为。因此,为了防止利用小号刷量的风险,相应的风险处理方式可以为禁止注册,例如,将注册按钮的点击操作指令设置为clickable=false,即点击行为不再可用。
本实施例针对不同的风险识别规则设置相应的风险处理方式,进而将各频繁项集对应的风险识别规则及风险处理方式,确定为风险识别模型。这样,可以保证客户端利用服务端发送的风险识别进行风险识别时,如果识别结果为存在风险,则可以直接利用风险识别规则对应的风险处理方式对用户行为也就是操作进行约束,实现客户端的风险控制。无需服务端获取风险识别结果,根据风险识别结果确定并发送风险处理方式至客户端,可以大幅提升风险控制的效率和实时性。
在一种可选的实施方式中,根据每个项集中的指定操作数据,确定该项集对应的风险识别规则,可以包括如下步骤:
输出每个项集;
接收运维人员分别根据每个项集中的指定操作数据,输入的该项集对应的风险识别规则。
在另一种可选的实施方式中,根据每个项集中的指定操作数据,确定该项集对应的风险识别规则,可以包括如下步骤:
针对每个项集,确定该项集中包含的所有指定操作数据的数据类型;
根据该项集中包含的所有指定操作数据的数据类型,查找该项集对应的风险识别规则。
其中,项集中包含的所有指定操作数据的数据类型按照所有指定操作数据的数据差异划分。例如,项集F1包含指定操作数据D1,项集F2包含指定操作数据D1和指定操作数据D2,则项集F1包含的所有指定操作数据的数据类型为TP1,项集F2包含的所有指定操作数据的数据类型为TP2。这样,可以针对不同的项集确定与该项集所包含指定操作数据对应的风险识别规则。
示例性的,项集F1包含指定操作数据:客户端对账号的注册次数,则对应的风险识别规则为同一设备在指定时长内账号注册次数达到次数阈值。项集F2包含指定操作数据:IP地址变更、屏幕点击力度和屏幕角度,则对应的风险识别规则为IP地址发生变更、屏幕点击力度达到力度阈值和屏幕角度达到角度阈值。
在具体应用中,所查找的项集对应的风险识别规则,可以预先存储在服务端中,且存储的格式可以是未编码或者利用编程语言编码后的风险识别规则。其中,对于未编码的风险识别规则,可以在根据该项集中包含的所有指定操作数据的数据类型,查找该项集对应的风险识别规则之后,利用实现本申请提供的风险识别模型训练方法的编程语言,对风险识别规则编码。例如,上述编程语言为CEP的语言,则可以利用CEP的语言将风险识别规则编码为符合CEP语法规则的语句。
本实施例通过项集中包含的所有指定操作数据的数据类型,查找项集对应的风险识别规则。这样,无需输出具体项集,即可自动确定项集对应的风险识别规则,从而提高风险识别模型训练的效率。
在一种可选的实施方式中,上述获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,具体可以包括如下步骤:
将每个项集对应的风险识别规则发送至验证端,其中,每个项集对应的风险识别规则用于验证端针对验证集中的指定操作数据,分别利用每个项集对应的风险识别规则对该指定操作数据进行风险识别;
接收验证端在风险识别结果为存在风险时,发送的风险识别结果。
其中,验证端可以是多种的。示例性的,验证端可以为开发人员的客户端,虚拟客户端,仿真软件或者用户的客户端等等。验证端在运行过程中可以采集验证集中的指定操作数据,从而利用服务端下发的各项集对应的风险识别规则对该指定操作数据进行风险识别,并在风险识别结果为存在风险时,发送的风险识别结果至服务端。这样,相当于通过验证端进行了将风险识别规则用于实际风险识别环境中的效果,可以减少风险识别环境的差异造成的训练过程中所利用的风险识别结果不准确的问题。
在另一种可选的实施方式中,上述获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,具体可以包括如下步骤:
将验证集中各指定操作数据分别与每个项集对应的风险识别规则进行匹配;
利用每个项集对应的风险识别规则,分别对验证集中匹配成功的指定操作数据进行风险识别。
其中,验证集中的指定操作数据可以由验证端上传至服务端,或者可以由服务端从数据库存储的历史指定操作数据中获取。将验证集中各指定操作数据分别与每个项集对应的风险识别规则进行匹配,可以确定每个风险识别规则进行风险识别所需的数据,实现从验证集中确定每个风险识别规则对应的输入数据的效果。这样,利用每个项集对应的风险识别规则,分别对验证集中匹配成功的指定操作数据进行风险识别,相当于利用每个项集对应的风险识别规则对该风险识别规则的输入数据进行解析,得到风险识别结果。
例如,验证集中的指定操作数据包括:指定操作数据D1,指定操作数据D2和指定操作数据D3。与风险识别规则F1匹配的为指定操作数据D1,与风险识别规则F2匹配的为指定操作数据D1,指定操作数据D2和指定操作数据D3。利用风险识别规则F1对指定操作数据D1进行风险识别,利用风险识别规则F2对指定操作数据D1,指定操作数据D2和指定操作数据D3进行风险识别。
本实施例相当于由服务端对验证集中的指定操作数据进行风险识别,无需将风险识别规则发送至验证端。并且,可以保证发送至用户的客户端的为完成训练的风险识别模型,避免用户的客户端中存储未完成训练的风险识别规则或者风险训练模型。
在一种可选的实施方式中,上述根据风险识别结果,确定多个项集中的频繁项集,具体可以包括如下步骤:
针对每个项集,确定该项集对应的风险识别结果与标准识别结果之间的相似度;
若相似度达到相似度阈值,则累计风险识别结果对应项集的出现次数;
针对每个项集,若该项集当前的出现次数达到次数阈值,则确定该项集为频繁项集。
其中,标准识别结果具体可以为第三方风控平台对验证集中指定操作数据的风险识别结果,或者,可以为人工标注的验证集中指定操作数据的风险识别结果标签。相似度达到相似度阈值,表明该项集对应的风险识别结果与标准识别结果匹配成功,该项集对应的风险识别规则准确度达到识别要求。因此,可以累计风险识别结果对应项集的出现次数。例如,对风险识别结果对应项集的出现次数加1。并且,项集当前的出现次数达到次数阈值具体可以包括:项集当前的出现次数在全部项集的出现次数中占比达到占比阈值,例如78%。
另外,若相似度未达到相似度阈值,也就是风险识别结果与标准识别结果匹配失败,则对风险识别结果对应项集的出现次数减一。这样,可以通过项集的出现次数的调整,进行训练过程:确定新的项集以及项集对应的风险识别规则,进而调整频繁项集。
示例性的,如图2所示,本申请另一实施例提供的一种风险识别模型训练方法的场景示例图。图2示出的流程与上述图1实施例以及可选实施例中步骤相似,对于相同部分在此不再赘述,详见上述图1实施例以及可选实施例的描述。区别在于为了便于理解和简化表达,表述方式不同,具体的:
客户端侧上传指定操作数据至服务端,相当于服务端获取样本集;服务端利用该指定操作数据进行风险识别模型训练的过程中,服务端下发风控检测策略至客户端,相当于发送风险控制规则至验证端;客户端上报风控检测结果和设备信息至服务端,相当于验证端在风险识别结果为存在风险时,发送风险识别结果至服务端;其中,设备信息具体可以为安装有验证端的计算设备的设备标识、设备的系统性能等信息中的至少一种,该设备信息可以包含在风险识别结果中,以便第三方风控平台利用设备信息进行风险识别;
服务端利用数据服务接口接收客户端上报的端侧风控检测结果和设备信息,通过设备信息请求第三方风控结果,接收第三方返回的风控结果,并对本地风控结果与第三方风控结果匹配,匹配成功则将数据导入风控模型进行训练,相当于服务端根据风险识别结果,确定多个项集中的频繁项集。
另外,服务端可以通过数据库存储所获取的各数据,数据库具体可以包括HBase和远程字典服务(Redis,Remote Dictionary Server)数据库中的至少一种。其中,HBase是一种结构化数据的分布式存储系统,Redis是一种开源的支持网络、可基于内存亦可持久化的日志型、键-值(Key-Value)数据库。
图3示出了根据本申请一实施例提供的一种风险识别方法的流程图,应用于客户端,具体包括以下步骤:
S302,采集指定操作数据。
客户端可以在用户进行指定操作时,记录表明该指定操作的数据,得到指定操作数据。例如,采集用户进行指定操作的用户日志。
S304,利用从服务端获取的风险识别模型对指定操作数据进行风险识别,得到风险识别结果。
其中,风险识别模型为服务器利用上述图1实施例及图1可选实施例提供的风险识别模型训练方法得到的模型。并且,对于步骤S304的具体实现方式,后续以可选实施例的形式进行说明。
本申请一实施例提供的方案中,指定操作数据可以反映应用程序所实现的与操作对应的业务是否存在风险。并且,频繁项集根据风险识别结果确定,风险识别结果为分别利用每个项集对应的风险识别规则对验证集中各指定操作数据进行风险识别的结果。因此,基于各频繁项集对应的风险识别规则,确定的风险识别模型可以用于进行风险识别。并且,发送风险识别模型至客户端。这样,进行风险识别时,可以由客户端直接利用风险识别模型对该客户端自身采集的指定操作数据进行风险识别,无需经过采集网络质量信息、运行环境信息及设备硬件信息的复杂过程,也无需与风控平台进行网络交互。因此,本方案可以提高风险识别的效率。
在一种可选的实施方式中,上述风险识别模型包括多个风险识别规则;
相应的,上述利用从服务端获取的风险识别模型对指定操作数据进行风险识别,得到风险识别结果,具体可以包括如下步骤:
将指定操作数据分别与多个风险识别规则进行匹配;
利用匹配成功的风险识别规则对指定操作数据进行风险识别,得到风险识别结果。
本实施例中的步骤与上述图1可选实施例中,关于将指定操作数据分别与多个风险识别规则进行匹配的实施例类似,区别在于本实施例中风险识别规则为训练完成的风险识别模型中的风险识别模型,且由客户端进行风险识别,所识别指定操作数据为客户端采集的数据。对于相同部分在此不再赘述,详见上述图1可选实施例的描述。
本实施例可以针对风险识别模型中包含的多个风险识别规则进行风险识别,与对所有指定操作数据采用同一风险识别规则相比,可以提高风险识别的准确度。
在一种可选的实施方式中,上述风险识别模型还包括每个风险识别规则对应的风险处理方式;
相应的,在上述利用从服务端获取的风险识别模型对指定操作数据进行风险识别,得到风险识别结果之后,本申请实施例提供的风险识别方法还可以包括如下步骤:
若风险识别结果为存在风险,则执行风险识别结果对应的风险处理方式。
其中,风险识别结果对应的风险处理方式,即用于获得该风险识别结果的风险识别规则对应的风险处理方式。本实施例中的风险处理方式与上述图1可选实施例中的风险处理方式相同,在此不再赘述,详见上述图1可选实施例的描述。
本实施例通过执行风险识别结果对应的风险处理方式,可以实现对客户端的风险控制,减少风险操作造成的损失,以及减少风险操作的再次发生。
在一种可选的实施方式中,在利用从服务端获取的风险识别模型对指定操作数据进行风险识别,得到风险识别结果之前,方法还包括:
接收服务端发送的模型版本信息;
若根据所接收的模型版本信息,确定服务端存在更新的风险识别模型,则发送模型请求至服务端;
接收服务端返回的风险识别模型。
在具体应用中,根据所接收的模型版本信息,确定服务端存在更新的风险识别模型可以是多种的。示例性的,客户端本地存储的模型版本信息中的更新时间早于所接收的模型版本信息中的更新时间,则确定服务端存在更新的风险识别模型。或者,示例性的,客户端本地存储的模型版本信息与所接收的模型版本信息不同,则确定服务端存在更新的风险识别模型。任何根据所接收的模型版本信息,确定服务端存在更新的风险识别模型的方式,均可用于本申请,本实施例对此不作限制。
并且,模型请求用于请求服务端中更新的风险识别模型,相应的,客户端所接收的服务端返回的风险识别模型为更新的风险识别模型。并且,在接收服务端返回的风险识别模型的情况下,客户端可以利用接收的风险识别模型替换客户端本地存储的风险识别模型,或者,存储所接收的风险识别模型并在下一次风险识别中利用该风险识别模型。这样,本实施例可以保证客户端在风险识别模型存在更新时请求该模型,保证风险识别的准确度,以及减少重复请求相同风险识别模型造成的资源浪费。
另外,服务端可以在存在更新的风险识别模型的情况下,主动向客户端发送该更新的风险识别模型。或者,客户端可以通过风险识别接口,调用服务端的风险识别模型,也就是每次进行风险识别时均向服务端请求风险识别模型。
在一种可选的实施方式中,在上述利用从服务端获取的风险识别模型对指定操作数据进行风险识别,得到风险识别结果之后,本申请实施例提供的风险识别方法,还可以包括如下步骤:
将风险识别结果发送至校验平台;
接收校验平台反馈的针对风险识别结果的校验结果。
在具体应用中,校验平台可以利用标准识别结果对风险识别结果的校验。例如,校验平台可以计算风险识别结果与相应标准识别结果之间的相似度;若相似度大于或等于相似度阈值,确定校验结果为通过校验;若相似度小于相似度阈值,确定校验结果为未通过校验。其中,标准识别结果可以包括:第三方风控平台对客户端发送的设备信息进行风险识别得到的风险识别结果,或者,人工标注的所接收风险识别结果对应指定操作数据的风险识别结果标签。并且,客户端发送的设备信息即安装有客户端的计算设备的设备信息,具体可以包括:设备标识,设备硬件性能以及设备中操作系统的性能等等信息。上述设备信息可以携带在客户端发送的风险识别结果中。
并且,校验平台可以是多种的。示例性的,校验平台可以是服务端或者第三方风控平台。其中,在校验平台为服务端,且标准识别结果为第三方风控平台确定的情况下,服务端可以发送客户端的设备信息至第三方风控平台,第三方风控平台对设备信息进行风险识别,得到标准识别结果并返回至服务端。
并且,校验结果的用途可以是多种的。示例性的,校验结果可以用于确定风险识别的效果,风险识别模型的调整以及若校验结果表明校验异常,则客户端停止执行风险识别结果对应的风险处理方式等等用途中的至少一种。
本实施例通过第三方风控平台对客户端的风险识别结果进行校验,可以进一步提高风险识别的准确度。
在另一种可选的实施方式中,在上述利用从服务端获取的风险识别模型对指定操作数据进行风险识别,得到风险识别结果之后,本申请实施例提供的风险识别方法,还可以包括如下步骤:
获取标准识别结果;
利用标准识别结果对风险识别结果进行校验。
本实施例中的标准识别结果,以及利用标准识别结果进行校验的具体方式,与上述关于通过校验平台进行校验的可选实施例中表述相同的内容相似,区别在于执行主体不同,对于相同部分在此不再赘述,详见该可选实施例的描述。并且,客户端获取标准识别结果的方式可以是多种的。示例性的,客户端可以发送数据请求至服务端或者第三方风控平台,接收服务端或者第三方风控平台反馈的标准识别结果。其中,数据请求可以携带客户端的设备信息。
为了便于理解,下面以示例性说明的形式对上述各实施例进行整合描述。
示例性的,如图4所示,本申请另一实施例提供的一种风险识别方法的流程,包括如下步骤:
应用端在应用启动时,向服务端请求策略;服务端针对该请求下发检测策略和干预策略至应用端;其中,检测策略具体可以由计算设备通过对Apriori模型的训练得到;
应用端注册策略到CEP系统;当风控基础事件触发时,应用端将风控基础日志导入CEP,CEP进行日志关联与匹配,并判断是否匹配成功?若匹配成功,则应用端约束/干预用户行为,以及上报风险日志至服务端;服务端利用第三方风控也就是第三方风控平台,对上报的风险日志进行风控检测结果校验;校验失败,则将失败数据导入模型;Apriori模型记录失败情况,重新学习调整检测策略,并将新的策略同步到服务端。
本实施例的各步骤与上述各实施例中的步骤相似,对于相同部分在此不再赘述,详见上述各实施例的描述。区别在于描述方式不同,具体的:
检测策略和干预策略相当于风险识别模型,检测策略相当于风险识别规则,干预策略相当于风险识别规则对应的风险处理方式。应用端注册策略到CEP系统相当于应用端通过CEP系统也就是CEP架构形式的事件处理流程进行风险识别的流程;风控基础事件触发相当于应用端采集指定操作数据,将风控基础日志导入CEP相当于应用端将采集的指定操作数据用于风险识别。在本实施例中,CEP进行日志关联与匹配相当于应用端利用风险识别规则进行风险识别,匹配成功表明风险识别结果为存在风险。应用端约束/干预用户行为相当于执行风险处理方式,上报风险日志相当于将风险识别结果发送至服务端。
并且,针对Apriori模型的训练,计算设备可以与服务端为同一设备。训练过程中计算设备可以将图4中的应用端作为验证端,这样,应用端上报的针对验证集的风险日志可以用于进行风控检测结果校验,也就是确定对验证集的风险识别结果与标准识别结果之间的相似度。校验失败相当于上述相似度小于相似度阈值,将失败数据导入模型相当于在Apriori模型的训练过程中记录校验失败的风险识别规则。以此为基础,Apriori模型记录失败情况,重新学习调整检测策略,并将新的策略同步到服务端,相当于对校验失败的风险识别规则对应的项集的出现次数减一,以此循环,直到达到训练停止条件。另外,对项集的出现次数的调整还可以包括在校验成功时将成功数据导入模型以重新学习调整检测策略,也就是对校验成功的风险识别规则对应的项集的出现次数进行累计,该过程图4中未示出。
在具体应用中,为了减轻应用端的数据压力,以及保证应用端具备风险识别的处理能力,应用端实现上述任一风险识别方法时,面对复杂的应用场景:需要提供内部具备复杂的逻辑处理能力和状态缓存能力的处理框架。对此,CEP可以很好地应对上述复杂场景的需求。示例性的,如图5所示,本申请另一实施例提供的一种风险识别方法中,复杂事件处理的流程示例图:CEP架构形式的事件处理流程可以包括:通过事件源、输入处理程序将事件输入到事件流中,通过逻辑容器中的内部逻辑器、内部事件流和逻辑器,以事件查询机制,结合窗口、数据表、聚合/分区等多种处理方式对事件流进行处理,生成复杂事件,进而复杂事件流入下一个处理流程或消费事件。在本申请的场景中,事件可以包括对采集的指定操作数据进行风险识别;事件消费、事件流回调以及查询回调可以分别包括:利用风险识别结果进行风险控制,查询风险识别结果以及查询风险识别这一事件流中的数据等等。
例如,CEP架构为Siddhi框架,则应用端可以通过Siddhi框架中的createSiddhiAppRuntime方法将风险识别规则注册到该应用端内。在应用端运行过程中,如果监测到发生IP地址切换,则应用端会自动生成一条eventId为ip_switch的日志,记录IP地址切换这一指定操作,进而将该日志输入到CEP系统。并且,在预设生命周期内,应用端监测到连续多次点击屏幕产生屏幕按压力度值接近,则会生成一条eventId为press_value的日志并输入CEP系统。并且,在该预设生命周期内,监测到设备的陀螺仪重力坐标一直未发生改变,则会继续产生一条eventId为screen_orientation的日志输入CEP系统。CEP系统利用风险识别规则对上述三条日志进行风险识别,确定存在风险。然后CEP系统会给应用端一个StreamCallback回调。回调内应用端可以根据策略中的干预策略,进行相应的干预操作。另外,客户端可以向服务端上报风险日志,该日志内可以包括设备信息。训练得到风险识别模型后,可以移除第三方风控平台,以节约成本。
与上述方法实施例相对应,本申请还提供了风险识别模型训练装置实施例,图6示出了本申请一实施例提供的一种风险识别模型训练装置的结构示意图。如图6所示,应用于服务端,该装置包括:
数据获取模块602,被配置为获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据;
频繁项集训练模块604,被配置为将所述样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则;获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;
模型确定模块606,被配置为在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至目标客户端。
本申请一实施例提供的方案中,指定操作数据可以反映应用程序所实现的与操作对应的业务是否存在风险。并且,频繁项集根据风险识别结果确定,风险识别结果为分别利用每个项集对应的风险识别规则对验证集中各指定操作数据进行风险识别的结果。因此,基于各频繁项集对应的风险识别规则,确定的风险识别模型可以用于进行风险识别。并且,发送风险识别模型至客户端。这样,进行风险识别时,可以由客户端直接利用风险识别模型对该客户端自身采集的指定操作数据进行风险识别,无需经过采集网络质量信息、运行环境信息及设备硬件信息的复杂过程,也无需与风控平台进行网络交互。因此,本方案可以提高风险识别的效率。
在一种可选的实施方式中,所述频繁项集训练模块604,进一步被配置为:
针对每个项集,确定该项集中包含的所有指定操作数据的数据类型;
根据该项集中包含的所有指定操作数据的数据类型,查找该项集对应的风险识别规则。
在一种可选的实施方式中,所述频繁项集训练模块604,进一步被配置为:
将所述每个项集对应的风险识别规则发送至验证端,其中,所述每个项集对应的风险识别规则用于所述验证端针对所述验证集中的指定操作数据,分别利用所述每个项集对应的风险识别规则对该指定操作数据进行风险识别;
接收所述验证端在所述风险识别结果为存在风险时,发送的风险识别结果。
在一种可选的实施方式中,所述频繁项集训练模块604,进一步被配置为:
获取验证集,将所述验证集中各指定操作数据分别与每个项集对应的风险识别规则进行匹配;
利用所述每个项集对应的风险识别规则,分别对验证集中匹配成功的指定操作数据进行风险识别。
在一种可选的实施方式中,所述频繁项集训练模块604,进一步被配置为:
针对每个项集,确定该项集对应的风险识别结果与标准识别结果之间的相似度;
若所述相似度达到相似度阈值,则累计所述风险识别结果对应项集的出现次数;
针对每个项集,若该项集当前的出现次数达到次数阈值,则确定该项集为频繁项集。
在一种可选的实施方式中,所述模型确定模块606,进一步被配置为:
在所述各频繁项集的种类无变更的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型。
在一种可选的实施方式中,所述模型确定模块606,进一步被配置为:
针对每个频繁项集对应的风险识别规则,确定该风险识别规则对应的风险处理方式;
将所述各频繁项集对应的风险识别规则及风险识别规则对应的风险处理方式,确定为所述风险识别模型。
与上述方法实施例相对应,本申请还提供了风险识别装置实施例,图7示出了本申请一实施例提供的一种风险识别装置的结构示意图。如图7所示,应用于客户端,该装置包括:
数据采集模块702,被配置为采集指定操作数据;
风险识别模块704,被配置为利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果,其中,所述风险识别模型为服务端利用图1实施例及图1可选实施例提供的任一风险识别模型训练方法得到的模型。
本申请一实施例提供的方案中,指定操作数据可以反映应用程序所实现的与操作对应的业务是否存在风险。并且,频繁项集根据风险识别结果确定,风险识别结果为分别利用每个项集对应的风险识别规则对验证集中各指定操作数据进行风险识别的结果。因此,基于各频繁项集对应的风险识别规则,确定的风险识别模型可以用于进行风险识别。并且,发送风险识别模型至客户端。这样,进行风险识别时,可以由客户端直接利用风险识别模型对该客户端自身采集的指定操作数据进行风险识别,无需经过采集网络质量信息、运行环境信息及设备硬件信息的复杂过程,也无需与风控平台进行网络交互。因此,本方案可以提高风险识别的效率。
在一种可选的实施方式中,所述风险识别模型包括多个风险识别规则;
相应的,所述风险识别模块704,进一步被配置为:
将所述指定操作数据分别与所述多个风险识别规则进行匹配;
利用匹配成功的风险识别规则对所述指定操作数据进行风险识别,得到风险识别结果。
在一种可选的实施方式中,所述风险识别模型还包括每个风险识别规则对应的风险处理方式;
相应的,所述风险识别模块704,进一步被配置为在所述利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果之后,若所述风险识别结果为存在风险,则执行所述风险识别结果对应的风险处理方式。
在一种可选的实施方式中,所述装置还包括,接收模块,被配置为:
接收服务端发送的模型版本信息;
若根据所接收的模型版本信息,确定所述服务端存在更新的风险识别模型,则发送模型请求至所述服务端;
接收所述服务端返回的风险识别模型。
在一种可选的实施方式中,所述装置还包括发送模块,被配置为:
将所述风险识别结果发送至校验平台;
接收所述校验平台反馈的针对所述风险识别结果的校验结果。
上述为本实施例的一种风险识别模型训练装置以及风险识别装置的示意性方案。需要说明的是,风险识别模型训练装置以及风险识别装置的技术方案分别与上述的风险识别模型训练方法和风险识别方法的技术方案属于同一构思,风险识别模型训练装置以及风险识别装置的技术方案未详细描述的细节内容,均可以参见上述风险识别模型训练方法或者风险识别方法的技术方案的描述。
图8为本申请一实施例提供的一种风险识别系统的结构示意图,该系统可以包括:
服务端802,被配置为获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据;将所述样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则;获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至客户端804;
客户端804,被配置为采集指定操作数据;利用从服务端802获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果。
本申请一实施例提供的方案中,指定操作数据可以反映应用程序所实现的与操作对应的业务是否存在风险。并且,频繁项集根据风险识别结果确定,风险识别结果为分别利用每个项集对应的风险识别规则对验证集中各指定操作数据进行风险识别的结果。因此,基于各频繁项集对应的风险识别规则,确定的风险识别模型可以用于进行风险识别。并且,发送风险识别模型至客户端。这样,进行风险识别时,可以由客户端直接利用风险识别模型对该客户端自身采集的指定操作数据进行风险识别,无需经过采集网络质量信息、运行环境信息及设备硬件信息的复杂过程,也无需与风控平台进行网络交互。因此,本方案可以提高风险识别的效率。
图9示出了根据本申请一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Networks)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Acess)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)接口,等等。
在本申请的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920执行指令时实现的风险识别模型训练方法或者风险识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的风险识别模型训练方法或者风险识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述风险识别模型训练方法或者风险识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前风险识别模型训练方法或者风险识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的风险识别模型训练方法或者风险识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述风险识别模型训练方法或者风险识别方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (17)

1.一种风险识别模型训练方法,其特征在于,应用于服务端,所述方法包括:
获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据,所述指定操作数据为表征指定操作的数据,所述指定操作为能够反映应用程序实现的业务是否存在风险的操作;
将所述样本集划分为多个项集,根据每个项集中的指定操作数据,确定该项集对应的风险识别规则,其中,任一所述项集中包含至少一个所述指定操作数据,且不同项集中的元素不重复;
获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;
根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;
在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至目标客户端。
2.根据权利要求1所述的方法,其特征在于,所述根据每个项集中的指定操作数据,确定该项集对应的风险识别规则,包括:
针对每个项集,确定该项集中包含的所有指定操作数据的数据类型;
根据该项集中包含的所有指定操作数据的数据类型,查找该项集对应的风险识别规则。
3.根据权利要求1或2所述的方法,其特征在于,所述获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,包括:
将所述每个项集对应的风险识别规则发送至验证端,其中,所述每个项集对应的风险识别规则用于所述验证端针对所述验证集中的指定操作数据,分别利用所述每个项集对应的风险识别规则对该指定操作数据进行风险识别;
接收所述验证端在所述风险识别结果为存在风险时,发送的风险识别结果。
4.根据权利要求1或2所述的方法,其特征在于,所述获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,包括:
获取验证集,将所述验证集中各指定操作数据分别与每个项集对应的风险识别规则进行匹配;
利用所述每个项集对应的风险识别规则,分别对所述验证集中匹配成功的指定操作数据进行风险识别。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述风险识别结果,确定所述多个项集中的频繁项集,包括:
针对每个项集,确定该项集对应的风险识别结果与标准识别结果之间的相似度;
若所述相似度达到相似度阈值,则累计所述风险识别结果对应项集的出现次数;
针对每个项集,若该项集的出现次数达到次数阈值,则确定该项集为频繁项集。
6.根据权利要求1或2所述的方法,其特征在于,所述在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,包括:
在所述各频繁项集的种类无变更的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型。
7.根据权利要求1或2所述的方法,其特征在于,所述基于各频繁项集对应的风险识别规则,确定风险识别模型,包括:
针对每个频繁项集对应的风险识别规则,确定该风险识别规则对应的风险处理方式;
将所述各频繁项集对应的风险识别规则及风险识别规则对应的风险处理方式,确定为所述风险识别模型。
8.一种风险识别方法,其特征在于,应用于客户端,所述方法包括:
采集指定操作数据,其中,所述指定操作数据为表征指定操作的数据,所述指定操作为能够反映应用程序实现的业务是否存在风险的操作;
利用从权利要求1-7任一项所述的服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果。
9.根据权利要求8所述的方法,其特征在于,所述风险识别模型包括多个风险识别规则;
所述利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果,包括:
将所述指定操作数据分别与所述多个风险识别规则进行匹配;
利用匹配成功的风险识别规则对所述指定操作数据进行风险识别,得到风险识别结果。
10.根据权利要求8或9所述的方法,其特征在于,所述风险识别模型还包括每个风险识别规则对应的风险处理方式;
在所述利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果之后,所述方法还包括:
若所述风险识别结果为存在风险,则执行所述风险识别结果对应的风险处理方式。
11.根据权利要求8或9所述的方法,其特征在于,在所述利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果之前,所述方法还包括:
接收服务端发送的模型版本信息;
若根据所接收的模型版本信息,确定所述服务端存在更新的风险识别模型,则发送模型请求至所述服务端;
接收所述服务端返回的风险识别模型。
12.根据权利要求8或9所述的方法,其特征在于,在所述利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果之后,所述方法还包括:
将所述风险识别结果发送至校验平台;
接收所述校验平台反馈的针对所述风险识别结果的校验结果。
13.一种风险识别模型训练装置,其特征在于,应用于服务端,所述装置包括:
数据获取模块,被配置为获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据,所述指定操作数据为表征指定操作的数据,所述指定操作为能够反映应用程序实现的业务是否存在风险的操作;
频繁项集训练模块,被配置为将所述样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则,其中,任一所述项集中包含至少一个所述指定操作数据,且不同项集中的元素不重复;获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;
模型确定模块,被配置为在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至目标客户端。
14.一种风险识别装置,其特征在于,应用于客户端,所述装置包括:
数据采集模块,被配置为采集指定操作数据,其中,所述指定操作数据为表征指定操作的数据,所述指定操作为能够反映应用程序实现的业务是否存在风险的操作;
风险识别模块,被配置为利用从权利要求1-7任一项所述的服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果。
15.一种风险识别系统,所述系统包括:服务端和客户端;
服务端,被配置为获取样本集,其中,所述样本集中包括作为训练样本的多个指定操作数据,其中,所述指定操作数据为表征指定操作的数据,所述指定操作为能够反映应用程序实现的业务是否存在风险的操作;将所述样本集划分为多个项集,并根据每个项集中的指定操作数据,确定该项集对应的风险识别规则,其中,任一所述项集中包含至少一个所述指定操作数据,且不同项集中的元素不重复;获得利用每个项集对应的风险识别规则分别对验证集中各指定操作数据的风险识别结果,其中,所述验证集中包括作为验证样本的多个指定操作数据;根据所述风险识别结果,确定所述多个项集中的频繁项集,并返回执行所述获取样本集的步骤;在达到预设训练停止条件的情况下,基于各频繁项集对应的风险识别规则,确定风险识别模型,发送所述风险识别模型至所述客户端;
客户端,被配置为采集指定操作数据;利用从服务端获取的风险识别模型对所述指定操作数据进行风险识别,得到风险识别结果。
16.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7或者8-12任意一项所述方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7或者8-12任意一项所述方法的步骤。
CN202110998618.1A 2021-08-27 2021-08-27 风险识别模型训练方法及装置、风险识别方法及装置 Active CN113723800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110998618.1A CN113723800B (zh) 2021-08-27 2021-08-27 风险识别模型训练方法及装置、风险识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110998618.1A CN113723800B (zh) 2021-08-27 2021-08-27 风险识别模型训练方法及装置、风险识别方法及装置

Publications (2)

Publication Number Publication Date
CN113723800A CN113723800A (zh) 2021-11-30
CN113723800B true CN113723800B (zh) 2024-06-07

Family

ID=78678673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110998618.1A Active CN113723800B (zh) 2021-08-27 2021-08-27 风险识别模型训练方法及装置、风险识别方法及装置

Country Status (1)

Country Link
CN (1) CN113723800B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723800B (zh) * 2021-08-27 2024-06-07 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962483B1 (en) * 2002-12-20 2011-06-14 Oracle International Corporation Association rule module for data mining
US8606616B1 (en) * 2009-04-24 2013-12-10 Bank Of America Corporation Selection of business success indicators based on scoring of intended program results, assumptions or dependencies, and projects
CN108364106A (zh) * 2018-02-27 2018-08-03 平安科技(深圳)有限公司 一种报销单风险预测方法、装置、终端设备及存储介质
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN108512822A (zh) * 2017-02-28 2018-09-07 阿里巴巴集团控股有限公司 一种数据处理事件的风险识别方法和装置
CN109120634A (zh) * 2018-09-05 2019-01-01 广州视源电子科技股份有限公司 一种端口扫描检测的方法、装置、计算机设备和存储介质
CN109785944A (zh) * 2018-12-13 2019-05-21 平安医疗健康管理股份有限公司 基于数据分析的医院评价方法及相关产品
CN110245841A (zh) * 2019-05-21 2019-09-17 平安科技(深圳)有限公司 一种网约车风险控制方法及相关装置
CN111046184A (zh) * 2019-12-12 2020-04-21 深圳市随手金服信息科技有限公司 文本的风险识别方法、装置、服务器和存储介质
CN111242790A (zh) * 2020-01-02 2020-06-05 平安科技(深圳)有限公司 风险识别方法、电子装置及存储介质
CN111738620A (zh) * 2020-07-17 2020-10-02 西南石油大学 一种基于关联规则的井漏风险预测与堵漏决策系统及方法
CN111737321A (zh) * 2020-07-02 2020-10-02 大连理工大学人工智能大连研究院 基于数据挖掘的城市大气污染联防联控区域划分方法
KR20200122195A (ko) * 2019-04-17 2020-10-27 연세대학교 산학협력단 비정형 트랜잭션 비식별 데이터의 품질 측정 방법 및 장치
CN111861240A (zh) * 2020-07-27 2020-10-30 深圳前海微众银行股份有限公司 可疑用户识别方法、装置、设备及可读存储介质
CN111967761A (zh) * 2020-08-14 2020-11-20 国网电子商务有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN112370793A (zh) * 2020-11-25 2021-02-19 上海幻电信息科技有限公司 用户账号的风险控制方法及装置
CN112540973A (zh) * 2020-12-18 2021-03-23 山东大学 一种基于关联规则的网络可视化方法
CN112801801A (zh) * 2021-01-29 2021-05-14 中国建设银行股份有限公司 模型训练方法、风险识别方法、模型、装置、设备及介质
CN107085757B (zh) * 2016-02-16 2021-06-29 中国移动通信集团江苏有限公司 一种确定风险类用户的方法及装置
CN113723800A (zh) * 2021-08-27 2021-11-30 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7801924B2 (en) * 2006-12-28 2010-09-21 Infosys Technologies Ltd. Decision tree construction via frequent predictive itemsets and best attribute splits
CN111404887B (zh) * 2015-11-02 2023-03-10 创新先进技术有限公司 一种业务处理方法及装置
AU2021401816A1 (en) * 2020-12-18 2023-06-22 Strong Force Vcn Portfolio 2019, Llc Robot fleet management and additive manufacturing for value chain networks

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962483B1 (en) * 2002-12-20 2011-06-14 Oracle International Corporation Association rule module for data mining
US8606616B1 (en) * 2009-04-24 2013-12-10 Bank Of America Corporation Selection of business success indicators based on scoring of intended program results, assumptions or dependencies, and projects
CN107085757B (zh) * 2016-02-16 2021-06-29 中国移动通信集团江苏有限公司 一种确定风险类用户的方法及装置
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN108512822A (zh) * 2017-02-28 2018-09-07 阿里巴巴集团控股有限公司 一种数据处理事件的风险识别方法和装置
CN108364106A (zh) * 2018-02-27 2018-08-03 平安科技(深圳)有限公司 一种报销单风险预测方法、装置、终端设备及存储介质
WO2019165673A1 (zh) * 2018-02-27 2019-09-06 平安科技(深圳)有限公司 一种报销单风险预测方法、装置、终端设备及存储介质
CN109120634A (zh) * 2018-09-05 2019-01-01 广州视源电子科技股份有限公司 一种端口扫描检测的方法、装置、计算机设备和存储介质
CN109785944A (zh) * 2018-12-13 2019-05-21 平安医疗健康管理股份有限公司 基于数据分析的医院评价方法及相关产品
KR20200122195A (ko) * 2019-04-17 2020-10-27 연세대학교 산학협력단 비정형 트랜잭션 비식별 데이터의 품질 측정 방법 및 장치
CN110245841A (zh) * 2019-05-21 2019-09-17 平安科技(深圳)有限公司 一种网约车风险控制方法及相关装置
CN111046184A (zh) * 2019-12-12 2020-04-21 深圳市随手金服信息科技有限公司 文本的风险识别方法、装置、服务器和存储介质
CN111242790A (zh) * 2020-01-02 2020-06-05 平安科技(深圳)有限公司 风险识别方法、电子装置及存储介质
CN111737321A (zh) * 2020-07-02 2020-10-02 大连理工大学人工智能大连研究院 基于数据挖掘的城市大气污染联防联控区域划分方法
CN111738620A (zh) * 2020-07-17 2020-10-02 西南石油大学 一种基于关联规则的井漏风险预测与堵漏决策系统及方法
CN111861240A (zh) * 2020-07-27 2020-10-30 深圳前海微众银行股份有限公司 可疑用户识别方法、装置、设备及可读存储介质
CN111967761A (zh) * 2020-08-14 2020-11-20 国网电子商务有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN112370793A (zh) * 2020-11-25 2021-02-19 上海幻电信息科技有限公司 用户账号的风险控制方法及装置
CN112540973A (zh) * 2020-12-18 2021-03-23 山东大学 一种基于关联规则的网络可视化方法
CN112801801A (zh) * 2021-01-29 2021-05-14 中国建设银行股份有限公司 模型训练方法、风险识别方法、模型、装置、设备及介质
CN113723800A (zh) * 2021-08-27 2021-11-30 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴禹力 ; 郑有志 ; 孙国亮 ; .指挥决策风险三元组模型的数据挖掘.指挥信息系统与技术.2012,(第02期),全文. *
基于关联规则赋权特征选择集成的信用分类研究;余乐安;张有德;;系统工程理论与实践;20200225(第02期);全文 *
指挥决策风险三元组模型的数据挖掘;吴禹力;郑有志;孙国亮;;指挥信息系统与技术(第02期);全文 *

Also Published As

Publication number Publication date
CN113723800A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN108763499B (zh) 基于智能语音的呼叫质检方法、装置、设备及存储介质
US10565442B2 (en) Picture recognition method and apparatus, computer device and computer- readable medium
CN109760041B (zh) 基于聊天机器人的云管理系统及其操作方法
CN107957992B (zh) 一种用户反馈信息的自动处理方法及系统
US20140301218A1 (en) Statistical analysis and prompting method and system for mobile terminal internet traffic
EP3617896A1 (en) Method and apparatus for intelligent response
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN109960621A (zh) 一种基于大数据可视化监控平台的数据抽取方法
CN110381101A (zh) Api网关控制系统、控制方法、设备和介质
CN107896170A (zh) 保险应用系统的监控方法及装置
CN113723800B (zh) 风险识别模型训练方法及装置、风险识别方法及装置
CN111416728A (zh) 会话结束预测、在线客服服务的方法、系统、设备及介质
CN109120613B (zh) 通讯数据的监控方法和系统
CN111104214A (zh) 一种工作流应用方法及装置
CN116894078A (zh) 一种信息交互方法、装置、电子设备及介质
CN117271584A (zh) 数据处理方法及装置、计算机可读存储介质和电子设备
WO2023092981A1 (zh) 流式数据处理方法、规则插件、流式数据处理模块及系统
CN110647448A (zh) 一种移动应用操作日志数据实时分析方法、服务器和系统
CN113783862B (zh) 一种边云协同过程中进行数据校验的方法及装置
CN115510139A (zh) 数据查询方法和装置
CN115563156A (zh) 流数据信息的校验方法、装置、设备及存储介质
CN110674839B (zh) 异常用户识别方法、装置、存储介质及电子设备
CN114356712A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN113487053A (zh) 维修服务方法、装置、设备及计算机可读存储介质
CN112612879A (zh) 话术测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant