CN113780582B

CN113780582B - 基于机器学习模型的风控特征筛选方法及系统

Info

Publication number: CN113780582B
Application number: CN202111081171.8A
Authority: CN
Inventors: 周维浩
Original assignee: Hangyin Consumer Finance Co ltd
Current assignee: Hangyin Consumer Finance Co ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-04-07
Anticipated expiration: 2041-09-15
Also published as: CN113780582A

Abstract

本发明是关于基于机器学习模型的风控特征筛选方法及系统，可以确保显著性评价结果的丰富性和完整性，如此，在获得风控处理反馈时，能够实现对显著性评价结果的筛选，并对筛选得到的目标显著性评价结果所指向的操作事件信息进行风控特征挖掘以得到丰富、完整且具有风控处理反馈针对性的风控特征集，进而可以基于风控特征集对业务风控处理树模型进行训练优化，以改善风控处理反馈中记载的业务风控处理树模型的缺陷，提高业务风控处理树模型在应对实际业务时的风控处理效率和质量。

Description

基于机器学习模型的风控特征筛选方法及系统

技术领域

本发明涉及机器学习和风控分析技术领域，具体而言，涉及一种基于机器学习模型的风控特征筛选方法及系统。

背景技术

随着科学技术的不断进步，现目前的各类业务已经开始向云端化发展，逐渐形成云业务或者在线业务的业务处理模式。这种业务模式能够打破地域和时间限制，从而提高业务处理的效率和灵活性。在线业务或者云业务处理模式所面临的数据信息安全却不容忽视。为了保障数据信息安全，相关技术通常基于机器学习（Machine Learning）技术实现。然而在实际应用过程中发明人发现，相关技术难以根据实际业务情况实现针对性的特征筛选，进而难以对机器学习模型进行针对性的训练优化，这样难以满足应对实际业务时的风控处理效率和质量要求。

发明内容

第一方面，本发明实施例提供了一种基于机器学习模型的风控特征筛选方法，应用于风控特征筛选系统，所述方法至少包括：结合经不少于一个前端可视化交互终端记录的在线业务会话日志，确定多组操作事件信息；依据所述在线业务会话日志的主题标签，确定每组所述操作事件信息所指向的显著性评价结果，所述显著性评价结果至少涵盖所述操作事件信息的时序定位数据和空间定位数据中的至少一种；根据预设的业务风控处理树模型所指向的风控处理反馈，对所述每组所述操作事件信息所指向的显著性评价结果进行筛选，得到目标显著性评价结果；对所述目标显著性评价结果所指向的操作事件信息进行风控特征挖掘以得到风控特征集；其中，所述风控特征集用于训练所述业务风控处理树模型。

优选的实施例中，还包括：依据每组所述操作事件信息所指向的所述显著性评价结果，对多组所述操作事件信息中的操作事件进行显著性评价。

优选的实施例中，所述操作事件包括用户行为，所述依据每组所述操作事件信息所指向的所述显著性评价结果，对多组所述操作事件信息中的操作事件进行显著性评价，包括：分别确定与每组所述操作事件信息适配的局部交互行为信息和全局交互行为信息；依据每组所述操作事件信息所指向的所述显著性评价结果，确定每组所述局部交互行为信息所指向的所述显著性评价结果，以及每组所述全局交互行为信息所指向的所述显著性评价结果；依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述全局交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述全局交互行为信息进行信息共性分析，确定第一共性分析情况；依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述局部交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述局部交互行为信息进行信息共性分析，确定第二共性分析情况；依据所述第一共性分析情况和所述第二共性分析情况，为每组所述全局交互行为信息中的全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息；基于多组所述局部交互行为信息、多组所述操作事件信息和多组所述绑定信息，对多组所述操作事件信息中的用户行为进行显著性评价。

优选的实施例中，所述依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述全局交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述全局交互行为信息进行信息共性分析，确定第一共性分析情况，包括：确定待共性分析信息和多个信息簇；其中，所述待共性分析信息是多组所述操作事件信息和多组所述全局交互行为信息中待确定所指向的共性分析关键词的一组目标信息，所述信息簇是多组所述操作事件信息和多组所述全局交互行为信息中，通过已经判定出指向相同共性分析关键词的信息构成的信息簇；将所述待共性分析信息与每个所述信息簇中的信息进行所述显著性评价结果的组合以及信息相关性组合，根据组合结果，在多个所述信息簇所指向的所述共性分析关键词中，确定与所述待共性分析信息所指向的待定共性分析关键词；依据所述待定共性分析关键词，确定所述待共性分析信息所指向的目标共性分析关键词；依据所述多组操作事件信息和多组全局交互行为信息中每组信息所指向的所述目标共性分析关键词，得到所述第一共性分析情况。

优选的实施例中，所述将所述待共性分析信息与每个所述信息簇中的信息进行所述显著性评价结果的组合以及信息相关性组合，根据组合结果，在多个所述信息簇所指向的所述共性分析关键词中，确定与所述待共性分析信息所指向的待定共性分析关键词，包括：将每个所述信息簇作为第一信息簇，依据所述第一信息簇中每组信息所指向的所述显著性评价结果，在所述第一信息簇中确定第一样本信息；在确定所述待共性分析信息所指向的所述显著性评价结果与所述第一样本信息所指向的所述显著性评价结果之间符合第一设定要求的基础上，将所述待共性分析信息与所述第一信息簇中的每组信息分别进行相关性组合，确定不少于一个第一相关性系数；确定大于第一设定系数的所述第一相关性系数的第一统计结果；在确定所述第一统计结果与所述第一信息簇中信息统计结果的量化分析结果大于第一设定量化判定数据的前提下，将所述第一信息簇所指向的共性分析关键词确定为所述待共性分析信息所指向的所述待定共性分析关键词。

优选的实施例中，所述基于第一信息簇中每组信息所指向的所述显著性评价结果，在所述第一信息簇中确定第一样本信息，包括：将所述第一信息簇中时序定位数据最小的一组信息作为所述第一样本信息。

优选的实施例中，所述确定所述待共性分析信息所指向的所述显著性评价结果与所述第一样本信息所指向的所述显著性评价结果之间符合第一设定要求，包括以下一项或一项以上：确定所述待共性分析信息所指向的第一时序定位数据与所述第一样本信息所指向的第二时序定位数据之间的时序特征距离不大于第一设定时序距离；确定所述待共性分析信息所指向的第一空间定位数据与所述第一样本信息所指向的第二空间定位数据之间的空间差异量化指标不大于第一设定量化指标。

优选的实施例中，所述在线业务会话日志的主题标签包括收集所述在线业务会话日志的前端可视化交互终端关键词；所述确定所述待共性分析信息所指向的第一空间定位数据与所述样本信息所指向的第二空间定位数据之间的空间差异量化指标不大于第一设定量化指标，包括：确定所述待共性分析信息所指向的所述前端可视化交互终端关键词和所述第一样本信息所指向的所述前端可视化交互终端关键词组合。

优选的实施例中，所述依据所述待定共性分析关键词，确定所述待共性分析信息所指向的目标共性分析关键词，包括：响应于所述待定共性分析关键词的统计结果为多个，分别确定每个所述待定共性分析关键词所指向的所述信息簇中多组信息所指向的去极化描述表达，以得到多个所述去极化描述表达；确定所述待共性分析信息所指向的描述表达；将多个所述去极化描述表达中与所述描述表达的加权结果的目标特征值对应去极化描述表达指向的待定共性分析关键词，确定为所述待共性分析信息所指向的所述目标共性分析关键词。

优选的实施例中，还包括：当在多个所述信息簇所指向的共性分析关键词中，确定不存在与所述待共性分析信息所指向的所述待定共性分析关键词时，确定一个衍生共性分析关键词；将所述衍生共性分析关键词确定为所述待共性分析信息所指向的所述目标共性分析关键词。

优选的实施例中，还包括：借助每个所述信息簇中每组信息所指向的所述显著性评价结果，对不少于两个共性分析关键词所指向的所述信息簇进行全局化处理。

优选的实施例中，所述借助每个所述信息簇中每组信息所指向的所述显著性评价结果，对不少于两个共性分析关键词所指向的所述信息簇进行全局化处理，包括：将所述共性分析关键词存在差异的两个所述信息簇分别作为第二信息簇和第三信息簇；依据所述第二信息簇中每组信息所指向的所述显著性评价结果，在所述第二信息簇中确定第二样本信息，以及依据所述第三信息簇中每组信息所指向的所述显著性评价结果，在所述第三信息簇中确定第三样本信息；在确定所述第二样本信息所指向的所述显著性评价结果与所述第三样本信息所指向的所述显著性评价结果之间符合第二设定要求的前提下，将所述第二信息簇中每组信息分别与所述第三信息簇中每组信息进行相关性组合，确定多个第二相关性系数；确定大于第二设定系数的所述第二相关性系数的第二统计结果；在确定所述第二统计结果与所述第二信息簇和所述第三信息簇中信息统计结果的量化分析结果大于第二设定量化判定数据的前提下，全局化处理所述第二信息簇和所述第三信息簇，且全局化处理后的信息簇指向相同共性分析关键词。

优选的实施例中，所述确定所述第二样本信息所指向的所述显著性评价结果与所述第三样本信息所指向的所述显著性评价结果之间符合第二设定要求，包括以下一项或一项以上：确定所述第二样本信息所指向的第三时序定位数据与所述第四样本信息所指向的第四时序定位数据之间的时序特征距离不大于第二设定时序距离；确定所述第二样本信息所指向的第三空间定位数据与所述第四样本信息所指向的第四空间定位数据之间的空间差异量化指标不大于第二设定量化指标。

优选的实施例中，所述依据所述第一共性分析情况和所述第二共性分析情况，为每组所述全局交互行为信息中的全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息，包括：依据所述第一共性分析情况、所述第二共性分析情况和多组所述操作事件信息，确定全局交互行为关键词和局部交互行为关键词之间的关键词映射列表；依据所述关键词映射列表，确定与每个所述全局交互行为关键词所指向的目标局部交互行为关键词；基于与每个所述全局交互行为关键词所指向的目标局部交互行为关键词，为每组所述全局交互行为信息中的每个全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息。

优选的实施例中，所述依据所述关键词映射列表，确定与每个所述全局交互行为关键词所指向的目标局部交互行为关键词，包括：对于每个所述全局交互行为关键词，依据所述关键词映射列表，确定与所述全局交互行为关键词所指向的多个局部交互行为关键词；在与所述全局交互行为关键词所指向的多个局部交互行为关键词中，将所对应的量化分析结果最大且所对应的量化分析结果大于第三设定量化判定数据的一个局部交互行为关键词，确定为与所述全局交互行为关键词所指向的所述目标局部交互行为关键词。

第二方面，本发明实施例还提供了一种基于机器学习模型的风控特征筛选系统，包括处理引擎、网络模块和存储器，所述处理引擎和所述存储器通过所述网络模块通信，所述处理引擎用于从所述存储器中读取计算机程序并运行，以实现上述的方法。

本申请实施例中，风控特征筛选系统可以结合经不少于一个前端可视化交互终端记录的在线业务会话日志，确定多组包括操作事件的操作事件信息，并基于该在线业务会话日志的主题标签，来确定每组操作事件信息所指向的显著性评价结果，其中，显著性评价结果至少涵盖了操作事件信息的时序定位数据和空间定位数据中的至少一种，这样可以确保显著性评价结果的丰富性和完整性，如此，在获得风控处理反馈时，能够实现对显著性评价结果的筛选，并对筛选得到的目标显著性评价结果所指向的操作事件信息进行风控特征挖掘以得到丰富、完整且具有风控处理反馈针对性的风控特征集，进而可以基于风控特征集对业务风控处理树模型进行训练优化，以改善风控处理反馈中记载的业务风控处理树模型的缺陷，提高业务风控处理树模型在应对实际业务时的风控处理效率和质量。

比如，风控处理反馈反映业务风控处理树模型对不同业务场景的业务数据的风控分析能力差，那么所确定的风控特征集可以涉及多个业务场景的业务数据，这样通过针对性的风控特征集对业务风控处理树模型进行针对性训练，能够提高业务风控处理树模型应对不同业务数据的风控处理能力。

又比如，风控处理反馈反映业务风控处理树模型对信贷业务风控处理的时效性较差，则所确定的风控特征集可以是针对业务风控处理树模型的时效性改进的训练样本，这样能够提高业务风控处理树模型应对信贷业务风控处理时的时效性。

在后面的描述中，将部分地陈述其他的特征。在检查后面内容和附图时，本领域的技术人员将部分地发现这些特征，或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面，当前申请中的特征可以被实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例，其中参考数字在附图的各个视图中代表相似的机构。

图1是根据本发明的一些实施例所示的一种示例性基于机器学习模型的风控特征筛选方法的应用场景的框图。

图2是根据本发明的一些实施例所示的一种示例性风控特征筛选系统中硬件和软件组成的示意图。

图3是根据本发明的一些实施例所示的一种示例性基于机器学习模型的风控特征筛选方法和/或过程的流程图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

在下面的详细描述中，通过实例阐述了许多具体细节，以便提供对相关指导的全面了解。然而，对于本领域的技术人员来说，显然可以在没有这些细节的情况下实施本发明。在其他情况下，公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述，没有细节，以避免不必要的模糊本发明的方面。

这些和其他特性、当前申请披露的功能、执行的方法、结构中相关元素的功能和部件的组合和生产经济性,在参照附图进行以下描述的考虑中可能会变得更加明显,所有这些形成本发明的一部分。然而，需要理解清楚的是，附图仅仅是为了说明和描述的目的，并不旨在限制本发明的范围。应当了解的是，这些图纸不是按比例绘制的。然而，应当明确理解的是，附图仅用于说明和描述的目的，并不意图限制本发明的范围。应当知晓的是，这些附图并不依照比例。

本发明中使用流程图说明根据本发明的实施例的系统所执行的执行过程。应当明确理解的是，流程图的执行过程可以不按顺序执行。相反，这些执行过程可以以相反的顺序或同时执行。另外，可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。

图1是根据本发明的一些实施例所示的一种示例性基于机器学习模型的风控特征筛选系统300的框图，基于机器学习模型的风控特征筛选系统300可以包括风控特征筛选系统100和前端可视化交互终端200。

在一些实施例中，如图2所示，风控特征筛选系统100可以包括处理引擎110、网络模块120和存储器130，处理引擎110和存储器130通过网络模块120通信。

处理引擎110可以处理相关的信息和/或数据以执行本发明中描述的一个或多个功能。例如，在一些实施例中，处理引擎110可以包括至少一个处理引擎(例如，单核处理引擎或多核处理器)。仅作为示例，处理引擎110可以包括中央处理单元(Central ProcessingUnit，CPU)、专用集成电路(Application-Specific Integrated Circuit，ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer，RISC)、微处理器等或其任意组合。

网络模块120可以促进信息和/或数据的交换。在一些实施例中，网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例，网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网络(Wireless Local Area Network，WLAN)、城域网(Metropolitan Area Network，MAN)、公用电话交换网(Public Telephone SwitchedNetwork，PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication，NFC)网络等或上述举例的任意组合。在一些实施例中，网络模块120可以包括至少一个网络接入点。例如，网络模块120可以包括有线或无线网路接入点，如基站和/或网路接入点。

存储器130可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。其中，存储器130用于存储程序，所述处理引擎110在接收到执行指令后，执行所述程序。

可以理解，图2所示的结构仅为示意，风控特征筛选系统100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

图3是根据本发明的一些实施例所示的一种示例性基于机器学习模型的风控特征筛选方法和/或过程的流程图，基于机器学习模型的风控特征筛选方法应用于图1中的风控特征筛选系统100，进一步可以包括以下内容所描述的技术方案。

S31、结合经不少于一个前端可视化交互终端记录的在线业务会话日志，确定多组操作事件信息；依据所述在线业务会话日志的主题标签，确定每组所述操作事件信息所指向的显著性评价结果。

在本申请实施例中，所述显著性评价结果至少涵盖所述操作事件信息的时序定位数据和空间定位数据中的至少一种，进一步地，时序定位数据可以理解为时间特征比如时间先后顺序，空间定位数据可以理解为空间特征比如操作事件在整理业务流程中的分布情况。

示例性的，前端可视化交互终端可以是智能机器人或者智能立柜式交互屏，本申请实施例不作限制，主题标签可以对应于前端可视化交互终端的标识，而显著性评价结果可以理解为操作事件信息的习惯特征或者整体性的显著性特征。

此外，本申请的应用领域可以涉及但不限于办公业务场景、信贷业务场景或者游戏业务场景，操作事件信息可以分别对应不同业务场景下的用户可视化操作行为。

S32、根据预设的业务风控处理树模型所指向的风控处理反馈，对所述每组所述操作事件信息所指向的显著性评价结果进行筛选，得到目标显著性评价结果；对所述目标显著性评价结果所指向的操作事件信息进行风控特征挖掘以得到风控特征集。

在本申请实施例中，所述风控特征集用于训练所述业务风控处理树模型。进一步地，业务风控处理树模型可以基于神经网络搭建而成，风控处理反馈可以是相关业务平台系统向风控特征筛选系统反向传输的意见型消息，旨在表达该模型在应用时存在的缺陷。基于此，可以根据风控处理反馈对显著性评价结果进行针对性的筛选以实现对操作事件信息的定位，这样可以通过对定位得到的操作事件信息进行风控特征挖掘以得到丰富、完整且具有风控处理反馈针对性的风控特征集，进而可以基于风控特征集对业务风控处理树模型进行训练优化，以改善风控处理反馈中记载的业务风控处理树模型的缺陷，提高业务风控处理树模型在应对实际业务时的风控处理效率和质量。

示例性的，风控特征挖掘可以基于卷积神经网络实现，由于风控特征挖掘是基于筛选得到的操作事件信息实现的，因而风控特征挖掘可以从某种意义上理解为风控特征筛选。

在上述内容的基础上，该方法还可以包括一下步骤。

S33、依据每组所述操作事件信息所指向的所述显著性评价结果，对多组所述操作事件信息中的操作事件进行显著性评价。

在本申请实施例中，显著性评价可以理解为显著性分析或者显著性挖掘。在一些可能的示例中，所述操作事件包括用户行为，基于此，S33所描述的依据每组所述操作事件信息所指向的所述显著性评价结果，对多组所述操作事件信息中的操作事件进行显著性评价，可以包括S331-S336。

S331、分别确定与每组所述操作事件信息适配的局部交互行为信息和全局交互行为信息。

S332、依据每组所述操作事件信息所指向的所述显著性评价结果，确定每组所述局部交互行为信息所指向的所述显著性评价结果，以及每组所述全局交互行为信息所指向的所述显著性评价结果。

S333、依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述全局交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述全局交互行为信息进行信息共性分析，确定第一共性分析情况。

对于一些可能的实施例而言，S333所描述的依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述全局交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述全局交互行为信息进行信息共性分析，确定第一共性分析情况，可以包括以下S3331-S3334所描述的技术方案。

S3331、确定待共性分析信息和多个信息簇；其中，所述待共性分析信息是多组所述操作事件信息和多组所述全局交互行为信息中待确定所指向的共性分析关键词的一组目标信息，所述信息簇是多组所述操作事件信息和多组所述全局交互行为信息中，通过已经判定出指向相同共性分析关键词的信息构成的信息簇。

S3332、将所述待共性分析信息与每个所述信息簇中的信息进行所述显著性评价结果的组合以及信息相关性组合，根据组合结果，在多个所述信息簇所指向的所述共性分析关键词中，确定与所述待共性分析信息所指向的待定共性分析关键词。

进一步地，对于一些可能的实施例而言，S3332所描述的将所述待共性分析信息与每个所述信息簇中的信息进行所述显著性评价结果的组合以及信息相关性组合，根据组合结果，在多个所述信息簇所指向的所述共性分析关键词中，确定与所述待共性分析信息所指向的待定共性分析关键词，可以包括：将每个所述信息簇作为第一信息簇，依据所述第一信息簇中每组信息所指向的所述显著性评价结果，在所述第一信息簇中确定第一样本信息；在确定所述待共性分析信息所指向的所述显著性评价结果与所述第一样本信息所指向的所述显著性评价结果之间符合第一设定要求的基础上，将所述待共性分析信息与所述第一信息簇中的每组信息分别进行相关性组合，确定不少于一个第一相关性系数；确定大于第一设定系数的所述第一相关性系数的第一统计结果；在确定所述第一统计结果与所述第一信息簇中信息统计结果的量化分析结果大于第一设定量化判定数据的前提下，将所述第一信息簇所指向的共性分析关键词确定为所述待共性分析信息所指向的所述待定共性分析关键词。如此设计，可以避免待定共性分析关键词出现缺失。

对于一些可能的实施例而言，所述基于第一信息簇中每组信息所指向的所述显著性评价结果，在所述第一信息簇中确定第一样本信息，包括：将所述第一信息簇中时序定位数据最小的一组信息作为所述第一样本信息。

例如，确定所述待共性分析信息所指向的所述显著性评价结果与所述第一样本信息所指向的所述显著性评价结果之间符合第一设定要求，包括以下一项或一项以上。

第一项、确定所述待共性分析信息所指向的第一时序定位数据与所述第一样本信息所指向的第二时序定位数据之间的时序特征距离不大于第一设定时序距离。

第二项、确定所述待共性分析信息所指向的第一空间定位数据与所述第一样本信息所指向的第二空间定位数据之间的空间差异量化指标不大于第一设定量化指标。

可以理解的是，所述在线业务会话日志的主题标签包括收集所述在线业务会话日志的前端可视化交互终端关键词；所述确定所述待共性分析信息所指向的第一空间定位数据与所述样本信息所指向的第二空间定位数据之间的空间差异量化指标不大于第一设定量化指标，包括：确定所述待共性分析信息所指向的所述前端可视化交互终端关键词和所述第一样本信息所指向的所述前端可视化交互终端关键词组合。

S3333、依据所述待定共性分析关键词，确定所述待共性分析信息所指向的目标共性分析关键词。

进一步地，S3333所描述的依据所述待定共性分析关键词，确定所述待共性分析信息所指向的目标共性分析关键词，可以包括以下内容：响应于所述待定共性分析关键词的统计结果为多个，分别确定每个所述待定共性分析关键词所指向的所述信息簇中多组信息所指向的去极化描述表达，以得到多个所述去极化描述表达；确定所述待共性分析信息所指向的描述表达；将多个所述去极化描述表达中与所述描述表达的加权结果的目标特征值对应去极化描述表达指向的待定共性分析关键词，确定为所述待共性分析信息所指向的所述目标共性分析关键词。

S3334、依据所述多组操作事件信息和多组全局交互行为信息中每组信息所指向的所述目标共性分析关键词，得到所述第一共性分析情况。

如此设计，可以通过目标共性分析关键词准确可靠地得到第一共性分析情况。

S334、依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述局部交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述局部交互行为信息进行信息共性分析，确定第二共性分析情况。

S335、依据所述第一共性分析情况和所述第二共性分析情况，为每组所述全局交互行为信息中的全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息。

S336、基于多组所述局部交互行为信息、多组所述操作事件信息和多组所述绑定信息，对多组所述操作事件信息中的用户行为进行显著性评价。

如此设计，可以确保显著性评价的完整性。

在上述内容的基础上，还可以包括以下步骤所描述的技术方案。

S34、当在多个所述信息簇所指向的共性分析关键词中，确定不存在与所述待共性分析信息所指向的所述待定共性分析关键词时，确定一个衍生共性分析关键词；将所述衍生共性分析关键词确定为所述待共性分析信息所指向的所述目标共性分析关键词。

S35、借助每个所述信息簇中每组信息所指向的所述显著性评价结果，对不少于两个共性分析关键词所指向的所述信息簇进行全局化处理。

对于一些可能的实施例而言，S35所描述的借助每个所述信息簇中每组信息所指向的所述显著性评价结果，对不少于两个共性分析关键词所指向的所述信息簇进行全局化处理，可以包括以下S351-S354所描述的技术方案。

S351、将所述共性分析关键词存在差异的两个所述信息簇分别作为第二信息簇和第三信息簇。

S352、依据所述第二信息簇中每组信息所指向的所述显著性评价结果，在所述第二信息簇中确定第二样本信息，以及依据所述第三信息簇中每组信息所指向的所述显著性评价结果，在所述第三信息簇中确定第三样本信息。

S353、在确定所述第二样本信息所指向的所述显著性评价结果与所述第三样本信息所指向的所述显著性评价结果之间符合第二设定要求的前提下，将所述第二信息簇中每组信息分别与所述第三信息簇中每组信息进行相关性组合，确定多个第二相关性系数。

在一些可能的实施例中，确定所述第二样本信息所指向的所述显著性评价结果与所述第三样本信息所指向的所述显著性评价结果之间符合第二设定要求，包括以下一项或一项以上：确定所述第二样本信息所指向的第三时序定位数据与所述第四样本信息所指向的第四时序定位数据之间的时序特征距离不大于第二设定时序距离；确定所述第二样本信息所指向的第三空间定位数据与所述第四样本信息所指向的第四空间定位数据之间的空间差异量化指标不大于第二设定量化指标。

S354、确定大于第二设定系数的所述第二相关性系数的第二统计结果；在确定所述第二统计结果与所述第二信息簇和所述第三信息簇中信息统计结果的量化分析结果大于第二设定量化判定数据的前提下，全局化处理所述第二信息簇和所述第三信息簇，且全局化处理后的信息簇指向相同共性分析关键词。

如此设计，可以实现对不同信息簇的融合，从而确保全局化处理后的信息簇与相同共性分析关键词的一一对应关系。

对于一些可能的实施例而言，依据所述第一共性分析情况和所述第二共性分析情况，为每组所述全局交互行为信息中的全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息，包括：依据所述第一共性分析情况、所述第二共性分析情况和多组所述操作事件信息，确定全局交互行为关键词和局部交互行为关键词之间的关键词映射列表；依据所述关键词映射列表，确定与每个所述全局交互行为关键词所指向的目标局部交互行为关键词；基于与每个所述全局交互行为关键词所指向的目标局部交互行为关键词，为每组所述全局交互行为信息中的每个全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息。

进一步地，所述依据所述关键词映射列表，确定与每个所述全局交互行为关键词所指向的目标局部交互行为关键词，包括：对于每个所述全局交互行为关键词，依据所述关键词映射列表，确定与所述全局交互行为关键词所指向的多个局部交互行为关键词；在与所述全局交互行为关键词所指向的多个局部交互行为关键词中，将所对应的量化分析结果最大且所对应的量化分析结果大于第三设定量化判定数据的一个局部交互行为关键词，确定为与所述全局交互行为关键词所指向的所述目标局部交互行为关键词。

本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定，例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语，本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导，从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀，例如“第一”、“第二”、“上一个”、“下一个”、“前一个”、“后一个”、“当前”、“历史”、“最新”、“最佳”、“目标”、“指定”和“实时”等，可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀，例如“列表”、“特征”、“序列”、“集合”、“矩阵”、“单元”、“元素”、“轨迹”和“清单”等，也可以根据前后文进行毫无疑义地推导和确定。

本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解，本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本发明所记载的内容进行的，因此上述内容并不是对整体方案的创造性的评判。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅作为示例，而并不构成对本发明的限定。虽然此处并没有明确说明，本领域技术人员可以对本发明进行各种修改、改进和修正。该类修改、改进和修正在本发明中被建议，所以该类修改、改进、修正仍属于本发明示范实施例的精神和范围。

同时，本发明使用了特定术语来描述本发明的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本发明的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。

另外，本领域普通技术人员可以理解的是，本发明的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们任何新的和有用的改进。相应地，本发明的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外，本发明的各方面可以表现为位于至少一个计算机可读介质中的计算机产品，所述产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。

本发明各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写，包括面向对象程序设计，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET，Python等，或类似的常规程序编程语言，如"C"编程语言，Visual Basic，Fortran2003，Perl，COBOL 2002，PHP，ABAP，动态编程语言如Python，Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网络(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非申请专利范围中明确说明，本发明所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用，并非用于限定本发明流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的申请专利范围并不仅限于披露的实施例，相反，申请专利范围旨在覆盖所有符合本发明实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件装置实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或行动装置上安装所描述的系统。

同样应当理解的是，为了简化本发明揭示的表述，从而帮助对至少一个发明实施例的理解，前文对本发明实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法幷不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种基于机器学习模型的风控特征筛选方法，其特征在于，应用于风控特征筛选系统，所述方法至少包括：

结合经不少于一个前端可视化交互终端记录的在线业务会话日志，确定多组操作事件信息；依据所述在线业务会话日志的主题标签，确定每组所述操作事件信息所指向的显著性评价结果，所述显著性评价结果至少涵盖所述操作事件信息的时序定位数据和空间定位数据中的至少一种；

根据预设的业务风控处理树模型所指向的风控处理反馈，对所述每组所述操作事件信息所指向的显著性评价结果进行筛选，得到目标显著性评价结果；对所述目标显著性评价结果所指向的操作事件信息进行风控特征挖掘以得到风控特征集；其中，所述风控特征集用于训练所述业务风控处理树模型；

所述方法还包括：

依据每组所述操作事件信息所指向的所述显著性评价结果，对多组所述操作事件信息中的操作事件进行显著性评价；

其中，所述操作事件包括用户行为，所述依据每组所述操作事件信息所指向的所述显著性评价结果，对多组所述操作事件信息中的操作事件进行显著性评价，包括：分别确定与每组所述操作事件信息适配的局部交互行为信息和全局交互行为信息；依据每组所述操作事件信息所指向的所述显著性评价结果，确定每组所述局部交互行为信息所指向的所述显著性评价结果，以及每组所述全局交互行为信息所指向的所述显著性评价结果；依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述全局交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述全局交互行为信息进行信息共性分析，确定第一共性分析情况；依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述局部交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述局部交互行为信息进行信息共性分析，确定第二共性分析情况；依据所述第一共性分析情况和所述第二共性分析情况，为每组所述全局交互行为信息中的全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息；基于多组所述局部交互行为信息、多组所述操作事件信息和多组所述绑定信息，对多组所述操作事件信息中的用户行为进行显著性评价。

2.如权利要求1所述的方法，其特征在于，所述依据每组所述操作事件信息所指向的所述显著性评价结果以及每组所述全局交互行为信息所指向的所述显著性评价结果，将多组所述操作事件信息和多组所述全局交互行为信息进行信息共性分析，确定第一共性分析情况，包括：

确定待共性分析信息和多个信息簇；其中，所述待共性分析信息是多组所述操作事件信息和多组所述全局交互行为信息中待确定所指向的共性分析关键词的一组目标信息，所述信息簇是多组所述操作事件信息和多组所述全局交互行为信息中，通过已经判定出指向相同共性分析关键词的信息构成的信息簇；

将所述待共性分析信息与每个所述信息簇中的信息进行所述显著性评价结果的组合以及信息相关性组合，根据组合结果，在多个所述信息簇所指向的所述共性分析关键词中，确定与所述待共性分析信息所指向的待定共性分析关键词；

依据所述待定共性分析关键词，确定所述待共性分析信息所指向的目标共性分析关键词；

依据所述多组操作事件信息和多组全局交互行为信息中每组信息所指向的所述目标共性分析关键词，得到所述第一共性分析情况。

3.如权利要求2所述的方法，其特征在于，所述将所述待共性分析信息与每个所述信息簇中的信息进行所述显著性评价结果的组合以及信息相关性组合，根据组合结果，在多个所述信息簇所指向的所述共性分析关键词中，确定与所述待共性分析信息所指向的待定共性分析关键词，包括：

将每个所述信息簇作为第一信息簇，依据所述第一信息簇中每组信息所指向的所述显著性评价结果，在所述第一信息簇中确定第一样本信息；

在确定所述待共性分析信息所指向的所述显著性评价结果与所述第一样本信息所指向的所述显著性评价结果之间符合第一设定要求的基础上，将所述待共性分析信息与所述第一信息簇中的每组信息分别进行相关性组合，确定不少于一个第一相关性系数；

确定大于第一设定系数的所述第一相关性系数的第一统计结果；在确定所述第一统计结果与所述第一信息簇中信息统计结果的量化分析结果大于第一设定量化判定数据的前提下，将所述第一信息簇所指向的共性分析关键词确定为所述待共性分析信息所指向的所述待定共性分析关键词。

4.如权利要求3所述的方法，其特征在于，所述依据所述第一信息簇中每组信息所指向的所述显著性评价结果，在所述第一信息簇中确定第一样本信息，包括：将所述第一信息簇中时序定位数据最小的一组信息作为所述第一样本信息。

5.如权利要求4所述的方法，其特征在于，所述确定所述待共性分析信息所指向的所述显著性评价结果与所述第一样本信息所指向的所述显著性评价结果之间符合第一设定要求，包括以下一项或一项以上：确定所述待共性分析信息所指向的第一时序定位数据与所述第一样本信息所指向的第二时序定位数据之间的时序特征距离不大于第一设定时序距离；确定所述待共性分析信息所指向的第一空间定位数据与所述第一样本信息所指向的第二空间定位数据之间的空间差异量化指标不大于第一设定量化指标；

其中，所述在线业务会话日志的主题标签包括收集所述在线业务会话日志的前端可视化交互终端关键词；所述确定所述待共性分析信息所指向的第一空间定位数据与所述样本信息所指向的第二空间定位数据之间的空间差异量化指标不大于第一设定量化指标，包括：确定所述待共性分析信息所指向的所述前端可视化交互终端关键词和所述第一样本信息所指向的所述前端可视化交互终端关键词组合；

其中，所述依据所述待定共性分析关键词，确定所述待共性分析信息所指向的目标共性分析关键词，包括：响应于所述待定共性分析关键词的统计结果为多个，分别确定每个所述待定共性分析关键词所指向的所述信息簇中多组信息所指向的去极化描述表达，以得到多个所述去极化描述表达；确定所述待共性分析信息所指向的描述表达；将多个所述去极化描述表达中与所述描述表达的加权结果的目标特征值对应去极化描述表达指向的待定共性分析关键词，确定为所述待共性分析信息所指向的所述目标共性分析关键词。

6.如权利要求2所述的方法，其特征在于，还包括：当在多个所述信息簇所指向的共性分析关键词中，确定不存在与所述待共性分析信息所指向的所述待定共性分析关键词时，确定一个衍生共性分析关键词；将所述衍生共性分析关键词确定为所述待共性分析信息所指向的所述目标共性分析关键词。

7.如权利要求2所述的方法，其特征在于，还包括：

借助每个所述信息簇中每组信息所指向的所述显著性评价结果，对不少于两个共性分析关键词所指向的所述信息簇进行全局化处理；

其中，所述借助每个所述信息簇中每组信息所指向的所述显著性评价结果，对不少于两个共性分析关键词所指向的所述信息簇进行全局化处理，包括：将所述共性分析关键词存在差异的两个所述信息簇分别作为第二信息簇和第三信息簇；依据所述第二信息簇中每组信息所指向的所述显著性评价结果，在所述第二信息簇中确定第二样本信息，以及依据所述第三信息簇中每组信息所指向的所述显著性评价结果，在所述第三信息簇中确定第三样本信息；在确定所述第二样本信息所指向的所述显著性评价结果与所述第三样本信息所指向的所述显著性评价结果之间符合第二设定要求的前提下，将所述第二信息簇中每组信息分别与所述第三信息簇中每组信息进行相关性组合，确定多个第二相关性系数；确定大于第二设定系数的所述第二相关性系数的第二统计结果；在确定所述第二统计结果与所述第二信息簇和所述第三信息簇中信息统计结果的量化分析结果大于第二设定量化判定数据的前提下，全局化处理所述第二信息簇和所述第三信息簇，且全局化处理后的信息簇指向相同共性分析关键词；

其中，所述确定所述第二样本信息所指向的所述显著性评价结果与所述第三样本信息所指向的所述显著性评价结果之间符合第二设定要求，包括以下一项或一项以上：确定所述第二样本信息所指向的第三时序定位数据与第四样本信息所指向的第四时序定位数据之间的时序特征距离不大于第二设定时序距离；确定所述第二样本信息所指向的第三空间定位数据与所述第四样本信息所指向的第四空间定位数据之间的空间差异量化指标不大于第二设定量化指标。

8.如权利要求1所述的方法，其特征在于，所述依据所述第一共性分析情况和所述第二共性分析情况，为每组所述全局交互行为信息中的全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息，包括：依据所述第一共性分析情况、所述第二共性分析情况和多组所述操作事件信息，确定全局交互行为关键词和局部交互行为关键词之间的关键词映射列表；依据所述关键词映射列表，确定与每个所述全局交互行为关键词所指向的目标局部交互行为关键词；基于与每个所述全局交互行为关键词所指向的目标局部交互行为关键词，为每组所述全局交互行为信息中的每个全局交互行为绑定适配的局部交互行为，得到与每组所述全局交互行为信息所指向的绑定信息；

其中，所述依据所述关键词映射列表，确定与每个所述全局交互行为关键词所指向的目标局部交互行为关键词，包括：对于每个所述全局交互行为关键词，依据所述关键词映射列表，确定与所述全局交互行为关键词所指向的多个局部交互行为关键词；在与所述全局交互行为关键词所指向的多个局部交互行为关键词中，将所对应的量化分析结果最大且所对应的量化分析结果大于第三设定量化判定数据的一个局部交互行为关键词，确定为与所述全局交互行为关键词所指向的所述目标局部交互行为关键词。

9.一种基于机器学习模型的风控特征筛选系统，其特征在于，包括处理引擎、网络模块和存储器，所述处理引擎和所述存储器通过所述网络模块通信，所述处理引擎用于从所述存储器中读取计算机程序并运行，以实现权利要求1-8任一项所述的方法。