CN114625786B - 一种基于风控技术的动态数据挖掘方法及系统 - Google Patents

一种基于风控技术的动态数据挖掘方法及系统 Download PDF

Info

Publication number
CN114625786B
CN114625786B CN202210515264.5A CN202210515264A CN114625786B CN 114625786 B CN114625786 B CN 114625786B CN 202210515264 A CN202210515264 A CN 202210515264A CN 114625786 B CN114625786 B CN 114625786B
Authority
CN
China
Prior art keywords
wind control
data
control sample
control data
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210515264.5A
Other languages
English (en)
Other versions
CN114625786A (zh
Inventor
周维浩
陈辰
王震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangyin Consumer Finance Co ltd
Original Assignee
Hangyin Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangyin Consumer Finance Co ltd filed Critical Hangyin Consumer Finance Co ltd
Priority to CN202210515264.5A priority Critical patent/CN114625786B/zh
Publication of CN114625786A publication Critical patent/CN114625786A/zh
Application granted granted Critical
Publication of CN114625786B publication Critical patent/CN114625786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Wind Motors (AREA)

Abstract

本发明提供的一种基于风控技术的动态数据挖掘方法及系统,涉及数据挖掘技术领域。在本发明中,采集形成风控数据集合,风控数据集合包括多条风控样本数据。依据每一条风控样本数据包括的风控样本子数据,对风控数据集合包括的多条风控样本数据进行分类处理,以形成风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据。对于多个风控数据子集合中的每一个风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。基于上述方法,可以改善现有技术中风控管理的成本较高的问题。

Description

一种基于风控技术的动态数据挖掘方法及系统
技术领域
本发明涉及数据挖掘技术领域,具体而言,涉及一种基于风控技术的动态数据挖掘方法及系统。
背景技术
随着数据挖掘技术的精度和可靠度的不断提高,使得其应用范围得到了不断的扩展,例如,为了实现风险管控,需要对历史数据进行特征挖掘,以便于基于挖掘结果对之后的数据进行鉴别、判断等。但是,在现有技术中,为了实现风险的管控,一般需要基于历史数据对神经网络进行训练,这些就需要大量的数据,使得训练成本较高。
发明内容
有鉴于此,本发明的目的在于提供一种基于风控技术的动态数据挖掘方法及系统,以改善现有技术中风控管理的成本较高的问题。
为实现上述目的,本发明实施例采用如下技术方案:
一种基于风控技术的动态数据挖掘方法,应用于风控管理服务器,所述基于风控技术的动态数据挖掘方法包括:
采集形成风控数据集合,所述风控数据集合包括多条风控样本数据,每一条风控样本数据包括多个特征维度对应的多条风控样本子数据,且每一条风控样本数据具有风控标签信息,所述风控标签信息用于表征对应的所述风控样本数据是否属于具有风险的异常风控样本数据;
依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数,所述风险系数用于表征与该风控数据子集合包括的风控样本数据匹配的目标风控数据属于具有风险的异常风控样本数据的概率。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述采集形成风控数据集合的步骤,包括:
采集在历史上形成的每一条历史风控数据,以输出多条历史风控数据;
对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据,再分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息,再分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据;
依据所述风控样本数据构建形成对应的风控数据集合。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据,再分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息,再分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据的步骤,包括:
对所述多条历史风控数据中数量统计数量,以输出对应的统计值,对于所述多条历史风控数据中的每一条历史风控数据,对该历史风控数据对应的形成时间进行确定处理,以输出该历史风控数据对应的历史形成时间;
依据所述统计值和所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据;
分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息;
分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述依据所述统计值和所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据的步骤,包括:
将所述统计值与预设的统计阈值进行大小比较,以输出对应的大小比较结果,所述大小比较结果用于表征所述统计值是否大于所述统计阈值;
倘若所述大小比较结果表征所述统计值大于所述统计阈值,则依据所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出所述统计值对应的多条目标历史风控数据,每一条所述目标历史风控数据对应的历史形成时间不早于未被筛选作为目标历史风控数据的其它历史风控数据对应的历史形成时间。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合的步骤,包括:
对于所述风控数据集合包括的每两条风控样本数据,依据该两条风控样本数据包括的风控样本子数据,对该两条风控样本数据进行相似度计算处理,以输出该两条风控样本数据之间的数据相似度;
依据每两条所述风控样本数据之间的数据相似度,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述对于所述风控数据集合包括的每两条风控样本数据,依据该两条风控样本数据包括的风控样本子数据,对该两条风控样本数据进行相似度计算处理,以输出该两条风控样本数据之间的数据相似度的步骤,包括:
将所述风控数据集合包括的两条风控样本数据分别标记为第一待处理风控样本数据和第二待处理风控样本数据,对于所述第一待处理风控样本数据包括的每一条第一风控样本子数据,对该第一风控样本子数据进行关键词提取处理,以输出对应的第一关键词集合,对于所述第二待处理风控样本数据包括的每一条第二风控样本子数据,对该第二风控样本子数据进行关键词提取处理,以输出对应的第二关键词集合;
对于每一个所述第一关键词集合包括的每一个第一关键词语,从该第一关键词集合对应的第一风控样本子数据中,提取出该第一关键词语对应的至少一个相邻词语,再将该第一关键词语和该至少一个相邻词语按照在该第一风控样本子数据中的先后关系进行排序,以输出该第一关键词语对应的第一词语序列,对于每一个所述第二关键词集合包括的每一个第二关键词语,从该第二关键词集合对应的第二风控样本子数据中,提取出该第二关键词语对应的至少一个相邻词语,再将该第二关键词语和该至少一个相邻词语按照在该第二风控样本子数据中的先后关系进行排序,以输出该第二关键词语对应的第二词语序列;
依据对应的特征维度,将所述第一待处理风控样本数据包括的每一条第一风控样本子数据和所述第二待处理风控样本数据包括的每一条第二风控样本子数据进行关联处理,以形成具有关联关系的每一组第一风控样本子数据和第二风控样本子数据;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,分别计算该第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语对应的第一词语序列与该第二风控样本子数据对应的第二关键词集合包括的每一个第二关键词语对应的第二词语序列之间的序列相似度,再对于每一条第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语,从该第一关键词语对应的各序列相似度中,提取出具有最大值的序列相似度,再将该序列相似度标记为该第一关键词语对应的目标序列相似度;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,依据该第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语对应的目标序列相似度进行均值计算,以输出该第一风控样本子数据和该第二风控样本子数据之间的数据相似度;
依据预先为对应的特征维度配置的重要系数,将具有关联关系的每一组第一风控样本子数据和第二风控样本子数据之间的数据相似度进行加权求和计算处理,以输出所述两条风控样本数据之间的数据相似度。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述依据每两条所述风控样本数据之间的数据相似度,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合的步骤,包括:
从所述风控数据集合包括的多条风控样本数据中,提取出任意一条风控样本数据作为当前的目标风控样本数据,再创建风控数据子集合;
将所述当前的目标风控样本数据放入至所述风控数据子集合中,再从其它的风控样本数据中提取出与所述当前的目标风控样本数据之间的数据相似度大于或等于预设数据相似度且数值最大的一条风控样本数据,再将该风控样本数据标记为新的当前的目标风控样本数据;
依据所述新的当前的目标风控样本数据,再次执行所述将所述当前的目标风控样本数据放入至所述风控数据子集合中,再从其它的风控样本数据中提取出与所述当前的目标风控样本数据之间的数据相似度大于或等于预设数据相似度且数值最大的一条风控样本数据,再将该风控样本数据标记为新的当前的目标风控样本数据的步骤,直到不能再重新标记出新的当前的目标风控样本数据,再依据所述风控数据子集合以外的其它风控样本数据,再次执行所述从所述风控数据集合包括的多条风控样本数据中,提取出任意一条风控样本数据作为当前的目标风控样本数据,再创建风控数据子集合的步骤,以创建出新的风控数据子集合,直到所述风控数据集合包括的多条风控样本数据全部放入至创建的风控数据子集合中。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数的步骤,包括:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,分别依据每一条风控样本数据对应的风控标签信息,对该风控数据子集合包括的每一条风控样本数据进行数据标记处理,以分别将每一条风控样本数据标记为第一风控样本数据或第二风控样本数据,所述第一风控样本数据对应的风控标签信息表征该第一风控样本数据属于具有风险的异常风控样本数据,所述第二风控样本数据对应的风控标签信息表征该第二风控样本数据不属于具有风险的异常风控样本数据;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。
在一些优选的实施例中,在上述基于风控技术的动态数据挖掘方法中,所述对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数的步骤,包括:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第一统计数量,再对该风控数据子集合包括的每一条风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第二统计数量,再对该第一统计数量和该第二统计数量进行比值计算,以输出该风控数据子集合对应的数量比值;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第一形成时间均值,再对该风控数据子集合包括的每一条风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第二形成时间均值,再对该第一形成时间均值和该第二形成时间均值进行比值计算,以输出该风控数据子集合对应的时间比值,再依据该时间比值确定出正相关的加权系数;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合对应的数量比值和加权系数进行乘积计算处理,以输出该风控数据子集合对应的风险系数。
本发明实施例还提供一种基于风控技术的动态数据挖掘系统,应用于风控管理服务器,所述基于风控技术的动态数据挖掘系统包括:
样本数据采集模块,用于采集形成风控数据集合,所述风控数据集合包括多条风控样本数据,每一条风控样本数据包括多个特征维度对应的多条风控样本子数据,且每一条风控样本数据具有风控标签信息,所述风控标签信息用于表征对应的所述风控样本数据是否属于具有风险的异常风控样本数据;
样本数据分类模块,用于依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据;
风险系数确定模块,用于对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数,所述风险系数用于表征与该风控数据子集合包括的风控样本数据匹配的目标风控数据属于具有风险的异常风控样本数据的概率。
本发明实施例提供的一种基于风控技术的动态数据挖掘方法及系统,可以先采集形成风控数据集合。然后,依据每一条风控样本数据包括的风控样本子数据,对风控数据集合包括的多条风控样本数据进行分类处理,以形成风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据。之后,对于多个风控数据子集合中的每一个风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。基于上述的技术方案,可以不用进行神经网络的训练,可以在一定程度上降低成本(即训练成本),而且,可以降低对设备的性能需求,使得可以改善现有技术中风控管理的成本较高的问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的风控管理服务器的结构框图。
图2为本发明实施例提供的基于风控技术的动态数据挖掘方法包括的各步骤的流程示意图。
图3为本发明实施例提供的基于风控技术的动态数据挖掘系统包括的各模块的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明实施例提供了一种风控管理服务器。其中,所述风控管理服务器可以包括存储器和处理器。
详细地,在一种实施方式中,所述存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件(firmware)的形式,存在的软件功能模块(计算机程序)。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序,从而实现本发明实施例提供的基于风控技术的动态数据挖掘方法。
详细地,在一种实施方式中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)。所述处理器可以是一种通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、片上系统(System on Chip,SoC)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
参照图2,本发明实施例还提供一种基于风控技术的动态数据挖掘方法,可应用于上述风控管理服务器。其中,所述基于风控技术的动态数据挖掘方法有关的流程所定义的方法步骤,可以由所述风控管理服务器实现。
下面将对图2所示的具体流程,进行详细阐述。
步骤S110,采集形成风控数据集合。
在本发明实施例中,所述风控管理服务器可以执行步骤S110,即采集形成风控数据集合。所述风控数据集合包括多条风控样本数据,每一条风控样本数据包括多个特征维度对应的多条风控样本子数据(风控样本子数据在不同的应用场景中,可以具有不同的内容,例如,可以是信用评估等),且每一条风控样本数据具有风控标签信息,所述风控标签信息用于表征对应的所述风控样本数据是否属于具有风险的异常风控样本数据。
步骤S120,依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合。
在本发明实施例中,所述风控管理服务器可以执行步骤S120,即依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合。每一个风控数据子集合包括多条风控样本数据。
步骤S130,对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。
在本发明实施例中,所述风控管理服务器可以执行步骤S130,即对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。所述风险系数用于表征与该风控数据子集合包括的风控样本数据匹配的目标风控数据属于具有风险的异常风控样本数据的概率。
基于上述的步骤,可以先采集形成风控数据集合。然后,依据每一条风控样本数据包括的风控样本子数据,对风控数据集合包括的多条风控样本数据进行分类处理,以形成风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据。之后,对于多个风控数据子集合中的每一个风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。基于上述的技术方案,可以不用进行神经网络的训练,可以在一定程度上降低成本(即训练成本),而且,可以降低对设备的性能需求(因此,还可以降低设备成本),使得可以改善现有技术中风控管理的成本较高的问题。
详细地,在一种实施方式中,步骤S110可以进一步包括以下的各步骤:
采集在历史上形成的每一条历史风控数据,以输出多条历史风控数据;
对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据,再分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息,再分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据;
依据所述风控样本数据构建形成对应的风控数据集合。
详细地,在一种实施方式中,所述对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据,再分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息,再分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据的步骤,以进一步包括以下的各步骤:
对所述多条历史风控数据中数量统计数量,以输出对应的统计值,对于所述多条历史风控数据中的每一条历史风控数据,对该历史风控数据对应的形成时间进行确定处理,以输出该历史风控数据对应的历史形成时间;
依据所述统计值和所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据;
分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息;
分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据。
详细地,在一种实施方式中,所述依据所述统计值和所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据的步骤,可以进一步包括以下的各步骤:
将所述统计值与预设的统计阈值进行大小比较,以输出对应的大小比较结果,所述大小比较结果用于表征所述统计值是否大于所述统计阈值;
倘若所述大小比较结果表征所述统计值大于所述统计阈值,则依据所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出所述统计值对应的多条目标历史风控数据,每一条所述目标历史风控数据对应的历史形成时间不早于未被筛选作为目标历史风控数据的其它历史风控数据对应的历史形成时间(也就是说,在进行筛选处理时,优先保留历史形成时间较晚的)。
详细地,在一种实施方式中,步骤S120可以进一步包括以下的各步骤:
对于所述风控数据集合包括的每两条风控样本数据,依据该两条风控样本数据包括的风控样本子数据,对该两条风控样本数据进行相似度计算处理,以输出该两条风控样本数据之间的数据相似度;
依据每两条所述风控样本数据之间的数据相似度,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合。
详细地,在一种实施方式中,所述对于所述风控数据集合包括的每两条风控样本数据,依据该两条风控样本数据包括的风控样本子数据,对该两条风控样本数据进行相似度计算处理,以输出该两条风控样本数据之间的数据相似度的步骤,可以进一步包括以下的各步骤:
将所述风控数据集合包括的两条风控样本数据分别标记为第一待处理风控样本数据和第二待处理风控样本数据,对于所述第一待处理风控样本数据包括的每一条第一风控样本子数据,对该第一风控样本子数据进行关键词提取处理(可以参照现有的关键词提取方式,再次不做具体的限定),以输出对应的第一关键词集合,对于所述第二待处理风控样本数据包括的每一条第二风控样本子数据,对该第二风控样本子数据进行关键词提取处理,以输出对应的第二关键词集合;
对于每一个所述第一关键词集合包括的每一个第一关键词语,从该第一关键词集合对应的第一风控样本子数据中,提取出该第一关键词语对应的至少一个相邻词语,再将该第一关键词语和该至少一个相邻词语按照在该第一风控样本子数据中的先后关系进行排序,以输出该第一关键词语对应的第一词语序列,对于每一个所述第二关键词集合包括的每一个第二关键词语,从该第二关键词集合对应的第二风控样本子数据中,提取出该第二关键词语对应的至少一个相邻词语(具体的数量可以预先指定),再将该第二关键词语和该至少一个相邻词语按照在该第二风控样本子数据中的先后关系进行排序,以输出该第二关键词语对应的第二词语序列;
依据对应的特征维度,将所述第一待处理风控样本数据包括的每一条第一风控样本子数据和所述第二待处理风控样本数据包括的每一条第二风控样本子数据进行关联处理,以形成具有关联关系的每一组第一风控样本子数据和第二风控样本子数据;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,分别计算该第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语对应的第一词语序列与该第二风控样本子数据对应的第二关键词集合包括的每一个第二关键词语对应的第二词语序列之间的序列相似度(可以参照现有技术中对于相关序列相似度的计算方式),再对于每一条第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语,从该第一关键词语对应的各序列相似度中,提取出具有最大值的序列相似度,再将该序列相似度标记为该第一关键词语对应的目标序列相似度;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,依据该第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语对应的目标序列相似度进行均值计算,以输出该第一风控样本子数据和该第二风控样本子数据之间的数据相似度;
依据预先为对应的特征维度配置的重要系数,将具有关联关系的每一组第一风控样本子数据和第二风控样本子数据之间的数据相似度进行加权求和计算处理,以输出所述两条风控样本数据之间的数据相似度。
详细地,在另一种实施方式中,所述对于所述风控数据集合包括的每两条风控样本数据,依据该两条风控样本数据包括的风控样本子数据,对该两条风控样本数据进行相似度计算处理,以输出该两条风控样本数据之间的数据相似度的步骤,也可以进一步包括以下的各步骤:
将所述风控数据集合包括的两条风控样本数据分别标记为第一待处理风控样本数据和第二待处理风控样本数据,对于所述第一待处理风控样本数据包括的每一条第一风控样本子数据,对该第一风控样本子数据进行关键词提取处理,以输出该第一风控样本子数据对应的第一关键词集合,对于所述第二待处理风控样本数据包括的每一条第二风控样本子数据,对该第二风控样本子数据进行关键词提取处理,以输出该第二风控样本子数据对应的第二关键词集合;
对于每一个所述第一关键词集合包括的每一个第一关键词语,从该第一关键词集合对应的第一风控样本子数据中,提取出该第一关键词语对应的至少一个相邻词语,再将该第一关键词语和该至少一个相邻词语按照在该第一风控样本子数据中的先后关系进行排序,以输出对应的第一词语序列,对于每一条所述第一风控样本子数据,依据每一条所述第一词语序列对该第一风控样本子数据进行分割处理,以输出该第一风控样本子数据对应的多条第一非关键词语序列,任意相邻的两条第一非关键词语序列之间具有至少一条第一词语序列;
对于每一个所述第二关键词集合包括的每一个第二关键词语,从该第二关键词集合对应的第二风控样本子数据中,提取出该第二关键词语对应的至少一个相邻词语,再将该第二关键词语和该至少一个相邻词语按照在该第二风控样本子数据中的先后关系进行排序,以输出对应的第二词语序列,对于每一条所述第二风控样本子数据,依据每一条所述第二词语序列对该第二风控样本子数据进行分割处理,以输出该第二风控样本子数据对应的多条第二非关键词语序列,任意相邻的两条第二非关键词语序列之间具有至少一条第二词语序列;
依据对应的特征维度,将所述第一待处理风控样本数据包括的每一条第一风控样本子数据和所述第二待处理风控样本数据包括的每一条第二风控样本子数据进行关联处理,以形成具有关联关系的每一组第一风控样本子数据和第二风控样本子数据(即具有相同的特征维度);
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,分别计算该第一风控样本子数据对应的每一条第一词语序列与该第二风控样本子数据对应的每一条第二词语序列之间的序列相似度,再对于每一条第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语,从该第一关键词语对应的各序列相似度中,提取出具有最大值的序列相似度,再将该序列相似度标记为该第一关键词语对应的关键序列相似度;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,分别计算该第一风控样本子数据对应的每一条第一非关键词语序列与该第二风控样本子数据对应的每一条第二非关键词语序列之间的序列相似度,再对于每一条第一风控样本子数据每一条第一非关键词语序列,从该第一非关键词语序列对应的各序列相似度中,提取出具有最大值的序列相似度,再将该序列相似度标记为该第一非关键词语序列对应的非关键序列相似度;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,依据该第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语对应的关键序列相似度进行均值计算,以输出该第一风控样本子数据和该第二风控样本子数据之间的关键数据相似度,再依据该第一风控样本子数据对应的每一条第一非关键词语序列对应的非关键序列相似度进行均值计算,以输出该第一风控样本子数据和该第二风控样本子数据之间的非关键数据相似度,再对该关键数据相似度和该非关键数据相似度进行加权求和计算(所述关键数据相似度对应的加权系数大于所述非关键数据相似度对应的加权系数),以输出该第一风控样本子数据和该第二风控样本子数据之间的数据相似度;
依据预先为对应的特征维度配置的重要系数,将具有关联关系的每一组第一风控样本子数据和第二风控样本子数据之间的数据相似度进行加权求和计算处理,以输出所述两条风控样本数据之间的数据相似度。
详细地,在一种实施方式中,所述依据每两条所述风控样本数据之间的数据相似度,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合的步骤,可以进一步包括以下的各步骤:
从所述风控数据集合包括的多条风控样本数据中,提取出任意一条风控样本数据作为当前的目标风控样本数据,再创建风控数据子集合;
将所述当前的目标风控样本数据放入至所述风控数据子集合中,再从其它的风控样本数据中提取出与所述当前的目标风控样本数据之间的数据相似度大于或等于预设数据相似度且数值最大的一条风控样本数据,再将该风控样本数据标记为新的当前的目标风控样本数据;
依据所述新的当前的目标风控样本数据,再次执行所述将所述当前的目标风控样本数据放入至所述风控数据子集合中,再从其它的风控样本数据中提取出与所述当前的目标风控样本数据之间的数据相似度大于或等于预设数据相似度且数值最大的一条风控样本数据,再将该风控样本数据标记为新的当前的目标风控样本数据的步骤,直到不能再重新标记出新的当前的目标风控样本数据(循环进行),再依据所述风控数据子集合以外的其它风控样本数据,再次执行所述从所述风控数据集合包括的多条风控样本数据中,提取出任意一条风控样本数据作为当前的目标风控样本数据,再创建风控数据子集合的步骤,以创建出新的风控数据子集合,直到所述风控数据集合包括的多条风控样本数据全部放入至创建的风控数据子集合中(循环进行)。
详细地,在一种实施方式中,步骤S130可以进一步包括以下的各步骤:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,分别依据每一条风控样本数据对应的风控标签信息,对该风控数据子集合包括的每一条风控样本数据进行数据标记处理,以分别将每一条风控样本数据标记为第一风控样本数据或第二风控样本数据,所述第一风控样本数据对应的风控标签信息表征该第一风控样本数据属于具有风险的异常风控样本数据,所述第二风控样本数据对应的风控标签信息表征该第二风控样本数据不属于具有风险的异常风控样本数据;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。
详细地,在一种实施方式中,所述对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数的步骤,可以进一步包括以下的各步骤:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第一统计数量,再对该风控数据子集合包括的每一条风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第二统计数量,再对该第一统计数量和该第二统计数量进行比值计算,以输出该风控数据子集合对应的数量比值;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第一形成时间均值,再对该风控数据子集合包括的每一条风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第二形成时间均值,再对该第一形成时间均值和该第二形成时间均值进行比值计算,以输出该风控数据子集合对应的时间比值,再依据该时间比值确定出正相关的加权系数;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合对应的数量比值和加权系数进行乘积计算处理,以输出该风控数据子集合对应的风险系数。
参照图3,本发明实施例还提供一种基于风控技术的动态数据挖掘方法,可应用于上述风控管理服务器。其中,所述动态数据挖掘系统可以包括样本数据采集模块、样本数据分类模块和风险系数确定模块。
详细地,在一种实施方式中,所述样本数据采集模块,用于采集形成风控数据集合,所述风控数据集合包括多条风控样本数据,每一条风控样本数据包括多个特征维度对应的多条风控样本子数据,且每一条风控样本数据具有风控标签信息,所述风控标签信息用于表征对应的所述风控样本数据是否属于具有风险的异常风控样本数据。
详细地,在一种实施方式中,样本数据分类模块,用于依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据。
详细地,在一种实施方式中,风险系数确定模块,用于对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数,所述风险系数用于表征与该风控数据子集合包括的风控样本数据匹配的目标风控数据属于具有风险的异常风控样本数据的概率。
综上所述,本发明提供的一种基于风控技术的动态数据挖掘方法及系统,可以先采集形成风控数据集合。然后,依据每一条风控样本数据包括的风控样本子数据,对风控数据集合包括的多条风控样本数据进行分类处理,以形成风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据。之后,对于多个风控数据子集合中的每一个风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数。基于上述的技术方案,可以不用进行神经网络的训练,可以在一定程度上降低成本(即训练成本),而且,可以降低对设备的性能需求(因此,还可以降低设备成本),使得可以改善现有技术中风控管理的成本较高的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于风控技术的动态数据挖掘方法,其特征在于,应用于风控管理服务器,所述基于风控技术的动态数据挖掘方法包括:
采集形成风控数据集合,所述风控数据集合包括多条风控样本数据,每一条风控样本数据包括多个特征维度对应的多条风控样本子数据,且每一条风控样本数据具有风控标签信息,所述风控标签信息用于表征对应的所述风控样本数据是否属于具有风险的异常风控样本数据;
依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数,所述风险系数用于表征与该风控数据子集合包括的风控样本数据匹配的目标风控数据属于具有风险的异常风控样本数据的概率;
所述对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数的步骤,包括:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,分别依据每一条风控样本数据对应的风控标签信息,对该风控数据子集合包括的每一条风控样本数据进行数据标记处理,以分别将每一条风控样本数据标记为第一风控样本数据或第二风控样本数据,所述第一风控样本数据对应的风控标签信息表征该第一风控样本数据属于具有风险的异常风控样本数据,所述第二风控样本数据对应的风控标签信息表征该第二风控样本数据不属于具有风险的异常风控样本数据;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数;
所述对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数的步骤,包括:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第一统计数量,再对该风控数据子集合包括的每一条风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第二统计数量,再对该第一统计数量和该第二统计数量进行比值计算,以输出该风控数据子集合对应的数量比值;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第一形成时间均值,再对该风控数据子集合包括的每一条风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第二形成时间均值,再对该第一形成时间均值和该第二形成时间均值进行比值计算,以输出该风控数据子集合对应的时间比值,再依据该时间比值确定出正相关的加权系数;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合对应的数量比值和加权系数进行乘积计算处理,以输出该风控数据子集合对应的风险系数。
2.如权利要求1所述的基于风控技术的动态数据挖掘方法,其特征在于,所述采集形成风控数据集合的步骤,包括:
采集在历史上形成的每一条历史风控数据,以输出多条历史风控数据;
对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据,再分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息,再分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据;
依据所述风控样本数据构建形成对应的风控数据集合。
3.如权利要求2所述的基于风控技术的动态数据挖掘方法,其特征在于,所述对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据,再分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息,再分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据的步骤,包括:
对所述多条历史风控数据中数量统计数量,以输出对应的统计值,对于所述多条历史风控数据中的每一条历史风控数据,对该历史风控数据对应的形成时间进行确定处理,以输出该历史风控数据对应的历史形成时间;
依据所述统计值和所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据;
分别对所述多条目标历史风控数据中的每一条目标历史风控数据进行标签确定处理,以形成每一条目标历史风控数据的风控标签信息;
分别对每一条目标历史风控数据和该目标历史风控数据对应的风控标签信息进行数据标记处理,以形成对应的多条风控样本数据。
4.如权利要求3所述的基于风控技术的动态数据挖掘方法,其特征在于,所述依据所述统计值和所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出多条目标历史风控数据的步骤,包括:
将所述统计值与预设的统计阈值进行大小比较,以输出对应的大小比较结果,所述大小比较结果用于表征所述统计值是否大于所述统计阈值;
倘若所述大小比较结果表征所述统计值大于所述统计阈值,则依据所述多条历史风控数据中的每一条历史风控数据对应的历史形成时间,对所述多条历史风控数据进行筛选处理,以输出所述统计值对应的多条目标历史风控数据,每一条所述目标历史风控数据对应的历史形成时间不早于未被筛选作为目标历史风控数据的其它历史风控数据对应的历史形成时间。
5.如权利要求1所述的基于风控技术的动态数据挖掘方法,其特征在于,所述依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合的步骤,包括:
对于所述风控数据集合包括的每两条风控样本数据,依据该两条风控样本数据包括的风控样本子数据,对该两条风控样本数据进行相似度计算处理,以输出该两条风控样本数据之间的数据相似度;
依据每两条所述风控样本数据之间的数据相似度,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合。
6.如权利要求5所述的基于风控技术的动态数据挖掘方法,其特征在于,所述对于所述风控数据集合包括的每两条风控样本数据,依据该两条风控样本数据包括的风控样本子数据,对该两条风控样本数据进行相似度计算处理,以输出该两条风控样本数据之间的数据相似度的步骤,包括:
将所述风控数据集合包括的两条风控样本数据分别标记为第一待处理风控样本数据和第二待处理风控样本数据,对于所述第一待处理风控样本数据包括的每一条第一风控样本子数据,对该第一风控样本子数据进行关键词提取处理,以输出对应的第一关键词集合,对于所述第二待处理风控样本数据包括的每一条第二风控样本子数据,对该第二风控样本子数据进行关键词提取处理,以输出对应的第二关键词集合;
对于每一个所述第一关键词集合包括的每一个第一关键词语,从该第一关键词集合对应的第一风控样本子数据中,提取出该第一关键词语对应的至少一个相邻词语,再将该第一关键词语和该至少一个相邻词语按照在该第一风控样本子数据中的先后关系进行排序,以输出该第一关键词语对应的第一词语序列,对于每一个所述第二关键词集合包括的每一个第二关键词语,从该第二关键词集合对应的第二风控样本子数据中,提取出该第二关键词语对应的至少一个相邻词语,再将该第二关键词语和该至少一个相邻词语按照在该第二风控样本子数据中的先后关系进行排序,以输出该第二关键词语对应的第二词语序列;
依据对应的特征维度,将所述第一待处理风控样本数据包括的每一条第一风控样本子数据和所述第二待处理风控样本数据包括的每一条第二风控样本子数据进行关联处理,以形成具有关联关系的每一组第一风控样本子数据和第二风控样本子数据;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,分别计算该第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语对应的第一词语序列与该第二风控样本子数据对应的第二关键词集合包括的每一个第二关键词语对应的第二词语序列之间的序列相似度,再对于每一条第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语,从该第一关键词语对应的各序列相似度中,提取出具有最大值的序列相似度,再将该序列相似度标记为该第一关键词语对应的目标序列相似度;
对于具有关联关系的每一组第一风控样本子数据和第二风控样本子数据,依据该第一风控样本子数据对应的第一关键词集合包括的每一个第一关键词语对应的目标序列相似度进行均值计算,以输出该第一风控样本子数据和该第二风控样本子数据之间的数据相似度;
依据预先为对应的特征维度配置的重要系数,将具有关联关系的每一组第一风控样本子数据和第二风控样本子数据之间的数据相似度进行加权求和计算处理,以输出所述两条风控样本数据之间的数据相似度。
7.如权利要求5所述的基于风控技术的动态数据挖掘方法,其特征在于,所述依据每两条所述风控样本数据之间的数据相似度,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合的步骤,包括:
从所述风控数据集合包括的多条风控样本数据中,提取出任意一条风控样本数据作为当前的目标风控样本数据,再创建风控数据子集合;
将所述当前的目标风控样本数据放入至所述风控数据子集合中,再从其它的风控样本数据中提取出与所述当前的目标风控样本数据之间的数据相似度大于或等于预设数据相似度且数值最大的一条风控样本数据,再将该风控样本数据标记为新的当前的目标风控样本数据;
依据所述新的当前的目标风控样本数据,再次执行所述将所述当前的目标风控样本数据放入至所述风控数据子集合中,再从其它的风控样本数据中提取出与所述当前的目标风控样本数据之间的数据相似度大于或等于预设数据相似度且数值最大的一条风控样本数据,再将该风控样本数据标记为新的当前的目标风控样本数据的步骤,直到不能再重新标记出新的当前的目标风控样本数据,再依据所述风控数据子集合以外的其它风控样本数据,再次执行所述从所述风控数据集合包括的多条风控样本数据中,提取出任意一条风控样本数据作为当前的目标风控样本数据,再创建风控数据子集合的步骤,以创建出新的风控数据子集合,直到所述风控数据集合包括的多条风控样本数据全部放入至创建的风控数据子集合中。
8.一种基于风控技术的动态数据挖掘系统,其特征在于,应用于风控管理服务器,所述基于风控技术的动态数据挖掘系统包括:
样本数据采集模块,用于采集形成风控数据集合,所述风控数据集合包括多条风控样本数据,每一条风控样本数据包括多个特征维度对应的多条风控样本子数据,且每一条风控样本数据具有风控标签信息,所述风控标签信息用于表征对应的所述风控样本数据是否属于具有风险的异常风控样本数据;
样本数据分类模块,用于依据每一条风控样本数据包括的风控样本子数据,对所述风控数据集合包括的多条风控样本数据进行分类处理,以形成所述风控数据集合对应的多个风控数据子集合,每一个风控数据子集合包括多条风控样本数据;
风险系数确定模块,用于对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数,所述风险系数用于表征与该风控数据子集合包括的风控样本数据匹配的目标风控数据属于具有风险的异常风控样本数据的概率;
所述对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条风控样本数据对应的风控标签信息,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数,包括:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,分别依据每一条风控样本数据对应的风控标签信息,对该风控数据子集合包括的每一条风控样本数据进行数据标记处理,以分别将每一条风控样本数据标记为第一风控样本数据或第二风控样本数据,所述第一风控样本数据对应的风控标签信息表征该第一风控样本数据属于具有风险的异常风控样本数据,所述第二风控样本数据对应的风控标签信息表征该第二风控样本数据不属于具有风险的异常风控样本数据;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数;
所述对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合包括的每一条第一风控样本数据和每一条第二风控样本数据,对该风控数据子集合进行风险系数确定处理,以输出该风控数据子集合对应的风险系数,包括:
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第一统计数量,再对该风控数据子集合包括的每一条风控样本数据进行数量统计处理,以输出该风控数据子集合对应的第二统计数量,再对该第一统计数量和该第二统计数量进行比值计算,以输出该风控数据子集合对应的数量比值;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,对该风控数据子集合包括的每一条第一风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第一形成时间均值,再对该风控数据子集合包括的每一条风控样本数据进行形成时间均值计算处理,以输出该风控数据子集合对应的第二形成时间均值,再对该第一形成时间均值和该第二形成时间均值进行比值计算,以输出该风控数据子集合对应的时间比值,再依据该时间比值确定出正相关的加权系数;
对于所述多个风控数据子集合中的每一个所述风控数据子集合,依据该风控数据子集合对应的数量比值和加权系数进行乘积计算处理,以输出该风控数据子集合对应的风险系数。
CN202210515264.5A 2022-05-12 2022-05-12 一种基于风控技术的动态数据挖掘方法及系统 Active CN114625786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210515264.5A CN114625786B (zh) 2022-05-12 2022-05-12 一种基于风控技术的动态数据挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210515264.5A CN114625786B (zh) 2022-05-12 2022-05-12 一种基于风控技术的动态数据挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN114625786A CN114625786A (zh) 2022-06-14
CN114625786B true CN114625786B (zh) 2022-08-09

Family

ID=81907127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210515264.5A Active CN114625786B (zh) 2022-05-12 2022-05-12 一种基于风控技术的动态数据挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN114625786B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242790A (zh) * 2020-01-02 2020-06-05 平安科技(深圳)有限公司 风险识别方法、电子装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294249A1 (en) * 2014-04-11 2015-10-15 International Business Machines Corporation Risk prediction for service contracts vased on co-occurence clusters
CN108366045B (zh) * 2018-01-02 2020-09-01 北京奇艺世纪科技有限公司 一种风控评分卡的设置方法和装置
CN108460523B (zh) * 2018-02-12 2020-08-21 阿里巴巴集团控股有限公司 一种风控规则生成方法和装置
CN111401775A (zh) * 2020-03-27 2020-07-10 深圳壹账通智能科技有限公司 复杂关系网络的信息分析方法、装置、设备及存储介质
CN114095282B (zh) * 2022-01-21 2022-04-15 杭银消费金融股份有限公司 一种基于短文本特征提取的风控处理方法及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242790A (zh) * 2020-01-02 2020-06-05 平安科技(深圳)有限公司 风险识别方法、电子装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于规则引擎及智能阈值的实时业务风控系统;张鲁男等;《通信技术》;20191110;第52卷(第11期);2720-2724 *

Also Published As

Publication number Publication date
CN114625786A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN107276805B (zh) 一种基于入侵检测模型的样本预测方法、装置及电子设备
CN115098705B (zh) 基于知识图谱推理的网络安全事件分析方法及系统
CN112163008B (zh) 基于大数据分析的用户行为数据处理方法及云计算平台
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN115814686B (zh) 一种镭射气体混配生产系统的状态监控方法及系统
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN114140712A (zh) 一种自动图像识别分发系统及方法
CN115660262B (zh) 一种基于数据库应用的工程智慧质检方法、系统及介质
CN115188485A (zh) 基于智慧医疗大数据的用户需求分析方法及系统
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
CN114187763A (zh) 一种智慧交通的车辆行驶数据筛选方法及系统
CN114139016A (zh) 一种智慧小区的数据处理方法及系统
CN114625786B (zh) 一种基于风控技术的动态数据挖掘方法及系统
CN116757870A (zh) 一种能源物联网的智慧能源监控数据处理方法及系统
CN116566766A (zh) 一种智慧电力网关管控方法及系统
CN115439928A (zh) 一种操作行为识别方法及装置
CN115330140A (zh) 一种基于数据挖掘的建筑风险预测方法及其预测系统
CN113705625A (zh) 异常生活保障申请家庭的识别方法、装置及电子设备
CN114549884A (zh) 一种异常图像检测方法、装置、设备及介质
CN113673430A (zh) 一种基于物联网的用户行为分析方法
CN114625747B (zh) 基于信息安全的风控更新方法及系统
CN116630991B (zh) 一种输电线路状态评价方法和系统
CN115082709B (zh) 遥感大数据处理方法、系统及云平台
CN115187153B (zh) 应用于业务风险溯源的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant