CN112801801A - 模型训练方法、风险识别方法、模型、装置、设备及介质 - Google Patents

模型训练方法、风险识别方法、模型、装置、设备及介质 Download PDF

Info

Publication number
CN112801801A
CN112801801A CN202110130666.9A CN202110130666A CN112801801A CN 112801801 A CN112801801 A CN 112801801A CN 202110130666 A CN202110130666 A CN 202110130666A CN 112801801 A CN112801801 A CN 112801801A
Authority
CN
China
Prior art keywords
data
illegal
training
target
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110130666.9A
Other languages
English (en)
Inventor
陈亚君
张东凯
吴勇
卢世温
蔡朴锐
李宁
林莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110130666.9A priority Critical patent/CN112801801A/zh
Publication of CN112801801A publication Critical patent/CN112801801A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Fuzzy Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请提供了一种模型训练方法、风险识别方法、模型、装置、设备及介质,训练方法包括:根据非法集资识别的业务需求在对应的服务器处采集原始数据;对所述原始数据进行预处理得到目标数据;基于所述数据提取特征分类,得到对应的特征向量;根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集;基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型。上述训练方法可以建立指标之间的关联和权重关系,除了考虑实际的场景,也会增加精确度和召回率来对参数进行调和,在数据采集阶段即可运用机器学习匹配相关函数,建立多指标、多维度、多向量的识别模式,建立全面的风险监测。

Description

模型训练方法、风险识别方法、模型、装置、设备及介质
技术领域
本申请涉及数据统计的技术领域,具体而言,本申请涉及一种模型训练方法、风险识别方法、模型、装置、设备及介质。
背景技术
长期以来,我国经济社会保持较快发展,资金需求旺盛,融资难、融资贵等问题仍然比较突出,民间投资渠道狭窄的现实困难和非法集资高额回报的巨大诱惑交织共存,造成非法集资问题日益凸显,一些案件由于参与群众多、财产损失大,频繁引发群体性事件,甚至导致极端过激事件发生,影响社会稳定。所以,迫切需要建设预警模型以快速精准的识别非法集资,建立立体化、社会化、信息化的预警识别模式,遏制非法集资高发势头。
传统的非法集资识别方法通常采用接入监管数据形成单一指标,通过计算指标归集形成指数,利用指数与阈值的关系判定触发对非法集资的识别。传统的识别方法有一定的局限性,这些局限性包括:(1)单一指标的计算假设各个指标之间无关联,计算方法较为简单,无法实现识别到并发关联的风险。模型的核心是假定了所有指标向量之间的单个协方差都为零,简化了数据的搜集和整理。(2)风险识别的模式是固定的,在设定模型的时候已经了解了整个行业可能预警的方向,但是现实中风险形式多样,很难通过单一指标覆盖全部的风险情况。
发明内容
本申请针对现有方式的缺点,提出一种模型训练方法、风险识别方法、模型、装置、设备及介质,用以解决上述至少一个技术问题。
第一方面,本申请实施例提供了一种非法集资风险识别模型的训练方法,包括:
根据非法集资识别的业务需求在对应的服务器处采集原始数据;
对所述原始数据进行预处理得到目标数据;
基于所述数据提取特征分类,得到对应的特征向量;
根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集;
基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型。
在本申请的一种实施方式中,所述原始数据包括政策性数据和多个监管对象的监管数据;
所述根据非法集资识别的业务需求在对应的服务器处采集原始数据,包括:
根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据,以及在监管对象对应的服务器处采集多个监管对象的监管数据。
在本申请的一种实施方式中,所述在提供政策性数据的服务器处采集政策性数据,包括:
从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换。
在本申请的一种实施方式中,所述在提供政策性数据的服务器处采集政策性数据,包括:
在外部数据交换中心服务器处获取政策性数据,和/或,在政府数据资源共享交换中心服务器处采集多类政务数据。
在本申请的一种实施方式中,所述对所述原始数据进行预处理得到目标数据,包括:在所述原始数据中,分别采集多个领域中每个领域的目标数据。
在本申请的一种实施方式中,所述多个领域包括项目中的多项:事件、机构、关联、资金、舆情、账户异动、行业走势、事件上报、排查、平台、人员、广告、催收、交易和报表。
在本申请的一种实施方式中,所述基于所述数据提取特征分类,得到对应的特征向量,包括:
分别对每个领域的目标数据进行主成分分析,将每个领域的目标数据的最大特征值对应的特征向量组成特征空间;
根据每个领域的目标数据在对应的特征空间的影响因素,对每个领域的目标数据进行特征分类,得到每个领域的目标数据对应的特征向量。
在本申请的一种实施方式中,所述根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集,包括:
基于各个领域的目标数据对应的特征向量,对各个领域的目标数据进行交叉域分类,得到多个类别的目标数据;
建立包括多个类别的目标数据的数据集,将所述数据集按照预设比例分为训练样本集和测试样本集。
在本申请的一种实施方式中,所述基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型,包括:
基于所述训练样本集,分别训练缺少第N个特征的分类器,其中,N为不小于1的正整数;
基于所述测试样本集对各个所述分类器的分类效果进行测试,统计错误分类数,对错误分类数做归一化处理,每个特征的权重;
根据每个特征的权重对原始的非法集资风险识别模型进行调整,得到目标非法集资风险识别模型。
第二方面,本申请实施例提供了一种非法集资风险的识别方法,包括:
在监管对象对应的服务器处获取监管对象的监管数据、以及根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据;
将所述监管数据和所述政策性数据输入基于权利要求1-9任一项训练得到的目标非法集资风险识别模型;
基于所述目标非法集资风险识别模型,识别出模型确定出所述监管对象是否具有非法集资风险。
在本申请的一种实施方式中,通过以下至少一种方式获取所述政策性数据:
从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换;
在外部数据交换中心服务器处获取政策性数据;
在政府数据资源共享交换中心服务器处采集多类政务数据。
第三方面,本申请实施例提供了一种非法集资风险识别模型的训练装置,训练装置包括原始数据获取模块、数据处理模块、特征分类模块、样本生成模块和模型训练模块;
原始数据获取模块用于根据非法集资识别的业务需求在对应的服务器处采集原始数据;
数据处理模块用于对所述原始数据进行预处理得到目标数据;
特征分类模块用于基于所述数据提取特征分类,得到对应的特征向量;
样本生成模块用于根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集;
模型训练模块用于基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型。
在本申请的一种实施方式中,所述原始数据包括政策性数据和多个监管对象的监管数据;
所述原始数据获取模块具体用于:根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据,以及在监管对象对应的服务器处采集多个监管对象的监管数据。
在本申请的一种实施方式中,所述原始数据获取模块具体用于:从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换。
在本申请的一种实施方式中,所述原始数据获取模块具体用于:在外部数据交换中心服务器处获取政策性数据,和/或,在政府数据资源共享交换中心服务器处采集多类政务数据。
在本申请的一种实施方式中,所述数据处理模块具体用于:在所述原始数据中,分别采集多个领域中每个领域的目标数据。
在本申请的一种实施方式中,所述多个领域包括项目中的多项:事件、机构、关联、资金、舆情、账户异动、行业走势、事件上报、排查、平台、人员、广告、催收、交易和报表。
在本申请的一种实施方式中,所述特征分类模块具体用于:
分别对每个领域的目标数据进行主成分分析,将每个领域的目标数据的最大特征值对应的特征向量组成特征空间;
根据每个领域的目标数据在对应的特征空间的影响因素,对每个领域的目标数据进行特征分类,得到每个领域的目标数据对应的特征向量。
在本申请的一种实施方式中,所述样本生成模块具体用于:
基于各个领域的目标数据对应的特征向量,对各个领域的目标数据进行交叉域分类,得到多个类别的目标数据;
建立包括多个类别的目标数据的数据集,将所述数据集按照预设比例分为训练样本集和测试样本集。
在本申请的一种实施方式中,所述模型训练模块具体用于:
基于所述训练样本集,分别训练缺少第N个特征的分类器,其中,N为不小于1的正整数;
基于所述测试样本集对各个所述分类器的分类效果进行测试,统计错误分类数,对错误分类数做归一化处理,每个特征的权重;
根据每个特征的权重对原始的非法集资风险识别模型进行调整,得到目标非法集资风险识别模型。
第四方面,本申请实施例提供了一种非法集资风险的识别装置,识别装置包括数据获取模块、数据出入模块和风险识别模块;
数据获取模块用于在监管对象对应的服务器处获取监管对象的监管数据、以及根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据;
数据出入模块用于将所述监管数据和所述政策性数据输入基于上述第一方面训练得到的目标非法集资风险识别模型;
风险识别模块用于基于所述目标非法集资风险识别模型,识别出模型确定出所述监管对象是否具有非法集资风险。
在本申请的一种实施方式中,所述数据获取模块通过以下至少一种方式获取所述政策性数据:
从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换;
在外部数据交换中心服务器处获取政策性数据;
在政府数据资源共享交换中心服务器处采集多类政务数据。
第五方面,本申请实施例提供了一种电子设备,电子设备包括存储器和处理器,所述处理器与所述存储器通信连接;
所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现上述第一方面的非法集资风险识别模型的训练方法,或者实现上述第二方面的非法集资风险的识别方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面的非法集资风险识别模型的训练方法,或者实现上述第二方面的非法集资风险的识别方法。
本申请实施例提供的技术方案,至少具有如下有益效果:
本申请实施例提供的非法集资风险识别模型的训练方法,可以建立指标之间的关联和权重关系,解决传统模型存在的缺陷,除了考虑实际的场景,也会增加精确度和召回率来对参数进行调和,在数据采集阶段即可运用机器学习匹配相关函数,建立多指标、多维度、多向量的识别模式,充分考虑模型的复杂性,调整模型的质量,建立全面的风险监测。
训练后的非法集资风险识别模型,可以法协助监管局快速且较为精确的识别非法集资,帮助监管部门及决策人员尽可能及时地采取应对措施,以规避风险,减少损失。非法集资的识别能够落实属地风险处置和维稳处突的第一责任,及时发现区域性金融风险,做好地方金融风险的化解和处置,配合中央金融管理部门化解重大金融风险,最大化的确保社会经济环境的稳定。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请提供的一种非法集资风险识别模型的训练方法的流程示意图;
图2为本申请提供的一种非法集资风险的识别方法的流程示意图;
图3为本申请提供的一种非法集资风险识别模型的训练装置的模块示意图;
图4为本申请提供的一种非法集资风险的识别装置的模块示意图;
图5为本申请提供的电子设备的模块示意图。
具体实施方式
下面详细描述本申请,本申请的实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。此外,如果已知技术的详细描述对于示出的本申请的特征是不必要的,则将其省略。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
非法集资:是未经有关部门依法批准,承诺在一定期限内给出资人还本付息。还本付息的形式除以货币形式为主外,也有实物形式和其他形式;向社会不特定的对象筹集资金。这里“不特定的对象”是指社会公众,而不是指特定少数人;以合法形式掩盖其非法集资的实质。
类金融:是指零售商与消费者之间进行现金交易的同时,延期支付上游供应商货款,这使得其账面上长期有大量浮存现金,并形成“规模扩张——销售规模提升带来账面浮存现金——占用供应商资金用于规模扩张或转作他用——进一步规模扩张提升零售渠道价值带来更多账面浮存现金”这样一个资金内循环体系。
本申请实施例提供的一种非法集资风险识别模型的训练方法的流程图,如图1所示,包括以下步骤:
S110:根据非法集资识别的业务需求在对应的服务器处采集原始数据。
在本申请的一种实施方式中,所述原始数据包括政策性数据和多个监管对象的监管数据。所述根据非法集资识别的业务需求在对应的服务器处采集原始数据,包括:根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据,以及在监管对象对应的服务器处采集多个监管对象的监管数据。
在本申请的一种实施方式中,所述在提供政策性数据的服务器处采集政策性数据,包括:从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换。
例如,对于从各个地方金融机构采集的政策性数据,可以将政策性数据按照国办统一标准进行转换,并存储进行了格式转换后的数据。
在本申请的一种实施方式中,所述在提供政策性数据的服务器处采集政策性数据,包括:在外部数据交换中心服务器处获取政策性数据。应当说明的是,外部数据交换中心推送数据到近源区,可以合外部数据分析服务。
在本申请的一种实施方式中,所述在提供政策性数据的服务器处采集政策性数据,包括:在政府数据资源共享交换中心服务器处采集多类政务数据。
S120:对所述原始数据进行预处理得到目标数据。
在本申请的一种实施方式中,所述对所述原始数据进行预处理得到目标数据,包括:在所述原始数据中,分别采集多个领域中每个领域的目标数据。
在本申请的一种实施方式中,所述多个领域包括项目中的多项:事件、机构、关联、资金、舆情、账户异动、行业走势、事件上报、排查、平台、人员、广告、催收、交易和报表。
以资金、舆情和账户异动为例,在所述原始数据中采集与资金相关的数据,作为资金领域的目标数据;在所述原始数据中采集与舆情相关的数据,作为舆情领域的目标数据;在所述原始数据中采集与账户异动相关的数据,作为账户异动领域的目标数据。
S130:基于所述数据提取特征分类,得到对应的特征向量。
在本申请的一种实施方式中,所述基于所述数据提取特征分类,得到对应的特征向量,包括:分别对每个领域的目标数据进行主成分分析,将每个领域的目标数据的最大特征值对应的特征向量组成特征空间;根据每个领域的目标数据在对应的特征空间的影响因素,对每个领域的目标数据进行特征分类,得到每个领域的目标数据对应的特征向量。
S140:根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集。
在本申请的一种实施方式中,所述根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集,包括:基于各个领域的目标数据对应的特征向量,对各个领域的目标数据进行交叉域分类,得到多个类别的目标数据;建立包括多个类别的目标数据的数据集,将所述数据集按照预设比例分为训练样本集和测试样本集。例如,将数据集按照9:1的比例,分成训练样本集和测试样本集。
S150:基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型。
在本申请的一种实施方式中,所述基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型,包括:基于所述训练样本集,分别训练缺少第N个特征的分类器,其中,N为不小于1的正整数;基于所述测试样本集对各个所述分类器的分类效果进行测试,统计错误分类数,对错误分类数做归一化处理,每个特征的权重;根据每个特征的权重对原始的非法集资风险识别模型进行调整,得到目标非法集资风险识别模型。
可以理解,分类效果可以用精确度和召回率表征。以N为3为例,基于所述训练样本集,分别训练缺少第1个特征的分类器1、训练缺少第2个特征的分类器2、训练缺少第3个特征的分类器3。基于所述测试样本集分别对分类器1、分类器2和分类器3的分类效果进行测试,统计错误分类数,对错误分类数做归一化处理,每个特征的权重;根据每个特征的权重对原始的非法集资风险识别模型进行调整,得到目标非法集资风险识别模型。
本申请实施例提供的非法集资风险识别模型的训练方法,可以建立指标之间的关联和权重关系,解决传统模型存在的缺陷,除了考虑实际的场景,也会增加精确度和召回率来对参数进行调和,在数据采集阶段即可运用机器学习匹配相关函数,建立多指标、多维度、多向量的识别模式,充分考虑模型的复杂性,调整模型的质量,建立全面的风险监测。
训练后的非法集资风险识别模型,可以法协助监管局快速且较为精确的识别非法集资,帮助监管部门及决策人员尽可能及时地采取应对措施,以规避风险,减少损失。非法集资的识别能够落实属地风险处置和维稳处突的第一责任,及时发现区域性金融风险,做好地方金融风险的化解和处置,配合中央金融管理部门化解重大金融风险,最大化的确保社会经济环境的稳定。
在得到上述的目标非法集资风险识别模型后,可以对监管对象进行识别,确认监管对象是否具有非法集资风险。本申请实施例提供的一种非法集资风险的识别方法的流程图,如图2所示,包括以下步骤:
S210:在监管对象对应的服务器处获取监管对象的监管数据、以及根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据。
在本申请的一种实施方式中,通过以下至少一种方式获取所述政策性数据:从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换;在外部数据交换中心服务器处获取政策性数据;在政府数据资源共享交换中心服务器处采集多类政务数据。
S220:将所述监管数据和所述政策性数据输入到目标非法集资风险识别模型。
S230:基于所述目标非法集资风险识别模型,识别出模型确定出所述监管对象是否具有非法集资风险。
基于目标非法集资风险识别模型,能够通过建立多维度的向量指标、权重及交叉关联,自动加工各类数据,能够根据监管对象的数据判断其所属分类域,通过算法将多个从而有效地提高了监管效率,实现了对监管对象的风险评级和预警。
基于同一发明构思,本申请实施例还提供了一种非法集资风险识别模型的训练装置,如图3所示,非法集资风险识别模型的训练装置包括原始数据获取模块301、数据处理模块302、特征分类模块303、样本生成模块304和模型训练模块305。
原始数据获取模块301用于根据非法集资识别的业务需求在对应的服务器处采集原始数据。
数据处理模块302用于对所述原始数据进行预处理得到目标数据。
特征分类模块303用于基于所述数据提取特征分类,得到对应的特征向量。
样本生成模块304用于根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集。
模型训练模块305用于基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型。
在本申请的一种实施方式中,所述原始数据包括政策性数据和多个监管对象的监管数据;所述原始数据获取模块301具体用于:根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据,以及在监管对象对应的服务器处采集多个监管对象的监管数据。
在本申请的一种实施方式中,所述原始数据获取模块301具体用于:从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换。
在本申请的一种实施方式中,所述原始数据获取模块301具体用于:在外部数据交换中心服务器处获取政策性数据,和/或,在政府数据资源共享交换中心服务器处采集多类政务数据。
在本申请的一种实施方式中,所述数据处理模块302具体用于:在所述原始数据中,分别采集多个领域中每个领域的目标数据。
在本申请的一种实施方式中,所述多个领域包括项目中的多项:事件、机构、关联、资金、舆情、账户异动、行业走势、事件上报、排查、平台、人员、广告、催收、交易和报表。
在本申请的一种实施方式中,所述特征分类模块303具体用于:分别对每个领域的目标数据进行主成分分析,将每个领域的目标数据的最大特征值对应的特征向量组成特征空间;根据每个领域的目标数据在对应的特征空间的影响因素,对每个领域的目标数据进行特征分类,得到每个领域的目标数据对应的特征向量。
在本申请的一种实施方式中,所述样本生成模块304具体用于:基于各个领域的目标数据对应的特征向量,对各个领域的目标数据进行交叉域分类,得到多个类别的目标数据;建立包括多个类别的目标数据的数据集,将所述数据集按照预设比例分为训练样本集和测试样本集。
在本申请的一种实施方式中,所述模型训练模块305具体用于:基于所述训练样本集,分别训练缺少第N个特征的分类器,其中,N为不小于1的正整数;基于所述测试样本集对各个所述分类器的分类效果进行测试,统计错误分类数,对错误分类数做归一化处理,每个特征的权重;根据每个特征的权重对原始的非法集资风险识别模型进行调整,得到目标非法集资风险识别模型。
本申请实施例提供的非法集资风险识别模型的训练装置,与前面所述的各实施例具有相同的发明构思,该非法集资风险识别模型的训练装置中未详细示出的内容可参照前面所述的各实施例,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种非法集资风险的识别装置,如图4所示,非法集资风险的识别装置包括数据获取模块401、数据出入模块402和风险识别模块403。
数据获取模块401用于在监管对象对应的服务器处获取监管对象的监管数据、以及根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据。
数据出入模块402用于将所述监管数据和所述政策性数据输入基于上述第一方面训练得到的目标非法集资风险识别模型。
风险识别模块403用于基于所述目标非法集资风险识别模型,识别出模型确定出所述监管对象是否具有非法集资风险。
在本申请的一种实施方式中,所述数据获取模块401通过以下至少一种方式获取所述政策性数据:从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换;在外部数据交换中心服务器处获取政策性数据;在政府数据资源共享交换中心服务器处采集多类政务数据
本申请实施例提供的非法集资风险的识别装置,与前面所述的各实施例具有相同的发明构思,该非法集资风险的识别装置中未详细示出的内容可参照前面所述的各实施例,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备,如图5所示,电子设备包括存储器503和处理器501,所述处理器501与所述存储器503通信连接;所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现上述第一方面的非法集资风险识别模型的训练方法,或者实现上述第二方面的非法集资风险的识别方法。
可选地,处理器501和存储器503可以通过总线502相连。可选的,电子设备还可以包括收发器504。需要说明的是,实际应用中收发器504不限于一个,该电子设备的结构并不构成对本申请实施例的限定。
处理器501应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器504可以包括接收机和发射机,收发器504应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器501可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器503可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
本申请实施例提供的电子设备,与前面的各实施例具有相同的发明构思,该电子设备中未详细示出的内容可参照前面的各实施例,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面的非法集资风险识别模型的训练方法,或者实现上述第二方面的非法集资风险的识别方法。
本申请实施例提供的计算机可读存储介质,与前面的各实施例具有相同的发明构思,该计算机可读存储介质中未详细示出的内容可参照前面的各实施例,在此不再赘述。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

1.一种非法集资风险识别模型的训练方法,其特征在于,包括:
根据非法集资识别的业务需求在对应的服务器处采集原始数据;
对所述原始数据进行预处理得到目标数据;
基于所述数据提取特征分类,得到对应的特征向量;
根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集;
基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型。
2.根据权利要求1所述的非法集资风险识别模型的训练方法,其特征在于,所述原始数据包括政策性数据和多个监管对象的监管数据;
所述根据非法集资识别的业务需求在对应的服务器处采集原始数据,包括:
根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据,以及在监管对象对应的服务器处采集多个监管对象的监管数据。
3.根据权利要求2所述的非法集资风险识别模型的训练方法,其特征在于,所述在提供政策性数据的服务器处采集政策性数据,包括:
从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换。
4.根据权利要求2所述的非法集资风险识别模型的训练方法,其特征在于,所述在提供政策性数据的服务器处采集政策性数据,包括:
在外部数据交换中心服务器处获取政策性数据,和/或,在政府数据资源共享交换中心服务器处采集多类政务数据。
5.根据权利要求1所述的非法集资风险识别模型的训练方法,其特征在于,所述对所述原始数据进行预处理得到目标数据,包括:在所述原始数据中,分别采集多个领域中每个领域的目标数据。
6.根据权利要求5所述的非法集资风险识别模型的训练方法,其特征在于,所述多个领域包括项目中的多项:事件、机构、关联、资金、舆情、账户异动、行业走势、事件上报、排查、平台、人员、广告、催收、交易和报表。
7.根据权利要求5所述的非法集资风险识别模型的训练方法,其特征在于,所述基于所述数据提取特征分类,得到对应的特征向量,包括:
分别对每个领域的目标数据进行主成分分析,将每个领域的目标数据的最大特征值对应的特征向量组成特征空间;
根据每个领域的目标数据在对应的特征空间的影响因素,对每个领域的目标数据进行特征分类,得到每个领域的目标数据对应的特征向量。
8.根据权利要求5所述的非法集资风险识别模型的训练方法,其特征在于,所述根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集,包括:
基于各个领域的目标数据对应的特征向量,对各个领域的目标数据进行交叉域分类,得到多个类别的目标数据;
建立包括多个类别的目标数据的数据集,将所述数据集按照预设比例分为训练样本集和测试样本集。
9.根据权利要求5所述的非法集资风险识别模型的训练方法,其特征在于,所述基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型,包括:
基于所述训练样本集,分别训练缺少第N个特征的分类器,其中,N为不小于1的正整数;
基于所述测试样本集对各个所述分类器的分类效果进行测试,统计错误分类数,对错误分类数做归一化处理,每个特征的权重;
根据每个特征的权重对原始的非法集资风险识别模型进行调整,得到目标非法集资风险识别模型。
10.一种非法集资风险的识别方法,其特征在于,包括:
在监管对象对应的服务器处获取监管对象的监管数据、以及根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据;
将所述监管数据和所述政策性数据输入基于权利要求1-9任一项训练得到的目标非法集资风险识别模型;
基于所述目标非法集资风险识别模型,识别出模型确定出所述监管对象是否具有非法集资风险。
11.根据权利要求10所述的非法集资风险的识别方法,其特征在于,通过以下至少一种方式获取所述政策性数据:
从多个地方金融机构对应的服务器处采集政策性数据,将数据按照预设格式进行转换;
在外部数据交换中心服务器处获取政策性数据;
在政府数据资源共享交换中心服务器处采集多类政务数据。
12.一种非法集资风险识别模型的训练装置,其特征在于,包括:
原始数据获取模块,用于根据非法集资识别的业务需求在对应的服务器处采集原始数据;
数据处理模块,用于对所述原始数据进行预处理得到目标数据;
特征分类模块,用于基于所述数据提取特征分类,得到对应的特征向量;
样本生成模块,用于根据所述特征向量对所述目标数据进行交叉域分类,将多个类别的所述目标数据形成训练样本集和测试样本集;
模型训练模块,用于基于所述训练样本集和所述测试样本集,训练得到目标非法集资风险识别模型。
13.一种非法集资风险的识别装置,其特征在于,包括:
数据获取模块,用于在监管对象对应的服务器处获取监管对象的监管数据、以及根据非法集资识别的业务需求,在提供政策性数据的服务器处采集政策性数据;
数据出入模块,用于将所述监管数据和所述政策性数据输入基于权利要求1-9任一项训练得到的目标非法集资风险识别模型;
风险识别模块,用于基于所述目标非法集资风险识别模型,识别出模型确定出所述监管对象是否具有非法集资风险。
14.一种电子设备,其特征在于,包括存储器和处理器,所述处理器与所述存储器通信连接;
所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现如权利要求1-9中任一项所述的非法集资风险识别模型的训练方法,或者实现如权利要求10-11中任一项所述的非法集资风险的识别方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-9中任一项所述的非法集资风险识别模型的训练方法,或者实现如权利要求10-11中任一项所述的非法集资风险的识别方法。
CN202110130666.9A 2021-01-29 2021-01-29 模型训练方法、风险识别方法、模型、装置、设备及介质 Pending CN112801801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110130666.9A CN112801801A (zh) 2021-01-29 2021-01-29 模型训练方法、风险识别方法、模型、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110130666.9A CN112801801A (zh) 2021-01-29 2021-01-29 模型训练方法、风险识别方法、模型、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112801801A true CN112801801A (zh) 2021-05-14

Family

ID=75813082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110130666.9A Pending CN112801801A (zh) 2021-01-29 2021-01-29 模型训练方法、风险识别方法、模型、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112801801A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344432A (zh) * 2021-06-29 2021-09-03 云南电网有限责任公司信息中心 一种区域性客户服务风险的判断方法及装置
CN113723800A (zh) * 2021-08-27 2021-11-30 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置
CN115935265A (zh) * 2023-03-03 2023-04-07 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法、风险识别方法及对应装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344432A (zh) * 2021-06-29 2021-09-03 云南电网有限责任公司信息中心 一种区域性客户服务风险的判断方法及装置
CN113344432B (zh) * 2021-06-29 2022-05-13 云南电网有限责任公司信息中心 一种区域性客户服务风险的判断方法及装置
CN113723800A (zh) * 2021-08-27 2021-11-30 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置
CN113723800B (zh) * 2021-08-27 2024-06-07 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置
CN115935265A (zh) * 2023-03-03 2023-04-07 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法、风险识别方法及对应装置

Similar Documents

Publication Publication Date Title
CN112801801A (zh) 模型训练方法、风险识别方法、模型、装置、设备及介质
Ghori et al. Performance analysis of machine learning classifiers for non-technical loss detection
US20150363875A1 (en) System and Method for Filtering and Analyzing Transaction Information
CN111260368A (zh) 一种账户交易风险判断方法、装置及电子设备
CN112634048B (zh) 一种反洗钱模型的训练方法及装置
CN115526700A (zh) 风险的预测方法、装置及电子设备
CN116823428A (zh) 一种反欺诈检测方法、装置、设备及存储介质
CN109903166B (zh) 一种数据风险预测方法、装置及设备
CN114118816B (zh) 一种风险评估方法、装置、设备及计算机存储介质
CN110930078A (zh) 一种业务对象识别方法、装置及设备
CN114004699A (zh) 基于人工智能的风险管控方法、装置、设备及存储介质
CN109191101B (zh) 一种保障客户资产安全的方法、装置及设备
CN116739753A (zh) 一种银行零售业务数字孪生构建方法
CN112926991B (zh) 一种套现团伙严重等级划分方法及系统
CN116227862A (zh) 一种基于高效的预算项目全流程监管方法和系统
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN110570301B (zh) 风险识别方法、装置、设备及介质
Lee et al. Application of machine learning in credit risk scorecard
CN114066209A (zh) 一种业务分配方法、装置、设备及计算机存储介质
CN118195770B (zh) 一种企业财务数据真实性的校验方法、设备及介质
Lin et al. Pricing cloud stocks: Evidence from China
CN115953259B (zh) 一种基于合作平台贷款业务的多维自动对账方法
CN115953248B (zh) 基于沙普利可加性解释的风控方法、装置、设备及介质
CN118840207A (zh) 资源置换用户识别方法、装置及相关设备
CN117217910A (zh) 信息处理方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination