CN113327037A - 基于模型的风险识别方法、装置、计算机设备和存储介质 - Google Patents
基于模型的风险识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113327037A CN113327037A CN202110602678.7A CN202110602678A CN113327037A CN 113327037 A CN113327037 A CN 113327037A CN 202110602678 A CN202110602678 A CN 202110602678A CN 113327037 A CN113327037 A CN 113327037A
- Authority
- CN
- China
- Prior art keywords
- target
- classification
- feature
- data set
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000013145 classification model Methods 0.000 claims abstract description 254
- 238000012360 testing method Methods 0.000 claims abstract description 168
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 238000007635 classification algorithm Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 24
- 238000012216 screening Methods 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能领域,提供一种基于模型的风险识别方法、装置、计算机设备和存储介质,方法包括:获取与企业虚假注册行为相关的原始特征数据集合;调用特征选择算法从原始特征数据集合中筛选目标特征;获取与目标特征数据对应的企业类别信息,并构建样本数据集;基于样本数据集与预设数量,使用多种分类算法建立多个分类模型;基于测试数据集计算得到分类模型的测试精确度;基于测试精确度对应的目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成目标企业的目标识别分类结果。本申请能提高对企业虚假注册行为的识别效率与识别准确性。本申请还可以应用于区块链领域,上述分类模型可以存储于区块链上。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于模型的风险识别方法、装置、计算机设备和存储介质。
背景技术
现有的基于人工识别企业的虚假注册行为的方式,需要耗费大量的人力物力,识别效率低,且人工识别存在主观性高、准确率低的问题。
发明内容
本申请的主要目的为提供一种基于模型的风险识别方法、装置、计算机设备和存储介质,旨在解决现有的基于人工识别企业的虚假注册行为的方式,需要耗费大量的人力物力,识别效率低,且人工识别存在主观性高、准确率低的技术问题。
本申请提出一种基于模型的风险识别方法,所述方法包括步骤:
获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
基于所述目标特征数据与所述企业类别信息构建样本数据集;
基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;
基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
可选地,所述调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的步骤,包括:
调用预设的第一特征选择算法对所述原始特征数据集合中的所有原始特征进行特征提取处理,得到提取后的第一特征集合;
调用预设的第二特征选择算法对所述第一特征集合进行特征权重计算,得到所述第一特征集合中每一个特征的特征权重;
获取预设数值阈值与预设权重阈值;
将所有所述特征权重按照数值从大到小的顺序进行排序,并依次累加直至超过所述数值阈值,筛选出未进行累加处理的剩余的特征权重;
获取与所述剩余的特征权重对应的剩余特征,将所述剩余特征从所述第一特征集合中移除,得到移除后的第二特征集合;
判断所述第二特征集合中是否存在小于所述预设权重阈值的指定特征;
若所述第二特征集合中存在小于所述预设权重阈值的指定特征,将所述指定特征从所述第二特征集合中移除,得到移除后的第三特征集合;
将所述第三特征集合中的所有特征作为所述目标特征。
可选地,所述基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度的步骤,包括:
获取预设的测试数据集;其中,所述测试数据集包括多个测试数据,以及与各所述测试数据分别对应的类别信息;
分别将各所述测试数据输入至指定分类模型中,获取所述指定分类模型输出的与各所述测试数据分别对应的第一识别分类结果;其中,所述指定分类模型为所有所述分类模型中的任意一个模型;
获取所有所述第一识别分类结果中识别正确的指定识别分类结果;
获取所述指定识别分类结果的第一数量,以及获取所述第一识别分类结果的第二数量;
计算所述第一数量与所述第二数量的比值,并将所述比值作为所述指定分类模型的测试精确度。
可选地,所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤,包括:
获取每个所述分类模型的测试精确度;
对所有所述测试精确度进行数值比较处理,从所有所述测试精确度中筛选出数值最大的目标测试精确度;
从所有所述分类模型中筛选出与所述目标测试精确度对应的第一目标分类模型;
使用第一目标分类模型对所述待识别特征数据进行识别处理,输出对应的第二识别分类结果;
将所述第二识别分类结果作为与所述目标企业对应的目标识别分类结果。
可选地,所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤,包括:
获取每个所述分类模型的测试精确度;以及,
获取预设的精确度阈值;
从所有所述测试精确度中筛选出数值大于所述精确度阈值的指定测试精确度;
获取与各所述指定测试精度分别对应的第二目标分类模型;
将所述待识别特征数据分别输入至各所述第二目标分类模型,获取各所述第二目标分类模型分别输出的与所述待识别特征数据对应的第三识别分类结果;
对所有所述第三识别分类结果进行分析处理,从所有所述第三识别分类结果中筛选出现次数最多的第四识别分类结果;
将所述第四识别分类结果作为所述目标识别分类结果。
可选地,所述获取与企业虚假注册行为相关的原始特征数据集合的步骤之后,包括:
对所述原始特征数据集合进行数据预处理,得到处理后的原始特征数据集合;
对所述处理后的原始特征数据集合进行标准化处理,得到标准化的原始特征数据集合;
所述调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的步骤,包括:
调用预设的特征选择算法对所述标准化的原始特征数据集合进行分析处理,从所述标准化的原始特征数据集合中包含的所有特征中筛选出目标特征。
可选地,所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤之后,包括:
判断得到的所述目标识别分类结果是否为企业具备虚假注册风险;
若是,获取与所述目标企业对应的企业信息;
基于所述目标识别分类结果与所述企业信息,生成相应的企业预警信息;
获取预设的邮件登录信息,以及获取与目标用户对应的目标邮件地址;
根据所述邮件登录信息登录至对应的邮件服务器;
通过所述邮件服务器将所述企业识别信息发送至所述目标邮件地址。
本申请还提供一种基于模型的风险识别装置,包括:
第一获取模块,用于获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
处理模块,用于调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
第二获取模块,用于获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
构建模块,用于基于所述目标特征数据与所述企业类别信息构建样本数据集;
第一生成模块,用于基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;
测试模块,用于基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
第二生成模块,用于基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的基于模型的风险识别方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的基于模型的风险识别方法、装置、计算机设备和存储介质,在获取到企业虚假注册行为相关的原始特征数据集合后,通过调用特征选择算法对所述原始特征数据集合进行分析处理以筛选出目标特征,然后基于所述目标特征与对应的企业类别信息构建样本数据集;之后基于所述样本数据集以及输入的预设数量,使用预设的多种分类算法建立相应的多个分类模型;进而再使用预设的测试数据集计算得到每个所述分类模型的测试精确度后,基于测试精确度从所有所述分类模型筛选出符合预设条件的目标分类模型来对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。不同于现有的基于人工识别企业的虚假注册行为的方式,本申请通过使用基于创建的分类模型来自动进行对于待识别特征数据的识别处理并能生成准确的目标识别分类结果,进而基于得到的目标识别分类结果来识别出目标企业是否具备虚假注册行风险,有效地提高了对于目标企业的虚假注册行为的识别效率与识别准确性。
附图说明
图1是本申请一实施例的基于模型的风险识别方法的流程示意图;
图2是本申请一实施例的基于模型的风险识别装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参照图1,本申请一实施例的基于模型的风险识别方法,包括:
S1:获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
S2:调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
S3:获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
S4:基于所述目标特征数据与所述企业类别信息构建样本数据集;
S5:基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;
S6:基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
S7:基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
如上述步骤S1至S7所述,本方法实施例的执行主体为一种基于模型的风险识别装置。在实际应用中,上述基于模型的风险识别装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的基于模型的风险识别装置,能够基于创建的分类模型来自动进行对于待识别特征数据的识别处理并能生成准确的目标识别分类结果,进而基于目标识别分类结果来识别出目标企业是否具备虚假注册行风险,有效地提高了对于目标企业的虚假注册行为的识别效率与识别准确性。具体地,首先获取与企业虚假注册行为相关的原始特征数据集合。其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值。另外,上述原始特征至少可包括企业的注册地址是否为无经营的,是否冒用消费者的身份、有无年报、有无纳税、是否为高频虚假中介经办、注册资本、公司类型、管理人员数量等特征。然后调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征。其中,先先基于预设的第一特征选择算法,如mRMR 算法去除原始特征集合中的冗余特征,再基于预设的第二特征选择算法,如 ReliefF算法进一步对经过第一特征选择算法处理后得到的特征集合中的每一个特征进行分析并计算每一个特征的特征权重,进而基于特征权重从所有特征中筛选出与企业类别信息的相关性较高的特征作为目标特征。
之后获取与目标特征数据对应的企业类别信息。其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据。另外,所述企业类别信息包括企业具备虚假注册风险,以及企业不具备虚假注册风险。后续基于所述目标特征数据与所述企业类别信息构建样本数据集。其中,可通过将目标特征作为自变量,将企业类别信息作为因变量来构建样本数据集。另外,根据企业类别信息来将所有样本数据集划分为正样本数据集与负样本数据集。将企业类别信息为企业不具备虚假注册风险的情况所对应的特征数据集作为正样本,将企业类别信息为企业具备虚假注册风险的情况所对应的也在数据集作为负样本。此外,优选控制正样本与负样本的数量比例为1:1。
在得到了上述样本数据集后,基于所述样本数据集与输入的预设数量,使用预设的多种分类算法建立多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集。上述分类算法至少包括KNN、决策树、随机森林、SVM算法等算法。上述预设比例可根据实际需求进行设置。可基于训练数据集以及分类算法预先建立的初始模型进行训练从而得到相应的分类模型,各分类模型的具体训练生成过程可参照现有的分类模型的训练生成过程,在此不作过多阐述。另外,建立生成的多个分类模型之间具有以下差别:从样本数据集中挑选出训练数据集不同,所采用的分类算法不同,因此生成的各个分类模型的模型识别的准确性与稳定性会有所不同,从而后续步骤可以根据各个分类模型的模型识别的准确性与稳定性进行考量,进而从所有所述分类模型筛选出用于对所述待识别特征数据进行识别处理的一个或多个分类模型,以起到有效提高最终生成的与所述目标企业对应的目标识别分类结果的准确性。此外,对于上述预设数量的具体数值不做限定,可根据实际需求进行设置,例如可设为4。预设次数是指用户希望基于同一种分类算法来训练生成的分类模型的数量。通过基于用户输入的预设数量来基于每一种分类算法生成预设数量的多个分类模型,能够提高用户的使用体验。
然后基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度。其中,上述测试数据集可从上述样本数据集中获取得到。可先将测试数据集包含的每一组数据分别输入至指定分类模型中,获取所述指定分类模型输出的与各所述测试数据分别对应的第一识别分类结果,所述指定分类模型为所有所述分类模型中的任意一个模型,再获取所有所述第一识别分类结果中识别正确的指定识别分类结果的数量,进而计算指定识别分类结果的数量与第一识别分类结果的数量的比值作为指定分类模型的测试精确度。最后基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。其中,待识别特征数据的数据格式与上述原始特征数据集合中的原始特征数据的数据格式相同。另外,对上述符合预设条件的目标分类模型的确定方式不作具体限定,只需保证该目标分类模型具有较高的测试精确度。具体的,上述目标分类模型可指所有所述分类模型中数值最大的测试精确度所对应的第一目标分类模型,或者还可以指所有所述分类模型中数值大于预设的精确度阈值的多个第二目标分类模型。
本实施例在获取到企业虚假注册行为相关的原始特征数据集合后,通过调用特征选择算法对所述原始特征数据集合进行分析处理以筛选出目标特征,然后基于所述目标特征与对应的企业类别信息构建样本数据集;之后基于所述样本数据集以及输入的预设数量,使用预设的多种分类算法建立相应的多个分类模型;进而再使用预设的测试数据集计算得到每个所述分类模型的测试精确度后,基于测试精确度从所有所述分类模型筛选出符合预设条件的目标分类模型来对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。不同于现有的基于人工识别企业的虚假注册行为的方式,本实施例通过使用基于创建的分类模型来自动进行对于待识别特征数据的识别处理并能生成准确的目标识别分类结果,进而基于得到的目标识别分类结果来识别出目标企业是否具备虚假注册行风险,有效地提高了对于目标企业的虚假注册行为的识别效率与识别准确性。
进一步地,本申请一实施例中,上述步骤S2,包括:
S200:调用预设的第一特征选择算法对所述原始特征数据集合中的所有原始特征进行特征提取处理,得到提取后的第一特征集合;
S201:调用预设的第二特征选择算法对所述第一特征集合进行特征权重计算,得到所述第一特征集合中每一个特征的特征权重;
S202:获取预设数值阈值与预设权重阈值;
S203:将所有所述特征权重按照数值从大到小的顺序进行排序,并依次累加直至超过所述数值阈值,筛选出未进行累加处理的剩余的特征权重;
S204:获取与所述剩余的特征权重对应的剩余特征,将所述剩余特征从所述第一特征集合中移除,得到移除后的第二特征集合;
S205:判断所述第二特征集合中是否存在小于所述预设权重阈值的指定特征;
S206:若所述第二特征集合中存在小于所述预设权重阈值的指定特征,将所述指定特征从所述第二特征集合中移除,得到移除后的第三特征集合;
S207:将所述第三特征集合中的所有特征作为所述目标特征。
如上述步骤S200至S207所述,所述调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的步骤,具体可包括:首先调用预设的第一特征选择算法对所述原始特征数据集合中的所有原始特征进行特征提取处理,得到提取后的第一特征集合。其中,上述第一特征选择算法为用于去除数据集合包含的所有原始特征中的冗余特征的算法,具体可为mRMR(Max-Relevanceand Min-Redundancy,最大相关和最小冗余算法)算法。采用mRMR算法对所有原始特征进行特征提取,可以使得到的模型输入与模型输出相关性最大,模型输入之间冗余性最小,进而可以令得到的模型能够具有更好的识别精度。在得到了上述第一特征集合后,调用预设的第二特征选择算法对所述第一特征集合进行特征权重计算,得到所述第一特征集合中每一个特征的特征权重。其中,上述第二特征选择算法具体为Relief-F特征选择算法,Relief-F算法运行效率高,对数据类型没有限制,属于一种特征权重算法,算法会赋予所有和类别相关性高的特征较高的权重,并基于特征权重从所有特征中进一步筛选出于类别相关性较高的特征作为重要性高的特征。然后获取预设数值阈值与预设权重阈值。其中,对于上述预设数值阈值与预设权重阈值的具体取值不作限定,可根据实际需求进行设置。之后将所有所述特征权重按照数值从大到小的顺序进行排序,并依次累加直至超过所述数值阈值,筛选出未进行累加处理的剩余的特征权重。后续获取与所述剩余的特征权重对应的剩余特征,将所述剩余特征从所述第一特征集合中移除,得到移除后的第二特征集合。其中,由于未进行累加处理的剩余的特征权重所对应的剩余特征为与企业类别信息之间的相关性较低的特征,故会将该剩余特征从第一特征集合中过滤掉。在得到了上述第二特征集合后,判断所述第二特征集合中是否存在小于所述预设权重阈值的指定特征。若所述第二特征集合中存在小于所述预设权重阈值的指定特征,将所述指定特征从所述第二特征集合中移除,得到移除后的第三特征集合。其中,由于第二特征集合中的指定特征的特征权重小于预设权重阈值,表明指定特征与企业类别信息之间的相关性较低,故会将该指定特征从第二特征集合中过滤掉。最后将所述第三特征集合中的所有特征作为所述目标特征。本实施例基于mRMR算法实现有效的去除原始特征集合中的冗余特征后,再用ReliefF算法对得到的特征集合中的每一个特征进行分析并计算每一个特征的特征权重,进而基于特征权重从所有特征中进一步筛选出与企业类别信息的相关性较高的特征作为目标特征,有效地降低输入数据维数,这样可以直接降低数据存储空间,减小计算机的负担。另外,还提高了建模精度,由于在特征提取过程中,会剔除一些冗余特征并保留与类别信息相关性更强的那些特征,这样可以有效删除特征空间中的噪声数据,减小饱和度识别建模误差,并且减小噪声对模型的干扰作用。以及还能降低算法复杂度,由于输入数据维数的降低,自然引起的分类模型的训练时间减少,并且建立模型复杂度也降低,这将直接影响模型识别所需时间,有效减少模型识别所需时间。
进一步地,本申请一实施例中,上述步骤S6,包括:
S600:获取预设的测试数据集;其中,所述测试数据集包括多个测试数据,以及与各所述测试数据分别对应的类别信息;
S601:分别将各所述测试数据输入至指定分类模型中,获取所述指定分类模型输出的与各所述测试数据分别对应的第一识别分类结果;其中,所述指定分类模型为所有所述分类模型中的任意一个模型;
S602:获取所有所述第一识别分类结果中识别正确的指定识别分类结果;
S603:获取所述指定识别分类结果的第一数量,以及获取所述第一识别分类结果的第二数量;
S604:计算所述第一数量与所述第二数量的比值,并将所述比值作为所述指定分类模型的测试精确度。
如上述步骤S600至S604所述,所述基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度的步骤,具体可包括:首先获取预设的测试数据集。其中,所述测试数据集包括多个测试数据,以及与各所述测试数据分别对应的类别信息。另外,上述测试数据集可基于上述样本数据集生成,如可按照预设的数值比例将样本数据集划分为相应的训练数据集与测试数据集,且该数值比例可根据实际需求进行设置。然后分别将各所述测试数据输入至指定分类模型中,获取所述指定分类模型输出的与各所述测试数据分别对应的第一识别分类结果。其中,所述指定分类模型为所有所述分类模型中的任意一个模型。之后获取所有所述第一识别分类结果中识别正确的指定识别分类结果。其中,识别正确的指定识别分类结果是指所有第一识别分类结果中与相对应的测试数据的类别信息相同的分类结果。后续获取所述指定识别分类结果的第一数量,以及获取所述第一识别分类结果的第二数量。最后计算所述第一数量与所述第二数量的比值,并将所述比值作为所述指定分类模型的测试精确度。本实施例通过基于测试数据集来快速地计算出每一个分类模型的测试精确度,有利于后续基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对所述待识别特征数据进行识别处理以生成与所述目标企业对应的目标识别分类结果。由于筛选后的分类模型具有较高的测试精确度,保证了生成的目标识别分类结果具有较高的准确性,提高了对于目标企业的虚假注册识别的处理准确性。
进一步地,本申请一实施例中,上述步骤S7,包括:
S700:获取每个所述分类模型的测试精确度;
S701:对所有所述测试精确度进行数值比较处理,从所有所述测试精确度中筛选出数值最大的目标测试精确度;
S702:从所有所述分类模型中筛选出与所述目标测试精确度对应的第一目标分类模型;
S703:使用第一目标分类模型对所述待识别特征数据进行识别处理,输出对应的第二识别分类结果;
S704:将所述第二识别分类结果作为与所述目标企业对应的目标识别分类结果。
如上述步骤S700至S704所述,所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤,具体可包括:首先获取每个所述分类模型的测试精确度。然后对所有所述测试精确度进行数值比较处理,从所有所述测试精确度中筛选出数值最大的目标测试精确度。之后从所有所述分类模型中筛选出与所述目标测试精确度对应的第一目标分类模型。后续使用第一目标分类模型对所述待识别特征数据进行识别处理,输出对应的第二识别分类结果。最后将所述第二识别分类结果作为与所述目标企业对应的目标识别分类结果。本实施例通过对基于不同的分类算法创建的所有分类模型分别计算测试精确度,从所有分类模型中筛选出测试精确度最高的第一目标分类模型,由于第一目标分类模型的测试精确度最高,故具有最高的准确性与稳定性,以使得后续通过使用第一目标分类模型对所述待识别特征数据进行识别处理,输出对应的第一识别分类结果并作为与所述目标企业对应的目标识别分类结果,有效的保证了对于目标企业的虚假注册识别的准确性。
进一步地,本申请一实施例中,上述步骤S7,包括:
S710:获取每个所述分类模型的测试精确度;以及,
S711:获取预设的精确度阈值;
S712:从所有所述测试精确度中筛选出数值大于所述精确度阈值的指定测试精确度;
S713:获取与各所述指定测试精度分别对应的第二目标分类模型;
S714:将所述待识别特征数据分别输入至各所述第二目标分类模型,获取各所述第二目标分类模型分别输出的与所述待识别特征数据对应的第三识别分类结果;
S715:对所有所述第三识别分类结果进行分析处理,从所有所述第三识别分类结果中筛选出现次数最多的第四识别分类结果;
S716:将所述第四识别分类结果作为所述目标识别分类结果。
如上述步骤S710至S716所述,所所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤,具体可包括:首先获取每个所述分类模型的测试精确度。以及同时获取预设的精确度阈值。然后从所有所述测试精确度中筛选出数值大于所述精确度阈值的指定测试精确度。其中,指定测试精确度的数量为多个,且对于上述精确度阈值的数值不做具体限定,可根据实际使用需求进行设置。优选控制精确度阈值的数值以使得到的上述指定测试精确度的数量为奇数,从而使得第二目标分类模型的数量也为奇数个。当第二目标分类模型的数量为奇数个,可以避免出现当采用偶数个例如4个时每两个识别出的识别分类结果相同,而与其余两个识别出的不同的情况,进而导致无法确定出与待识别特征数据对应的分类结果的情况。通过采用多个第二目标分类模型来分别对上述待识别特征数据进行识别处理,从而可以保证基于多个第二目标分类模型所生成的与待识别特征数据对应的目标识别分类结果能够更加准确。之后获取与各所述指定测试精度分别对应的第二目标分类模型。后续将所述待识别特征数据分别输入至各所述第二目标分类模型,获取各所述第二目标分类模型分别输出的与所述待识别特征数据对应的第三识别分类结果。其中,对于相同的待识别特征数据,不同的分类模型对其进行识别分类处理后得到的识别分类结果可能并不完全相同。当只使用一个分类模型对待识别特征数据进行识别时,得到只有单一的识别分类结果,准确性较低,缺乏全面性。最后对所有所述第三识别分类结果进行分析处理,从所有所述第三识别分类结果中筛选出现次数最多的第四识别分类结果,并将所述第四识别分类结果作为所述目标识别分类结果。本实施例通过从所有分类模型中挑选出测试精确度大于所述精确度阈值的第二目标分类模型来分别对待识别特征数据进行处理,并将各所述第二目标分类模型分别输出的与所述待识别特征数据对应的第三识别分类结果中出现次数最多的第四识别分类结果作为最终的目标识别分类结果,从而可以避免仅利用一个分类模型来对待识别特征数据进行处理而导致识别误差过大,从而有效地提高了对于待识别特征数据的识别的准确率,进而提高使用分类模型对目标企业进行虚假注册风险识别的准确性。
进一步地,本申请一实施例中,上述步骤S1之后,包括:
S100:对所述原始特征数据集合进行数据预处理,得到处理后的原始特征数据集合;
S101:对所述处理后的原始特征数据集合进行标准化处理,得到标准化的原始特征数据集合;
所述调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的步骤S2,包括:
S210:调用预设的特征选择算法对所述标准化的原始特征数据集合进行分析处理,从所述标准化的原始特征数据集合中包含的所有特征中筛选出目标特征。
如上述步骤S100、S101以及S210所述,在执行所述获取与企业虚假注册行为相关的原始特征数据集合的步骤之后,还可进一步对原始特征数据集合进行数据预处理与标准化处理。具体地,首先对所述原始特征数据集合进行数据预处理,得到处理后的原始特征数据集合。其中,上述数据预处理包括数据缺失值、异常值、重复值处理等。然后对所述处理后的原始特征数据集合进行标准化处理,得到标准化的原始特征数据集合。其中,上述标准化处理包括对不同格式的特征数据进行数据转换,以形成统一格式的特征数据。具体的:假如选取n个企业,m个原始特征,则xij为第i个企业的第j个原始特征的特征值,当特征数据代表正向特征时,使用以下标准化公式进行处理:当特征数据代表负向特征时,使用以下标准化公式进行处理:则x′ij为经过标准化处理后的第i个企业的第j个原始特征的特征值。(i=1,2…,n;j=1,2,…,m)。进一步地,所述调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的步骤,包括:调用预设的特征选择算法对所述标准化的原始特征数据集合进行分析处理,从所述标准化的原始特征数据集合中包含的所有特征中筛选出目标特征。其中,从所述标准化的原始特征数据集合中包含的所有特征中筛选出目标特征的具体筛选过程,可参照前述实施例利用预设的第一特征选择算法与第二特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的过程。本实施例通过对原始特征数据集合进行数据预处理以及标准化处理,有效的保证了生成的标准化的原始特征数据集合中特殊数据的准确性与完整性,使得后续能够基于该原始特征数据集合来生成识别精确度更高的分类模型,从而可以基于该识别精确度更高的分类模型来准确地对目标企业进行虚假注册风险识别。
进一步地,本申请一实施例中,上述步骤S7之后,包括:
S720:判断得到的所述目标识别分类结果是否为企业具备虚假注册风险;
S721:若是,获取与所述目标企业对应的企业信息;
S722:基于所述目标识别分类结果与所述企业信息,生成相应的企业预警信息;
S723:获取预设的邮件登录信息,以及获取与目标用户对应的目标邮件地址;
S724:根据所述邮件登录信息登录至对应的邮件服务器;
S725:通过所述邮件服务器将所述企业识别信息发送至所述目标邮件地址。
如上述步骤S720至S725所述,当所述目标识别分类结果为企业具备虚假注册风险时,在执行完所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤之后,还可包括基于所述目标识别分类结果生成对应的企业预警信息并发送给相关的目标用户的过程。具体地,首先判断得到的所述目标识别分类结果是否为企业具备虚假注册风险。其中,目标识别分类结果为企业具备虚假注册风险或企业不具备虚假注册风险。若得到的所述目标识别分类结果为企业具备虚假注册风险,则获取与所述目标企业对应的企业信息。其中,所述企业信息可包括企业的工商信息与企业名称信息,工商信息至少包括工商注册号与统一社会信用代码。然后基于所述目标识别分类结果与所述企业信息,生成相应的企业预警信息。其中,上述企业预警信息至少包括所述目标识别分类结果与所述企业信息。之后获取预设的邮件登录信息,以及获取与目标用户对应的目标邮件地址。其中,上述目标用户可为与企业虚假注册相关政府职能机构的监管人员。后续根据所述邮件登录信息登录至对应的邮件服务器。最后通过所述邮件服务器将所述企业识别信息发送至所述目标邮件地址。本实施例在获取了目标识别分类结果,且判定了该目标识别分类结果为企业具备虚假注册风险后,会智能地生成与目标企业相应的企业预警信息,并将该企业预警信息发送至目标用户对应的目标邮件地址,使得目标用户能够基于该企业预警信息及时了解到目标企业具备虚假注册风险的信息,从而能够及时作出相应处理,有利于相关政府职能机构更好的开展执法工作。
本申请实施例中的基于模型的风险识别方法还可以应用于区块链领域,如将上述分类模型等数据存储于区块链上。通过使用区块链来对上述分类模型进行存储和管理,能够有效地保证上述分类模型的安全性与不可篡改性。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图2,本申请一实施例中还提供了一种基于模型的风险识别装置,包括:
第一获取模块1,用于获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
处理模块2,用于调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
第二获取模块3,用于获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
构建模块4,用于基于所述目标特征数据与所述企业类别信息构建样本数据集;
第一生成模块5,用于基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;;
测试模块6,用于基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
第二生成模块7,用于基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
本实施例中,上述基于模型的风险识别装置中的第一获取模块1、处理模块 2、第二获取模块3、构建模块4、第一生成模块5、测试模块6与第二生成模块 7的功能和作用的实现过程具体详见上述基于模型的风险识别方法中对应步骤 S1至S7的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述处理模块2,包括:
第一处理单元,用于调用预设的第一特征选择算法对所述原始特征数据集合中的所有原始特征进行特征提取处理,得到提取后的第一特征集合;
第一计算单元,用于调用预设的第二特征选择算法对所述第一特征集合进行特征权重计算,得到所述第一特征集合中每一个特征的特征权重;
第一获取单元,用于获取预设数值阈值与预设权重阈值;
第一筛选单元,用于将所有所述特征权重按照数值从大到小的顺序进行排序,并依次累加直至超过所述数值阈值,筛选出未进行累加处理的剩余的特征权重;
第一移除单元,用于获取与所述剩余的特征权重对应的剩余特征,将所述剩余特征从所述第一特征集合中移除,得到移除后的第二特征集合;
判断单元,用于判断所述第二特征集合中是否存在小于所述预设权重阈值的指定特征;
第二移除单元,用于若所述第二特征集合中存在小于所述预设权重阈值的指定特征,将所述指定特征从所述第二特征集合中移除,得到移除后的第三特征集合;
第一确定单元,用于将所述第三特征集合中的所有特征作为所述目标特征。
本实施例中,上述基于模型的风险识别装置中的第一处理单元、第一计算单元、第一获取单元、第一筛选单元、第一移除单元、判断单元、第二移除单元与第一确定单元的功能和作用的实现过程具体详见上述基于模型的风险识别方法中对应步骤S200至S207的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述测试模块6,包括:
第二获取单元,用于获取预设的测试数据集;其中,所述测试数据集包括多个测试数据,以及与各所述测试数据分别对应的类别信息;
第一输入单元,用于分别将各所述测试数据输入至指定分类模型中,获取所述指定分类模型输出的与各所述测试数据分别对应的第一识别分类结果;其中,所述指定分类模型为所有所述分类模型中的任意一个模型;
第三获取单元,用于获取所有所述第一识别分类结果中识别正确的指定识别分类结果;
第四获取单元,用于获取所述指定识别分类结果的第一数量,以及获取所述第一识别分类结果的第二数量;
第二计算单元,用于计算所述第一数量与所述第二数量的比值,并将所述比值作为所述指定分类模型的测试精确度。
本实施例中,上述基于模型的风险识别装置中的第二获取单元、第一输入单元、第三获取单元、第四获取单元与第二计算单元的功能和作用的实现过程具体详见上述基于模型的风险识别方法中对应步骤S600至S604的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二生成模块7,包括:
第五获取单元,用于获取每个所述分类模型的测试精确度;
第二筛选单元,用于对所有所述测试精确度进行数值比较处理,从所有所述测试精确度中筛选出数值最大的目标测试精确度;
第三筛选单元,用于从所有所述分类模型中筛选出与所述目标测试精确度对应的第一目标分类模型;
第二处理单元,用于使用第一目标分类模型对所述待识别特征数据进行识别处理,输出对应的第二识别分类结果;
第二确定单元,用于将所述第二识别分类结果作为与所述目标企业对应的目标识别分类结果。
本实施例中,上述基于模型的风险识别装置中的第五获取单元、第二筛选单元、第三筛选单元、第二处理单元与第二确定单元的功能和作用的实现过程具体详见上述基于模型的风险识别方法中对应步骤S700至S704的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二生成模块7,包括:
第六获取单元,用于获取每个所述分类模型的测试精确度;以及,
第七获取单元,用于获取预设的精确度阈值;
第四筛选单元,用于从所有所述测试精确度中筛选出数值大于所述精确度阈值的指定测试精确度;
第八获取单元,用于获取与各所述指定测试精度分别对应的第二目标分类模型;
第二输入单元,用于将所述待识别特征数据分别输入至各所述第二目标分类模型,获取各所述第二目标分类模型分别输出的与所述待识别特征数据对应的第三识别分类结果;
第三处理单元,用于对所有所述第三识别分类结果进行分析处理,从所有所述第三识别分类结果中筛选出现次数最多的第四识别分类结果;
第三确定单元,用于将所述第四识别分类结果作为所述目标识别分类结果。
本实施例中,上述基于模型的风险识别装置中的第六获取单元、第七获取单元、第四筛选单元、第八获取单元、第二输入单元、第三处理单元与第三确定单元的功能和作用的实现过程具体详见上述基于模型的风险识别方法中对应步骤S710至S716的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于模型的风险识别装置,包括:
预处理模块,用于对所述原始特征数据集合进行数据预处理,得到处理后的原始特征数据集合;
标准化模块,用于对所述处理后的原始特征数据集合进行标准化处理,得到标准化的原始特征数据集合;
上述处理模块2,包括:
第四处理单元,用于调用预设的特征选择算法对所述标准化的原始特征数据集合进行分析处理,从所述标准化的原始特征数据集合中包含的所有特征中筛选出目标特征。
本实施例中,上述基于模型的风险识别装置中的预处理模块、标准化模块与第四处理单元的功能和作用的实现过程具体详见上述基于模型的风险识别方法中对应步骤S100、S101以及S210的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于模型的风险识别装置,包括:
判断模块,用于判断得到的所述目标识别分类结果是否为企业具备虚假注册风险;
第三获取模块,用于若是,获取与所述目标企业对应的企业信息;
第三生成模块,用于基于所述目标识别分类结果与所述企业信息,生成相应的企业预警信息;
第四获取模块,用于获取预设的邮件登录信息,以及获取与目标用户对应的目标邮件地址;
登录模块,用于根据所述邮件登录信息登录至对应的邮件服务器;
发送模块,用于通过所述邮件服务器将所述企业识别信息发送至所述目标邮件地址。
本实施例中,上述基于模型的风险识别装置中的判断模块、第三获取模块、第三生成模块、第四获取模块、登录模块与发送模块的功能和作用的实现过程具体详见上述基于模型的风险识别方法中对应步骤S720至S725的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始特征数据集合、目标特征、目标特征数据、企业类别信息、样本数据集、分类模型、测试精确度以及目标识别分类结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种基于模型的风险识别方法。
上述处理器执行上述基于模型的风险识别方法的步骤:
获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
基于所述目标特征数据与所述企业类别信息构建样本数据集;
基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;
基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于模型的风险识别方法,具体为:
获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
基于所述目标特征数据与所述企业类别信息构建样本数据集;
基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;
基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于模型的风险识别方法,其特征在于,包括:
获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
基于所述目标特征数据与所述企业类别信息构建样本数据集;
基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;
基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
2.根据权利要求1所述的基于模型的风险识别方法,其特征在于,所述调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的步骤,包括:
调用预设的第一特征选择算法对所述原始特征数据集合中的所有原始特征进行特征提取处理,得到提取后的第一特征集合;
调用预设的第二特征选择算法对所述第一特征集合进行特征权重计算,得到所述第一特征集合中每一个特征的特征权重;
获取预设数值阈值与预设权重阈值;
将所有所述特征权重按照数值从大到小的顺序进行排序,并依次累加直至超过所述数值阈值,筛选出未进行累加处理的剩余的特征权重;
获取与所述剩余的特征权重对应的剩余特征,将所述剩余特征从所述第一特征集合中移除,得到移除后的第二特征集合;
判断所述第二特征集合中是否存在小于所述预设权重阈值的指定特征;
若所述第二特征集合中存在小于所述预设权重阈值的指定特征,将所述指定特征从所述第二特征集合中移除,得到移除后的第三特征集合;
将所述第三特征集合中的所有特征作为所述目标特征。
3.根据权利要求1所述的基于模型的风险识别方法,其特征在于,所述基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度的步骤,包括:
获取预设的测试数据集;其中,所述测试数据集包括多个测试数据,以及与各所述测试数据分别对应的类别信息;
分别将各所述测试数据输入至指定分类模型中,获取所述指定分类模型输出的与各所述测试数据分别对应的第一识别分类结果;其中,所述指定分类模型为所有所述分类模型中的任意一个模型;
获取所有所述第一识别分类结果中识别正确的指定识别分类结果;
获取所述指定识别分类结果的第一数量,以及获取所述第一识别分类结果的第二数量;
计算所述第一数量与所述第二数量的比值,并将所述比值作为所述指定分类模型的测试精确度。
4.根据权利要求1所述的基于模型的风险识别方法,其特征在于,所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤,包括:
获取每个所述分类模型的测试精确度;
对所有所述测试精确度进行数值比较处理,从所有所述测试精确度中筛选出数值最大的目标测试精确度;
从所有所述分类模型中筛选出与所述目标测试精确度对应的第一目标分类模型;
使用第一目标分类模型对所述待识别特征数据进行识别处理,输出对应的第二识别分类结果;
将所述第二识别分类结果作为与所述目标企业对应的目标识别分类结果。
5.根据权利要求1所述的基于模型的风险识别方法,其特征在于,所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤,包括:
获取每个所述分类模型的测试精确度;以及,
获取预设的精确度阈值;
从所有所述测试精确度中筛选出数值大于所述精确度阈值的指定测试精确度;
获取与各所述指定测试精度分别对应的第二目标分类模型;
将所述待识别特征数据分别输入至各所述第二目标分类模型,获取各所述第二目标分类模型分别输出的与所述待识别特征数据对应的第三识别分类结果;
对所有所述第三识别分类结果进行分析处理,从所有所述第三识别分类结果中筛选出现次数最多的第四识别分类结果;
将所述第四识别分类结果作为所述目标识别分类结果。
6.根据权利要求1所述的基于模型的风险识别方法,其特征在于,所述获取与企业虚假注册行为相关的原始特征数据集合的步骤之后,包括:
对所述原始特征数据集合进行数据预处理,得到处理后的原始特征数据集合;
对所述处理后的原始特征数据集合进行标准化处理,得到标准化的原始特征数据集合;
所述调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征的步骤,包括:
调用预设的特征选择算法对所述标准化的原始特征数据集合进行分析处理,从所述标准化的原始特征数据集合中包含的所有特征中筛选出目标特征。
7.根据权利要求1所述的基于模型的风险识别方法,其特征在于,所述基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果的步骤之后,包括:
判断得到的所述目标识别分类结果是否为企业具备虚假注册风险;
若是,获取与所述目标企业对应的企业信息;
基于所述目标识别分类结果与所述企业信息,生成相应的企业预警信息;
获取预设的邮件登录信息,以及获取与目标用户对应的目标邮件地址;
根据所述邮件登录信息登录至对应的邮件服务器;
通过所述邮件服务器将所述企业识别信息发送至所述目标邮件地址。
8.一种基于模型的风险识别装置,其特征在于,包括:
第一获取模块,用于获取与企业虚假注册行为相关的原始特征数据集合;其中,所述原始特征数据集合包括多个原始特征数据,每个原始特征数据包括原始特征以及与原始特征对应的特征值;
处理模块,用于调用预设的特征选择算法对所述原始特征数据集合进行分析处理,从所述原始特征数据集合包含的所有原始特征中筛选出目标特征;
第二获取模块,用于获取与目标特征数据对应的企业类别信息;其中,所述目标特征数据为所述原始特征数据中对应于所述目标特征的数据;
构建模块,用于基于所述目标特征数据与所述企业类别信息构建样本数据集;
第一生成模块,用于基于所述样本数据集与输入的预设数量,使用预设的多种分类算法训练生成多个分类模型;其中,对于每种分类算法,基于该分类算法与从所述样本数据集中得到的训练数据集训练生成预设数量个分类模型;对于所述预设数量个分类模型中的每一个分类模型,分别从所述样本数据集中随机挑选出预设比例的部分数据作为该分类模型相应的训练数据集;
测试模块,用于基于预设的测试数据集分别对得到的所有所述分类模型进行测试,得到每个所述分类模型的测试精确度;
第二生成模块,用于基于所有所述测试精确度对所有所述分类模型进行筛选处理得到符合预设条件的目标分类模型,并基于所述目标分类模型对与目标企业对应的待识别特征数据进行识别处理,生成与所述目标企业对应的目标识别分类结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602678.7A CN113327037A (zh) | 2021-05-31 | 2021-05-31 | 基于模型的风险识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602678.7A CN113327037A (zh) | 2021-05-31 | 2021-05-31 | 基于模型的风险识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113327037A true CN113327037A (zh) | 2021-08-31 |
Family
ID=77422839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110602678.7A Pending CN113327037A (zh) | 2021-05-31 | 2021-05-31 | 基于模型的风险识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327037A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901223A (zh) * | 2021-11-19 | 2022-01-07 | 企查查科技有限公司 | 企业分类模型的生成方法、装置、计算机设备、存储介质 |
CN114119203A (zh) * | 2021-11-29 | 2022-03-01 | 平安银行股份有限公司 | 基于人工智能的资源管控方法、装置、电子设备及介质 |
WO2023179133A1 (zh) * | 2022-03-22 | 2023-09-28 | 深圳云天励飞技术股份有限公司 | 一种目标算法的选取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681748A (zh) * | 2018-05-18 | 2018-10-19 | 宝枫生物科技(北京)有限公司 | 判别轻度认知障碍的模型选择处理方法及装置 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
CN111047146A (zh) * | 2019-11-19 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 一种企业用户的风险识别方法、装置及设备 |
CN112270553A (zh) * | 2020-11-09 | 2021-01-26 | 浪潮软件股份有限公司 | 基于孤立森林算法的恶意注册企业行为识别方法及系统 |
-
2021
- 2021-05-31 CN CN202110602678.7A patent/CN113327037A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681748A (zh) * | 2018-05-18 | 2018-10-19 | 宝枫生物科技(北京)有限公司 | 判别轻度认知障碍的模型选择处理方法及装置 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
CN111047146A (zh) * | 2019-11-19 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 一种企业用户的风险识别方法、装置及设备 |
CN112270553A (zh) * | 2020-11-09 | 2021-01-26 | 浪潮软件股份有限公司 | 基于孤立森林算法的恶意注册企业行为识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
王露等: "基于ReliefF + mRMR 特征降维算法的多特征遥感图像分类", 《中国体视学与图像分析》 * |
陈伟珂: "《城市排水官网脆弱性评价及其应用》", 30 September 2019 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901223A (zh) * | 2021-11-19 | 2022-01-07 | 企查查科技有限公司 | 企业分类模型的生成方法、装置、计算机设备、存储介质 |
CN113901223B (zh) * | 2021-11-19 | 2024-01-26 | 企查查科技股份有限公司 | 企业分类模型的生成方法、装置、计算机设备、存储介质 |
CN114119203A (zh) * | 2021-11-29 | 2022-03-01 | 平安银行股份有限公司 | 基于人工智能的资源管控方法、装置、电子设备及介质 |
CN114119203B (zh) * | 2021-11-29 | 2024-07-02 | 平安银行股份有限公司 | 基于人工智能的资源管控方法、装置、电子设备及介质 |
WO2023179133A1 (zh) * | 2022-03-22 | 2023-09-28 | 深圳云天励飞技术股份有限公司 | 一种目标算法的选取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113516297B (zh) | 基于决策树模型的预测方法、装置和计算机设备 | |
WO2021139252A1 (zh) | 运维故障根因识别方法、装置、计算机设备和存储介质 | |
CN113327037A (zh) | 基于模型的风险识别方法、装置、计算机设备和存储介质 | |
CN113177396B (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
CN112527630A (zh) | 测试用例生成方法、装置、计算机设备和存储介质 | |
CN112711757B (zh) | 一种基于大数据平台的数据安全集中管控方法及系统 | |
CN113889262A (zh) | 基于模型的数据预测方法、装置、计算机设备和存储介质 | |
CN114978968B (zh) | 微服务的异常检测方法、装置、计算机设备和存储介质 | |
CN113642039A (zh) | 单证模板的配置方法、装置、计算机设备和存储介质 | |
CN113435517A (zh) | 异常数据点输出方法、装置、计算机设备和存储介质 | |
CN114970926A (zh) | 一种模型训练方法、企业经营风险预测方法和装置 | |
CN113282514A (zh) | 问题数据的处理方法、装置、计算机设备和存储介质 | |
CN114817055A (zh) | 基于接口的回归测试方法、装置、计算机设备和存储介质 | |
CN114237886A (zh) | 任务处理方法、装置、计算机设备和存储介质 | |
CN114036117A (zh) | 日志查看方法、装置、计算机设备和存储介质 | |
CN113656588A (zh) | 基于知识图谱的数据对码方法、装置、设备和存储介质 | |
CN112965981A (zh) | 数据核对方法、装置、计算机设备和存储介质 | |
CN116522171A (zh) | 一种基于大数据的电力现场故障分析方法及系统 | |
CN113535260B (zh) | 基于模拟器的数据处理方法、装置、设备及存储介质 | |
CN113269247B (zh) | 投诉预警模型的训练方法、装置、计算机设备及存储介质 | |
CN112632634B (zh) | 签名数据的处理方法、装置、计算机设备和存储介质 | |
CN114722025A (zh) | 基于预测模型的数据预测方法、装置、设备及存储介质 | |
CN113627551A (zh) | 基于多模型的证件分类方法、装置、设备和存储介质 | |
CN114547053A (zh) | 基于系统的数据处理方法、装置、计算机设备和存储介质 | |
CN113077185A (zh) | 工作量评估方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210831 |
|
RJ01 | Rejection of invention patent application after publication |