CN113487111A - 基于人工智能的风险识别方法、装置、电子设备及介质 - Google Patents
基于人工智能的风险识别方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN113487111A CN113487111A CN202110859365.XA CN202110859365A CN113487111A CN 113487111 A CN113487111 A CN 113487111A CN 202110859365 A CN202110859365 A CN 202110859365A CN 113487111 A CN113487111 A CN 113487111A
- Authority
- CN
- China
- Prior art keywords
- sample
- convex hull
- negative
- hull model
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种基于人工智能的风险识别方法、装置、电子设备及介质,包括:获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中;将所述负样本集划分为训练样本集及测试样本集;在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型;当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值;根据所述风险值识别所述待测样本是否为风险样本。本发明基于一类样本集训练聚类凸包模型,使用聚类凸包模型能够准确且快速的识别风险样本。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于人工智能的风险识别方法、装置、电子设备及介质。
背景技术
空壳企业是指在注册机构登记注册的、没有实体经营、或者缺少实体经营所必需资产的法人实体。由于该类型企业可能通过参与各种买空卖空事件进行经济犯罪,并且通常涉及的资金规模庞大,威胁金融秩序和经济发展。因此,对空壳企业进行准确识别,可以有效降低甚至避免可能引发的洗钱及欺诈风险。
现有技术中,对空壳进行识别,一般通过机器学习训练识别模型,但是这种方法基本上基于两类样本集(正样本集和负样本集)进行训练,导致识别空壳的命中率低,因此,如何提高识别空壳的命中率,是本领域技术人员亟待解决的问题。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的风险识别方法、电子设备及存储介质,基于一类样本集训练聚类凸包模型,从而使用聚类凸包模型能够准确且快速的识别风险样本。
本发明的第一方面提供一种基于人工智能的风险识别方法,所述方法包括:
获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中;
将所述负样本集划分为训练样本集及测试样本集;
在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型;
当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值;
根据所述风险值识别所述待测样本是否为风险样本。
在一个可选的实施方式中,所述在所述特征空间中基于所述训练样本集训练聚类凸包模型包括:
获取所述训练样本集中每个训练样本在所述特征空间中对应的训练样本特征点;
对多个所述训练样本特征点进行遍历,并在每次遍历时任意选取三个训练样本特征点,直至遍历完所有的训练样本特征点;
针对每次遍历到的三个训练样本特征点,判断所述三个训练样本特征点是否在一条直线上;
当所述三个训练样本特征点在一条直线上时,则获取所述三个训练样本特征点中纵坐标最小的点,作为起始点;
对于所述三个训练样本特征点除所述起始点之外的两个点,则分别连接所述起始点与所述两个点得到两条线,并分别计算所述两条线与X轴之间的逆时针方向的夹角;
将所述夹角按照从大到小的顺序进行排序;
对于排序后的三个训练样本特征点,如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则保留当前训练样本特征点,作为聚类凸包模型的顶点;
将所述聚类凸包模型的顶点按照排序的顺序顺次连接,得到聚类凸包模型。
在一个可选的实施方式中,所述在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型包括:
计算落入所述聚类凸包模型内的测试样本的第二数量;
判断所述第二数量阈值是否大于预设第二数量阈值;
当所述第二数量阈值大于预设第二数量阈值时,确定所述聚类凸包模型为最优凸包模型。
在一个可选的实施方式中,在所述获取负样本集中每个负样本的多个维度数据之后,所述方法还包括:
判断所述负样本集的第一数量是否大于预设第一数量阈值;
当所述负样本集的第一数量小于所述预设第一数量阈值时,计算每个所述负样本与所述负样本集中所有负样本之间的距离,得到每个所述负样本的K近邻;
设置采样倍率,并根据所述采样倍率从每个所述负样本的K近邻中选取多个目标样本;
调用样本生成模型基于所述目标样本生成新的负样本,并将所述新的负样本添加至所述负样本集中,得到新的负样本集;
根据所述新的负样本集每个负样本的多个维度数据将所述新的负样本集映射到特征空间中。
在一个可选的实施方式中,所述根据所述最优凸包模型计算待测样本的风险值包括:
获取所述最优凸包模型的聚类中心;
根据所述待测样本的多个维度数据将所述待测样本映射到所述特征空间中;
在所述特征空间中计算所述待测样本与所述聚类中心的目标综合距离;
确定所述目标综合距离为所述待测样本的风险值。
在一个可选的实施方式中,所述根据所述风险值识别所述待测样本是否为风险样本包括:
获取所述最优凸包模型的聚类半径;
判断所述目标综合距离是否小于所述聚类半径;
当所述目标综合距离小于或者等于所述聚类半径时,识别所述待测样本为风险样本。
在一个可选的实施方式中,当所述目标综合距离大于所述聚类半径时,所述方法还包括:
计算所述聚类半径与预设乘法因子的乘积;
判断所述目标综合距离是否大于所述乘积;
当所述目标综合距离小于所述乘积且接收到确定所述待测样本为风险样本的指令时,对所述待测样本进行风险标记;
当有所述风险标记的样本的第三数量大于预设第三数量阈值时,使用有所述风险标记的样本对所述最优凸包模型进行优化,得到新的最优凸包模型。
本发明的第二方面提供一种基于人工智能的风险识别装置,所述装置包括:
映射模块,用于获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中;
划分模块,用于将所述负样本集划分为训练样本集及测试样本集;
训练模块,用于在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的所述聚类凸包模型是否为最优凸包模型;
预测模块,用于当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值;
识别模块,用于根据所述风险值识别所述待测样本是否为风险样本。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于人工智能的风险识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的风险识别方法。
综上所述,本发明所述的基于人工智能的风险识别方法、装置、电子设备及介质,获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中,由于获取的都是负样本,即只采用了一类样本进行训练,避免采集另一类样本的麻烦和防止异常样本的出现,从而在训练开始有效地排除其他类的干扰,能够更准确的估计采集的样本在特征空间上的分布;在将所述负样本集划分为训练样本集及测试样本集之后,在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值,从而根据所述风险值识别所述待测样本是否为风险样本,通过最优凸包模型识别风险样本,识别速度快,且准确度高。
附图说明
图1是本发明实施例一提供的基于人工智能的风险识别方法的流程图。
图2是本发明实施例二提供的基于人工智能的风险识别装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的基于人工智能的风险识别方法由电子设备执行,相应地,基于人工智能的风险识别装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的基于人工智能的风险识别方法的流程图。
本申请实施例可以基于人工智能技术进行风险识别。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
所述基于人工智能的风险识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中。
其中,负样本是指已经被确定为空壳企业的企业。本实施例中,通过获取被确定为空壳企业的企业在多个预先定义的维度上的数据,来识别某一个待测企业是否为空壳企业。
由于将被确定为空壳企业的企业作为负样本,只有一类样本,而识别待测企业是否为空壳企业可以理解为分类问题,即,识别为空壳企业这一类别或者非空壳企业这一类别,因而,本实施借助于单分类问题的思想。即,只采用一类样本进行训练,避免采集另一类样本的麻烦和防止异常样本的出现,从而在训练开始有效地排除其他类的干扰,能够更准确的估计获取的样本在特征空间上的分布。
可以通过网络爬虫的方式从网上获取与空壳企业相关的信息作为样本集的数据。举例而言,可以从如下途径获取相关的信息:工商信息、行政处罚、开庭公告、裁判文书、招投标、司法拍卖、商标注册、空壳被执行、专利、执行等企业正面和负面的信息等。
可以获取每个负样本的五个维度的企业特征数据,所述五个维度包括商事登记维度、人员结构维度、地址信息维度、经营活动和关联方维度。其中,商事登记维度的企业特征数据包括:主体类型、行业门类、注册资本、实缴资本等;人员结构维度的企业特征数据包括:高管人数、从业人数、法人兼高管、法人股份占比等;地址信息维度的企业特征数据包括:行政区划、场所、经都、维度等;经营活动维度的企业特征数据包括:行政许可第一数量、行政处罚次数、商事变更次数、最近报税月份、最近社保月份、最近公积金月份、距离上次年报月份、税收违法、法院判决;关联方维度的企业特征数据包括:上游投资方注吊销比例、下游被投资方注吊销比例等。
假设,每个负样本对应n个维度数据,则特征空间的维度为n维,将n个维度数据的负样本映射到n维的特征空间,是指将负样本映射到高维空间中。
在一个可选的实施方式中,在获取每个负样本的多个维度数据之后,所述方法还包括:
从所述多个维度数据中获取第一目标维度数据;
获取任意相邻的两个所述第一目标维度数据对应的两个目标负样本;
根据所述两个目标负样本的第二目标维度数据标识所述两个目标负样本的第一目标维度数据的权重。
其中,预设第一目标维度数据是预先定义的第一目标维度对应的数据,第二目标维度数据是预先定义的第二目标维度对应的数据。
示例性的,第一目标维度数据可以是行政区划维度数据,第二目标维度数据可以是从业人数数据。假设,负样本A的第一目标维度数据为行政区域1,负样本B的第一目标维度数据为行政区域2,负样本C的第一目标维度数据为行政区域4,则负样本A和负样本B为相邻的两个第一目标维度数据对应的两个目标负样本,负样本A和负样本C不为相邻的两个第一目标维度数据对应的两个目标负样本,负样本B和负样本C不为相邻的两个第一目标维度数据对应的两个目标负样本。若负样本A的第二目标维度数据为从业人数100,负样本B的第二目标维度数据为从业人数500,则标识负样本A的第一目标维度数据的权重为5,标识负样本B的第一目标维度数据为1。
上述实施方式,通过两个负样本的不同目标维度数据,为不同的负样本的目标维度数据标识不同的权重,能够将这两个负样本量化到同一个维度,负样本根据目标维度数据加入相应的权重,每个负样本根据不同的权值对应后续训练聚类凸包模型的贡献不同,从而能够提高聚类凸包模型的鲁棒性。
需要说明的是,上述实施方式仅是举例,还可以预先定义更多个目标维度,从而根据多个目标维度表示一个或者多个目标维度数据的权重。
在一个可选的实施方式中,在获取每个负样本的多个维度数据之后,所述方法还包括:
判断所述负样本集的第一数量是否大于预设第一数量阈值;
当所述负样本集的第一数量小于预设第一数量阈值时,计算每个所述负样本与所述负样本集中所有负样本之间的距离,得到每个所述负样本的K近邻;
设置采样倍率,并根据所述采样倍率从每个所述负样本的K近邻中选取多个目标样本;
调用样本生成模型基于所述目标样本生成新的负样本,并将所述新的负样本添加至所述负样本集中,得到新的负样本集;
根据所述新的负样本集每个负样本的多个维度数据将所述新的负样本集映射到特征空间中。
其中,预设样本第一数量阈值为判断所述负样本集是否为小样本集合的临界值。当负样本集的第一数量小于预设第一数量阈值时,表明负样本集为小样本集合,使用小样本集合训练聚类凸包模型时,容易导致训练得到的聚类凸包模型的鲁棒性较差。因而,需要对负样本集进行扩充处理。
具体而言,对于负样本集中任意一个负样本X,以欧氏距离为标准计算该任意一个负样本到负样本集中所有负样本之间的距离,并将距离进行排序,从而得到该任意一个负样本的K近邻;对于任意一个负样本X,根据采样倍率N从其K近邻中随机选取若干个样本,作为目标样本;对于每一个随机选取的目标样本,分别与对应的负样本按照样本生成模型生成新的负样本。由于负样本集中的样本均为负样本,因而,生成的目标样本必然为负样本,将新的样本添加到负样本集,增加了负样本集的第一数量。
其中,采样倍率N为根据样本不足的比例设置的,样本不足的比例是指负样本集的第一数量与预设第一数量阈值的比值。假设,样本不足的比例为1/2,则设置采样倍率N为2。
其中,样本生成模型可以为Xnew=X+rand(0,1)*(X’-X),Xnew表示生成的新的负样本,X表示负样本,X’表示X对应的目标样本。
通过上述实施方式,可以弥补现有的空壳企业的负样本第一数量较少导致聚类凸包模型训练鲁棒性较差的问题,基于新的负样本集训练得到的聚类凸包模型的鲁棒性较强,另外,根据样本不足的比例设置采样倍率N,根据采样倍率N从其K近邻中随机选取若干个样本,从而生成新的样本,能够避免对负样本集进行过扩充,导致新的负样本集第一数量过多,从而能够避免基于新的负样本集训练得到的聚类凸包模型过拟合问题。
在其他实施方式中,在获取每个负样本的多个维度数据之后,还可以对每个负样本的相同的维度数据进行数据清洗,以提高每个负样本的多个维度数据的数据质量,数据清洗的过程为现有技术,本文不再详细阐述。
S12,将所述负样本集划分为训练样本集及测试样本集。
可以将负样本集按照预设比例,例如,8:2,随机划分为训练样本集和测试样本集,其中,训练样本集用来训练聚类凸包模型,测试样本集用来测试聚类凸包模型的优化程度,从而确定最优聚类凸包模型。
其中,所述负样本集可以是指上述新的负样本集,还可以指标识了权重之后的负样本集,还可以是指对新的样本集标识了权重之后得到的样本集。
S13,在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型。
其中,聚类凸包模型是指包含了特征空间中训练样本集中所有训练样本的最小凸多边形。
首先基于特征空间中训练样本集训练聚类凸包模型,使得训练样本集中的所有训练样本均包含在训练得到的聚类凸包模型中,从而使得训练样本集中的所有训练样本聚为一类。接着基于特征空间中测试样本集对聚类凸包模型进行测试,从而判断测试样本集中的测试样本是否包含在聚类凸包模型中,从而根据测试结果判断聚类凸包模型中是否为最优聚类凸包模型。
在一个可选的实施方式中,所述在所述特征空间中基于所述训练样本集训练聚类凸包模型包括:
获取所述训练样本集中每个训练样本在所述特征空间中对应的训练样本特征点;
对多个所述训练样本特征点进行遍历,并在每次遍历时任意选取三个训练样本特征点,直至遍历完所有的训练样本特征点;
针对每次遍历到的三个训练样本特征点,判断所述三个训练样本特征点是否在一条直线上;
当所述三个训练样本特征点在一条直线上时,则获取所述三个训练样本特征点中纵坐标最小的点,作为起始点;
对于所述三个训练样本特征点除所述起始点之外的两个点,则分别连接所述起始点与所述两个点得到两条线,并分别计算所述两条线与X轴之间的逆时针方向的夹角;
将所述夹角按照从大到小的顺序进行排序;
对于排序后的三个训练样本特征点,如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则保留当前训练样本特征点,作为聚类凸包模型的顶点;
将所述聚类凸包模型的顶点按照排序的顺序顺次连接,得到聚类凸包模型。
该可选的实施方式中,当所述三个训练样本特征点不在一条直线上时,则将所述三个训练样本特征点确定为所述聚类凸包模型的顶点。
如果所述三个训练样本特征点在一条直线上,且所述三个训练样本特征点中纵坐标最小的点不唯一,则获取所述三个训练样本特征点中横坐标最大的点,作为起始点。
可以预先建立一个双链表,在将所述夹角按照从大到小的顺序进行排序之后,将夹角对应的训练样本特征点存入双链表中,得到排序后的训练样本特征点。
如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则当前训练样本特征点为凸点,保留凸点;如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则当前训练样本特征点为凹点,删除凹点。
当双链表中的所有训练样本特征点都被执行完上述过程之后,双链表中保留下来的凸点即为聚类凸包模型的顶点。
上述可选的实施方式中,能够快速的建立聚类凸包模型,且建立的聚类凸包模型包含了训练样本集中的所有训练样本。
在一个可选的实施方式中,所述在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型包括:
计算落入所述聚类凸包模型内的测试样本的第二数量;
判断所述第二数量阈值是否大于预设第二数量阈值;
当所述第二数量阈值大于预设第二数量阈值时,确定所述聚类凸包模型为最优凸包模型;
当所述第二数量阈值小于所述预设第二数量阈值时,更新所述聚类凸包模型。
其中,预设第二数量可以是预设测试通过率与测试样本集的乘积。预设预测通过率可以为99%。
当所述第二数量阈值小于所述预设第二数量阈值时,则重新将所述负样本集划分为新的训练样本集及新的测试样本集,在所述特征空间中基于新的训练样本集训练聚类凸包模型,并在所述特征空间中基于新的测试样本集测试训练后的聚类凸包模型是否为最优凸包模型,直到训练聚类凸包模型为最优凸包模型为止。
需要说明的是,对于所述第二数量阈值等于预设第二数量阈值的情形,即可适用于所述第二数量阈值大于预设第二数量阈值的情形,也可适用于所述第二数量阈值小于所述预设第二数量阈值的情形。
S14,当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值。
在本实施方式中,所述待测样本是指待评估其是否为空壳企业的对象。
将所述待测样本的多个维度数据映射到所述特征空间中得到特征数据,将特征数据输入至所述最优凸包模型中,通过所述最优凸包模型进行预测,得到待测样本为空壳企业的风险值。
风险值越大,表明待测企业为空客企业的概率越大,风险值越小,表明待测企业为空客企业的概率越小。
在一个可选的实施方式中,所述根据所述最优凸包模型计算待测样本的风险值包括:
获取所述最优凸包模型的聚类中心;
根据所述待测样本的多个维度数据将所述待测样本映射到所述特征空间中;
在所述特征空间中计算所述待测样本与所述聚类中心的目标综合距离;
确定所述目标综合距离为所述待测样本的风险值。
其中,最优凸包模型的聚类中心的计算过程可以包括:获取所述最优凸包模型中的负样本的多个维度数据,计算获取的多个维度数据的平均维度数据,将特征空间中平均维度数据对应的特征点作为最优凸包模型的聚类中心。
可以通过计算特征空间中待测样本与聚类中心之间的欧式距离得到目标综合距离,也可以通过计算特征空间中待测样本与聚类中心之间的余弦夹角得到目标综合距离,本发明不做任何限定。
在所述特征空间中所述待测样本与所述聚类中心的目标综合距离越小,表明待测样本越可能被包含在所述最优凸包模型内,则待测样本的风险值就越高。在所述特征空间中所述待测样本与所述聚类中心的目标综合距离越大,表明待测样本越不可能被包含在所述最优凸包模型内,则待测样本的风险值就越低。
S15,根据所述风险值识别所述待测样本是否为风险样本。
风险值越大,则识别待测样本为空壳企业的风险越高,确定待测样本越为风险样本。风险值越小,则识别待测样本为空壳企业的风险越低,确定待测样本越不为风险样本,或者确定待测样本为正常样本。
通过上述实施方式,可以快速根据企业的相关数据信息判断该企业是否为空壳企业,以帮助相关机构根据判断结果做出相应的措施,例如,对待测样本开展监督检查。
在一个可选的实施方式中,所述根据所述风险值识别所述待测样本是否为风险样本包括:
获取所述最优凸包模型的聚类半径;
判断所述目标综合距离是否小于所述聚类半径;
当所述目标综合距离小于或者等于所述聚类半径时,识别所述待测样本为风险样本。
其中,在计算得到最优凸包模型的聚类中心之后,即可计算每个负样本与聚类中心之间的距离,再对每个负样本与聚类中心之间的距离进行平均计算得到的平均距离,可以确定为最优凸包模型的聚类半径。
当待测样本与聚类中心的目标综合距离小于最优凸包模型的聚类半径时,表明待测样本被包含在所述最优凸包模型内,当待测样本与聚类中心的目标综合距离等于最优凸包模型的聚类半径时,表明待测样本刚好包含在所述最优凸包模型内,当待测样本与聚类中心的目标综合距离大于最优凸包模型的聚类半径时,表明待测样本没有被包含在所述最优凸包模型内,待测样本在所述最优凸包模型外。
由于最优凸包模型是通过负样本训练得到的,那么当待测样本被包含在所述最优凸包模型内时,待测样本与用于训练最优凸包模型的负样本具有相同的属性,则待测样本属于负样本,即为空壳企业的风险样本。
在一个可选的实施方式中,当所述目标综合距离大于所述聚类半径时,所述方法还包括:
计算所述聚类半径与预设乘法因子的乘积;
判断所述目标综合距离是否大于所述乘积;
当所述目标综合距离小于所述乘积且接收到确定所述待测样本为风险样本的指令时,对所述待测样本进行风险标记;
当有所述风险标记的样本的第三数量大于预设第三数量阈值时,使用有所述风险标记的样本对所述最优凸包模型进行优化,得到新的最优凸包模型。
其中,预设乘法因子大于1,最优凸包模型的聚类半径与预设乘法因子的乘积大于聚类半径。该乘积用于进一步预测待测样本是否为风险样本,避免对待测样本的误识别。
由于用于训练最优凸包模型的负样本并非穷尽了所有的样本,因而当待测样本与聚类中心的目标综合距离大于最优凸包模型的聚类半径时,并不意味着待测样本一定是非空壳企业,此时,可以将待测样本的多个维度数据发送给监管人员进行人工确认。当人工确认待测样本为空壳企业时,反馈确定所述待测样本为风险样本的指令。当人工确认待测样本不为空壳企业时,反馈确定所述待测样本不为风险样本的指令。
响应于所述待测样本为风险样本的确定指令,计算机设备将待测样本进行风险标记。有所述风险标记的样本的第三数量大于预设第三数量阈值时,则将有所述风险标记的样本添加至所述负样本集中,从而基于添加有所述风险标记的样本的负样本集训练新的聚类凸包模型,实现对原始最优凸包模型的优化。
实施例二
图2是本发明实施例二提供的基于人工智能的风险识别装置的结构图。
在一些实施例中,所述基于人工智能的风险识别装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的风险识别装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的风险识别的功能。
本实施例中,所述基于人工智能的风险识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:映射模块201、标识模块202、采样模块203、划分模块204、训练模块205、预测模块206、识别模块207及优化模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述映射模块201,用于获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中。
其中,负样本是指已经被确定为空壳企业的企业。本实施例中,通过获取被确定为空壳企业的企业在多个预先定义的维度上的数据,来识别某一个待测企业是否为空壳企业。
由于将被确定为空壳企业的企业作为负样本,只有一类样本,而识别待测企业是否为空壳企业可以理解为分类问题,即,识别为空壳企业这一类别或者非空壳企业这一类别,因而,本实施借助于单分类问题的思想。即,只采用一类样本进行训练,避免采集另一类样本的麻烦和防止异常样本的出现,从而在训练开始有效地排除其他类的干扰,能够更准确的估计获取的样本在特征空间上的分布。
可以通过网络爬虫的方式从网上获取与空壳企业相关的信息作为样本集的数据。举例而言,可以从如下途径获取相关的信息:工商信息、行政处罚、开庭公告、裁判文书、招投标、司法拍卖、商标注册、空壳被执行、专利、执行等企业正面和负面的信息等。
可以获取每个负样本的五个维度的企业特征数据,所述五个维度包括商事登记维度、人员结构维度、地址信息维度、经营活动和关联方维度。其中,商事登记维度的企业特征数据包括:主体类型、行业门类、注册资本、实缴资本等;人员结构维度的企业特征数据包括:高管人数、从业人数、法人兼高管、法人股份占比等;地址信息维度的企业特征数据包括:行政区划、场所、经都、维度等;经营活动维度的企业特征数据包括:行政许可第一数量、行政处罚次数、商事变更次数、最近报税月份、最近社保月份、最近公积金月份、距离上次年报月份、税收违法、法院判决;关联方维度的企业特征数据包括:上游投资方注吊销比例、下游被投资方注吊销比例等。
假设,每个负样本对应n个维度数据,则特征空间的维度为n维,将n个维度数据的负样本映射到n维的特征空间,是指将负样本映射到高维空间中。
在一个可选的实施方式中,在获取每个负样本的多个维度数据之后,所述标识模块202,用于:
从所述多个维度数据中获取第一目标维度数据;
获取任意相邻的两个所述第一目标维度数据对应的两个目标负样本;
根据所述两个目标负样本的第二目标维度数据标识所述两个目标负样本的第一目标维度数据的权重。
其中,预设第一目标维度数据是预先定义的第一目标维度对应的数据,第二目标维度数据是预先定义的第二目标维度对应的数据。
示例性的,第一目标维度数据可以是行政区划维度数据,第二目标维度数据可以是从业人数数据。假设,负样本A的第一目标维度数据为行政区域1,负样本B的第一目标维度数据为行政区域2,负样本C的第一目标维度数据为行政区域4,则负样本A和负样本B为相邻的两个第一目标维度数据对应的两个目标负样本,负样本A和负样本C不为相邻的两个第一目标维度数据对应的两个目标负样本,负样本B和负样本C不为相邻的两个第一目标维度数据对应的两个目标负样本。若负样本A的第二目标维度数据为从业人数100,负样本B的第二目标维度数据为从业人数500,则标识负样本A的第一目标维度数据的权重为5,标识负样本B的第一目标维度数据为1。
上述实施方式,通过两个负样本的不同目标维度数据,为不同的负样本的目标维度数据标识不同的权重,能够将这两个负样本量化到同一个维度,负样本根据目标维度数据加入相应的权重,每个负样本根据不同的权值对应后续训练聚类凸包模型的贡献不同,从而能够提高聚类凸包模型的鲁棒性。
需要说明的是,上述实施方式仅是举例,还可以预先定义更多个目标维度,从而根据多个目标维度表示一个或者多个目标维度数据的权重。
在一个可选的实施方式中,在获取每个负样本的多个维度数据之后,所述采样模块203,用于:
判断所述负样本集的第一数量是否大于预设第一数量阈值;
当所述负样本集的第一数量小于预设第一数量阈值时,计算每个所述负样本与所述负样本集中所有负样本之间的距离,得到每个所述负样本的K近邻;
设置采样倍率,并根据所述采样倍率从每个所述负样本的K近邻中选取多个目标样本;
调用样本生成模型基于所述目标样本生成新的负样本,并将所述新的负样本添加至所述负样本集中,得到新的负样本集;
根据所述新的负样本集每个负样本的多个维度数据将所述新的负样本集映射到特征空间中。
其中,预设样本第一数量阈值为判断所述负样本集是否为小样本集合的临界值。当负样本集的第一数量小于预设第一数量阈值时,表明负样本集为小样本集合,使用小样本集合训练聚类凸包模型时,容易导致训练得到的聚类凸包模型的鲁棒性较差。因而,需要对负样本集进行扩充处理。
具体而言,对于负样本集中任意一个负样本X,以欧氏距离为标准计算该任意一个负样本到负样本集中所有负样本之间的距离,并将距离进行排序,从而得到该任意一个负样本的K近邻;对于任意一个负样本X,根据采样倍率N从其K近邻中随机选取若干个样本,作为目标样本;对于每一个随机选取的目标样本,分别与对应的负样本按照样本生成模型生成新的负样本。由于负样本集中的样本均为负样本,因而,生成的目标样本必然为负样本,将新的样本添加到负样本集,增加了负样本集的第一数量。
其中,采样倍率N为根据样本不足的比例设置的,样本不足的比例是指负样本集的第一数量与预设第一数量阈值的比值。假设,样本不足的比例为1/2,则设置采样倍率N为2。
其中,样本生成模型可以为Xnew=X+rand(0,1)*(X’-X),Xnew表示生成的新的负样本,X表示负样本,X’表示X对应的目标样本。
通过上述实施方式,可以弥补现有的空壳企业的负样本第一数量较少导致聚类凸包模型训练鲁棒性较差的问题,基于新的负样本集训练得到的聚类凸包模型的鲁棒性较强,另外,根据样本不足的比例设置采样倍率N,根据采样倍率N从其K近邻中随机选取若干个样本,从而生成新的样本,能够避免对负样本集进行过扩充,导致新的负样本集第一数量过多,从而能够避免基于新的负样本集训练得到的聚类凸包模型过拟合问题。
在其他实施方式中,在获取每个负样本的多个维度数据之后,还可以对每个负样本的相同的维度数据进行数据清洗,以提高每个负样本的多个维度数据的数据质量,数据清洗的过程为现有技术,本文不再详细阐述。
所述划分模块204,用于将所述负样本集划分为训练样本集及测试样本集。
可以将负样本集按照预设比例,例如,8:2,随机划分为训练样本集和测试样本集,其中,训练样本集用来训练聚类凸包模型,测试样本集用来测试聚类凸包模型的优化程度,从而确定最优聚类凸包模型。
其中,所述负样本集可以是指上述新的负样本集,还可以指标识了权重之后的负样本集,还可以是指对新的样本集标识了权重之后得到的样本集。
所述训练模块205,用于在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型。
其中,聚类凸包模型是指包含了特征空间中训练样本集中所有训练样本的最小凸多边形。
首先基于特征空间中训练样本集训练聚类凸包模型,使得训练样本集中的所有训练样本均包含在训练得到的聚类凸包模型中,从而使得训练样本集中的所有训练样本聚为一类。接着基于特征空间中测试样本集对聚类凸包模型进行测试,从而判断测试样本集中的测试样本是否包含在聚类凸包模型中,从而根据测试结果判断聚类凸包模型中是否为最优聚类凸包模型。
在一个可选的实施方式中,所述训练模块205在所述特征空间中基于所述训练样本集训练聚类凸包模型包括:
获取所述训练样本集中每个训练样本在所述特征空间中对应的训练样本特征点;
对多个所述训练样本特征点进行遍历,并在每次遍历时任意选取三个训练样本特征点,直至遍历完所有的训练样本特征点;
针对每次遍历到的三个训练样本特征点,判断所述三个训练样本特征点是否在一条直线上;
当所述三个训练样本特征点在一条直线上时,则获取所述三个训练样本特征点中纵坐标最小的点,作为起始点;
对于所述三个训练样本特征点除所述起始点之外的两个点,则分别连接所述起始点与所述两个点得到两条线,并分别计算所述两条线与X轴之间的逆时针方向的夹角;
将所述夹角按照从大到小的顺序进行排序;
对于排序后的三个训练样本特征点,如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则保留当前训练样本特征点,作为聚类凸包模型的顶点;
将所述聚类凸包模型的顶点按照排序的顺序顺次连接,得到聚类凸包模型。
该可选的实施方式中,当所述三个训练样本特征点不在一条直线上时,则将所述三个训练样本特征点确定为所述聚类凸包模型的顶点。
如果所述三个训练样本特征点在一条直线上,且所述三个训练样本特征点中纵坐标最小的点不唯一,则获取所述三个训练样本特征点中横坐标最大的点,作为起始点。
可以预先建立一个双链表,在将所述夹角按照从大到小的顺序进行排序之后,将夹角对应的训练样本特征点存入双链表中,得到排序后的训练样本特征点。
如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则当前训练样本特征点为凸点,保留凸点;如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则当前训练样本特征点为凹点,删除凹点。
当双链表中的所有训练样本特征点都被执行完上述过程之后,双链表中保留下来的凸点即为聚类凸包模型的顶点。
上述可选的实施方式中,能够快速的建立聚类凸包模型,且建立的聚类凸包模型包含了训练样本集中的所有训练样本。
在一个可选的实施方式中,所述训练模块205在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型包括:
计算落入所述聚类凸包模型内的测试样本的第二数量;
判断所述第二数量阈值是否大于预设第二数量阈值;
当所述第二数量阈值大于预设第二数量阈值时,确定所述聚类凸包模型为最优凸包模型;
当所述第二数量阈值小于所述预设第二数量阈值时,更新所述聚类凸包模型。
其中,预设第二数量可以是预设测试通过率与测试样本集的乘积。预设预测通过率可以为99%。
当所述第二数量阈值小于所述预设第二数量阈值时,则重新将所述负样本集划分为新的训练样本集及新的测试样本集,在所述特征空间中基于新的训练样本集训练聚类凸包模型,并在所述特征空间中基于新的测试样本集测试训练后的聚类凸包模型是否为最优凸包模型,直到训练聚类凸包模型为最优凸包模型为止。
需要说明的是,对于所述第二数量阈值等于预设第二数量阈值的情形,即可适用于所述第二数量阈值大于预设第二数量阈值的情形,也可适用于所述第二数量阈值小于所述预设第二数量阈值的情形。
所述预测模块206,用于当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值。
在本实施方式中,所述待测样本是指待评估其是否为空壳企业的对象。
将所述待测样本的多个维度数据映射到所述特征空间中得到特征数据,将特征数据输入至所述最优凸包模型中,通过所述最优凸包模型进行预测,得到待测样本为空壳企业的风险值。
风险值越大,表明待测企业为空客企业的概率越大,风险值越小,表明待测企业为空客企业的概率越小。
在一个可选的实施方式中,所述预测模块206根据所述最优凸包模型计算待测样本的风险值包括:
获取所述最优凸包模型的聚类中心;
根据所述待测样本的多个维度数据将所述待测样本映射到所述特征空间中;
在所述特征空间中计算所述待测样本与所述聚类中心的目标综合距离;
确定所述目标综合距离为所述待测样本的风险值。
其中,最优凸包模型的聚类中心的计算过程可以包括:获取所述最优凸包模型中的负样本的多个维度数据,计算获取的多个维度数据的平均维度数据,将特征空间中平均维度数据对应的特征点作为最优凸包模型的聚类中心。
可以通过计算特征空间中待测样本与聚类中心之间的欧式距离得到目标综合距离,也可以通过计算特征空间中待测样本与聚类中心之间的余弦夹角得到目标综合距离,本发明不做任何限定。
在所述特征空间中所述待测样本与所述聚类中心的目标综合距离越小,表明待测样本越可能被包含在所述最优凸包模型内,则待测样本的风险值就越高。在所述特征空间中所述待测样本与所述聚类中心的目标综合距离越大,表明待测样本越不可能被包含在所述最优凸包模型内,则待测样本的风险值就越低。
所述识别模块207,用于根据所述风险值识别所述待测样本是否为风险样本。
风险值越大,则识别待测样本为空壳企业的风险越高,确定待测样本越为风险样本。风险值越小,则识别待测样本为空壳企业的风险越低,确定待测样本越不为风险样本,或者确定待测样本为正常样本。
通过上述实施方式,可以快速根据企业的相关数据信息判断该企业是否为空壳企业,以帮助相关机构根据判断结果做出相应的措施,例如,对待测样本开展监督检查。
在一个可选的实施方式中,所述识别模块207根据所述风险值识别所述待测样本是否为风险样本包括:
获取所述最优凸包模型的聚类半径;
判断所述目标综合距离是否小于所述聚类半径;
当所述目标综合距离小于或者等于所述聚类半径时,识别所述待测样本为风险样本。
其中,在计算得到最优凸包模型的聚类中心之后,即可计算每个负样本与聚类中心之间的距离,再对每个负样本与聚类中心之间的距离进行平均计算得到的平均距离,可以确定为最优凸包模型的聚类半径。
当待测样本与聚类中心的目标综合距离小于最优凸包模型的聚类半径时,表明待测样本被包含在所述最优凸包模型内,当待测样本与聚类中心的目标综合距离等于最优凸包模型的聚类半径时,表明待测样本刚好包含在所述最优凸包模型内,当待测样本与聚类中心的目标综合距离大于最优凸包模型的聚类半径时,表明待测样本没有被包含在所述最优凸包模型内,待测样本在所述最优凸包模型外。
由于最优凸包模型是通过负样本训练得到的,那么当待测样本被包含在所述最优凸包模型内时,待测样本与用于训练最优凸包模型的负样本具有相同的属性,则待测样本属于负样本,即为空壳企业的风险样本。
在一个可选的实施方式中,当所述目标综合距离大于所述聚类半径时,所述优化模块208,用于:
计算所述聚类半径与预设乘法因子的乘积;
判断所述目标综合距离是否大于所述乘积;
当所述目标综合距离小于所述乘积且接收到确定所述待测样本为风险样本的指令时,对所述待测样本进行风险标记;
当有所述风险标记的样本的第三数量大于预设第三数量阈值时,使用有所述风险标记的样本对所述最优凸包模型进行优化,得到新的最优凸包模型。
其中,预设乘法因子大于1,最优凸包模型的聚类半径与预设乘法因子的乘积大于聚类半径。该乘积用于进一步预测待测样本是否为风险样本,避免对待测样本的误识别。
由于用于训练最优凸包模型的负样本并非穷尽了所有的样本,因而当待测样本与聚类中心的目标综合距离大于最优凸包模型的聚类半径时,并不意味着待测样本一定是非空壳企业,此时,可以将待测样本的多个维度数据发送给监管人员进行人工确认。当人工确认待测样本为空壳企业时,反馈确定所述待测样本为风险样本的指令。当人工确认待测样本不为空壳企业时,反馈确定所述待测样本不为风险样本的指令。
响应于所述待测样本为风险样本的确定指令,计算机设备将待测样本进行风险标记。有所述风险标记的样本的第三数量大于预设第三数量阈值时,则将有所述风险标记的样本添加至所述负样本集中,从而基于添加有所述风险标记的样本的负样本集训练新的聚类凸包模型,实现对原始最优凸包模型的优化。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于人工智能的风险识别方法实施例中的步骤,例如图1所示的S11-S15:
S11,获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中;
S12,将所述负样本集划分为训练样本集及测试样本集;
S13,在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型;
S14,当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值;
S15,根据所述风险值识别所述待测样本是否为风险样本。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-208。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的风险识别方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的风险识别方法的全部或者部分步骤;或者实现基于人工智能的风险识别装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的风险识别方法,其特征在于,所述方法包括:
获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中;
将所述负样本集划分为训练样本集及测试样本集;
在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型;
当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值;
根据所述风险值识别所述待测样本是否为风险样本。
2.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述在所述特征空间中基于所述训练样本集训练聚类凸包模型包括:
获取所述训练样本集中每个训练样本在所述特征空间中对应的训练样本特征点;
对多个所述训练样本特征点进行遍历,并在每次遍历时任意选取三个训练样本特征点,直至遍历完所有的训练样本特征点;
针对每次遍历到的三个训练样本特征点,判断所述三个训练样本特征点是否在一条直线上;
当所述三个训练样本特征点在一条直线上时,则获取所述三个训练样本特征点中纵坐标最小的点,作为起始点;
对于所述三个训练样本特征点除所述起始点之外的两个点,则分别连接所述起始点与所述两个点得到两条线,并分别计算所述两条线与X轴之间的逆时针方向的夹角;
将所述夹角按照从大到小的顺序进行排序;
对于排序后的三个训练样本特征点,如果上一个训练样本特征点到当前训练样本特征点的连线与当前训练样本特征点到下一个训练样本特征点的连线构成的夹角小于180°,则保留当前训练样本特征点,作为聚类凸包模型的顶点;
将所述聚类凸包模型的顶点按照排序的顺序顺次连接,得到聚类凸包模型。
3.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述在所述特征空间中基于所述测试样本集测试训练后的聚类凸包模型是否为最优凸包模型包括:
计算落入所述聚类凸包模型内的测试样本的第二数量;
判断所述第二数量阈值是否大于预设第二数量阈值;
当所述第二数量阈值大于预设第二数量阈值时,确定所述聚类凸包模型为最优凸包模型。
4.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,在所述获取负样本集中每个负样本的多个维度数据之后,所述方法还包括:
判断所述负样本集的第一数量是否大于预设第一数量阈值;
当所述负样本集的第一数量小于所述预设第一数量阈值时,计算每个所述负样本与所述负样本集中所有负样本之间的距离,得到每个所述负样本的K近邻;
设置采样倍率,并根据所述采样倍率从每个所述负样本的K近邻中选取多个目标样本;
调用样本生成模型基于所述目标样本生成新的负样本,并将所述新的负样本添加至所述负样本集中,得到新的负样本集;
根据所述新的负样本集每个负样本的多个维度数据将所述新的负样本集映射到特征空间中。
5.如权利要求1至4中任意一项所述的基于人工智能的风险识别方法,其特征在于,所述根据所述最优凸包模型计算待测样本的风险值包括:
获取所述最优凸包模型的聚类中心;
根据所述待测样本的多个维度数据将所述待测样本映射到所述特征空间中;
在所述特征空间中计算所述待测样本与所述聚类中心的目标综合距离;
确定所述目标综合距离为所述待测样本的风险值。
6.如权利要求5所述的基于人工智能的风险识别方法,其特征在于,所述根据所述风险值识别所述待测样本是否为风险样本包括:
获取所述最优凸包模型的聚类半径;
判断所述目标综合距离是否小于所述聚类半径;
当所述目标综合距离小于或者等于所述聚类半径时,识别所述待测样本为风险样本。
7.如权利要求6所述的基于人工智能的风险识别方法,其特征在于,当所述目标综合距离大于所述聚类半径时,所述方法还包括:
计算所述聚类半径与预设乘法因子的乘积;
判断所述目标综合距离是否大于所述乘积;
当所述目标综合距离小于所述乘积且接收到确定所述待测样本为风险样本的指令时,对所述待测样本进行风险标记;
当有所述风险标记的样本的第三数量大于预设第三数量阈值时,使用有所述风险标记的样本对所述最优凸包模型进行优化,得到新的最优凸包模型。
8.一种基于人工智能的风险识别装置,其特征在于,所述装置包括:
映射模块,用于获取负样本集中每个负样本的多个维度数据,并根据每个负样本的多个维度数据将所述负样本集映射到特征空间中;
划分模块,用于将所述负样本集划分为训练样本集及测试样本集;
训练模块,用于在所述特征空间中基于所述训练样本集训练聚类凸包模型,并在所述特征空间中基于所述测试样本集测试训练后的所述聚类凸包模型是否为最优凸包模型;
预测模块,用于当测试所述训练后的聚类凸包模型为最优凸包模型时,使用所述最优凸包模型预测待测样本的风险值;
识别模块,用于根据所述风险值识别所述待测样本是否为风险样本。
9.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于人工智能的风险识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于人工智能的风险识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859365.XA CN113487111A (zh) | 2021-07-28 | 2021-07-28 | 基于人工智能的风险识别方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859365.XA CN113487111A (zh) | 2021-07-28 | 2021-07-28 | 基于人工智能的风险识别方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113487111A true CN113487111A (zh) | 2021-10-08 |
Family
ID=77944279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110859365.XA Pending CN113487111A (zh) | 2021-07-28 | 2021-07-28 | 基于人工智能的风险识别方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487111A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840750A (zh) * | 2022-04-26 | 2022-08-02 | 北京金堤科技有限公司 | 模型的构建方法、关系的确定方法、装置、介质及设备 |
-
2021
- 2021-07-28 CN CN202110859365.XA patent/CN113487111A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840750A (zh) * | 2022-04-26 | 2022-08-02 | 北京金堤科技有限公司 | 模型的构建方法、关系的确定方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950738A (zh) | 机器学习模型优化效果评估方法、装置、终端及存储介质 | |
CN113592019A (zh) | 基于多模型融合的故障检测方法、装置、设备及介质 | |
CN112016905B (zh) | 基于审批流程的信息展示方法、装置、电子设备及介质 | |
CN111950625A (zh) | 基于人工智能的风险识别方法、装置、计算机设备及介质 | |
CN113570286B (zh) | 基于人工智能的资源分配方法、装置、电子设备及介质 | |
CN112396547B (zh) | 基于无监督学习的课程推荐方法、装置、设备及介质 | |
CN114663223A (zh) | 基于人工智能的信用风险评估方法、装置及相关设备 | |
CN113435998A (zh) | 贷款逾期预测方法、装置、电子设备及存储介质 | |
CN114399212A (zh) | 生态环境质量评估方法、装置、电子设备及存储介质 | |
CN114240162A (zh) | 人员调度方法、装置、设备及存储介质 | |
CN115081538A (zh) | 基于机器学习的客户关系识别方法、装置、设备及介质 | |
CN113256108A (zh) | 人力资源分配方法、装置、电子设备及存储介质 | |
CN112950344A (zh) | 数据评估方法、装置、电子设备及存储介质 | |
CN114219023A (zh) | 数据聚类方法、装置、电子设备及可读存储介质 | |
CN112288371A (zh) | 通关检验方法、装置、电子设备及计算机可读存储介质 | |
CN114880449A (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN113487111A (zh) | 基于人工智能的风险识别方法、装置、电子设备及介质 | |
CN112818028B (zh) | 数据指标筛选方法、装置、计算机设备及存储介质 | |
CN113313211A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN116562894A (zh) | 车险理赔欺诈风险识别方法、装置、电子设备及存储介质 | |
CN111651452A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN115271821A (zh) | 网点分布处理方法、装置、计算机设备及存储介质 | |
CN115222549A (zh) | 风险评估处理方法、装置、计算机设备及存储介质 | |
CN115471215A (zh) | 一种业务流程处理方法及装置 | |
CN114881313A (zh) | 基于人工智能的行为预测方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |