CN115860874A - 一种家装公司异常识别模型建立方法及其应用 - Google Patents
一种家装公司异常识别模型建立方法及其应用 Download PDFInfo
- Publication number
- CN115860874A CN115860874A CN202211651781.1A CN202211651781A CN115860874A CN 115860874 A CN115860874 A CN 115860874A CN 202211651781 A CN202211651781 A CN 202211651781A CN 115860874 A CN115860874 A CN 115860874A
- Authority
- CN
- China
- Prior art keywords
- home decoration
- data
- company
- model
- decoration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种家装公司异常识别模型建立方法及其应用,其中家装公司异常识别模型建立方法包括步骤:获取历史的家装公司风险相关的基本数据和家装交易订单相关的订单数据,基本数据包括人相关数据和公司相关数据,人相关数据包括家装公司的企业主和员工的信息数据;基于每种装修类型和房屋类型对应的订单数据中的装修价格,构建样本空间,基于样本空间,构建LOF模型;对每种装修类型和房屋类型对应的基本数据和订单数据划分训练集和测试集,训练集中的数据均为正常样本;构建自编码器模型,使用训练集对自编码器模型进行训练,使用测试集对自编码器模型的泛化性进行验证;将LOF模型和训练后的自编码器模型作为家装公司异常识别模型。
Description
技术领域
本申请涉及计算机信息处理技术领域,具体涉及一种家装公司异常识别模型建立方法及其应用。
背景技术
在家装领域,一般家装订单涉及金额比较高,家装公司的风险也比较高,如施工前工程项目遗漏、材料以次充好,施工环节偷工减料等,这些问题给客户带来了金钱、时间的损失,极端情况下,家装公司跑路更使得客户损失惨重。对于家装公司存在的这些交易中存在的风险进行提前识别判断,有助于从技术方面更好地预防以上欺诈风险,
目前关于家装的发明专利集中在家装公司、流程系统的设计,或者家装的设备、材料的创新上,对于家装中金融方面,尤其是可以检测家装价格异常的方法较少,且异常风险识别一般使用单一算法模型,造成异常风险识别误差高、识别效率低。
发明内容
本申请实施例的目的在于提供一种家装公司异常识别模型建立方法及其应用,用以解决现有技术中对金融方面的家装公司的异常风险识别方法较少,且识别误差高、识别效率低的问题。
为实现上述目的,本申请实施例提供一种家装公司异常识别模型建立方法,包括步骤:获取历史的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;
基于每种装修类型和房屋类型对应的所述订单数据中的装修价格,构建样本空间,基于所述样本空间,构建LOF模型;
对每种装修类型和房屋类型对应的所述基本数据和所述订单数据划分训练集和测试集,所述训练集中的数据均为正常样本;
构建自编码器模型,使用所述训练集对所述自编码器模型进行训练,使用所述测试集对所述自编码器模型的泛化性进行验证;
将所述LOF模型和训练后的所述自编码器模型作为所述家装公司异常识别模型。
可选地,构建所述LOF模型的方法包括:
对所述样本空间进行去重,分别得到每一个样本点到所述样本空间中其余所述样本点的距离,对所述距离进行排序;
基于制定的近邻样本个数K,寻找每个所述样本点的K近邻样本点,获取所述样本点的LOF分数;
设置排序后的所述LOF分数的分位数阈值,将超过该分位数阈值的LOF分数所对应的所述家装交易订单标记为异常订单。
可选地,构建所述自编码器模型的方法包括:
构建对应的神经网络,所述神经网络包括编码器、中间层编码和解码器,所述编码器的神经元个数与所述训练集输入变量的个数相同,所述中间层编码预设三个所述神经元,所述神经网络的激活函数为Elu。
可选地,在构建所述自编码器模型之前,还包括:
对所述训练集和所述测试集进行最大最小归一化处理,所述训练集和所述测试集中的分类变量进行独热编码处理。
可选地,在获取所述基本数据和所述订单数据之后,构建所述LOF模型和所述自编码器模型之前,还包括:
对所述基本数据和所述订单数据进行结构化处理,包括以所述订单数据中的订单ID为主键,关联所述基本数据。
可选地,所述人相关数据包括:法定代表人征信数据、名下关联公司数、法定代表人负面信息、企业员工数和/或缴纳社保员工数;
所述公司相关数据包括:公司注册资本金、实缴资本金;年营业金额、年营业笔数、最近一年营业金额、最近一年营业笔数、最近一年完成装修笔数、近一年装修面积、近一年装修单价、近一年装修业务小区均价、公司成立年数和/或公司缴税金额;
所述订单数据包括:所述订单ID、装修公司、装修缴费距今时间、装修价格、近一年房屋所在小区平均每平米房屋成交价格和/或装修房屋面积。
为实现上述目的,本申请还提供一种一种家装公司异常识别方法,包括:获取待异常识别的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;
将所述订单数据中的装修价格输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述LOF模型中,获得对应的LOF分数的分位数,基于预设分位数阈值判断是否标记为第一异常;
将所述基本数据和所述订单数据输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述自编码模型中,获取所述自编码器模型的输入数据和输出数据之间的误差,基于所述误差的预设范围,判断是否标记为第二异常;
基于所述第一异常和所述第二异常的标记,对所述家装交易订单和对应的所述家装公司执行相应的操作。
可选地,还包括:当同时获得所述第一异常和所述第二异常的标记时,对所述家装交易订单和对应的所述家装公司进行预警,并结合风控策略进行处置;
当仅获得所述第一异常或所述第二异常的标记时,将所述家装交易订单和对应的所述家装公司计入重点监控名单,并结合所述风控策略进行处置。
为实现上述目的,本申请还提供一种家装公司异常识别装置,包括:存储器;以及
与所述存储器连接的处理器,所述处理器被配置成:
获取待异常识别的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;
将所述订单数据中的装修价格输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述LOF模型中,获得对应的LOF分数的分位数,基于预设分位数阈值判断是否标记为第一异常;
将所述基本数据和所述订单数据输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述自编码模型中,获取所述自编码器模型的输入数据和输出数据之间的误差,基于所述误差的预设范围,判断是否标记为第二异常;
基于所述第一异常和所述第二异常的标记,对所述家装交易订单和对应的所述家装公司执行相应的操作。
为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
本申请实施例具有如下优点:
本申请实施例提供一种家装公司异常识别模型建立方法,包括步骤:获取历史的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;基于每种装修类型和房屋类型对应的所述订单数据中的装修价格,构建样本空间,基于所述样本空间,构建LOF模型;对每种装修类型和房屋类型对应的所述基本数据和所述订单数据划分训练集和测试集,所述训练集中的数据均为正常样本;构建自编码器模型,使用所述训练集对所述自编码器模型进行训练,使用所述测试集对所述自编码器模型的泛化性进行验证;将所述LOF模型和训练后的所述自编码器模型作为所述家装公司异常识别模型。
通过上述方法,对家装价格相关数据进行整理,并基于LOF与自编码器算法进行融合,根据两个模型融合后的结果对家装价格进行异常检测,通过价格异常的检测和监控来防范交易风险,帮助银行等家装的金融合作机构进行风险防控,可以增加模型的可靠性,减少识别误差,提高识别效率。
附图说明
为了更清楚地说明本申请的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种家装公司异常识别模型建立方法的流程图;
图2为本申请实施例提供的一种家装公司异常识别方法的流程图;
图3为本申请实施例提供的一种家装公司异常识别装置的模块框图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本申请一实施例提供一种家装公司异常识别模型建立方法,参考图1,图1为本申请的一实施方式中提供的一种家装公司异常识别模型建立方法的流程图,应当理解的是,该方法还可以包括未示出的附加框和/或可以省略所示出的框,本申请的范围在此方面不受限制。
在步骤101处,获取历史的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据。
在一些实施例中,所述人相关数据包括:
法定代表人征信数据、名下关联公司数、法定代表人负面信息、企业员工数和/或缴纳社保员工数。
在一些实施例中,所述公司相关数据包括:
公司注册资本金、实缴资本金;年营业金额、年营业笔数、最近一年营业金额、最近一年营业笔数、最近一年完成装修笔数、近一年装修面积、近一年装修单价、近一年装修业务小区均价、公司成立年数和/或公司缴税金额。
在一些实施例中,所述订单数据包括:
所述订单ID、装修公司、装修缴费距今时间、装修价格、近一年房屋所在小区平均每平米房屋成交价格和/或装修房屋面积。
具体地,对与家装公司风险相关的历史数据进行收集整理,数据包括人、公司和交易。
人相关数据:主要是家装公司企业主和员工信息数据,包括:①企业法定代表人信息:法定代表人征信数据、名下关联公司数,负面信息(个人法院失信执行人案件数量(主借人)、个人法院记录总数、网贷借款状态、贷款笔数、逾期次数等);②员工信息数据:企业员工数、缴纳社保员工数等;
公司相关数据:公司注册资本金(单位:万元)、实缴资本金(单位:万元);年营业金额、年营业笔数、最近一年营业金额、最近一年营业笔数、最近一年完成装修笔数、近一年装修面积(最大值、最小值、中位数、平均数),近一年装修单价(最大值、最小值、中位数、平均数)等;近一年装修业务小区均价;公司成立年数;公司缴税金额等;
该笔订单数据:装修订单ID、装修公司、装修缴费距今时间、装修价格(万元)、近一年房屋所在小区平均每平米房屋成交价格、装修房屋面积(平米)。
在一些实施例中,在获取历史的所述基本数据和所述订单数据之后,还包括:
对所述基本数据和所述订单数据进行结构化处理,包括以所述订单数据中的订单ID为主键,关联所述基本数据。
具体地,对历史数据进行结构化处理。以每笔成交订单ID为主键,并关联人相关数据和家装公司相关数据,进行数据的预处理。包括格式、单位的统一、数据清洗、归一化处理。
在步骤102处,基于每种装修类型和房屋类型对应的所述订单数据中的装修价格,构建样本空间,基于所述样本空间,构建LOF模型。
具体地,对于每种装修类型+房屋类型对应的历史数据,使用LOF离群因子检测算法计算装修价格异常程度。
LOF算法即离群因子异常检测算法是一种基于密度的异常检测算法,它对每个数据点都分配一个离散度,可以对数据点的异常程度进行排序,并可根据设置阈值来判断点是否异常。是一种检测精度较高且比较灵活的异常检测算法。
在一些实施例中,构建所述LOF模型的方法包括:
对所述样本空间进行去重,分别得到每一个样本点到所述样本空间中其余所述样本点的距离,对所述距离进行排序;
基于制定的近邻样本个数K,寻找每个所述样本点的K近邻样本点,获取所述样本点的LOF分数;
设置排序后的所述LOF分数的分位数阈值,将超过该分位数阈值的LOF分数所对应的所述家装交易订单标记为异常订单。
具体地,LOF(局部离群因子)离群因子检测算法将每一个样本到其k近邻样本的距离量化为局部可达密度。算法步骤如下:
①对样本空间进行去重,分别计算每一个样本点到样本空间内其余样本点的距离;
②将步骤①中的距离按照上升排序;
③制定近邻样本个数K,对每个样本点,寻找其K近邻样本点,并计算LOF分数,作为异常分数;LOF分数值越大,该数据越异常;LOF分数值越小,数据越正常;
④根据LOF离群因子检测算法计算出LOF分数,此分数即为异常得分。在一些实施例中,保留异常分在0.9分位数(分位数阈值)以下的样本作为正常样本,0.9分位数以上的样本为异常样本,该部分对应的装修订单即为异常订单,并标记为“异常_LOF”。
在步骤103处,对每种装修类型和房屋类型对应的所述基本数据和所述订单数据划分训练集和测试集,所述训练集中的数据均为正常样本。
具体地,划分训练集和测试集,保证训练集中的数据全部为正常样本,即不存在欺诈样本,选择10%的数据作为测试集。
在一些实施例中,在构建所述自编码器模型之前,还包括:
对所述训练集和所述测试集进行最大最小归一化处理,所述训练集和所述测试集中的分类变量进行独热编码处理。
在步骤104处,构建自编码器模型,使用所述训练集对所述自编码器模型进行训练,使用所述测试集对所述自编码器模型的泛化性进行验证。
具体地,对于每种装修类型+房屋类型对应的历史数据,使用Antoencoder算法进行家装异常识别。
Autoencoder(自编码器)算法是一种无监督学习算法,它基于反向传播算法和最优化方法,利用输入数据本身作为监督,使用和神经网络学习映射关系,将高维度输入数据编码成低维度的和隐变量,从而使神经网络学习到最有信息量的特征;再通过解码器将隐藏层的变量进行初始维度还原,通过比较还原后的输入与原始输入之间的的差异,进行异常识别。该差异阈值可自行定义,整个学习过程是一种非线性的降维,泛化性强,且无监督不需要数据标注,避免了小样本事件的欺诈样本积累困难,能有效帮助银行等家装公司的金融合作机构进行风险防控。
在一些实施例中,构建所述自编码器模型的方法包括:
构建对应的神经网络,所述神经网络包括编码器、中间层编码和解码器,所述编码器的神经元个数与所述训练集输入变量的个数相同,所述中间层编码预设三个所述神经元,所述神经网络的激活函数为Elu。
训练模型,根据以上设置的Autoencoder模型对训练集进行训练,同时使用测试集验证模型的泛化性。
在一些实施例中,还包括:模型误差范围计算:计算以上训练集训练完输出数据与输入数据的误差,默认可以选择使用MAE(平均绝对误差),设置最大MAE为阈值范围(预设范围),当根据训练好的模型得到新的数据输出与数据输入的MAE大于正常数据阈值(预设范围)时,认为是异常值,否则是正常值。MAE:即平均绝对值误差,它表示预测值和观测值之间绝对误差的平均值。
将异常值标记为“异常_auctoencoder”。
在步骤105中,将所述LOF模型和训练后的所述自编码器模型作为所述家装公司异常识别模型。
具体地,所述LOF模型用于使用LOF算法对不同类型装修的结构化数据计算LOF分数,并设置阈值得到对应的异常装修数据,标记为“异常_LOF”;所述自编码器模型用于使用Autoencoder模型计算样本MAE阈值,根据设置的该阈值判断新样本是否为异常数据,并将异常值标记为“异常_auctoencoder”。
本申请一实施例提供一种家装公司异常识别方法,参考图2,图2为本申请的一实施方式中提供的一种家装公司异常识别方法的流程图,应当理解的是,该方法还可以包括未示出的附加框和/或可以省略所示出的框,本申请的范围在此方面不受限制。
在步骤201处,获取待异常识别的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据。
具体地,获取当前待进行异常识别的交易订单对应的订单数据和基本数据,具体包括哪些数据参看前述家装公司异常识别模型建立方法的实施例,此处不再赘述。
在步骤202处,将所述订单数据中的装修价格输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述LOF模型中,获得对应的LOF分数的分位数,基于预设分位数阈值判断是否标记为第一异常。
具体地,将获取的当前待异常识别的订单数据中的装修价格输入LOF模型中,根据LOF离群因子检测算法计算出LOF分数,此分数即为异常得分。在一些实施例中,分位数阈值为0.9,当LOF分数为升序排序时,将0.9分位数(分位数阈值)以上的标记为第一异常,即前述的标记为“异常_LOF”。(LOF分数值越大,该数据越异常;LOF分数值越小,数据越正常。)
在步骤203处,将所述基本数据和所述订单数据输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述自编码模型中,获取所述自编码器模型的输入数据和输出数据之间的误差,基于所述误差的预设范围,判断是否标记为第二异常。
具体地,将当前待异常识别的所述基本数据和所述订单数据输入自编码模型中,通过计算获取自编码器模型的输入数据和输出数据之间的误差,在一些实施例中,默认可以选择使用MAE(平均绝对误差),设置最大MAE为阈值范围(预设范围),当根据训练好的模型得到新的数据输出与数据输入的MAE大于正常数据阈值(预设范围)时,认为是异常值(标记为第二异常,即前文所述的标记为“异常_auctoencoder”),否则是正常值。
在步骤204处,基于所述第一异常和所述第二异常的标记,对所述家装交易订单和对应的所述家装公司执行相应的操作。
在一些实施例中,当同时获得所述第一异常和所述第二异常的标记时,对所述家装交易订单和对应的所述家装公司进行预警,并结合风控策略进行处置;
当仅获得所述第一异常或所述第二异常的标记时,将所述家装交易订单和对应的所述家装公司计入重点监控名单,并结合所述风控策略进行处置。
具体地,当数据同时满足“异常_LOF”和“异常_auctoencoder”时,标记数据结果为“异常”;当数据只满足“异常_LOF”或“异常_auctoencoder”时,标记数据结果为“待观察”;当数据既不满足“异常_LOF”,又不满足“异常_auctoencoder”时,标记数据结果为“正常”。
标记数据结果为“异常”的,即为需要重点关注的风险较大的装修公司订单,需要对该公司及订单进行预警,并结合风控策略进行处置。
标记数据结果为“待观察”的,计入重点监控名单,一旦触发相关风控策略,即可进行处理;
标记数据结果为“正常”的,不进行风控处理,认为是正常订单,不做任何处理。
在进行家装价格异常检测时,首先对不同的装修类型进行了细分,有利于算法找出不同装修类型内的异常价格;同时,相比于聚类和统计概率分布法识别异常,LOF算法更简单、直观,不需要假设数据服从特定的概率分布,且能直接输出异常得分。在异常价格的确定中,还能结合专家经验,灵活调整异常识别阈值,对异常的装修价格可以有很好的识别效果。基于Autoencoder自编码算法进行家装公司异常识别,是一种无监督的算法,训练样本不需要设置异常坏样本标签,避免了专家识别异常样本的成本,且该方法是一种深度学习算法,对异常,尤其是问题较大,偏离正常分布的样本识别效果更好。两种算法的融合可以综合两种算法的优点,同时降低单一算法训练的误差。
通过上述方法,对家装价格相关数据进行整理,并基于LOF与自编码器算法进行融合,根据两个模型融合后的结果对家装价格进行异常检测,通过价格异常的检测和监控来防范交易风险,帮助银行等家装的金融合作机构进行风险防控,可以增加模型的可靠性,减少识别误差,提高识别效率。
图3为本申请实施例提供的一种家装公司异常识别装置的模块框图。该装置包括:
存储器301;以及与所述存储器301连接的处理器302,所述处理器302被配置成:获取待异常识别的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;
将所述订单数据中的装修价格输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述LOF模型中,获得对应的LOF分数的分位数,基于预设分位数阈值判断是否标记为第一异常;
将所述基本数据和所述订单数据输入根据前文所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述自编码模型中,获取所述自编码器模型的输入数据和输出数据之间的误差,基于所述误差的预设范围,判断是否标记为第二异常;
基于所述第一异常和所述第二异常的标记,对所述家装交易订单和对应的所述家装公司执行相应的操作。
在一些实施例中,所述处理器302还被配置成:当同时获得所述第一异常和所述第二异常的标记时,对所述家装交易订单和对应的所述家装公司进行预警,并结合风控策略进行处置;
当仅获得所述第一异常或所述第二异常的标记时,将所述家装交易订单和对应的所述家装公司计入重点监控名单,并结合所述风控策略进行处置。
具体实现方法参考前述方法实施例,此处不再赘述。
本申请可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
虽然,上文中已经用一般性说明及具体实施例对本申请作了详尽的描述,但在本申请基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本申请精神的基础上所做的这些修改或改进,均属于本申请要求保护的范围。
Claims (10)
1.一种家装公司异常识别模型建立方法,其特征在于,包括以下步骤:
获取历史的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;
基于每种装修类型和房屋类型对应的所述订单数据中的装修价格,构建样本空间,基于所述样本空间,构建LOF模型;
对每种装修类型和房屋类型对应的所述基本数据和所述订单数据划分训练集和测试集,所述训练集中的数据均为正常样本;
构建自编码器模型,使用所述训练集对所述自编码器模型进行训练,使用所述测试集对所述自编码器模型的泛化性进行验证;
将所述LOF模型和训练后的所述自编码器模型作为所述家装公司异常识别模型。
2.根据权利要求1所述的家装公司异常识别模型建立方法,其特征在于,构建所述LOF模型的方法包括:
对所述样本空间进行去重,分别得到每一个样本点到所述样本空间中其余所述样本点的距离,对所述距离进行排序;
基于制定的近邻样本个数K,寻找每个所述样本点的K近邻样本点,获取所述样本点的LOF分数;
设置排序后的所述LOF分数的分位数阈值,将超过该分位数阈值的LOF分数所对应的所述家装交易订单标记为异常订单。
3.根据权利要求1所述的家装公司异常识别模型建立方法,其特征在于,构建所述自编码器模型的方法包括:
构建对应的神经网络,所述神经网络包括编码器、中间层编码和解码器,所述编码器的神经元个数与所述训练集输入变量的个数相同,所述中间层编码预设三个所述神经元,所述神经网络的激活函数为Elu。
4.根据权利要求1所述的家装公司异常识别模型建立方法,其特征在于,在构建所述自编码器模型之前,还包括:
对所述训练集和所述测试集进行最大最小归一化处理,所述训练集和所述测试集中的分类变量进行独热编码处理。
5.根据权利要求1所述的家装公司异常识别模型建立方法,其特征在于,在获取所述基本数据和所述订单数据之后,构建所述LOF模型和所述自编码器模型之前,还包括:
对所述基本数据和所述订单数据进行结构化处理,包括以所述订单数据中的订单ID为主键,关联所述基本数据。
6.根据权利要求1所述的家装公司异常识别模型建立方法,其特征在于,
所述人相关数据包括:法定代表人征信数据、名下关联公司数、法定代表人负面信息、企业员工数和/或缴纳社保员工数;
所述公司相关数据包括:公司注册资本金、实缴资本金;年营业金额、年营业笔数、最近一年营业金额、最近一年营业笔数、最近一年完成装修笔数、近一年装修面积、近一年装修单价、近一年装修业务小区均价、公司成立年数和/或公司缴税金额;
所述订单数据包括:所述订单ID、装修公司、装修缴费距今时间、装修价格、近一年房屋所在小区平均每平米房屋成交价格和/或装修房屋面积。
7.一种家装公司异常识别方法,其特征在于,包括:
获取待异常识别的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;
将所述订单数据中的装修价格输入根据权利要求1至6任一项所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述LOF模型中,获得对应的LOF分数的分位数,基于预设分位数阈值判断是否标记为第一异常;
将所述基本数据和所述订单数据输入根据权利要求1至6任一项所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述自编码模型中,获取所述自编码器模型的输入数据和输出数据之间的误差,基于所述误差的预设范围,判断是否标记为第二异常;
基于所述第一异常和所述第二异常的标记,对所述家装交易订单和对应的所述家装公司执行相应的操作。
8.根据权利要求7所述的家装公司异常识别方法,其特征在于,还包括:
当同时获得所述第一异常和所述第二异常的标记时,对所述家装交易订单和对应的所述家装公司进行预警,并结合风控策略进行处置;
当仅获得所述第一异常或所述第二异常的标记时,将所述家装交易订单和对应的所述家装公司计入重点监控名单,并结合所述风控策略进行处置。
9.一种家装公司异常识别装置,其特征在于,包括:
存储器;以及
与所述存储器连接的处理器,所述处理器被配置成:
获取待异常识别的家装公司风险相关的基本数据和家装交易订单相关的订单数据,所述基本数据包括人相关数据和公司相关数据,所述人相关数据包括所述家装公司的企业主和员工的信息数据;
将所述订单数据中的装修价格输入根据权利要求1至6任一项所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述LOF模型中,获得对应的LOF分数的分位数,基于预设分位数阈值判断是否标记为第一异常;
将所述基本数据和所述订单数据输入根据权利要求1至6任一项所述的家装公司异常识别模型建立方法所获得的所述家装公司异常识别模型的所述自编码模型中,获取所述自编码器模型的输入数据和输出数据之间的误差,基于所述误差的预设范围,判断是否标记为第二异常;
基于所述第一异常和所述第二异常的标记,对所述家装交易订单和对应的所述家装公司执行相应的操作。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被机器执行时实现如权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211651781.1A CN115860874A (zh) | 2022-12-21 | 2022-12-21 | 一种家装公司异常识别模型建立方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211651781.1A CN115860874A (zh) | 2022-12-21 | 2022-12-21 | 一种家装公司异常识别模型建立方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115860874A true CN115860874A (zh) | 2023-03-28 |
Family
ID=85653632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211651781.1A Pending CN115860874A (zh) | 2022-12-21 | 2022-12-21 | 一种家装公司异常识别模型建立方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115860874A (zh) |
-
2022
- 2022-12-21 CN CN202211651781.1A patent/CN115860874A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Andrés et al. | Bankruptcy forecasting: A hybrid approach using Fuzzy c-means clustering and Multivariate Adaptive Regression Splines (MARS) | |
CN110751557B (zh) | 一种基于序列模型的异常资金交易行为分析方法及系统 | |
Maher et al. | Predicting bond ratings using neural networks: a comparison with logistic regression | |
Callejón et al. | A System of Insolvency Prediction for industrial companies using a financial alternative model with neural networks | |
CN113095927B (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN111260189A (zh) | 一种风险控制方法、装置、计算机系统及可读存储介质 | |
Cheng et al. | A Seasonal Time‐Series Model Based on Gene Expression Programming for Predicting Financial Distress | |
Jandaghi et al. | Identification of the most critical factors in bankruptcy prediction and credit classification of companies | |
Wu et al. | Tedm-pu: A tax evasion detection method based on positive and unlabeled learning | |
Noviandy et al. | Enhancing loan approval decision-making: an interpretable machine learning approach using LightGBM for digital economy development | |
Fieberg et al. | Machine learning in accounting research | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
CN117575595A (zh) | 支付风险识别方法、装置、计算机设备及存储介质 | |
Chen et al. | Financial distress prediction using data mining techniques | |
Lee | Enterprise credit risk evaluation models: A review of current research trends | |
CN115860874A (zh) | 一种家装公司异常识别模型建立方法及其应用 | |
CN115358878A (zh) | 理财用户风险偏好等级分析方法及装置 | |
Zang | Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network | |
Zhang et al. | Alternative Data and Artificial Intelligence Techniques | |
Khan et al. | The Riskiness of Risk Models: Assessment of Bankruptcy Risk of Non-Financial Sector of Pakistan | |
Dzelihodzic et al. | Data Mining Techniques for Credit Risk Assessment Task | |
Kusaya et al. | Insider Abuse and Fraud Prediction for US Banks: A Comparison of Machine Learning Approaches | |
CN115641146A (zh) | 一种家装公司异常检测方法、装置及存储介质 | |
Pal et al. | Application of data mining techniques in health fraud detection | |
Lombardo et al. | Deep Learning with Multi-Head Recurrent Neural Networks for Bankruptcy Prediction with Time Series Accounting Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |