发明内容
本发明的主要目的在于提供一种经营数据审核方法、装置及计算机可读存储介质,旨在提高企业信贷评估过程中对异常经营数据的识别能力,降低企业贷款坏账率。
为实现上述目的,本发明提供一种经营数据审核方法,所述经营数据审核包括以下步骤:
获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;
在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;
将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。
可选地,所述根据所述企业样本数据在预设坐标系中构造模拟标准均线的步骤包括:
将所述企业样本数据量化为多维样本组;
基于遗传算法对所述多维样本组进行分析学习和加权计算,获得对应的模拟加权量;
根据所述多维样本组和模拟加权量在预设坐标系中绘制模拟加权点,并根据所述模拟加权点拟合得到模拟标准均线。
可选地,所述多维样本组包括维度为m的多维样本基因,
基于遗传算法对所述多维样本组进行分析学习和加权计算,获得对应的模拟加权量的步骤包括:
根据所述多维样本基因构造模拟加权方程
hθ(x)=θ0+θ1x1+θ2x2+…+θmxm,
其中,hθ(x)为所述多维样本组对应的模拟加权量,x1、x2、...、xm为样本基因,θ0、θ1、θ2、...、θm为加权系数;
将所述模拟加权方程转化成为对应的模拟矩阵方程
其中,θT为所述加权系数对应的系数矩阵;
构造所述模拟矩阵方程对应的平方损失函数
其中,y(i)为所述多维样本组的标签值;
基于梯度下降公式和所述平方损失函数进行迭代计算,确定所述系数矩阵θT,并根据所述系数矩阵θT、模拟矩阵方程计算所述多维样本组对应的模拟加权量。
可选地,所述梯度下降公式包括
其中,α为迭代步长。
可选地,所述根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线的步骤包括:
将所述企业经营数据量化为多维经营数据组,并对所述多维经营数据组进行加权运算,获得对应的经营加权量;
根据所述多维经营数据组和经营加权量在所述预设坐标系中拟合得到企业经营线;
所述将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常的步骤包括:
根据预设会计周期在所述企业经营线中选取对应的会计点,并判断所述会计点是否位于所述模拟置信区间之外的区域;
若所述会计点位于所述模拟置信区间之外的区域,则确定所述会计点对应的企业经营数据异常。
可选地,所述在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线的步骤包括:
在接收到借款请求时,根据所述借款请求中包括的授权许可生成对应的数据获取请求;
将所述数据获取请求发送至所述借款企业的数据管理系统,以获取所述借款企业的企业经营数据;
在接收到所述数据管理系统返回的企业经营数据时,根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线。
可选地,所述将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常的步骤之后,还包括:
根据所述企业经营数据、企业经营线、模拟置信区间生成对应的数据审核报告,并显示所述数据审核报告。
此外,为实现上述目的,本发明还提供一种经营数据审核装置,所述经营数据审核装置包括:
区间获取模块,用于获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;
经营线拟合模块,用于在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;
数据判断模块,用于将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。
此外,为实现上述目的,本发明还提供一种经营数据审核设备,所述经营数据审核设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的经营数据审核程序,其中所述经营数据审核程序被所述处理器执行时,实现如上述的经营数据审核方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述可读存储介质上存储有经营数据审核程序,其中所述经营数据审核程序被所述处理器执行时,实现如上述的经营数据审核方法的步骤。
本发明通过获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。通过以上方式,本发明以机器学习的方式对大规模的企业数据进行学习,拟合出一条企业经营的均线及模拟置信区间,再通过该均线和模拟置信区间对借款企业的经营数据进行审核,从而判断借款企业的经营数据是否真实可信,识别出借款企业的欺诈行为,降低人类思维局限性对企业借贷的不利影响,提高风险评估的准确性,从而降低企业信贷的坏账率。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例方案的主要思路是:获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。
本发明实施例涉及的经营数据审核方法主要应用于经营数据审核设备。
参照图1,图1为本发明实施例方案中涉及的经营数据审核设备的硬件结构示意图。本发明实施例中,经营数据审核设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该经营数据审核设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器,环境光传感器可根据环境光线的明暗来调节显示屏的亮度。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别经营数据审核设备姿态的应用(比如横竖屏切换、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,该经营数据审核设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的经营数据审核设备的硬件结构并不构成对经营数据审核设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及经营数据审核程序。
在图1中,网络通信模块主要用于连接数据库,与数据库进行数据通信;而处理器1001可以调用存储器1005中存储的经营数据审核程序,并执行以下操作:
获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;
在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;
将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。
进一步的,所述根据所述企业样本数据在预设坐标系中构造模拟标准均线的步骤包括:
将所述企业样本数据量化为多维样本组;
基于遗传算法对所述多维样本组进行分析学习和加权计算,获得对应的模拟加权量;
根据所述多维样本组和模拟加权量在预设坐标系中绘制模拟加权点,并根据所述模拟加权点拟合得到模拟标准均线。
进一步的,所述多维样本组包括维度为m的多维样本基因,
基于遗传算法对所述多维样本组进行分析学习和加权计算,获得对应的模拟加权量的步骤包括:
根据所述多维样本基因构造模拟加权方程
hθ(x)=θ0+θ1x1+θ2x2+…+θmxm,
其中,hθ(x)为所述多维样本组对应的模拟加权量,x1、x2、...、xm为样本基因,θ0、θ1、θ2、...、θm为加权系数;
将所述模拟加权方程转化成为对应的模拟矩阵方程
其中,θT为所述加权系数对应的系数矩阵;
构造所述模拟矩阵方程对应的平方损失函数
其中,y(i)为所述多维样本组的标签值;
基于梯度下降公式和所述平方损失函数进行迭代计算,确定所述系数矩阵θT,并根据所述系数矩阵θT、模拟矩阵方程计算所述多维样本组对应的模拟加权量。
进一步的,所述梯度下降公式包括
其中,α为迭代步长。
进一步的,所述根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线的步骤包括:
将所述企业经营数据量化为多维经营数据组,并对所述多维经营数据组进行加权运算,获得对应的经营加权量;
根据所述多维经营数据组和经营加权量在所述预设坐标系中拟合得到企业经营线;
所述将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常的步骤包括:
根据预设会计周期在所述企业经营线中选取对应的会计点,并判断所述会计点是否位于所述模拟置信区间之外的区域;
若所述会计点位于所述模拟置信区间之外的区域,则确定所述会计点对应的企业经营数据异常。
进一步的,所述在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线的步骤包括:
在接收到借款请求时,根据所述借款请求中包括的授权许可生成对应的数据获取请求;
将所述数据获取请求发送至所述借款企业的数据管理系统,以获取所述借款企业的企业经营数据;
在接收到所述数据管理系统返回的企业经营数据时,根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线。
进一步的,处理器1001还可以调用存储器1005中存储的经营数据审核程序,并执行以下操作:
根据所述企业经营数据、企业经营线、模拟置信区间生成对应的数据审核报告,并显示所述数据审核报告。
基于上述经营数据审核设备的硬件结构,提出本发明经营数据审核方法的各个实施例。
本发明提供一种经营数据审核方法。
参照图2,图2为本发明经营数据审核方法第一实施例的流程示意图。
本实施例中,所述经营数据审核方法包括以下步骤:
步骤S10,获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;
本实施例中提出一种经营数据审核方法,通过对大规模的企业数据进行学习,拟合出一条企业经营的均线及模拟置信区间,再通过该均线和模拟置信区间对借款企业的经营数据进行检测,从而判断借款企业的经营数据是否真实可信,识别出借款企业的欺诈行为,降低人类思维局限性对企业借贷的不利影响,提高风险评估的准确性,从而降低信贷的坏账率。
本实施例中通过对大规模的企业数据进行学习,通过linear regression(线性回归)的方式可以拟合出一条企业经营的均线,该均线可称为模拟标准均线;对于绝大多数的企业在经营过程所产生的经营数据,在采用相同的方法进行拟合时,所得到的拟合点应该是围绕此均线进行波动的;反之,对于显著背离此模拟标准均线的经营数据,将被认为是异常,该企业的经营状况是不满足放款条件(当然也可能是该数据是伪造的)。
考虑到企业经营数据的数据量较为庞大,若由工作人员进行分析以及均线拟合,往往需要花费较多的时间;同时,所得到的分析和拟合结果容易被专业人员的思维局限等主观因素所影响,从而影响了均线的适用性。因此,本实施例中通过机器学习的方式构造AI风控构造出模拟标准均线。其中,机器学习是指不依赖人类来总结经验、输入逻辑,人类只需要把大量的企业经营数据输入给计算机,然后由计算机自己总结出其中的数据关系,归纳出相应的逻辑代码,从而得到一个数据转换规则,形成对应的拟合公式。
本实施例中,在通过机器学习的方式进行数据分析的过程,还将引入遗传算法进行分析。值得说明的是,遗传算法是一种优胜劣汰的思想,而非特定的数学模型。在机器学习的过程中,显著地导致经营预期偏离均值的因子(某一类经营数据)将被计算机理解为可能导致较差的预测预期的基因,与之相关的企业将被打上欺诈标签,且此基因将被记录;另一方面,还将保留下能够产生正向结果的基因(如年度营收增幅介于区间[5.0%~15.0%])。本实施例中通过对离群样本点的进行分析和识别,然后统计离群样本点中各类特定基因的分布,将占比高的基因记录下来,作为进一步预测的依据(其中的“基因”为企业经营过程所产生的数据,包括但不限于:营收、应收账款、流动资金、扣非后净利润、投资、折旧等),从而拟合出一条企业经营的模拟标准均线,绝大多数的企业进行的正常经营运作行为将围绕此均线波动。该均线的Y轴是一个高维向量在二维中的投影,根据不同的行业,一个企业的经营状况被量化成多维的经营向量,然后累加成一条均线(不依赖时间轴的分布模型),在通常情形下,绝大多数的企业的经营信息应该围绕在这条均线两侧不远处(模拟置信区间内),而离群点(模拟置信区间之外)将被标记为异常。
具体的,首先将获取企业样本数据,这些企业数据包括营收、应收账款、流动资金、扣非后净利润、投资、折旧等(当然还可以包括其它内容);这些数据往往是连续、且其各自统计周期又不同,例如营收是以日进行统计、流动资金是以月进行统计,此时需要先对企业样本数据进行预处理,以统一的时间为单位(或称为量化标准),将企业样本数据量化为若干个多维样本组,如以月为单元,将企业样本数据量化为多维样本组,该多维样本组中的多维样本基因包括1月多维样本基因、2月多维样本基因等。在预处理完成时,将基于遗传算法对所述多维样本组进行学习,分析多维样本组中各基因之间的关系,然后将各基因按照一定的加权关系进行加权计算,获得各多维样本组对应的模拟加权量。在得到模拟加权量时,即可在坐标系中拟合对应的模拟标准均线了;其中,坐标轴的x轴为时间,y轴为模拟加权量;根据多维样本组和模拟加权量在预设坐标系中绘制对应的模拟加权点,并根据所述模拟加权点拟合得到模拟标准均线。值得说明的是,虽然坐标轴中的x轴为时间,但并不代表模拟加权量是依赖时间的变化而变化,时间仅为企业样本数据的量化标准,其影响的是模拟标准均线的表现形式,而不是其中的拟合关系。
例如,以月为单位,对企业样本数据进行量化后,得到包括1月到8月共8个多维样本组,这些多维样本组中均包括m个维度的基因(也可称该多维样本组的维度为m)。其中某个月的多维样本基因可表示为x1、x2、...、xm。根据上述样本基因则可构造以下模拟加权方程
hθ(x)=θ0+θ1x1+θ2x2+…+θmxm ①
其中,hθ(x)为所述多维样本组对应的模拟加权量(可以营收作为模拟加权量进行冷启动),θ0、θ1、θ2、...、θm为加权系数。
为了计算的方便,可将上述模拟加权方程转化①成为对应的矩阵形式(可称为模拟矩阵方程)
其中,θT为所述加权系数对应的系数矩阵。
通过②式可看出,若需要计算模拟加权量,则需要确定系数矩阵θT。
此时首先可构造出平方损失函数
其中,y(i)为所述多维样本组的标签值。对于该平方损失函数③,可用来估量预测值(模拟加权量)与真实值的不一致程度,因此可通过③式来判断系数矩阵θT是否准确。而对于系数矩阵θT,本实施例中可采用梯度下降的方法进行迭代,即
对于④式可变化为
其中,α为迭代步长,也可理解为学习速率。
基于上述③④⑤式进行迭代计算,在经过若干轮的迭代,当前后2次迭代的系数矩阵θT的距离小于某一个预定值(如:0.000001)时,可认为算法收敛,此时可将后一轮的系数矩阵θT确定为最终计算迭代结果,并用以计算模拟加权量。在得到模拟加权量时,即可根据所述多维样本组和模拟加权量在预设坐标系中绘制模拟加权点,并根据所述模拟加权点拟合得到模拟标准均线。如图3所示,其中坐标轴的x轴为时间(月为单位),y轴为模拟加权量。值得说明的是,图3中的模拟标准均线时以折线的形式表示,这是因为数据采样是有周期的,而随着采样周期窗口的平滑滚动,季节及经济周期的因素会不可抗拒的生效,因此该模拟标准均线以折线的形式表示。
在得到该模拟标准均线时,可对该模拟标准均线分别进行上下平移操作,获得模拟置信区间;其中模拟标准均线平移的距离可以是根据实际情况进行设置和调整。
步骤S20,在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;
本实施例中,在得到模拟置信区间时,即可通过该模拟置信区间进行数据审核了。在接收到企业的借款请求时,将获取该借款企业的企业经营数据,然后采用步骤S10中相同的方式,对借款企业的企业经营数据进行量化,得到对应的多维经营数据组;在得到多维经营数据组时,运用步骤S10中计算得到的系数矩阵θT,对多维经营数据组中的数据基因进行加权计算,获得对应的经营加权量,该经营加权量即代表了该企业在某段时间内的经营情况。
在得到经营加权量时,可在坐标系中拟合对应的企业经营线了。其中,预设坐标轴的x轴为时间,y轴为模拟加权量;根据多维经营数据组和经营加权量在预设坐标系中绘制对应的经营加权点,并根据所述经营加权点拟合得到企业经营线。值得说明的是,对于企业经营线,可以是以折线的方式进行拟合,也可以是以曲线的方式进行拟合;而在进行经营线拟合时,可以是在模拟标准均线所在的同一坐标系中进行,从而使得经营线和模拟标准均线(模拟置信区间)显示在同一坐标系中,方便后续的对比处理。
步骤S30,将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。
在得到企业经营线和模拟置信区间时,即可对企业经营数据进行审核了。可将企业经营线和模拟置信区间进行对比,根据企业经营线和模拟置信区间的位置关系判断企业经营数据是否异常。如果企业经营线上的所有点均位于模拟置信区间之内、又或者企业经营线与模拟置信区间的偏差在预设许可范围内,则可认为该企业经营线对应的企业经营数据是正常的,该借款企业处于正常经营运作的状态;而如果企业经营线上的点,并非全部位于模拟置信区间之内,且企业经营线与模拟置信区间的偏差超过了预设许可范围,则可认为该企业经营线对应的企业经营数据是异常的,该借款企业处于异常经营运作的状态。
进一步的,对于企业经营线与模拟置信区间的比较,还可以是这样实现的:根据预设会计周期在企业经营线中选取若干个对应的会计点,然后分别判断这些会计点是否位于模拟置信区间之外的区域;如果某个会计点位于模拟置信区间之外,则可认为该会计点对应的企业经营数据异常。例如,在拟合企业经营线时,其多维经营数据组是包括1月到8月共8个多维样本组,而企业经营线也是根据这个8个月的多维样本组及对应的企业加强量拟合得到;在进行数据分析时,以10天作为一个会计周期,那么可在企业经营线上取得25个会计点(每个月都认为是30天,同时加上1月起始点);然后可分别判断这些会计点是否位于模拟置信区间之外的区域;若发现2月到3月之间的4个会计点均位于模拟置信区间之外,则可认为2月到3月的企业经营数据异常,该借款企业2月到3月处于异常经营运作的状态。同时,还可以预设一个允许异常值,如果会计点中位于模拟置信区间之外的异常会计点的个数超过了该允许异常值,可直接认为整条企业经营线与模拟置信区间的偏差超过了预设许可范围,此时认为该整条企业经营线都是不可信的,该借款企业的企业经营数据均为异常数据。
本实施例中,通过获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。通过以上方式,本实施例以机器学习的方式对大规模的企业数据进行学习,拟合出一条企业经营的均线及模拟置信区间,再通过该均线和模拟置信区间对借款企业的经营数据进行审核,从而判断借款企业的经营数据是否真实可信,识别出借款企业的欺诈行为,降低人类思维局限性对企业借贷的不利影响,提高风险评估的准确性,从而降低企业信贷的坏账率。
参照图4,图4为图2所述在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线的细化流程示意图。
基于上述图2所示实施例,步骤S20包括:
步骤S21,在接收到借款请求时,根据所述借款请求中包括的授权许可生成对应的数据获取请求;
本实施例中,经营数据审核设备在接收到借款企业的借款请求时,需要获取到该借款企业相关的企业经营数据,以对借款企业的经营状态进行分析。而对于这些企业经营数据,是在企业日常经营行为中产生的,往往由借款企业直接进行采集并记录在其自身的数据管理系统;这些经营数据是可以反映企业的经营状况的,其会涉及到企业的商业秘密。因此,若要获取这些数据,需要先得到借款企业的授权许可。具体的,借款企业在申请借款时,将会在发送的借款请求中添加入相关的授权许可信息,以表示授权数据审核设备访问数据管理系统并获取对应的企业经营数据;经营数据审核设备在接收到该借款请求时,将提取出其中的授权许可,并根据该许可信息生成对应数据获取请求。
进一步的,为了避免该借款请求在发送过程被非法第三方截获,导致授权许可被非法第三方使用,还可以预先与经营数据审核设备约定传输协议,然后根据协议内容先对授权许可进行加密,在加密完成时再将其添加入借款请求中进行发送,提高信息传输的安全性;经营数据审核设备在接收到该借款请求时,则先根据传输协议对借款请求进行解密,获取其中的授权许可,再根据该授权许可生成对应的数据取请求。
步骤S22,将所述数据获取请求发送至所述借款企业的数据管理系统,以获取所述借款企业的企业经营数据;
本实施例中,经营数据审核设备在生成数据获取请求时,即可将该数据获取请求发送到借款企业的数据管理系统,以获取对应的企业经营数据。该数据管理在接收到数据获取请求时,首先将对数据获取请求中的包括授权许可进行验证,判断该授权许可的真伪性,同时确认经营数据审核设备的数据获取权限(即可以获取什么范围内的企业经营数据);在确认通过时,将根据数据获取请求中包括的请求内容获取对应的企业经营数据,并将其返回至经营数据审核设备。类似的,为了确保数据获取请求发送过程的安全性,可采用步骤S21中的加密手段进行加密处理,此处不再赘述。
步骤S23,在接收到所述数据管理系统返回的企业经营数据时,根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线
数据管理系统在接收到数据管理系统返回的企业经营数据时,即采用步骤S10中相同的方式,对借款企业的企业经营数据进行量化,得到对应的多维经营数据组;在得到多维经营数据组时,对多维经营数据组中的数据基因进行加权计算,获得对应的经营加权量,该经营加权量即代表了该企业在某段时间内的经营情况;在得到经营加权量时,即可在坐标系中拟合对应的企业经营线了。
参照图5,图5为本发明经营数据审核方法第二实施例的流程示意图。
基于上述图2或图4所示实施例,本实施例中,步骤S30之后还包括:
步骤S40,根据所述企业经营数据、企业经营线、模拟置信区间生成对应的数据审核报告,并显示所述数据审核报告。
本实施例中,在根据企业经营线和模拟置信区间的关系对企业经营数据的正常性进行判断后,还可生成对应的数据审核报告。该数据审核报告中包括了审核过程使用到的企业经营数据,还包括步骤S10所得到的模拟标准均线、模拟置信区间以及步骤S20所得的企业经营线。为了方便决策人员了解,对于模拟标准均线、模拟置信区间和企业经营线,可以是在同一个坐标系中进行显示,同时对于异常点(异常经营数据)可突出显示(如显示颜色的不同、线段加粗等)。而在数据审核报告中,由于涉及到大量数据,因此可自定义数据的显示方式。例如,企业经营数据中包括了借款企业的某个时间段的营收,该营收可以以折线图的形式进行显示,方便决策人员了解借款企业的营收变化;而对于企业的支出情况,则可以用饼状图的方式进行显示,方便决策人员了解借款企业每个月对不同事物的资金投入情况。
此外,本发明还提供一种经营数据审核装置。
参照图6,图6为本发明经营数据审核装置第一实施例的功能模块示意图。
本实施例中,所述经营数据审核装置包括:
区间获取模块10,用于获取企业样本数据,根据所述企业样本数据在预设坐标系中构造模拟标准均线,并基于所述模拟标准均线获取模拟置信区间;
经营线拟合模块20,用于在接收到借款请求时,获取所述借款请求对应借款企业的企业经营数据,并根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线;
数据判断模块30,用于将所述企业经营线和模拟置信区间进行对比,根据所述企业经营线和模拟置信区间的关系判断所述企业经营数据是否异常。
进一步的,所述区间获取模块10还包括:
第一量化单元,用于将所述企业样本数据量化为多维样本组;
第一计算单元,用于基于遗传算法对所述多维样本组进行分析学习和加权计算,获得对应的模拟加权量;
第一拟合单元,用于根据所述多维样本组和模拟加权量在预设坐标系中绘制模拟加权点,并根据所述模拟加权点拟合得到模拟标准均线。
进一步的,所述多维样本组包括维度为m的多维样本基因,所述第一计算单元还用于:
根据所述多维样本基因构造模拟加权方程
hθ(x)=θ0+θ1x1+θ2x2+…+θmxm,
其中,hθ(x)为所述多维样本组对应的模拟加权量,x1、x2、...、xm为样本基因,θ0、θ1、θ2、...、θm为加权系数;
将所述模拟加权方程转化成为对应的模拟矩阵方程
其中,θT为所述加权系数对应的系数矩阵;
构造所述模拟矩阵方程对应的平方损失函数
其中,y(i)为所述多维样本组的标签值;
基于梯度下降公式和所述平方损失函数进行迭代计算,确定所述系数矩阵θT,并根据所述系数矩阵θT、模拟矩阵方程计算所述多维样本组对应的模拟加权量。
进一步的,所述梯度下降公式包括
其中,α为迭代步长。
进一步的,所述经营线拟合模块20,还包括:
第二计算单元,用于将所述企业经营数据量化为多维经营数据组,并对所述多维经营数据组进行加权计算,获得对应的经营加权量;
第二拟合单元,用于根据所述多维经营数据组和经营加权量在所述预设坐标系中拟合得到企业经营线;
所述数据判断模块30,还包括:
会计点选取单元,用于根据预设会计周期在所述企业经营线中选取对应的会计点,并判断所述会计点是否位于所述模拟置信区间之外的区域;
异常确定单元,用于若所述会计点位于所述模拟置信区间之外的区域,则确定所述会计点对应的企业经营数据异常。
进一步的,所述经营线拟合模块20,还包括:
请求生成单元,用于在接收到借款请求时,根据所述借款请求中包括的授权许可生成对应的数据获取请求;
请求发送单元,用于将所述数据获取请求发送至所述借款企业的数据管理系统,以获取所述借款企业的企业经营数据;
数据接收单元,用于在接收到所述数据管理系统返回的企业经营数据时,根据所述企业经营数据在所述预设坐标系中拟合对应的企业经营线
其中,上述经营数据审核装置中各个模块与上述经营数据审核方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有经营数据审核程序,所述可读存储介质上存储有经营数据审核程序,其中所述经营数据审核程序被处理器执行时,实现如上述的经营数据审核方法的步骤。
其中,经营数据审核程序被执行时所实现的方法可参照本发明经营数据审核方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。